学位论文 > 优秀研究生学位论文题录展示

基于词典的中文分词技术研究

作 者: 郭瞳康
导 师: 殷景华
学 校: 哈尔滨理工大学
专 业: 微电子学与固体电子学
关键词: 中文分词 最大匹配方法 分词词典 歧义处理 词频统计
分类号: TP391.1
类 型: 硕士论文
年 份: 2010年
下 载: 189次
引 用: 1次
阅 读: 论文下载
 

内容摘要


随着现代信息技术的发展,自动分词技术已经广泛应用在信息检索、信息抽取、机器翻译、语音合成等自然语言处理领域,同时结合中文文本的特点,自动分词技术的研究已经成为中文信息处理的一项基础性课题。中文分词技术主要研究将待处理文本利用分词算法切分成词,便于计算机对文本信息进行处理、理解和传递。在实现分词的过程中,主要难点是歧义处理和未登录词识别。本文结合现有相关分词技术理论与实现的方法,通过最大匹配算法与词频统计算法的结合,对中文文本分词技术进行深入研究与实践。本文在传统单一词典基础上,将其分为特征词典和基本词词典两部分,优化分词词典中对于词条的存储结构;采用双字哈希索引结构,将词典中的词按前两个字为索引关键字进行存储,提高匹配查找的速度和准确率;增加对姓名、专属名词、地名和数量词切分准确性,提高分词系统的性能指标。同时,在分词算法上,主要采用正向与反向最大匹配分词结合的双向分词,将双向匹配所产生的歧义字段应用词频信息进行判断,完成对词语间歧义和未登录词的处理。采用C#作为开发工具,在分词结果中,实现对存在严重歧义的短语和段落无明显歧义字段;通过对比实验,分词准确性优于单一使用最大正向匹配的分词算法。

全文目录


摘要  5-6
Abstract  6-10
第1章 绪论  10-17
  1.1 引言  10
  1.2 本文研究的背景及意义  10-11
  1.3 分词技术的发展概况及现状  11-13
  1.4 分词技术待解决问题  13-16
    1.4.1 分词的规范  14
    1.4.2 歧义的识别  14-15
    1.4.3 未登录词的识别  15-16
  1.5 课题来源及主要研究内容  16-17
    1.5.1 课题来源  16
    1.5.2 主要研究内容  16-17
第2章 中文自动分词技术基础  17-26
  2.1 中文自动分词的特点  17-18
  2.2 中文分词的基本方法  18-23
    2.2.1 基于字符串匹配的分词方法  18-20
    2.2.2 基于理解的分词方法  20-21
    2.2.3 基于概率的分词方法  21-23
  2.3 几种典型中文分词系统  23-25
    2.3.1 清华大学SEG 分词系统  23-24
    2.3.2 北大计算语言所分词系统  24
    2.3.3 复旦分词系统  24
    2.3.4 中科院ICTCLAS 分词系统  24-25
  2.4 本章小结  25-26
第3章 基于词典的中文分词系统结构  26-32
  3.1 分词系统流程  26-27
  3.2 待切分文本预处理  27
  3.3 正向最大匹配算法流程  27-29
  3.4 逆向最大匹配算法流程  29-30
  3.5 歧义处理算法流程  30-31
  3.6 本章小结  31-32
第4章 基于词典的中文分词算法设计  32-42
  4.1 总体设计思想  32
  4.2 词典的建立  32-34
  4.3 词典的设计  34-36
  4.4 待切分文本算法的实现  36-41
    4.4.1 预处理算法实现  36-37
    4.4.2 最大匹配分词算法实现  37-39
    4.4.3 词频信息对歧义的处理  39-41
  4.5 本章小结  41-42
第5章 系统分析与评价  42-48
  5.1 实验评测标准  42-43
  5.2 系统界面  43-44
  5.3 系统性能测试  44-46
  5.4 系统不足与展望  46-47
  5.5 本章小结  47-48
结论  48-49
参考文献  49-52
攻读学位期间发表的学术论文  52-53
致谢  53

相似论文

  1. 基于条件随机场的中文分词技术的研究与实现,TP391.1
  2. 主观题自动评分技术研究,TP391.1
  3. 企业邮件监管系统的设计与实现,TP393.098
  4. 基于词典和概率统计的中文分词算法研究,TP391.1
  5. 基于云计算的海量数据存储技术的研究及应用,TP333
  6. 基于Berkeley DB的图像信息索引机制的设计与实现,TP391.3
  7. 《万历野获编》分词理论与实践,H141
  8. 《水浒传》词频分析,H131
  9. 郑州电视台中文自动分词系统研究与实现,TP391.1
  10. 面向企业信息检索的中文分词系统的研究与实现,TP391.1
  11. 竞争对手网站商业情报挖掘,TP311.13
  12. 搜索引擎中文分词技术研究,TP391.1
  13. 基于词频统计的齐夫定律汉语适用性研究,TP391.1
  14. 基于双字哈希的PAT树词典机制的研究,TP391.1
  15. 基于个性化搜索的网页特征提取相关技术的研究,TP391.1
  16. 基于机器学习算法的Web文本挖掘应用研究,TP391.1
  17. 分词词典的构建,TP391.1
  18. 社会网络分析在学科热点分析中的实证研究,G350
  19. 中文分词算法的研究与实现,TP391.1
  20. 中文垃圾邮件过滤技术研究,TP393.098

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com