学位论文 > 优秀研究生学位论文题录展示

中文分词系统的设计和实现

作　者: 张小欢
导　师: 彭启琮
学　校: 电子科技大学
专　业: 通信与信息系统
关键词: 中文自动分词人名识别隐马尔科夫模型
分类号: TP391.1
类　型: 硕士论文
年　份: 2010年
下　载: 359次
引　用: 3次
阅　读: 论文下载

内容摘要

中文分词是机器学习,自然语言处理中的一个基础部分,中文分词处理要对输入的中文语句在字、词、句三个层面上进行处理。在中文中,词是最小的语言单位,只有处理好中文分词的问题,才能更好地进一步处理中文语句,所以中文分词是中文处理技术的基础。相对于英文,中文分词是一个相对复杂的问题。由于英文中词与词之间是用空格隔开,检索方便,也就不存在分词的问题。而中文语句没有分隔符,因此想进行中文处理,就需要专门的技术,这种技术也就是中文分词。随着自然语言处理的发展,中文分词技术也得到了很大的进步。出现了众多的算法。根据它们的特点,可以将现有的分词算法分为四大类:基于字符串匹配的分词方法、基于理解的分词方法、基于统计的分词方法和基于语义的分词方法。因为每种方法都有各自的优点和劣势,所以目前单一使用一种方法并不能达到让人满意的效果,而将其中的两三种方法结合起来,优势互补,相对来讲会得到更好的分词结果。本文在总结前人工作基础上,完成并实现了一个中文分词系统,中文粗分词模块采用的是基于统计的N-最短路径算法,即在早期召回N个最佳结果作为候选集,目的是覆盖尽可能多的歧义字段。在中文人名识别模块,加入了基于Trie树的快速人名识别,然后通过一种改进了的基于角色标注的人名算法识别出未登录词中文人名。实验证明,该方法具有较好性能和实用性。

全文目录

摘要  4-5
Abstract  5-10
第一章绪论  10-15
  1.1 中文分词技术的研究背景和意义  10-11
  1.2 中文分词技术的研究现状  11-13
  1.3 中文分词技术的研究难点  13
  1.4 本文的主要工作  13-15
第二章中文分词处理技术的研究  15-25
  2.1 基于字典直接匹配的分词方法  15-18
    2.1.1 最大匹配算法  15-17
    2.1.2 最少词切分方法  17
    2.1.3 N-最短路径法  17-18
  2.2 基于统计模型的分词算法  18-25
    2.2.1 基于N-Gram 的中文分词方法  18-22
    2.2.2 基于N-最短路径的统计粗分模型  22-25
第三章中文人名识别现状和算法  25-41
  3.1 中文人名分词的特点  25-27
  3.2 中文人名识别的难点  27-28
  3.3 中文人名识别的现有解决办法  28-29
  3.4 基于角色标注的中文人名识别办法  29-41
    3.4.1 马尔科夫模型  30-31
    3.4.2 隐马尔科夫模型(HMM)  31-36
    3.4.3 中文人名的构成角色  36-37
    3.4.4 中文人名的角色标注与识别  37-40
    3.4.5 角色信息的数据训练  40-41
第四章中文分词系统的设计和实现  41-59
  4.1 系统设计与原则  41-42
  4.2 中文分词系统的设计  42-43
  4.3 预处理模块  43-45
    4.3.1 文档格式转换  44
    4.3.2 文本断句/原子切分  44
    4.3.3 简单英文单词纠错  44-45
  4.4 中文分词模块  45-51
    4.4.1 基于整词二分法的中文词典  45-47
    4.4.2 中文的分词任务的实现  47-49
    4.4.3 中文分词模块的模型求解  49-51
  4.5 中文人名识别模块  51-55
    4.5.1 基于Trie 树的中文词典  51-54
    4.5.2 中文人名识别模块  54-55
  4.6 系统设计模式的选取  55-59
第五章实验及结果分析  59-66
  5.1 实验评价标准  59-61
  5.2 中文分词模块实验  61-63
  5.3 人名识别模块实验  63-66
第六章总结与展望  66-68
  6.1 本文总结  66-67
  6.2 未来展望  67-68
致谢  68-69
参考文献  69-72
个人简历  72
攻读硕士研究生期间完成的工作  72
研究生期间发表学术论文  72-73

中文分词系统的设计和实现

内容摘要

全文目录

相似论文