学位论文 > 优秀研究生学位论文题录展示
中文分词系统的设计和实现
作 者: 张小欢
导 师: 彭启琮
学 校: 电子科技大学
专 业: 通信与信息系统
关键词: 中文自动分词 人名识别 隐马尔科夫模型
分类号: TP391.1
类 型: 硕士论文
年 份: 2010年
下 载: 359次
引 用: 3次
阅 读: 论文下载
内容摘要
中文分词是机器学习,自然语言处理中的一个基础部分,中文分词处理要对输入的中文语句在字、词、句三个层面上进行处理。在中文中,词是最小的语言单位,只有处理好中文分词的问题,才能更好地进一步处理中文语句,所以中文分词是中文处理技术的基础。相对于英文,中文分词是一个相对复杂的问题。由于英文中词与词之间是用空格隔开,检索方便,也就不存在分词的问题。而中文语句没有分隔符,因此想进行中文处理,就需要专门的技术,这种技术也就是中文分词。随着自然语言处理的发展,中文分词技术也得到了很大的进步。出现了众多的算法。根据它们的特点,可以将现有的分词算法分为四大类:基于字符串匹配的分词方法、基于理解的分词方法、基于统计的分词方法和基于语义的分词方法。因为每种方法都有各自的优点和劣势,所以目前单一使用一种方法并不能达到让人满意的效果,而将其中的两三种方法结合起来,优势互补,相对来讲会得到更好的分词结果。本文在总结前人工作基础上,完成并实现了一个中文分词系统,中文粗分词模块采用的是基于统计的N-最短路径算法,即在早期召回N个最佳结果作为候选集,目的是覆盖尽可能多的歧义字段。在中文人名识别模块,加入了基于Trie树的快速人名识别,然后通过一种改进了的基于角色标注的人名算法识别出未登录词中文人名。实验证明,该方法具有较好性能和实用性。
|
全文目录
摘要 4-5 Abstract 5-10 第一章 绪论 10-15 1.1 中文分词技术的研究背景和意义 10-11 1.2 中文分词技术的研究现状 11-13 1.3 中文分词技术的研究难点 13 1.4 本文的主要工作 13-15 第二章 中文分词处理技术的研究 15-25 2.1 基于字典直接匹配的分词方法 15-18 2.1.1 最大匹配算法 15-17 2.1.2 最少词切分方法 17 2.1.3 N-最短路径法 17-18 2.2 基于统计模型的分词算法 18-25 2.2.1 基于N-Gram 的中文分词方法 18-22 2.2.2 基于N-最短路径的统计粗分模型 22-25 第三章 中文人名识别现状和算法 25-41 3.1 中文人名分词的特点 25-27 3.2 中文人名识别的难点 27-28 3.3 中文人名识别的现有解决办法 28-29 3.4 基于角色标注的中文人名识别办法 29-41 3.4.1 马尔科夫模型 30-31 3.4.2 隐马尔科夫模型(HMM) 31-36 3.4.3 中文人名的构成角色 36-37 3.4.4 中文人名的角色标注与识别 37-40 3.4.5 角色信息的数据训练 40-41 第四章 中文分词系统的设计和实现 41-59 4.1 系统设计与原则 41-42 4.2 中文分词系统的设计 42-43 4.3 预处理模块 43-45 4.3.1 文档格式转换 44 4.3.2 文本断句/原子切分 44 4.3.3 简单英文单词纠错 44-45 4.4 中文分词模块 45-51 4.4.1 基于整词二分法的中文词典 45-47 4.4.2 中文的分词任务的实现 47-49 4.4.3 中文分词模块的模型求解 49-51 4.5 中文人名识别模块 51-55 4.5.1 基于Trie 树的中文词典 51-54 4.5.2 中文人名识别模块 54-55 4.6 系统设计模式的选取 55-59 第五章 实验及结果分析 59-66 5.1 实验评价标准 59-61 5.2 中文分词模块实验 61-63 5.3 人名识别模块实验 63-66 第六章 总结与展望 66-68 6.1 本文总结 66-67 6.2 未来展望 67-68 致谢 68-69 参考文献 69-72 个人简历 72 攻读硕士研究生期间完成的工作 72 研究生期间发表学术论文 72-73
|
相似论文
- 网页属性抽取的方法研究,TP391.1
- 基于统计和规则混合策略的中国人名识别研究,TP391.43
- 中文自动分词及人名识别技术研究,TP391.1
- 中文自动分词关键技术研究与实现,TP391.1
- 中文姓名自动识别系统的设计与实现,TP391.1
- 基于最大熵模型的中文人名识别方法研究,TP391.41
- 面向信息抽取的命名实体识别与模板获取技术研究,TP391.1
- 汉语文本人名识别改进方法研究,H08
- 基于信息抽取技术的博客知识发现研究,TP182
- 具有中文人名识别功能的汉语自动分词算法研究,TP391.1
- 基于类比学习的人名识别方法研究,TP391.1
- 基于进化模型的网络信息过滤关键技术研究,TP391.1
- 语音合成系统中自动分词技术的研究,TP391.1
- 基于本体与模糊数学的自动分词系统研究,TP391.1
- 中文自动分词法在全文检索中的研究及应用,TP391.3
- 基于Nutch的主题爬虫研究与实现,TP311.52
- 中文分词规范可计算化的研究与实现,TP391.1
- 网页内容过滤的关键技术研究及实现,TP393.092
- 基于分词技术的智能答疑系统,TP319
- 基于正向最大匹配算法的优化算法ImpFMMseg的实现,TP391.1
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|