学位论文 > 优秀研究生学位论文题录展示
统计与规则相结合的中文分词模型设计与实现
作 者: 贺欢
导 师: 周荣辉
学 校: 西南交通大学
专 业: 计算机软件与理论
关键词: 中文分词 扩充转移网络 隐马尔可夫模型 歧义识别 未登录词识别
分类号: TP391.1
类 型: 硕士论文
年 份: 2013年
下 载: 28次
引 用: 0次
阅 读: 论文下载
内容摘要
随着信息化的普及,人们的工作和学习已经离不开网络信息。同时,随着网络信息规模的不断扩大,如何高效、准确地获取相关的中文信息逐渐成为人们关注的问题。中文分词是中文信息处理的重要步骤,中文分词系统的分词精度直接影响着中文信息理解与处理的效率。因此,本文展开这一方面的研究具有重要的意义。首先,本文阐述了中文分词的研究背景与意义。分析了目前常用的三种中文分词方法的基本原理及各自的优缺点,并讨论了中文分词的两个技术难点:歧义识别和未登录词识别。对歧义产生的原因、分类和目前主流的歧义抽取及消除方法等作了详细的阐述,同时详细阐释了未登录词的分类和主要的识别方法。并对本文使用的几个统计模型进行了简单的介绍。其次,本文对基于层叠隐马分词模型和基于扩充转移网络(Augmented Transfer Network, ATN)的中文分词技术进行深入研究,提出将隐马模型和ATN句法分析相结合的中文分词框架,并在此基础上实现了中文分词系统原型。具体地,该系统使用基于统计的N-最短路径初分模型和ATN句法分析相结合的方法进行歧义切分;使用简单的规则识别数词和时间词;使用基于角色的未登录词识别方法识别出汉语人名和地名。继而将识别得到的未登录词和其它词一起参与竞争,建立基于类的隐马分词模型以获得全局最优的分词序列,并对该序列进行词性标注。最后,本文对该系统做了三个方面的分词实验。本文对搜集到的100句具有歧义现象的语料进行歧义切分对比实验,该系统能够正确分析其中的83句,而国内某分词系统能够正确分析其中的75句;随机选取六个不同领域的测试语料各一篇进行了开放测试;选取1998年《人民日报》的一段语料作为测试语料做对比实验,并将切分结果与国内某分词系统切分结果进行对比分析。由实验测试结果可知,本文的歧义识别效果好于国内某分词系统。通过任意选择六个领域的测试语料对本文进行测试,分词准确率平均值达到94.28%,分词召回率平均值达到96.25%,分词切分F-指数平均值达到95.25%。对比实验结果表明,本文分词召回率略高于国内某分词系统,总体分词准确率与国内某分词系统基本一致。
|
全文目录
摘要 6-7 Abstract 7-12 第1章 绪论 12-16 1.1 课题研究背景及意义 12-13 1.2 国内外研究现状分析 13-14 1.3 论文主要内容与章节安排 14-16 第2章 中文分词技术及相关统计模型理论基础 16-29 2.1 中文分词技术 16-18 2.1.1 基于字符串匹配的分词方法 16-17 2.1.2 基于理解的分词方法 17 2.1.3 基于统计的分词方法 17-18 2.2 中文分词两大难点 18-24 2.2.1 歧义识别 18-22 2.2.2 未登录词识别 22-24 2.3 统计模型理论基础 24-28 2.3.1 N-gram统计模型 24-25 2.3.2 基于统计的N-最短路径粗分模型 25-26 2.3.3 隐马尔可夫模型(HMM) 26-27 2.3.4 Viterbi算法 27-28 2.4 本章小结 28-29 第3章 分词系统总体框架设计与实现 29-46 3.1 分词系统总体框架 29-30 3.2 词典结构 30-31 3.3 初切分模块的设计与实现 31-38 3.3.1 分词前预处理 31 3.3.2 原子切分 31-33 3.3.3 全切分 33-35 3.3.4 权值计算 35-37 3.3.5 基于统计的N-最短路径初切分 37-38 3.4 未登录词识别 38-42 3.4.1 时间词和数字词识别 38-39 3.4.2 基于角色的人名识别 39-42 3.4.3 基于角色的地名识别 42 3.5 基于类的隐马分词 42-44 3.6 基于ATN和基于类的隐马词性标注 44-45 3.7 本章小结 45-46 第4章 基于统计的N-最短路径与ATN综合排歧 46-58 4.1 扩充转换网络理论基础 46-49 4.1.1 有限状态转换网络(FTN) 46-47 4.1.2 递归状态转换网络(RTN) 47 4.1.3 扩充状态转换网络(ATN) 47-49 4.2 扩充转换网络设计 49-55 4.2.1 名词短语(NP)网络文法设计 49-51 4.2.2 动宾短语(VP)网络文法设计 51 4.2.3 介词短语(PP)网络文法设计 51-52 4.2.4 简单句型(SS)网络文法设计 52-54 4.2.5 弧与寄存器 54-55 4.3 ATN算法描述 55-56 4.4 基于统计的N-最短路径与ATN综合排歧 56-57 4.5 本章小结 57-58 第5章 实验及结果分析 58-68 5.1 实验评测指标 58 5.2 实验描述 58-59 5.3 实验过程 59-67 5.3.1 歧义切分实验 59-64 5.3.2 不同领域语料测试 64 5.3.3 对比实验 64-67 5.4 实验结果分析 67 5.5 本章小结 67-68 结论与未来的工作 68-70 致谢 70-71 参考文献 71-75 附录 75-83 攻读硕士学位期间发表的论文 83
|
相似论文
- 网络语音传输丢包的恢复技术,TN912.3
- 基于视觉的人体行为检测识别研究,TP391.41
- 全文检索及相关技术研究,TP391.3
- LUCENE中文分词在科研文档全文检索系统的应用研究,TP311.52
- 基于条件随机场的中文分词技术的研究与实现,TP391.1
- 基于运动目标轨迹识别的人机交互系统研究,TP391.41
- 基于隐马尔科夫模型的信号分类,O211.62
- 中文文本分类方法研究,TP391.1
- 面向企业信息检索的中文分词系统的研究与实现,TP391.1
- 人脸识别系统的研究与实现,TP391.41
- 基于ATN算法和潜在语义索引的不良信息过滤系统研究,TP391.1
- 搜索引擎中文分词技术研究,TP391.1
- 一种HMM的学习算法,O211.62
- 基于HMM模型的信用卡欺骗风险检测系统的仿真分析,F832.2
- 领域实体属性及事件抽取技术研究,TP391.1
- 基于SSH和Lucene垂直搜索引擎研究,TP391.3
- 基于加权HU不变矩的监控视频人体行为识别方法的研究与实现,TP391.41
- 基于ANN和HMM模型的口吃语音识别研究,TN912.34
- 基于自适应的LVCSR系统半监督学习方法的研究,TN912.34
- 面向机器人对话的语音识别关键技术的研究,TN912.34
- 基于动态贝叶斯网络的连续语音识别研究,TN912.34
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|