学位论文 > 优秀研究生学位论文题录展示

统计与规则相结合的中文分词模型设计与实现

作 者: 贺欢
导 师: 周荣辉
学 校: 西南交通大学
专 业: 计算机软件与理论
关键词: 中文分词 扩充转移网络 隐马尔可夫模型 歧义识别 未登录词识别
分类号: TP391.1
类 型: 硕士论文
年 份: 2013年
下 载: 28次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着信息化的普及,人们的工作和学习已经离不开网络信息。同时,随着网络信息规模的不断扩大,如何高效、准确地获取相关的中文信息逐渐成为人们关注的问题。中文分词是中文信息处理的重要步骤,中文分词系统的分词精度直接影响着中文信息理解与处理的效率。因此,本文展开这一方面的研究具有重要的意义。首先,本文阐述了中文分词的研究背景与意义。分析了目前常用的三种中文分词方法的基本原理及各自的优缺点,并讨论了中文分词的两个技术难点:歧义识别未登录词识别。对歧义产生的原因、分类和目前主流的歧义抽取及消除方法等作了详细的阐述,同时详细阐释了未登录词的分类和主要的识别方法。并对本文使用的几个统计模型进行了简单的介绍。其次,本文对基于层叠隐马分词模型和基于扩充转移网络(Augmented Transfer Network, ATN)的中文分词技术进行深入研究,提出将隐马模型和ATN句法分析相结合的中文分词框架,并在此基础上实现了中文分词系统原型。具体地,该系统使用基于统计的N-最短路径初分模型和ATN句法分析相结合的方法进行歧义切分;使用简单的规则识别数词和时间词;使用基于角色的未登录词识别方法识别出汉语人名和地名。继而将识别得到的未登录词和其它词一起参与竞争,建立基于类的隐马分词模型以获得全局最优的分词序列,并对该序列进行词性标注。最后,本文对该系统做了三个方面的分词实验。本文对搜集到的100句具有歧义现象的语料进行歧义切分对比实验,该系统能够正确分析其中的83句,而国内某分词系统能够正确分析其中的75句;随机选取六个不同领域的测试语料各一篇进行了开放测试;选取1998年《人民日报》的一段语料作为测试语料做对比实验,并将切分结果与国内某分词系统切分结果进行对比分析。由实验测试结果可知,本文的歧义识别效果好于国内某分词系统。通过任意选择六个领域的测试语料对本文进行测试,分词准确率平均值达到94.28%,分词召回率平均值达到96.25%,分词切分F-指数平均值达到95.25%。对比实验结果表明,本文分词召回率略高于国内某分词系统,总体分词准确率与国内某分词系统基本一致。

全文目录


摘要  6-7
Abstract  7-12
第1章 绪论  12-16
  1.1 课题研究背景及意义  12-13
  1.2 国内外研究现状分析  13-14
  1.3 论文主要内容与章节安排  14-16
第2章 中文分词技术及相关统计模型理论基础  16-29
  2.1 中文分词技术  16-18
    2.1.1 基于字符串匹配的分词方法  16-17
    2.1.2 基于理解的分词方法  17
    2.1.3 基于统计的分词方法  17-18
  2.2 中文分词两大难点  18-24
    2.2.1 歧义识别  18-22
    2.2.2 未登录词识别  22-24
  2.3 统计模型理论基础  24-28
    2.3.1 N-gram统计模型  24-25
    2.3.2 基于统计的N-最短路径粗分模型  25-26
    2.3.3 隐马尔可夫模型(HMM)  26-27
    2.3.4 Viterbi算法  27-28
  2.4 本章小结  28-29
第3章 分词系统总体框架设计与实现  29-46
  3.1 分词系统总体框架  29-30
  3.2 词典结构  30-31
  3.3 初切分模块的设计与实现  31-38
    3.3.1 分词前预处理  31
    3.3.2 原子切分  31-33
    3.3.3 全切分  33-35
    3.3.4 权值计算  35-37
    3.3.5 基于统计的N-最短路径初切分  37-38
  3.4 未登录词识别  38-42
    3.4.1 时间词和数字词识别  38-39
    3.4.2 基于角色的人名识别  39-42
    3.4.3 基于角色的地名识别  42
  3.5 基于类的隐马分词  42-44
  3.6 基于ATN和基于类的隐马词性标注  44-45
  3.7 本章小结  45-46
第4章 基于统计的N-最短路径与ATN综合排歧  46-58
  4.1 扩充转换网络理论基础  46-49
    4.1.1 有限状态转换网络(FTN)  46-47
    4.1.2 递归状态转换网络(RTN)  47
    4.1.3 扩充状态转换网络(ATN)  47-49
  4.2 扩充转换网络设计  49-55
    4.2.1 名词短语(NP)网络文法设计  49-51
    4.2.2 动宾短语(VP)网络文法设计  51
    4.2.3 介词短语(PP)网络文法设计  51-52
    4.2.4 简单句型(SS)网络文法设计  52-54
    4.2.5 弧与寄存器  54-55
  4.3 ATN算法描述  55-56
  4.4 基于统计的N-最短路径与ATN综合排歧  56-57
  4.5 本章小结  57-58
第5章 实验及结果分析  58-68
  5.1 实验评测指标  58
  5.2 实验描述  58-59
  5.3 实验过程  59-67
    5.3.1 歧义切分实验  59-64
    5.3.2 不同领域语料测试  64
    5.3.3 对比实验  64-67
  5.4 实验结果分析  67
  5.5 本章小结  67-68
结论与未来的工作  68-70
致谢  70-71
参考文献  71-75
附录  75-83
攻读硕士学位期间发表的论文  83

相似论文

  1. 网络语音传输丢包的恢复技术,TN912.3
  2. 基于视觉的人体行为检测识别研究,TP391.41
  3. 全文检索及相关技术研究,TP391.3
  4. LUCENE中文分词在科研文档全文检索系统的应用研究,TP311.52
  5. 基于条件随机场的中文分词技术的研究与实现,TP391.1
  6. 基于运动目标轨迹识别的人机交互系统研究,TP391.41
  7. 基于隐马尔科夫模型的信号分类,O211.62
  8. 中文文本分类方法研究,TP391.1
  9. 面向企业信息检索的中文分词系统的研究与实现,TP391.1
  10. 人脸识别系统的研究与实现,TP391.41
  11. 基于ATN算法和潜在语义索引的不良信息过滤系统研究,TP391.1
  12. 搜索引擎中文分词技术研究,TP391.1
  13. 一种HMM的学习算法,O211.62
  14. 基于HMM模型的信用卡欺骗风险检测系统的仿真分析,F832.2
  15. 领域实体属性及事件抽取技术研究,TP391.1
  16. 基于SSH和Lucene垂直搜索引擎研究,TP391.3
  17. 基于加权HU不变矩的监控视频人体行为识别方法的研究与实现,TP391.41
  18. 基于ANN和HMM模型的口吃语音识别研究,TN912.34
  19. 基于自适应的LVCSR系统半监督学习方法的研究,TN912.34
  20. 面向机器人对话的语音识别关键技术的研究,TN912.34
  21. 基于动态贝叶斯网络的连续语音识别研究,TN912.34

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com