学位论文 > 优秀研究生学位论文题录展示

统计与规则相结合的中文分词模型设计与实现

作　者: 贺欢
导　师: 周荣辉
学　校: 西南交通大学
专　业: 计算机软件与理论
关键词: 中文分词扩充转移网络隐马尔可夫模型歧义识别未登录词识别
分类号: TP391.1
类　型: 硕士论文
年　份: 2013年
下　载: 28次
引　用: 0次
阅　读: 论文下载

内容摘要

随着信息化的普及,人们的工作和学习已经离不开网络信息。同时,随着网络信息规模的不断扩大,如何高效、准确地获取相关的中文信息逐渐成为人们关注的问题。中文分词是中文信息处理的重要步骤,中文分词系统的分词精度直接影响着中文信息理解与处理的效率。因此,本文展开这一方面的研究具有重要的意义。首先,本文阐述了中文分词的研究背景与意义。分析了目前常用的三种中文分词方法的基本原理及各自的优缺点,并讨论了中文分词的两个技术难点：歧义识别和未登录词识别。对歧义产生的原因、分类和目前主流的歧义抽取及消除方法等作了详细的阐述,同时详细阐释了未登录词的分类和主要的识别方法。并对本文使用的几个统计模型进行了简单的介绍。其次,本文对基于层叠隐马分词模型和基于扩充转移网络(Augmented Transfer Network, ATN)的中文分词技术进行深入研究,提出将隐马模型和ATN句法分析相结合的中文分词框架,并在此基础上实现了中文分词系统原型。具体地,该系统使用基于统计的N-最短路径初分模型和ATN句法分析相结合的方法进行歧义切分；使用简单的规则识别数词和时间词；使用基于角色的未登录词识别方法识别出汉语人名和地名。继而将识别得到的未登录词和其它词一起参与竞争,建立基于类的隐马分词模型以获得全局最优的分词序列,并对该序列进行词性标注。最后,本文对该系统做了三个方面的分词实验。本文对搜集到的100句具有歧义现象的语料进行歧义切分对比实验,该系统能够正确分析其中的83句,而国内某分词系统能够正确分析其中的75句；随机选取六个不同领域的测试语料各一篇进行了开放测试；选取1998年《人民日报》的一段语料作为测试语料做对比实验,并将切分结果与国内某分词系统切分结果进行对比分析。由实验测试结果可知,本文的歧义识别效果好于国内某分词系统。通过任意选择六个领域的测试语料对本文进行测试,分词准确率平均值达到94.28%,分词召回率平均值达到96.25%,分词切分F-指数平均值达到95.25%。对比实验结果表明,本文分词召回率略高于国内某分词系统,总体分词准确率与国内某分词系统基本一致。

全文目录

摘要  6-7
Abstract  7-12
第1章绪论  12-16
  1.1 课题研究背景及意义  12-13
  1.2 国内外研究现状分析  13-14
  1.3 论文主要内容与章节安排  14-16
第2章中文分词技术及相关统计模型理论基础  16-29
  2.1 中文分词技术  16-18
    2.1.1 基于字符串匹配的分词方法  16-17
    2.1.2 基于理解的分词方法  17
    2.1.3 基于统计的分词方法  17-18
  2.2 中文分词两大难点  18-24
    2.2.1 歧义识别  18-22
    2.2.2 未登录词识别  22-24
  2.3 统计模型理论基础  24-28
    2.3.1 N-gram统计模型  24-25
    2.3.2 基于统计的N-最短路径粗分模型  25-26
    2.3.3 隐马尔可夫模型(HMM)  26-27
    2.3.4 Viterbi算法  27-28
  2.4 本章小结  28-29
第3章分词系统总体框架设计与实现  29-46
  3.1 分词系统总体框架  29-30
  3.2 词典结构  30-31
  3.3 初切分模块的设计与实现  31-38
    3.3.1 分词前预处理  31
    3.3.2 原子切分  31-33
    3.3.3 全切分  33-35
    3.3.4 权值计算  35-37
    3.3.5 基于统计的N-最短路径初切分  37-38
  3.4 未登录词识别  38-42
    3.4.1 时间词和数字词识别  38-39
    3.4.2 基于角色的人名识别  39-42
    3.4.3 基于角色的地名识别  42
  3.5 基于类的隐马分词  42-44
  3.6 基于ATN和基于类的隐马词性标注  44-45
  3.7 本章小结  45-46
第4章基于统计的N-最短路径与ATN综合排歧  46-58
  4.1 扩充转换网络理论基础  46-49
    4.1.1 有限状态转换网络(FTN)  46-47
    4.1.2 递归状态转换网络(RTN)  47
    4.1.3 扩充状态转换网络(ATN)  47-49
  4.2 扩充转换网络设计  49-55
    4.2.1 名词短语(NP)网络文法设计  49-51
    4.2.2 动宾短语(VP)网络文法设计  51
    4.2.3 介词短语(PP)网络文法设计  51-52
    4.2.4 简单句型(SS)网络文法设计  52-54
    4.2.5 弧与寄存器  54-55
  4.3 ATN算法描述  55-56
  4.4 基于统计的N-最短路径与ATN综合排歧  56-57
  4.5 本章小结  57-58
第5章实验及结果分析  58-68
  5.1 实验评测指标  58
  5.2 实验描述  58-59
  5.3 实验过程  59-67
    5.3.1 歧义切分实验  59-64
    5.3.2 不同领域语料测试  64
    5.3.3 对比实验  64-67
  5.4 实验结果分析  67
  5.5 本章小结  67-68
结论与未来的工作  68-70
致谢  70-71
参考文献  71-75
附录  75-83
攻读硕士学位期间发表的论文  83

统计与规则相结合的中文分词模型设计与实现

内容摘要

全文目录

相似论文