学位论文 > 优秀研究生学位论文题录展示

基于隐马尔科夫模型的中文命名实体识别研究

作 者: 赵琳瑛
导 师: 赵捧未
学 校: 西安电子科技大学
专 业: 情报学
关键词: 命名实体识别 隐马尔科夫模型 Viterbi算法 数据平滑技术
分类号: TP391.1
类 型: 硕士论文
年 份: 2008年
下 载: 471次
引 用: 8次
阅 读: 论文下载
 

内容摘要


随着信息时代的到来和Internet的发展,用自然语言作为人机交互已是必然趋势,这对自然语言处理的深度和广度提出了越来越高的要求。自命名实体识别技术在1995年的MUC-6(Message Understanding Conference)会议上提出以来,越来越受到自然语言处理研究者的关注,并成为很多应用中的关键技术。本文对命名实体识别的方法进行了研究,分析了基于规则的方法和基于统计的方法的优缺点。由于获取上下文信息的多少和数据平滑的程度是评价识别性能的两个重要参数,而以前的统计模型获取上下文信息有限,本文提出了一种基于三阶隐马尔科夫模型的命名实体识别方法,该方法使用语言知识进行约束,兼顾了准确率和召回率,取得了较好的识别效果。自动分词和词性标注直接影响命名实体的识别,本文采用了海量智能分词系统对文本进行分词和标注。在统计词频方面,本文使用了改进的K均值方法对参数进行估计,并采用线性差值法对参数结果进行平滑处理。在命名实体识别方面,本文采用改进的Viterbi算法对初始观察序列重新标注,并求出最佳的状态序列。本文识别的主要内容为实体词,即人名、地名和机构名。目前,中文命名实体识别实验仍处于初期阶段,还有不少工作有待进一步完善。今后的工作将进一步研究规则的制定和数据平滑技术,以期进一步提高命名实体的识别率。

全文目录


摘要  3-4
Abstract  4-7
第一章 绪论  7-11
  1.1 研究背景及意义  7-8
  1.2 国内外研究现状  8-10
  1.3 本文的研究内容  10-11
第二章 命名实体识别相关基础知识  11-29
  2.1 命名实体识别的概念  11
  2.2 命名实体识别的过程  11-12
  2.3 命名实体识别存在的问题  12-15
  2.4 命名实体识别的评测标准  15-16
  2.5 命名实体识别相关模型及算法  16-29
    2.5.1 人工组织规则的方法  17-18
    2.5.2 基于统计的方法  18-24
    2.5.3 基于混合的方法  24-26
    2.5.4 数据平滑算法  26-29
第三章 基于改进HMM的中文命名实体识别  29-41
  3.1 改进HMM模型的原理  29-30
  3.2 一种特殊的参数训练算法  30-34
    3.2.1 K均值算法  30-32
    3.2.2 匹配系统实现原理  32-34
  3.3 参数平滑方法  34-36
    3.3.1 平滑评价方法  34
    3.3.2 参数结果平滑方法  34-36
  3.4 改进HMM模型中的VITERBI算法  36-37
    3.4.1 VITERBI算法参量的描述  36
    3.4.2 改进VITERBI算法的实现  36-37
    3.4.3 VITERBI算法的复杂度  37
  3.5 实体词识别  37-41
    3.5.1 VITERBI算法框架中的语言知识  37-39
    3.5.2 状态空间和最佳路径搜索  39-41
第四章 实验和结果分析  41-48
  4.1 中文命名实体识别系统设计  41-45
    4.1.1 开发及运行环境  41-42
    4.1.2 系统框架  42-45
  4.2 实验结果及分析  45-48
第五章 总结与展望  48-50
  5.1 总结  48
  5.2 展望  48-50
致谢  50-51
参考文献  51-55
附录A  55-57
附录B  57-59
研究成果  59-60

相似论文

  1. 英文文本中命名实体识别及关系抽取技术研究,TP391.1
  2. 基于本体的医学命名实体识别技术研究,TP391.1
  3. 基于CRF的命名实体和关系的联合抽取,TP391.4
  4. 基于点击数据和搜索结果片断的命名实体挖掘,TP391.3
  5. 音乐信号节奏信息实时获取技术研究与系统实现,TN912.3
  6. 中文命名实体识别与歧义消解研究,TP391.1
  7. 中文命名实体识别及若干相关问题的研究,TP391.41
  8. 基于条件随机场的中文命名实体识别研究,TP391.4
  9. 基于条件随机场的中文命名实体识别,TP391.43
  10. 本地搜索领域POI缩略词词典的研究,TP391.3
  11. 基于分类器融合的生物医学命名实体与关系识别研究,TP391.4
  12. 汉英双向时间数字和数量词的识别与翻译技术,TP391.2
  13. 基于CRF的中文命名实体识别研究,TP391.43
  14. 基于Internet的商业信息抽取,TP399-C2
  15. 医疗诊断报告自动信息提取系统设计与开发,TP311.52
  16. 统计机器翻译中命名实体处理研究,TP391.2
  17. 生物医学命名实体识别研究,TP391.41
  18. 科技文献语义标注系统研究,TP391.1
  19. 基于HMM的单字估价值的中文自动分词研究,TP391.1
  20. 规则与统计相结合的音乐领域命名实体识别,TP391.4
  21. 基于规则的命名实体识别研究,TP391.1

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com