学位论文 > 优秀研究生学位论文题录展示

基于条件随机场的命名实体识别

作 者: 祁日秀
导 师: 芦鹏飞
学 校: 北京邮电大学
专 业: 电子与通信工程
关键词: 命名实体识别 条件随机场模型 最大熵模型 特征选择
分类号: TP391.4
类 型: 硕士论文
年 份: 2013年
下 载: 39次
引 用: 0次
阅 读: 论文下载
 

内容摘要


命名实体识别技术是自然语言处理技术中的重要工作,随着互联网信息越来越多样化和复杂化,如何提取最重要信息便成为了一个至关重要的问题。命名实体识别技术就正是机器翻译、信息检索、摘要提取等技术中的关键技术。本文从命名实体的特点出发,主要研究了基于人名、地名、组织名这三类重要命名实体的识别问题。本文以条件随机场模型为主要框架,实现了一个命名实体识别系统,并设计了多组实验来验证系统的性能。总的来说,本论文的主要工作有:首先,本文的前三章就命名实体识别的分类、特点、技术难点进行了简要的剖析,并对命名实体识别方法的分类进行了介绍。然后我们对于已经成熟的命名实体识别方法进行了深入研究,针对于隐马尔可夫模型和最大熵马尔可夫模型的缺陷,提出了基于无向图模型的条件随机场模型,并对于条件随机场理论中的关键步骤进行阐述。接着,在本文的实验部分,针对本文研究的条件随机场模型,实现了命名实体识别的训练、评测系统,并在系统结构上进行了详细的分解与阐述。并且,本文提出了一种新的特征模板选择方法,以提高算法的识别效果。为了验证方法的有效性,我们针对于识别系统本文设计了几组实验,分别从训练集大小、特征模板的选择、不同语种的识别效果进行纵向分析。最后又针对于最佳特征模板,将条件随机场模型与最大熵模型的识别效果进行对比,条件随机场模型的优势明显。最后,通过本文的实验,得到了最适宜训练数据的训练集大小,验证了本文提出的基于特征模板选择的数据训练方法。实验证明,在本文采用训练集和测试集下,本文提出的特征模板选择方法已经达到了良好的准确度、召回率与F值。

全文目录


摘要  4-5
ABSTRACT  5-7
目录  7-10
第一章 绪论  10-14
  1.1 课题背景与意义  10-11
  1.2 命名实体识别的应用  11-12
  1.3 论文的结构安排  12-13
  1.4 本章小结  13-14
第二章 命名实体识别综述  14-21
  2.1 引言  14
  2.2 命名实体识别概述  14-17
    2.2.1 命名实体识别现状  15
    2.2.3 命名实体的分类及其特点  15-16
    2.2.4 命名实体识别的技术难点  16-17
  2.3 命名实体识别的方法  17-20
    2.3.1 基于规则的命名实体识别方法  17-18
    2.3.2 基于统计的命名实体识别方法  18-19
    2.3.3 基于规则与统计相结合的命名实体识别方法  19-20
  2.4 本章小结  20-21
第三章 条件随机场  21-36
  3.1 引言  21
  3.2 有向图模型与极其典型算法  21-29
    3.2.1 有向图模型  21-23
    3.2.2 隐马尔可夫模型  23-25
    3.2.3 最大熵马尔可夫模型  25-27
    3.2.4 隐马尔可夫模型与最大熵模型的缺陷  27-29
  3.3 无向图模型  29-31
  3.4 条件随机场的无向图结构  31-32
  3.5 势函数  32-33
  3.6 参数估计与训练  33-35
    3.6.1 最大似然估计  33-34
    3.6.2 迭代缩放算法  34-35
  3.7 本章小结  35-36
第四章 基于条件随机场的命名实体识别系统模型  36-46
  4.1 系统结构  36-43
    4.1.1 整体结构  36-37
    4.1.2 特征提取模块  37-39
    4.1.3 特征选择模块  39-41
    4.1.4 模型参数训练模块  41
    4.1.5 命名实体识别模块  41-42
    4.1.6 评测模块  42-43
  4.2 实验结果的测评标准  43-45
    4.2.1 召回率与准确度  43-44
    4.2.2 F值  44-45
  4.3 本章小结  45-46
第五章 实验与数据分析  46-60
  5.1 实验语料介绍  46
  5.2 实验设计  46
  5.3 训练集大小对命名实体识别影响实验  46-49
    5.3.1 实验结果  47-49
    5.3.2 结果分析  49
  5.4 基于不同特征模板的命名实体识别实验  49-56
    5.4.1 特征的选取实验介绍  49-51
    5.4.2 不同特征模板实验结果  51-55
    5.4.3 结果分析  55-56
  5.5 基于不同语种的命名实体识别实验  56-58
    5.5.1 实验语料的分词粒度选取  56-57
    5.5.2 实验结果  57-58
    5.5.3 结果分析  58
  5.6 CRFs与MEMM模型的交叉对比实验  58-59
    5.6.1 实验结果  58-59
    5.6.2 结果分析  59
  5.7 本章小结  59-60
第六章 总结与展望  60-62
  6.1 论文总结  60
  6.2 研究方向展望  60-62
参考文献  62-66
致谢  66

相似论文

  1. 领域实体属性及事件抽取技术研究,TP391.1
  2. 人物言论抽取与跟踪技术研究,TP391.1
  3. 基于仿生模式识别的文本分类技术研究,TP391.1
  4. 唇读中的特征提取、选择与融合,TP391.41
  5. 语音情感识别的特征选择与特征产生,TP18
  6. 基于特征选择的入侵检测研究,TP393.08
  7. 汉语框架自动识别中的歧义消解,TP391.1
  8. 数据流特征选择策略的研究,TP311.13
  9. 基于改进的SVM模型的肝癌识别方法的研究与实现,TP391.41
  10. 汉语嵌套命名实体识别方法研究,TP391.1
  11. 英文文本中命名实体识别及关系抽取技术研究,TP391.1
  12. 基于树型条件随场的特定域事件提取方法研究,TP391.1
  13. 基于本体的医学命名实体识别技术研究,TP391.1
  14. 基于CRF的命名实体和关系的联合抽取,TP391.4
  15. 基于点击数据和搜索结果片断的命名实体挖掘,TP391.3
  16. 基于自学习的社会关系抽取的研究,TP391.1
  17. 中文命名实体识别与歧义消解研究,TP391.1
  18. 基于最大熵模型的中文网页分类器设计和实现,TP393.092
  19. 中文命名实体识别及若干相关问题的研究,TP391.41
  20. 基于最大熵模型的中文实体关系自动抽取研究,TP391.1
  21. 基于语义分析的汉语短语识别方法研究,TP391.43

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 模式识别与装置
© 2012 www.xueweilunwen.com