学位论文 > 优秀研究生学位论文题录展示
基于条件随机场的命名实体识别
作 者: 祁日秀
导 师: 芦鹏飞
学 校: 北京邮电大学
专 业: 电子与通信工程
关键词: 命名实体识别 条件随机场模型 最大熵模型 特征选择
分类号: TP391.4
类 型: 硕士论文
年 份: 2013年
下 载: 39次
引 用: 0次
阅 读: 论文下载
内容摘要
命名实体识别技术是自然语言处理技术中的重要工作,随着互联网信息越来越多样化和复杂化,如何提取最重要信息便成为了一个至关重要的问题。命名实体识别技术就正是机器翻译、信息检索、摘要提取等技术中的关键技术。本文从命名实体的特点出发,主要研究了基于人名、地名、组织名这三类重要命名实体的识别问题。本文以条件随机场模型为主要框架,实现了一个命名实体识别系统,并设计了多组实验来验证系统的性能。总的来说,本论文的主要工作有:首先,本文的前三章就命名实体识别的分类、特点、技术难点进行了简要的剖析,并对命名实体识别方法的分类进行了介绍。然后我们对于已经成熟的命名实体识别方法进行了深入研究,针对于隐马尔可夫模型和最大熵马尔可夫模型的缺陷,提出了基于无向图模型的条件随机场模型,并对于条件随机场理论中的关键步骤进行阐述。接着,在本文的实验部分,针对本文研究的条件随机场模型,实现了命名实体识别的训练、评测系统,并在系统结构上进行了详细的分解与阐述。并且,本文提出了一种新的特征模板选择方法,以提高算法的识别效果。为了验证方法的有效性,我们针对于识别系统本文设计了几组实验,分别从训练集大小、特征模板的选择、不同语种的识别效果进行纵向分析。最后又针对于最佳特征模板,将条件随机场模型与最大熵模型的识别效果进行对比,条件随机场模型的优势明显。最后,通过本文的实验,得到了最适宜训练数据的训练集大小,验证了本文提出的基于特征模板选择的数据训练方法。实验证明,在本文采用训练集和测试集下,本文提出的特征模板选择方法已经达到了良好的准确度、召回率与F值。
|
全文目录
摘要 4-5 ABSTRACT 5-7 目录 7-10 第一章 绪论 10-14 1.1 课题背景与意义 10-11 1.2 命名实体识别的应用 11-12 1.3 论文的结构安排 12-13 1.4 本章小结 13-14 第二章 命名实体识别综述 14-21 2.1 引言 14 2.2 命名实体识别概述 14-17 2.2.1 命名实体识别现状 15 2.2.3 命名实体的分类及其特点 15-16 2.2.4 命名实体识别的技术难点 16-17 2.3 命名实体识别的方法 17-20 2.3.1 基于规则的命名实体识别方法 17-18 2.3.2 基于统计的命名实体识别方法 18-19 2.3.3 基于规则与统计相结合的命名实体识别方法 19-20 2.4 本章小结 20-21 第三章 条件随机场 21-36 3.1 引言 21 3.2 有向图模型与极其典型算法 21-29 3.2.1 有向图模型 21-23 3.2.2 隐马尔可夫模型 23-25 3.2.3 最大熵马尔可夫模型 25-27 3.2.4 隐马尔可夫模型与最大熵模型的缺陷 27-29 3.3 无向图模型 29-31 3.4 条件随机场的无向图结构 31-32 3.5 势函数 32-33 3.6 参数估计与训练 33-35 3.6.1 最大似然估计 33-34 3.6.2 迭代缩放算法 34-35 3.7 本章小结 35-36 第四章 基于条件随机场的命名实体识别系统模型 36-46 4.1 系统结构 36-43 4.1.1 整体结构 36-37 4.1.2 特征提取模块 37-39 4.1.3 特征选择模块 39-41 4.1.4 模型参数训练模块 41 4.1.5 命名实体识别模块 41-42 4.1.6 评测模块 42-43 4.2 实验结果的测评标准 43-45 4.2.1 召回率与准确度 43-44 4.2.2 F值 44-45 4.3 本章小结 45-46 第五章 实验与数据分析 46-60 5.1 实验语料介绍 46 5.2 实验设计 46 5.3 训练集大小对命名实体识别影响实验 46-49 5.3.1 实验结果 47-49 5.3.2 结果分析 49 5.4 基于不同特征模板的命名实体识别实验 49-56 5.4.1 特征的选取实验介绍 49-51 5.4.2 不同特征模板实验结果 51-55 5.4.3 结果分析 55-56 5.5 基于不同语种的命名实体识别实验 56-58 5.5.1 实验语料的分词粒度选取 56-57 5.5.2 实验结果 57-58 5.5.3 结果分析 58 5.6 CRFs与MEMM模型的交叉对比实验 58-59 5.6.1 实验结果 58-59 5.6.2 结果分析 59 5.7 本章小结 59-60 第六章 总结与展望 60-62 6.1 论文总结 60 6.2 研究方向展望 60-62 参考文献 62-66 致谢 66
|
相似论文
- 领域实体属性及事件抽取技术研究,TP391.1
- 人物言论抽取与跟踪技术研究,TP391.1
- 基于仿生模式识别的文本分类技术研究,TP391.1
- 唇读中的特征提取、选择与融合,TP391.41
- 语音情感识别的特征选择与特征产生,TP18
- 基于特征选择的入侵检测研究,TP393.08
- 汉语框架自动识别中的歧义消解,TP391.1
- 数据流特征选择策略的研究,TP311.13
- 基于改进的SVM模型的肝癌识别方法的研究与实现,TP391.41
- 汉语嵌套命名实体识别方法研究,TP391.1
- 英文文本中命名实体识别及关系抽取技术研究,TP391.1
- 基于树型条件随场的特定域事件提取方法研究,TP391.1
- 基于本体的医学命名实体识别技术研究,TP391.1
- 基于CRF的命名实体和关系的联合抽取,TP391.4
- 基于点击数据和搜索结果片断的命名实体挖掘,TP391.3
- 基于自学习的社会关系抽取的研究,TP391.1
- 中文命名实体识别与歧义消解研究,TP391.1
- 基于最大熵模型的中文网页分类器设计和实现,TP393.092
- 中文命名实体识别及若干相关问题的研究,TP391.41
- 基于最大熵模型的中文实体关系自动抽取研究,TP391.1
- 基于语义分析的汉语短语识别方法研究,TP391.43
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 模式识别与装置
© 2012 www.xueweilunwen.com
|