学位论文 > 优秀研究生学位论文题录展示
领域实体属性及事件抽取技术研究
作 者: 冯二波
导 师: 李生
学 校: 哈尔滨工业大学
专 业: 计算机科学与技术
关键词: 信息抽取 实体属性抽取 事件抽取 隐马尔科夫模型 最大熵模型
分类号: TP391.1
类 型: 硕士论文
年 份: 2008年
下 载: 111次
引 用: 0次
阅 读: 论文下载
内容摘要
目前,在自然语言处理领域中,信息抽取已经成为人们研究的热点。信息抽取系统获得的信息不仅可以直接提供给用户,还可以作为构建智能查询系统和数据挖掘系统的基础,有着广阔的应用前景。实体属性抽取和事件抽取作为信息抽取的两个方面,都侧重于为一些具体应用提供前期操作。实体属性抽取可以应用于定义新的实体、数据挖掘等实际应用,而事件抽取则可以应用于事件分类、事件跟踪等实际应用。本文采用自学习的方法进行实体属性抽取,利用最大熵模型进行事件抽取,具体的研究工作主要集中在以下几个方面:1.领域特征识别。领域特征识别是实体属性抽取的准备工作。本文采用自学习的方法进行领域特征识别,首先使用领域词汇作为种子词识别领域特征;然后根据领域特征总结得到的规则识别领域特征和相应的领域词汇;最后将新的领域词汇当作新种子词重新进行领域特征的识别,直到没有新的领域词汇出现。实验结果达到预期的效果。2.实体属性抽取。实体属性抽取的任务是抽取属性及属性值。本文的实体属性抽取建立在句法分析的基础之上,利用规则与统计相结合的方法实现。首先对已识别领域特征的文本流进行词法分析和句法分析,从得到的句法树中抽取出可能包含属性与属性值的句法块,进而从句法块中抽取出属性及相应的属性值。3.事件抽取。本文利用最大熵模型进行特定领域的事件抽取,首先分别使用统计和规则的方法识别事件元素对应的实体,然后通过最大熵模型判断事件元素是否属于该事件,从而实现事件抽取。该方法取得较好的实验结果。
|
全文目录
摘要 4-5 Abstract 5-9 第1章 绪论 9-18 1.1 课题研究的背景和意义 9-10 1.2 实体属性抽取介绍 10-12 1.2.1 实体与实体属性 10 1.2.2 实体属性抽取 10-11 1.2.3 相关文献介绍 11-12 1.3 事件抽取综述 12-17 1.3.1 事件抽取 12-14 1.3.2 事件抽取技术 14-17 1.4 本文的研究内容及组织 17-18 第2章 领域特征识别技术 18-24 2.1 引言 18 2.2 特征识别的方法及过程 18-22 2.2.1 利用种子抽取领域特征 20 2.2.2 根据领域特征获得组成规则 20-21 2.2.3 利用规则识别候选领域特征 21 2.2.4 根据候选领域特征抽取领域词汇 21-22 2.3 实验结果及分析 22-23 2.3.1 语料来源 22 2.3.2 实验结果 22 2.3.3 结果分析 22-23 2.4 本章小结 23-24 第3章 领域实体属性抽取 24-37 3.1 引言 24 3.2 隐马尔科夫模型 24-28 3.2.1 隐马尔科夫模型描述 24-26 3.2.2 Viterbi 算法 26-28 3.3 领域实体属性抽取框架 28-29 3.4 词性标注 29-30 3.4.1 参数估计 29-30 3.4.2 词性标注中的几个问题 30 3.5 句法分析 30-33 3.5.1 概率上下文无关文法 31-32 3.5.2 欧雷算法 32-33 3.6 实体属性及属性值抽取 33-34 3.7 实验结果及分析 34-36 3.7.1 实体属性抽取实验结果及分析 34-35 3.7.2 实体属性值抽取实验结果及分析 35-36 3.8 本章小结 36-37 第4章 领域事件抽取 37-49 4.1 引言 37 4.2 最大熵模型介绍 37-43 4.2.1 最大熵方法概述 38-42 4.2.2 最大熵模型中两个问题 42-43 4.3 军事演习信息抽取总体框架 43-44 4.3.1 最大熵模型中特征选择 44 4.4 军事演习事件元素抽取 44-45 4.5 实验结果及分析 45-48 4.5.1 评价标准 45-46 4.5.2 实验结果 46-47 4.5.3 实验结果分析 47-48 4.6 本章小结 48-49 结论 49-50 参考文献 50-54 附录 54-58 致谢 58
|
相似论文
- 时间表达式识别与归一化研究,TP391.1
- 人物言论抽取与跟踪技术研究,TP391.1
- 汉语框架自动识别中的歧义消解,TP391.1
- 网页属性抽取的方法研究,TP391.1
- 英文文本中命名实体识别及关系抽取技术研究,TP391.1
- 构件垂直搜索引擎的关键技术研究,TP391.3
- 面向教育新闻的主题爬虫设计与实现,TP391.3
- 基于GPU图像搜索中文本检索的关键技术研究,TP391.1
- 学术主页信息抽取系统的研究,TP393.092
- 主题搜索引擎关键技术研究,TP391.3
- 基于自学习的社会关系抽取的研究,TP391.1
- 一种基于动态学习框架的全自动网页结构化数据抽取方法,TP393.092
- 基于自然语言打印机人机交互方法研究与实现,TP11
- 模板独立的网页信息抽取研究,TP393.092
- 个性化多媒体资源垂直搜索引擎技术研究,TP391.3
- 统计机器翻译中层次短语翻译模型的研究与实现,TP391.2
- 领域本体中的术语和上下位、同位关系抽取的研究,TP391.1
- 基于统计的多文档关键短语和文摘抽取研究,TP391.1
- 术语自动抽取技术的研究与应用,TP391.1
- 基于页面结构分析的网页信息抽取方法研究,TP393.092
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|