学位论文 > 优秀研究生学位论文题录展示

领域实体属性及事件抽取技术研究

作 者: 冯二波
导 师: 李生
学 校: 哈尔滨工业大学
专 业: 计算机科学与技术
关键词: 信息抽取 实体属性抽取 事件抽取 隐马尔科夫模型 最大熵模型
分类号: TP391.1
类 型: 硕士论文
年 份: 2008年
下 载: 111次
引 用: 0次
阅 读: 论文下载
 

内容摘要


目前,在自然语言处理领域中,信息抽取已经成为人们研究的热点。信息抽取系统获得的信息不仅可以直接提供给用户,还可以作为构建智能查询系统和数据挖掘系统的基础,有着广阔的应用前景。实体属性抽取和事件抽取作为信息抽取的两个方面,都侧重于为一些具体应用提供前期操作。实体属性抽取可以应用于定义新的实体、数据挖掘等实际应用,而事件抽取则可以应用于事件分类、事件跟踪等实际应用。本文采用自学习的方法进行实体属性抽取,利用最大熵模型进行事件抽取,具体的研究工作主要集中在以下几个方面:1.领域特征识别。领域特征识别是实体属性抽取的准备工作。本文采用自学习的方法进行领域特征识别,首先使用领域词汇作为种子词识别领域特征;然后根据领域特征总结得到的规则识别领域特征和相应的领域词汇;最后将新的领域词汇当作新种子词重新进行领域特征的识别,直到没有新的领域词汇出现。实验结果达到预期的效果。2.实体属性抽取。实体属性抽取的任务是抽取属性及属性值。本文的实体属性抽取建立在句法分析的基础之上,利用规则与统计相结合的方法实现。首先对已识别领域特征的文本流进行词法分析和句法分析,从得到的句法树中抽取出可能包含属性与属性值的句法块,进而从句法块中抽取出属性及相应的属性值。3.事件抽取。本文利用最大熵模型进行特定领域的事件抽取,首先分别使用统计和规则的方法识别事件元素对应的实体,然后通过最大熵模型判断事件元素是否属于该事件,从而实现事件抽取。该方法取得较好的实验结果。

全文目录


摘要  4-5
Abstract  5-9
第1章 绪论  9-18
  1.1 课题研究的背景和意义  9-10
  1.2 实体属性抽取介绍  10-12
    1.2.1 实体与实体属性  10
    1.2.2 实体属性抽取  10-11
    1.2.3 相关文献介绍  11-12
  1.3 事件抽取综述  12-17
    1.3.1 事件抽取  12-14
    1.3.2 事件抽取技术  14-17
  1.4 本文的研究内容及组织  17-18
第2章 领域特征识别技术  18-24
  2.1 引言  18
  2.2 特征识别的方法及过程  18-22
    2.2.1 利用种子抽取领域特征  20
    2.2.2 根据领域特征获得组成规则  20-21
    2.2.3 利用规则识别候选领域特征  21
    2.2.4 根据候选领域特征抽取领域词汇  21-22
  2.3 实验结果及分析  22-23
    2.3.1 语料来源  22
    2.3.2 实验结果  22
    2.3.3 结果分析  22-23
  2.4 本章小结  23-24
第3章 领域实体属性抽取  24-37
  3.1 引言  24
  3.2 隐马尔科夫模型  24-28
    3.2.1 隐马尔科夫模型描述  24-26
    3.2.2 Viterbi 算法  26-28
  3.3 领域实体属性抽取框架  28-29
  3.4 词性标注  29-30
    3.4.1 参数估计  29-30
    3.4.2 词性标注中的几个问题  30
  3.5 句法分析  30-33
    3.5.1 概率上下文无关文法  31-32
    3.5.2 欧雷算法  32-33
  3.6 实体属性及属性值抽取  33-34
  3.7 实验结果及分析  34-36
    3.7.1 实体属性抽取实验结果及分析  34-35
    3.7.2 实体属性值抽取实验结果及分析  35-36
  3.8 本章小结  36-37
第4章 领域事件抽取  37-49
  4.1 引言  37
  4.2 最大熵模型介绍  37-43
    4.2.1 最大熵方法概述  38-42
    4.2.2 最大熵模型中两个问题  42-43
  4.3 军事演习信息抽取总体框架  43-44
    4.3.1 最大熵模型中特征选择  44
  4.4 军事演习事件元素抽取  44-45
  4.5 实验结果及分析  45-48
    4.5.1 评价标准  45-46
    4.5.2 实验结果  46-47
    4.5.3 实验结果分析  47-48
  4.6 本章小结  48-49
结论  49-50
参考文献  50-54
附录  54-58
致谢  58

相似论文

  1. 时间表达式识别与归一化研究,TP391.1
  2. 人物言论抽取与跟踪技术研究,TP391.1
  3. 汉语框架自动识别中的歧义消解,TP391.1
  4. 网页属性抽取的方法研究,TP391.1
  5. 英文文本中命名实体识别及关系抽取技术研究,TP391.1
  6. 构件垂直搜索引擎的关键技术研究,TP391.3
  7. 面向教育新闻的主题爬虫设计与实现,TP391.3
  8. 基于GPU图像搜索中文本检索的关键技术研究,TP391.1
  9. 学术主页信息抽取系统的研究,TP393.092
  10. 主题搜索引擎关键技术研究,TP391.3
  11. 基于自学习的社会关系抽取的研究,TP391.1
  12. 一种基于动态学习框架的全自动网页结构化数据抽取方法,TP393.092
  13. 基于自然语言打印机人机交互方法研究与实现,TP11
  14. 模板独立的网页信息抽取研究,TP393.092
  15. 个性化多媒体资源垂直搜索引擎技术研究,TP391.3
  16. 统计机器翻译中层次短语翻译模型的研究与实现,TP391.2
  17. 领域本体中的术语和上下位、同位关系抽取的研究,TP391.1
  18. 基于统计的多文档关键短语和文摘抽取研究,TP391.1
  19. 术语自动抽取技术的研究与应用,TP391.1
  20. 基于页面结构分析的网页信息抽取方法研究,TP393.092

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com