学位论文 > 优秀研究生学位论文题录展示

非结构化文本中领域术语获取方法的研究

作 者: 苏振明
导 师: 屈志毅
学 校: 兰州大学
专 业: 计算机应用技术
关键词: 领域术语 统计学习 信息抽取 序列数据标注 Reranking
分类号: TP391.1
类 型: 硕士论文
年 份: 2007年
下 载: 129次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着领域新技术的飞速发展,大量数字化科技文献都以非结构化文本的形式与日俱增,如何有效地获取其中的领域术语,对于构建数字图书馆、领域本体、编撰领域词典等都具有重要的现实意义,因此成为人们关注的焦点。相比已有领域术语获取方法——词典方法、规则方法、简单统计量方法的种种不足,比如需要领域专家参与且费时费力,或者不能融合领域术语的各类特征等,本文借鉴了统计学习理论和信息抽取的相关研究采用了如下的方法:基于分类的方法、基于序列数据标注的方法、基于Reranking的方法进行领域术语自动获取的研究工作。为此本文首先对领域术语获取进行了问题转化,从信息抽取的角度定义了术语获取工作的输入输出和任务描述,并以此为基础提出了基于统计学习理论的领域术语获取的工作机理和框架流程,同时阐明了其中文本预处理、特征表示策略、统计学习模型的选择和比较是领域术语获取工作的核心。然后本文分别探讨了分类方法、序列数据标注方法、Reranking方法的工作机理和针对术语获取的问题分析;在术语的特征表示部分,分别提出了针对上述三种方法的特征表示策略,并通过实验说明了本文提出的方法相比Genia项目提供的baseline方法可以有效地提高领域术语自动获取的性能评测指标。另外,针对目前还没有使用Reranking进行术语获取研究的现状,本文借鉴了该思想方法并与序列标注模型相结合形成一个串行的处理流程,即在CRF模型的基础上,通过排序支持向量机对候选标记序列进行重排序,将最好的候选排序到最前面,从而获取领域术语。从实验结果可以看到在术语获取问题上,序列数据标注方法优于分类方法,而Reranking方法又在序列数据标注评测结果的基础上有了一定的提高。虽然本文采用的三种统计学习方法相比Genia项目报告的baseline有显著的性能提升,但依然可以通过增加更丰富的特征和使用额外的资源库提高性能;另外针对本文目前所使用的Reranking方法,可以将代价敏感的排序损失函数引入到rankingSVM中,用于减少排序顶部位置上的错误率,从而更准确地获得文本中的领域术语。

全文目录


摘要  4-5
ABSTRACT  5-7
目录  7-9
1 绪论  9-13
  1.1 研究背景与意义  9-10
  1.2 国内外研究现状综述  10-12
    1.2.1 领域术语自动获取的研究进展  10-11
    1.2.2 领域术语自动获取研究存在的主要问题  11-12
  1.3 论文的主要工作  12
  1.4 论文内容的组织  12-13
2 领域术语自动获取的原理  13-22
  2.1 领域术语自动获取的理论背景  13-15
    2.1.1 领域术语定义和标注规范  13-14
    2.1.2 信息抽取概述  14-15
    2.1.3 领域术语获取问题的转化  15
  2.2 任务描述  15-16
  2.3 领域术语自动获取的框架结构和工作机理  16-19
  2.4 特征表示  19-20
    2.4.1 领域术语获取中的特征表示  19
    2.4.2 特征选择  19-20
  2.5 领域术语获取的性能评价  20-21
  2.6 本章小结  21-22
3 基于分类的领域术语获取方法  22-29
  3.1 基于分类模型的领域术语获取方法及形式化  22-24
  3.2 领域术语获取中分类模型的基本原理  24-26
    3.2.1 支持向量机  24-25
    3.2.2 朴素贝叶斯  25-26
  3.3 分类模型在领域术语获取任务中的问题分析  26-27
    3.3.1 Na(?)ve Bayes和 SVM 的特点比较  26
    3.3.2 分类模型在领域术语获取中的问题分析  26-27
  3.4 分类方法的领域术语特征表示策略  27-28
  3.5 本章小结  28-29
4 基于序列数据标注的领域术语获取方法  29-40
  4.1 基于序列数据标注模型的领域术语获取方法及形式化  29-31
    4.1.1 问题转化  29-30
    4.1.2 形式化表示和序列数据标注模型的框架  30-31
  4.2 序列数据标注模型的基本原理  31-35
    4.2.1 最大熵马尔可夫模型(MEMM)  32-33
    4.2.2 条件随机场模型(CRF)  33-35
  4.3 序列数据标注模型在领域术语获取任务中的问题分析  35-36
    4.3.1 MEMM 和 CRF 的特点比较  35-36
    4.3.2 序列数据标注模型在领域术语自动抽取中的问题分析  36
  4.4 序列数据标注方法的领域术语特征表示策略  36-39
  4.5 本章小结  39-40
5 基于 Reranking 的领域术语获取方法  40-47
  5.1 Reranking 方法介绍  40-43
    5.1.1 Reranking 定义和形式化表示  40-41
    5.1.2 Reranking 任务中的算法  41-43
  5.2 Ranking SVM  43-44
  5.3 Reranking 方法在领域术语获取任务中的问题分析  44-45
  5.4 Reraning 方法的领域术语特征表示策略  45-46
  5.5 本章小结  46-47
6 领域术语获取方法的实验及验证  47-53
  6.1 数据集准备及所需的工具  47-50
    6.1.1 实验数据集准备  47-48
    6.1.2 实验所需工具  48-50
  6.2 基于分类的领域术语获取实验  50-51
  6.3 基于序列数据标注的领域术语获取实验  51-52
  6.4 基于 Reranking 的领域术语获取实验  52
  6.5 实验结论  52
  6.6 本章小结  52-53
7 结论与展望  53-55
  7.1 工作总结  53-54
  7.2 展望  54-55
致谢  55-57
参考文献  57-59
研究生期间所作工作  59

相似论文

  1. 领域实体属性及事件抽取技术研究,TP391.1
  2. 时间表达式识别与归一化研究,TP391.1
  3. 基于Web的领域词典构建技术研究,TP391.1
  4. 网页属性抽取的方法研究,TP391.1
  5. 英文文本中命名实体识别及关系抽取技术研究,TP391.1
  6. 构件垂直搜索引擎的关键技术研究,TP391.3
  7. 面向教育新闻的主题爬虫设计与实现,TP391.3
  8. 基于GPU图像搜索中文本检索的关键技术研究,TP391.1
  9. 学术主页信息抽取系统的研究,TP393.092
  10. 主题搜索引擎关键技术研究,TP391.3
  11. 一种基于动态学习框架的全自动网页结构化数据抽取方法,TP393.092
  12. 基于自然语言打印机人机交互方法研究与实现,TP11
  13. 特定领域中文术语抽取,TP391.1
  14. 模板独立的网页信息抽取研究,TP393.092
  15. 面向互联网的多元信息获取技术研究,TP393.09
  16. 支持向量机在高炉炉温预报中的应用及若干改进,TF325.69
  17. 网络舆情数据获取与话题分析技术研究,TP393.09
  18. 基于DOM的Web信息抽取系统设计与实现,TP393.09
  19. 一种基于前缀表达式的Web信息抽取方法的关键问题的实现,TP391.1
  20. 基于Bayes统计学习的语义图像检索研究,TP391.41
  21. 基于概念树的Web信息抽取技术研究,TP391.1

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com