学位论文 > 优秀研究生学位论文题录展示

特定领域中文术语抽取

作　者: 李丹
导　师: 李丽双
学　校: 大连理工大学
专　业: 计算机应用技术
关键词: 领域术语术语抽取条件随机场主动学习统计量
分类号: TP391.1
类　型: 硕士论文
年　份: 2011年
下　载: 61次
引　用: 0次
阅　读: 论文下载

内容摘要

术语是代表特定学科领域基本概念的语言单元,体现了该领域的核心知识,方便人们快速的获取专业知识。随着技术的进步,各种新知识不断涌现,相应的术语也在不断发展,由于信息爆炸时代大量的数字信息资料产生,传统的由人力获取术语的方法变的不再可行。如何自动获取术语自然成为人们研究的热点。术语自动抽取是信息处理领域中一项重要的研究任务,在词典编撰、领域本体构建、机器翻译等领域都有重要的应用。目前常用的术语抽取方法有基于规则的方法、基于统计的方法、统计和规则结合的方法。其中基于统计的方法又可以根据有无已标注的语料分为有监督的统计机器学习方法和无监督的基于统计量的方法。由于缺少已标注语料,前人对基于统计机器学习的术语抽取方法的研究不多,本文研究特定领域的术语抽取方法,分析了领域术语的特点,比较了其和命名实体的区别。针对汽车领域制定了标注规则,对语料进行标注。采用基于条件随机场的机器学习方法对领域术语进行抽取,得到精确率、召回率、F-值分别为86.41%,80.50%,82.50%。针对人工标注领域语料代价大的情况,本文将主动学习策略引入基于条件随机场的术语抽取方法中。使用主动学习的不确定性样本选择策略,结合CRFs模型给出的边缘概率计算置信度,实验结果证明使用主动学习的方法选择样本比随机选择样本规模所得到的结果要好,使用较少的已标语料即可获得预期的抽取效果。基于有监督统计机器学习的方法可以获得较好的结果,但其对于已标语料的规模和质量都有不小的依赖性,本文研究了无监督的基于统计量的领域术语抽取方法。分别分析了信息熵、互信息、C-value对不同长度的领域术语抽取上的性能,对于由1-3个词语组成的术语使用词性组成规则进行过滤,提高了术语抽取的精确率,最终的F-值为15.41%。本文研究了特定领域术语抽取的方法,基于统计量的方法使用的资源和代价最小,但结果最差。基于条件随机场的方法的最终结果最好,主动学习方法结果与其相比相差不多,但是使用了较少的训练语料。

全文目录

摘要  4-5
Abstract  5-9
1 绪论  9-13
  1.1 研究背景与意义  9
  1.2 研究现状  9-11
  1.3 本文主要研究内容和组织结构  11-13
2 术语的定义及术语抽取的特点  13-16
  2.1 术语的定义  13
  2.2 术语的特点  13-14
  2.3 汽车领域术语  14-15
  2.4 汽车领域术语抽取的特点  15-16
3 基于条件随机场的术语抽取方法  16-27
  3.1 条件随机场的基本原理  16-19
    3.1.1 CRFs的图结构  16
    3.1.2 CRFs的势函数  16-17
    3.1.3 CRFs特征函数生成  17-19
  3.2 语料预处理  19
  3.3 有效特征选取  19-23
  3.4 实验与分析  23-26
    3.4.1 实验数据  24
    3.4.2 实验结果与分析  24-26
  3.5 本章小结  26-27
4 结合条件随机场与主动学习策略的术语抽取  27-32
  4.1 主动学习  27-28
  4.2 主动学习与CRFs结合  28-30
  4.3 实验与结果分析  30-31
  4.4 本章小结及改进方向  31-32
5 基于统计量的术语抽取方法  32-48
  5.1 统计模型  32-34
  5.2 统计量  34-37
  5.3 基于统计量的术语抽取实验  37-45
    5.3.1 实验数据预处理  37-38
    5.3.2 基于统计量方法的术语抽取  38-42
    5.3.3 统计量与规则相结合  42-45
  5.4 三类术语抽取方法的分析  45-47
  5.5 本章小结  47-48
结论  48-50
参考文献  50-52
攻读硕士学位期间发表学术论文情况  52-53
致谢  53-54

特定领域中文术语抽取

内容摘要

全文目录

相似论文