学位论文 > 优秀研究生学位论文题录展示

基于主动学习的汉语依存树库构建

作　者: 陈鑫
导　师: 刘挺
学　校: 哈尔滨工业大学
专　业: 计算机科学与技术
关键词: 依存句法分析依存树库主动学习置信度委员会投票
分类号: TP391.1
类　型: 硕士论文
年　份: 2011年
下　载: 97次
引　用: 0次
阅　读: 论文下载

内容摘要

句法分析是自然语言处理领域的一个关键问题,如能将其有效解决,一方面,可对相应树库构建体系的正确性和完善性进行验证;另一方面,也可直接服务于各种上层应用,比如搜索引擎用户日志分析和关键词识别,比如信息抽取、自动问答、机器翻译等其他自然语言处理相关的任务。目前句法分析仍主要采用有指导的机器学习方法,因此需要大规模高质量的树库作为训练语料,而现阶段汉语依存树库资源相对较少,树库标注又是一件费时费力的工作。本文首先介绍HIT-CIR-CDT(全称为“哈工大社会计算与信息检索研究中心汉语依存树库”)的详细标注过程,然后基于该树库介绍如何将主动学习应用到汉语依存树库的构建以达到减少标注成本的目的。主要采用了以下两大类方法:(1)聚类方法:采用聚类直接剔除冗余实例的标注,以期达到使用相同数目的训练实例能使句法分析达到更高性能;(2)置信度判别法:优先选择当前句法模型预测不准(即置信度较低)的实例交由人工标注,以期使句法分析达到相同性能只需更少的训练实例。在置信度判别法中,本文提出并比较了多种衡量依存句法模型预测可信度的准则,包括基于不确定性度量和委员会投票两大类。实验结果表明,置信度判别法比基于聚类的方法更简单有效。一方面,它使依存句法分析在达到相同性能时只需标注更少量实例,人工标注量最多可减少30%;另一方面,与随机选择标注实例相比,当使用相同数目的训练实例时,它总能使汉语依存句法分析性能有所提高,性能最高提升0.8%。这种方法也可用到句法分析的领域移植上,以减少获取新标注语料时的压力。由于主动学习对句法分析器效率要求较高,同时考虑到目前句法分析效率较低,主要在学术界研究较多,而在实际项目中应用较少,为了克服这些问题,本文最后设计并实现了并行化基于图的依存句法分析系统。并行前句法分析器速度为0.5KB/s,并行后平均速度为7.2KB/s,大大增加了句法分析在工程中的实用性。

全文目录

摘要  4-5
Abstract  5-8
第1章绪论  8-14
  1.1 课题背景  8-9
  1.2 课题的研究目的和意义  9
  1.3 国内外相关研究  9-13
    1.3.1 现有树库概述  9-10
    1.3.2 短语结构和依存结构的比较  10-11
    1.3.3 主动学习的研究现状  11-13
  1.4 本文的研究内容及章节安排  13-14
第2章汉语依存树库构建  14-30
  2.1 树库来源  14-15
  2.2 树库标注规范  15-22
    2.2.1 依存关系存在原则  15-16
    2.2.2 依存关系定义  16-17
    2.2.3 依存关系定义实例  17-20
    2.2.4 依存关系类型的修订  20-22
  2.3 树库构建流程  22-26
    2.3.1 基于规则方法修改骨架树库  23-25
    2.3.2 应用最大熵进行依存关系标注  25-26
  2.4 多人标注一致性校验  26-29
  2.5 本章小结  29-30
第3章基于聚类算法的主动学习  30-40
  3.1 聚类算法  30-31
    3.1.1 K平均聚类  30-31
    3.1.2 仿射传播聚类  31
  3.2 句法结构相似度计算  31-33
    3.2.1 句子词性串编辑距离  32
    3.2.2 句子N-Gram特征向量  32-33
    3.2.3 卷积树核函数  33
  3.3 实验设计及结果分析  33-38
  3.4 本章小结  38-40
第4章基于置信度判别的主动学习  40-53
  4.1 引言  40-41
  4.2 基于置信度判别的主动学习算法流程  41-42
  4.3 置信度判别准则  42-47
    4.3.1 不确定性度量（Uncertainty-based Sampling）  42
    4.3.2 委员会投票（Query-by-committee）  42-47
  4.4 实验设计及结果分析  47-50
    4.4.1 实验数据  47
    4.4.2 实验评价  47
    4.4.3 结果及分析  47-50
  4.5 显著性检验  50-51
  4.6 本章小结  51-53
第5章并行化依存句法分析器的设计与实现  53-68
  5.1 系统总体设计  53-54
  5.2 算法设计  54-64
    5.2.1 训练模块算法  54-56
    5.2.2 解码模块算法  56-62
    5.2.3 解码模块并行化算法  62-64
  5.3 开发环境  64-65
  5.4 系统性能  65-66
    5.4.1 查询数据结构优化  65
    5.4.2 系统运行效率  65-66
    5.4.3 运行结果分析  66
  5.5 本章小结  66-68
结论  68-70
参考文献  70-73
攻读学位期间发表的学术论文  73-75
致谢  75-76

基于主动学习的汉语依存树库构建

内容摘要

全文目录

相似论文