学位论文 > 优秀研究生学位论文题录展示

基于主动学习的汉语依存树库构建

作 者: 陈鑫
导 师: 刘挺
学 校: 哈尔滨工业大学
专 业: 计算机科学与技术
关键词: 依存句法分析 依存树库 主动学习 置信度 委员会投票
分类号: TP391.1
类 型: 硕士论文
年 份: 2011年
下 载: 97次
引 用: 0次
阅 读: 论文下载
 

内容摘要


句法分析是自然语言处理领域的一个关键问题,如能将其有效解决,一方面,可对相应树库构建体系的正确性和完善性进行验证;另一方面,也可直接服务于各种上层应用,比如搜索引擎用户日志分析和关键词识别,比如信息抽取、自动问答、机器翻译等其他自然语言处理相关的任务。目前句法分析仍主要采用有指导的机器学习方法,因此需要大规模高质量的树库作为训练语料,而现阶段汉语依存树库资源相对较少,树库标注又是一件费时费力的工作。本文首先介绍HIT-CIR-CDT(全称为“哈工大社会计算与信息检索研究中心汉语依存树库”)的详细标注过程,然后基于该树库介绍如何将主动学习应用到汉语依存树库的构建以达到减少标注成本的目的。主要采用了以下两大类方法:(1)聚类方法:采用聚类直接剔除冗余实例的标注,以期达到使用相同数目的训练实例能使句法分析达到更高性能;(2)置信度判别法:优先选择当前句法模型预测不准(即置信度较低)的实例交由人工标注,以期使句法分析达到相同性能只需更少的训练实例。在置信度判别法中,本文提出并比较了多种衡量依存句法模型预测可信度的准则,包括基于不确定性度量和委员会投票两大类。实验结果表明,置信度判别法比基于聚类的方法更简单有效。一方面,它使依存句法分析在达到相同性能时只需标注更少量实例,人工标注量最多可减少30%;另一方面,与随机选择标注实例相比,当使用相同数目的训练实例时,它总能使汉语依存句法分析性能有所提高,性能最高提升0.8%。这种方法也可用到句法分析的领域移植上,以减少获取新标注语料时的压力。由于主动学习对句法分析器效率要求较高,同时考虑到目前句法分析效率较低,主要在学术界研究较多,而在实际项目中应用较少,为了克服这些问题,本文最后设计并实现了并行化基于图的依存句法分析系统。并行前句法分析器速度为0.5KB/s,并行后平均速度为7.2KB/s,大大增加了句法分析在工程中的实用性。

全文目录


摘要  4-5
Abstract  5-8
第1章 绪论  8-14
  1.1 课题背景  8-9
  1.2 课题的研究目的和意义  9
  1.3 国内外相关研究  9-13
    1.3.1 现有树库概述  9-10
    1.3.2 短语结构和依存结构的比较  10-11
    1.3.3 主动学习的研究现状  11-13
  1.4 本文的研究内容及章节安排  13-14
第2章 汉语依存树库构建  14-30
  2.1 树库来源  14-15
  2.2 树库标注规范  15-22
    2.2.1 依存关系存在原则  15-16
    2.2.2 依存关系定义  16-17
    2.2.3 依存关系定义实例  17-20
    2.2.4 依存关系类型的修订  20-22
  2.3 树库构建流程  22-26
    2.3.1 基于规则方法修改骨架树库  23-25
    2.3.2 应用最大熵进行依存关系标注  25-26
  2.4 多人标注一致性校验  26-29
  2.5 本章小结  29-30
第3章 基于聚类算法的主动学习  30-40
  3.1 聚类算法  30-31
    3.1.1 K平均聚类  30-31
    3.1.2 仿射传播聚类  31
  3.2 句法结构相似度计算  31-33
    3.2.1 句子词性串编辑距离  32
    3.2.2 句子N-Gram特征向量  32-33
    3.2.3 卷积树核函数  33
  3.3 实验设计及结果分析  33-38
  3.4 本章小结  38-40
第4章 基于置信度判别的主动学习  40-53
  4.1 引言  40-41
  4.2 基于置信度判别的主动学习算法流程  41-42
  4.3 置信度判别准则  42-47
    4.3.1 不确定性度量(Uncertainty-based Sampling)  42
    4.3.2 委员会投票(Query-by-committee)  42-47
  4.4 实验设计及结果分析  47-50
    4.4.1 实验数据  47
    4.4.2 实验评价  47
    4.4.3 结果及分析  47-50
  4.5 显著性检验  50-51
  4.6 本章小结  51-53
第5章 并行化依存句法分析器的设计与实现  53-68
  5.1 系统总体设计  53-54
  5.2 算法设计  54-64
    5.2.1 训练模块算法  54-56
    5.2.2 解码模块算法  56-62
    5.2.3 解码模块并行化算法  62-64
  5.3 开发环境  64-65
  5.4 系统性能  65-66
    5.4.1 查询数据结构优化  65
    5.4.2 系统运行效率  65-66
    5.4.3 运行结果分析  66
  5.5 本章小结  66-68
结论  68-70
参考文献  70-73
攻读学位期间发表的学术论文  73-75
致谢  75-76

相似论文

  1. 领域知识指导的半监督学习和主动学习倾向性分类研究,TP181
  2. 基于航空立体多影像的城市建筑物识别技术研究,TP391.41
  3. 跨语言文本分类的研究,TP391.1
  4. 流形学习的方差最小化准则,TP181
  5. 特定领域中文术语抽取,TP391.1
  6. 基于VB6.0采空区风险评价模型研究及系统应用,TD325
  7. 基于专家委员会的主动学习算法研究,TP181
  8. 双目视觉匹配算法研究,TP391.41
  9. 基于贝叶斯分类方法的中文问句分类研究,TP391.1
  10. 基于知网和贝叶斯模型的词义消岐技术的研究,TP391.1
  11. 关于不确定性数据置信度算法的研究,TP311.13
  12. 基于置信度传播的立体匹配算法研究,TP391.41
  13. 中文问答系统中问题分析关键技术的研究,TP391.1
  14. 基于粒子滤波的车道标识线检测与跟踪算法的设计与实现,TP391.41
  15. 语音关键词检出技术及置信度问题研究,TN912.34
  16. 极小化标注的海洋文献复杂分类,TP391.1
  17. 三维各向异性扩散滤波方法研究与应用,TP391.41
  18. 数字图像修复方法研究及其在图像压缩中的应用,TP391.41
  19. 基于数据挖掘的学生成绩分析,TP311.13
  20. CVaR理论在风电场穿透功率极限计算中的应用研究,TM614
  21. 基于情感分析的新闻浏览平台关键技术研究,TP391.1

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com