学位论文 > 优秀研究生学位论文题录展示

基于半监督学习的中文依存句法分析

作　者: 吴志君
导　师: 王轩
学　校: 哈尔滨工业大学
专　业: 计算机科学与技术
关键词: 依存句法分析依存树语料库半监督学习分类器
分类号: TP391.1
类　型: 硕士论文
年　份: 2012年
下　载: 16次
引　用: 0次
阅　读: 论文下载

内容摘要

依存关系指的是句子中词与词之间支配与被支配的关系，将这种关系以计算机可接受的方式表示出来就是一个有向的依存结构图。依存关系因其直观、容易理解和简洁的结构，使得依存句法分析成为目前句法分析领域中的重要的研究方向之一。传统的句法分析的首要任务是确定句子所包含的结构，其次是确定各部分之间的内在联系，而依存句法分析的主要目的就是通过分析句子中各词之间的依存关系来识别句子的句法结构。随着计算机技术的不断发展，大规模收集语料成为可能，一些主流的语言如英文已经建立起了规模很大的语料库，并用统计的方法让计算机来处理成为可能。但是就目前来说，收集完之后的语料库需要人工的对其词性和依存关系进行标注，这将耗费大量的人力、物力和财力。对于中文的依存语料库来说，目前已建成的汉语依存树库规模很小，而且由于没有统一的标注规范，使得各研究组织机构的语料库之间存在着很大的差异。课题考虑到中文依存语料库规模较小的不足之处，利用大量的未标记语料，设计并实现了一种基于改进的Tri-training算法的半监督学习方法，并取得了较好的性能。实验采用的语料全部来自于CoNLL-2009的中文评测数据，其中共有22276个语句，利用基于两种不同方法的句法分析器MSTParser和MaltParser训练得到三种类型的分类器模型来实现改进的Tri-training算法。最初的Tri-training算法的过程过于繁琐，且其迭代的过程十分耗时。本文改进了Tri-training算法的时间复杂度，并且使用三种算法对同一标记数据进行训练。本实验根据汉语词和词形相同的特征，改进了MSTParser和MaltParser训练过程特征向量的选取维数，同时增加了三阶的特征向量。实验结果表明，利用大量的未标记的句子对实验结果的提高作用明显，克服了因依存语料库不足所带来的问题。

全文目录

摘要  4-5
ABSTRACT  5-8
第1章绪论  8-13
  1.1 课题背景及研究意义  8-9
    1.1.1 背景  8
    1.1.2 研究意义  8-9
  1.2 国内外研究现状  9-11
    1.2.1 依存句法分析现状  9-11
    1.2.2 半监督学习与依存句法分析  11
  1.3 本文主要研究内容  11-13
第2章半监督学习方法概述  13-21
  2.1 机器学习技术  13-15
    2.1.1 机器学习  13
    2.1.2 有监督学习  13-14
    2.1.3 无监督学习  14-15
  2.2 半监督学习技术基础  15-16
    2.2.1 半监督学习  15
    2.2.2 未标记样本的学习  15-16
    2.2.3 合理利用未标记数据  16
    2.2.4 半监督学习方法  16
  2.3 常见的半监督学习模型  16-20
    2.3.1 产生式(Generative)  17
    2.3.2 自训练(Self-training)  17-18
    2.3.3 协同训练(Co-training)  18-20
  2.5 本章小结  20-21
第3章中文依存句法分析  21-29
  3.1 依存句法概述  21-26
    3.1.1 依存语法的发展  21-22
    3.1.2 中文依存句法的研究  22-26
  3.2 依存句法主流的分析方法  26-27
    3.2.1 生成式模型  26
    3.2.2 判别式模型  26-27
    3.2.3 决策式模型  27
  3.3 本章小结  27-29
第4章基于半监督学习的中文依存句法分析  29-42
  4.1 引言  29
  4.2 MSTPARSER和MALTPARSER简介  29-32
    4.2.1 准备工作  29-30
    4.2.2 MSTPARSER  30-31
    4.2.3 MALTPARSER  31-32
  4.3 改进的TRI-TRAINING算法  32-36
    4.3.1 初始的TRI-TRANING算法  32-34
    4.3.2 改进的TRI-TRANING算法  34-36
  4.4 MSTPARSER和MALTPARSER实现半监督学习  36-40
    4.4.1 分类器设计  37-38
    4.4.2 实验系统设计  38-39
    4.4.3 依存特征选取  39-40
  4.5 依存句法分析界面  40-41
  4.6 本章小结  41-42
第5章实验结果与分析  42-51
  5.1 实验开发环境  42
  5.2 数据准备  42-43
  5.3 评价标准  43-45
  5.4 实验结果分析  45-50
  5.5 本章小结  50-51
结论  51-52
参考文献  52-57
攻读硕士学位期间发表的论文  57-59
致谢  59

基于半监督学习的中文依存句法分析

内容摘要

全文目录

相似论文