学位论文 > 优秀研究生学位论文题录展示
基于半监督学习的中文依存句法分析
作 者: 吴志君
导 师: 王轩
学 校: 哈尔滨工业大学
专 业: 计算机科学与技术
关键词: 依存句法分析 依存树 语料库 半监督学习 分类器
分类号: TP391.1
类 型: 硕士论文
年 份: 2012年
下 载: 16次
引 用: 0次
阅 读: 论文下载
内容摘要
依存关系指的是句子中词与词之间支配与被支配的关系,将这种关系以计算机可接受的方式表示出来就是一个有向的依存结构图。依存关系因其直观、容易理解和简洁的结构,使得依存句法分析成为目前句法分析领域中的重要的研究方向之一。传统的句法分析的首要任务是确定句子所包含的结构,其次是确定各部分之间的内在联系,而依存句法分析的主要目的就是通过分析句子中各词之间的依存关系来识别句子的句法结构。随着计算机技术的不断发展,大规模收集语料成为可能,一些主流的语言如英文已经建立起了规模很大的语料库,并用统计的方法让计算机来处理成为可能。但是就目前来说,收集完之后的语料库需要人工的对其词性和依存关系进行标注,这将耗费大量的人力、物力和财力。对于中文的依存语料库来说,目前已建成的汉语依存树库规模很小,而且由于没有统一的标注规范,使得各研究组织机构的语料库之间存在着很大的差异。课题考虑到中文依存语料库规模较小的不足之处,利用大量的未标记语料,设计并实现了一种基于改进的Tri-training算法的半监督学习方法,并取得了较好的性能。实验采用的语料全部来自于CoNLL-2009的中文评测数据,其中共有22276个语句,利用基于两种不同方法的句法分析器MSTParser和MaltParser训练得到三种类型的分类器模型来实现改进的Tri-training算法。最初的Tri-training算法的过程过于繁琐,且其迭代的过程十分耗时。本文改进了Tri-training算法的时间复杂度,并且使用三种算法对同一标记数据进行训练。本实验根据汉语词和词形相同的特征,改进了MSTParser和MaltParser训练过程特征向量的选取维数,同时增加了三阶的特征向量。实验结果表明,利用大量的未标记的句子对实验结果的提高作用明显,克服了因依存语料库不足所带来的问题。
|
全文目录
摘要 4-5 ABSTRACT 5-8 第1章 绪论 8-13 1.1 课题背景及研究意义 8-9 1.1.1 背景 8 1.1.2 研究意义 8-9 1.2 国内外研究现状 9-11 1.2.1 依存句法分析现状 9-11 1.2.2 半监督学习与依存句法分析 11 1.3 本文主要研究内容 11-13 第2章 半监督学习方法概述 13-21 2.1 机器学习技术 13-15 2.1.1 机器学习 13 2.1.2 有监督学习 13-14 2.1.3 无监督学习 14-15 2.2 半监督学习技术基础 15-16 2.2.1 半监督学习 15 2.2.2 未标记样本的学习 15-16 2.2.3 合理利用未标记数据 16 2.2.4 半监督学习方法 16 2.3 常见的半监督学习模型 16-20 2.3.1 产生式(Generative) 17 2.3.2 自训练(Self-training) 17-18 2.3.3 协同训练(Co-training) 18-20 2.5 本章小结 20-21 第3章 中文依存句法分析 21-29 3.1 依存句法概述 21-26 3.1.1 依存语法的发展 21-22 3.1.2 中文依存句法的研究 22-26 3.2 依存句法主流的分析方法 26-27 3.2.1 生成式模型 26 3.2.2 判别式模型 26-27 3.2.3 决策式模型 27 3.3 本章小结 27-29 第4章 基于半监督学习的中文依存句法分析 29-42 4.1 引言 29 4.2 MSTPARSER和MALTPARSER简介 29-32 4.2.1 准备工作 29-30 4.2.2 MSTPARSER 30-31 4.2.3 MALTPARSER 31-32 4.3 改进的TRI-TRAINING算法 32-36 4.3.1 初始的TRI-TRANING算法 32-34 4.3.2 改进的TRI-TRANING算法 34-36 4.4 MSTPARSER和MALTPARSER实现半监督学习 36-40 4.4.1 分类器设计 37-38 4.4.2 实验系统设计 38-39 4.4.3 依存特征选取 39-40 4.5 依存句法分析界面 40-41 4.6 本章小结 41-42 第5章 实验结果与分析 42-51 5.1 实验开发环境 42 5.2 数据准备 42-43 5.3 评价标准 43-45 5.4 实验结果分析 45-50 5.5 本章小结 50-51 结论 51-52 参考文献 52-57 攻读硕士学位期间发表的论文 57-59 致谢 59
|
相似论文
- 空间目标ISAR成像仿真及基于ISAR像的目标识别,TN957.52
- 统计与语言学相结合的词对齐及相关融合策略研究,TP391.2
- Conparat平行语料库平台的功能评价,H08
- 基于语料库的商务英语专业翻译教学模式研究,H319
- 基于体裁的ESP教师培训模式研究,H319
- 应用层协议识别和还原方法的研究与实现,TP393.08
- 基于支持向量机的故障诊断研究,TH165.3
- 面向双语平行语料库的英藏句子结构研究,H214
- 在线多媒体语料库索引系统对大学英语口语影响的研究,H319
- 基于中介语语料库的汉语递进复句习得研究,H195
- 基于语料库的上海世博会新闻报道的互文性分析,H052
- 人脸检测算法的FPGA设计与实现,TP391.41
- 英汉可比较语料库的构建与应用研究,TP391.1
- 基于半监督模糊聚类的入侵防御技术研究,TP393.08
- 李群深层结构学习算法研究,TP181
- 学习表达式的映射机制研究,TP181
- 基于单目视觉的车辆检测算法研究与实现,TP274
- 基于语料库的中国学习者英语写作中的词汇错误分析及其对教学的启示,H319
- 基于改进PSO和参数优化的LSSVM的风力发电机齿轮箱故障诊断,TM315
- SAPs对蛋白质功能影响特征分析及性能评估,Q51
- 基于参考图像的乳腺肿块诊断方法研究,TP391.41
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|