学位论文 > 优秀研究生学位论文题录展示
汉蒙词法分析及其在统计机器翻译中的应用
作 者: 应玉龙
导 师: 李淼
学 校: 中国科学技术大学
专 业: 模式识别与智能系统
关键词: 词法分析 条件随机场 局部歧义词网格 最小描述长度 统计机器翻译
分类号: TP391.2
类 型: 硕士论文
年 份: 2010年
下 载: 95次
引 用: 3次
阅 读: 论文下载
内容摘要
词法分析是自然语言处理的一个基础性研究,词法分析的正确率将直接影响到后续自然语言处理(如:机器翻译)的性能。本文构建了统计模型,对汉语和蒙古语进行了切词和词性标注处理。在此基础上,将汉蒙词法形态信息融入到了汉蒙统计机器翻译系统,并在双语对齐的平行语料库上进行了实验,改善了译文的质量,验证了词法分析对于汉蒙机器翻译的重要性。本文系统地介绍了条件随机场模型的定义、图结构、势函数、模型训练及解码算法;并简化了条件随机场模型的图结构、设计了特征函数、改进了解码算法;将改进后的模型应用到了汉语和蒙古语的词法分析工作中。本文提出了一种局部歧义词网格与条件随机场相结合的汉语分词模型。首先,在低层使用局部歧义词网格对文本粗切分,并将切分结果作为一项特征提供给高层的CRFs模型;然后,在高层使用条件随机场对文本进行字标注。在SIGHAN2005提供的PKU和MSRA分词语料上进行了测试,取得了较高的切分结果。我们还构建了能够融合更多上下文信息的汉语词性标注模型。本文针对蒙古语通过词干后缀接不同词尾来实现形态变化的语言特点,首先构建了基于最小描述距离的统计模型,用于蒙古语词形切分;并在此基础上建立了一个双层的蒙古语词性标注模型,该模型把低层的切分结果作为一项特征提供给高层的条件随机场模型去学习。在内蒙古大学提供的语料上进行了训练和测试,取得了较高的标注结果。本文将汉语和蒙古语的词法信息作为因子融合到统计机器翻译系统中,建立了源语言因子到目标语言因子的多个翻译路径;使用了多个基于词法因子的语言模型评价翻译结果;建立了从目标语言翻译因子到表面词形的生成模型。弥补了统计模型对汉语、蒙古语词法信息利用与表达能力不足的问题;提高了统计机器翻译的译文质量。
|
全文目录
摘要 4-5 ABSTRACT 5-7 目录 7-9 第一章 绪论 9-16 1.1 本文研究背景及意义 9-10 1.2 词法分析概述 10-13 1.2.1 词法分析的主要研究内容 10-11 1.2.2 词形切分 11-12 1.2.3 词性标注 12-13 1.3 本文的研究工作 13-15 1.4 论文结构框架 15-16 第二章 基于条件随机场的词法分析模型 16-24 2.1 条件随机场 16-18 2.1.1 条件随机场的图结构 16-17 2.1.2 条件随机场势函数 17-18 2.1.3 模型训练 18 2.2 词法分析下的条件随机场改进 18-24 2.2.1 条件随机场结构的改进 19-20 2.2.2 条件随机场特征选择 20-22 2.2.3 解码算法的改进 22-24 第三章 汉语词法分析 24-34 3.1 局部歧义词网格分词算法 24-26 3.1.1 局部歧义词网格 24-25 3.1.2 算法描述 25-26 3.2 基于条件随机场的双层分词模型 26-28 3.2.1 系统实现 26-27 3.2.2 标注集 27-28 3.3 分词实验与分析 28-31 3.3.1 评测标准与语料 28 3.3.2 实验设计 28-30 3.3.3 实验分析 30-31 3.4 基于条件随机场的汉语词性标注方法 31-34 3.4.1 词性标注集的选择 32 3.4.2 实验语料 32 3.4.3 实验设计与结果分析 32-34 第四章 蒙古语词法分析 34-43 4.1 蒙古语词形分析 34-39 4.1.1 词形分析常见算法 34-35 4.1.2 基于最小描述长度的词形切分 35-36 4.1.3 算法描述 36-37 4.1.4 实验设计与结果分析 37-39 4.2 蒙古语词性标注 39-43 4.2.1 形态标注具体流程 39-40 4.2.2 标注集合 40 4.2.3 实验与分析 40-43 第五章 融入词法信息的汉蒙统计机器翻译 43-56 5.1 机器翻译概述 43-46 5.1.1 基于规则的机器翻译 43-44 5.1.2 基于实例的机器翻译 44 5.1.3 基于统计的机器翻译 44-46 5.2 汉蒙机器翻译 46-48 5.3 融合词法信息的Factored模型 48-52 5.3.1 Factored翻译模型定义 48-50 5.3.2 Factored语言模型 50-52 5.3.3 Factored模型训练与解码 52 5.4 对比实验与分析 52-56 5.4.1 实验语料与评测标准 53 5.4.2 实验设计与分析 53-56 第六章 总结与展望 56-58 6.1 总结 56-57 6.2 研究展望 57-58 参考文献 58-62 致谢 62-63 在读期间发表的学术论文与取得的研究成果 63
|
相似论文
- 面向统计机器翻译的解码算法的研究,TP391.2
- 英汉命名实体翻译方法研究,TP391.2
- 评价对象抽取研究,TP391.1
- 基于条件随机场的中文分词技术的研究与实现,TP391.1
- 基于空间邻域词袋模型的图像标注技术,TP391.41
- 基于树型条件随场的特定域事件提取方法研究,TP391.1
- 机器翻译中的高级对齐技术和开发集选择策略研究,TP391.2
- 基于条件随机场的RNA二级结构预测算法,R346
- 基于字词联合解码的中文分词研究,TP391.1
- 特定领域中文术语抽取,TP391.1
- 生物医学文献中模糊限制语及其范围的检测,TP391.1
- 基于数据库的自然语言查询技术研究与实现,TP391.1
- 融合统计与规则技术的蒙古语词法分析研究,TP391.1
- 大型遗留系统全球化的自动化方法研究,TP311.52
- 日语词法分析及在跨语言信息检索中的应用研究,TP391.1
- 非线性时间序列建模及其模型评估,N945.16
- 具有长短周期的非线性动力系统混合模型的建立及其应用,O19
- 基于有限自动机的航班计划编排技术研究,V352
- 基于汉语理解的软件需求规格说明质量模型的研究,TP311.52
- 面向受限自然语言的语法分析研究,TP311.52
- 基于MDL的统计形状模型的建立及其医学图像分割的研究,TP391.41
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 翻译机
© 2012 www.xueweilunwen.com
|