学位论文 > 优秀研究生学位论文题录展示
基于排序学习的翻译自动评价方法的研究
作 者: 李巨凤
导 师: 杨沐昀
学 校: 哈尔滨工业大学
专 业: 计算机科学与技术
关键词: 机器翻译 翻译自动评价 机器学习 排序 特征选择
分类号: TP391.2
类 型: 硕士论文
年 份: 2009年
下 载: 58次
引 用: 0次
阅 读: 论文下载
内容摘要
近年来,机器翻译自动评价的研究一直是国内外机器翻译界的研究热点。翻译自动评价不仅能够快速的评价机器翻译的质量,研究者们还可以把翻译评价的结果作为反馈信息来调整其机器翻译系统的参数。因此,其研究不仅有一定的直接应用价值,还可以在一定程度上推动翻译理论的研究。本文主要针对现有机器翻译自动评价方法针对句子级评价性能不佳的现状,探索了利用排序学习模型实现高性能的机器翻译自动评价方法。主要研究内容包括以下几个方面:1.总结分析现有机器翻译自动评价广泛采用的几种基于相似度计算方法,并在各种数据集上对这些方法的优缺点进行实验对比。实验结果表明这些方法在总体上性能有所差异,并且在不同数据以及同一数据的不同样本分布上也同样有所差异。2.探究基于排序学习的翻译自动评价方法,并采用最大熵和SVM排序学习方法融合现有的翻译自动评价模型。实验结果表明基于SVM排序学习模型融合的方法能够更好地融合现有的翻译自动评价模型各自的优点,在句子级的评价方面获得更佳的性能。3.提出多特征基础上利用排序学习模型构建翻译自动评价方法。其中多特征来源于两方面,一方面是来自于现有基于相似度的翻译自动评价模型内部的参数,另一方面是引入词性这一浅层语言学特征。实验结果表明基于特征融合的翻译自动评价方法的性能要优于模型融合的方法,词性特征能够有效的弥补现有方法的不足,基于SVM排序学习模型取得了句子级翻译自动评价的最优性能。本文实验采用目前机器翻译自动评价研究中公开的人工评分标准各异、源语言不同而且参考译文数目不一的数据集,本文方法的优越性得到了有效地验证。在2008年NIST组织的第一届机器翻译自动评价技术的国际评测(MetricsMATR2008)中,本文系统获得总成绩第二,并在多项测试中获得第一名的好成绩。
|
全文目录
摘要 4-5 Abstract 5-9 第1章 绪论 9-18 1.1 研究背景、目的及意义 9-11 1.2 机器翻译自动评价 11-17 1.2.1 基于相似度计算的翻译自动评价 12-13 1.2.2 基于机器学习的机器翻译自动评价 13-17 1.3 本文主要研究内容及组织 17-18 第2章 基于相似度的翻译自动评价方法对比分析 18-27 2.1 引言 18 2.2 基于字符相似度的翻译自动评价模型 18-23 2.2.1 基于N元统计的方法 19-21 2.2.2 其它基于相似度计算的方法 21-23 2.3 翻译自动评价模型性能分析 23-26 2.3.1 不同数据集上性能对比 24-25 2.3.2 不同译文质量上的性能分析 25-26 2.4 本章小结 26-27 第3章 基于排序学习的翻译自动评价模型融合 27-42 3.1 引言 27 3.2 排序学习模型概述 27-32 3.2.1 最大熵排序学习模型与翻译自动评价 27-30 3.2.2 SVM排序学习模型与翻译自动评价 30-32 3.3 评价指标 32-35 3.3.1 相关系数 32-34 3.3.2 句子级一致性(Sentence-level Consistency) 34-35 3.4 实验与结果分析 35-41 3.4.1 模型集合与模型选择 35-37 3.4.2 实验设置 37-38 3.4.3 基于最大熵排序学习模型融合的翻译自动评价实验 38-40 3.4.4 基于SVM排序学习模型融合的翻译自动评价实验 40-41 3.5 本章小结 41-42 第4章 基于多特征的翻译自动评价研究 42-49 4.1 引言 42 4.2 特征集合 42-43 4.3 实验与结果分析 43-47 4.3.1 基于最大熵排序学习特征融合的翻译自动评价实验 44 4.3.2 基于SVM排序学习特征融合的翻译自动评价实验 44-47 4.4 与最新翻译自动评价方法比较 47-48 4.5 本章小结 48-49 结论 49-50 参考文献 50-55 附录一 55-56 附录二 56-57 附录二(续) 57-58 附录三 58-59 攻读学位期间发表的学术论文 59-61 致谢 61
|
相似论文
- 统计机器翻译中结构转换技术的研究,TP391.2
- 基于仿生模式识别的文本分类技术研究,TP391.1
- 唇读中的特征提取、选择与融合,TP391.41
- 面向统计机器翻译的解码算法的研究,TP391.2
- 语音情感识别的特征选择与特征产生,TP18
- 太原市草坪杂草群落生态与科学管理研究,S451
- 中条山麻栎群落数量生态研究,Q948
- 煤矿开采区植被退化定量监测与评价,Q948
- 山西果园杂草数量生态与管理策略研究,S451
- 太原东山油松人工林数量特征与生物多样性研究,S791.254
- 旅游对芦芽山国家级自然保护区典型植被的影响,S759.9
- 网络搜索引擎的相关技术研究,G354
- 工件排序问题的若干研究,O157.5
- 面向主题的Web文档自动文摘生成方法研究,TP391.1
- 基于数据分布特征的文本分类研究,TP391.1
- 数字图像盲取证技术研究,TP391.41
- 车辆识别系统动态特征选择算法的研究与实现,TP391.41
- 基于AdaBoost算法的人脸识别研究,TP391.41
- 面向肺部CAD的特征提取、选择及分类方法研究,TP391.41
- 考虑均衡型指标的多指标决策方法研究,C934
- 基于条件随机场的中文分词技术的研究与实现,TP391.1
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 翻译机
© 2012 www.xueweilunwen.com
|