学位论文 > 优秀研究生学位论文题录展示
机器翻译中的高级对齐技术和开发集选择策略研究
作 者: 惠聪
导 师: 吕宝粮
学 校: 上海交通大学
专 业: 计算机软件与理论
关键词: 统计机器翻译 对齐 短语 句法 领域适应 开发集选择
分类号: TP391.2
类 型: 硕士论文
年 份: 2012年
下 载: 47次
引 用: 0次
阅 读: 论文下载
内容摘要
机器翻译是当今世界跨语言合作交流中一个必不可少的核心技术,其在文化、科技、宗教、社会等各个领域的互通有无中扮演着重要角色。从大量数据中学习如何进行翻译,我们称之为统计机器翻译。统计机器翻译中很重要的一步是对齐,是指从两句不同语言表达的同样一句话中抽取可以指导翻译的语言学结构的过程,这样的语言学结构如单词、短语、句法、语义等。统计机器翻译中另一个问题是从机器学习带来的,称为领域适应,这会影响模型参数优化集合选择,不当的优化集合会对翻译质量造成很大的影响。本文将就着眼于这两个问题,统计了历届世界统计机器翻译研讨会开放任务中单系统的对齐模块使用情况,并使用比赛数据进行实验,对第一个问题进行了对比研究,论证了当今的统计机器翻译对齐系统中短语对齐占有重要优势;同时,针对统计机器翻译中的领域适应性问题,本文提出了最优翻译质量差和BLEU召回率两个指标来进行开发集合的选择,实验结果表明,翻译质量有了明显的提高。
|
全文目录
摘要 5-6 ABSTRACT 6-7 目录 7-10 插图索引 10-11 表格索引 11-13 主要符号对照表 13-14 第一章 绪论 14-22 1.1 全文组织概要 14 1.2 翻译 14-16 1.3 机器翻译 16-21 1.3.1 机器辅助翻译 16-17 1.3.2 机器翻译的定义 17 1.3.3 机器翻译的历史 17-18 1.3.4 机器翻译的流程与方法 18-20 1.3.5 机器翻译的质量评估 20 1.3.6 机器翻译难点与机遇 20-21 1.4 章总结 21-22 第二章 统计机器翻译 22-38 2.1 起源与发展 22-24 2.2 基本思想与流程 24-26 2.3 特征函数(Feature Function) 26-29 2.3.1 语言模型(Language Model) 26 2.3.2 词对齐(Word Alignment ) 26-28 2.3.3 其他特征函数 28-29 2.4 解码 29-32 2.5 模型参数优化 32-35 2.6 评测 35-37 2.6.1 位置无关错误率(Position-independent Error Rate, PER) 35-36 2.6.2 单词错误率(Word Error Rate, WER) 36 2.6.3 并行评测替换(Binlingual Evaluation Understudy, BLEU) 36-37 2.7 章总结 37-38 第三章 语料与实验环境 38-46 3.1 工具介绍和选用 38-40 3.1.1 词对齐工具:GIZA++ 38-39 3.1.2 语言模型:SRILM 39 3.1.3 预处理、后处理和打分工具 39 3.1.4 框架和解码:摩西(MOSES) 39-40 3.2 数据选择和一般处理流程 40-44 3.2.1 数据选择 40-43 3.2.2 一般处理流程 43-44 3.3 章总结 44-46 第四章 结构对齐学习及实验比较 46-62 4.1 短语对齐 46-50 4.1.1 数学定义 46-47 4.1.2 学习短语对齐翻译表 47 4.1.3 估计短语翻译概率 47-50 4.1.4 训练解码和评测 50 4.2 句法对齐 50-55 4.2.1 同步语法(Synchronous Grammar) 50-53 4.2.2 学习同步句法 53-55 4.2.3 解码 55 4.3 实验与比较 55-60 4.3.1 数据选择 57-59 4.3.2 实验结果和分析 59-60 4.4 章总结 60-62 第五章 增强的开发集选择策略 62-72 5.1 领域适应的模型开发集参数优化 62-65 5.1.1 最小错误率训练(MERT) 63-64 5.1.2 最优翻译质量差 64 5.1.3 BLEU-准确率、BLEU-召回率和BLEU-F1 64-65 5.2 实验与分析 65-68 5.2.1 数据选择 65-66 5.2.2 实验结果和分析 66-68 5.3 章总结 68-72 第六章 全文总结 72-74 参考文献 74-78 致谢 78-80 攻读学位期间发表的学术论文目录 80
|
相似论文
- 红安方言语法研究,H146
- 基于句法特征的代词消解方法研究,TP391.1
- 统计与语言学相结合的词对齐及相关融合策略研究,TP391.2
- 面向统计机器翻译的解码算法的研究,TP391.2
- 中学生汉英句法意识在汉英双语语篇阅读中的作用,G633.41
- 英语语音意识,句法意识与工作记忆对英语阅读理解之预测力的动态变化,G633.41
- 语气副词研究综述,H146
- 汉英插入语对比研究,H314
- 基于博客搜索的博文情感倾向性分析技术的研究,TP391.1
- 空间构型对语篇连贯的解释,H05
- HSK《大纲》里的离合词,H146
- 汉捷语表达空间和时间介词用法对比研究,H146
- 基于口令短语的PGP破解研究与实现,TP309.7
- 泰国华文文学作品语言变异研究,H195
- 汉、韩语肢体词语意义泛化现象比较研究,H55
- 英语学术论文标题的短语学特征研究,H313
- 语义网自动构建中句法分析的研究,TP391.1
- 纺织科学英语学术论文引言的短语学特征研究,H315
- 基于空间句法分析的城市地价与合理用地结构关系研究,F224;TU984.113
- 汉英口译中含有多重前置定语名词短语的研究,H315.9
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 翻译机
© 2012 www.xueweilunwen.com
|