学位论文 > 优秀研究生学位论文题录展示

基于语料库的机器翻译中翻译知识的获取

作 者: 殷乐
导 师: 张玉洁
学 校: 北京交通大学
专 业: 计算机科学与技术
关键词: 统计机器翻译 基于实例的机器翻译 翻译实例 依存句法 短语表 虚拟上下文 解码 翻译知识获取 翻译知识过滤
分类号: TP391.2
类 型: 硕士论文
年 份: 2014年
下 载: 30次
引 用: 0次
阅 读: 论文下载
 

内容摘要


机器翻译(Machine Translation, MT)是利用电子计算机在不同语言之间实现翻译的一门实验性学科。随着互联网技术和机器翻译技术的发展,机器翻译在产品手册本地化、旅游会话和信息检索等领域得到越来越多的应用。虽然近年来机器翻译研究工作已经取得了长足进步,但在长文的机器翻译中翻译质量和解码速度还远未达到令人满意的水平。在基于语料库的机器翻译中,如何从大规模语料中自动获取高质量的机器翻译知识一直是该领域的研究热点。在基于实例的机器翻译(EBMT)中,翻译实例库是翻译知识的主要表现形式。不同语系的平行句对之间,句子的语序常常有很大出入。目前仅使用单词对齐信息从平行句对中获取翻译实例的方法经常会产生译文中的语序错误。针对这一问题,本文提出利用依存句法信息为翻译知识获取提供句法约束的方法,以减少语序错误的发生。依存句法信息是句子内成分之间修饰与被修饰的关系,借助这些信息可以获得长距离的语序调整信息;同时待翻译句子的依存句法信息也可以作为计算实例相似度和解码算法的依据,提高翻译精度。本文根据这一方法构建了基于依存结构化实例的机器翻译系统。在统计机器翻译中(SMT),短语表是翻译知识的主要表现形式。自动获取的短语表中不可避免的包含大量的冗余和错误的短语对,这极大影响了解码速度又会影响翻译质量。为了缓解这个问题,本文提出一种基于虚拟上下文的过滤短语表的方法。该方法通过引入虚拟上下文模拟解码时的语境来计算短语对在语言模型上的得分增量;并设计了一种对短语对重排序的翻译知识过滤策略,即通过分配最佳和最差语境来计算短语对的最大和最小得分增量。基于以上考虑,本文在基于语料库的机器翻译中,设计了利用依存句法信息约束来获得翻译知识和利用虚拟上下文信息过滤翻译知识的方法。为了验证所提方法的有效性,该工作在基于实例机器翻译框架中设计并实现了带有依存结构的翻译实例的获取方法、基于依存结构特征为主的实例相似度的计算模式和译文生成算法。本文利用国际公开评测NTCIR-9的中英专利数据模拟实际翻译系统的开发过程,构建了基于依存结构化实例的EBMT系统并进行了评测实验。评测结果显示系统的性能接近NTCIR-9公布的EBMT最好系统"KYOTO"的翻译水平。针对短语表过滤方法,本文在NTCIR-9的中英数据上进行了验证实验。结果显示,当短语表的规模下降到原来的47%时,翻译质量的BLEU值提高了0.0005;当短语表的规模下降到原来的30%时,BLEU值仅下降0.0006。实验结果表明,在大规模短语表的过滤中,本文的方法是有效可行的。

全文目录


摘要  5-7
Abstract  7-9
目录  9-11
1 绪论  11-17
  1.1 研究背景和意义  11-12
  1.2 国内外研究现状  12-15
    1.2.1 机器翻译的发展和研究现状  12-14
    1.2.2 机器翻译的关键问题  14-15
  1.3 论文的主要内容和组织结构  15-17
2 基于语料库的机器翻译理论和基础技术  17-28
  2.1 基于实例的机器翻译(EBMT)方法  17-22
    2.1.1 EBMT的原理和框架  17-18
    2.1.2 翻译实例的抽取  18-20
    2.1.3 实例相似度计算  20-22
    2.1.4 翻译实例获取的问题  22
  2.2 基于统计的机器翻译(SMT)方法  22-25
    2.2.1 SMT原理和方法  22-24
    2.2.2 对数线性模型  24
    2.2.3 短语翻译表获取的问题  24-25
  2.3 句法分析  25-28
    2.3.1 短语结构句法分析  25
    2.3.2 依存结构句法分析  25-27
    2.3.3 依存结构句法的优势  27-28
3 EBMT中基于依存结构的翻译知识获取和翻译系统的实现  28-40
  3.1 结构化实例的获取方法  28-35
    3.1.1 结构化实例的获取  28-32
    3.1.2 实例的泛化  32-35
  3.2 EBMT系统实现  35-40
    3.2.1 系统架构  35-36
    3.2.2 翻译实例获取模块  36-37
    3.2.3 翻译模块  37-40
4 SMT中短语表过滤方法及实现  40-45
  4.1 短语表过滤的目标  40-41
  4.2 短语表过滤方法  41-45
    4.2.1 排序  41-42
    4.2.2 基于虚拟上下文的重排序  42-45
5 评价实验及结果分析  45-53
  5.1 实验设置  45-47
    5.1.1 实验语料  45-46
    5.1.2 实验环境  46
    5.1.3 评测方法  46-47
  5.2 基于结构化实例EBMT实验结果  47-50
  5.3 基于短语表过滤SMT实验结果  50-53
6 结论与展望  53-54
参考文献  54-58
作者简历  58-60
学位论文数据集  60

相似论文

  1. AVS视频解码器在PC平台上的优化及场解码的改善,TN919.81
  2. 面向统计机器翻译的解码算法的研究,TP391.2
  3. 基于单片视频压缩芯片的MPEG2编码器设计与实现,TN919.81
  4. 英汉命名实体翻译方法研究,TP391.2
  5. 井下搜救机器人音视频采集传输研究与实现,TP274.2
  6. 一种基于线性预测的低速率语音编码算法及其仿真,TN912.3
  7. 红外遥控检测系统,TP872
  8. 基于数字通信的漏泄通信系统的研究与实现,TN914.3
  9. 嵌入式数字视频监控系统设备驱动的研究与开发,TP277
  10. 智能固话终端中的数字信号编解码器的设计与实现,TP273.5
  11. 基于LDPCA的分布式视频编码中的非均衡编码,TN919.81
  12. 多功能火灾报警楼层显示器的设计与实现,TN873
  13. 基于ARM920t的RFID阅读器基带部分的设计实现,TP391.44
  14. 自适应OFDM数字基带接收器的低功耗研究,TN851
  15. 网络视频监控系统设计与实现,TP277
  16. UHF RFID读写器编解码和安全问题的研究,TP391.44
  17. 基于FPGA的UHF RFID读写器数字基带部分的研究与设计,TP391.44
  18. 基于DM6467的视频服务器设计与实现,TP393.05
  19. 无线MIMO系统编解码方法的研究,TN919.3
  20. 无线传感网中协作方式的研究,TP212.9
  21. MIMO通信系统的检测算法研究,TN919.3

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 翻译机
© 2012 www.xueweilunwen.com