学位论文 > 优秀研究生学位论文题录展示

基于统计的蒙汉机器翻译系统

作 者: 娜步青
导 师: 高光来
学 校: 内蒙古大学
专 业: 计算机应用技术
关键词: 机器翻译 统计方法 语料库 语言模型 翻译模型 解码
分类号: TP391.2
类 型: 硕士论文
年 份: 2006年
下 载: 158次
引 用: 6次
阅 读: 论文下载
 

内容摘要


在当今世界,随着信息的急剧增加,国际交流的日趋频繁,尤其是国际互联网络的逐渐普及,机器翻译的潜在需求越来越大:人们希望通过计算机可以从一种语言信息得到另一种语言的正确信息。机器翻译系统正是为了满足人们的这种愿望而发展起来的。自1954年美国乔治顿大学进行第一次试验以来,机器翻译已经发展了五十余年,经历了几起几落的曲折历程。人们对它的评价毁誉兼有。但不容忽视的是,经过机器翻译工作者的执着研究和反复探索,机器翻译无论从理论技术还是从实际应用方面都取得了长足的进步。 然而,现今大多数的机器翻译系统都是根据语言学家对两种语言进行语法规则的编写而进行的,但随着语法规则的复杂度提高、数量增多,机器翻译系统的翻译效果却愈来愈不尽人意。仅用语法和语义规则的编写显然存在着许多不足,因而机器翻译研究进入了统计方法语料库方法的复兴阶段。虽然统计并不能解决所有的问题,但经过十多年的研究,语料库与统计方法还是在很大程度上改变了机器翻译和自然语言处理等研究领域的面貌。 本文对机器翻译系统的相关技术进行了探讨,收集了一定规模的蒙汉双语对齐语料,搭建了蒙汉统计翻译模型、汉语语言模型与系统解码器,初步实现了一个基于统计的蒙汉机器翻译实验系统。通过对蒙文复合词的切分、对翻译词典进行扩展等方法,提高了系统的性能。实验结果表明,在双语对齐语料极其缺乏的情况下,该实验系统的初步建立是成功的,翻译结果是合理的,相对传统的机器翻译系统智能性有所提高。

全文目录


摘要  3-4
ABSTRACT  4-5
目录  5-8
图标目录  8-9
第一章 引言  9-14
  1.1 基于统计的机器翻译系统简介  9-10
    1.1.1 研究统计机器翻译系统的目的  9-10
    1.1.2 统计机器翻译系统的含义  10
    1.1.3 基于统计的机器翻译系统  10
  1.2 国内外机器翻译的研究  10-12
    1.2.1 国内研究现状及动态  10-11
    1.2.2 国外研究现状及动态  11-12
  1.3 本文的研究内容  12-14
第二章 相关理论与技术  14-27
  2.1 机器翻译方法研究  14-19
    2.1.1 基于规则的机器翻译方法(Rule-Based MT)  14
    2.1.2 基于统计的机器翻译方法(Statistical MT)  14-16
    2.1.3 基于实例的机器翻译方法(Example-Based MT)  16
    2.1.4 基于模板(模式)的机器翻译方法(Pattern-Based MT)  16-17
    2.1.5 基于有限状态自动机的机器翻译方法(Vector-Based MT)  17-18
    2.1.6 多引擎的机器翻译方法(Multi-Engine MT)  18-19
  2.2 基于统计的机器翻译方法  19-24
    2.2.1 基于信源信道思想的统计机器翻译方法  19-22
      2.2.1.1 IBM的统计机器翻译方法  19
      2.2.1.2 王野翊在卡内基—梅隆大学(CMU)的工作  19-20
      2.2.1.3 约翰霍普金斯大学(JHU)的统计机器翻译夏季研讨班  20
      2.2.1.4 Yamada和Knight的工作  20-21
      2.2.1.5 Och等人的工作  21-22
    2.2.2 基于最大熵思想的统计机器翻译方法  22-24
  2.3 统计机器翻译的评测方法  24-27
    2.3.1 几个简单的机器翻译自动评价指标  24
    2.3.2 基于测试点的机器翻译自动评测方法  24-25
    2.3.3 IBM的BLEU评价方法  25-27
第三章 基于统计的机器翻译系统模型  27-30
  3.1 主要功能模块  27-28
    3.1.1 源语言句子预处理模块  27
    3.1.2 翻译模型搜索模块  27
    3.1.3 语言模型计算模块  27-28
    3.1.4 求翻译结果模块  28
    3.1.5 调整参数模块  28
  3.2 系统工作流程  28-30
第四章 基于统计的蒙汉机器翻译系统的实现  30-53
  4.1 构建蒙汉双语对齐语料库  30
  4.2 系统中各文件的格式定义  30-33
    4.2.1 规范的双语语料库格式定义  30-31
    4.2.2 分词的训练语料库格式定义  31-32
    4.2.3 翻译概率表格式定义  32-33
  4.3 语料库预处理  33-38
    4.3.1 蒙汉双语语料库预处理  33-34
    4.3.2 蒙古语语料库预处理  34-38
      4.3.2.1 蒙古语名词与汉语名词  34-35
      4.3.2.2 蒙古语动词与汉语动词  35-38
  4.4 汉语语言模型的建立  38-42
    4.4.1 统计语言模型  38-39
    4.4.2 语言模型中的平滑技术  39-40
    4.4.3 SRI语言模型建立工具  40-41
    4.4.4 语言模型格式定义  41-42
  4.5 蒙汉翻译模型的建立  42-46
    4.5.1 IBM统计翻译模型  42-44
    4.5.2 GIZA翻译模型建立工具  44-45
    4.5.3 词语对齐模块实现  45-46
  4.6 构建解码器  46-50
    4.6.1 基本思想  46-47
    4.6.2 堆栈搜索算法(Stack Search)  47-49
      4.6.2.1 g_H的算法  48-49
      4.6.2.2 h_H的算法  49
      4.6.2.3 割舍搜索/放弃  49
    4.6.3 特征参数训练  49-50
      4.6.3.1 YASMET重排序法  50
  4.7 扩充词典  50-53
第五章 实验  53-59
  5.1 实验环境  53-55
    5.1.1 开发环境  53
    5.1.2 分词工具  53-55
  5.2 实验数据说明  55
  5.3 评估方法  55-57
  5.4 实验结果  57-59
第六章 结论与未来研究方向  59-61
研究生期间发表论文  61-62
致谢  62-63
参考文献  63-64

相似论文

  1. AVS视频解码器在PC平台上的优化及场解码的改善,TN919.81
  2. 统计机器翻译中结构转换技术的研究,TP391.2
  3. 统计与语言学相结合的词对齐及相关融合策略研究,TP391.2
  4. 词义消歧语料库自动获取方法研究,TP391.1
  5. 面向统计机器翻译的解码算法的研究,TP391.2
  6. 统计方法在我国外语测试领域应用的调查研究,H319
  7. 基于中介语语料库的汉语递进复句习得研究,H195
  8. 基于语料库的上海世博会新闻报道的互文性分析,H052
  9. 基于语料库对TAKE用法的比较研究,H319
  10. 基于LDPCA的分布式视频编码中的非均衡编码,TN919.81
  11. 多功能火灾报警楼层显示器的设计与实现,TN873
  12. 基于ARM920t的RFID阅读器基带部分的设计实现,TP391.44
  13. 自适应OFDM数字基带接收器的低功耗研究,TN851
  14. 网络视频监控系统设计与实现,TP277
  15. 基于DM6467的视频服务器设计与实现,TP393.05
  16. 无线传感网中协作方式的研究,TP212.9
  17. 中国大学生英语作文中SO使用情况的语料库分析,H319
  18. 基于语料库的中外学术语篇中立场副词对比研究,H314
  19. 基于语料库的中国英语经济新闻报道中概念隐喻的研究,H315
  20. 中外英文学术语篇中词块的结构和功能对比研究,H315
  21. 面向视频解码应用的可重构架构的模板设计与建模,TN919.81

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 翻译机
© 2012 www.xueweilunwen.com