学位论文 > 优秀研究生学位论文题录展示

基于统计的蒙汉机器翻译系统

作　者: 娜步青
导　师: 高光来
学　校: 内蒙古大学
专　业: 计算机应用技术
关键词: 机器翻译统计方法语料库语言模型翻译模型解码
分类号: TP391.2
类　型: 硕士论文
年　份: 2006年
下　载: 158次
引　用: 6次
阅　读: 论文下载

内容摘要

在当今世界，随着信息的急剧增加，国际交流的日趋频繁，尤其是国际互联网络的逐渐普及，机器翻译的潜在需求越来越大：人们希望通过计算机可以从一种语言信息得到另一种语言的正确信息。机器翻译系统正是为了满足人们的这种愿望而发展起来的。自1954年美国乔治顿大学进行第一次试验以来，机器翻译已经发展了五十余年，经历了几起几落的曲折历程。人们对它的评价毁誉兼有。但不容忽视的是，经过机器翻译工作者的执着研究和反复探索，机器翻译无论从理论技术还是从实际应用方面都取得了长足的进步。然而，现今大多数的机器翻译系统都是根据语言学家对两种语言进行语法规则的编写而进行的，但随着语法规则的复杂度提高、数量增多，机器翻译系统的翻译效果却愈来愈不尽人意。仅用语法和语义规则的编写显然存在着许多不足，因而机器翻译研究进入了统计方法和语料库方法的复兴阶段。虽然统计并不能解决所有的问题，但经过十多年的研究，语料库与统计方法还是在很大程度上改变了机器翻译和自然语言处理等研究领域的面貌。本文对机器翻译系统的相关技术进行了探讨，收集了一定规模的蒙汉双语对齐语料，搭建了蒙汉统计翻译模型、汉语语言模型与系统解码器，初步实现了一个基于统计的蒙汉机器翻译实验系统。通过对蒙文复合词的切分、对翻译词典进行扩展等方法，提高了系统的性能。实验结果表明，在双语对齐语料极其缺乏的情况下，该实验系统的初步建立是成功的，翻译结果是合理的，相对传统的机器翻译系统智能性有所提高。

全文目录

摘要  3-4
ABSTRACT  4-5
目录  5-8
图标目录  8-9
第一章引言  9-14
  1.1 基于统计的机器翻译系统简介  9-10
    1.1.1 研究统计机器翻译系统的目的  9-10
    1.1.2 统计机器翻译系统的含义  10
    1.1.3 基于统计的机器翻译系统  10
  1.2 国内外机器翻译的研究  10-12
    1.2.1 国内研究现状及动态  10-11
    1.2.2 国外研究现状及动态  11-12
  1.3 本文的研究内容  12-14
第二章相关理论与技术  14-27
  2.1 机器翻译方法研究  14-19
    2.1.1 基于规则的机器翻译方法(Rule-Based MT)  14
    2.1.2 基于统计的机器翻译方法(Statistical MT)  14-16
    2.1.3 基于实例的机器翻译方法(Example-Based MT)  16
    2.1.4 基于模板(模式)的机器翻译方法(Pattern-Based MT)  16-17
    2.1.5 基于有限状态自动机的机器翻译方法(Vector-Based MT)  17-18
    2.1.6 多引擎的机器翻译方法(Multi-Engine MT)  18-19
  2.2 基于统计的机器翻译方法  19-24
    2.2.1 基于信源信道思想的统计机器翻译方法  19-22
      2.2.1.1 IBM的统计机器翻译方法  19
      2.2.1.2 王野翊在卡内基—梅隆大学(CMU)的工作  19-20
      2.2.1.3 约翰霍普金斯大学(JHU)的统计机器翻译夏季研讨班  20
      2.2.1.4 Yamada和Knight的工作  20-21
      2.2.1.5 Och等人的工作  21-22
    2.2.2 基于最大熵思想的统计机器翻译方法  22-24
  2.3 统计机器翻译的评测方法  24-27
    2.3.1 几个简单的机器翻译自动评价指标  24
    2.3.2 基于测试点的机器翻译自动评测方法  24-25
    2.3.3 IBM的BLEU评价方法  25-27
第三章基于统计的机器翻译系统模型  27-30
  3.1 主要功能模块  27-28
    3.1.1 源语言句子预处理模块  27
    3.1.2 翻译模型搜索模块  27
    3.1.3 语言模型计算模块  27-28
    3.1.4 求翻译结果模块  28
    3.1.5 调整参数模块  28
  3.2 系统工作流程  28-30
第四章基于统计的蒙汉机器翻译系统的实现  30-53
  4.1 构建蒙汉双语对齐语料库  30
  4.2 系统中各文件的格式定义  30-33
    4.2.1 规范的双语语料库格式定义  30-31
    4.2.2 分词的训练语料库格式定义  31-32
    4.2.3 翻译概率表格式定义  32-33
  4.3 语料库预处理  33-38
    4.3.1 蒙汉双语语料库预处理  33-34
    4.3.2 蒙古语语料库预处理  34-38
      4.3.2.1 蒙古语名词与汉语名词  34-35
      4.3.2.2 蒙古语动词与汉语动词  35-38
  4.4 汉语语言模型的建立  38-42
    4.4.1 统计语言模型  38-39
    4.4.2 语言模型中的平滑技术  39-40
    4.4.3 SRI语言模型建立工具  40-41
    4.4.4 语言模型格式定义  41-42
  4.5 蒙汉翻译模型的建立  42-46
    4.5.1 IBM统计翻译模型  42-44
    4.5.2 GIZA翻译模型建立工具  44-45
    4.5.3 词语对齐模块实现  45-46
  4.6 构建解码器  46-50
    4.6.1 基本思想  46-47
    4.6.2 堆栈搜索算法(Stack Search)  47-49
      4.6.2.1 g_H的算法  48-49
      4.6.2.2 h_H的算法  49
      4.6.2.3 割舍搜索／放弃  49
    4.6.3 特征参数训练  49-50
      4.6.3.1 YASMET重排序法  50
  4.7 扩充词典  50-53
第五章实验  53-59
  5.1 实验环境  53-55
    5.1.1 开发环境  53
    5.1.2 分词工具  53-55
  5.2 实验数据说明  55
  5.3 评估方法  55-57
  5.4 实验结果  57-59
第六章结论与未来研究方向  59-61
研究生期间发表论文  61-62
致谢  62-63
参考文献  63-64

基于统计的蒙汉机器翻译系统

内容摘要

全文目录

相似论文