学位论文 > 优秀研究生学位论文题录展示
面向特定领域的统计机器翻译研究与应用
作 者: 张涛
导 师: 余正涛
学 校: 昆明理工大学
专 业: 计算机应用技术
关键词: 统计机器翻译 医学领域 领域规则模板 依存语言模型
分类号: TP391.2
类 型: 硕士论文
年 份: 2011年
下 载: 40次
引 用: 0次
阅 读: 论文下载
内容摘要
机器翻译是自然语言理解领域的难点和热点,在国际交流日益频繁的今天,机器翻译对多语言沟通交流具有重要意义,但其目前翻译的准确率却不尽人意。然而针对特定领域,特别是一些专业名词较多的技术性文档,通常词汇较为固定,句法较为简单,因而更加容易取得较好的效果,如天气预报,知识库等领域。本文对面向领域的统计机器翻译做了一系列研究和探讨,以医学领域具体研究对象,主要取得了以下几个方面的成果:融合领域规则模板的统计机器翻译方法。领域规则模板和领域平行语料库等相关领域资源是提高面向领域统的计机器翻译系统效果的重要基础和重要手段。本文以医学领域为研究对象,构建面向医学领域的统计机器翻译系统所需的领域规则库和领域资源,包括领域平行语料库,领域规则模板。提出领域规则模板扩展方法及模板匹配算法。并将这些提出模板匹配算法和领域资源融合进开放域统计机器翻译的系统,以实现面向领域的统计机器翻译系统。实验表明,在一定规模的领域平行语料库和领域规则模板的支持下,面向领域的统计机器翻译效果有较大幅度的提升。构建面向领域的依存语言模型并约束解码效果。针对医学领域建立依存语言模型,提出模型的参数训练方法,并将模型融入到统计机器翻译的解码阶段,对解码产生的NBEST候选翻译结果进一步约束,重新计算得分,调整NBEST候选翻译序列,以得到更好的最佳翻译提升翻译的正确率。最终实验结果表明提出的基于依存句法关系的语言模型可以在一定程度上提高汉-英统计机器翻译最佳翻译的正确率。利用上述研究成果,利用词法、句法分析、词语对齐等基础开源软件,并结合领域词典、领域模板等领域资源,搭建面向医学领域的统计机器翻译原型系统。
|
全文目录
摘要 3-4 Abstract 4-6 目录 6-9 第一章 引言 9-13 1.1 研究背景及意义 9-10 1.2 国内外研究现状 10-11 1.3 论文的研究内容和组织结构 11-12 1.4 论文的组织 12-13 第二章 统计机器翻译理论介绍 13-31 2.1 基于词的统计机器翻译系统 13-14 2.2 基于短语的统计机器翻译系统 14-15 2.3 基于句法的统计机器翻译 15-20 2.3.1 基于形式化句法的统计机器翻译 16-17 2.3.2 基于语言学句法的统计机器翻译 17-20 2.4 模型框架和特征函数 20-21 2.4.1 对数线性模型 20-21 2.4.2 特征函数 21 2.5 模型训练和解码 21-28 2.5.1 模板抽取 22-23 2.5.2 最小错误率训练算法 23-24 2.5.3 解码 24-25 2.5.4 机器翻译测评 25-28 2.6 统计机器翻译领域重要开源工具 28-31 2.6.1 第一个开源的统计机器翻译工具包 28-29 2.6.2 语言模型训练工具 29-30 2.6.3 机器翻译的自动评测工具 30-31 第三章 结合领域规则模板的统计翻译方法 31-45 3.1 研究背景 31-33 3.2 领域模板定义和扩展方法 33-37 3.2.1 句式模板定义 33-35 3.2.2 非句式模板 35-37 3.3 领域平行语料库 37-39 3.4 领域模板匹配算法 39-42 3.4.1 基于依存句法的统计机器翻译过程 39-40 3.4.2 模板匹配算法 40-42 3.5 实验结果和对比 42-45 3.5.1 BLEU值 43 3.5.2 实验结果与对比 43-45 第四章 融合领域依存语言模型的解码优化 45-51 4.1 研究背景和现状分析 45 4.2 结合领域文本的基于依存句法关系的语言模型构建方法 45-48 4.2.1 依存语法 45 4.2.2 统计语言模型 45-47 4.2.3 领域依存语言模型参数训练 47-48 4.2.4 融合领域依存语言模型的解码优化 48 4.3 实验结果及对比分析 48-51 第五章 面向医学领域统计机器翻译系统实现 51-53 5.1 系统背景 51 5.2 系统准备资源和工具 51-52 5.2.1 基础开源工具 51-52 5.2.2 领域规则模板及资源 52 5.3 系统实现 52-53 第六章 总结及下一步工作 53-55 6.1 结论 53 6.2 下一步工作 53-55 致谢 55-57 参考文献 57-61 附录A 攻读硕士期间发表的论文及申请软件的著作权 61
|
相似论文
- 面向统计机器翻译的解码算法的研究,TP391.2
- 机器翻译中的高级对齐技术和开发集选择策略研究,TP391.2
- 基于信息依存语言模型的英汉被动结构对比研究,H314.3
- 关于层次短语翻译模型调序问题的研究,TP391.2
- 词对齐技术研究及统计机器翻译平台的构建,TP391.2
- 基于主题词表的医学领域本体的构建研究,TP391.1
- 基于依存语法的统计机器翻译研究,TP391.2
- 基于短语的统计机器翻译的研究,TP391.2
- 统计机器翻译语料预处理中的问题研究,H085
- 层次短语翻译模型的实现与分析,TP391.2
- 基于短语的对数线性模型的统计机器翻译方法与系统实现,TP391.2
- 统计机器翻译中命名实体处理研究,TP391.2
- 基于维基百科的双语语料挖掘技术研究,TP311.13
- 统计机器翻译中树到串对齐模板模型系统实现和比较研究,TP391.2
- 基于Internet的互动辅助翻译技术研究,TP391.2
- 英汉人名音译方法的研究与实现,H315.9
- 基于短语的汉英统计机器翻译系统的设计与实现,TP391.2
- 汉蒙统计机器翻译中的形态学方法研究,TP391.2
- 基于形态句法信息的短语翻译模型研究,TP391.2
- 日文片假名自动翻译技术的研究,TP391.2
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 翻译机
© 2012 www.xueweilunwen.com
|