学位论文 > 优秀研究生学位论文题录展示
面向模板机器翻译的文本生成技术研究
作 者: 杨怀志
导 师: 张俐
学 校: 东北大学
专 业: 计算机软件与理论
关键词: 基于模板的机器翻译 短语翻译 词义消歧 冠词选择
分类号: TP391.2
类 型: 硕士论文
年 份: 2011年
下 载: 1次
引 用: 0次
阅 读: 论文下载
内容摘要
多年来,机器翻译一直是自然语言处理领域最重要和最具挑战性的课题之一。本文基于东北大学与日本富士施乐公司多年的研究,探讨并实现了基于模板的机器翻译方法,并重点研究了基于模板的翻译方法中译文生成时需要解决的关键技术。最优模板选取和短语翻译是影响模板机器翻译的关键因素,本文通过基于文本-模板直接匹配、模板选优等方法改良了最适模板的选择;同时通过引入词义消歧和冠词选择方法改良了短语翻译的质量,并从整体上改善了机器翻译系统的性能。本文的主要内容包括:(1)针对候选模板的选取,本文提出了基于文本-模板直接匹配的方法。传统方法先利用句法分析器从待译句子中抽取候选模板,然后再计算抽取的模板同模板库中模板的相似度。但目前句法分析器的性能还不能满足实际需求,抽取模板的效果不理想,由此会影响到后续的相似度计算。本文根据候选模板对待译句子直接进行变换,然后利用编辑距离计算两者的相似度,最后利用回溯算法获取两者的映射关系。(2)模板的机器翻译中短语翻译的质量直接影响最终译文的质量,本文构建了独立的短语翻译模块,并将基于短语模板的方法作为短语翻译引擎的一个子模块。词义消歧问题是短语翻译中急需解决的问题,本文尝试了多种词义消歧方法,并将其融入到短语翻译引擎中;同时对英语译文生成时的冠词选择进行了探讨。实验结果表明基于文本-模板直接匹配的方法可以取得令人满意的性能,同时引入的词义消歧和冠词选择方法改善了译文的质量。
|
全文目录
摘要 5-6 ABSTRACT 6-11 第1章 引言 11-21 1.1 课题背景 11-12 1.2 基于模板机器翻译的概述 12-15 1.3 基于模板机器翻译中的短语翻译 15-16 1.4 短语翻译中需要解决的关键技术 16-19 1.5 论文结构 19-21 第2章 基于模板机器翻译中模板的匹配与优选 21-37 2.1 文本模板直接匹配的翻译框架 21-23 2.1.1 模板的定义 21-22 2.1.2 文本模板直接匹配的翻译模型 22-23 2.2 候选模板的抽取 23-26 2.2.1 Dice系数的原理 23-24 2.2.2 过滤候选模板 24-26 2.3 待译句子的变换 26-27 2.4 相似度计算及映射关系的获取 27-32 2.4.1 句子和模板间的相似度计算 27-28 2.4.2 映射关系的获取 28-31 2.4.3 编辑距离计算和映射关系获取实例 31-32 2.5 最优模板选择 32-35 2.5.1 编辑距离要素 32 2.5.2 短语译文质量要素 32-33 2.5.3 模板覆盖度要素 33-34 2.5.4 模板优选公式及实例说明 34-35 2.6 本章小结 35-37 第3章 基于模板机器翻译中译文的生成 37-61 3.1 译文生成规则 37-38 3.2 短语翻译引擎的构建 38-41 3.2.1 基于TM引擎的短语翻译 39 3.2.2 基于序列相交的短语翻译模型 39-40 3.2.3 基于模板的短语翻译 40-41 3.2.4 基于双语词典直翻(WDT)的短语翻译 41 3.3 短语翻译中汉语的词义消歧 41-50 3.3.1 基于贝叶斯分类器的消歧方法 42-43 3.3.2 基于最大熵模型的词义消歧方法 43-45 3.3.3 基于义项词语的无导词义消歧方法 45-48 3.3.4 基于词典的词义消歧方法 48-50 3.4 短语翻译中英语的冠词选择 50-59 3.4.1 基于转换的错误驱动方法的冠词选择 51-54 3.4.2 基于条件随机场的冠词选择 54-58 3.4.3 结合条件随机场和基于转换学习的方法进行冠词选择 58-59 3.5 本章小结 59-61 第4章 实验及结果分析 61-75 4.1 基于文本-模板直接匹配的翻译实验与分析 61-66 4.1.1 评测方法 61-63 4.1.2 实验结果及分析 63-66 4.2 译文生成中词义消歧的实验与分析 66-70 4.2.1 词义消歧的评测方法 66 4.2.2 词义消歧的实验与分析 66-70 4.3 冠词选择的实验与分析 70-72 4.4 对短语翻译引擎改良的实验与分析 72-74 4.5 本章小结 74-75 第5章 结束语 75-77 5.1 研究工作总结 75 5.2 未来的工作 75-77 参考文献 77-81 致谢 81
|
相似论文
- 词义消歧语料库自动获取方法研究,TP391.1
- 中文词义消岐研究,TP391.1
- 基于马尔可夫逻辑网络的语义角色标注,TP391.1
- 统计机器翻译中层次短语翻译模型的研究与实现,TP391.2
- 改进的语句相似度算法在问答系统中的应用研究,TP391.1
- 基于知网和贝叶斯模型的词义消岐技术的研究,TP391.1
- 个性化搜索中用户语义意图自动识别技术研究,TP391.1
- 高中生英语冠词使用时的语义选择,G633.41
- 基于短语的统计机器翻译的研究,TP391.2
- 层次短语翻译模型的实现与分析,TP391.2
- 有监督方法在词义消歧中的应用,TP391.1
- 基于知网的汉语词义消歧方法的研究,TP391.1
- 语义Web服务发现框架的研究,TP393.09
- 汉语词语语义相似度度量及其在跨语言信息检索中的应用研究,TP391.1
- 问答系统中词义消歧与关键词扩展研究,TP391.1
- 基于短语的蒙汉统计机器翻译研究,TP391.2
- 汉英翻译中译文质量自动评测技术研究,TP391.2
- 基于知网的文本分类算法研究及应用,TP391.1
- 一种汉语词义消歧方法的研究,TP391.1
- 基于短语的汉英统计机器翻译系统的设计与实现,TP391.2
- 基于语义范畴扩展的词义消歧的研究,TP391.1
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 翻译机
© 2012 www.xueweilunwen.com
|