学位论文 > 优秀研究生学位论文题录展示
基于模板的汉日机器翻译系统的研究与实现
作 者: 吴闯
导 师: 张俐
学 校: 东北大学
专 业: 计算机应用技术
关键词: 基于模板的机器翻译 模板匹配 短语翻译
分类号: TP391.2
类 型: 硕士论文
年 份: 2010年
下 载: 41次
引 用: 0次
阅 读: 论文下载
内容摘要
随着互联网技术的发展,不同文化间的交流呈现迅速上升的趋势。作为自然语言处理领域最具挑战性课题之一的机器翻译受到越来越多的研究机构的重视。本文在东北大学与日本富士施乐公司多年研究基础上,探讨了基于模板的汉日机器翻译方法(PBMT),并实现了面向真实文本的汉日机器翻译系统。模板匹配和短语翻译是影响基于模板机器翻译性能的关键因素。本文通过基于文本-模板直接匹配、模板选优等方法改良了基于模板的机器翻译翻译方法,改善了机器翻译系统的性能。本文的主要内容包括:(1)本文通过面向机器翻译的文本-模板直接匹配改良了传统的PBMT在模板抽取方面的不足。该方法解决了由于目前句法分析器的性能还难以满足实际需要,使得模板抽出效果不理想,进而影响PBMT的翻译效果的问题。翻译模型根据候选模板对待翻译句子直接进行形式变换,之后计算二者之间的编辑距离,最后用回溯算法获取二者间的映射关系。(2)本文通过模板选优模型改良了小模板误匹配和同一个翻译句子存在多个候选匹配模板等问题。模板选优模块是通过分析变换后的句子与源语模板之间的编辑距离、模板中短语译文翻译质量以及候选模板覆盖度三个因素来进行最优模板选择。(3)模板翻译中短语的翻译质量直接影响最终译文的质量。本文通过构建独立的短语翻译引擎,并将基于文本-模板直接匹配的翻译引擎作为短语翻译引擎的一个子引擎,在定程度上解决了模板嵌套的问题,提高短语翻译质量。实验结果表明上述方法在汉日机器翻译上取得了令人满意的性能,翻译系统应用效果良好。
|
全文目录
摘要 5-6 Abstract 6-11 第1章 引言 11-19 1.1 课题背景 11-12 1.2 基于实例机器翻译的概述 12-14 1.3 基于模板机器翻译的概述 14-16 1.4 论文结构 16-19 第2章 模板定义及PBMT模型 19-33 2.1 模板结构的定义 22-26 2.1.1 双语模板的定义 24-25 2.1.2 单语模板的定义 25-26 2.2 基本文本模板直接匹配的翻译模型 26-29 2.3 预处理技术 29-32 2.4 本章小结 32-33 第3章 模板的匹配及关系获取 33-47 3.1 候选模板选择 33-37 3.1.1 模板选取中的Dice系数 33 3.1.2 候选模板的过滤 33-35 3.1.3 相似模板查找算法 35-36 3.1.4 检索条件的处理 36 3.1.5 候选模板的二次过滤问题 36-37 3.2 待翻译句子的变换 37-39 3.2.1 句子的基本形式变换 37-38 3.2.2 由分词错误导致误变换的分析及解决 38-39 3.2.3 固定项在待翻译句中的多次出现问题 39 3.2.4 变换中的其他问题 39 3.3 相似度计算及映射关系的获取 39-44 3.3.1 变换后的句子和模板间相似度 39-42 3.3.2 映射关系的获取 42-43 3.3.3 相似度计算及映射关系获取实例 43-44 3.4 次匹配及映射关系修正 44-46 3.5 本章小结 46-47 第4章 模板优选及译文生成 47-59 4.1 最优模板选择 47-51 4.1.1 编辑距离影响因子 48 4.1.2 短语译文质量的影响 48-49 4.1.3 模板覆盖度的影响 49-50 4.1.4 模板选优公式及实例说明 50-51 4.2 译文生成 51-55 4.2.1 译文生成规则 51 4.2.2 译文生成中的词义消歧 51-52 4.2.3 短语引擎构建 52-55 4.3 翻译实例 55-58 4.4 本章小结 58-59 第5章 实验及结果分析 59-67 5.1 实验数据 59 5.2 评测方法 59-61 5.2.1 专家评测及标准 59-60 5.2.2 机器评测指标 60-61 5.3 评测结果及分析 61-66 5.3.1 专家评测结果及分析 61-64 5.3.2 机器评测结果及分析 64-66 5.4 本章小结 66-67 第6章 结束语 67-69 6.1 研究工作总结 67 6.2 未来的工作 67-69 参考文献 69-73 致谢 73-75 攻读硕士学位期间发表的论文及参加的项目 75
|
相似论文
- 基于本体的食品投诉文档事件追踪研究,TP391.1
- 基于骨架化和模板匹配的交通指挥手势识别,TP391.41
- 基于运动趋势估计的人脸跟踪技术研究,TP391.41
- 驾驶员眼睛开闭状态计算机图像识别技术开发,TP391.41
- 跟踪印花系统视觉检测算法研究,TP391.41
- 基于支撑向量机与模板匹配的眼底图像分割,TP391.41
- 呼吸与肺部肿瘤位移关系的研究,TP391.41
- 基于并联机构的视觉伺服技术,TP391.41
- 用于视频编解码的快速运动估计研究,TN919.81
- 基于图像匹配的目标检测技术研究及算法设计,TP391.41
- 抗遮挡的运动目标跟踪算法研究,TP391.41
- 一个球幕投影系统的设计与实现,TP391.41
- 高光谱影像图谱信息目标检测研究,TP391.41
- 红外探测系统中相关关键技术研究,TN215
- 基于图像处理技术的锡膏印刷质量检测,TP391.41
- 基于机器视觉的跨座式单轨轨道梁晃动检测系统,TP274
- 小鼠切片图像的自动配准与背景去除算法的研究,TP391.41
- 交通标志实时检测与识别技术研究,TP391.41
- 机场围界远程激光光电感应报警系统的开发与应用,TP277
- 车牌识别关键技术研究,TP391.41
- 基于图像处理的印刷体数字识别技术研究,TP391.41
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 翻译机
© 2012 www.xueweilunwen.com
|