学位论文 > 优秀研究生学位论文题录展示

Corpus-Based Machine Translation of WebPages--A Suggestion on MT Model and Strategy to Disambiguation

作　者: 陆正海
导　师: 张锦帆
学　校: 电子科技大学
专　业: 外国语言学与应用语言学
关键词: 机器翻译文本语料库歧义
分类号: H085.5
类　型: 硕士论文
年　份: 2004年
下　载: 161次
引　用: 0次
阅　读: 论文下载

内容摘要

机器翻译已经经历了将近60的发展,虽然中间有波折,还是取得了显著的成就。随着互联网的普及,网络已经成为了一种新的媒体,是人们获取信息的重要途径。但是在国际互联网上,大部分信息都是以英语作为媒介语言的,这必然对以汉语为母语的我们造成一定的信息获取障碍。虽然国内外已有很多公司致力于网页机器翻译系统的研究,这其中也包括很多涉及到英文—中文翻译,但是其结果总是不尽如人意。笔者首先简要介绍了机器翻译的历史,现状,比较了人机翻译的各自特点,从而指出了在信息时代中大力发展机器翻译的重要作用。在讨论了网页的特点及组成之后,笔者提出了一种模型,用来解决在网页翻译中出现的困难。网页翻译实际上可以看成是两部分的组合:有标记文本和纯文本的翻译。针对前者,作者首先将网页设计中的标记进行分类,从而采取不同的措施,并提出了一个四步法将其正确的反映在译文当中。而对于纯文本的翻译,作者首先提出了一个域的选择,并以此提出了以语料库为基础的一个翻译模型,但是在网页翻译过程中不可避免的出现了歧义的问题,这是任何一个机器翻译系统都必须面对的。本文首先分析了存在的几种歧义,再分别对待。对于翻译标记文本中出现的歧义,基本上在第一个模型当中就已经得到了解决。因此笔者将重点放到了纯文本翻译中的歧义问题解决上,并提出了一种以完善语料库为基础的消除歧义的方法。将这两者有机的结合在一起,才可以说是真正提高机器翻译的质量。

Corpus-Based Machine Translation of WebPages--A Suggestion on MT Model and Strategy to Disambiguation

内容摘要

全文目录

相似论文