学位论文 > 优秀研究生学位论文题录展示
Corpus-Based Machine Translation of WebPages--A Suggestion on MT Model and Strategy to Disambiguation
作 者: 陆正海
导 师: 张锦帆
学 校: 电子科技大学
专 业: 外国语言学与应用语言学
关键词: 机器翻译 文本 语料库 歧义
分类号: H085.5
类 型: 硕士论文
年 份: 2004年
下 载: 161次
引 用: 0次
阅 读: 论文下载
内容摘要
机器翻译已经经历了将近60的发展,虽然中间有波折,还是取得了显著的成就。随着互联网的普及,网络已经成为了一种新的媒体,是人们获取信息的重要途径。但是在国际互联网上,大部分信息都是以英语作为媒介语言的,这必然对以汉语为母语的我们造成一定的信息获取障碍。虽然国内外已有很多公司致力于网页机器翻译系统的研究,这其中也包括很多涉及到英文—中文翻译,但是其结果总是不尽如人意。笔者首先简要介绍了机器翻译的历史,现状,比较了人机翻译的各自特点,从而指出了在信息时代中大力发展机器翻译的重要作用。在讨论了网页的特点及组成之后,笔者提出了一种模型,用来解决在网页翻译中出现的困难。网页翻译实际上可以看成是两部分的组合:有标记文本和纯文本的翻译。针对前者,作者首先将网页设计中的标记进行分类,从而采取不同的措施,并提出了一个四步法将其正确的反映在译文当中。而对于纯文本的翻译,作者首先提出了一个域的选择,并以此提出了以语料库为基础的一个翻译模型,但是在网页翻译过程中不可避免的出现了歧义的问题,这是任何一个机器翻译系统都必须面对的。本文首先分析了存在的几种歧义,再分别对待。对于翻译标记文本中出现的歧义,基本上在第一个模型当中就已经得到了解决。因此笔者将重点放到了纯文本翻译中的歧义问题解决上,并提出了一种以完善语料库为基础的消除歧义的方法。将这两者有机的结合在一起,才可以说是真正提高机器翻译的质量。
|
全文目录
相似论文
- 说话人识别中不同语音编码影响的补偿方法,TN912.34
- 统计机器翻译中结构转换技术的研究,TP391.2
- 基于逻辑表示与推理的阅读理解答案抽取,TP391.1
- 隐式用户兴趣挖掘的研究与实现,TP311.13
- 基于仿生模式识别的文本分类技术研究,TP391.1
- 互联网上旅游评论的情感分析及其有用性研究,TP391.1
- 生物医学领域检索系统查询扩展技术研究,TP391.3
- 面向统计机器翻译的解码算法的研究,TP391.2
- 探析初中语文教学文本自主学习能力的培养,G633.3
- 钱理群文本解读特点初探,G633.3
- 基于HTTP的智能家居网络改进方案,TP273.5
- 对《圣诞颂歌》的新历史主义解读,I561.074
- 演化聚类算法及其应用研究,TP311.13
- 基于数据分布特征的文本分类研究,TP391.1
- 高职学生英语阅读策略使用研究,H319
- 中学语文阅读教学中文学文本细读策略研究,G633.3
- 基于中介语语料库的汉语递进复句习得研究,H195
- 基于语料库的上海世博会新闻报道的互文性分析,H052
- 基于语料库对TAKE用法的比较研究,H319
- 高中物理教材中关于科学过程的科学史内容分析,G633.7
- 初中语文阅读教学中文本细读的有效策略研究,G633.3
中图分类: > 语言、文字 > 语言学 > 应用语言学 > 机器翻译 > 机器词典与词表
© 2012 www.xueweilunwen.com
|