学位论文 > 优秀研究生学位论文题录展示
基于短语句法结构的树—串汉英对齐模板抽取研究
作 者: 段恋
导 师: 钟义信
学 校: 北京邮电大学
专 业: 信息与信号处理
关键词: 机器翻译 翻译模板 短语句法结构 树串汉英对齐
分类号: TP391.2
类 型: 硕士论文
年 份: 2010年
下 载: 29次
引 用: 0次
阅 读: 论文下载
内容摘要
翻译模板是机器翻译系统中的一种重要知识源,其质量和规模直接影响机器翻译系统的性能,如何高质量、高效率地从语料库中自动获取翻译模板已经成为当前研究的一个热点。本文首先提出了一种基于句法结构的树一串对齐模板(tree-to-string alignment template, TAT)。该模板描述了源语言句法树和目标语言串之间的对齐关系。模板中引入了句法结构和大量的结构标记和变量,使得基于句法的模型能够处理非连续短语,并具有泛化能力。模板可根据解码器的不同而应用到基于句法统计的、基于实例的、基于规则的机器翻译系统中。在此基础上,本文提出了一种从未经标注的双语语料库和单语句法树库中自动获取该种模板的方法。该方法是一种半监督的、数据驱动方法。该方法综合利用两个方面的信息来抽取翻译模板。一方面是基于词对齐的结果,通过对句法树进行后序遍历,提取候选模板三元组信息,包括源语言句法子树、对应的目标语言串及其对齐信息;另一方面从源语言的单语句法树库语料中通过后序遍历抽取树结构一元组信息。实验结果表明,该方法可以得到比较令人满意的模板抽取性能。
|
全文目录
摘要 4-6 ABSTRACT 6-8 目录 8-10 第一章 引言 10-20 1.1 机器翻译方法 10-16 1.1.1 基于规则的方法 10-11 1.1.2 基于实例的方法 11-12 1.1.3 基于统计的机器翻译方法 12-14 1.1.4 基于模板的机器翻译方法 14-15 1.1.5 其它机器翻译方法 15-16 1.2 机器翻译模板 16-18 1.3 研究内容和本文安排 18-20 第二章 树-串对齐模板 20-32 2.1 句法结构 20-25 2.1.1 句法结构 20-22 2.1.2 句法分析 22-23 2.1.3 汉语句法结构特点 23-25 2.2 短语结构的树-串对齐 25-26 2.3 树-串对齐模板 26-32 第三章 模板抽取 32-40 3.1 三元组确定 32-34 3.2 偏差处理 34-36 3.3 对齐一致性检查 36-37 3.4 构造模板 37-39 3.5 概率估计 39 3.6 后处理 39-40 第四章 实验 40-48 4.1 实验流程 40-42 4.2 实验设置 42-44 4.2.1 数据预处理 42-43 4.2.2 工具 43-44 4.3 实验结果 44 4.4 实验分析 44-48 第五章 结论 48-50 参考文献 50-55 攻读硕士学位期间发表学术论文情况 55-56 致谢 56
|
相似论文
- 统计机器翻译中结构转换技术的研究,TP391.2
- 面向统计机器翻译的解码算法的研究,TP391.2
- 机器翻译中的高级对齐技术和开发集选择策略研究,TP391.2
- 关于层次短语翻译模型调序问题的研究,TP391.2
- 英汉平行语料库句子级对齐研究及其在机器翻译中的应用,H315.9
- 词对齐技术研究及统计机器翻译平台的构建,TP391.2
- 基于条件随机场的汉语短语识别研究,TP391.1
- 基于语言学知识的机器翻译自动评价研究,TP391.2
- 计算语言学领域英文辅助写作系统,TP391.1
- 面向特定领域的统计机器翻译研究与应用,TP391.2
- 基于依存语法的统计机器翻译研究,TP391.2
- 基于混淆网络的机器翻译系统融合研究,TP391.2
- 基于WEB的双语翻译对抽取方法研究,TP391.2
- 基于短语的统计机器翻译的研究,TP391.2
- 汉英机器翻译中趋向动词的处理,H315.9
- 基于英汉树库的机器翻译研究,H315.9
- 统计机器翻译语料预处理中的问题研究,H085
- 汉英机器翻译对比研究,H085
- 层次短语翻译模型的实现与分析,TP391.2
- 《飘》的人机翻译对比分析,H315.9
- 论翻译权,D923.41
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 翻译机
© 2012 www.xueweilunwen.com
|