学位论文 > 优秀研究生学位论文题录展示
基于规则的汉英机器翻译研究与实现
作 者: 唐建
导 师: 赵川
学 校: 成都理工大学
专 业: 计算机应用技术
关键词: 自然语言理解 机器翻译 句法剖析 词义消歧 知网
分类号: TP391.2
类 型: 硕士论文
年 份: 2013年
下 载: 7次
引 用: 0次
阅 读: 论文下载
内容摘要
使用词性标记建立产生式规则的时候,如果词类划分地比较粗略,则建立的产生式规则就无法准确地对汉语的句法特点进行描述。本文研究了汉语词的详细分类,并建立了产生式规则,较准确地描述了汉语的句法特点;本文的另一个研究点是汉语动词的语义消歧。汉语的大词类,通常可以被进一步地划分,而同属于大分类中的这些小分类,它们的句法功能可能是不一样的。因此本文对汉语的名词、动词、形容词、量词、副词、代词、介词、助词进行了更加仔细地划分,建立起相应的词性标记集,并根据该词性标记集和汉语的句法特点,建立了产生式规则;在汉语动词的词义消歧方面,本文引入了知网中的实体义原树并建立了汉语的语义信息库,语义信息库中包含了汉语词的语义信息以及动词匹配的主语和宾语类别。语义库中的名词和代词的语义类别以及动词匹配的主语和宾语类别都需要用实体义原树中的义原对它们进行标注,然后通过计算动词匹配的宾语类别与当前句子中宾语的语义类别之间的语义距离,获取语义距离最小的记录所对应的动词的语义作为歧义动词在当前句子中的语义。通过上述处理之后,建立起来的产生式规则更准确地描述了汉语的句法特点,这使得在进行汉语句法剖析的时候,能排除一些语法上错误的句子,避免得出不正确的剖析结果。在动词语义消歧方面,通过语义匹配这种方式,消歧效果比较理想。本文虽然在汉语词分类、产生式规则和动词消歧这三方面的研究上取得一定的进展,但是仍然有很大的改进空间。汉语词分类方面,可以对汉语词类的句法功能进行更进一步的研究,在此基础上,对汉语词的分类做出调整,有些类别可以合并,有些类别可以再进一步细分,从而建立最符合需要的词性标记集。在产生式规则方面,可以对汉语的句法特点进行更进一步的研究,建立能更准确描述汉语句法特点的产生式规则。在动词消歧方面,语义距离的计算,只是简单地计算义原在实体义原树上的距离,而并未考虑权值,而权值又涉及到实体义原树的语义密度,本文在这方面暂未做进一步的研究。
|
全文目录
摘要 4-6 Abstract 6-10 第1章 绪论 10-14 1.1 选题目的及意义 10 1.2 国内外研究现状 10-12 1.3 研究内容 12-14 第2章 机器翻译相关理论 14-29 2.1 词类标注 14-15 2.2 上下文无关语法 15-16 2.3 句法剖析算法 16-23 2.3.1 自底向上剖析 16-19 2.3.2 自顶向下剖析 19-22 2.3.3 Earley算法 22-23 2.4 词义排歧方法 23-26 2.4.1 选择最常见涵义的方法 24 2.4.2 利用词类进行排歧的方法 24 2.4.3 基于选择限制的词义排歧方法 24-26 2.5 结构转换理论 26-27 2.6 目标语言选词 27-28 2.7 目标语言生成 28 2.8 本章小结 28-29 第3章 基于规则的机器翻译系统设计 29-53 3.1 词库的建立 29-32 3.1.1 汉语词性标记集 29-31 3.1.2 词库的标注 31-32 3.2 中文分词 32-33 3.3 句法剖析 33-42 3.3.1 中文产生式规则 33-35 3.3.2 使用Earley算法进行句法剖析 35-42 3.4 知网及实体义原树 42-44 3.4.1 知网 42 3.4.2 实体义原树 42-44 3.5 歧义消解及英文选词 44-52 3.5.1 基础数据准备 44-46 3.5.2 词义消解及英文选词算法 46-52 3.6 译文生成 52 3.7 本章小结 52-53 第4章 基于规则的机器翻译系统实现 53-58 4.1 系统实现 53-58 4.1.1 数据库部分 53-56 4.1.2 程序部分 56-58 结论 58-59 致谢 59-60 参考文献 60-61 攻读学位期间取得学术成果 61
|
相似论文
- 统计机器翻译中结构转换技术的研究,TP391.2
- 词义消歧语料库自动获取方法研究,TP391.1
- 面向统计机器翻译的解码算法的研究,TP391.2
- WordNet和《中国分类主题词表》的映射研究,G254
- 英汉命名实体翻译方法研究,TP391.2
- 面向领域的数据库问答系统关键技术研究,TP311.13
- 基于文本相似度计算的主观题自动阅卷技术研究,TP391.1
- 主观题自动评分技术研究,TP391.1
- 汉语词义标注一致性检验方法的研究与实现,TP391.1
- 机器翻译中的高级对齐技术和开发集选择策略研究,TP391.2
- 建筑图中有限自然语言的分析与理解的研究,TU204
- 基于概念集合的网页内容过滤方法的研究,TP393.092
- 中文词义消岐研究,TP391.1
- 基于马尔可夫逻辑网络的语义角色标注,TP391.1
- 基于语义的单文档自动摘要研究,TP391.1
- 改进的语句相似度算法在问答系统中的应用研究,TP391.1
- 基于知网和贝叶斯模型的词义消岐技术的研究,TP391.1
- 个性化搜索中用户语义意图自动识别技术研究,TP391.1
- 基于本体的查询扩展研究,TP391.1
- 农业信息网,TP393.02
- 基于混淆网络的机器翻译系统融合研究,TP391.2
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 翻译机
© 2012 www.xueweilunwen.com
|