学位论文 > 优秀研究生学位论文题录展示
《蒙汉双语对齐语料库》的实验性研究与实现
作 者: 张跟兄
导 师: 林民
学 校: 内蒙古师范大学
专 业: 计算机应用技术
关键词: 双语对齐语料库 词汇对齐 词性 句子成分 句法结构
分类号: TP391.1
类 型: 硕士论文
年 份: 2009年
下 载: 135次
引 用: 0次
阅 读: 论文下载
内容摘要
在自然语言处理领域,双语对齐语料库的重要性日益加强,它在机器翻译、词典编纂、信息检索、翻译知识的获取、词义排歧等领域有着重要的研究和应用价值。双语语料库的研究工作主要集中在语料的构建、对齐和标注等方面。在过去的三十年里,各国的研究人员相继建立了许多印欧语言的平行语料库。与之相比,汉英双语对齐语料库的研究国内外都相对较少,尤其是蒙语语料库与其它语种语料库的对齐研究就更少。本文的工作主要集中在蒙汉双语对齐语料库词性标注、词汇对齐及句法分析的研究上,主要包括以下部分:1.词性标注。蒙古文的附加成分比较多,比如(做)有(主动态), (被动态), (使动态), (互动态),(同动态)等多种形态变化。本语料进行标注时不仅确定了词性标记集,而且还确定了体现这些形态变化的标记集。2.词汇对齐。词汇对齐是发现与源语言词汇具有最高语义相似度的目标语。蒙文词汇和汉文词汇有许多特殊对应关系,如:有些汉语动词短语对应蒙语动词;有些蒙语动词短语对应汉语动词;蒙语的数词很多情况下对应汉语的数量词;还有空对齐等情况。本文中较详细地分析了蒙文句子和汉文句子语义对应关系,进行了特征标记,并实现了双语句子、词汇、句法结构等不同类型的对齐信息的检索工具。3.句法分析。句法分析是对句子和短语的结构进行分析。在语言自动处理的研究中,句法分析的研究是最为集中的。本文使用了自顶向下的句法分析方法分析了双语实验语料,并利用广义表方法生成了蒙古文和汉文句子各自的句法树。本文最终建立了一个蒙汉双语语料库实验系统,该系统的语料中包含了词汇对齐、词性、句子成分和句法结构等标注信息,并具有对齐信息检索功能和语料库维护功能。通过对典型语料实验实例的分析,表明该系统对机器翻译以及翻译知识的自动获取研究具有重要意义。
|
全文目录
中文摘要 4-5 ABSTRACT 5-9 第一章 绪论 9-14 1.1 课题背景和应用价值 9-10 1.2 语料库的研究历史和现状 10-12 1.2.1 现代语料库的简短历史 10 1.2.2 蒙古文语料库研究现状 10-11 1.2.3 双语对齐语料库研究现状 11-12 1.3 需要解决的关键问题 12-13 1.4 论文组织 13-14 第二章 蒙汉双语语料库实验系统的总体设计 14-21 2.1 总体功能模块设计 14-15 2.2 双语语料库开发环境和运行环境 15 2.2.1 开发环境 15 2.2.2 运行环境 15 2.3 数据库建立 15-17 2.4 双语对齐语料库的构建流程 17-18 2.5 语料的建立 18-21 2.5.1 关于语料库 18-19 2.5.2 关于语料的建立 19-21 第三章 基于语料库的对齐信息检索工具的设计与实现 21-46 3.1 语料库对齐信息检索工具的设计 21 3.2 语料库对齐信息检索工具的实现 21-46 3.2.1 句子对齐信息检索工具的实现 21-26 3.2.2 词汇对齐信息检索工具的实现 26-35 3.2.3 结构对齐信息检索工具的实现 35-46 第四章 系统维护功能的设计与实现 46-54 4.1 维护功能的设计与实现 46-51 4.1.1 维护功能的设计 46-49 4.1.2 维护功能的实现 49-51 4.2 蒙古文输入法安装 51-52 4.3 数据库链接的设置 52-54 第五章 基于双语语料库实验系统的实例分析 54-56 5.1 蒙汉双语语料库实验系统的主界面 54 5.2 双语语料库实例分析 54-56 第六章 总结和展望 56-58 6.1 总结 56 6.2 论文的局限性 56-57 6.3 进一步的工作和展望 57-58 参考文献 58-61 附录 61-66 附录1 信息处理用现代汉语词类标记规范 61-62 附录2 面向信息处理的蒙古语标记集 62-66 攻读硕士学位期间发表的学术论文 66-67 致谢 67
|
相似论文
- 红安方言语法研究,H146
- 英汉命名实体翻译方法研究,TP391.2
- 赣州方言形容词生动形式研究,H17
- “老”的语义色彩及其维译,H13
- 《汉语水平词汇等级大纲》甲级词汇词性标注研究,H146
- 汉、韩语肢体词语意义泛化现象比较研究,H55
- 基于意见挖掘技术的网购评论倾向性分析的研究与应用,TP393.09
- 基于统计NLP技术的甲骨卜辞的分析研究,TP391.1
- 汉语和老挝语句法比较研究,H411
- 基于HMM的藏语语料库词性自动标注研究,H214
- LSA与SOM相结合的文本聚类算法应用研究,TP391.1
- 中日色彩词语对照研究,H136
- 谈中日同形词的学习,H36
- 基于语料库的中国英语学习者词性误用研究,H319
- 意译法等在翻译实践中的应用—译ChangingtheChannel有感,H315.9
- 一种基于组合模型的中文未登录词词性猜测方法,TP391.1
- 日中同形语の误用に关ずる一考察,H136
- Sychological Phenomena Such as the Words-Onomatopoeia for the Study of Japanese Onomatopoeia,H36
- 汉语词类划分与词性标注方法的研究,TP391.1
- 《尚书·周书》十四篇主谓句句型研究,H146
- 面向语音合成的维吾尔语韵律层级自动标注算法研究,TN912.33
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|