学位论文 > 优秀研究生学位论文题录展示

《蒙汉双语对齐语料库》的实验性研究与实现

作 者: 张跟兄
导 师: 林民
学 校: 内蒙古师范大学
专 业: 计算机应用技术
关键词: 双语对齐语料库 词汇对齐 词性 句子成分 句法结构
分类号: TP391.1
类 型: 硕士论文
年 份: 2009年
下 载: 135次
引 用: 0次
阅 读: 论文下载
 

内容摘要


在自然语言处理领域,双语对齐语料库的重要性日益加强,它在机器翻译、词典编纂、信息检索、翻译知识的获取、词义排歧等领域有着重要的研究和应用价值。双语语料库的研究工作主要集中在语料的构建、对齐和标注等方面。在过去的三十年里,各国的研究人员相继建立了许多印欧语言的平行语料库。与之相比,汉英双语对齐语料库的研究国内外都相对较少,尤其是蒙语语料库与其它语种语料库的对齐研究就更少。本文的工作主要集中在蒙汉双语对齐语料库词性标注、词汇对齐及句法分析的研究上,主要包括以下部分:1.词性标注。蒙古文的附加成分比较多,比如(做)有(主动态), (被动态), (使动态), (互动态),(同动态)等多种形态变化。本语料进行标注时不仅确定了词性标记集,而且还确定了体现这些形态变化的标记集。2.词汇对齐。词汇对齐是发现与源语言词汇具有最高语义相似度的目标语。蒙文词汇和汉文词汇有许多特殊对应关系,如:有些汉语动词短语对应蒙语动词;有些蒙语动词短语对应汉语动词;蒙语的数词很多情况下对应汉语的数量词;还有空对齐等情况。本文中较详细地分析了蒙文句子和汉文句子语义对应关系,进行了特征标记,并实现了双语句子、词汇、句法结构等不同类型的对齐信息的检索工具。3.句法分析。句法分析是对句子和短语的结构进行分析。在语言自动处理的研究中,句法分析的研究是最为集中的。本文使用了自顶向下的句法分析方法分析了双语实验语料,并利用广义表方法生成了蒙古文和汉文句子各自的句法树。本文最终建立了一个蒙汉双语语料库实验系统,该系统的语料中包含了词汇对齐、词性、句子成分和句法结构等标注信息,并具有对齐信息检索功能和语料库维护功能。通过对典型语料实验实例的分析,表明该系统对机器翻译以及翻译知识的自动获取研究具有重要意义。

全文目录


中文摘要  4-5
ABSTRACT  5-9
第一章 绪论  9-14
  1.1 课题背景和应用价值  9-10
  1.2 语料库的研究历史和现状  10-12
    1.2.1 现代语料库的简短历史  10
    1.2.2 蒙古文语料库研究现状  10-11
    1.2.3 双语对齐语料库研究现状  11-12
  1.3 需要解决的关键问题  12-13
  1.4 论文组织  13-14
第二章 蒙汉双语语料库实验系统的总体设计  14-21
  2.1 总体功能模块设计  14-15
  2.2 双语语料库开发环境和运行环境  15
    2.2.1 开发环境  15
    2.2.2 运行环境  15
  2.3 数据库建立  15-17
  2.4 双语对齐语料库的构建流程  17-18
  2.5 语料的建立  18-21
    2.5.1 关于语料库  18-19
    2.5.2 关于语料的建立  19-21
第三章 基于语料库的对齐信息检索工具的设计与实现  21-46
  3.1 语料库对齐信息检索工具的设计  21
  3.2 语料库对齐信息检索工具的实现  21-46
    3.2.1 句子对齐信息检索工具的实现  21-26
    3.2.2 词汇对齐信息检索工具的实现  26-35
    3.2.3 结构对齐信息检索工具的实现  35-46
第四章 系统维护功能的设计与实现  46-54
  4.1 维护功能的设计与实现  46-51
    4.1.1 维护功能的设计  46-49
    4.1.2 维护功能的实现  49-51
  4.2 蒙古文输入法安装  51-52
  4.3 数据库链接的设置  52-54
第五章 基于双语语料库实验系统的实例分析  54-56
  5.1 蒙汉双语语料库实验系统的主界面  54
  5.2 双语语料库实例分析  54-56
第六章 总结和展望  56-58
  6.1 总结  56
  6.2 论文的局限性  56-57
  6.3 进一步的工作和展望  57-58
参考文献  58-61
附录  61-66
  附录1 信息处理用现代汉语词类标记规范  61-62
  附录2 面向信息处理的蒙古语标记集  62-66
攻读硕士学位期间发表的学术论文  66-67
致谢  67

相似论文

  1. 红安方言语法研究,H146
  2. 英汉命名实体翻译方法研究,TP391.2
  3. 赣州方言形容词生动形式研究,H17
  4. “老”的语义色彩及其维译,H13
  5. 《汉语水平词汇等级大纲》甲级词汇词性标注研究,H146
  6. 汉、韩语肢体词语意义泛化现象比较研究,H55
  7. 基于意见挖掘技术的网购评论倾向性分析的研究与应用,TP393.09
  8. 基于统计NLP技术的甲骨卜辞的分析研究,TP391.1
  9. 汉语和老挝语句法比较研究,H411
  10. 基于HMM的藏语语料库词性自动标注研究,H214
  11. LSA与SOM相结合的文本聚类算法应用研究,TP391.1
  12. 中日色彩词语对照研究,H136
  13. 谈中日同形词的学习,H36
  14. 基于语料库的中国英语学习者词性误用研究,H319
  15. 意译法等在翻译实践中的应用—译ChangingtheChannel有感,H315.9
  16. 一种基于组合模型的中文未登录词词性猜测方法,TP391.1
  17. 日中同形语の误用に关ずる一考察,H136
  18. Sychological Phenomena Such as the Words-Onomatopoeia for the Study of Japanese Onomatopoeia,H36
  19. 汉语词类划分与词性标注方法的研究,TP391.1
  20. 《尚书·周书》十四篇主谓句句型研究,H146
  21. 面向语音合成的维吾尔语韵律层级自动标注算法研究,TN912.33

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com