学位论文 > 优秀研究生学位论文题录展示

多语种双语对齐平台的设计与实现

作 者: 王飞
导 师: 黄河燕;王树梅
学 校: 南京理工大学
专 业: 计算机应用
关键词: 双语语料库 对齐 双语句子对齐 双语词典 准确率 召回率
分类号: TP311.52
类 型: 硕士论文
年 份: 2004年
下 载: 201次
引 用: 7次
阅 读: 论文下载
 

内容摘要


双语语料库在基于实例的机器翻译、翻译知识的获取、双语词典的建立、词义消歧等领域有着重要的应用价值。大规模双语语料库的建设是进行基于语料库研究的基础。当今互联网上存在着大量的双语互译文本,如何通过这些双语互译文本来建立大规模的双语语料库,对双语互译文本的加工成为至关重要的问题。 双语对齐技术是加工双语文本的核心。本文结合基于句子长度和基于词典的两种经典对齐算法思想,通过确定锚点句对对双语互译文本进行划分,实现了双语句子对齐,进一步提高了双语句子对齐的准确率。同时,本文还针对基于词典的双语对齐中双语词典单词词义的召回率不高的问题提出了一种新的词义模糊匹配方法,大大提高了词典中单词词义的召回率,为提供准确快速的双语句子对齐提供了条件。 根据上述思想,本文最终实现了一个准确、可靠、实用的双语句子对齐系统,为双语语料库的建设提供强有力的工具。

全文目录


第一章 引言  6-10
  1.1 双语句子对齐技术的应用发展  6-7
  1.2 项目介绍  7-9
  1.3 本文的研究  9-10
第二章 对齐的基础知识  10-13
  2.1 对齐的形式化定义  10
  2.2 对齐的评价方法  10-13
第三章 系统总体设计  13-17
  3.1 双语对齐技术的难点  13-14
  3.2 系统的设计考虑  14
  3.3 系统的关键技术  14-15
  3.4 系统功能模块的设计  15-17
第四章 多语种文本的预处理  17-25
  4.1 双语平行文本的预处理  17-18
  4.2 双语平行文本的存储结构  18-19
  4.3 双语字典的构建及查询  19-25
    4.3.1 双语字典的构建  19-21
    4.3.2 HASH表索引存储的数据结构  21
    4.3.3 字典的查询算法及性能分析  21-25
第五章 基于锚点的双语句子对齐算法  25-42
  5.1 双语句子对齐技术分析  25-30
    5.1.1 双语句子对齐的概率模型  25-26
    5.1.2 基于长度和基于词汇的双语对齐技术  26-28
    5.1.3 大型双语语料库的统计试验  28-30
  5.2 基于锚点句对的双语句子对齐  30-32
    5.2.1 基于段落的双语句子对齐  30-31
    5.2.2 基于锚点句对的双语句子对齐  31-32
  5.3 互译词汇的确定  32-35
  5.4 全文锚点句对的生成  35-40
    5.4.1 锚点句对的特性  35
    5.4.2 全文锚点句对的生成  35-37
    5.4.3 锚点句对的修正  37-40
  5.5 对齐结果的生成  40-42
第六章 多语种双语对齐系统的实现  42-49
  6.1 系统平台的实现  42-46
  6.2 系统性能测试  46-49
    6.2.1 汉英平台性能测试  46-47
    6.2.2 汉俄、汉法平台性能测试  47-48
    6.2.3 结果分析  48-49
第七章 结论  49-51
  7.1 本文的工作总结  49
  7.2 下一步的工作  49-51
致谢  51-52
参考文献  52-53

相似论文

  1. 统计与语言学相结合的词对齐及相关融合策略研究,TP391.2
  2. 机器翻译中的高级对齐技术和开发集选择策略研究,TP391.2
  3. 多频段合成雷达成像技术,TN957.51
  4. 基于可比较语料库双语多词表达式对抽取,TP391.1
  5. 臂丛MRI在臂丛神经根性撕脱伤早期诊断中的临床应用,R651.3
  6. 混合整数最小二乘估计及其在GPS定位中的应用,P228.4
  7. 基于动静态多源特征选取、对齐与融合的唇读方法,TP391.41
  8. 逆向设计中基于散乱点的模型重构与误差分析,TH122
  9. 英汉平行语料库句子级对齐研究及其在机器翻译中的应用,H315.9
  10. 基于异构信息的金融事件发现,TP391.1
  11. 词对齐技术研究及统计机器翻译平台的构建,TP391.2
  12. LTE-A系统多小区联合处理算法研究与仿真,TN929.5
  13. 大视场视频拼接技术研究,TP391.41
  14. 基于混淆网络的机器翻译系统融合研究,TP391.2
  15. 从动态对等的角度来看英汉双语词典中的翻译,H315.9
  16. 文本相似性度量中参数相关性与优化配置研究,TP391.1
  17. 英汉词典例证中的文化信息处理,H316
  18. 汉英双语词典中文化特色词的处理方法探析——“三大汉英双语词典”的对比研究,H316
  19. 基于WEB的双语句对齐语料的获取和过滤,TP391.1
  20. 论英汉双语学习型词典的例证翻译,H061
  21. 从接受理论视角看英汉双语词典的例证翻译,H315.9

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 软件工程 > 软件开发
© 2012 www.xueweilunwen.com