学位论文 > 优秀研究生学位论文题录展示

统计与语言学相结合的词对齐及相关融合策略研究

作 者: 曲晓航
导 师: 刘挺
学 校: 哈尔滨工业大学
专 业: 计算机科学与技术
关键词: 统计方法 词对齐 语言学特征 多分类器融合
分类号: TP391.2
类 型: 硕士论文
年 份: 2008年
下 载: 49次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着互联网的迅猛发展和信息的国际化,对于不同语言文本内容的理解和传播成为了人们的强烈需求。机器翻译这个古老的课题在这样的背景下重新焕发了生机。词对齐作为统计机器翻译的中间结果,除了在机器翻译中占有重要地位外,在词义消歧等自然语言处理应用领域都有着广泛的应用价值。传统基于统计学的词对齐方法在语料规模方面有着较高的要求,在小规模语料资源上如何解决数据稀疏,进而提高对齐的正确率成为词对齐研究的重点。本文提出了统计和语言学知识相结合及利用相关策略融合的方法来解决这些问题。我们采用了基于信源信道统计机器翻译的对齐模型,结合双语词典、规则和句法结构特征等语言学知识,利用位置信息和词性信息作为过滤条件,分别从增加置信度高的对齐词对、删除错误对齐词对、改进未对齐和多个相同词汇对齐消歧等方面改进了词对齐的质量。其中结合双语词典和句法结构特征的方法分别在准确率和召回率方面有所提高,基于规则的方法在各方面表现优异,达到了0.2503的最低词对齐错误率。此外,我们引入集成学习的观点,将多个词对齐模型作为独立的分类器利用简单和加权的投票策略对分类器进行集成。实验数据表明,融合策略在词对齐准确率方面相对于单纯的基于统计的方法有着不同程度的提高。加权投票策略达到了最高的召回率和最低的错误对齐率,较基准分别提高了17.22%,降低了36.47%。

全文目录


摘要  4-5
Abstract  5-8
第1章 绪论  8-14
  1.1 课题背景与意义  8-9
  1.2 词对齐的主要研究内容及研究现状  9-12
    1.2.1 词对齐的主要研究内容  9-10
    1.2.2 国内外研究现状  10-12
  1.3 本文主要研究内容  12-14
第2章 基于统计的词对齐及拟合方法的实现  14-21
  2.1 基于信源信道模型的词对齐  14-15
  2.2 模型训练工具  15-17
  2.3 拟合方式实现  17-18
  2.4 实验结果与分析  18-20
    2.4.1 语料与评价方法  18-20
    2.4.2 分析与讨论  20
  2.5 本章小结  20-21
第3章 结合词法、规则及句法结构特征的词对齐  21-40
  3.1 结合双语词典的词对齐  21-25
    3.1.1 人工双语词典  21-22
    3.1.2 利用词对齐结果自动构建词典  22-23
    3.1.3 人工与自动双语词典结合  23-25
  3.2 结合规则的词对齐  25-32
    3.2.1 词性标注简介  25-26
    3.2.2 位置信息  26
    3.2.3 规则制定  26-32
  3.3 结合句法结构特征的词对齐  32-35
    3.3.1 句法分析简介  33-34
    3.3.2 结合依存句法的词对齐  34-35
  3.4 实验结果与分析  35-38
  3.5 本章小结  38-40
第4章 词对齐融合策略  40-46
  4.1 词对齐融合基本思想  40-41
  4.2 多分类器投票融合  41-43
    4.2.1 简单投票融合  41-42
    4.2.2 加权投票融合  42-43
  4.3 实验结果与分析  43-45
  4.4 本章小结  45-46
结论  46-48
参考文献  48-54
致谢  54

相似论文

  1. 统计方法在我国外语测试领域应用的调查研究,H319
  2. 电子地图实验研究与实践,P208
  3. 基于非稳定性的独立分量分析及四种新稳定性测度方法,TP301.6
  4. 面向web文本挖掘的中文文本自动摘要关键技术研究,TP391.1
  5. 几种统计分析方法在化探数据处理中的应用,P632
  6. 基于多分类器融合的遥感影像分类方法研究,P237
  7. 变电站建设过程中的质量控制方法研究,F273.2
  8. 模糊积分及多分类器融合在医疗诊断中的应用,TP18
  9. 词对齐技术研究及统计机器翻译平台的构建,TP391.2
  10. 基于小生境遗传算法的多分类器融合模型,TP18
  11. 新农村建设中农村信息需求与服务实证研究,F320
  12. 粗糙集在纹理图像分类中的应用研究,TP18
  13. 基于语言学知识的机器翻译自动评价研究,TP391.2
  14. 纠错输出编码算法的研究及其应用,TP311.13
  15. 基于混淆网络的机器翻译系统融合研究,TP391.2
  16. 基于统计机器翻译的汉维词对齐研究,TP391.2
  17. 通过一种不确定性度量ambiguity来确定模糊密度,O159
  18. 统计机器翻译语料预处理中的问题研究,H085
  19. 基于2DPCA和多分类器融合的人脸识别,TP391.41
  20. 文本层次分类技术研究,TP391.1

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 翻译机
© 2012 www.xueweilunwen.com