学位论文 > 优秀研究生学位论文题录展示

统计机器翻译中语料选择方法研究

作 者: 李函章
导 师: 韩习武
学 校: 黑龙江大学
专 业: 计算机应用
关键词: 统计机器翻译 双语语料库 支持向量机 语料选择
分类号: TP391.2
类 型: 硕士论文
年 份: 2010年
下 载: 109次
引 用: 1次
阅 读: 论文下载
 

内容摘要


在当前的基于统计的翻译方法中,双语语料库的规模、质量以及词对齐的准确率对于翻译系统的性能有很大的影响。虽然大规模语料库可以改善词语对齐的准确度,提高系统的性能,但同时会以增加系统的负载为代价,因此目前对于统计机器翻译方法的研究再不可一味扩大语料库规模,应同时寻求对现有语料库的选择、优化和拓展,以提高SMT系统性能。针对以上问题,本文提出以下方法:通过更好地利用现有平行训练语料去改善统计计算机翻译的性能。本文通过机器学习对语料进行预处理,采取不同方法将语料分为直译与意译句对,创新的提出通过词汇匹配度与语法匹配度相结合分类法以及利用语言学知识改进基于SVM双语词序列核的分类方法对现有训练数据进行语料分类,并通过分类语料训练修正SMT模型。实验表明直译翻译训练数据更加适合于现有SMT系统的智力水平。当维持从大量意译语料中获得训练词汇时,可以通过加权训练数据的加权扩大直译语料在进一步改善翻译性能中的贡献。详细实验显示,如果采取启发式剪枝方法有效避免OOV概率的增加,直译语料将对改善SMT模型做出更多的贡献。

全文目录


相似论文

  1. 基于SVM的常压塔石脑油干点软测量建模研究,TE622.1
  2. 基于SVM的高速公路路面浅层病害的自动检测算法研究,U418.6
  3. 空间目标ISAR成像仿真及基于ISAR像的目标识别,TN957.52
  4. 音乐结构自动分析研究,TN912.3
  5. 胆囊炎和肾病综合症脉象信号的特征提取与分类研究,TP391.41
  6. 直推式支持向量机研究及其在图像检索中的应用,TP391.41
  7. 面向统计机器翻译的解码算法的研究,TP391.2
  8. 基于图像的路面破损识别,TP391.41
  9. 基于支持向量机的故障诊断方法研究,TP18
  10. 过程支持向量机及其在卫星热平衡温度预测中的应用研究,TP183
  11. 高光谱图像技术诊断黄瓜病害方法的研究,S436.421
  12. 基于机器学习的入侵检测系统研究,TP393.08
  13. 支持向量机回归在短期电力负荷预测中的应用研究,TM715;F224
  14. 基于支持向量机的基因表达数据降维方法的研究,TP181
  15. 人类抗原肽载体结合力预测,R392.1
  16. 软测量技术在氯甲烷回收中的应用研究,TQ222.214
  17. 基于AdaBoost算法的人脸识别研究,TP391.41
  18. 面向肺部CAD的特征提取、选择及分类方法研究,TP391.41
  19. SAR成像目标识别子区选取与匹配方法研究,TN957.52
  20. 遗传算法的若干改进及其在支持向量机中的应用研究,TP18
  21. 面向三网融合的故障管理系统的研究及实现,TP315

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 翻译机
© 2012 www.xueweilunwen.com