学位论文 > 优秀研究生学位论文题录展示

英汉命名实体翻译方法研究

作 者: 赵明明
导 师: 姚建民
学 校: 苏州大学
专 业: 计算机应用技术
关键词: 机器音译模型 机器学习 网络挖掘 统计机器翻译 词汇对齐
分类号: TP391.2
类 型: 硕士论文
年 份: 2011年
下 载: 81次
引 用: 0次
阅 读: 论文下载
 

内容摘要


命名实体翻译是跨语言信息抽取、机器翻译等跨语言信息处理领域的一项重要任务。命名实体因类别不同采用的翻译方法不同,人名、地名主要采用音译,组织机构名主要采用音译与意译相结合的方法翻译。本文主要针对英汉人名的统计翻译模型方法和基于网络的英汉人名和组织机构名的翻译挖掘方法进行研究。论文的主要内容归纳如下:基于统计机器翻译与基于机器学习策略的英汉音译模型构建方法基于统计机器翻译的音译模型将音译问题映射为句子翻译问题,采用基于短语的和基于N-Gram的机器翻译方法构建音译模型。基于机器学习策略的音译模型将音译问题映射为标注序列问题,采用条件随机场和最大熵两种机器学习方法构建音译模型。对比以上几种音译模型,基于条件随机场的音译模型准确率最高。基于音译与网络的英汉人名翻译挖掘方法本文将统计模型的结果应用到网络挖掘中,通过构造启发式查询扩展获取质量更高的摘要资源,改善网络挖掘翻译的结果。对比基于统计模型的音译方法和基于网络的翻译挖掘方法,实验结果显示基于网络挖掘的翻译挖掘方法具有较高的性能,该方法修正了基于统计音译模型翻译结果中部分汉字不正确的情况。基于网络的英汉组织机构名翻译挖掘方法本文采用基于对齐锚点左右扩展的对齐方法对齐组织机构名双语对语料,然后从对齐结果中抽取组织机构名内部词汇和短语翻译词典。采用该词典作为查询扩展来源从网络中抽取翻译。对比基于网络的翻译挖掘方法和基于短语的统计机器翻译方法,基于网络的翻译挖掘方法性能较高。

全文目录


中文摘要  4-5
Abstract  5-9
第一章 绪论  9-17
  1.1 研究背景及意义  9-10
  1.2 国内外研究现状和相关工作  10-15
    1.2.1 音译模型研究  10-12
    1.2.2 组织机构名翻译模型研究  12-13
    1.2.3 基于网络的翻译知识抽取技术研究  13-14
    1.2.4 基于网络的命名实体翻译抽取技术研究  14-15
  1.3 本文的研究内容  15
  1.4 论文的组织  15-17
第二章 英汉人名音译模型  17-39
  2.1 音译单元对齐  17-19
  2.2 统计机器音译方法  19-26
    2.2.1 基于短语的机器音译方法  20-24
    2.2.2 基于N-Gram 的机器音译方法  24-26
  2.3 基于机器学习策略的音译方法  26-33
    2.3.1 最大熵模型  27-29
    2.3.2 条件随机场模型  29-31
    2.3.3 基于机器学习策略的音译模型  31-33
  2.4 实验结果及分析  33-38
    2.4.1 实验数据及工具来源  33-34
    2.4.2 基于统计音译方法实验结果及分析  34-35
    2.4.3 基于机器学习策略的音译模型实验结果及分析  35-38
  2.5 本章小结  38-39
第三章 基于网络的英汉人名翻译挖掘方法  39-47
  3.1 设计思路和系统架构  39-40
  3.2 启发式查询扩展的构造  40-42
    3.2.1 基于共现主题词译文的扩展集合抽取  40-41
    3.2.2 基于加权翻译概率的扩展字集合抽取  41-42
  3.3 候选翻译串的抽取  42-43
  3.4 候选翻译串的排序  43-44
  3.5 实验结果及分析  44-46
  3.6 本章小结  46-47
第四章 基于网络的英汉组织机构名翻译挖掘方法  47-55
  4.1 设计思路和系统架构  47-48
  4.2 组织机构名内部词汇对齐方法  48-50
  4.3 启发式查询扩展的构造  50
  4.4 候选翻译串的选择及排序  50-52
  4.5 实验结果及分析  52-54
  4.6 本章小结  54-55
第五章 总结与展望  55-58
  5.1 工作总结  55-56
  5.2 工作展望  56-58
参考文献  58-64
攻读学位期间公开发表的论文  64-65
致谢  65-66

相似论文

  1. 面向统计机器翻译的解码算法的研究,TP391.2
  2. 基于数据分布特征的文本分类研究,TP391.1
  3. 人类抗原肽载体结合力预测,R392.1
  4. 李群深层结构学习算法研究,TP181
  5. 基于李群机器学习算法的智能布线,TN710
  6. 基于多视角的分类器设计与权值优化方法研究,TP18
  7. 基于条件随机场的中文分词技术的研究与实现,TP391.1
  8. 领域知识指导的半监督学习和主动学习倾向性分类研究,TP181
  9. Android恶意软件静态检测方案的研究,TP309
  10. 基于马尔可夫链蒙特卡罗方法的RBM学习算法改进,O211.62
  11. 监督主题模型的研究与应用,TP391.1
  12. 基于失真效应的图像质量评价与分类,TP391.41
  13. 基于学习的逆向运动学人体运动合成,TP391.41
  14. 基于内容的网页恶意代码检测的研究与实现,TP393.092
  15. 学术主页信息抽取系统的研究,TP393.092
  16. 社会化网络中的推荐算法及其应用,TP391.3
  17. 机器翻译中的高级对齐技术和开发集选择策略研究,TP391.2
  18. 数据挖掘在邮件反垃圾系统中的应用,TP393.098
  19. 基于自学习的社会关系抽取的研究,TP391.1
  20. 基于统计与图模型的若干机器学习算法及其应用,TP181

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 翻译机
© 2012 www.xueweilunwen.com