学位论文 > 优秀研究生学位论文题录展示

日汉双语命名实体对获取方法及其应用研究

作 者: 茹旷
导 师: 徐金安
学 校: 北京交通大学
专 业: 计算机科学与技术
关键词: 命名实体翻译等价对 中日汉字对照表 归纳学习法 音译方法
分类号: TP391.1
类 型: 硕士论文
年 份: 2014年
下 载: 9次
引 用: 0次
阅 读: 论文下载
 

内容摘要


命名实体翻译对的自动抽取研究对自动文摘、机器翻译和跨语言信息检索等意义重大。传统方法往往建立在大规模平行语料库或可比语料库基础上,由于双语语料库资源相对匮乏导致研究成果的实用性受到约束。本文总结了该领域的研究现状,并结合汉语和日语的特点,提出了一种新的基于归纳学习法的单语语料库命名实体翻译对自动抽取方法。该方法使用汉语和日语汉字对照表计算命名实体实例间的相似度,使用归纳学习法,抽取相似度较高的汉语和日命名实体实例间的共同部分和差异部分,来获取命名实体的局部翻译规则,再通过反馈处理更新汉日命名实体对的相似度和规则集合。实验结果显示,提出方法简单有效,克服了传统方法对双语资源具有依赖性这一缺点,可有效利用单语语料库构筑大规模汉日命名实体翻译词典。相比与其他的方法,本文结合汉语和日语的特点,提出了一种基于归纳学习法的单语语料库汉日命名实体翻译对自动抽取方法。使用了弱相关的双语文本、极少的额外知识(中日汉字对照表)来抽取命名实体翻译等价对,有效的减少了构筑语料的花费和对额外知识的依赖。此外在数据量不足的情况下,面对纯假名命名实体时有很大可能无法抽取出局部翻译规则。我们提出了一种基于传统统计机器翻译的音译方法,有效改善了假名上的等价对抽取效果。我们未来的工作主要将关注如何从海量、冗余、异构、不规范、含有大量噪声的网页中抽取出可靠的翻译对应。

全文目录


致谢  5-6
摘要  6-7
ABSTRACT  7-13
1 绪论  13-19
  1.1 研究背景和意义  13-18
    1.1.1 自然语言处理的历史及现状  13-16
    1.1.2 命名实体研究进展综述  16-18
  1.2 论文的主要内容  18
  1.3 论文的组织结构  18-19
2 理论与技术基础  19-26
  2.1 跨语言命名实体  19-23
    2.1.1 研究现状  19-20
    2.1.2 现有的方法  20-23
  2.2 归纳学习法  23-24
  2.3 日语与汉语汉字对照表  24-26
3 翻译等价对获取方法研究  26-39
  3.1 单语命名实体抽取  27-30
    3.1.1 隐马尔可夫模型  27-28
    3.1.2 最大熵模型  28-29
    3.1.3 条件随机场  29-30
  3.2 假名处理  30-35
    3.2.1 基本概念和处理思路  30-31
    3.2.2 统计机器翻译  31-34
    3.2.3 开源工具  34
    3.2.4 中日分词  34-35
  3.3 实例筛选处理  35-37
    3.3.1 汉明距离  35-36
    3.3.2 编辑距离  36
    3.3.3 余弦相似度  36-37
  3.4 归纳学习处理  37-39
4 实验设置、结果及分析  39-43
  4.1 实验设置  39-41
    4.1.1 实验语料  39
    4.1.2 基线系统  39
    4.1.3 实验环境  39-40
    4.1.4 评测方法  40-41
  4.2 实验结果及分析  41-43
5 结论  43-44
参考文献  44-48
作者简历  48-50
学位论文数据集  50

相似论文

  1. 基于FPGA的数字图像处理基本算法研究与实现,TP391.41
  2. 用于检索的人脸特征提取与匹配算法研究,TP391.41
  3. 基于FPGA的高速图像预处理技术的研究,TP391.41
  4. 2D人脸模板保护算法研究,TP391.41
  5. 导弹虚拟试验可视化技术研究,TP391.9
  6. 基于用户兴趣特征的图像检索研究与实现,TP391.41
  7. 图像拼接技术研究,TP391.41
  8. 高效精确字符串匹配算法的研究与实现,TP391.41
  9. 基于词义及语义分析的问答技术研究,TP391.1
  10. 基于三维重建的焊点质量分类方法研究,TP391.41
  11. 舌体特征的提取及融合分类方法研究,TP391.41
  12. 统计机器翻译中结构转换技术的研究,TP391.2
  13. 基于人眼检测的驾驶员疲劳状态识别技术,TP391.41
  14. 基于句法特征的代词消解方法研究,TP391.1
  15. 空中目标与背景的红外图像仿真技术研究,TP391.41
  16. 基于EPC C1G2协议的超高频RFID系统设计及仿真,TP391.44
  17. 基于智能学习的多传感器目标识别与跟踪系统研究,TP391.41
  18. 基于TMS320C6713的SPIHT图像压缩算法研究及实现,TP391.41
  19. 双传感器图像联合目标检测及系统实现研究,TP391.41
  20. 雾天或背光条件下图像清晰化算法研究及硬件实现,TP391.41
  21. 多邮件自动文摘的关键技术研究,TP391.1

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com