学位论文 > 优秀研究生学位论文题录展示
面向生物医学领域的双语对齐技术研究
作 者: 陈相
导 师: 林鸿飞
学 校: 大连理工大学
专 业: 计算机应用技术
关键词: 跨语言信息检索 双语语料 双语对齐 高斯混合模型 迁移学习 迭代重估算法
分类号: TP391.12
类 型: 硕士论文
年 份: 2009年
下 载: 88次
引 用: 1次
阅 读: 论文下载
内容摘要
在自然语言处理和跨语言信息检索等诸多领域中,双语语料库的重要作用逐渐显现出来。在不同的应用中,需要不同粒度的双语对齐语料库和相应的双语对齐技术。双语语料库的对齐技术按粒度可以分为篇章级对齐、段落级对齐、句子级对齐、短语级对齐和单词级对齐等。对于实际应用来说,句子级和词汇级的双语对齐语料尤为有用。基于实例的机器翻译、知识获取以及跨语言信息检索等技术的性能很大程度上依赖于双语语料库规模和质量,而句子级的双语语料和单词级对齐的双语语料的质量和数量直接决定了双语语料库的质量。所以句子级的双语对齐技术和词汇级的双语对齐技术在很大程度上影响以上应用的最终性能。本文以国家863基金项目《基于语义的跨语言信息检索平台》为依托,以生物医学领域跨语言信息检索的查询翻译为应用背景,以构建生物医学文献双语术语词典为目的。主要工作分为双语句子对齐和双语术语抽取两个步骤。针对以上两个步骤,本文对双语对齐技术进行了详尽的考察和研究,取得了以下研究成果:(1)利用基于带权二部图的最大权重匹配模型为生物医学文献双语摘要建模。在无双语词典的情况下,将基于长度的句子对齐方法和句子的位置信息相结合,充分利用医学文献双语摘要语料中的锚信息,根据锚信息将生物医学摘要段落和句子进行分类计算相似度,实现了生物医学文献双语摘要的句子对齐,取得了较好的对齐结果。(2)将迁移学习思想和分类思想用于汉英句子对齐任务中。将句子对齐任务看成一个对齐模式的分类问题,充分利用生物医学领域双语摘要的锚信息,使得句子对齐准确率得到了一定提高;同时,在模型训练过程中,我们引入了迁移学习的思想,对模型进行协同训练,使得模型在测试语料上表现的性能更优。(3)通过对生物医学语料进行统计分析,使用迭代重估算法对生物医学句对进行基于统计的双语术语抽取。根据领域特点,在有限的双语资源可利用的情况下,限定双语术语对的长度得到了较高的召回率。
|
全文目录
摘要 4-5 Abstract 5-8 1 绪论 8-18 1.1 自然语言处理技术的发展及应用 8-9 1.2 双语语料库 9-12 1.3 双语对齐技术 12-16 1.3.1 语言学方法 12-14 1.3.2 统计方法 14-16 1.4 本文研究背景和组织结构 16-18 1.4.1 研究背景 16 1.4.2 组织结构 16-18 2 基于锚信息的句子对齐 18-30 2.1 句子对齐的概念 18-19 2.2 句子对齐的概率模型 19-20 2.3 句子对齐方法介绍 20-23 2.3.1 基于长度的句子对齐方法 20-21 2.3.2 基于词汇的句子对齐方法 21-23 2.3.3 长度和词汇信息相结合的方法 23 2.4 基于锚信息的生物医学文献双语摘要句子对齐 23-25 2.4.1 带权二部图模型描述 23-24 2.4.2 生物医学文献双语摘要语料的统计特点 24-25 2.5 相似度计算 25-28 2.5.1 长度相似度 26 2.5.2 位置相似度 26-27 2.5.3 锚相似度 27-28 2.6 实验结果与讨论 28-29 2.7 小结 29-30 3 基于迁移学习理论的句子对齐 30-41 3.1 迁移学习概述 30-31 3.1.1 迁移学习的概念 30 3.1.2 迁移学习的研究现状 30-31 3.2 分类思想处理句子对齐问题 31-35 3.3 高斯混合模型 35-38 3.3.1 高斯混合模型概述 35-36 3.3.2 模型参数估计 36-38 3.3 实验结果与讨论 38-40 3.4 小结 40-41 4 双语术语对齐 41-49 4.1 词对齐的概念 41 4.2 词对齐面临的问题 41-42 4.3 词对齐的方法介绍 42-44 4.3.1 统计机器翻译模型的方法 42-43 4.3.2 基于共现的方法 43-44 4.3.3 基于词典的方法 44 4.4 面向生物医学领域的术语对齐 44-47 4.4.1 面向生物医学领域的查询翻译需求分析 44-45 4.4.2 术语对齐策略 45 4.4.3 术语对齐算法 45-47 4.5 实验结果与讨论 47-48 4.6 小结 48-49 结论 49-50 参考文献 50-53 攻读硕士学位期间发表学术论文情况 53-54 致谢 54-55
|
相似论文
- 基于社会网络分析的藏文web链接结构研究,TP393.09
- 基于跨语言信息检索的企业竞争情报收集系统模型研究,TP391.3
- 英汉可比较语料库的构建与应用研究,TP391.1
- 语音识别在访问控制的应用,TN912.34
- 高质量语音转换系统中关键技术的研究,TN912.3
- 基于组合及统计的图像型垃圾邮件检测研究,TP391.41
- 低分辨率视频图像的人体检测与姿态识别,TP391.41
- 基于稀疏非负矩阵分解的图像检索,TP391.41
- 基于内容的商品图像分类技术研究,TP391.41
- 英汉跨语言问答系统中的文档语义检索,TP391.1
- 图像与文本数据间的异构迁移学习,TP391.41
- 基于个性化推荐的图像浏览与检索相关方法研究,TP391.41
- 基于迁移学习理论的Markov检索模型,TP391.3
- 优化本体的迁移学习方法研究,TP391.1
- 汉英跨语言网址搜索引擎的设计与实现,TP391.3
- 高斯混合模型及在探测网络社区结构中的应用,TP393.094
- 基于马尔可夫逻辑网的垃圾邮件过滤技术研究,TP393.098
- 关于数学迁移能力培养的实践与研究,G633.6
- 基于多目标函数改进的多核学习在半监督学习和迁移学习场景中的应用,TP181
- 网络舆情倾向性分析技术研究与实现,TP393.09
- 基于逻辑回归和高斯混合模型的设备故障诊断技术研究与应用,TH165.3
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理 > 汉字处理系统
© 2012 www.xueweilunwen.com
|