学位论文 > 优秀研究生学位论文题录展示
基于Web的英汉双向未登录词翻译方法研究
作 者: 王旸
导 师: 张玥杰
学 校: 复旦大学
专 业: 计算机应用技术
关键词: 未登录词翻译 PAT-Tree 支持向量机 Ranking SVM
分类号: TP391.2
类 型: 硕士论文
年 份: 2010年
下 载: 80次
引 用: 0次
阅 读: 论文下载
内容摘要
随着信息技术的发展,层出不穷的新词、术语不断涌现,基于词典的翻译已越来越不能满足跨语言信息检索性能的要求,未登录词(Out Of Vocabulary, OOV)翻译已成为跨语言信息检索中极其重要且充满挑战的问题。近年来,基于Web的未登录词翻译研究发展迅速,然而其中仍存在很多关键问题有待进一步分析和解决。针对面向英汉双向的未登录词翻译,本文提出一种基于Web挖掘和Ranking-SVM排序的统计未登录词翻译模型。其中,针对汉语分词的难点,建立基于简化PAT-Tree抽取计算的无词典翻译候选抽取模式;针对翻译对评估手段的难点,提出基于有监督学习Ranking-SVM的翻译对准确度排序模式。这种组合模型在汉语未登录词识别方面不仅借鉴PAT-Tree方法,对词串成词可信度计算作以相当程度的简化。更重要的是,在翻译对的相关度衡量方面,引入基于支持向量机与Ranking-SVM的有监督学习方法。该方式能更好地融合翻译候选词的各个特征,对于所抽取的短语或词串与原有未登录词之间的相关程度,给出较为准确的评估。本文提出相对客观的评价标准。比如,为了衡量翻译候选词单个特征的性能,使用CoNLL-2003语料进行训练和测试;为了衡量汉译英的整体性能,本文又使用SIGHAN 2008中由北京大学所提供的用于命名实体识别(Named Entity Recognition, NER)评测任务的训练语料,这使得我们的实验结果相对公正客观,具有一定的可比性。本文针对目前基于搜索结果未登录词翻译模型研究的特征集合加以完善,设计更多有意义的特征并予以比较分析。另外,在排序实验部分,与同为融合多特征的最大熵算法实验结果进行对比分析,使得论证的逻辑更为严密。综上,本文综合分析主流的基于Web的未登录词翻译算法,并提出PAT-Tree算法与Ranking SVM排序算法相结合的翻译模型,给出未登录词翻译的尝试性应用,希望能给相关领域的研究者有所借鉴。
|
全文目录
摘要 6-7 ABSTRACT 7-8 第一章 引言 8-19 1.1 未登录词翻译简介 8-9 1.2 未登录词翻译方法概览 9-15 1.2.1 基于语料的翻译方法 9-10 1.2.2 基于音译的翻译方法 10-11 1.2.3 基于Web的翻译 11-15 1.3 关键问题讨论 15-17 1.3.1 未登录词识别(抽取) 15-16 1.3.2 翻译结果评估 16-17 1.4 本文研究工作概述 17-18 1.5 本文的组织结构 18-19 第二章 基于PAT-TREE的汉语关键词抽取 19-25 2.1 PAT-TREE简介 19-20 2.2 基于PAT-TREE的汉语关键词抽取 20-21 2.3 噪声过滤算法 21-23 2.3.1 局部最大化算法(Local Maxima Algorithm) 21-22 2.3.2 上下文依赖测度(Context Degree Measure) 22 2.3.3 α阈值算法 22-23 2.4 基于PAT-TREE的网页摘要集关键词抽取 23-24 2.5 基于HASH统计的英语抽词 24 2.6 本章小结 24-25 第三章 翻译对特征表示与分析 25-32 3.1 翻译对特征概述 25-28 3.1.1 局部特征 25-26 3.1.2 全局特征 26-28 3.1.3 布尔特征 28 3.2 基于SVM的特征贡献分析 28-31 3.2.1 SVM分类理论 28-30 3.2.2 基于支持向量机的特征分析 30-31 3.3 本章小结 31-32 第四章 基于有监督学习的翻译候选排序 32-38 4.1 有监督回归学习的SVM和RANKING SVM排序模型 32-34 4.1.1 支持向量回归学习理论 32-33 4.1.2 SVM回归学习在翻译候选词排序中的应用 33-34 4.1.3 排序算法流程 34 4.2 基于ME的排序算法流程 34-35 4.3 SVM和ME的优缺点分析 35-37 4.3.1 支持向量机的优缺点 35-36 4.3.2 最大熵算法的优缺点 36-37 4.4 本章小结 37-38 第五章 系统实现及实验 38-57 5.1 未登录词翻译系统 38 5.2 HTMLPARSER模块 38-40 5.2.1 HTMLparser的功能和结构 38-39 5.2.2 HTMLparser访问页面算法 39-40 5.3 基于LIBSVM的分类及回归学习模块 40-41 5.3.1 LIBSVM使用方法 40-41 5.4 特征分析实验 41-48 5.4.1 人名实验 41-43 5.4.2 地名实验 43-44 5.4.3 机构名实验 44-46 5.4.4 基于SVM的特征分析实验 46-48 5.5 预处理模块及实验 48-50 5.5.1 翻译实验预处理 48 5.5.2 预处理实验 48-50 5.6 未登录词翻译及排序实验 50-55 5.6.1 数据集 50 5.6.2 评价标准 50-51 5.6.3 汉英未登录词翻译实验 51-52 5.6.4 英汉未登录词翻译实验 52-53 5.6.5 基于SVM和Ranking-SVM的排序实验 53-55 5.7 实验结果分析 55-56 5.8 本章小结 56-57 第六章 总结与展望 57-59 6.1 总结 57 6.2 未来研究内容 57-59 参考文献 59-62 攻读学位期间参加的科研项目与发表的论文 62-63 致谢 63-64
|
相似论文
- 基于SVM的常压塔石脑油干点软测量建模研究,TE622.1
- 基于SVM的高速公路路面浅层病害的自动检测算法研究,U418.6
- 空间目标ISAR成像仿真及基于ISAR像的目标识别,TN957.52
- 音乐结构自动分析研究,TN912.3
- 基于三维重建的焊点质量分类方法研究,TP391.41
- 胆囊炎和肾病综合症脉象信号的特征提取与分类研究,TP391.41
- 直推式支持向量机研究及其在图像检索中的应用,TP391.41
- 基于图像的路面破损识别,TP391.41
- 基于支持向量机的故障诊断方法研究,TP18
- 过程支持向量机及其在卫星热平衡温度预测中的应用研究,TP183
- 基于车载3D加速传感器的路况监测研究,TP274
- 高光谱图像技术诊断黄瓜病害方法的研究,S436.421
- 基于机器学习的入侵检测系统研究,TP393.08
- 支持向量机回归在短期电力负荷预测中的应用研究,TM715;F224
- 面向文本分类的改进K近邻的支持向量机算法研究,TP391.1
- 基于AdaBoost算法的人脸识别研究,TP391.41
- 面向肺部CAD的特征提取、选择及分类方法研究,TP391.41
- SAR成像目标识别子区选取与匹配方法研究,TN957.52
- 人脸表情识别算法研究,TP391.41
- 遗传算法的若干改进及其在支持向量机中的应用研究,TP18
- 面向三网融合的故障管理系统的研究及实现,TP315
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 翻译机
© 2012 www.xueweilunwen.com
|