学位论文 > 优秀研究生学位论文题录展示

基于Web的英汉双向未登录词翻译方法研究

作　者: 王旸
导　师: 张玥杰
学　校: 复旦大学
专　业: 计算机应用技术
关键词: 未登录词翻译 PAT-Tree 支持向量机 Ranking SVM
分类号: TP391.2
类　型: 硕士论文
年　份: 2010年
下　载: 80次
引　用: 0次
阅　读: 论文下载

内容摘要

随着信息技术的发展,层出不穷的新词、术语不断涌现,基于词典的翻译已越来越不能满足跨语言信息检索性能的要求,未登录词(Out Of Vocabulary, OOV)翻译已成为跨语言信息检索中极其重要且充满挑战的问题。近年来,基于Web的未登录词翻译研究发展迅速,然而其中仍存在很多关键问题有待进一步分析和解决。针对面向英汉双向的未登录词翻译,本文提出一种基于Web挖掘和Ranking-SVM排序的统计未登录词翻译模型。其中,针对汉语分词的难点,建立基于简化PAT-Tree抽取计算的无词典翻译候选抽取模式；针对翻译对评估手段的难点,提出基于有监督学习Ranking-SVM的翻译对准确度排序模式。这种组合模型在汉语未登录词识别方面不仅借鉴PAT-Tree方法,对词串成词可信度计算作以相当程度的简化。更重要的是,在翻译对的相关度衡量方面,引入基于支持向量机与Ranking-SVM的有监督学习方法。该方式能更好地融合翻译候选词的各个特征,对于所抽取的短语或词串与原有未登录词之间的相关程度,给出较为准确的评估。本文提出相对客观的评价标准。比如,为了衡量翻译候选词单个特征的性能,使用CoNLL-2003语料进行训练和测试；为了衡量汉译英的整体性能,本文又使用SIGHAN 2008中由北京大学所提供的用于命名实体识别(Named Entity Recognition, NER)评测任务的训练语料,这使得我们的实验结果相对公正客观,具有一定的可比性。本文针对目前基于搜索结果未登录词翻译模型研究的特征集合加以完善,设计更多有意义的特征并予以比较分析。另外,在排序实验部分,与同为融合多特征的最大熵算法实验结果进行对比分析,使得论证的逻辑更为严密。综上,本文综合分析主流的基于Web的未登录词翻译算法,并提出PAT-Tree算法与Ranking SVM排序算法相结合的翻译模型,给出未登录词翻译的尝试性应用,希望能给相关领域的研究者有所借鉴。

全文目录

摘要  6-7
ABSTRACT  7-8
第一章引言  8-19
  1.1 未登录词翻译简介  8-9
  1.2 未登录词翻译方法概览  9-15
    1.2.1 基于语料的翻译方法  9-10
    1.2.2 基于音译的翻译方法  10-11
    1.2.3 基于Web的翻译  11-15
  1.3 关键问题讨论  15-17
    1.3.1 未登录词识别(抽取)  15-16
    1.3.2 翻译结果评估  16-17
  1.4 本文研究工作概述  17-18
  1.5 本文的组织结构  18-19
第二章基于PAT-TREE的汉语关键词抽取  19-25
  2.1 PAT-TREE简介  19-20
  2.2 基于PAT-TREE的汉语关键词抽取  20-21
  2.3 噪声过滤算法  21-23
    2.3.1 局部最大化算法(Local Maxima Algorithm)  21-22
    2.3.2 上下文依赖测度(Context Degree Measure)  22
    2.3.3 α阈值算法  22-23
  2.4 基于PAT-TREE的网页摘要集关键词抽取  23-24
  2.5 基于HASH统计的英语抽词  24
  2.6 本章小结  24-25
第三章翻译对特征表示与分析  25-32
  3.1 翻译对特征概述  25-28
    3.1.1 局部特征  25-26
    3.1.2 全局特征  26-28
    3.1.3 布尔特征  28
  3.2 基于SVM的特征贡献分析  28-31
    3.2.1 SVM分类理论  28-30
    3.2.2 基于支持向量机的特征分析  30-31
  3.3 本章小结  31-32
第四章基于有监督学习的翻译候选排序  32-38
  4.1 有监督回归学习的SVM和RANKING SVM排序模型  32-34
    4.1.1 支持向量回归学习理论  32-33
    4.1.2 SVM回归学习在翻译候选词排序中的应用  33-34
    4.1.3 排序算法流程  34
  4.2 基于ME的排序算法流程  34-35
  4.3 SVM和ME的优缺点分析  35-37
    4.3.1 支持向量机的优缺点  35-36
    4.3.2 最大熵算法的优缺点  36-37
  4.4 本章小结  37-38
第五章系统实现及实验  38-57
  5.1 未登录词翻译系统  38
  5.2 HTMLPARSER模块  38-40
    5.2.1 HTMLparser的功能和结构  38-39
    5.2.2 HTMLparser访问页面算法  39-40
  5.3 基于LIBSVM的分类及回归学习模块  40-41
    5.3.1 LIBSVM使用方法  40-41
  5.4 特征分析实验  41-48
    5.4.1 人名实验  41-43
    5.4.2 地名实验  43-44
    5.4.3 机构名实验  44-46
    5.4.4 基于SVM的特征分析实验  46-48
  5.5 预处理模块及实验  48-50
    5.5.1 翻译实验预处理  48
    5.5.2 预处理实验  48-50
  5.6 未登录词翻译及排序实验  50-55
    5.6.1 数据集  50
    5.6.2 评价标准  50-51
    5.6.3 汉英未登录词翻译实验  51-52
    5.6.4 英汉未登录词翻译实验  52-53
    5.6.5 基于SVM和Ranking-SVM的排序实验  53-55
  5.7 实验结果分析  55-56
  5.8 本章小结  56-57
第六章总结与展望  57-59
  6.1 总结  57
  6.2 未来研究内容  57-59
参考文献  59-62
攻读学位期间参加的科研项目与发表的论文  62-63
致谢  63-64

基于Web的英汉双向未登录词翻译方法研究

内容摘要

全文目录

相似论文