学位论文 > 优秀研究生学位论文题录展示

大规模中英可比较语料库构建

作　者: 赵莲
导　师: 黄德根
学　校: 大连理工大学
专　业: 计算机应用技术
关键词: 可比较语料库跨语言信息检索特征过滤关键词抽取
分类号: TP391.1
类　型: 硕士论文
年　份: 2010年
下　载: 97次
引　用: 0次
阅　读: 论文下载

内容摘要

随着统计方法的迅速发展,大规模语料库已成为自然语言处理领域不可或缺的基础资源。其中,平行语料库由于其组成语料的互译性,广泛地应用于跨语言对比研究、翻译消歧、机器翻译及辅助翻译等领域。与平行语料库相比,可比较语料库具有易于获取、资源丰富、内容新颖等特点。目前,基于可比较语料库的研究越来越广泛。本文以“基于可比较语料库的命名实体互译对挖掘”为背景,构建大规模的中英可比较语料库。通过分析现有可比较语料库构建方法中的不足,本文提出了基于跨语言信息检索与特征过滤相结合的方法,旨在获取大规模、高质量的中英可比较语料库。首先,抽取出源语言(中文)文档中的关键词,把关键词翻译成目标语言(英文)查询词,并根据一定的标准组合成查询语句；其次,利用信息检索系统检索与查询语句相关的目标语言文档,与源语言文档共同组成可比较文档对；最后,通过基于日期、相似度等特征的过滤方法对已生成的文档对进行过滤。本文的主要贡献包含以下三个方面：(1)在关键词抽取过程中,有效地结合了关键短语与关键单词。采用不同的方法构造候选短语及候选单词集合,并对其分别排序。同时,通过使用基于对称条件概率及局部最大值相结合的方法对分词结果进行修正,提高了关键词的抽取效果。(2)基于不同的特征设计了两种过滤方法,对可比较文档对进行过滤。第一种方法基于文档的发布日期及检索系统返回的查询语句与目标语言文档间的相似度进行过滤。在此基础上,第二种过滤方法综合考虑了可比较文档对中互译关键词个数及权重,引入了新特征KSD。实验表明,基于日期、相似度及KSD的过滤方法比第一种方法更为有效,对齐质量较高的文档对在可比较语料库中所占比例提高了17.6%。(3)基于五个相关性标准对可比较语料库的对齐质量进行了抽样分析。通过与其它可比较语料库构建方法对比,验证了本文中构建方法的有效性。

全文目录

摘要  4-5
Abstract  5-10
1 绪论  10-16
  1.1 研究背景  10-12
    1.1.1 研究来源  10
    1.1.2 语料库语言学  10-11
    1.1.3 多语种语料库  11-12
  1.2 研究意义  12-13
  1.3 可比较语料库构建现状  13-14
  1.4 本文的主要工作  14
  1.5 本文的组织结构  14-16
2 可比较语料库构建概述  16-23
  2.1 基于词频分布的可比较语料库构建  16-17
  2.2 基于特征的可比较语料库构建  17-20
    2.2.1 候选文档生成  18
    2.2.2 特征提取  18-19
    2.2.3 特征融合  19
    2.2.4 文档对齐  19-20
  2.3 基于跨语言检索的可比较语料库构建  20-21
  2.4 本文提出的可比较语料库构建方法  21-22
  2.5 本章小结  22-23
3 关键词抽取  23-32
  3.1 关键词抽取相关工作  23-24
  3.2 本文的方法  24-28
    3.2.1 中文文档预处理  24
    3.2.2 候选短语构造  24-27
    3.2.3 单个词候选集构造  27
    3.2.4 关键词选择  27-28
  3.3 参数估计与实验结果  28-31
    3.3.1 实验数据  28-29
    3.3.2 评价标准  29
    3.3.3 参数估计  29-30
    3.3.4 实验结果  30-31
  3.4 本章小结  31-32
4 关键词翻译  32-39
  4.1 翻译资源  32-33
    4.1.1 双语字典  32
    4.1.2 维基百科  32-33
  4.2 未登录词翻译  33-38
    4.2.1 未登录词翻译相关工作  33-34
    4.2.2 基于网络挖掘技术的未登录词翻译  34-38
  4.3 本章小结  38-39
5 检索及过滤  39-46
  5.1 信息检索  39-43
    5.1.1 信息检索系统  39-40
    5.1.2 Indri检索模型  40-43
    5.1.3 本文中信息检索系统的应用  43
  5.2 特征过滤  43-45
    5.2.1 DSF过滤  43-44
    5.2.2 DSKF过滤  44-45
  5.3 本章小结  45-46
6 实验与评估  46-54
  6.1 实验数据  46-47
  6.2 评价标准  47-48
  6.3 过滤方法参数确定及性能对比  48-51
    6.3.1 测试样本  48
    6.3.2 DSF过滤方法中参数s估计  48-49
    6.3.3 DSKF过滤方法中参数k估计  49-50
    6.3.4 两种过滤方法对比  50-51
  6.4 可比较语料库构建对比  51-53
    6.4.1 与文献[23]的类比  51-52
    6.4.2 与文献[22]的对比  52-53
  6.5 可比较语料库规模  53
  6.6 本章小结  53-54
结论  54-55
参考文献  55-60
攻读硕士学位期间发表学术论文情况  60-61
致谢  61-63

大规模中英可比较语料库构建

内容摘要

全文目录

相似论文