学位论文 > 优秀研究生学位论文题录展示

双语语料获取系统关键技术的研究与实现

作　者: 艾厚军
导　师: 刘根旺; 齐浩亮
学　校: 电子科技大学
专　业: 软件工程
关键词: 双语语料机器翻译跨语言检索语料获取
分类号: TP391.1
类　型: 硕士论文
年　份: 2012年
下　载: 39次
引　用: 0次
阅　读: 论文下载

内容摘要

随着统计自然语言处理技术的发展，双语平行语料库在统计机器翻译和跨语言检索领域中的作用已不容忽视。现有双语平行语料库仍然无法满足实际应用的要求，双语语料库成为统计机器翻译系统和跨语言信息检索的发展瓶颈。现在双语语料库的进一步研究成为国内外研究者关注的焦点。目前的英汉语料库主要集中在政府文件、新闻法律和著名文学翻译等特殊领域，因此这种领域不平衡性降低了相关研究在实际应用中的水平，从而使得各项基于语料库的研究陷入瓶颈。为了减轻人工搜索双语语料的工作难度，有必要研究一种高效的双语语料库建设方案，并能够轻易运用到各个领域研究工作中，以替代以往人工获取双语语料库的方式。为解决实际问题提供精确的解决方案对相关研究发展具有非常重要的现实意义。本文从基于不同网站提出了几种获取双语语料的方法。包括面向“爱词霸”的双语语料自动获取，基于中国学术期刊的语料获取，以及基于专利的双语语料获取。本文详细介绍了各个语料的获取方法及过程。针对不同的网站特点提出了不同的双语语料获取方法，实现了大规模双语语料快速准确的自动获取。在获取“爱词霸”的双语语料时，主要采用Nutch爬虫工具，因为对于英文而言，Nutch爬虫效果相对较好，检索也准确，相关性较好。另外，本文放弃从整个互联网中获取双语语料的思路，采用一个全新的双语平行句对的获取途径，即通过获取中国期刊全文数据库中各学术文章的基本信息来获得大规模高质量的英汉双语平行语料。本文获取了超过GB级的大规模双语对齐语料，经人工评价认为非常准确，为做进一步的跨语言信息检索研究做了准备。

全文目录

摘要  5-6
ABSTRACT  6-11
第1章引言  11-18
  1.1 研究背景  11-13
  1.2 双语语料建设现状  13-15
    1.2.1 国内研究现状  13-15
    1.2.2 国外研究现状  15
  1.3 主要研究目标和研究内容  15-18
    1.3.1 研究目标  15-16
    1.3.2 研究内容  16-18
第2章相关开源工具介绍  18-25
  2.1 爬虫开源工具 NUTCH  18-23
    2.1.1 Nutch 的技术背景介绍  18-19
    2.1.2 Nutch 网络爬虫  19-22
    2.1.3 基于 Nutch 查询的实现  22-23
  2.2 开源工具 LEMUR  23-24
    2.2.1 Lemur 概述  23
    2.2.2 Lemur 特点  23-24
  2.3 本章小结  24-25
第3章需求分析与总体设计  25-33
  3.1 需求分析  25-28
    3.1.1 机器翻译  25
    3.1.2 跨语言信息检索  25-27
    3.1.3 平行语料库的构建  27-28
    3.1.4 基于 Web 构建大规模平行语料库  28
  3.2 总体设计  28-32
    3.2.1 设计概述  28-30
    3.2.2 总体设计  30-32
  3.3 本章小结  32-33
第4章面向爱词霸的双语语料获取模块的实现  33-41
  4.1 获取双语语料的基本流程  33-35
  4.2 双语语料自动获取的前期准备工作  35
    4.2.1 抓取网站  35
    4.2.2 抓取底表的制定  35
  4.3 基于爱词霸的双语语料获取  35-38
    4.3.1 网页的处理  36
    4.3.2 句子对齐  36-38
  4.4 “爱词霸”基于模板匹配的双语语料自动获取  38-39
  4.5 本章小结  39-41
第5章面向中国期刊网的大规模双语语料获取模块的实现  41-64
  5.1 基于 WEB 的语料库获取系统概况  41-45
    5.1.1 现有研究介绍  42-43
    5.1.2 各系统比较  43-45
  5.2 面向中国期刊网的双语语料获取  45-48
    5.2.1 中国期刊全文数据库页面信息分析  45-46
    5.2.2 中国期刊全文数据库结构分析  46-48
  5.3 基本流程  48-50
  5.4 双语语料的获取  50-56
    5.4.1 期刊总目录的获取  50-53
    5.4.2 双语网页的获取  53-56
  5.5 双语平行语料自动获取的实现  56-60
    5.5.1 系统的主要模块介绍  56-57
    5.5.2 模块间的数据传输  57-58
    5.5.3 数据库设计  58-60
  5.6 双语平行句对的获取  60-63
    5.6.1 双语平行句对分析  60-61
    5.6.2 难点分析与解决方案  61-62
    5.6.3 事务功能  62-63
  5.7 本章小结  63-64
第6章面向专利查询的大规模双语语料获取的功能模块  64-73
  6.1 专利网站的分析  64-67
  6.2 专利网站的相关研究  67-68
  6.3 解决的关键问题  68-69
  6.4 专利平行语料的自动获取  69-71
    6.4.1 中文专利数据的自动获取  69
    6.4.2 数据的下载  69-70
    6.4.3 英文专利数据的自动获取  70-71
  6.5 处理流程  71-72
  6.6 本章小结  72-73
第7章实验结果与软件测试  73-82
  7.1 面向爱词霸网站的双语语料获取  73-74
    7.1.1 实验环境  73
    7.1.2 实验结果  73-74
    7.1.3 评测指标  74
  7.2 面向中国期刊网的双语语料获取  74-76
    7.2.1 系统性能介绍  74-75
    7.2.2 系统成果  75-76
  7.3 面向专利的大规模双语语料获取  76-77
  7.4 获取的双语对齐语料在跨语言信息检索中的应用效果  77-81
  7.5 本章小结  81-82
结论  82-84
致谢  84-85
参考文献  85-88

双语语料获取系统关键技术的研究与实现

内容摘要

全文目录

相似论文