学位论文 > 优秀研究生学位论文题录展示
双语语料获取系统关键技术的研究与实现
作 者: 艾厚军
导 师: 刘根旺; 齐浩亮
学 校: 电子科技大学
专 业: 软件工程
关键词: 双语语料 机器翻译 跨语言检索 语料获取
分类号: TP391.1
类 型: 硕士论文
年 份: 2012年
下 载: 39次
引 用: 0次
阅 读: 论文下载
内容摘要
随着统计自然语言处理技术的发展,双语平行语料库在统计机器翻译和跨语言检索领域中的作用已不容忽视。现有双语平行语料库仍然无法满足实际应用的要求,双语语料库成为统计机器翻译系统和跨语言信息检索的发展瓶颈。现在双语语料库的进一步研究成为国内外研究者关注的焦点。目前的英汉语料库主要集中在政府文件、新闻法律和著名文学翻译等特殊领域,因此这种领域不平衡性降低了相关研究在实际应用中的水平,从而使得各项基于语料库的研究陷入瓶颈。为了减轻人工搜索双语语料的工作难度,有必要研究一种高效的双语语料库建设方案,并能够轻易运用到各个领域研究工作中,以替代以往人工获取双语语料库的方式。为解决实际问题提供精确的解决方案对相关研究发展具有非常重要的现实意义。本文从基于不同网站提出了几种获取双语语料的方法。包括面向“爱词霸”的双语语料自动获取,基于中国学术期刊的语料获取,以及基于专利的双语语料获取。本文详细介绍了各个语料的获取方法及过程。针对不同的网站特点提出了不同的双语语料获取方法,实现了大规模双语语料快速准确的自动获取。在获取“爱词霸”的双语语料时,主要采用Nutch爬虫工具,因为对于英文而言,Nutch爬虫效果相对较好,检索也准确,相关性较好。另外,本文放弃从整个互联网中获取双语语料的思路,采用一个全新的双语平行句对的获取途径,即通过获取中国期刊全文数据库中各学术文章的基本信息来获得大规模高质量的英汉双语平行语料。本文获取了超过GB级的大规模双语对齐语料,经人工评价认为非常准确,为做进一步的跨语言信息检索研究做了准备。
|
全文目录
摘要 5-6 ABSTRACT 6-11 第1章 引言 11-18 1.1 研究背景 11-13 1.2 双语语料建设现状 13-15 1.2.1 国内研究现状 13-15 1.2.2 国外研究现状 15 1.3 主要研究目标和研究内容 15-18 1.3.1 研究目标 15-16 1.3.2 研究内容 16-18 第2章 相关开源工具介绍 18-25 2.1 爬虫开源工具 NUTCH 18-23 2.1.1 Nutch 的技术背景介绍 18-19 2.1.2 Nutch 网络爬虫 19-22 2.1.3 基于 Nutch 查询的实现 22-23 2.2 开源工具 LEMUR 23-24 2.2.1 Lemur 概述 23 2.2.2 Lemur 特点 23-24 2.3 本章小结 24-25 第3章 需求分析与总体设计 25-33 3.1 需求分析 25-28 3.1.1 机器翻译 25 3.1.2 跨语言信息检索 25-27 3.1.3 平行语料库的构建 27-28 3.1.4 基于 Web 构建大规模平行语料库 28 3.2 总体设计 28-32 3.2.1 设计概述 28-30 3.2.2 总体设计 30-32 3.3 本章小结 32-33 第4章 面向爱词霸的双语语料获取模块的实现 33-41 4.1 获取双语语料的基本流程 33-35 4.2 双语语料自动获取的前期准备工作 35 4.2.1 抓取网站 35 4.2.2 抓取底表的制定 35 4.3 基于爱词霸的双语语料获取 35-38 4.3.1 网页的处理 36 4.3.2 句子对齐 36-38 4.4 “爱词霸”基于模板匹配的双语语料自动获取 38-39 4.5 本章小结 39-41 第5章 面向中国期刊网的大规模双语语料获取模块的实现 41-64 5.1 基于 WEB 的语料库获取系统概况 41-45 5.1.1 现有研究介绍 42-43 5.1.2 各系统比较 43-45 5.2 面向中国期刊网的双语语料获取 45-48 5.2.1 中国期刊全文数据库页面信息分析 45-46 5.2.2 中国期刊全文数据库结构分析 46-48 5.3 基本流程 48-50 5.4 双语语料的获取 50-56 5.4.1 期刊总目录的获取 50-53 5.4.2 双语网页的获取 53-56 5.5 双语平行语料自动获取的实现 56-60 5.5.1 系统的主要模块介绍 56-57 5.5.2 模块间的数据传输 57-58 5.5.3 数据库设计 58-60 5.6 双语平行句对的获取 60-63 5.6.1 双语平行句对分析 60-61 5.6.2 难点分析与解决方案 61-62 5.6.3 事务功能 62-63 5.7 本章小结 63-64 第6章 面向专利查询的大规模双语语料获取的功能模块 64-73 6.1 专利网站的分析 64-67 6.2 专利网站的相关研究 67-68 6.3 解决的关键问题 68-69 6.4 专利平行语料的自动获取 69-71 6.4.1 中文专利数据的自动获取 69 6.4.2 数据的下载 69-70 6.4.3 英文专利数据的自动获取 70-71 6.5 处理流程 71-72 6.6 本章小结 72-73 第7章 实验结果与软件测试 73-82 7.1 面向爱词霸网站的双语语料获取 73-74 7.1.1 实验环境 73 7.1.2 实验结果 73-74 7.1.3 评测指标 74 7.2 面向中国期刊网的双语语料获取 74-76 7.2.1 系统性能介绍 74-75 7.2.2 系统成果 75-76 7.3 面向专利的大规模双语语料获取 76-77 7.4 获取的双语对齐语料在跨语言信息检索中的应用效果 77-81 7.5 本章小结 81-82 结论 82-84 致谢 84-85 参考文献 85-88
|
相似论文
- 统计机器翻译中结构转换技术的研究,TP391.2
- 面向统计机器翻译的解码算法的研究,TP391.2
- 英汉命名实体翻译方法研究,TP391.2
- 机器翻译中的高级对齐技术和开发集选择策略研究,TP391.2
- 基于语料库的机器翻译可行性分析,H085
- 关于层次短语翻译模型调序问题的研究,TP391.2
- 英汉平行语料库句子级对齐研究及其在机器翻译中的应用,H315.9
- 词对齐技术研究及统计机器翻译平台的构建,TP391.2
- 基于条件随机场的汉语短语识别研究,TP391.1
- 基于语言学知识的机器翻译自动评价研究,TP391.2
- 计算语言学领域英文辅助写作系统,TP391.1
- 面向特定领域的统计机器翻译研究与应用,TP391.2
- 基于依存语法的统计机器翻译研究,TP391.2
- 基于词缀特征的汉蒙统计机器翻译系统,TP391.2
- 基于混淆网络的机器翻译系统融合研究,TP391.2
- 汉蒙词法分析及其在统计机器翻译中的应用,TP391.2
- 大型遗留系统全球化的自动化方法研究,TP311.52
- 基于WEB的双语翻译对抽取方法研究,TP391.2
- 基于短语的统计机器翻译的研究,TP391.2
- 维吾尔语的N-gram语言模型及其平滑算法研究,TP391.1
- 汉英机器翻译中趋向动词的处理,H315.9
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|