学位论文 > 优秀研究生学位论文题录展示
大规模中英可比较语料库构建
作 者: 赵莲
导 师: 黄德根
学 校: 大连理工大学
专 业: 计算机应用技术
关键词: 可比较语料库 跨语言信息检索 特征过滤 关键词抽取
分类号: TP391.1
类 型: 硕士论文
年 份: 2010年
下 载: 97次
引 用: 0次
阅 读: 论文下载
内容摘要
随着统计方法的迅速发展,大规模语料库已成为自然语言处理领域不可或缺的基础资源。其中,平行语料库由于其组成语料的互译性,广泛地应用于跨语言对比研究、翻译消歧、机器翻译及辅助翻译等领域。与平行语料库相比,可比较语料库具有易于获取、资源丰富、内容新颖等特点。目前,基于可比较语料库的研究越来越广泛。本文以“基于可比较语料库的命名实体互译对挖掘”为背景,构建大规模的中英可比较语料库。通过分析现有可比较语料库构建方法中的不足,本文提出了基于跨语言信息检索与特征过滤相结合的方法,旨在获取大规模、高质量的中英可比较语料库。首先,抽取出源语言(中文)文档中的关键词,把关键词翻译成目标语言(英文)查询词,并根据一定的标准组合成查询语句;其次,利用信息检索系统检索与查询语句相关的目标语言文档,与源语言文档共同组成可比较文档对;最后,通过基于日期、相似度等特征的过滤方法对已生成的文档对进行过滤。本文的主要贡献包含以下三个方面:(1)在关键词抽取过程中,有效地结合了关键短语与关键单词。采用不同的方法构造候选短语及候选单词集合,并对其分别排序。同时,通过使用基于对称条件概率及局部最大值相结合的方法对分词结果进行修正,提高了关键词的抽取效果。(2)基于不同的特征设计了两种过滤方法,对可比较文档对进行过滤。第一种方法基于文档的发布日期及检索系统返回的查询语句与目标语言文档间的相似度进行过滤。在此基础上,第二种过滤方法综合考虑了可比较文档对中互译关键词个数及权重,引入了新特征KSD。实验表明,基于日期、相似度及KSD的过滤方法比第一种方法更为有效,对齐质量较高的文档对在可比较语料库中所占比例提高了17.6%。(3)基于五个相关性标准对可比较语料库的对齐质量进行了抽样分析。通过与其它可比较语料库构建方法对比,验证了本文中构建方法的有效性。
|
全文目录
摘要 4-5 Abstract 5-10 1 绪论 10-16 1.1 研究背景 10-12 1.1.1 研究来源 10 1.1.2 语料库语言学 10-11 1.1.3 多语种语料库 11-12 1.2 研究意义 12-13 1.3 可比较语料库构建现状 13-14 1.4 本文的主要工作 14 1.5 本文的组织结构 14-16 2 可比较语料库构建概述 16-23 2.1 基于词频分布的可比较语料库构建 16-17 2.2 基于特征的可比较语料库构建 17-20 2.2.1 候选文档生成 18 2.2.2 特征提取 18-19 2.2.3 特征融合 19 2.2.4 文档对齐 19-20 2.3 基于跨语言检索的可比较语料库构建 20-21 2.4 本文提出的可比较语料库构建方法 21-22 2.5 本章小结 22-23 3 关键词抽取 23-32 3.1 关键词抽取相关工作 23-24 3.2 本文的方法 24-28 3.2.1 中文文档预处理 24 3.2.2 候选短语构造 24-27 3.2.3 单个词候选集构造 27 3.2.4 关键词选择 27-28 3.3 参数估计与实验结果 28-31 3.3.1 实验数据 28-29 3.3.2 评价标准 29 3.3.3 参数估计 29-30 3.3.4 实验结果 30-31 3.4 本章小结 31-32 4 关键词翻译 32-39 4.1 翻译资源 32-33 4.1.1 双语字典 32 4.1.2 维基百科 32-33 4.2 未登录词翻译 33-38 4.2.1 未登录词翻译相关工作 33-34 4.2.2 基于网络挖掘技术的未登录词翻译 34-38 4.3 本章小结 38-39 5 检索及过滤 39-46 5.1 信息检索 39-43 5.1.1 信息检索系统 39-40 5.1.2 Indri检索模型 40-43 5.1.3 本文中信息检索系统的应用 43 5.2 特征过滤 43-45 5.2.1 DSF过滤 43-44 5.2.2 DSKF过滤 44-45 5.3 本章小结 45-46 6 实验与评估 46-54 6.1 实验数据 46-47 6.2 评价标准 47-48 6.3 过滤方法参数确定及性能对比 48-51 6.3.1 测试样本 48 6.3.2 DSF过滤方法中参数s估计 48-49 6.3.3 DSKF过滤方法中参数k估计 49-50 6.3.4 两种过滤方法对比 50-51 6.4 可比较语料库构建对比 51-53 6.4.1 与文献[23]的类比 51-52 6.4.2 与文献[22]的对比 52-53 6.5 可比较语料库规模 53 6.6 本章小结 53-54 结论 54-55 参考文献 55-60 攻读硕士学位期间发表学术论文情况 60-61 致谢 61-63
|
相似论文
- 基于跨语言信息检索的企业竞争情报收集系统模型研究,TP391.3
- 英汉跨语言问答系统中的文档语义检索,TP391.1
- 基于可比较语料库双语多词表达式对抽取,TP391.1
- 汉英跨语言网址搜索引擎的设计与实现,TP391.3
- 相似字符串匹配过滤算法研究,TP391.1
- 面向主题的博客资源挖掘关键技术研究,TP393.09
- 基于本体的社保审计知识库的构建研究,TP391.1
- 中文事件模式自动生成方法的研究和实现,TP393.09
- 日语词法分析及在跨语言信息检索中的应用研究,TP391.1
- 中—英文跨语言问答式信息检索技术研究,TP391.3
- 问答式社区的标签推荐技术研究,TP391.1
- 科技论文关键词抽取技术的研究,TP391.1
- 汉语词语语义相似度度量及其在跨语言信息检索中的应用研究,TP391.1
- 跨语言信息检索查询翻译技术研究,TP391.3
- 面向跨语言信息检索的蒙汉语义词典构建,TP391.1
- 多文档关键词抽取技术的研究,TP391.1
- 中英文新闻网页关键词抽取技术研究,TP391.1
- 基于本体的Web跨语言信息检索研究,TP391.3
- 关键词抽取的研究与实现,TP391.1
- 基于统计语言模型的跨语言信息检索,TP391.3
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|