学位论文 > 优秀研究生学位论文题录展示
基于复述的问题扩展技术研究
作 者: 康维鹏
导 师: 张宇
学 校: 哈尔滨工业大学
专 业: 计算机应用技术
关键词: 查询扩展 查询关键词 复述短语 语言模型
分类号: TP391.2
类 型: 硕士论文
年 份: 2011年
下 载: 35次
引 用: 0次
阅 读: 论文下载
内容摘要
问题扩展,即根据用户查询意图,在原始查询基础上通过添加更有利于改善检索结果的词、词组或者短语,或通过改写重构,使得检索结果更满足于用户查询意图。问题扩展的原因在于查询词与索引词的不匹配问题,即通常所谓的关键字不匹配问题,其根源在于自然语言的灵活性与复杂多样性。问题扩展技术的研究主要包括,扩展资源的构建与扩展算法的探究这两方面内容。本文基于复述的问题扩展技术研究,将从这两个方面对问题扩展进行探索研究,尝试从语义层面上解决关键字不匹配问题。一方面,本文介绍利用在线词典系统自动获取复述短语的方法构建扩展资源;另一方面,本文探索将复述短语资源运用于问题扩展的新方法,提出了基于语言模型检验的三种问题扩展算法。利用多在线翻译与词典系统抽取复述短语的方法,将复述短语抽取看成是统计机器翻译的过程。通过多在线翻译与词典系统,将源语言短语翻译成中间语言、再将中间语言短语翻译回源语言,通过中间语言建立起了源语言短语间的翻译模型。这种方法具有简易可行性的优点,并且获取的复述短语准确率接近70%,复述短语平均数目达到6个。对于问句分析,本文主要研究关键字确定与赋权。本文采用了规则与统计相结合的关键字确定方法,以及基于统计的关键字赋权方法。实验表明,本文所采用的方法相对于规则的关键字确定方法与赋权方法,准确率提高3%左右。本文提出了三种利用复述短语进行问题扩展的方法,分别是基于语言模型检验的N-Best同义问句扩展算法、基于语言模型检验的N-Best同义短语扩展算法,以及基于语言模型检验的N-Best同义短语改进扩展算法。本文将阐述这三个扩展算法的原理,并通过实验对比各方法的性能表现。在TREC9评测集上的实验表明:相对于原始查询,复述短语用于问题扩展后的召回率提高近3%,其中基于语言模型检验的N-Best同义问句扩展方法表现最好。
|
全文目录
摘要 4-5 Abstract 5-9 第1章 绪论 9-22 1.1 课题背景与意义 9-12 1.1.1 问题扩展的定义与分类 9-10 1.1.2 复述的定义与运用 10-11 1.1.3 语言模型的定义与应用 11-12 1.1.4 课题研究的意义 12 1.2 研究现状及分析 12-20 1.2.1 问题扩展的研究现状 13-16 1.2.1.1 局部分析方向 13-14 1.2.1.2 全局分析方向 14-16 1.2.1.3 问题扩展的相关评测 16 1.2.2 复述资源获取的相关研究 16-18 1.2.3 语言模型的相关研究 18-20 1.3 本文的研究内容及章节安排 20-22 第2章 利用在线词典获取复述短语资源 22-36 2.1 引言 22-23 2.2 利用多在线词典抽取复述短语 23-29 2.2.1 问句划分与短语识别 23-25 2.2.2 复述短语资源的获取 25-29 2.3 复述短语抽取结果的评价与分析 29-31 2.4 实验介绍与设计 31-35 2.4.1 实验评测集与评测指标 31-32 2.4.2 扩展资源对比实验设计 32 2.4.3 扩展资源对比实验结果 32-35 2.5 本章小结 35-36 第3章 查询问句分析 36-51 3.1 引言 36 3.2 问题类型判别 36-40 3.2.1 本文定义的问题类型 36-37 3.2.2 最大熵分类原理 37-39 3.2.3 问题类型判别的特征 39-40 3.3 关键字分析与赋权 40-47 3.3.1 基于规则的关键字确定方法 41-43 3.3.2 基于统计的关键词确定方法 43-45 3.3.3 统计与规则相结合的关键词确定方法 45-47 3.4 实验结果与分析 47-50 3.4.1 关键字赋权对检索结果的影响 47-48 3.4.2 关键字确定方法对检索结果的影响 48-50 3.5 本章小结 50-51 第4章 基于语言模型检验的问题扩展方法探索 51-73 4.1 引言 51 4.2 问题扩展方法概述 51-52 4.3 基于语言模型检验的查询扩展 52-66 4.3.1 语言模型对查询扩展检验的原理 53-55 4.3.2 基于语言模型检验的N-Best 同义问句扩展算法 55-59 4.3.3 基于语言模型检验的N-Best 同义短语扩展算法 59-64 4.3.4 基于语言模型检验的N-Best 同义短语改进扩展算法 64-66 4.4 几种扩展算法的中间结果 66-68 4.5 扩展方法对比实验设计 68-72 4.5.1 实验语料以及评测指标 68-69 4.5.2 扩展算法的对比实验 69-72 4.6 本章小结 72-73 结论 73-74 参考文献 74-79 致谢 79
|
相似论文
- 统计机器翻译中结构转换技术的研究,TP391.2
- 生物医学领域检索系统查询扩展技术研究,TP391.3
- 网络搜索引擎的相关技术研究,G354
- 面向查询的XML文本摘要技术,TP391.1
- 短语级复述的识别与抽取,TP391.1
- 基于关联词的复句语言模型,TP391.1
- 基于聚类的XML文档检索反馈机制研究,TP391.3
- 基于语言模型的XML信息检索的研究与实现,TP391.3
- 基于领域本体扩展查询的文本信息检索研究,TP391.3
- 基于本体的语义搜索技术研究与实现,TP391.3
- 基于模型驱动的动态Web服务组合方法,TP393.09
- 基于信息几何的高阶纯相关模型及其应用,TP391.1
- 基于词典和概率统计的中文分词算法研究,TP391.1
- 英汉跨语言问答系统中的文档语义检索,TP391.1
- 词义消歧语料库自动获取方法研究,TP391.1
- Web检索中的查询扩展及结果聚类技术研究,TP391.3
- 统计和规则相结合的语言模型在中文输入法中的应用研究,TP391.14
- 基于词片和Lattice的汉语语音检索技术研究,TP391.41
- 基于本体的语义检索原型系统的设计与实现,TP391.3
- 基于统计语言模型和Passage特征的信息检索模型研究,TP391.3
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 翻译机
© 2012 www.xueweilunwen.com
|