学位论文 > 优秀研究生学位论文题录展示
基于查询子意图识别的检索结果多样化方法研究
作 者: 高景斌
导 师: 杨沐昀
学 校: 哈尔滨工业大学
专 业: 计算机科学与技术
关键词: 信息检索 查询子意图 权重预测 多样化
分类号: TP391.3
类 型: 硕士论文
年 份: 2012年
下 载: 32次
引 用: 0次
阅 读: 论文下载
内容摘要
互联网的飞速发展使得人类的信息总量呈现出指数级增长的趋势,为了使用户能够更快更准确地在海量的资源中找到与当前需求相关的信息,信息检索技术应运而生。目前,搜索引擎作为信息检索的一个重要应用已经成为人们日常工作生活中不可获取的工具,它对用户提交的代表其搜索意图的查询词进行检索并按照文档与查询词的相似度的大小关系作为返回相关文档的排列顺序。然而,相同的查询词对于不同的用户来说所代表的查询意图可能并不相同,造成这个结果的原因主要有两个:一是查询词可能存在着歧义性,二是查询词下可能涵盖着多个子意图。因此,仅仅考虑相似度的检索方式会使某些用户的需求不会被满足,检索结果应该考虑用户的多样化需求。为了满足用户的多样化需求,本文对检索结果多样化问题进行研究,提出了基于查询子意图识别的多样化方法,充分考虑返回文档集合与用户查询意图的相关性和返回文档之间的多样性。本文中的基于查询子意图识别的多样化方法是在传统的显式多样化方法和隐式多样化方法的基础上发展而来的,兼有显式多样化方法中对原始查询下不同的子意图进行显式覆盖和隐式多样化方法中降低返回文档集合的冗余性的特性。方法中主要包括原始查询下的不同子意图的识别,不同子意图的权重大小关系预测和利用不同权重的子意图进行多样化结果排序三个方面。因此本文主要从以下几个方面展开研究:1.对原始查询下的不同子意图进行显示挖掘。将商业搜索引擎给出的与原始查询相关的Related查询和Suggested查询作为候选子查询,并利用人工标注的方式将不同的候选子查询划分为不同的子意图。同时,与其它三种挖掘候选子查询的方式进行性能比较,证明了我们使用的方法的有效性。2.对不同类别的子意图进行权重预测。通过对6个月的浏览器用户日志的挖掘,提取出32个与子意图相关的特征,并利用SVM排序模型对不同类别的子意图进行权重预测。3.对检索结果多样化问题进行分析,并提出基于查询子意图识别的检索结果多样化方法并给出算法的一般过程。通过与传统的显隐式多样化方法的性能上限和一种显式多样化的变种方法的性能进行比较,证明基于查询子意图识别的检索结果多样化方法的有效性。并对基于查询子意图识别的检索结果多样化方法的性能与子意图类别个数的关系进行分析。通过在NTCIR9子意图挖掘任务的数据集合上的验证,证明我们使用的子意图挖掘方式具有很好的表现,为其它需要使用查询子意图的工作奠定了基础。通过在NTCIR9多样化结果排序任务的数据集合上与其它检索结果多样化方法的比较,证明基于查询子意图识别的检索结果多样化方法更能够满足用户对于多样化检索结果的需求。
|
全文目录
摘要 4-6 Abstract 6-8 目录 8-10 第1章 绪论 10-20 1.1 研究背景 10-11 1.2 本文研究的目的和意义 11-12 1.3 相关研究综述 12-18 1.3.1 子意图挖掘的研究 12-14 1.3.2 检索结果多样化的方法 14-16 1.3.3 多样化的评价指标研究 16-18 1.4 本文的主要组织和结构 18-20 第2章 基于搜索引擎的子意图挖掘 20-32 2.1 基于公共搜索引擎的子意图挖掘方法 20-21 2.2 子意图挖掘实验 21-26 2.2.1 子意图标准答案数据集 21-23 2.2.2 不同搜索引擎产生的候选子查询的比较 23-24 2.2.3 候选子查询集合 24-26 2.3 典型挖掘方法及性能 26-30 2.3.1 基于返回文档挖掘子查询方法 26-27 2.3.2 基于维基百科挖掘子查询方法 27 2.3.3 基于 Google Insights 挖掘子查询方法 27 2.3.4 性能比较 27-30 2.4 子意图标注 30-31 2.5 本章小结 31-32 第3章 子意图权重预测 32-43 3.1 基于用户检索行为的子意图权重预测 32-33 3.2 基于浏览器日志的用户搜索行为抽取 33-36 3.3 用户行为特征抽取 36-39 3.3.1 特征类别 36-37 3.3.2 特征获取 37-39 3.4 基于排序学习的子意图权重预测模型 39-42 3.4.1 SVM 用于排序 39-40 3.4.2 模型的构造和测试 40-42 3.5 本章小结 42-43 第4章 基于查询子意图的多样化排序方法 43-57 4.1 检索结果多样化问题定义 43-44 4.1.1 相关性与新颖性 43-44 4.1.2 多样化问题的形式化定义 44 4.2 多样化的不同策略 44-48 4.2.1 显式多样化与隐式多样化 44-45 4.2.2 融合查询子意图检索结果的多样化算法 45-47 4.2.3 参数估计 47-48 4.3 实验结果与分析 48-56 4.3.1 实验数据 48-49 4.3.2 评价指标 49-50 4.3.3 传统显隐式多样化方法性能上限 50-52 4.3.4 融合查询子意图检索结果的多样化算法性能 52-55 4.3.5 应用举例 55-56 4.4 本章小结 56-57 结论 57-59 附录 候选子查询分类标注样例 59-61 参考文献 61-66 攻读硕士学位期间发表的论文 66-68 致谢 68
|
相似论文
- 生物医学领域检索系统查询扩展技术研究,TP391.3
- 面向海量邮件的检索系统研究与实现,TP393.098
- 基于Web的未登录词翻译技术研究,TP391.2
- 基于社会网络分析的藏文web链接结构研究,TP393.09
- 基于跨语言信息检索的企业竞争情报收集系统模型研究,TP391.3
- 英汉可比较语料库的构建与应用研究,TP391.1
- 高中英语语法教学现状的调查研究,G633.41
- 外文数据库无障碍信息检索的策略研究,G354
- 基于因特网的动态规范词表的系统构建研究,G354
- 基于Struts2框架的安全教育管理信息系统研究,TP311.52
- 现代书籍设计中书籍形态多样性研究,J524
- 视觉传达设计在新形势下的生态选择,J524
- 面向军事知识的自动问答系统的设计与实现,TP311.52
- 数据库中基于多索引段的全文索引研究,TP311.13
- 基于分布式的垂直搜索引擎的研究与实现,TP391.3
- 面向行业搜索引擎的研究与实现,TP391.3
- 音频特征与社会标签相结合的音乐推荐系统,TP391.3
- 基于策略Agent的个性化信息检索系统的研究与实现,TP391.3
- 隐私保护信息检索协议及其应用研究,TP393.08
- 基于协同过滤的用户兴趣发现,TP391.3
- 基于稀疏非负矩阵分解的图像检索,TP391.41
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com
|