学位论文 > 优秀研究生学位论文题录展示
基于类别意图的信息检索模型
作 者: 丁志刚
导 师: 王小捷
学 校: 北京邮电大学
专 业: 控制理论与控制工程
关键词: 信息检索 信息检索模型 文本分类 用户意图 搜索引擎
分类号: TP391.3
类 型: 硕士论文
年 份: 2009年
下 载: 64次
引 用: 0次
阅 读: 论文下载
内容摘要
信息检索直接影响知识获取、科学研究、终身教育等各个方面,信息检索知识和技能,已成为人们知识结构中不可缺少的最重要的组成部分,对于信息检索系统效果的改进研究具有很高的研究价值。现有的信息检索解决办法主要面临2个问题:独立性假设问题和数据稀疏问题,另外,“如何在检索中融入更多的‘语义’因素?“也是信息检索研究中热点讨论的问题。本文探索了如何从用户的检索条件中获取用户的潜在意图,并利用获得的意图信息对检索结果进行改善。首先给出了检索意图的定义;之后根据特定的意图分别对待检索文档和检索条件进行数据建模;讨论了几种形式的意图建模结果改善检索效果的方案;最后设计了若干针对性不同的实验对文中提到的方法进行测试。实验表明,在检索中加入用户意图的因素对检索结果有明显改善。文章的创新点在于不同之前研究工作的新切入角度:1、从用户的查询条件中挖掘意图;2、把用户的意图具体化,建立具体的意图集,测量待检索文档同每一个特定意图的测度;3、使用新的检索单位构建检索系统。
|
全文目录
摘要 4-5 ABSTRACT 5-8 第一章 引言 8-11 1.1 问题和研究背景 8 1.2 问题的研究意义 8-9 1.3 现有的方法的不足及改进思路 9-10 1.4 论文的主要创新点 10 1.5 论文的组织结构 10-11 第二章 相关研究工作 11-33 2.1 信息检索基本概念 11-12 2.2 信息检索模型 12-14 2.3 文本聚类 14-15 2.4 自动文本分类 15-18 2.5 特征选择 18-20 2.6 中文分词 20-22 2.7 基于用户意图的信息检索 22 2.8 现代搜索引擎原理 22-30 2.8.1 概述 22-23 2.8.2 搜集内容 23-25 2.8.3 预处理 25-27 2.8.4 提供检索服务 27-30 2.9 开源软件包Lucene 30-33 2.9.1 概述 30 2.9.2 Lucene的优势 30-31 2.9.3 Lucene组成及工作原理 31-33 第三章 基于类别意图的信息检索 33-43 3.1 模型综述 33-34 3.1.1 检索意图的定义与模型综述 33-34 3.1.2 基于类别意图的信息检索的数学描述 34 3.2 关于检索单位的思考 34-37 3.2.1 信息检索的检索单位 34-35 3.2.2 中文高频串介绍 35-36 3.2.3 中文高频串抽取 36-37 3.2.4 本模型的检索单位 37 3.3 对文档的分类意图建模 37-39 3.3.1 算法1 37-38 3.3.2 算法2 38 3.3.3 分类意图建模算法比较 38-39 3.4 对查询的分类意图建模 39 3.5 构建模型的检索框架 39-41 3.6 建立包含分类意图信息的检索 41-43 3.6.1 在搜索排序评分中体现意图模型信息 41-42 3.6.2 为特定意图建立独立索引 42 3.6.3 两种改进方式比较 42-43 第四章 实验和结果分析 43-48 4.1 实验设计目的和理念 43 4.2 实验资源获取 43-45 4.2.1 实验资源选择 43-44 4.2.2 实验资源获取 44-45 4.3 实验中相关指标说明 45 4.4 实验1:文档意图建模结果测试 45 4.5 实验2:意图建模改善检索结果测试 45-48 第五章 结论 48-49 5.1 论文总结 48 5.2 未来的工作 48-49 参考文献 49-51 致谢 51-52 作者攻读学位期间发表的学术论文目录 52
|
相似论文
- 基于仿生模式识别的文本分类技术研究,TP391.1
- 互联网上旅游评论的情感分析及其有用性研究,TP391.1
- 生物医学领域检索系统查询扩展技术研究,TP391.3
- 面向海量邮件的检索系统研究与实现,TP393.098
- 网络搜索引擎的相关技术研究,G354
- 基于跨语言信息检索的企业竞争情报收集系统模型研究,TP391.3
- 基于语义网络的智能搜索引擎研究,TP391.3
- 搜索引擎服务提供商版权侵权责任认定标准探讨,D923.41
- 基于Web搜索和网页结构分析的IT相关主题新闻抓取研究,TP393.092
- 基于策略Agent的个性化信息检索系统的研究与实现,TP391.3
- 分布式搜索引擎索引安全及缓存策略研究,TP333
- 基于WebHarvest的中文财经新闻搜索引擎的设计与实现,TP311.52
- 基于稀疏非负矩阵分解的图像检索,TP391.41
- 基于分类模型监测电子商务违禁信息的研究与实现,TP393.09
- 搜索引擎侵权行为研究,D923
- 基于Web数据挖掘的个性化搜索引擎研究,TP391.3
- 基于Agent元搜索引擎的个性化研究,TP391.3
- 基于点击的用户聚类的研究,TP311.13
- 论搜索引擎竞价排名的法律规制,D923.43
- 搜索引擎悖论解读,G254
- 基于搜索引擎网页排序算法研究,TP391.3
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com
|