学位论文 > 优秀研究生学位论文题录展示

基于类别意图的信息检索模型

作 者: 丁志刚
导 师: 王小捷
学 校: 北京邮电大学
专 业: 控制理论与控制工程
关键词: 信息检索 信息检索模型 文本分类 用户意图 搜索引擎
分类号: TP391.3
类 型: 硕士论文
年 份: 2009年
下 载: 64次
引 用: 0次
阅 读: 论文下载
 

内容摘要


信息检索直接影响知识获取、科学研究、终身教育等各个方面,信息检索知识和技能,已成为人们知识结构中不可缺少的最重要的组成部分,对于信息检索系统效果的改进研究具有很高的研究价值。现有的信息检索解决办法主要面临2个问题:独立性假设问题和数据稀疏问题,另外,“如何在检索中融入更多的‘语义’因素?“也是信息检索研究中热点讨论的问题。本文探索了如何从用户的检索条件中获取用户的潜在意图,并利用获得的意图信息对检索结果进行改善。首先给出了检索意图的定义;之后根据特定的意图分别对待检索文档和检索条件进行数据建模;讨论了几种形式的意图建模结果改善检索效果的方案;最后设计了若干针对性不同的实验对文中提到的方法进行测试。实验表明,在检索中加入用户意图的因素对检索结果有明显改善。文章的创新点在于不同之前研究工作的新切入角度:1、从用户的查询条件中挖掘意图;2、把用户的意图具体化,建立具体的意图集,测量待检索文档同每一个特定意图的测度;3、使用新的检索单位构建检索系统。

全文目录


摘要  4-5
ABSTRACT  5-8
第一章 引言  8-11
  1.1 问题和研究背景  8
  1.2 问题的研究意义  8-9
  1.3 现有的方法的不足及改进思路  9-10
  1.4 论文的主要创新点  10
  1.5 论文的组织结构  10-11
第二章 相关研究工作  11-33
  2.1 信息检索基本概念  11-12
  2.2 信息检索模型  12-14
  2.3 文本聚类  14-15
  2.4 自动文本分类  15-18
  2.5 特征选择  18-20
  2.6 中文分词  20-22
  2.7 基于用户意图的信息检索  22
  2.8 现代搜索引擎原理  22-30
    2.8.1 概述  22-23
    2.8.2 搜集内容  23-25
    2.8.3 预处理  25-27
    2.8.4 提供检索服务  27-30
  2.9 开源软件包Lucene  30-33
    2.9.1 概述  30
    2.9.2 Lucene的优势  30-31
    2.9.3 Lucene组成及工作原理  31-33
第三章 基于类别意图的信息检索  33-43
  3.1 模型综述  33-34
    3.1.1 检索意图的定义与模型综述  33-34
    3.1.2 基于类别意图的信息检索的数学描述  34
  3.2 关于检索单位的思考  34-37
    3.2.1 信息检索的检索单位  34-35
    3.2.2 中文高频串介绍  35-36
    3.2.3 中文高频串抽取  36-37
    3.2.4 本模型的检索单位  37
  3.3 对文档的分类意图建模  37-39
    3.3.1 算法1  37-38
    3.3.2 算法2  38
    3.3.3 分类意图建模算法比较  38-39
  3.4 对查询的分类意图建模  39
  3.5 构建模型的检索框架  39-41
  3.6 建立包含分类意图信息的检索  41-43
    3.6.1 在搜索排序评分中体现意图模型信息  41-42
    3.6.2 为特定意图建立独立索引  42
    3.6.3 两种改进方式比较  42-43
第四章 实验和结果分析  43-48
  4.1 实验设计目的和理念  43
  4.2 实验资源获取  43-45
    4.2.1 实验资源选择  43-44
    4.2.2 实验资源获取  44-45
  4.3 实验中相关指标说明  45
  4.4 实验1:文档意图建模结果测试  45
  4.5 实验2:意图建模改善检索结果测试  45-48
第五章 结论  48-49
  5.1 论文总结  48
  5.2 未来的工作  48-49
参考文献  49-51
致谢  51-52
作者攻读学位期间发表的学术论文目录  52

相似论文

  1. 基于仿生模式识别的文本分类技术研究,TP391.1
  2. 互联网上旅游评论的情感分析及其有用性研究,TP391.1
  3. 生物医学领域检索系统查询扩展技术研究,TP391.3
  4. 面向海量邮件的检索系统研究与实现,TP393.098
  5. 网络搜索引擎的相关技术研究,G354
  6. 基于跨语言信息检索的企业竞争情报收集系统模型研究,TP391.3
  7. 基于语义网络的智能搜索引擎研究,TP391.3
  8. 搜索引擎服务提供商版权侵权责任认定标准探讨,D923.41
  9. 基于Web搜索和网页结构分析的IT相关主题新闻抓取研究,TP393.092
  10. 基于策略Agent的个性化信息检索系统的研究与实现,TP391.3
  11. 分布式搜索引擎索引安全及缓存策略研究,TP333
  12. 基于WebHarvest的中文财经新闻搜索引擎的设计与实现,TP311.52
  13. 基于稀疏非负矩阵分解的图像检索,TP391.41
  14. 基于分类模型监测电子商务违禁信息的研究与实现,TP393.09
  15. 搜索引擎侵权行为研究,D923
  16. 基于Web数据挖掘的个性化搜索引擎研究,TP391.3
  17. 基于Agent元搜索引擎的个性化研究,TP391.3
  18. 基于点击的用户聚类的研究,TP311.13
  19. 论搜索引擎竞价排名的法律规制,D923.43
  20. 搜索引擎悖论解读,G254
  21. 基于搜索引擎网页排序算法研究,TP391.3

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com