学位论文 > 优秀研究生学位论文题录展示

搜索引擎个性化检索技术的研究

作 者: 杨献峰
导 师: 李村合;史永宏
学 校: 中国石油大学
专 业: 计算机应用技术
关键词: 搜索引擎 个性化 信息检索 用户兴趣模型 TFIDF算法
分类号: TP391.3
类 型: 硕士论文
年 份: 2007年
下 载: 360次
引 用: 3次
阅 读: 论文下载
 

内容摘要


Web信息的快速增长,使得搜索引擎成为用户信息检索的主要工具。现有的搜索引擎基本上采用“一个搜索适用所有用户”的模型,体现不出用户真正的兴趣所在。因此,搜索引擎的个性化研究成为当今Internet信息检索方面的一个重要课题。在对个性化搜索引擎和Web挖掘等相关技术研究的基础上,深入分析了基于词频的TFIDF算法,该算法将用户浏览的页面置以平等的地位,忽略了文档与用户兴趣的相关性。针对这一缺点,分析了用户浏览页面与用户兴趣的相关因素,结合Web挖掘技术与相关反馈思想,提出了页面相关性权重的概念。将页面相关性权重与TFIDF算法相结合,提出了一种加权TFIDF算法。通过分析文档结构、用户浏览行为信息及用户对文档的评价信息,设计了一种基于加权TFIDF算法的三层用户兴趣挖掘策略,来创建和实时更新用户兴趣模型。分析了常用的基于向量夹角余弦的相关度排序算法存在的缺陷,在用户兴趣模型基础上,提出了一种改进的基于VSM的个性化文档相关性排序算法,根据用户的兴趣爱好对文档进行过滤、排序,提高系统的查准率。设计并实现了一个个性化信息检索系统,通过兴趣模型对用户输入的查询关键词进行查询扩展,将检索结果与用户兴趣相匹配,并按文档相关性大小进行排序,过滤其中低于指定阈值的文档。该系统在保证查全率的前提下,提高了系统查准率,实现了个性化信息检索的目的,同时也证明了算法的有效性。

全文目录


中文摘要  4-5
英文摘要  5-10
第1章 前言  10-18
  1.1 课题背景  10-12
  1.2 国内外研究现状  12-16
  1.3 本文主要研究内容  16
  1.4 全文组织结构  16-18
第2章 个性化信息检索关键技术  18-30
  2.1 搜索引擎技术概述  18-23
    2.1.1 信息检索模型的表示  18-20
    2.1.2 搜索引擎系统的基本组成原理  20-22
    2.1.3 个性化搜索引擎简介  22-23
  2.2 Web 挖掘技术  23-25
    2.2.1 Web 内容挖掘(Web content mining)  23-24
    2.2.2 Web 结构挖掘(Web structure mining)  24-25
    2.2.3 Web 日志挖掘(Web log mining)  25
  2.3 用户兴趣建模  25-29
    2.3.1 用户兴趣的表示  26-27
    2.3.2 用户建模技术的类型  27-29
  2.4 本章小结  29-30
第3章 个性化用户兴趣模型的研究  30-52
  3.1 目标表示与特征提取  30-31
    3.1.1 目标表示  30-31
    3.1.2 特征提取  31
  3.2 基于词频统计的TFIDF 算法的分析及改进  31-39
    3.2.1 基于词频统计的TFIDF 算法  32
    3.2.2 TFIDF 算法的不足  32-34
    3.2.3 页面相关性权重的提出  34-38
    3.2.4 改进的加权TFIDF 算法及实现  38-39
  3.3 个性化用户兴趣建模  39-46
    3.3.1 基于加权TFIDF 算法的用户兴趣学习策略  39-41
    3.3.2 个性化用户兴趣模型PUIP 的实现  41-43
    3.3.3 用户兴趣的生成与更新  43-46
  3.4 实验及结果分析  46-51
  3.5 本章小结  51-52
第4章 个性化信息过滤技术  52-62
  4.1 基于VSM 的文档相关度算法  52-53
  4.2 改进的基于VSM 的文档相关度算法  53-59
    4.2.1 算法的提出  53-56
    4.2.2 个性化文档相关性排序算法的设计与实现  56-58
    4.2.3 算法流程图  58-59
  4.3 实验及结果分析  59-61
  4.4 本章小结  61-62
第5章 基于PUIP信息检索系统的研究  62-68
  5.1 系统总体框架  62
  5.2 系统主要功能模块  62-64
    5.2.1 个人管理器  62-63
    5.2.2 查询扩展  63-64
    5.2.3 其他模块说明  64
  5.3 实验结果与分析  64-67
  5.4 本章小结  67-68
第6章 总结  68-71
  6.1 主要工作  68-69
  6.2 主要创新点  69
  6.3 存在的问题及未来的方向  69-71
参考文献  71-76
致谢  76-77
个人简历、在学期间的研究成果  77

相似论文

  1. 万科模式的居住小区设计研究,TU984.12
  2. 隐式用户兴趣挖掘的研究与实现,TP311.13
  3. 个性化检索中相似用户群的获取与更新,TP391.3
  4. 生物医学领域检索系统查询扩展技术研究,TP391.3
  5. 面向海量邮件的检索系统研究与实现,TP393.098
  6. 个性化人工膝关节设计及其生物力学特性研究,R318.1
  7. 大学生思想政治教育工作个性化教育的研究,G641
  8. OQAS对不同制瓣方式的个性化LASIK手术术后视觉质量的评估,R779.63
  9. 网络搜索引擎的相关技术研究,G354
  10. 面向社区教育的个性化学习系统的研究与实现,TP391.6
  11. 基于跨语言信息检索的企业竞争情报收集系统模型研究,TP391.3
  12. 基于语义网络的智能搜索引擎研究,TP391.3
  13. Web使用挖掘与网页个性化服务推荐研究,TP311.13
  14. 网络环境下小学协同教育的策略研究,G629.2
  15. 基于自然遗忘的个性化推荐算法研究,TP311.52
  16. 搜索引擎服务提供商版权侵权责任认定标准探讨,D923.41
  17. 网络学习系统中个性化学习指导系统构建研究,TP391.6
  18. 面向用户偏好的MADM方法在个性化推荐中的应用,G353.1
  19. 基于Web搜索和网页结构分析的IT相关主题新闻抓取研究,TP393.092
  20. 基于Web挖掘技术研究及其在数字图书馆中的应用,G250.76
  21. 当代纺织品设计中图案风格的融合,J523

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com