学位论文 > 优秀研究生学位论文题录展示
搜索引擎个性化检索技术的研究
作 者: 杨献峰
导 师: 李村合;史永宏
学 校: 中国石油大学
专 业: 计算机应用技术
关键词: 搜索引擎 个性化 信息检索 用户兴趣模型 TFIDF算法
分类号: TP391.3
类 型: 硕士论文
年 份: 2007年
下 载: 360次
引 用: 3次
阅 读: 论文下载
内容摘要
Web信息的快速增长,使得搜索引擎成为用户信息检索的主要工具。现有的搜索引擎基本上采用“一个搜索适用所有用户”的模型,体现不出用户真正的兴趣所在。因此,搜索引擎的个性化研究成为当今Internet信息检索方面的一个重要课题。在对个性化搜索引擎和Web挖掘等相关技术研究的基础上,深入分析了基于词频的TFIDF算法,该算法将用户浏览的页面置以平等的地位,忽略了文档与用户兴趣的相关性。针对这一缺点,分析了用户浏览页面与用户兴趣的相关因素,结合Web挖掘技术与相关反馈思想,提出了页面相关性权重的概念。将页面相关性权重与TFIDF算法相结合,提出了一种加权TFIDF算法。通过分析文档结构、用户浏览行为信息及用户对文档的评价信息,设计了一种基于加权TFIDF算法的三层用户兴趣挖掘策略,来创建和实时更新用户兴趣模型。分析了常用的基于向量夹角余弦的相关度排序算法存在的缺陷,在用户兴趣模型基础上,提出了一种改进的基于VSM的个性化文档相关性排序算法,根据用户的兴趣爱好对文档进行过滤、排序,提高系统的查准率。设计并实现了一个个性化信息检索系统,通过兴趣模型对用户输入的查询关键词进行查询扩展,将检索结果与用户兴趣相匹配,并按文档相关性大小进行排序,过滤其中低于指定阈值的文档。该系统在保证查全率的前提下,提高了系统查准率,实现了个性化信息检索的目的,同时也证明了算法的有效性。
|
全文目录
中文摘要 4-5 英文摘要 5-10 第1章 前言 10-18 1.1 课题背景 10-12 1.2 国内外研究现状 12-16 1.3 本文主要研究内容 16 1.4 全文组织结构 16-18 第2章 个性化信息检索关键技术 18-30 2.1 搜索引擎技术概述 18-23 2.1.1 信息检索模型的表示 18-20 2.1.2 搜索引擎系统的基本组成原理 20-22 2.1.3 个性化搜索引擎简介 22-23 2.2 Web 挖掘技术 23-25 2.2.1 Web 内容挖掘(Web content mining) 23-24 2.2.2 Web 结构挖掘(Web structure mining) 24-25 2.2.3 Web 日志挖掘(Web log mining) 25 2.3 用户兴趣建模 25-29 2.3.1 用户兴趣的表示 26-27 2.3.2 用户建模技术的类型 27-29 2.4 本章小结 29-30 第3章 个性化用户兴趣模型的研究 30-52 3.1 目标表示与特征提取 30-31 3.1.1 目标表示 30-31 3.1.2 特征提取 31 3.2 基于词频统计的TFIDF 算法的分析及改进 31-39 3.2.1 基于词频统计的TFIDF 算法 32 3.2.2 TFIDF 算法的不足 32-34 3.2.3 页面相关性权重的提出 34-38 3.2.4 改进的加权TFIDF 算法及实现 38-39 3.3 个性化用户兴趣建模 39-46 3.3.1 基于加权TFIDF 算法的用户兴趣学习策略 39-41 3.3.2 个性化用户兴趣模型PUIP 的实现 41-43 3.3.3 用户兴趣的生成与更新 43-46 3.4 实验及结果分析 46-51 3.5 本章小结 51-52 第4章 个性化信息过滤技术 52-62 4.1 基于VSM 的文档相关度算法 52-53 4.2 改进的基于VSM 的文档相关度算法 53-59 4.2.1 算法的提出 53-56 4.2.2 个性化文档相关性排序算法的设计与实现 56-58 4.2.3 算法流程图 58-59 4.3 实验及结果分析 59-61 4.4 本章小结 61-62 第5章 基于PUIP信息检索系统的研究 62-68 5.1 系统总体框架 62 5.2 系统主要功能模块 62-64 5.2.1 个人管理器 62-63 5.2.2 查询扩展 63-64 5.2.3 其他模块说明 64 5.3 实验结果与分析 64-67 5.4 本章小结 67-68 第6章 总结 68-71 6.1 主要工作 68-69 6.2 主要创新点 69 6.3 存在的问题及未来的方向 69-71 参考文献 71-76 致谢 76-77 个人简历、在学期间的研究成果 77
|
相似论文
- 万科模式的居住小区设计研究,TU984.12
- 隐式用户兴趣挖掘的研究与实现,TP311.13
- 个性化检索中相似用户群的获取与更新,TP391.3
- 生物医学领域检索系统查询扩展技术研究,TP391.3
- 面向海量邮件的检索系统研究与实现,TP393.098
- 个性化人工膝关节设计及其生物力学特性研究,R318.1
- 大学生思想政治教育工作个性化教育的研究,G641
- OQAS对不同制瓣方式的个性化LASIK手术术后视觉质量的评估,R779.63
- 网络搜索引擎的相关技术研究,G354
- 面向社区教育的个性化学习系统的研究与实现,TP391.6
- 基于跨语言信息检索的企业竞争情报收集系统模型研究,TP391.3
- 基于语义网络的智能搜索引擎研究,TP391.3
- Web使用挖掘与网页个性化服务推荐研究,TP311.13
- 网络环境下小学协同教育的策略研究,G629.2
- 基于自然遗忘的个性化推荐算法研究,TP311.52
- 搜索引擎服务提供商版权侵权责任认定标准探讨,D923.41
- 网络学习系统中个性化学习指导系统构建研究,TP391.6
- 面向用户偏好的MADM方法在个性化推荐中的应用,G353.1
- 基于Web搜索和网页结构分析的IT相关主题新闻抓取研究,TP393.092
- 基于Web挖掘技术研究及其在数字图书馆中的应用,G250.76
- 当代纺织品设计中图案风格的融合,J523
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com
|