学位论文 > 优秀研究生学位论文题录展示
基于点击数据分析的个性化搜索引擎研究
作 者: 蔺继国
导 师: 徐锡山
学 校: 国防科学技术大学
专 业: 计算机科学与技术
关键词: 个性化搜索引擎 相关反馈 协同过滤 PageRank 点击数据
分类号: TP391.3
类 型: 硕士论文
年 份: 2010年
下 载: 99次
引 用: 2次
阅 读: 论文下载
内容摘要
随着互联网技术在全球范围内的飞速发展,互联网逐渐成为群众发布信息、获取信息和传递信息的主要载体,网络信息呈现一种爆炸式增长态势。人们一方面在享受着互联网带来的方便及丰富的信息资源,另一方面也不可避免地遇到难以快速获取有效信息的问题。搜索引擎作为获取网络信息的一个方便入口,正不断被人们使用和依赖。但是,传统搜索引擎对所有网络用户提供一个统一的入口,对所有用户的相同查询词返回一个相同的结果列表,这个结果列表中仍然包含很多网页,用户感兴趣的信息往往仍然被一些冗余信息淹没。为了深入理解用户的搜索目的,对不同用户提供不同的个性化服务,个性化搜索技术应运而生。然而,个性化搜索技术的研究工作仍然处于一种鱼龙混杂的局面,没有一款商用个性化搜索引擎产品提供的个性化服务能够真正让人耳目一新。本文针对个性化搜索技术的现状及问题,基于用户点击数据分析方法对个性化搜索技术进行了深入研究。本文的主要工作有以下几个方面:(1)对现有个性化搜索技术的研究状况进行了分析比较,指出了现有个性化搜索引擎的不足之处。(2)提出一种基于点击数据分析的隐式相关反馈信息提取策略,比显式反馈方法更具有实际应用价值。(3)设计了一种基于添加修正参数的个性化PageRank算法,通过将提取的隐式信息反馈到PageRank中,实现了搜索结果的个性化排序,结果更接近用户的搜索需求。(4)将协同过滤技术应用于个性化PageRank算法,利用兴趣组内其他用户的相关反馈信息来改善同组者搜索结果的排序质量。(5)提出基于兴趣聚类技术的用户分组方法,以实现用户的合理分组,进一步减少用户使用系统时的复杂度。
|
全文目录
摘要 9-10 ABSTRACT 10-11 第一章 绪论 11-24 1.1 研究背景 11-14 1.2 个性化搜索相关研究综述 14-21 1.2.1 现代搜索引擎发展历史及趋势 15-16 1.2.2 个性化搜索的定义 16-19 1.2.3 个性化搜索技术研究现状 19-21 1.3 课题的研究意义 21-22 1.4 本文的主要研究内容和组织结构 22-24 1.4.1 本文的主要研究内容 22-23 1.4.2 本文的组织结构 23-24 第二章 个性化搜索相关技术研究 24-32 2.1 搜索引擎对“相关”的理解 24-26 2.1.1 传统搜索引擎理解的“相关” 25 2.1.2 个性化搜索引擎理解的“相关” 25-26 2.2 相关反馈技术 26-29 2.2.1 搜索引擎引入相关反馈的原因 27-28 2.2.2 相关反馈的定义 28 2.2.3 相关反馈的分类 28-29 2.3 隐式相关反馈技术 29-30 2.3.1 用户行为作为相关反馈 29-30 2.3.2 用户点击数据作为相关反馈 30 2.4 协同过滤技术 30-31 2.5 本章小结 31-32 第三章 系统的反馈信息提取策略及个性化排序方法 32-45 3.1 点击数据的获取及表示 32-33 3.1.1 点击数据获取 32-33 3.1.2 点击数据的逻辑表示 33 3.2 相关反馈信息提取策略 33-37 3.2.1 思想来源 33-35 3.2.2 基于点击数据分析的反馈策略 35-37 3.3 个性化排序算法 37-44 3.3.1 PageRank 算法简介 37-39 3.3.2 基于相关反馈的个性化PageRank 算法 39-42 3.3.3 影响网页排列次序的因素 42-43 3.3.4 个性化排序方法 43-44 3.4 本章小结 44-45 第四章 原型系统的设计与实现 45-61 4.1 系统整体结构设计 45-46 4.2 分模块设计 46-50 4.2.1 爬虫模块 46 4.2.2 网页分析模块 46-47 4.2.3 索引建立及搜索模块 47 4.2.4 基于点击数据分析的反馈信息提取模块 47-48 4.2.5 基于相关反馈的个性化重排序模块 48-49 4.2.6 用户接口模块 49-50 4.3 数据结构及分析过程 50-53 4.3.1 数据库表设计 50-52 4.3.2 数据分析过程 52-53 4.4 系统实现 53-54 4.5 系统测试 54-58 4.6 系统评价 58-59 4.7 本章小结 59-61 第五章 基于用户聚类的改进方案 61-67 5.1 聚类技术的引入 61-62 5.2 改进的系统结构设计 62-63 5.3 基于兴趣聚类的用户分组方法 63-66 5.3.1 用户兴趣的形式化表示 63-64 5.3.2 兴趣相似性度量 64-65 5.3.3 兴趣聚类 65-66 5.4 本章小结 66-67 第六章 结束语 67-69 致谢 69-70 参考文献 70-75 作者在学期间取得的学术成果 75-76 作者在学期间参加的科研工作 76
|
相似论文
- Q学习在基于内容图像检索技术中的应用,TP391.41
- 直推式支持向量机研究及其在图像检索中的应用,TP391.41
- 生物医学领域检索系统查询扩展技术研究,TP391.3
- 基于自然遗忘的个性化推荐算法研究,TP311.52
- 基于蚁群算法的移动商务个性化推荐体系研究,TP391.3
- 基于协同过滤的用户兴趣发现,TP391.3
- 主题搜索引擎关键技术研究,TP391.3
- 基于信息型模型的音乐推荐算法,TP391.3
- 基于社会化标签体系的个性化推荐引擎技术研究,TP391.3
- 基于点击数据和搜索结果片断的命名实体挖掘,TP391.3
- 基于GPU的图书推荐系统研究与实现,TP391.3
- 基于C2C电子商务模式下商品推荐系统应用研究,F724.6
- 微博客话题追踪及实时检索的相关研究,TP393.092
- 基于用户兴趣和浏览行为的个性化推荐技术研究,TP391.3
- 基于搜索引擎网页排序算法研究,TP391.3
- 强化学习和相关反馈在口腔正畸图像检索中的应用,TP391.41
- 基于特征向量的个性化推荐算法研究,TP391.3
- 基于语用情境的资源推荐研究及应用,TP391.3
- 动态推荐技术的研究及在个性化电子警务中的应用,D631.1
- 基于链接结构分析的Web页面排序算法,TP393.092
- 跨系统个性化服务中隐私保持问题研究,TP393.08
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com
|