学位论文 > 优秀研究生学位论文题录展示
基于链接结构分析的Web页面排序算法
作 者: 张砚明
导 师: 王宇平
学 校: 西安电子科技大学
专 业: 计算机软件与理论
关键词: 链接分析 页面排序算法 PageRank算法 Improved PageRank算法 Hybrid PageRank算法
分类号: TP393.092
类 型: 硕士论文
年 份: 2010年
下 载: 51次
引 用: 2次
阅 读: 论文下载
内容摘要
随着Internet/Web技术的快速普及和迅猛发展,Web上信息总量日益膨胀。如何将用户所需信息从这个信息海洋中找到,并按照相关度从大到小排列并返回给用户变得日益迫切,搜索引擎技术应运而生,基于链接分析的Web页面排序算法是其中最重要的技术之一。基于链接分析的PageRank算法是目前应用最广泛的页面排序算法。从数学模型上讲,PageRank算法可以看做是一个马尔可夫随机游走模型,依据当前网页的链接结构计算页面间的转移概率,页面最终的排序值可以由此马尔可夫链的平稳分布唯一给出。本文首先通过对经典Web结构挖掘算法HITS和PageRank算法的研究学习,发现经典PageRank算法容易出现主题漂移现象,而主题漂移现象是由页面链接的均分赋值引起的。在受HITS排序算法枢纽网页思想和PageRank算法的实验的启发下,本文重新定义了PageRank算法的排序函数,使得页面链接权值和链入页面的出度和入度均相关,提出了改进的PageRank算法,这样就避免了页面链接的均分赋值。实验结果表明了算法的查准率有了显著的提高,p@10和p@50指标均一致性的超过经典PageRank算法。在改进的PageRank算法的基础上,受经典PageRank算法排序函数公式的启发,可知页面的排序值受三大因素影响。对于页面间的每条链接,我们定义了链接尾端入度影响因子和链接头端出度影响因子,两个影响因子分别用上述三大因素度量,提出了Hybrid Pagerank算法。实现了可调阀值的页面排序方法,有效的结合了经典PageRank算法和改进的PageRank算法的优点,实验结果验证了算法的有效性。
|
全文目录
摘要 3-4 Abstract 4-7 第一章 绪论 7-11 1.1 课题研究背景和意义 7-8 1.2 Web排序算法的发展和研究现状 8-9 1.3 本文主要工作和章节安排 9-11 第二章 Web数据挖掘概述 11-17 2.1 Web挖掘的定义和概述 11-12 2.2 Web挖掘的分类 12-15 2.2.1 Web内容挖掘 12-13 2.2.2 Web结构挖掘 13-14 2.2.3 Web使用挖掘 14-15 2.3 Web数据挖掘的实现 15-16 2.4 Web数据挖掘的发展前景 16 2.5 本章小结 16-17 第三章 Web页面排序算法 17-33 3.1 基于页面内容的排序算法 17-21 3.1.1 向量空间模型(VSM) 17-20 3.1.2 基于页面内容的排序算法 20 3.1.3 基于页面内容的排序算法的优缺点 20-21 3.2 基于页面链接结构的排序算法 21-32 3.2.1 PageRank算法分析 21-25 3.2.2 HITS算法分析 25-29 3.2.3 两种经典算法的评价及相关改进研究 29-32 3.3 本章小结 32-33 第四章 改进的Web页面排序算法 33-47 4.1 Imptoved PageRank算法 33-40 4.1.1 问题描述 33-35 4.1.2 算法介绍 35-37 4.1.3 实验设计及结果讨论 37-40 4.2 Hybrid PageRank算法 40-45 4.2.1 问题描述 41-42 4.2.2 算法介绍 42-43 4.2.3 实验设计及结果讨论 43-45 4.3 本章小结 45-47 第五章 结束语 47-49 致谢 49-51 参考文献 51-57 附录A 57-59 附录B 59-61 附录C 61-63 附录D 63-64
|
相似论文
- 搜索引擎主题相关性研究,TP391.3
- 基于网络计量的211高校图书馆网站链接及流量分析研究,G250.7
- 基于搜索算法的Web安全,TP393.08
- 基于手机图片搜索引擎的设计与实现,TP391.3
- 恶意URL检测项目中基于PageRank算法的网络爬虫的设计和实现,TP391.3
- 基于概念背景图的主题爬行策略研究,TP393.092
- 基于蚁群算法的主题爬虫技术研究与实现,TP391.3
- 基于链接结构的网页排序算法研究,TP393.092
- 基于Nutch的Web结构挖掘算法研究,TP393.09
- 一种基于PageRank算法的孤立点检测方法及应用,TP311.13
- 基于快速相似度的Web结构挖掘的研究,TP393.09
- 基于本体的博客搜索引擎关键技术研究与实现,TP391.3
- 基于PageRank排序算法改进的若干研究,TP393.092
- 基于网络研判的高校群体突发事件预警平台的研究,TP311.52
- 智能型搜索引擎的研究,TP391.3
- 垂直搜索引擎关键技术研究及应用,TP391.3
- 主题相关的PageRank算法的改进策略的研究和实现,TP301.6
- 基于改进HITS算法及位置信息的关键网页信息抽取方法,TP301.6
- 主题爬虫搜索Web页面策略的研究,TP391.3
- 基于页面相似度的链接分析算法研究,TP393.092
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序 > 网络浏览器
© 2012 www.xueweilunwen.com
|