学位论文 > 优秀研究生学位论文题录展示

基于链接结构分析的Web页面排序算法

作 者: 张砚明
导 师: 王宇平
学 校: 西安电子科技大学
专 业: 计算机软件与理论
关键词: 链接分析 页面排序算法 PageRank算法 Improved PageRank算法 Hybrid PageRank算法
分类号: TP393.092
类 型: 硕士论文
年 份: 2010年
下 载: 51次
引 用: 2次
阅 读: 论文下载
 

内容摘要


随着Internet/Web技术的快速普及和迅猛发展,Web上信息总量日益膨胀。如何将用户所需信息从这个信息海洋中找到,并按照相关度从大到小排列并返回给用户变得日益迫切,搜索引擎技术应运而生,基于链接分析的Web页面排序算法是其中最重要的技术之一。基于链接分析的PageRank算法是目前应用最广泛的页面排序算法。从数学模型上讲,PageRank算法可以看做是一个马尔可夫随机游走模型,依据当前网页的链接结构计算页面间的转移概率,页面最终的排序值可以由此马尔可夫链的平稳分布唯一给出。本文首先通过对经典Web结构挖掘算法HITS和PageRank算法的研究学习,发现经典PageRank算法容易出现主题漂移现象,而主题漂移现象是由页面链接的均分赋值引起的。在受HITS排序算法枢纽网页思想和PageRank算法的实验的启发下,本文重新定义了PageRank算法的排序函数,使得页面链接权值和链入页面的出度和入度均相关,提出了改进的PageRank算法,这样就避免了页面链接的均分赋值。实验结果表明了算法的查准率有了显著的提高,p@10和p@50指标均一致性的超过经典PageRank算法。在改进的PageRank算法的基础上,受经典PageRank算法排序函数公式的启发,可知页面的排序值受三大因素影响。对于页面间的每条链接,我们定义了链接尾端入度影响因子和链接头端出度影响因子,两个影响因子分别用上述三大因素度量,提出了Hybrid Pagerank算法。实现了可调阀值的页面排序方法,有效的结合了经典PageRank算法和改进的PageRank算法的优点,实验结果验证了算法的有效性。

全文目录


摘要  3-4
Abstract  4-7
第一章 绪论  7-11
  1.1 课题研究背景和意义  7-8
  1.2 Web排序算法的发展和研究现状  8-9
  1.3 本文主要工作和章节安排  9-11
第二章 Web数据挖掘概述  11-17
  2.1 Web挖掘的定义和概述  11-12
  2.2 Web挖掘的分类  12-15
    2.2.1 Web内容挖掘  12-13
    2.2.2 Web结构挖掘  13-14
    2.2.3 Web使用挖掘  14-15
  2.3 Web数据挖掘的实现  15-16
  2.4 Web数据挖掘的发展前景  16
  2.5 本章小结  16-17
第三章 Web页面排序算法  17-33
  3.1 基于页面内容的排序算法  17-21
    3.1.1 向量空间模型(VSM)  17-20
    3.1.2 基于页面内容的排序算法  20
    3.1.3 基于页面内容的排序算法的优缺点  20-21
  3.2 基于页面链接结构的排序算法  21-32
    3.2.1 PageRank算法分析  21-25
    3.2.2 HITS算法分析  25-29
    3.2.3 两种经典算法的评价及相关改进研究  29-32
  3.3 本章小结  32-33
第四章 改进的Web页面排序算法  33-47
  4.1 Imptoved PageRank算法  33-40
    4.1.1 问题描述  33-35
    4.1.2 算法介绍  35-37
    4.1.3 实验设计及结果讨论  37-40
  4.2 Hybrid PageRank算法  40-45
    4.2.1 问题描述  41-42
    4.2.2 算法介绍  42-43
    4.2.3 实验设计及结果讨论  43-45
  4.3 本章小结  45-47
第五章 结束语  47-49
致谢  49-51
参考文献  51-57
附录A  57-59
附录B  59-61
附录C  61-63
附录D  63-64

相似论文

  1. 搜索引擎主题相关性研究,TP391.3
  2. 基于网络计量的211高校图书馆网站链接及流量分析研究,G250.7
  3. 基于搜索算法的Web安全,TP393.08
  4. 基于手机图片搜索引擎的设计与实现,TP391.3
  5. 恶意URL检测项目中基于PageRank算法的网络爬虫的设计和实现,TP391.3
  6. 基于概念背景图的主题爬行策略研究,TP393.092
  7. 基于蚁群算法的主题爬虫技术研究与实现,TP391.3
  8. 基于链接结构的网页排序算法研究,TP393.092
  9. 基于Nutch的Web结构挖掘算法研究,TP393.09
  10. 一种基于PageRank算法的孤立点检测方法及应用,TP311.13
  11. 基于快速相似度的Web结构挖掘的研究,TP393.09
  12. 基于本体的博客搜索引擎关键技术研究与实现,TP391.3
  13. 基于PageRank排序算法改进的若干研究,TP393.092
  14. 基于网络研判的高校群体突发事件预警平台的研究,TP311.52
  15. 智能型搜索引擎的研究,TP391.3
  16. 垂直搜索引擎关键技术研究及应用,TP391.3
  17. 主题相关的PageRank算法的改进策略的研究和实现,TP301.6
  18. 基于改进HITS算法及位置信息的关键网页信息抽取方法,TP301.6
  19. 主题爬虫搜索Web页面策略的研究,TP391.3
  20. 基于页面相似度的链接分析算法研究,TP393.092

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序 > 网络浏览器
© 2012 www.xueweilunwen.com