学位论文 > 优秀研究生学位论文题录展示
搜索引擎中的Pagerank排序算法研究分析
作 者: 刘青伟
导 师: 徐全智
学 校: 电子科技大学
专 业: 应用数学
关键词: Pagerank 搜索引擎 乘幂法 网络爬虫
分类号: O223
类 型: 硕士论文
年 份: 2010年
下 载: 282次
引 用: 3次
阅 读: 论文下载
内容摘要
Pagerank算法是当今网络搜索引擎巨匠Google的核心技术。本文对Google公司的这一算法在当今网络搜索及其应用领域进行详尽全面的分析和拓展。知识检索是全新的信息检索方式,而随着互联网的发展,文本内容数量迅猛增加,文本知识检索成为知识检索重点。搜索引擎基于关键字的检索成为网页文本数据检索的主要方法。首先对基本的网页分析算法进行分析综述:如基于广度优先策略和最佳优先策略的网页抓取方法。页面分析算法可以大到从网页以及网页块粒度分析甚至网站粒度分析,还有基于内容的网页分析算法。海量网络信息以使传统通用搜索引擎出现各种局限性。当今主流的网页搜索算法是由引文分析算法发展而来的Pagerank算法,也需要不断改进。本文首先通过自写的网络爬虫程序,来提取网页数据,供各算法实验数据参考分析使用。通过网络链接示意图简单阐述Pagerank算法的思想核心,本文重点研究计算Pagerank值。首先从传统的主题偏离现象和页面相关性角度来提出一种组合的Pagerank算法,然后从网页中悬挂节点问题出发,引入网页超链接矩阵,提出一种基于悬挂节点的线性系统来计算Pagerank值。然后引入基于乘幂法的外推插值方法计算PR值,它是通过计算齐次方程的特征向量求次大根,来计算Pagerank值,然后从线性系统出发,通过递归方式寻找超链接矩阵中的全零行来计算Pagerank值。最后分析扩展特征值法计算Pagerank和标准乘幂法在实际用例中的收敛速度。可以看出扩展特征值法比标准乘幂法优越。随着Pagerank不断成熟,它将在更广的领域发挥更大的作用,越来越方面用户使用快速找到自己需要的信息,剔除更多的冗余信息。
|
全文目录
相似论文
- 基于比对技术的非法网站探测系统的实现与研究,TP393.08
- 网络搜索引擎的相关技术研究,G354
- 基于语义网络的智能搜索引擎研究,TP391.3
- 搜索引擎服务提供商版权侵权责任认定标准探讨,D923.41
- 基于Web搜索和网页结构分析的IT相关主题新闻抓取研究,TP393.092
- 分布式搜索引擎索引安全及缓存策略研究,TP333
- 基于WebHarvest的中文财经新闻搜索引擎的设计与实现,TP311.52
- 主题搜索引擎关键技术研究,TP391.3
- 教育培训行业互联网营销问题的研究,F49
- 搜索引擎侵权行为研究,D923
- 基于Web数据挖掘的个性化搜索引擎研究,TP391.3
- 论搜索引擎竞价排名的法律规制,D923.43
- 基于搜索引擎网页排序算法研究,TP391.3
- 基于链接结构分析的Web页面排序算法,TP393.092
- 基于对等网络的搜索引擎关键技术研究,TP391.3
- 基于本体的智能答疑系统研究与实现,TP311.52
- 对搜索引擎扩充语义信息功能方法研究,TP391.3
- 搜索引擎主题相关性研究,TP391.3
- 基于点击数据分析的个性化搜索引擎研究,TP391.3
- 基于Java的浙江纺织服装学院校园网搜索引擎,TP393.18
- 基于数据挖掘技术的网络社区发现方法的研究与实现,TP393.094
中图分类: > 数理科学和化学 > 数学 > 运筹学 > 统筹方法
© 2012 www.xueweilunwen.com
|