学位论文 > 优秀研究生学位论文题录展示
基于云计算的Web结构挖掘算法研究
作 者: 李远方
导 师: 邓世昆
学 校: 云南大学
专 业: 计算机应用技术
关键词: 云计算 Web结构挖掘 PageRank Hadoop K-span
分类号: TP311.13
类 型: 硕士论文
年 份: 2011年
下 载: 402次
引 用: 0次
阅 读: 论文下载
内容摘要
数据挖掘是从大量纷杂的数据中分析并提取有用的知识和信息。当今网络上最重要的资源信息库是Web页,因此研究Web数据挖掘有着重要意义。但随着互联网的高速发展,Web信息日增长呈指数量级发展,要从中分析出有用的信息,单一节点的计算和存储己存在着瓶颈,而最近提出的云计算则提供了一种全新的解决方案,即可以通过网络获取强大的计算能力和存储能力,并行高效的挖掘知识和信息。文章在概述了云计算、Web结构挖掘、Hadoop等基本理论知识后,将Web结构挖掘算法和云计算(Hadoop开源云平台)进行了整合,并做了以下工作:1.对Web链接结构做了图论抽象,并详细说明了如何取得Web图结构数据,为挖掘算法提供了统一的数据表示方法。2.对类似数据库或文件系统的数据对象做了MapReduce抽象,以此说明MapReduce模型应用广泛,能满足实际的需要。3.对Hadoop分块(BlockSize)策略进行了研究,并建立了相应的数学模型,在实验结果阶段进行了试探性的研究。4.对传统PageRank并行算法进行了改进和移植,并提出了K-span算法。K步跨度算法(K-span)思想:尽量在PageRank并行迭代时减少Hadoop集群节点之间的通信次数,使得PageRank总的迭代时间减少,从而达到快速收敛的目的。具体来讲是Hadoop运行时,可预先将Dk和(AT)k的值依次算出,保存在Hadoop公用访问处,避免了节点之间频繁的通信访问。最后搭建Hadoop平台来估计传统PageRank并行算法和K-span并行算法的时间和空间开销,实验结果表明K-span算法的执行时效更好,同时也带来了额外的存储开销,但相对于云平台的高存储量来讲这点牺牲是值得的。
|
全文目录
摘要 3-4 Abstract 4-8 第1章 前言 8-12 1.1 研究背景和意义 8-9 1.2 研究现状 9-10 1.3 研究内容 10-11 1.4 论文结构 11-12 第2章 云计算和WEB挖掘技术概述 12-26 2.1 云计算 12-18 2.1.1 云计算的概念 12-14 2.1.2 云计算的发展现状 14-15 2.1.3 云计算的实现机制 15-17 2.1.4 云计算的关键技术 17-18 2.2 WEB挖掘的分类 18-19 2.2.1 Web内容挖掘 18-19 2.2.2 Web使用日志挖掘 19 2.2.3 Web结构挖掘 19 2.3 WEB图论介绍 19-21 2.3.1 Web图抽象 19-21 2.3.2 超链结构表示法 21 2.4 PAGERANK算法介绍 21-25 2.4.1 算法来源 21-22 2.4.2 算法公式描述 22-24 2.4.3 算法分析 24-25 2.5 本章小结 25-26 第3章 开源云计算平台HADOOP研究 26-40 3.1 概述 26-29 3.1.1 Hadoop概述 26 3.1.2 Hadoop HDFS介绍 26-28 3.1.3 Hadoop MapReduce介绍 28-29 3.2 HADOOP中的MAPREDUCE 29-35 3.2.1 Hadoop-MapReduce工作流程 29-31 3.2.2 Hadoop-MapReduce任务调度 31-34 3.2.3 Hadoop-MapReduce调度策略 34 3.2.4 Hadoop-MapReduce抽象结构 34-35 3.3 HADOOP性能分析 35-36 3.4 HADOOP分块策略模型 36-39 3.4.1 文件分块策略分析 36 3.4.2 模型规约 36-37 3.4.3 模型建立与求解 37-39 3.5 本章小结 39-40 第4章 云计算下的PAGERANK算法改进 40-47 4.1 PAGERANK公式向量表示法 40-41 4.2 K-SPAN算法思想 41-42 4.3 K-SPAN实现过程 42-46 4.4 K-SPAN算法分析 46 4.5 本章小结 46-47 第5章 实验结果与分析 47-56 5.1 WEB GRAPH数据集准备 47 5.2 HADOOP平台搭建过程 47-50 5.3 HADOOP主要参数配置 50-51 5.4 利用MAPREDUCE插件开发算法 51-53 5.5 两种算法结果与比较 53-55 5.6 本章小结 55-56 第6章 总结与展望 56-57 参考文献 57-60 攻读硕士学位期间发表的论文 60-61 附录 61-64 致谢 64
|
相似论文
- 云计算平台下的动态信任模型的研究,TP309
- 基于Map/Reduce框架的分布式日志分析系统的研究及应用,TP311.52
- 基于Hadoop的在线购物原型系统的设计与实现,TP311.52
- 基于Google平台促销模块与商品模块的设计与实现,TP311.52
- 基于云计算的软件资源服务平台研究,TP311.52
- 基于人工免疫的病毒检测技术研究,TP393.08
- 基于Google云计算平台的Web应用系统设计及实现,TP393.09
- 高速网络环境下的入侵检测系统的研究,TP393.08
- 基于Hadoop的云存储系统客户端的设计与实现,TP333
- 云计算平台上的增量学习研究,TP311.13
- 基于云计算平台的电信业务支撑系统中资源提供策略的研究,TP3
- 基于Hadoop的视频转码系统设计与实现,TN919.81
- 面向逻辑虚拟域的多级访问控制系统,TP309
- 云环境下MapReduce容错技术的研究,TP302.8
- 主题搜索引擎关键技术研究,TP391.3
- 基于云存储的手机数据备份系统,TP309.3
- 基于云计算和免疫计算的嵌入式系统可重构网络研究,TP368.1
- 基于云计算的软件测试服务研究,TP311.53
- 云计算中依赖任务动态并行调度机制的研究,TP3
- 基于云计算的科学工作流数据存储策略研究,TP333
- 基于SLA的云服务自适应提供框架的研究与实现,TP311.52
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com
|