学位论文 > 优秀研究生学位论文题录展示

基于云计算的Web结构挖掘算法研究

作 者: 李远方
导 师: 邓世昆
学 校: 云南大学
专 业: 计算机应用技术
关键词: 云计算 Web结构挖掘 PageRank Hadoop K-span
分类号: TP311.13
类 型: 硕士论文
年 份: 2011年
下 载: 402次
引 用: 0次
阅 读: 论文下载
 

内容摘要


数据挖掘是从大量纷杂的数据中分析并提取有用的知识和信息。当今网络上最重要的资源信息库是Web页,因此研究Web数据挖掘有着重要意义。但随着互联网的高速发展,Web信息日增长呈指数量级发展,要从中分析出有用的信息,单一节点的计算和存储己存在着瓶颈,而最近提出的云计算则提供了一种全新的解决方案,即可以通过网络获取强大的计算能力和存储能力,并行高效的挖掘知识和信息。文章在概述了云计算、Web结构挖掘Hadoop等基本理论知识后,将Web结构挖掘算法和云计算(Hadoop开源云平台)进行了整合,并做了以下工作:1.对Web链接结构做了图论抽象,并详细说明了如何取得Web图结构数据,为挖掘算法提供了统一的数据表示方法。2.对类似数据库或文件系统的数据对象做了MapReduce抽象,以此说明MapReduce模型应用广泛,能满足实际的需要。3.对Hadoop分块(BlockSize)策略进行了研究,并建立了相应的数学模型,在实验结果阶段进行了试探性的研究。4.对传统PageRank并行算法进行了改进和移植,并提出了K-span算法。K步跨度算法(K-span)思想:尽量在PageRank并行迭代时减少Hadoop集群节点之间的通信次数,使得PageRank总的迭代时间减少,从而达到快速收敛的目的。具体来讲是Hadoop运行时,可预先将Dk和(AT)k的值依次算出,保存在Hadoop公用访问处,避免了节点之间频繁的通信访问。最后搭建Hadoop平台来估计传统PageRank并行算法和K-span并行算法的时间和空间开销,实验结果表明K-span算法的执行时效更好,同时也带来了额外的存储开销,但相对于云平台的高存储量来讲这点牺牲是值得的。

全文目录


摘要  3-4
Abstract  4-8
第1章 前言  8-12
  1.1 研究背景和意义  8-9
  1.2 研究现状  9-10
  1.3 研究内容  10-11
  1.4 论文结构  11-12
第2章 云计算和WEB挖掘技术概述  12-26
  2.1 云计算  12-18
    2.1.1 云计算的概念  12-14
    2.1.2 云计算的发展现状  14-15
    2.1.3 云计算的实现机制  15-17
    2.1.4 云计算的关键技术  17-18
  2.2 WEB挖掘的分类  18-19
    2.2.1 Web内容挖掘  18-19
    2.2.2 Web使用日志挖掘  19
    2.2.3 Web结构挖掘  19
  2.3 WEB图论介绍  19-21
    2.3.1 Web图抽象  19-21
    2.3.2 超链结构表示法  21
  2.4 PAGERANK算法介绍  21-25
    2.4.1 算法来源  21-22
    2.4.2 算法公式描述  22-24
    2.4.3 算法分析  24-25
  2.5 本章小结  25-26
第3章 开源云计算平台HADOOP研究  26-40
  3.1 概述  26-29
    3.1.1 Hadoop概述  26
    3.1.2 Hadoop HDFS介绍  26-28
    3.1.3 Hadoop MapReduce介绍  28-29
  3.2 HADOOP中的MAPREDUCE  29-35
    3.2.1 Hadoop-MapReduce工作流程  29-31
    3.2.2 Hadoop-MapReduce任务调度  31-34
    3.2.3 Hadoop-MapReduce调度策略  34
    3.2.4 Hadoop-MapReduce抽象结构  34-35
  3.3 HADOOP性能分析  35-36
  3.4 HADOOP分块策略模型  36-39
    3.4.1 文件分块策略分析  36
    3.4.2 模型规约  36-37
    3.4.3 模型建立与求解  37-39
  3.5 本章小结  39-40
第4章 云计算下的PAGERANK算法改进  40-47
  4.1 PAGERANK公式向量表示法  40-41
  4.2 K-SPAN算法思想  41-42
  4.3 K-SPAN实现过程  42-46
  4.4 K-SPAN算法分析  46
  4.5 本章小结  46-47
第5章 实验结果与分析  47-56
  5.1 WEB GRAPH数据集准备  47
  5.2 HADOOP平台搭建过程  47-50
  5.3 HADOOP主要参数配置  50-51
  5.4 利用MAPREDUCE插件开发算法  51-53
  5.5 两种算法结果与比较  53-55
  5.6 本章小结  55-56
第6章 总结与展望  56-57
参考文献  57-60
攻读硕士学位期间发表的论文  60-61
附录  61-64
致谢  64

相似论文

  1. 云计算平台下的动态信任模型的研究,TP309
  2. 基于Map/Reduce框架的分布式日志分析系统的研究及应用,TP311.52
  3. 基于Hadoop的在线购物原型系统的设计与实现,TP311.52
  4. 基于Google平台促销模块与商品模块的设计与实现,TP311.52
  5. 基于云计算的软件资源服务平台研究,TP311.52
  6. 基于人工免疫的病毒检测技术研究,TP393.08
  7. 基于Google云计算平台的Web应用系统设计及实现,TP393.09
  8. 高速网络环境下的入侵检测系统的研究,TP393.08
  9. 基于Hadoop的云存储系统客户端的设计与实现,TP333
  10. 云计算平台上的增量学习研究,TP311.13
  11. 基于云计算平台的电信业务支撑系统中资源提供策略的研究,TP3
  12. 基于Hadoop的视频转码系统设计与实现,TN919.81
  13. 面向逻辑虚拟域的多级访问控制系统,TP309
  14. 云环境下MapReduce容错技术的研究,TP302.8
  15. 主题搜索引擎关键技术研究,TP391.3
  16. 基于云存储的手机数据备份系统,TP309.3
  17. 基于云计算和免疫计算的嵌入式系统可重构网络研究,TP368.1
  18. 基于云计算的软件测试服务研究,TP311.53
  19. 云计算中依赖任务动态并行调度机制的研究,TP3
  20. 基于云计算的科学工作流数据存储策略研究,TP333
  21. 基于SLA的云服务自适应提供框架的研究与实现,TP311.52

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com