学位论文 > 优秀研究生学位论文题录展示

基于云计算的Web结构挖掘算法研究

作　者: 李远方
导　师: 邓世昆
学　校: 云南大学
专　业: 计算机应用技术
关键词: 云计算 Web结构挖掘 PageRank Hadoop K-span
分类号: TP311.13
类　型: 硕士论文
年　份: 2011年
下　载: 402次
引　用: 0次
阅　读: 论文下载

内容摘要

数据挖掘是从大量纷杂的数据中分析并提取有用的知识和信息。当今网络上最重要的资源信息库是Web页,因此研究Web数据挖掘有着重要意义。但随着互联网的高速发展,Web信息日增长呈指数量级发展,要从中分析出有用的信息,单一节点的计算和存储己存在着瓶颈,而最近提出的云计算则提供了一种全新的解决方案,即可以通过网络获取强大的计算能力和存储能力,并行高效的挖掘知识和信息。文章在概述了云计算、Web结构挖掘、Hadoop等基本理论知识后,将Web结构挖掘算法和云计算(Hadoop开源云平台)进行了整合,并做了以下工作：1.对Web链接结构做了图论抽象,并详细说明了如何取得Web图结构数据,为挖掘算法提供了统一的数据表示方法。2.对类似数据库或文件系统的数据对象做了MapReduce抽象,以此说明MapReduce模型应用广泛,能满足实际的需要。3.对Hadoop分块(BlockSize)策略进行了研究,并建立了相应的数学模型,在实验结果阶段进行了试探性的研究。4.对传统PageRank并行算法进行了改进和移植,并提出了K-span算法。K步跨度算法(K-span)思想：尽量在PageRank并行迭代时减少Hadoop集群节点之间的通信次数,使得PageRank总的迭代时间减少,从而达到快速收敛的目的。具体来讲是Hadoop运行时,可预先将Dk和(AT)k的值依次算出,保存在Hadoop公用访问处,避免了节点之间频繁的通信访问。最后搭建Hadoop平台来估计传统PageRank并行算法和K-span并行算法的时间和空间开销,实验结果表明K-span算法的执行时效更好,同时也带来了额外的存储开销,但相对于云平台的高存储量来讲这点牺牲是值得的。

全文目录

摘要  3-4
Abstract  4-8
第1章前言  8-12
  1.1 研究背景和意义  8-9
  1.2 研究现状  9-10
  1.3 研究内容  10-11
  1.4 论文结构  11-12
第2章云计算和WEB挖掘技术概述  12-26
  2.1 云计算  12-18
    2.1.1 云计算的概念  12-14
    2.1.2 云计算的发展现状  14-15
    2.1.3 云计算的实现机制  15-17
    2.1.4 云计算的关键技术  17-18
  2.2 WEB挖掘的分类  18-19
    2.2.1 Web内容挖掘  18-19
    2.2.2 Web使用日志挖掘  19
    2.2.3 Web结构挖掘  19
  2.3 WEB图论介绍  19-21
    2.3.1 Web图抽象  19-21
    2.3.2 超链结构表示法  21
  2.4 PAGERANK算法介绍  21-25
    2.4.1 算法来源  21-22
    2.4.2 算法公式描述  22-24
    2.4.3 算法分析  24-25
  2.5 本章小结  25-26
第3章开源云计算平台HADOOP研究  26-40
  3.1 概述  26-29
    3.1.1 Hadoop概述  26
    3.1.2 Hadoop HDFS介绍  26-28
    3.1.3 Hadoop MapReduce介绍  28-29
  3.2 HADOOP中的MAPREDUCE  29-35
    3.2.1 Hadoop-MapReduce工作流程  29-31
    3.2.2 Hadoop-MapReduce任务调度  31-34
    3.2.3 Hadoop-MapReduce调度策略  34
    3.2.4 Hadoop-MapReduce抽象结构  34-35
  3.3 HADOOP性能分析  35-36
  3.4 HADOOP分块策略模型  36-39
    3.4.1 文件分块策略分析  36
    3.4.2 模型规约  36-37
    3.4.3 模型建立与求解  37-39
  3.5 本章小结  39-40
第4章云计算下的PAGERANK算法改进  40-47
  4.1 PAGERANK公式向量表示法  40-41
  4.2 K-SPAN算法思想  41-42
  4.3 K-SPAN实现过程  42-46
  4.4 K-SPAN算法分析  46
  4.5 本章小结  46-47
第5章实验结果与分析  47-56
  5.1 WEB GRAPH数据集准备  47
  5.2 HADOOP平台搭建过程  47-50
  5.3 HADOOP主要参数配置  50-51
  5.4 利用MAPREDUCE插件开发算法  51-53
  5.5 两种算法结果与比较  53-55
  5.6 本章小结  55-56
第6章总结与展望  56-57
参考文献  57-60
攻读硕士学位期间发表的论文  60-61
附录  61-64
致谢  64

基于云计算的Web结构挖掘算法研究

内容摘要

全文目录

相似论文