学位论文 > 优秀研究生学位论文题录展示

海量数据并行挖掘技术研究

作　者: 孙芬芬
导　师: 毕红军
学　校: 北京交通大学
专　业: 通信与信息系统
关键词: 海量数据并行挖掘关联规则增量挖掘
分类号: TP311.13
类　型: 硕士论文
年　份: 2014年
下　载: 81次
引　用: 0次
阅　读: 论文下载

内容摘要

数据挖掘是应用一定的算法发现隐藏在数据中事先未知的、用户感兴趣的知识的过程。网络信息化时代,数据爆炸式增长,传统的串行算法在处理海量数据时,效率很低,如何提高海量数据挖掘的效率成为一个急需解决的问题,并行数据挖掘是解决这一问题的有效方法。增量挖掘利用已经挖掘出来知识对更新后的数据集进行挖掘,是提高挖掘效率另一个思路。MapReduce是Google提出的一种的简单编程模型,采用分布式并行方式处理海量数据。与其他并行编程模型相比,它在进行程序设计时无需考虑数据的划分、分配以及调度等问题,同时还能处理集群中节点失效。关联规则已经广泛的应用于电子商务、医疗诊断、气象预测、银行、电信等行业,一直都是数据挖掘研究的热点。本文以关联规则中发现频繁项集为出发点,在并行编程模型MapReduce的基础上对并行关联规则及其增量挖掘算法进行研究,旨在提高从海量数据中发现频繁项集的效率。本文首先对关联规则算法进行分析,针对Apriori算法的不足,结合向量的逻辑运算从扫描次数、候选项集生成、事务压缩三个方面对该算法进行改进,设计一种改进算法Apriori_M。其次对MapReduce并行编程模式进行深入分析,为提高Apriori_M算法处理海量数据能力,结合Partition的思想,提出该算法的并行化改进思路,并用MapReduce编程模式实现。然后对关联规则增量挖掘算法进行研究,在FUP算法的基础上,提出两种处理数据集动态增加的并行关联规则增量挖掘算法。整个算法分为产生候选项集与验证候选项集是否频繁两个部分,MFUP1算法串行产生候选项集,再并行地从候选项集中选出频繁的,适合新增数据集规模较小的情况,而MFUP2算法并行产生候选集,再并行验证是否频繁,适合新增数据集规模较大(与原数据集相比仍然较小)的情况。最后对提出的基于MapRedece的并行关联规则算法及并行增量挖掘算法的性能进行分析。为验证算法的性能,在开源的Hadoop云平台上进行仿真分析,实验结果表明并行Apriori_M算法、MFUP1和MFUP2算法能够高效的从海量数据中发现频繁项集,改进后的算法是可行的、有效的。

全文目录

致谢  6-7
中文摘要  7-8
ABSTRACT  8-13
1 引言  13-17
  1.1 研究背景及意义  13-14
  1.2 研究现状  14-15
  1.3 研究内容  15-16
  1.4 论文内容的组织  16-17
2 基础理论和技术  17-29
  2.1 数据挖掘技术概述  17-20
    2.1.1 数据挖掘的定义  17
    2.1.2 数据挖掘的功能  17-19
    2.1.3 数据挖掘的过程  19
    2.1.4 海量数据挖掘的关键技术  19-20
  2.2 关联规则算法  20-24
    2.2.1 关联规则算法问题描述  20-21
    2.2.2 Apriori算法  21-23
    2.2.3 关联规则算法改进  23-24
  2.3 MapReduce并行编程模型  24-28
    2.3.1 MapReduce编程模型  24
    2.3.2 MapReduce执行过程  24-25
    2.3.3 MapReduce的其他关键技术  25-26
    2.3.4 分布式文件系统HDFS  26-28
  2.4 本章小结  28-29
3 关联规则并行挖掘算法研究  29-39
  3.1 基于矩阵的关联规则算法Apriori_M  29-36
    3.1.1 Apriori_M算法的基本思想  29-30
    3.1.2 Apriori_M算法执行过程  30-32
    3.1.3 Apriori_M算法描述  32-33
    3.1.4 Apriori_M算法实例  33-35
    3.1.5 Apriori_M算法分析  35-36
  3.2 Apriori_M算法的并行设计  36-38
    3.2.1 并行Apriori_M算法的基本思想  36-37
    3.2.2 并行Apriori_M算法描述  37-38
    3.2.3 算法分析  38
  3.3 本章小结  38-39
4 关联规则并行增量挖掘算法研究  39-51
  4.1 增量挖掘算法的研究背景  39-40
  4.2 FUP算法  40-42
    4.2.1 FUP算法的基本思想  40-41
    4.2.2 FUP算法的执行过程  41-42
  4.3 并行增量挖掘算法MFUP1  42-47
    4.3.1 MFUP1算法的基本思想  42-44
    4.3.2 MFUP1算法描述  44-47
    4.3.3 MFUP1算法分析  47
  4.4 并行增量挖掘算法MFUP2  47-50
    4.4.1 MFUP2算法的基本思想  47-48
    4.4.2 MFUP2算法描述  48-49
    4.4.3 MFUP2算法分析  49-50
  4.5 本章小结  50-51
5 仿真环境搭建与测试分析  51-60
  5.1 Hadoop仿真平台搭建  51-53
    5.1.1 主机设置  51-52
    5.1.2 Hadoop环境配置  52-53
  5.2 并行Apriori_M算法性能测试  53-56
    5.2.1 单机环境实验  54-55
    5.2.2 集群环境实验  55-56
  5.3 并行增量挖掘算法性能测试  56-59
    5.3.1 单机环境实验  56-58
    5.3.2 集群环境实验  58-59
  5.4 本章小结  59-60
6 总结与展望  60-62
  6.1 总结  60
  6.2 展望  60-62
参考文献  62-65
作者简历  65-67
学位论文数据集  67

海量数据并行挖掘技术研究

内容摘要

全文目录

相似论文