学位论文 > 优秀研究生学位论文题录展示

海量数据并行挖掘技术研究

作 者: 孙芬芬
导 师: 毕红军
学 校: 北京交通大学
专 业: 通信与信息系统
关键词: 海量数据 并行挖掘 关联规则 增量挖掘
分类号: TP311.13
类 型: 硕士论文
年 份: 2014年
下 载: 81次
引 用: 0次
阅 读: 论文下载
 

内容摘要


数据挖掘是应用一定的算法发现隐藏在数据中事先未知的、用户感兴趣的知识的过程。网络信息化时代,数据爆炸式增长,传统的串行算法在处理海量数据时,效率很低,如何提高海量数据挖掘的效率成为一个急需解决的问题,并行数据挖掘是解决这一问题的有效方法。增量挖掘利用已经挖掘出来知识对更新后的数据集进行挖掘,是提高挖掘效率另一个思路。MapReduce是Google提出的一种的简单编程模型,采用分布式并行方式处理海量数据。与其他并行编程模型相比,它在进行程序设计时无需考虑数据的划分、分配以及调度等问题,同时还能处理集群中节点失效。关联规则已经广泛的应用于电子商务、医疗诊断、气象预测、银行、电信等行业,一直都是数据挖掘研究的热点。本文以关联规则中发现频繁项集为出发点,在并行编程模型MapReduce的基础上对并行关联规则及其增量挖掘算法进行研究,旨在提高从海量数据中发现频繁项集的效率。本文首先对关联规则算法进行分析,针对Apriori算法的不足,结合向量的逻辑运算从扫描次数、候选项集生成、事务压缩三个方面对该算法进行改进,设计一种改进算法Apriori_M。其次对MapReduce并行编程模式进行深入分析,为提高Apriori_M算法处理海量数据能力,结合Partition的思想,提出该算法的并行化改进思路,并用MapReduce编程模式实现。然后对关联规则增量挖掘算法进行研究,在FUP算法的基础上,提出两种处理数据集动态增加的并行关联规则增量挖掘算法。整个算法分为产生候选项集与验证候选项集是否频繁两个部分,MFUP1算法串行产生候选项集,再并行地从候选项集中选出频繁的,适合新增数据集规模较小的情况,而MFUP2算法并行产生候选集,再并行验证是否频繁,适合新增数据集规模较大(与原数据集相比仍然较小)的情况。最后对提出的基于MapRedece的并行关联规则算法及并行增量挖掘算法的性能进行分析。为验证算法的性能,在开源的Hadoop云平台上进行仿真分析,实验结果表明并行Apriori_M算法、MFUP1和MFUP2算法能够高效的从海量数据中发现频繁项集,改进后的算法是可行的、有效的。

全文目录


致谢  6-7
中文摘要  7-8
ABSTRACT  8-13
1 引言  13-17
  1.1 研究背景及意义  13-14
  1.2 研究现状  14-15
  1.3 研究内容  15-16
  1.4 论文内容的组织  16-17
2 基础理论和技术  17-29
  2.1 数据挖掘技术概述  17-20
    2.1.1 数据挖掘的定义  17
    2.1.2 数据挖掘的功能  17-19
    2.1.3 数据挖掘的过程  19
    2.1.4 海量数据挖掘的关键技术  19-20
  2.2 关联规则算法  20-24
    2.2.1 关联规则算法问题描述  20-21
    2.2.2 Apriori算法  21-23
    2.2.3 关联规则算法改进  23-24
  2.3 MapReduce并行编程模型  24-28
    2.3.1 MapReduce编程模型  24
    2.3.2 MapReduce执行过程  24-25
    2.3.3 MapReduce的其他关键技术  25-26
    2.3.4 分布式文件系统HDFS  26-28
  2.4 本章小结  28-29
3 关联规则并行挖掘算法研究  29-39
  3.1 基于矩阵的关联规则算法Apriori_M  29-36
    3.1.1 Apriori_M算法的基本思想  29-30
    3.1.2 Apriori_M算法执行过程  30-32
    3.1.3 Apriori_M算法描述  32-33
    3.1.4 Apriori_M算法实例  33-35
    3.1.5 Apriori_M算法分析  35-36
  3.2 Apriori_M算法的并行设计  36-38
    3.2.1 并行Apriori_M算法的基本思想  36-37
    3.2.2 并行Apriori_M算法描述  37-38
    3.2.3 算法分析  38
  3.3 本章小结  38-39
4 关联规则并行增量挖掘算法研究  39-51
  4.1 增量挖掘算法的研究背景  39-40
  4.2 FUP算法  40-42
    4.2.1 FUP算法的基本思想  40-41
    4.2.2 FUP算法的执行过程  41-42
  4.3 并行增量挖掘算法MFUP1  42-47
    4.3.1 MFUP1算法的基本思想  42-44
    4.3.2 MFUP1算法描述  44-47
    4.3.3 MFUP1算法分析  47
  4.4 并行增量挖掘算法MFUP2  47-50
    4.4.1 MFUP2算法的基本思想  47-48
    4.4.2 MFUP2算法描述  48-49
    4.4.3 MFUP2算法分析  49-50
  4.5 本章小结  50-51
5 仿真环境搭建与测试分析  51-60
  5.1 Hadoop仿真平台搭建  51-53
    5.1.1 主机设置  51-52
    5.1.2 Hadoop环境配置  52-53
  5.2 并行Apriori_M算法性能测试  53-56
    5.2.1 单机环境实验  54-55
    5.2.2 集群环境实验  55-56
  5.3 并行增量挖掘算法性能测试  56-59
    5.3.1 单机环境实验  56-58
    5.3.2 集群环境实验  58-59
  5.4 本章小结  59-60
6 总结与展望  60-62
  6.1 总结  60
  6.2 展望  60-62
参考文献  62-65
作者简历  65-67
学位论文数据集  67

相似论文

  1. 海量数据压缩、操作和处理方法的研究,TP311.13
  2. 基于BAP的数据压缩、操作与查询处理系统的实现,TP311.13
  3. 关联规则挖掘在交通事故成因分析中的应用,U491.31
  4. 关联规则算法在高职院校贫困生认定工作中的应用,G717
  5. 地理空间数据组织及调度的研究与实现,P208
  6. 基于关联规则算法的高职院校教学评价系统的设计与实现,TP311.52
  7. 动态关联规则的研究,TP311.13
  8. 高速网络环境下的入侵检测系统的研究,TP393.08
  9. 基于日志分析的超级计算机错误预测方法研究,TP338
  10. 云环境下MapReduce容错技术的研究,TP302.8
  11. 数据挖掘在学生评价系统中的应用,TP311.13
  12. 非平衡数据集分类方法研究及其在电信行业中的应用,TP311.13
  13. 关联规则算法及其在智能药房系统中的应用研究,TP311.13
  14. 面向海量数据的云存储系统实现与应用研究,TP333
  15. 面向飞行活动模式的实时大规模地形数据调度服务算法研究,TP391.41
  16. 高性能计算体系结构下的海量数据处理分析与优化,TP338
  17. 液体火箭发动机启动阶段故障检测与诊断方法研究,V434
  18. 基于关联规则的地铁基坑工程施工风险监测研究,U231.3
  19. 再生障碍性贫血中医证候分型文献的数据挖掘研究,R259
  20. 三维体数据生成及三维缓冲区分析,TP391.41
  21. 基于Hadoop的并行关联规则算法研究,TP311.13

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com