学位论文 > 优秀研究生学位论文题录展示
海量数据并行挖掘技术研究
作 者: 孙芬芬
导 师: 毕红军
学 校: 北京交通大学
专 业: 通信与信息系统
关键词: 海量数据 并行挖掘 关联规则 增量挖掘
分类号: TP311.13
类 型: 硕士论文
年 份: 2014年
下 载: 81次
引 用: 0次
阅 读: 论文下载
内容摘要
数据挖掘是应用一定的算法发现隐藏在数据中事先未知的、用户感兴趣的知识的过程。网络信息化时代,数据爆炸式增长,传统的串行算法在处理海量数据时,效率很低,如何提高海量数据挖掘的效率成为一个急需解决的问题,并行数据挖掘是解决这一问题的有效方法。增量挖掘利用已经挖掘出来知识对更新后的数据集进行挖掘,是提高挖掘效率另一个思路。MapReduce是Google提出的一种的简单编程模型,采用分布式并行方式处理海量数据。与其他并行编程模型相比,它在进行程序设计时无需考虑数据的划分、分配以及调度等问题,同时还能处理集群中节点失效。关联规则已经广泛的应用于电子商务、医疗诊断、气象预测、银行、电信等行业,一直都是数据挖掘研究的热点。本文以关联规则中发现频繁项集为出发点,在并行编程模型MapReduce的基础上对并行关联规则及其增量挖掘算法进行研究,旨在提高从海量数据中发现频繁项集的效率。本文首先对关联规则算法进行分析,针对Apriori算法的不足,结合向量的逻辑运算从扫描次数、候选项集生成、事务压缩三个方面对该算法进行改进,设计一种改进算法Apriori_M。其次对MapReduce并行编程模式进行深入分析,为提高Apriori_M算法处理海量数据能力,结合Partition的思想,提出该算法的并行化改进思路,并用MapReduce编程模式实现。然后对关联规则增量挖掘算法进行研究,在FUP算法的基础上,提出两种处理数据集动态增加的并行关联规则增量挖掘算法。整个算法分为产生候选项集与验证候选项集是否频繁两个部分,MFUP1算法串行产生候选项集,再并行地从候选项集中选出频繁的,适合新增数据集规模较小的情况,而MFUP2算法并行产生候选集,再并行验证是否频繁,适合新增数据集规模较大(与原数据集相比仍然较小)的情况。最后对提出的基于MapRedece的并行关联规则算法及并行增量挖掘算法的性能进行分析。为验证算法的性能,在开源的Hadoop云平台上进行仿真分析,实验结果表明并行Apriori_M算法、MFUP1和MFUP2算法能够高效的从海量数据中发现频繁项集,改进后的算法是可行的、有效的。
|
全文目录
致谢 6-7 中文摘要 7-8 ABSTRACT 8-13 1 引言 13-17 1.1 研究背景及意义 13-14 1.2 研究现状 14-15 1.3 研究内容 15-16 1.4 论文内容的组织 16-17 2 基础理论和技术 17-29 2.1 数据挖掘技术概述 17-20 2.1.1 数据挖掘的定义 17 2.1.2 数据挖掘的功能 17-19 2.1.3 数据挖掘的过程 19 2.1.4 海量数据挖掘的关键技术 19-20 2.2 关联规则算法 20-24 2.2.1 关联规则算法问题描述 20-21 2.2.2 Apriori算法 21-23 2.2.3 关联规则算法改进 23-24 2.3 MapReduce并行编程模型 24-28 2.3.1 MapReduce编程模型 24 2.3.2 MapReduce执行过程 24-25 2.3.3 MapReduce的其他关键技术 25-26 2.3.4 分布式文件系统HDFS 26-28 2.4 本章小结 28-29 3 关联规则并行挖掘算法研究 29-39 3.1 基于矩阵的关联规则算法Apriori_M 29-36 3.1.1 Apriori_M算法的基本思想 29-30 3.1.2 Apriori_M算法执行过程 30-32 3.1.3 Apriori_M算法描述 32-33 3.1.4 Apriori_M算法实例 33-35 3.1.5 Apriori_M算法分析 35-36 3.2 Apriori_M算法的并行设计 36-38 3.2.1 并行Apriori_M算法的基本思想 36-37 3.2.2 并行Apriori_M算法描述 37-38 3.2.3 算法分析 38 3.3 本章小结 38-39 4 关联规则并行增量挖掘算法研究 39-51 4.1 增量挖掘算法的研究背景 39-40 4.2 FUP算法 40-42 4.2.1 FUP算法的基本思想 40-41 4.2.2 FUP算法的执行过程 41-42 4.3 并行增量挖掘算法MFUP1 42-47 4.3.1 MFUP1算法的基本思想 42-44 4.3.2 MFUP1算法描述 44-47 4.3.3 MFUP1算法分析 47 4.4 并行增量挖掘算法MFUP2 47-50 4.4.1 MFUP2算法的基本思想 47-48 4.4.2 MFUP2算法描述 48-49 4.4.3 MFUP2算法分析 49-50 4.5 本章小结 50-51 5 仿真环境搭建与测试分析 51-60 5.1 Hadoop仿真平台搭建 51-53 5.1.1 主机设置 51-52 5.1.2 Hadoop环境配置 52-53 5.2 并行Apriori_M算法性能测试 53-56 5.2.1 单机环境实验 54-55 5.2.2 集群环境实验 55-56 5.3 并行增量挖掘算法性能测试 56-59 5.3.1 单机环境实验 56-58 5.3.2 集群环境实验 58-59 5.4 本章小结 59-60 6 总结与展望 60-62 6.1 总结 60 6.2 展望 60-62 参考文献 62-65 作者简历 65-67 学位论文数据集 67
|
相似论文
- 海量数据压缩、操作和处理方法的研究,TP311.13
- 基于BAP的数据压缩、操作与查询处理系统的实现,TP311.13
- 关联规则挖掘在交通事故成因分析中的应用,U491.31
- 关联规则算法在高职院校贫困生认定工作中的应用,G717
- 地理空间数据组织及调度的研究与实现,P208
- 基于关联规则算法的高职院校教学评价系统的设计与实现,TP311.52
- 动态关联规则的研究,TP311.13
- 高速网络环境下的入侵检测系统的研究,TP393.08
- 基于日志分析的超级计算机错误预测方法研究,TP338
- 云环境下MapReduce容错技术的研究,TP302.8
- 数据挖掘在学生评价系统中的应用,TP311.13
- 非平衡数据集分类方法研究及其在电信行业中的应用,TP311.13
- 关联规则算法及其在智能药房系统中的应用研究,TP311.13
- 面向海量数据的云存储系统实现与应用研究,TP333
- 面向飞行活动模式的实时大规模地形数据调度服务算法研究,TP391.41
- 高性能计算体系结构下的海量数据处理分析与优化,TP338
- 液体火箭发动机启动阶段故障检测与诊断方法研究,V434
- 基于关联规则的地铁基坑工程施工风险监测研究,U231.3
- 再生障碍性贫血中医证候分型文献的数据挖掘研究,R259
- 三维体数据生成及三维缓冲区分析,TP391.41
- 基于Hadoop的并行关联规则算法研究,TP311.13
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com
|