学位论文 > 优秀研究生学位论文题录展示

基于MapReduce的分布式关联规则挖掘算法研究

作 者: 范燕燕
导 师: 董红斌
学 校: 哈尔滨工程大学
专 业: 计算机技术
关键词: 分布式 MapReduce 关联规则 剪枝 频繁矩阵
分类号: TP311.13
类 型: 硕士论文
年 份: 2013年
下 载: 102次
引 用: 0次
阅 读: 论文下载
 

内容摘要


在数据挖掘的研究范畴中,关联规则挖掘算法是至关重要的一个分支。关联规则算法因其目的明确、实现灵活、求解方便有效、应用范围广泛等特点成为挖掘数据深层价值的重要手段。它的应用在互联网飞速发展的今天拥有更加突出研究意义。信息化迅速加快的今天,数据呈现出爆炸式的增长,此刻,分布式关联规则算法有了更广阔的发展空间。本文先分析了传统的关联规则算法,随后着重研究了分布式条件下的关联规则算法。论文采用目前较为成熟的Hadoop分布式平台,对分布式关联规则算法的改进提出了全新的思路。针对目前基于MapReduce分布式关联规则算法的不足首先引入了全局剪枝策略,提高了算法效率。然后运用频繁矩阵存储的方式减少了内存的消耗。首先,在全面了解关联规则算法背景和研究现状之后,针对现有算法无法处理大规模数据以及分布式数据的缺点,应用Hadoop平台实现对规则和知识的发现的过程。应用MapReduce计算模型可以有效地解决数据分块处理运用多台计算机协同处理海量数据的问题。使得以前难以解决的问题变得简单。其次,针对现有的MapReduce关联规则算法,提出了大规模数据分布式处理的MPAOR(MapAprioriOneReduceAlgorithm)算法,本算法在实现了已有的MPAriori(MapReduce Apriori Algorithm)算法的基础上加入了全局剪枝的技术,使得计算频繁项集的计数量再一次减少,同时论文把频繁矩阵的存储方式加入到分布式关联规则算法中,提出了MapReduce计算模型的频繁矩阵存储的MFMDAP(Map Frequent matrixDistributed Apriori Algorithm)算法。实验表明论文提出的算法提高了算法的效率,并且节省了内存的使用量,这有利于大粒度数据的计算和存储。在实验中验证了算法的有效性。最后,对全局剪枝的分布式频繁项集算法(MPAOR)和基于频繁矩阵的算法(MFMDAP)的优点和不足进行说明,总结了论文研究的成果和以后的研究方向。

全文目录


摘要  5-6
Abstract  6-8
目录  8-10
第1章 绪论  10-18
  1.1 研究背景及意义  10-11
  1.2 国内外研究现状  11-16
    1.2.1 数据挖掘研究现状  11-13
    1.2.2 关联规则研究现状  13-16
  1.3 论文的主要研究工作  16
  1.4 论文的组织结构  16-18
第2章 相关技术研究  18-30
  2.1 频繁项集的定义与应用  18-19
  2.2 关联规则的发现  19-20
  2.3 二元组计数及项集计数的内存使用情况  20-21
  2.4 串行生成频繁项集过程  21-25
    2.4.1 Apriori 算法  21-23
    2.4.2 PCY 算法  23-24
    2.4.3 FP-growth 算法  24-25
  2.5 分布式产生频繁项集过程  25-27
    2.5.1 快速的分布式规则生成算法 FDM  25-26
    2.5.2 带有局部和上界剪枝的 FDM 算法  26
    2.5.3 有中心节点的 C-DMA 算法  26-27
  2.6 本章小结  27-30
第3章 基于 MAPREDUCE 的关联规则算法  30-50
  3.1 分布式系统的存储和运算  30-35
    3.1.1 分布式计算平台 hadoop  31-32
    3.1.2 HDFS 结构  32-34
    3.1.3 MapReduce 计算原理  34-35
  3.2 全局剪枝的 MAPREDUCE 关联规则算法(MPAOR)  35-41
    3.2.1 算法(MPAOR)思想和策略  36-37
    3.2.2 MPAOR 算法流程和步骤  37-39
    3.2.3 算法(MPAOR)形式化描述  39-41
  3.3 频繁矩阵的 MAPREDUCE 关联规则算法(MFMDAP)  41-46
    3.3.1 MFMDAP 算法基本思想和策略  41-42
    3.3.2 算法 MFMDAP 流程和步骤  42-43
    3.3.3 MFMDAP 算法矩阵存储和计算过程  43-45
    3.3.4 MFMDAP 算法形式化描述  45-46
  3.4 改进算法的性能分析  46-47
  3.5 本章总结  47-50
第4章 实验环境介绍以及实验结果分析  50-60
  4.1 实验环境设计  50
  4.2 集群实验环境的搭建  50-52
  4.3 仿真实验中 MAPREDUCE 的数据流程  52-53
  4.4 数据集来源说明  53
  4.5 实验结果和算法比较  53-58
    4.5.1 算法有效性验证  53-54
    4.5.2 算法支持度值设定实验  54-55
    4.5.3 算法数据分块设定实验  55-56
    4.5.4 不同支持度下的算法运行效率实验  56-57
    4.5.5 不同数据量的算法时间复杂度实验  57-58
  4.6 本章小结  58-60
结论  60-62
参考文献  62-66
攻读硕士学位期间发表的论文和取得的科研成果  66-68
致谢  68

相似论文

  1. Ad-Hoc网络多信道MAC层协议的信道分配问题的研究,TN929.5
  2. 分布式系统的故障注入方法研究,TP338.8
  3. 并行分布式网络模拟器PDNS容错技术的研究,TP302.8
  4. 基于数据挖掘的税务稽查选案研究,F812.42
  5. 基于数据挖掘的个性化在线教学辅助系统的研究与设计,TP311.13
  6. 基于分布式环境压力测试问题的研究,TP311.52
  7. 分布式事务处理协议的研究与应用,TP311.13
  8. 关联规则挖掘在交通事故成因分析中的应用,U491.31
  9. 关联规则算法在高职院校贫困生认定工作中的应用,G717
  10. 数据挖掘在学校管理和学生培养中的应用,TP311.13
  11. 无线局域网MAC层工作休假策略的研究,TN925.93
  12. 基于Map/Reduce框架的分布式日志分析系统的研究及应用,TP311.52
  13. 关联规则挖掘算法及其在职校教学评价系统中的应用研究,TP311.13
  14. FP-Tree算法在自适应学习系统学习者特征模型建立中的应用研究,TP311.13
  15. 数据挖掘在电大开放教育学习指导体系中的应用研究,TP311.13
  16. 单点交叉口相位优化及信号控制方法研究,U491.54
  17. 基于数据挖掘技术的高校毕业生就业管理信息系统的设计与实现,TP311.52
  18. 面向专科院校的图书管理与智能分析系统,TP311.13
  19. 选矿过程综合生产指标分解的补偿方法及应用,TP311.13
  20. 基于关联规则的结构化浏览技术及其应用,TP391.41
  21. 一种基于关联规则的隐私保护算法研究,TP309

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com