学位论文 > 优秀研究生学位论文题录展示

一种改进的并行关联规则挖掘算法

作 者: 孙静姝
导 师: 张健沛
学 校: 哈尔滨工程大学
专 业: 计算机应用技术
关键词: 并行关联规则 频繁项集 P-tree 动态数据集划分
分类号: TP311.13
类 型: 硕士论文
年 份: 2007年
下 载: 176次
引 用: 2次
阅 读: 论文下载
 

内容摘要


关联规则是数据挖掘的主要技术之一,这缘于关联规则数据挖掘在商业等领域的成功应用,故而使它成为数据挖掘领域中最成熟、最重要、最活跃的研究内容。挖掘关联规则问题的核心是发现频繁项集。现今已有多种发现频繁项集的算法,如Apriori、Partition等算法。为了提高挖掘频繁项集的效率,引入了并行化技术。CD算法是对Apriori算法的简单并行化,其目的是减少通信量,获得较好的任务分布性。本文针对CD算法存在的I/O量较重、数据结构重复、不能有效利用整个内存等问题,提出一种改进的并行关联规则挖掘算法。该算法在遵循CD算法思想的基础上,采用动态数据集划分技术对数据库中的数据先进行划分,然后再由控制处理器分配至各个处理器,以此来减少I/O操作量;提出通过由一个控制处理器来控制其它处理器的方法,实现挖掘部分的并行化;在此基础上,提出在各个处理器上应用P-tree结构来存储数据,以达到优化各个处理器中所存储数据的结构、有效利用内存的目的,从而快速找出频繁项集,实现对事务数据库中数据的有效挖掘。最后对两种算法进行了实验验证,结果表明本文提出的改进算法能够更加有效地提高对频繁项集的挖掘效率,达到了预期的初步并行化效果。

全文目录


摘要  5-6
Abstract  6-9
第1章 绪论  9-14
  1.1 国内外研究现状  9-10
  1.2 论文的研究内容及意义  10-12
  1.3 本文工作及组织结构  12-14
第2章 关联规则挖掘概述  14-28
  2.1 关联规则问题描述  14-17
  2.2 关联规则挖掘相关算法及描述  17-25
    2.2.1 经典 Apriori算法  17-20
    2.2.2 FP-growth算法  20-23
    2.2.3 几种关联规则挖掘算法  23-25
  2.3 关联规则的价值衡量  25-27
  2.4 本章小结  27-28
第3章 并行关联规则挖掘的策略及算法  28-36
  3.1 问题描述  28-29
  3.2 并行关联规则算法及描述  29-35
    3.2.1 基于 Apriori的三种并行算法  29-30
    3.2.2 几种并行关联规则挖掘算法  30-33
    3.2.3 并行数据挖掘的研究与发展方向  33-35
  3.3 本章小结  35-36
第4章 一种改进的并行关联规则挖掘算法  36-55
  4.1 P-tree结构及相关算法  36-40
  4.2 CD算法及其改进思想  40-42
  4.3 CDPS算法  42-51
    4.3.1 CDPS算法描述  42-46
    4.3.2 CDPS算法执行实例  46-51
  4.4 实验及分析  51-54
  4.5 本章小结  54-55
结论  55-56
参考文献  56-61
攻读硕士学位期间发表的论文和取得的科研成果  61-62
致谢  62

相似论文

  1. SRAM软故障侦测与纠错方法研究及其电路实现,TP333.8
  2. 数据空间中数据资源之间关联关系发现模型研究,TP311.13
  3. 基于能量优化的ZigBee关键技术的研究,TP212.9
  4. 基于海量点云的三维模型快速重建技术研究,TP391.41
  5. 关联规则算法及其在智能药房系统中的应用研究,TP311.13
  6. K-匿名数据的查询方法研究,TP309
  7. 基于矩阵的加权关联规则挖掘算法研究,TP311.13
  8. 高效频繁项集发现方法与Apriori的改进,TP311.13
  9. 基于FP-tree的多层关联规则挖掘算法的研究,TP311.13
  10. 基于非参数回归的短时交通流预测系统设计,U491.112
  11. 基于闭频繁项集的Web日志挖掘,TP393.092
  12. 中文网页热门主题获取系统的研究与实现,TP393.092
  13. 基于冠心病数据库的关联规则数据挖掘系统的设计与实现,TP311.13
  14. 数据挖掘在煤矿安全监测中的应用,TP311.13
  15. 基于投影数组和加权FP-tree的频繁项集挖掘算法研究,TP311.13
  16. 基于树结构的精简序列模式挖掘算法研究,TP311.13
  17. 若干求解大规模问题的支持向量机算法,O212
  18. 基于倾斜时间窗口的频繁项集挖掘算法研究,TP311.13
  19. 基于iceberg概念格的最大频繁项集挖掘研究,TP311.13
  20. 时态索引技术及算法的研究,TP311.13
  21. 基于FP-Tree的关联规则挖掘算法研究,TP311.13

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com