学位论文 > 优秀研究生学位论文题录展示

基于FP-树的最大频繁模式挖掘算法研究

作 者: 冯志新
导 师: 钟诚
学 校: 广西大学
专 业: 控制理论与控制工程
关键词: 数据挖掘关联规则 最大频繁模式频繁模式树共享内存 并行挖掘
分类号: TP311.13
类 型: 硕士论文
年 份: 2003年
下 载: 252次
引 用: 3次
阅 读: 论文下载
 

内容摘要


从大型数据库中挖掘关联规则是数据挖掘领域中非常重要的研究课题。其中,最大频繁模式挖掘问题在关联规则挖掘任务中扮演着重要的角色,具有广泛的应用前景。 FP-树是算法FP-growth中提出的新的数据结构。借助于FP-树结构,算法FP-growth采用不同于Apriori系列算法的候选产生测试方法而采取模式增长方法挖掘频繁模式,取得了很好效果。 本文主要在以下几个方面对基于FP-树的最大频繁模式挖掘问题进行研究:第一是提出了基于FP-树的最大频繁模式挖掘算法FP-Max。在该算法中,我们首先介绍了FP-树的定义和构造过程,并分析了基于FP-树进行挖掘的可行性和完整性;然后我们提出基于FP-树的最大频繁模式挖掘算法FP-Max,试验表明算法FP-Max在挖掘密集型、频繁模式较长的大数据集时是有效的。第二是提出FP-树驻留磁盘的最大频繁模式挖掘算法FP-Max-Disk。算法FP-Max运行的前提是构造的FP-树能够驻留内存,但是当事务数据库TDB很大或者设置的最小支持度阀值min_sup很小时,那么构造驻留内存的FP-树将是不现实的。为此,我们首先将原事务数据库TDB划分为一系列投影数据库,然后将每个投影数据库构造为能够装入内存的条件FP-树,最后基于这些条件FP-树挖掘最大频繁模式。第三是研究探讨了基于FP一树的最大频繁模式并行挖掘问题。借助于多局部频繁模式树和并行投影技术,本文提出了两种基于共享内存计算模型的最大频繁模式并行挖掘算法。根据理论分析,这两种并行算法在采用了新的数据结构和简单的动态负载平衡技术后,可以实现各处理器独立异步运行、较小的1/O开销以及良好的负载平衡。

全文目录


中文摘要  3-7
第一章 绪论  7-16
  1.1 引言  7
  1.2 知识发现和数据挖掘  7-8
  1.3 数据挖掘的任务  8-10
  1.4 数据挖掘的对象  10
  1.5 数据挖掘方法和技术  10-13
  1.6 数据挖掘的应用及发展  13-15
    1.6.1 数据挖掘的应用领域  13-14
    1.6.2 数据挖掘系统及系统原型  14
    1.6.3 数据挖掘的发展趋势  14-15
  1.7 论文的研究内容及组织  15-16
    1.7.1 研究内容  15
    1.7.2 论文的组织  15-16
第二章 关联规则描述及相关算法  16-30
  2.1 关联规则的概念  16-17
    2.1.1 基本概念及问题描述  16-17
    2.1.2 关联规则的分类  17
  2.2 关联规则挖掘算法及分析  17-30
    2.2.1 层次迭代算法  18-23
    2.2.2 不产生候选项目集的算法  23-26
    2.2.3 最大频繁项目集挖掘算法  26-28
    2.2.4 其他类型的挖掘算法  28-30
第三章 最大频繁模式挖掘算法-FP-Max  30-51
  3.1 FP-树的设计与构造  30-35
    3.1.1 FP-树的定义  30-32
    3.1.2 FP-树的构造  32-33
    3.1.3 FP-树的完整性和紧密性  33-35
  3.2 基于FP-树挖掘最大频繁模式  35-44
    3.2.1 相关概念  35-36
    3.2.2 FP-树的相关性质及挖掘策略  36-40
    3.2.3 最大频繁模式挖掘算法  40-42
    3.2.4 基于FP-Max算法的优化技术  42-44
  3.3 基于FP-树驻留磁盘的最大频繁模式挖掘  44-49
  3.4 小结  49-51
第四章 基于FP-树挖掘算法的实验分析与评价  51-57
  4.1 硬件环境以及测试事务数据库  51-52
  4.2 算法时间复杂度的评测  52-55
    4.2.1 基于密集型数据集的比较  52-54
    4.2.2 基于合成数据集的比较  54-55
  4.3 算法的扩展性测试  55-56
  4.4 小结  56-57
第五章 并行最大频繁模式挖掘  57-68
  5.1 引言  57
  5.2 相关算法的研究进展  57-58
  5.3 基于MLFPT的最大频繁模式并行挖掘算法  58-65
    5.3.1 多局部频繁模式树MLFPT的构造  59-61
    5.3.2 基于MLFPT的最大频繁模式的并行挖掘  61-65
  5.4 基于并行投影的最大频繁模式并行挖掘算法  65-67
    5.4.1 并行构造投影数据库  65-66
    5.4.2 基于投影数据库并行挖掘最大频繁模式  66-67
  5.5 小结  67-68
第六章 总结及展望  68-70
  6.1 本文总结  68-69
  6.2 未来工作展望  69-70
参考文献  70-75
致谢  75-76
读研期间参加的科研项目和发表文章  76

相似论文

  1. 基于数据挖掘的税务稽查选案研究,F812.42
  2. 数据挖掘在学校管理和学生培养中的应用,TP311.13
  3. 数据挖掘技术在独立学院教学评估中的应用研究,TP311.13
  4. 数据挖掘在学生评价系统中的应用,TP311.13
  5. 面向隐私保护的关联规则挖掘研究,TP311.13
  6. 基于数据挖掘的入侵检测技术的研究,TP393.08
  7. 再生障碍性贫血中医证候分型文献的数据挖掘研究,R259
  8. 流数据挖掘在网络流量分析中的应用研究,TP393.06
  9. 关联规则挖掘的改进算法在入侵检测中的应用,TP311.13
  10. 基于用户行为挖掘的数据库入侵防护机制研究,TP311.13
  11. 基于分布式的频繁闭合模式挖掘算法研究,TP311.13
  12. 数据挖掘技术在高校招生和教务管理中的应用,TP311.13
  13. 关联规则在高校图书馆读者数据处理中的应用研究,TP311.13
  14. 数据挖掘在电信移动客户行为分析中的应用研究,TP311.13
  15. 基于数据挖掘的高校评教系统设计与实现,TP311.13
  16. 基于冠心病数据库的关联规则数据挖掘系统的设计与实现,TP311.13
  17. 数据挖掘在中职幼教课程改革中的应用,TP311.13
  18. 改进的Apriori算法在老人健康系统中的应用研究,TP311.13
  19. 数据挖掘在煤矿安全监测中的应用,TP311.13
  20. 数据仓库和数据挖掘在航空维修信息分析中应用研究,TP311.13
  21. 数据挖掘技术在网络故障诊断中的应用研究,TP311.13

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com