学位论文 > 优秀研究生学位论文题录展示

基于位运算的关联规则挖掘算法问题研究

作 者: 张岳
导 师: 王洪国
学 校: 山东师范大学
专 业: 计算机软件与理论
关键词: 关联规则挖掘 位运算 差集 基群
分类号: TP311.13
类 型: 硕士论文
年 份: 2014年
下 载: 7次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着计算机技术的快速发展,各类应用系统中积累的数据不断增长。为了进一步利用数据,从大规模数据中发现某些有规律或有价值的信息,数据挖掘技术应运而生。关联规则挖掘是数据挖掘研究领域的重要问题之一,主要用于发现隐藏在数据之间的潜在联系。由于其应用的广泛性,一直是被广泛关注的研究问题。目前,针对关联规则挖掘算法,国内外学者已经取得了大量的研究成果。然而,传统的关联规则挖掘算法仍然存在一些不足:(1)处理数据速度不高,求解支持度过程较慢;(2)在频繁项集挖掘过程中,会产生较多的候选频繁项集,对于大型稠密数据集,将导致内存严重不足。针对以上问题,本文分别以稀疏数据集和稠密数据集作为研究对象,开展相关研究。本文的主要工作及贡献如下:(1)提出一种基于先验位运算的频繁项集挖掘算法。针对支持度求解过程较慢的问题,本文提出一种基于先验位运算的频繁项集挖掘算法。该算法首先将数据转换为垂直数据格式,并利用二进制方式存储到二维数组;其次,使用k-1频繁项集组合成为k-候选项集;接着,对候选项集进行“剪枝”操作;最后,利用深度优先搜索算法确定所有的频繁项集。实验结果表明,该方法可以有效地简化支持度计算,提高算法效率。(2)提出一种基于差集的频繁项集挖掘算法。针对传统频繁项集挖掘算法会产生较多候选中间项集的问题,本文提出了一种基于差集的频繁项集挖掘算法。该算法首先使用位运算方式计算出所有1-项集的支持度;然后,根据2-项集的diffset形式分成若干群,从而获得较高的内存利用率;最后,从不同的分群里面产生k-项集(k>2),该操作可以有效减少判断项集是否频繁的时间。实验结果表明,该算法有效地减少了频繁候选项集的产生数量,提高了内存的使用效率。本文提出的两个算法,分别从简化支持度计算以及提高内存利用率的角度,有效地改善了传统频繁项集挖掘算法的效率。

全文目录


目录  5-7
摘要  7-8
ABSTRACT  8-10
第一章 绪论  10-14
  1.1 研究背景及意义  10
  1.2 频繁项集挖掘面临的问题  10
  1.3 本文工作及创新点  10-11
  1.4 本文的组织框架  11-14
第二章 相关研究工作  14-24
  2.1 数据挖掘综述  14-16
    2.1.1 数据挖掘的概念  14
    2.1.2 数据挖掘的过程  14-15
    2.1.3 常用数据挖掘方法  15-16
  2.2 关联规则挖掘  16-23
    2.2.1 关联规则挖掘的基本概念  16
    2.2.2 关联规则挖掘应用  16-17
    2.2.3 频繁项集挖掘概述  17
    2.2.4 频繁项集挖掘的经典算法  17-23
  2.3 小结  23-24
第三章 基于先验位运算的频繁项集挖掘算法  24-34
  3.1 相关概念  24
  3.2 基于先验位运算的频繁项集挖掘(A-FIMBII)  24-27
    3.2.1 算法思想  24-25
    3.2.2 算法步骤  25-27
  3.3 算法分析  27-28
  3.4 实验  28-32
    3.4.1 实验环境  28
    3.4.2 实验数据集  28-29
    3.4.3 实验结果及分析  29-32
  3.5 小结  32-34
第四章 基于差集的频繁项集挖掘算法  34-42
  4.1 相关概念  34-35
  4.2 基于差集的频繁项集挖掘算法(D-FIMBII)  35-36
    4.2.1 算法思想  35
    4.2.2 算法步骤  35-36
  4.3 算法示例  36-38
  4.4 实验  38-41
    4.4.1 实验环境  38-39
    4.4.2 实验数据集  39
    4.4.3 实验结果及分析  39-41
  4.5 小结  41-42
第五章 总结与展望  42-44
  5.1 总结  42
  5.2 展望  42-44
参考文献  44-48
攻读硕士期间发表学术论文及参与项目情况  48-49
致谢  49

相似论文

  1. 100次混合正交表的最新结果,O212.6
  2. 选矿过程综合生产指标分解的补偿方法及应用,TP311.13
  3. 数据挖掘技术在证券市场分析中的应用研究,F830.91
  4. FlashCache位运算替换算法的设计与实现,TP333
  5. 差集偶的构造,O157.2
  6. 基于闭频繁项集的Web日志挖掘,TP393.092
  7. 关联规则挖掘在税务系统中的应用与研究,TP311.13
  8. 并行Apriori算法的性能优化技术研究,TP311.13
  9. 基于模式识别和数据挖掘的铝工业生产节能降耗研究,TP391.41
  10. 基于少数民族汉语教学的HSK成绩多元数据挖掘应用研究,TP311.13
  11. 数据挖掘中的关联规则挖掘算法研究,TP311.13
  12. 基于垂直数据布局的关联规则挖掘算法研究,TP311.13
  13. 关联规则挖掘算法在web日志挖掘中的应用研究,TP311.13
  14. 分布式环境下关联规则挖掘的隐私保护方法研究,TP311.13
  15. 不确定数据上的关联分类器,TP311.13
  16. 基于分圆方法的差集偶及跳频序列的构造研究,O157.2
  17. 不经意传输协议的研究与应用,TN918.1
  18. 基于循环差集的量子LDPC码的构造,O157.4
  19. 基于滑动窗口的数据流关联规则挖掘研究,TP311.13
  20. 差集偶与几乎差集偶,O157.2
  21. 固定资产管理及状态分析的研究与实现,TP311.52

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com