学位论文 > 优秀研究生学位论文题录展示
基于位运算的关联规则挖掘算法问题研究
作 者: 张岳
导 师: 王洪国
学 校: 山东师范大学
专 业: 计算机软件与理论
关键词: 关联规则挖掘 位运算 差集 基群
分类号: TP311.13
类 型: 硕士论文
年 份: 2014年
下 载: 7次
引 用: 0次
阅 读: 论文下载
内容摘要
随着计算机技术的快速发展,各类应用系统中积累的数据不断增长。为了进一步利用数据,从大规模数据中发现某些有规律或有价值的信息,数据挖掘技术应运而生。关联规则挖掘是数据挖掘研究领域的重要问题之一,主要用于发现隐藏在数据之间的潜在联系。由于其应用的广泛性,一直是被广泛关注的研究问题。目前,针对关联规则挖掘算法,国内外学者已经取得了大量的研究成果。然而,传统的关联规则挖掘算法仍然存在一些不足:(1)处理数据速度不高,求解支持度过程较慢;(2)在频繁项集挖掘过程中,会产生较多的候选频繁项集,对于大型稠密数据集,将导致内存严重不足。针对以上问题,本文分别以稀疏数据集和稠密数据集作为研究对象,开展相关研究。本文的主要工作及贡献如下:(1)提出一种基于先验位运算的频繁项集挖掘算法。针对支持度求解过程较慢的问题,本文提出一种基于先验位运算的频繁项集挖掘算法。该算法首先将数据转换为垂直数据格式,并利用二进制方式存储到二维数组;其次,使用k-1频繁项集组合成为k-候选项集;接着,对候选项集进行“剪枝”操作;最后,利用深度优先搜索算法确定所有的频繁项集。实验结果表明,该方法可以有效地简化支持度计算,提高算法效率。(2)提出一种基于差集的频繁项集挖掘算法。针对传统频繁项集挖掘算法会产生较多候选中间项集的问题,本文提出了一种基于差集的频繁项集挖掘算法。该算法首先使用位运算方式计算出所有1-项集的支持度;然后,根据2-项集的diffset形式分成若干群,从而获得较高的内存利用率;最后,从不同的分群里面产生k-项集(k>2),该操作可以有效减少判断项集是否频繁的时间。实验结果表明,该算法有效地减少了频繁候选项集的产生数量,提高了内存的使用效率。本文提出的两个算法,分别从简化支持度计算以及提高内存利用率的角度,有效地改善了传统频繁项集挖掘算法的效率。
|
全文目录
目录 5-7 摘要 7-8 ABSTRACT 8-10 第一章 绪论 10-14 1.1 研究背景及意义 10 1.2 频繁项集挖掘面临的问题 10 1.3 本文工作及创新点 10-11 1.4 本文的组织框架 11-14 第二章 相关研究工作 14-24 2.1 数据挖掘综述 14-16 2.1.1 数据挖掘的概念 14 2.1.2 数据挖掘的过程 14-15 2.1.3 常用数据挖掘方法 15-16 2.2 关联规则挖掘 16-23 2.2.1 关联规则挖掘的基本概念 16 2.2.2 关联规则挖掘应用 16-17 2.2.3 频繁项集挖掘概述 17 2.2.4 频繁项集挖掘的经典算法 17-23 2.3 小结 23-24 第三章 基于先验位运算的频繁项集挖掘算法 24-34 3.1 相关概念 24 3.2 基于先验位运算的频繁项集挖掘(A-FIMBII) 24-27 3.2.1 算法思想 24-25 3.2.2 算法步骤 25-27 3.3 算法分析 27-28 3.4 实验 28-32 3.4.1 实验环境 28 3.4.2 实验数据集 28-29 3.4.3 实验结果及分析 29-32 3.5 小结 32-34 第四章 基于差集的频繁项集挖掘算法 34-42 4.1 相关概念 34-35 4.2 基于差集的频繁项集挖掘算法(D-FIMBII) 35-36 4.2.1 算法思想 35 4.2.2 算法步骤 35-36 4.3 算法示例 36-38 4.4 实验 38-41 4.4.1 实验环境 38-39 4.4.2 实验数据集 39 4.4.3 实验结果及分析 39-41 4.5 小结 41-42 第五章 总结与展望 42-44 5.1 总结 42 5.2 展望 42-44 参考文献 44-48 攻读硕士期间发表学术论文及参与项目情况 48-49 致谢 49
|
相似论文
- 100次混合正交表的最新结果,O212.6
- 选矿过程综合生产指标分解的补偿方法及应用,TP311.13
- 数据挖掘技术在证券市场分析中的应用研究,F830.91
- FlashCache位运算替换算法的设计与实现,TP333
- 差集偶的构造,O157.2
- 基于闭频繁项集的Web日志挖掘,TP393.092
- 关联规则挖掘在税务系统中的应用与研究,TP311.13
- 并行Apriori算法的性能优化技术研究,TP311.13
- 基于模式识别和数据挖掘的铝工业生产节能降耗研究,TP391.41
- 基于少数民族汉语教学的HSK成绩多元数据挖掘应用研究,TP311.13
- 数据挖掘中的关联规则挖掘算法研究,TP311.13
- 基于垂直数据布局的关联规则挖掘算法研究,TP311.13
- 关联规则挖掘算法在web日志挖掘中的应用研究,TP311.13
- 分布式环境下关联规则挖掘的隐私保护方法研究,TP311.13
- 不确定数据上的关联分类器,TP311.13
- 基于分圆方法的差集偶及跳频序列的构造研究,O157.2
- 不经意传输协议的研究与应用,TN918.1
- 基于循环差集的量子LDPC码的构造,O157.4
- 基于滑动窗口的数据流关联规则挖掘研究,TP311.13
- 差集偶与几乎差集偶,O157.2
- 固定资产管理及状态分析的研究与实现,TP311.52
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com
|