学位论文 > 优秀研究生学位论文题录展示
面向数据流的频繁项集挖掘算法研究
作 者: 胡志冬
导 师: 任永功
学 校: 辽宁师范大学
专 业: 课程与教学论
关键词: 频繁项集 闭项集 矩阵 数据流 加权滑动窗口
分类号: TP311.13
类 型: 硕士论文
年 份: 2013年
下 载: 19次
引 用: 0次
阅 读: 论文下载
内容摘要
在计算机技术、信息存储技术及互联网高速发展的今天,越来越多的企业提高信息化程度。在企业的实际应用中,数据挖掘正在被频繁的提起,作为一个多学科交叉应用领域的数据挖掘技术正在各行各业的决策活动中扮演越来越重要的角色。数据挖掘(Data Mining,简称DM)又称数据库中知识发现(Knowledge Discoveryfrom Database,简称KDD),是在海量数据中抽取出未知且有价值的模式的一个非平凡过程,它的最终结果便于理解,是目前数据库研究领域的热点问题之一。本文主要介绍了基于数据流的频繁项集挖掘的基本概念和相关知识,介绍了经典频繁项集挖掘算法并对其优、缺点进行分析,主要研究工作分以下两方面:第一、本文提出了一种基于WCF-tree加权滑动窗口数据流元项集挖掘算法(TWEM算法)。首先,考虑到数据在不同时间窗口内的重要性,允许用户定义窗口个数和各窗口权值;其次,利用WCF-tree挖掘闭项集;最后,结合各等价类内项集与相应元项集支持度不完全相同,保持一种可估算的关系特性,挖掘元项集。实验结果表明,TWEM算法缩小了搜索空间,提高了程序的运行效率。第二、本文提出基于矩阵的数据流频繁模式预测算法(MFP算法)。MFP算法可预测在下一时间窗口中可能性较大的频繁项集,以满足用户需要。该算法首先将数据转换为0-1矩阵;然后通过矩阵剪裁和位运算更新矩阵,并从中挖掘频繁项集;最后,利用当前窗口数据预测下一时间窗口中可能出现的频繁项集。实验结果表明,MFP算法在不同实验环境下能有效预测频繁项集,该算法是可行的。信息量的不断增长和人们对数据挖掘技术应用的不断增加为频繁项集挖掘技术的发展提出了新的挑战,在未来的工作中要根据数据流本身的特点在存储空间和执行时间上提高算法的运行效率。
|
全文目录
摘要 4-5 Abstract 5-9 1 绪论 9-14 1.1 数据挖掘技术的研究背景与意义 9-10 1.2 数据挖掘概念与应用 10-11 1.3 数据挖掘的国内外研究现状 11-12 1.4 数据挖掘的发展趋势 12-13 1.5 本文主要工作与组织结构 13-14 2 数据流频繁项集挖掘技术 14-27 2.1 数据流与频繁项集基本概念 14-15 2.1.1 数据流基本概念 14-15 2.1.2 频繁项集基本概念 15 2.2 数据流窗口分类 15-16 2.2.1 界标窗口模型 16 2.2.2 时间衰退窗口模型 16 2.2.3 滑动窗口模型 16 2.3 挖掘频繁项集的经典算法 16-22 2.3.1 Apriori 算法 16-19 2.3.2 FP-tree 算法 19-22 2.4 频繁闭项集挖掘 22-27 3 基于 WCF-tree 加权滑动窗口的数据流元项集挖掘算法 27-35 3.1 问题描述 27-28 3.1.1 bit-sequence 介绍 27 3.1.2 基于加权滑动窗口频繁模式挖掘 27-28 3.2 算法的实现 28-35 3.2.1 算法实现步骤 28 3.2.2 建立加权频繁模式树 28-30 3.2.3 挖掘元项集 30-31 3.2.4 加权频繁模式树剪枝 31-32 3.2.5 实验结果与分析 32-35 4 基于矩阵的数据流频繁模式预测算法 35-42 4.1 问题描述 35 4.2 算法实现 35-42 4.2.1 算法实现步骤 35 4.2.2 矩阵生成和更新 35-38 4.2.3 频繁项集预测 38-39 4.2.4 实验结果与分析 39-42 结论 42-43 参考文献 43-46 发表学术论文情况 46-47 致谢 47
|
相似论文
- 无尾飞翼式飞行器主动控制的参数化方法,V249.1
- LDPC码译码算法的研究,TN911.22
- 离散切换系统稳定性分析及控制器设计,TP13
- 网络化系统的鲁棒模型预测控制,TP273
- 车载FlexRay主干网的构建与性能分析,TP273
- 随机时滞系统的稳定性分析与鲁棒控制器设计,TP13
- 七维稳定耗散系统的代数条件及动力学性质,O175
- 蒸汽管路系统结构振动研究,TK284.1
- 广义系统的结构分析及控制方法研究,N945.1
- 含左手材料平板波导的电磁特性,O441.6
- 蚁群算法及其在气象卫星云图分割中的应用,TP391.41
- 系统控制理论及其在水下机器人系统中的应用研究,TP13
- 离散copula和quasi-copula的研究,O211.6
- 稀疏数据矩阵条件下应用公式法估计方差分量的影响因素研究,O212.1
- 三丁基锡对海洋腹足类种群的生态风险评价,X174
- ASAR与MODIS协同的海洋溢油信息提取,X87
- 关于特征多项式的两个参数及其应用,O157.5
- 基于矩阵的工序尺寸及公差的研究和优化,TG801
- 汽车售后配件管理系统的设计与运行研究,F426.471
- 中国中小财产保险公司盈利能力提升策略研究,F842.3
- 基于TMM方法的环形光栅谐振器特性的分析,TN256
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com
|