学位论文 > 优秀研究生学位论文题录展示
基于滑动窗口的数据流关联规则挖掘研究
作 者: 严澄
导 师: 董金祥;寿黎但
学 校: 浙江大学
专 业: 计算机应用技术
关键词: 数据流 关联规则挖掘 滑动窗口 数据流管理系统
分类号: TP311.13
类 型: 硕士论文
年 份: 2010年
下 载: 97次
引 用: 1次
阅 读: 论文下载
内容摘要
数据流作为信息化时代的产物,广泛应用于社会生活的各个领域。数据流中蕴含着丰富的知识,特别是海量数据下存在的关联关系,在预测和在线分析系统中都是重要的决策依据。现有对关联规则挖掘的研究,大多集中于事务模型,鲜有在独立数据项粒度上的研究。而在特定应用环境中,独立数据之间总是存在定的相生关系。由于数据流的实时性特点,用户又往往对最新产生的数据所包含的信息更感兴趣。为了实时而全面地获取最近一段时间内数据项之间的关联规则,本文提出了滑动窗口模型下,基于划分思想的MARSW(Mining Association Rules on Sliding Window)算法。MARSW算法将滑动窗口分割为一系列子窗口,通过对子窗口的操作维护整个窗口的概要数据结构。大量的仿真实验表明,MARSW算法在给定的误差范围内,能以有限的空间代价实时挖掘滑动窗口下数据项之间存在的所有关联规则,并具有较高的效率和优良的可扩展性。考虑到实际应用环境下数据的多变性和流量的不可控性,关联规则算法需要借助数据流管理系统提供预处理。由于数据流管理系统尚未形成一致认可的标准,本文提出了基于多种数据流管理系统的Federator结构。通过创建内置运算子或接管系统的输入输出,在统一接口模型下,关联规则挖掘算法可以快速、高效地融合于数据流管理系统中。关键词:数据流,关联规则挖掘,滑动窗口,数据流管理系统。
|
全文目录
摘要 3-4 Abstract 4-9 第1章 绪论 9-16 1.1 课题背景 9 1.2 数据流概述 9-13 1.2.1 数据流模型 9-10 1.2.2 数据流处理模型 10-11 1.2.3 数据流管理系统 11-12 1.2.4 数据流挖掘 12-13 1.3 数据流关联规则挖掘 13-14 1.4 本文主要研究内容 14-15 1.5 本文结构 15-16 第2章 数据流挖掘相关研究 16-27 2.1 数据流挖掘的基本思想及主要方法 16-20 2.1.1 抽样方法 16-17 2.1.2 直方图方法 17-18 2.1.3 小波方法 18-19 2.1.4 哈希方法 19-20 2.2 频繁项挖掘 20-23 2.2.1 Lossy Counting算法 21 2.2.2 Space-Saving算法 21-23 2.2.3 HCount算法 23 2.3 关联规则挖掘 23-26 2.3.1 Apriori算法 24-25 2.3.2 Stream_Rule算法 25-26 2.4 本章小结 26-27 第3章 滑动窗口模型下的关联规则挖掘 27-45 3.1 应用背景 27-28 3.2 问题定义 28-29 3.3 关联规则挖掘算法 29-37 3.3.1 Native算法 30-34 3.3.2 MARSW算法 34-37 3.4 误差分析 37-38 3.5 实验 38-43 3.5.1 概要数据结构性能 39-40 3.5.2 小规模滑动窗口下算法性能 40-42 3.5.3 大规模滑动窗口下算法性能 42-43 3.6 本章小结 43-45 第4章 数据流管理系统中的关联规则挖掘 45-51 4.1 应用背景 45-46 4.2 关联规则挖掘算法移植 46-47 4.3 数据流管理系统Federator 47-48 4.4 数据流管理系统中关联规则挖掘实现 48-50 4.5 本章小结 50-51 第5章 总结与展望 51-53 5.1 工作总结 51-52 5.2 未来展望 52-53 参考文献 53-57 攻读硕士学位期间主要的研究成果 57-58 致谢 58
|
相似论文
- 一种多数据流聚类异常检测算法,TP311.13
- 基于数据流异常检测的嵌入式软件容错研究,TP368.1
- 基于P4P的流媒体点播系统研究与实现,TN948.64
- 基于RFID数据流的基本事件实惠查询处理与优化,TP311.13
- 云存储系统高效数据传输机制的研究,TP333
- 网间加速技术研究与实现,TP393.2
- 安全相关软件的设计方法研究及应用,TP311.52
- 基于GPU的时间序列并行检索算法研究,TP391.41
- Web敏感信息监测优化方法研究,TP393.08
- 石油物探中数据库管理技术的研究与应用,TP311.13
- 数据流重复数据检测方法的研究,TP311.13
- 基于可变滑动窗口的数据流闭合频繁模式挖掘研究,TP311.13
- 基于数据流的关联规则挖掘方法的研究,TP311.13
- 动不平衡信号处理与标定算法的研究,TN911.7
- 基于闭频繁项集的Web日志挖掘,TP393.092
- 基于数据流的快速协议判断方法研究,TP393.08
- 基于行为特征的P2P流识别技术的研究,TP393.02
- 网格环境下基于滑动窗口的信任模型研究,TP393.08
- 中文网页热门主题获取系统的研究与实现,TP393.092
- 挖掘概率频繁模式恢复不确定RFID数据流,TP391.44
- 职业学校教务管理软件的开发与实现,TP311.52
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com
|