学位论文 > 优秀研究生学位论文题录展示

基于可变滑动窗口的数据流闭合频繁模式挖掘研究

作 者: 范玉玲
导 师: 苏勇
学 校: 江苏科技大学
专 业: 计算机软件与理论
关键词: 数据流 可变滑动窗口 频繁模式 频繁闭合模式
分类号: TP311.13
类 型: 硕士论文
年 份: 2011年
下 载: 40次
引 用: 0次
阅 读: 论文下载
 

内容摘要


数据流频繁闭合模式的挖掘技术应用的普遍性,使得数据流频繁闭合模式挖掘技术的研究受到越来越广泛的重视,特别是在商务决策、知识库方面发挥着很大的作用。由于数据流自身高速、海量、多变、无限等特点,使数据流挖掘遭遇了很大的挑战。一些研究学者采用数据结构存储数据量中的所有项集,滑动窗口机制来挖掘,提出基于滑动窗口的闭合频繁模式挖掘的多种算法,在数据流挖掘领域取得了很大进展。但是这些基于滑动窗口机制的数据流频繁闭合模式挖掘的算法中,由于较多地考虑快速且精确的效果,而较少考虑数据流的时变特性,因此数据流挖掘算法多是在等速的理想数据流环境中的研究,而现实生活中的数据往往不是等速的,研究结果与实际应用的差距给数据流挖掘的研究带来了新的问题。为了寻求解决数据流挖掘中的这些新问题的方法,本文提出可变滑动窗口数据流频繁闭合模式挖掘算法,主要是针对不等速数据流的挖掘算法。这对数据流挖掘算法的实际应用价值方面具有重要意义。为了更好的挖掘不等速数据流,文中首先对数据流,数据流处理系统,数据流频繁模式挖掘及数据流频繁闭合模式挖掘的相关理论性质和挖掘技术进行了深入的理解。其次在对各种数据流频繁闭合模式挖掘的概念和算法理解的基础上,重点分析了DSCFI算法。最后改进了滑动窗口机制,提出可变滑动窗口,针对可变滑动窗口的机制,提出了DS-stream算法,并用人工合成数据集进行实验,对实验结果进行分析。实验结果表明, DS-stream算法在挖掘数据流频繁集上有很好的时间与空间效率。

全文目录


摘要  6-7
Abstract  7-14
第1章 绪论  14-22
  1.1 研究背景  14-15
  1.2 国内外研究现状  15-17
  1.3 数据流频繁模式挖掘面临的挑战  17-18
  1.4 研究内容  18-19
    1.4.1 滑动窗口的可变性问题  18-19
    1.4.2 算法分析  19
  1.5 论文组织结构  19-22
第2章 数据流挖掘相关技术  22-30
  2.1 数据流概述  22-24
    2.1.1 数据流及其特点  22
    2.1.2 数据流的结构  22-23
    2.1.3 数据流挖掘模型  23-24
  2.2 数据流挖掘技术  24-28
    2.2.1 窗口技术  24-27
      2.2.1.1 界标窗口模型  24-25
      2.2.1.2 滑动窗口模型  25-26
      2.2.1.3 衰减窗口模型  26-27
    2.2.2 直方图  27
    2.2.3 链式抽样  27-28
    2.2.4 位图  28
    2.2.5 前缀树  28
  2.3 本章小结  28-30
第3章 数据流频繁闭项集挖掘  30-42
  3.1 数据流频繁模式挖掘  30-34
    3.1.1 关联规则相关概念  30-31
    3.1.2 频繁模式  31-34
  3.2 数据流频繁闭项集的挖掘  34-38
    3.2.1 数学理论基础  34-35
    3.2.2 闭合项集的概念  35-36
    3.2.3 闭合项集的性质  36-37
    3.2.4 频繁闭合项集挖掘  37-38
      3.2.4.1 频繁闭合项集概念  37
      3.2.4.2 频繁闭合项集挖掘技术  37-38
  3.3 频繁闭合项集挖掘算法  38-40
    3.3.1 A-Close 算法  39
    3.3.2 CLOSE+算法  39
    3.3.3 Moment 算法  39-40
  3.4 本章小结  40-42
第4章 基于可变滑动窗口的算法DS-stream  42-53
  4.1 滑动窗口的改进——可变滑动窗口  42-44
    4.1.1 可变滑动窗口概述  42-43
    4.1.2 可变滑动窗口的挖掘  43-44
  4.2 DSCFI 算法概述  44-46
    4.2.1 DSCFI 算法的主要思想概述  44
    4.2.2 算法的步骤  44-45
    4.2.3 算法存在的不足之处  45-46
  4.3 DS-stream 算法核心  46-49
    4.3.1 DS-stream 的概要数据结构  46-47
    4.3.2 构建DS-tree 算法  47
    4.3.3 DS-tree 更新算法  47-48
    4.3.4 闭合项集挖掘算法  48-49
  4.4 算法示例分析  49-52
  4.5 本章小结  52-53
第5章 实验分析  53-58
  5.1 实验环境及实验数据  53-54
  5.2 实验结果及分析  54-56
  5.3 本章小结  56-58
结束语及未来展望  58-60
参考文献  60-64
致谢  64-66
攻读硕士学位期间发表的学术论文  66-67
详细摘要  67-71

相似论文

  1. 一种多数据流聚类异常检测算法,TP311.13
  2. 基于数据流异常检测的嵌入式软件容错研究,TP368.1
  3. 基于RFID数据流的基本事件实惠查询处理与优化,TP311.13
  4. 云存储系统高效数据传输机制的研究,TP333
  5. 网间加速技术研究与实现,TP393.2
  6. 安全相关软件的设计方法研究及应用,TP311.52
  7. 基于GPU的时间序列并行检索算法研究,TP391.41
  8. Web敏感信息监测优化方法研究,TP393.08
  9. 石油物探中数据库管理技术的研究与应用,TP311.13
  10. 数据流重复数据检测方法的研究,TP311.13
  11. 频繁项挖掘算法及其应用研究,TP311.13
  12. 基于数据流的关联规则挖掘方法的研究,TP311.13
  13. 基于FP-tree的多层关联规则挖掘算法的研究,TP311.13
  14. 基于分布式的频繁闭合模式挖掘算法研究,TP311.13
  15. 挖掘概率频繁模式恢复不确定RFID数据流,TP391.44
  16. 不确定数据流上Skyline查询处理技术研究,TP311.13
  17. 分布式入侵检测系统的报警关联与分析算法,TP393.08
  18. 大型天线结构协同设计平台过程协同工具的开发与应用,TP311.52
  19. 面向数据流的频繁模式挖掘算法研究,TP311.13
  20. 时间序列数据流中相关性分析技术的研究,TP311.13

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com