学位论文 > 优秀研究生学位论文题录展示

基于网格的高维数据流与序列数据聚类算法研究

作 者: 姚瑞霞
导 师: 任家东
学 校: 燕山大学
专 业: 计算机应用技术
关键词: 数据流 聚类 高维 不规则网格 矩阵 序列数据
分类号: TP311.13
类 型: 硕士论文
年 份: 2010年
下 载: 17次
引 用: 0次
阅 读: 论文下载
 

内容摘要


当前在数据挖掘领域中,数据流聚类分析成为聚类研究中的一个重要方向。基于网格的聚类算法中网格的划分粒度直接影响聚类质量,且不适用于高维数据流聚类。针对上述问题,本文的研究重点放在了基于网格的数据流聚类算法上。这些聚类算法的研究成果在网络安全,无线传感,工业控制等领域具有重要的作用。首先,提出了一种基于不规则网格的高维数据流聚类算法。该算法根据数据点在每个维的l邻域内进行网格划分,并动态地调整网格结构。当有聚类请求的时候,通过识别网格单元密度最低点找到聚类子空间,并在子空间进行基于网格的聚类。其次,提出了一种基于矩阵的高维数据流聚类算法。此算法采用了CluStream算法的两阶段框架。在线阶段,用一组不相交的GC结构维护每维数据的概要信息,定期删除稀疏的GC单元。离线阶段,利用稠密的网格单元GC构建网格矩阵。当有聚类请求的时候,根据指针指向遍历矩阵得到多维的聚类结果。最后,提出了基于软件故障特征检测的序列数据聚类算法。该算法在统计词频的基础上,增加了对子序列规整度的度量,提出一种新的序列相似性度量方法,提高了序列之间相似度的准确性。在聚类阶段,采用微簇之间相似性度量标准,将具有相似性的微簇进行合并,实现用户要求的k个聚类结果。通过对故障特征的聚类,缩小了软件故障特征分析时故障特征的匹配范围。本文使用java语言对上述算法进行实现。实验结果表明,本文提出的算法在聚类质量上明显优于同类算法,实现了预期的研究目标。

全文目录


摘要  5-6
Abstract  6-10
第1章 绪论  10-19
  1.1 数据流聚类技术  10-16
    1.1.1 数据流聚类技术的产生背景  11-12
    1.1.2 聚类分析的国内外研究现状  12-16
    1.1.3 聚类挖掘算法存在的主要问题  16
  1.2 课题的主要研究内容  16-17
  1.3 本文的结构安排  17-19
第2章 基于不规则网格高维数据流聚类算法  19-31
  2.1 引言  19-20
  2.2 概要数据结构和技术  20-23
  2.3 问题定义  23-26
    2.3.1 基本概念和定义  23-25
    2.3.2 网格结构的调整  25
    2.3.3 簇相关的维  25-26
  2.4 基于不规则网格的高维数据流聚类算法设计  26-29
  2.5 算法性能分析  29-30
    2.5.1 时间复杂度分析  29
    2.5.2 聚类质量分析  29-30
  2.6 本章小结  30-31
第3章 基于网格和矩阵的高维数据流聚类算法  31-43
  3.1 引言  31-32
  3.2 高维数据流聚类技术  32-34
    3.2.1 降维技术  32-33
    3.2.2 子空间聚类技术  33-34
    3.2.3 超图划分聚类技术  34
    3.2.4 联合聚类技术  34
  3.3 问题定义  34-37
    3.3.1 基本概念和定义  34-36
    3.3.2 网格单元的维护  36-37
    3.3.3 网格的检测  37
  3.4 基于矩阵的高维数据流聚类算法的设计  37-41
    3.4.1 网格矩阵结构  37-39
    3.4.2 MStream 算法设计  39-41
  3.5 算法性能分析  41-42
    3.5.1 时间复杂度分析  41
    3.5.2 聚类质量分析  41-42
  3.6 本章小结  42-43
第4章 基于软件故障特征检测的序列聚类算法  43-51
  4.1 引言  43-44
  4.2 相似度度量方法  44-46
    4.2.1 区间标度变量  44-45
    4.2.2 二元变量  45
    4.2.3 标称变量  45-46
    4.2.4 序数型变量  46
  4.3 问题定义  46-48
  4.4 基于软件故障特征检测的序列聚类算法设计  48-50
    4.4.1 Micro-Cluster 的建立  48
    4.4.2 Macro-Cluster 的建立  48
    4.4.3 SCA 算法设计  48-50
  4.5 本章小结  50-51
第5章 算法实现与实验结果  51-60
  5.1 IGDCL 算法的实现与实验结果分析  51-54
    5.1.1 环境及数据集的设置  51
    5.1.2 实验结果分析  51-54
  5.2 MStream 算法的实现与实验结果分析  54-57
    5.2.1 环境及数据集的设置  54
    5.2.2 实验结果分析  54-57
  5.3 SCA 算法的实现与实验结果分析  57-59
    5.3.1 环境及数据集的设置  57
    5.3.2 实验结果分析  57-59
  5.4 本章小结  59-60
结论  60-62
参考文献  62-67
攻读硕士学位期间承担的科研任务与主要成果  67-68
致谢  68-69
作者简介  69

相似论文

  1. 无尾飞翼式飞行器主动控制的参数化方法,V249.1
  2. LDPC码译码算法的研究,TN911.22
  3. 隐式用户兴趣挖掘的研究与实现,TP311.13
  4. 图像分割中阴影去除算法的研究,TP391.41
  5. 基于图分割的文本提取方法研究,TP391.41
  6. 离散切换系统稳定性分析及控制器设计,TP13
  7. 网络化系统的鲁棒模型预测控制,TP273
  8. 随机时滞系统的稳定性分析与鲁棒控制器设计,TP13
  9. 牡丹EST-SSR引物开发及其亲缘关系分析,S685.11
  10. 高血压前期证候特征研究,R259
  11. 高忠英学术思想与经验总结及运用补肺汤加减治疗呼吸系统常见病用药规律研究,R249.2
  12. 大学生综合素质测评研究,G645.5
  13. 大豆品种对腐竹品质的影响及其品质评价体系的初步构建,TS214.2
  14. 21个荷花品种遗传多样性的ISSR分析,S682.32
  15. 基于聚类分析的P2P流量识别算法的研究,TP393.02
  16. 基于混合自适应遗传算法的动态网格调度问题研究,TP393.09
  17. 桃杂交后代(F1)幼苗光合效能评价,S662.1
  18. 南通市农业面源污染负荷研究与综合评价,X592
  19. 土壤环境功能区划研究,X321
  20. 基因表达谱数据聚类分析方法比较与大豆疫霉基因的网络构建,S435.651
  21. 大豆杂种优势及其遗传基础研究,S565.1

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com