学位论文 > 优秀研究生学位论文题录展示

基于元组聚类特征的不确定性数据流聚类算法研究

作 者: 梁达鹏
导 师: 黄国言
学 校: 燕山大学
专 业: 计算机应用技术
关键词: 不确定性数据流 聚类 滑动窗口 混合属性 概率频度直方图 网格概率密度
分类号: TP311.13
类 型: 硕士论文
年 份: 2010年
下 载: 46次
引 用: 0次
阅 读: 论文下载
 

内容摘要


对国内外数据流聚类的研究情况分析可知,已有的数据流聚类算法存在如下问题:不能聚类具有不确定性的混合属性数据流;在聚类过程中不能对不确定性数据流中近期的数据进行详细的分析;在聚类过程中不能得到任意形状的聚类。针对这些问题,本课题将研究重点放在基于元组聚类特征的不确定性数据流聚类算法的研究上,解决这些问题对研究基于位置服务的应用、电子商务等领域具有重要的意义。首先,为了能对具有不确定性的混合属性数据流进行聚类,提出了一种具有不确定性的混合属性数据流聚类算法HU-Clustering。该算法使用概率频度直方图来统计标称属性部分的信息,定义了混合属性不确定性聚类特征以便能描述混合属性不确定性数据流的分布特征。并采用基于两轮选择的聚类过程来提高聚类质量。其次,为了能对近期的数据进行分析,提出了一种基于滑动窗口的不确定性数据流聚类算法SWCUStreams。该算法采用两阶段的聚类框架。在在线部分,定义了不确定性时间聚类特征来描述元组的不确定性信息,提出不确定性聚类特征指数直方图存储近期数据的分布特征。在离线部分,基于不确定性聚类特征指数直方图的统计信息,采用UK-means算法来生成最终的聚类结果。最后,为了得到任意形状的聚类结果,提出了一种基于网格概率密度的不确定性数据流聚类算法GD-CUStreams。该算法定义了不确定性网格聚类特征来统计不确定性信息并存储网格中的概要信息。针对用户的聚类请求,依据网格概率密度阀值判断网格类型并输出满足要求的网格类型。

全文目录


摘要  5-6
Abstract  6-10
第1章 绪论  10-18
  1.1 不确定性数据流挖掘技术  10-12
    1.1.1 不确定性数据流挖掘研究背景及意义  11
    1.1.2 不确定性数据流挖掘的任务  11-12
  1.2 不确定性数据流挖掘的研究现状  12-15
    1.2.1 国内外研究现状  13-15
    1.2.2 存在的问题  15
  1.3 课题研究内容  15-16
  1.4 本文的结构内容安排  16-18
第2章 不确定性的混合属性数据流聚类算法  18-27
  2.1 引言  18-19
  2.2 问题定义  19-22
    2.2.1 混合属性元组不确定性  20
    2.2.2 混合属性不确定性聚类特征  20-22
    2.2.3 具有不确定性的混合属性相似度度量  22
  2.3 HU-Clustering 算法  22-25
    2.3.1 算法描述  23-25
    2.3.2 算法分析  25
  2.5 本章小结  25-27
第3章 基于滑动窗口模型的不确定性数据流聚类算法  27-36
  3.1 引言  27-28
  3.2 问题定义  28-32
    3.2.1 属性级元组不确定性  29
    3.2.2 不确定性时间聚类特征  29-31
    3.2.3 不确定性元组相似度度量标准  31-32
  3.3 SWCUStreams 算法  32-34
    3.3.1 算法描述  32-33
    3.3.2 算法分析  33-34
  3.4 本章小结  34-36
第4章 基于网格概率密度的不确定性数据流聚 类算法  36-44
  4.1 引言  36-37
  4.2 问题定义  37-40
    4.2.1 网格概率密度  37-38
    4.2.2 不确定性网格聚类特征  38-39
    4.2.3 网格相似度  39-40
  4.3 GD-CUStreams 算法  40-43
    4.3.1 算法描述  40-42
    4.3.2 算法分析  42-43
  4.4 本章小结  43-44
第5章 算法实现及实验分析  44-57
  5.1 实验环境  44-45
  5.2 HU-Clustering 算法实验  45-49
    5.2.1 HU-Clustering 算法的实验参数设置  45
    5.2.2 HU-Clustering 算法的聚类质量评价  45-47
    5.2.3 HU-Clustering 算法的执行效率评价  47-49
  5.3 SWCUStreams 算法实验  49-52
    5.3.1 SWCUStreams 算法实验参数设置  49
    5.3.2 SWCUStreams 算法的聚类质量评价  49-51
    5.3.3 SWCUStreams 算法聚类运行时间  51-52
  5.4 GD-CUStreams 算法实验  52-55
    5.4.1 GD-CUStreams 算法实验参数设置  52
    5.4.2 GD-CUStreams 算法的聚类质量评价  52-54
    5.4.3 元组不确定性对GD-CUStreams 算法执行效率的影响  54-55
  5.5 本章小结  55-57
结论  57-59
参考文献  59-65
攻读硕士学位期间承担的科研任务与主要成果  65-66
致谢  66-67
作者简介  67

相似论文

  1. 隐式用户兴趣挖掘的研究与实现,TP311.13
  2. 图像分割中阴影去除算法的研究,TP391.41
  3. 基于图分割的文本提取方法研究,TP391.41
  4. 牡丹EST-SSR引物开发及其亲缘关系分析,S685.11
  5. 高血压前期证候特征研究,R259
  6. 高忠英学术思想与经验总结及运用补肺汤加减治疗呼吸系统常见病用药规律研究,R249.2
  7. K-均值聚类算法的研究与改进,TP311.13
  8. 大学生综合素质测评研究,G645.5
  9. 大豆品种对腐竹品质的影响及其品质评价体系的初步构建,TS214.2
  10. 21个荷花品种遗传多样性的ISSR分析,S682.32
  11. 基于聚类分析的P2P流量识别算法的研究,TP393.02
  12. 基于混合自适应遗传算法的动态网格调度问题研究,TP393.09
  13. 桃杂交后代(F1)幼苗光合效能评价,S662.1
  14. 南通市农业面源污染负荷研究与综合评价,X592
  15. 土壤环境功能区划研究,X321
  16. 基因表达谱数据聚类分析方法比较与大豆疫霉基因的网络构建,S435.651
  17. 大豆杂种优势及其遗传基础研究,S565.1
  18. 象草自交后代无性系的饲用价值及生物质能特性初步评价,S543.9
  19. 细菌聚类算法及其在图像分割问题中的研究与应用,TP391.41
  20. 基于变异粒子群的聚类算法研究,TP18
  21. K-means聚类优化算法的研究,TP311.13

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com