学位论文 > 优秀研究生学位论文题录展示

基于信息熵的高维分类型数据子空间聚类算法研究

作 者: 杜育林
导 师: 孙浩军
学 校: 汕头大学
专 业: 计算机软件与理论
关键词: 分类型数据 信息熵 子空间聚类 高维数据
分类号: TP311.13
类 型: 硕士论文
年 份: 2011年
下 载: 95次
引 用: 1次
阅 读: 论文下载
 

内容摘要


随着大规模数据存储技术、信息技术和网络技术的发展,越来越多的人正陷入数据泛滥、知识匮乏的困境中。为满足日益增长的信息需求,促使数据挖掘技术广泛地应用于各行各业。聚类分析具有自动对数据进行有效划分的特性,已经成为数据挖掘技术的主要工具之一。现有的聚类算法处理低维数据有良好的效果,同时高维数值型数据的聚类分析也取得了一定的成就。然而,由于此前对高维分类型数据的研究没有引起足够的重视,以及分类型数据的特殊性,使得现有聚类算法无法满足处理分类型数据的要求。对于高维分类型数据聚类问题,由于其样本数据在高维空间中分布的稀疏性以及相异度(或相似度)度量的局限性,使得传统的聚类算法往往得不到理想的效果。针对上述问题,提出了一个新的高维分类型数据聚类算法——基于信息熵的高维分类型数据子空间聚类算法(Entropy-based Algorithm for Subspace Clustering with High Dimensional Categorical Datasets,ESCHCD),该算法综合考虑对应子空间和噪声子空间(不相关特征维)的维度信息熵,设计了一个高效、无监督的子空间搜索方法来对高维数据进行有效降维,同时提出了基于整体数据平均信息熵的全局优化方法对聚类结果进行迭代寻优。人工数据和真实数据的实验结果表明,与其他分类型数据聚类算法相比,该算法具有很好的聚类效果和扩展性。

全文目录


摘要  3-4
ABSTRACT  4-7
第一章 绪论  7-14
  1.1 研究背景及选题意  7-9
  1.2 研究现状  9-11
  1.3 主要工作  11-13
  1.4 本文组织结构  13-14
第二章 高维分类型数据集聚类综述  14-28
  2.1 聚类分析  14-18
    2.1.1 聚类的概念  14
    2.1.2 相似度  14-17
    2.1.3 常用聚类方法综述  17-18
  2.2 高维数据聚类  18-25
    2.2.1 高维数据的特点  18-20
    2.2.2 高维数据聚类算法  20-25
  2.3 分类型数据分析  25-28
    2.3.1 分类型数据简介  25
    2.3.2 分类型数据与数值型数据  25-26
    2.3.3 分类型数据算法的不足  26-28
第三章 熵  28-31
  3.1 热力学熵  28-29
  3.2 信息熵  29-30
  3.3 信息熵与热力学熵  30-31
第四章 ESCHCD 算法研究与设计  31-46
  4.1 本算法相关概念  32-34
    4.1.1 信息熵(Entropy)  32
    4.1.2 符号定义及相关公式推导  32-33
    4.1.3 信息熵与分类型数据聚类  33-34
  4.2 基于信息熵的高维分类型数据子空间聚类算法  34-40
    4.2.1 初始化阶段——Initialization Phase  35-37
    4.2.2 优化阶段——Optimization Phase  37-40
      4.2.2.1 确定子空间——Determine Subspace  37-39
      4.2.2.2 迭代寻优——Iterative  39-40
  4.3 试验及分析  40-46
    4.3.1 人工数据  41-43
    4.3.2 真实数据  43
    4.3.3 试验结果及对比  43-46
第五章 总结  46-48
  5.1 结论  46-47
  5.2 展望  47-48
参考文献  48-51
致谢  51-52
攻读学位期间作者参与科研工作及成果  52

相似论文

  1. 基于信息熵的课堂观察量化评价模型研究,G632.4
  2. 基于遗传算法和粗糙集的聚类算法研究,TP18
  3. 多源影像融合技术研究,TP391.41
  4. 基于信息熵的聚类个数确定方法研究,TP311.13
  5. 数据流聚类算法研究,TP311.13
  6. 信息认识活动逻辑和信息价值的哲学考察,N02
  7. 燃油喷雾粒度分布测量及其信息熵分析,TK407.9
  8. 基于广义信息熵的决策树模型及其在绩效评价中的应用,TP18
  9. 基于判断矩阵一致性的判别方法研究,O151.21
  10. 贝叶斯框架下的图像显著性检测,TP391.41
  11. 虚拟物流联盟风险控制研究,F252
  12. 基因表达数据中共调控模式的挖掘算法,TP311.13
  13. 基于密度的数据流子空间聚类算法研究,TP311.13
  14. 鄂豫陕交界区主要公路沿线泥石流沟的地貌学识别研究,P642.23
  15. 高维聚类算法研究,TP311.13
  16. 聚类融合算法及其应用研究,TP311.13
  17. 基于高维子空间聚类的协同过滤个性化推荐,TP393.09
  18. 基于轮廓线特征的三维人脸识别算法研究,TP391.41
  19. 基于子空间的高维数据流聚类算法研究,TP311.13
  20. 数据挖掘中的谱聚类算法研究,TP311.13

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com