学位论文 > 优秀研究生学位论文题录展示

基于空间约束的半监督子空间聚类算法

作 者: 邱杨
导 师: 张宪超
学 校: 大连理工大学
专 业: 计算机应用技术
关键词: 半监督学习 聚类 子空间聚类 不一致性约束 高维数据
分类号: TP18
类 型: 硕士论文
年 份: 2009年
下 载: 114次
引 用: 0次
阅 读: 论文下载
 

内容摘要


聚类分析作为数据挖掘中的重要技术,具有广泛的应用领域。根据应用领域的不同,聚类算法被分为了四大类,其中包括划分方法、层次方法、基于网格的方法、基于密度的方法等。目前,如何处理大规模的高维数据集是聚类分析领域的热点和难点之一。由于高维数据具有稀疏性,传统的聚类算法在处理这类数据时往往不能获得理想的效果。子空间聚类算法正是针对高维数据集提出的一种新的聚类算法。它是传统聚类在高维数据空间中的一种扩展,其主要思想是将搜索局部化,在相关维中进行簇的搜索。代表性算法包括CLIOUE、PROCLUS、ORCLUS等。然而,随着真实数据集的维数发生变化,子空间的维选择也越来越困难,这也导致了上述的子空间聚类算法在分析真实高维数据集时效果往往不令人满意。为了更好的解决高维数据集引发的问题,本文引入半监督学习的方法,通过利用以往被其他子空间算法忽略的先验知识信息,提出了一种新的半监督子空间算法,该算法关注于表现形式为成对约束的先验知识,一方面利用成对约束在全维数据下的不一致性来确定子空间的搜索方向,来进行维的选择,大大降低了子空间维选择时的难度,同时也提高了子空间维选择的准确率;另一方面利用成对约束形成簇的中心点,很大程度上提高了聚类结果的准确度。另外,由于本算法利用了成对约束信息进行维选择,这在保持了子空间聚类算法优点的同时,也避免了其他算法主观地给定参数所具有的缺陷。本文将该算法同其他算法在人工数据集和真实数据集上进行了实验比较,由实验结果可以看出该算法比其他算法具有更高的准确度,对高维数据集的效果更为明显,说明该算法在处理高维数据集时的有效性和可行性。

全文目录


摘要  4-5
Abstract  5-8
1 绪论  8-12
  1.1 研究背景及意义  8-9
  1.2 相关研究现状  9-10
  1.3 本文研究内容及组织  10-12
2 高维聚类问题  12-20
  2.1 高维数据聚类  12-16
    2.1.1 高维数据的挑战  12-13
    2.1.2 高维数据对传统聚类的影响  13-14
    2.1.3 特征约简技术  14-16
  2.2 子空间聚类  16-19
    2.2.1 子空间聚类原理  16-17
    2.2.2 自底向上的搜索算法  17-18
    2.2.3 自顶向下的搜索算法  18-19
  2.3 本章小结  19-20
3 半监督聚类算法的研究  20-29
  3.1 半监督学习  20-23
    3.1.1 半监督学习的研究背景  20-21
    3.1.2 半监督学习的原理  21
    3.1.3 半监督学习的假设  21-22
    3.1.4 半监督学习的主要分类  22-23
  3.2 半监督聚类  23-28
    3.2.1 半监督聚类定义  23
    3.2.2 半监督聚类的分类  23-24
    3.2.3 半监督聚类的距离机制的研究  24-27
    3.2.4 几种半监督聚类算法的研究  27-28
  3.3 本章小结  28-29
4 半监督子空间聚类算法  29-45
  4.1 算法动机和相关概念  29-36
    4.1.1 成对约束  29-30
    4.1.2 不一致性约束  30-31
    4.1.3 出发点  31
    4.1.4 遗传算法  31-36
    4.1.5 符号表示  36
  4.2 S~3C算法  36-44
    4.2.1 子空间形成阶段  37-43
    4.2.2 数据分配阶段  43-44
  4.3 参数确定  44
  4.4 时间复杂度分析  44
  4.5 本章小结  44-45
5 实验验证  45-55
  5.1 人工数据集和约束集的生成方法  45
  5.2 人工数据集和参数的设定  45-46
  5.3 人工数据集上的实验结果  46-53
    5.3.1 准确率  47-52
    5.3.2 鲁棒性  52-53
  5.4 真实数据集上的实验结果  53-54
  5.5 本章小结  54-55
结论  55-56
参考文献  56-59
攻读硕士学位期间发表学术论文情况  59-60
致谢  60-61

相似论文

  1. 隐式用户兴趣挖掘的研究与实现,TP311.13
  2. 图像分割中阴影去除算法的研究,TP391.41
  3. 基于图分割的文本提取方法研究,TP391.41
  4. 牡丹EST-SSR引物开发及其亲缘关系分析,S685.11
  5. 高血压前期证候特征研究,R259
  6. 高忠英学术思想与经验总结及运用补肺汤加减治疗呼吸系统常见病用药规律研究,R249.2
  7. K-均值聚类算法的研究与改进,TP311.13
  8. 大学生综合素质测评研究,G645.5
  9. 大豆品种对腐竹品质的影响及其品质评价体系的初步构建,TS214.2
  10. 21个荷花品种遗传多样性的ISSR分析,S682.32
  11. 基于聚类分析的P2P流量识别算法的研究,TP393.02
  12. 基于混合自适应遗传算法的动态网格调度问题研究,TP393.09
  13. 桃杂交后代(F1)幼苗光合效能评价,S662.1
  14. 南通市农业面源污染负荷研究与综合评价,X592
  15. 土壤环境功能区划研究,X321
  16. 基因表达谱数据聚类分析方法比较与大豆疫霉基因的网络构建,S435.651
  17. 大豆杂种优势及其遗传基础研究,S565.1
  18. 象草自交后代无性系的饲用价值及生物质能特性初步评价,S543.9
  19. 细菌聚类算法及其在图像分割问题中的研究与应用,TP391.41
  20. 基于变异粒子群的聚类算法研究,TP18
  21. K-means聚类优化算法的研究,TP311.13

中图分类: > 工业技术 > 自动化技术、计算机技术 > 自动化基础理论 > 人工智能理论
© 2012 www.xueweilunwen.com