学位论文 > 优秀研究生学位论文题录展示

半监督聚类集成模型研究

作　者: 倪先华
导　师: 杨燕
学　校: 西南交通大学
专　业: 计算机应用技术
关键词: 数据挖掘聚类约束选取混合模型半监督聚类集成
分类号: TP181
类　型: 硕士论文
年　份: 2012年
下　载: 71次
引　用: 0次
阅　读: 论文下载

内容摘要

聚类技术作为机器学习领域中的重要技术之一,已经被广泛地用于解决不同领域的实际问题,聚类可根据对象间的相似性把分布未知的数据集划分为不同的簇,并遵循类内(intra-class)对象相似度最大而类间(inter-class)对象相似度最小的原则。然而,大多数用于解决聚类问题的算法是无监督的方法,无法有效地利用已知的先验知识；另外,由于数据结构的复杂性以及聚类算法优化准则的多样性,单一的聚类算法仍然难以计算出样本集的实际分布结构。为提高聚类算法的稳定性,相关学者提出了聚类集成技术,而传统的聚类集成方法不能利用先验知识来指导聚类集成过程,为更好地提高聚类集成的性能,半监督聚类集成技术应运而生。近年来,半监督聚类技术因其充分地利用了先验知识来提高聚类的性能在聚类领域获得了广泛的关注,尤其是对象间的Must-Link和Cannot-Link成对约束已经广泛地应用于半监督聚类学习中。虽然成对约束包含的的潜在信息可以提高聚类的准确率,但是约束集合的数量和质量往往决定了算法性能能够提升的程度。本文通过组合自动和主动的约束选取方法提出了一种有效地提高约束质量和扩展约束集合的方法,该方法基于某个簇中大部分数据对象是核心对象以及少部分对象是边界对象这一特征来构造约束选取方法,因此,在核心对象之间考虑使用自动的约束选取方法,而在边界对象间使用主动的约束选取方法。实验结果表明,本文提出的混合约束选取方法在选取高质量的约束信息方面有较好的竞争优势,选取的约束可以明显地提高聚类方法的准确率。聚类集成技术可以有效地提高聚类算法的性能,通过融合有差异性的聚类结果,从而得到更加准确和稳定的划分结果。传统的聚类集成方法没有有效地利用先验知识来指导集成过程,本文基于有限混合模型的集成方法提出了一种半监督聚类集成模型,在混合模型集成的EM迭代过程中根据类标签来优化计算方法,将类标签信息用于指导EM方法从而提高算法的性能。实验结果表明,与不加入先验知识的混合模型集成方法以及其它无监督聚类集成方法相比,该方法能有效地提高聚类的质量。

全文目录

摘要  6-7
Abstract  7-11
第1章绪论  11-15
  1.1 研究背景  11-12
  1.2 国内外研究现状  12-13
  1.3 本文主要内容和结构安排  13-15
第2章理论基础  15-28
  2.1 聚类技术  15-21
    2.1.1 聚类概念与相关定义  15-16
    2.1.2 相似性度量与表示  16-19
    2.1.3 聚类方法的分类  19-20
    2.1.4 聚类性能评价标准  20-21
  2.2 半监督聚类集成相关技术  21-27
    2.2.1 先验知识的表现形式  21-22
    2.2.2 聚类集成概述  22-24
    2.2.3 聚类成员的生成方式  24-25
    2.2.4 共识函数  25-27
  2.3 本章小结  27-28
第3章一种混合的约束选取方法  28-34
  3.1 传统的约束选取方法  28
  3.2 自动与主动约束选取的典型算法  28-30
    3.2.1 自动约束选取的典型算法  28-29
    3.2.2 主动约束选取的典型算法  29-30
  3.3 一种混合的约束选取算法  30-33
    3.3.1 核心对象与边界对象的定义  31
    3.3.2 基于核心点和边界点的混合约束选取算法  31-33
  3.4 本章小结  33-34
第4章基于有限混合模型的半监督聚类集成方法  34-39
  4.1 有限混合模型  34
  4.2 基于混合模型的聚类集成方法  34-36
  4.3 基于混合模型的半监督聚类集成方法  36-38
  4.4 本章小结  38-39
第5章实验结果和分析  39-56
  5.1 实验数据集  39-40
  5.2 成对测试方法QUADE TEST  40
  5.3 混合约束选取方法实验  40-47
    5.3.1 约束选取质量评价  41-44
    5.3.2 选取的约束在半监督聚类中的性能评价  44-47
  5.4 基于混合模型的半监督聚类集成实验  47-55
    5.4.1 模型中先验知识的应用实验  48-50
    5.4.2 其它集成方法与SCEM-MM的比较  50-54
    5.4.3 算法运行时间效率  54-55
  5.5 本章小结  55-56
结论与展望  56-58
致谢  58-59
参考文献  59-64
攻读硕士学位期间发表的论文  64

半监督聚类集成模型研究

内容摘要

全文目录

相似论文