学位论文 > 优秀研究生学位论文题录展示
半监督聚类集成模型研究
作 者: 倪先华
导 师: 杨燕
学 校: 西南交通大学
专 业: 计算机应用技术
关键词: 数据挖掘 聚类 约束选取 混合模型 半监督聚类集成
分类号: TP181
类 型: 硕士论文
年 份: 2012年
下 载: 71次
引 用: 0次
阅 读: 论文下载
内容摘要
聚类技术作为机器学习领域中的重要技术之一,已经被广泛地用于解决不同领域的实际问题,聚类可根据对象间的相似性把分布未知的数据集划分为不同的簇,并遵循类内(intra-class)对象相似度最大而类间(inter-class)对象相似度最小的原则。然而,大多数用于解决聚类问题的算法是无监督的方法,无法有效地利用已知的先验知识;另外,由于数据结构的复杂性以及聚类算法优化准则的多样性,单一的聚类算法仍然难以计算出样本集的实际分布结构。为提高聚类算法的稳定性,相关学者提出了聚类集成技术,而传统的聚类集成方法不能利用先验知识来指导聚类集成过程,为更好地提高聚类集成的性能,半监督聚类集成技术应运而生。近年来,半监督聚类技术因其充分地利用了先验知识来提高聚类的性能在聚类领域获得了广泛的关注,尤其是对象间的Must-Link和Cannot-Link成对约束已经广泛地应用于半监督聚类学习中。虽然成对约束包含的的潜在信息可以提高聚类的准确率,但是约束集合的数量和质量往往决定了算法性能能够提升的程度。本文通过组合自动和主动的约束选取方法提出了一种有效地提高约束质量和扩展约束集合的方法,该方法基于某个簇中大部分数据对象是核心对象以及少部分对象是边界对象这一特征来构造约束选取方法,因此,在核心对象之间考虑使用自动的约束选取方法,而在边界对象间使用主动的约束选取方法。实验结果表明,本文提出的混合约束选取方法在选取高质量的约束信息方面有较好的竞争优势,选取的约束可以明显地提高聚类方法的准确率。聚类集成技术可以有效地提高聚类算法的性能,通过融合有差异性的聚类结果,从而得到更加准确和稳定的划分结果。传统的聚类集成方法没有有效地利用先验知识来指导集成过程,本文基于有限混合模型的集成方法提出了一种半监督聚类集成模型,在混合模型集成的EM迭代过程中根据类标签来优化计算方法,将类标签信息用于指导EM方法从而提高算法的性能。实验结果表明,与不加入先验知识的混合模型集成方法以及其它无监督聚类集成方法相比,该方法能有效地提高聚类的质量。
|
全文目录
摘要 6-7 Abstract 7-11 第1章 绪论 11-15 1.1 研究背景 11-12 1.2 国内外研究现状 12-13 1.3 本文主要内容和结构安排 13-15 第2章 理论基础 15-28 2.1 聚类技术 15-21 2.1.1 聚类概念与相关定义 15-16 2.1.2 相似性度量与表示 16-19 2.1.3 聚类方法的分类 19-20 2.1.4 聚类性能评价标准 20-21 2.2 半监督聚类集成相关技术 21-27 2.2.1 先验知识的表现形式 21-22 2.2.2 聚类集成概述 22-24 2.2.3 聚类成员的生成方式 24-25 2.2.4 共识函数 25-27 2.3 本章小结 27-28 第3章 一种混合的约束选取方法 28-34 3.1 传统的约束选取方法 28 3.2 自动与主动约束选取的典型算法 28-30 3.2.1 自动约束选取的典型算法 28-29 3.2.2 主动约束选取的典型算法 29-30 3.3 一种混合的约束选取算法 30-33 3.3.1 核心对象与边界对象的定义 31 3.3.2 基于核心点和边界点的混合约束选取算法 31-33 3.4 本章小结 33-34 第4章 基于有限混合模型的半监督聚类集成方法 34-39 4.1 有限混合模型 34 4.2 基于混合模型的聚类集成方法 34-36 4.3 基于混合模型的半监督聚类集成方法 36-38 4.4 本章小结 38-39 第5章 实验结果和分析 39-56 5.1 实验数据集 39-40 5.2 成对测试方法QUADE TEST 40 5.3 混合约束选取方法实验 40-47 5.3.1 约束选取质量评价 41-44 5.3.2 选取的约束在半监督聚类中的性能评价 44-47 5.4 基于混合模型的半监督聚类集成实验 47-55 5.4.1 模型中先验知识的应用实验 48-50 5.4.2 其它集成方法与SCEM-MM的比较 50-54 5.4.3 算法运行时间效率 54-55 5.5 本章小结 55-56 结论与展望 56-58 致谢 58-59 参考文献 59-64 攻读硕士学位期间发表的论文 64
|
相似论文
- 多重ANN/HMM混合模型在语音识别中的应用,TN912.34
- 隐式用户兴趣挖掘的研究与实现,TP311.13
- 图像分割中阴影去除算法的研究,TP391.41
- 基于图分割的文本提取方法研究,TP391.41
- 牡丹EST-SSR引物开发及其亲缘关系分析,S685.11
- 高血压前期证候特征研究,R259
- 基于数据挖掘技术的保健品营销研究,F426.72
- 张炳厚学术思想与临床经验总结及应用地龟汤类方治疗慢性肾脏病的经验研究,R249.2
- 大学生综合素质测评研究,G645.5
- 21个荷花品种遗传多样性的ISSR分析,S682.32
- 细菌聚类算法及其在图像分割问题中的研究与应用,TP391.41
- 基于数据挖掘的税务稽查选案研究,F812.42
- 基于运动目标轨迹分析的智能交通监控系统,TP277
- 多属性无向加权图上的聚类方法研究,O157.5
- 模糊神经网络在扫雷犁系统中的应用研究,TJ518
- 基于行业参数优化模型的投资项目决策支持系统,F283
- 基因表达时序数据聚类和比对分析方法研究,TP311.13
- 基于数据挖掘的个性化在线教学辅助系统的研究与设计,TP311.13
- 基于数据挖掘的课程考核与分析决策系统的设计和实现,TP311.13
- 关联规则挖掘在交通事故成因分析中的应用,U491.31
- 关联规则算法在高职院校贫困生认定工作中的应用,G717
中图分类: > 工业技术 > 自动化技术、计算机技术 > 自动化基础理论 > 人工智能理论 > 自动推理、机器学习
© 2012 www.xueweilunwen.com
|