学位论文 > 优秀研究生学位论文题录展示
基于半监督佳点集和Leader的K-means聚类算法研究
作 者: 张娟
导 师: 张燕平
学 校: 安徽大学
专 业: 计算机应用技术
关键词: 数据挖掘 聚类分析 K-means聚类算法 半监督学习 佳点集理论 Leader方法
分类号: TP311.13
类 型: 硕士论文
年 份: 2011年
下 载: 38次
引 用: 0次
阅 读: 论文下载
内容摘要
信息技术与互联网的飞速发展,数据库应用规模、范围和深度的不断扩大,人们生产和收集数据的能力的不断提高,导致现实生活中各个领域的数据量以前所未有的速度海量增长着。面对如此庞杂的海量数据,如何找出这些大规模数据之间的内在关联性,从而提取出有用的信息,以建立供人们所用的知识资源,一直是研究者们的热点课题。数据挖掘是指从大量数据中发现隐藏的、有效的、新颖的、对决策有潜在价值的和最终可被理解的模式的过程,其在现实生活的许多领域都有着广泛的应用。聚类分析是数据挖掘三大领域之一,业已被广泛研究了几十年,至今不论在理论还是方法上都取得了丰硕的研究成果。其中以基于划分方法中的K-means聚类算法最为经典。K-means聚类算法的思想简单易行,而且时间复杂性接近线性,同时对大规模数据的挖掘具有高效性和可伸缩性。然而该算法存在着固有的缺陷:如算法对初始中心点敏感;聚类结果易陷入局部最优;算法适用于数值型数据和一般只能发现球状簇等。本文主要研究和分析了经典的K-means聚类算法,给出其优缺点和现有的一些改进方法。针对上述谈到的K-means聚类算法的不足,在聚类算法被研究的这几十年,许多学者都给出了相应的改进方法和策略,尤其针对前两种缺陷的改进算法举不胜举。而本文也意在探讨K-means算法的初始中心敏感性,并结合了半监督学习、Leader方法和佳点集理论,提出两种新的初始中心选取方法。论文所做的主要工作包括:1、基于半监督和Leader方法,提出了一种新的选取K-means聚类算法初始中心的方法,即S_SLK算法。利用监督信息来改善无监督学习的性能,结合能够保持数据对象本身分布特性的Leader方法优化了K-means聚类算法的初始中心,并改善了由此导致的聚类结果不够稳定的缺陷。2、运用佳点集理论能够得到比随机选取更好的点的优点,再次结合Leader方法,提出一种新的改进K-means的聚类算法。佳点集理论和Leader方法的结合方式从两种算法来体现,分别称为KLG和KGL算法。3、将改进的KLG和KGL算法分别与传统算法和文献中的算法做了相应的比较,并尝试了在K-means算法中仅引入佳点集理论或Leader方法后的效果,同时与KLG和KGL算法做了比较,实验结果和一系列的比较结果表明,改进后的算法具有一定的可行性和有效性,且最终可得出KGL算法优于其他几种算法。
|
全文目录
摘要 3-5 Abstract 5-7 目录 7-9 第一章 绪论 9-15 1.1 课题背景 9 1.2 课题研究目的与意义 9-11 1.3 国内外现状 11-13 1.4 本章小结与论文组织结构 13-15 第二章 聚类分析技术简介 15-29 2.1 聚类分析算法基本概念 15-20 2.1.1 聚类定义 15 2.1.2 聚类分析中的数据类型与数据表示 15-17 2.1.3 聚类分析中的度量方法 17-19 2.1.4 聚类分析的主要应用 19-20 2.2 聚类算法介绍 20-23 2.3 K-means聚类算法 23-28 2.3.1 算法介绍 23-24 2.3.2 算法优缺点分析及改进 24-26 2.3.3 算法对初始中心值敏感性分析及改进 26-28 2.4 本章小结 28-29 第三章 半监督学习、Leader方法和佳点集理论 29-32 3.1 半监督(Semi-Supervised)学习 29 3.2 Leader方法 29-30 3.3 佳点集及其基本定义 30-31 3.4 本章小结 31-32 第四章 半监督与Leader结合的改进K-means算法 32-39 4.1 S_SLK算法 32-35 4.1.1 算法思想由来 32 4.1.2 算法描述 32-35 4.2 实验及其结果 35-38 4.2.1 实验一 35-36 4.2.2 实验二 36-38 4.3 本章小结 38-39 第五章 基于佳点集和Leader的改进K-means聚类方法 39-48 5.1 KLG算法和KGL算法 39-42 5.1.1 算法描述 39-41 5.1.2 实验 41-42 5.2 KLG、KGL算法与相关算法比较 42-44 5.2.1 与传统算法比较 42-43 5.2.2 与文献中算法比较 43-44 5.3 KLG、KGL算法与KL和KG算法比较 44-45 5.4 KLG和KGL算法比较 45-46 5.5 本章小结 46-48 第六章 总结与展望 48-50 6.1 结论 48-49 6.2 展望 49-50 参考文献 50-55 附录A 图索引 55 Appendix A Figure Index 55-56 附录B 表索引 56 Appendix B Table Index 56-57 致谢 57-58 攻读硕士学位期间参与的科研项目及发表的学术论文 58
|
相似论文
- 牡丹EST-SSR引物开发及其亲缘关系分析,S685.11
- 高血压前期证候特征研究,R259
- 基于数据挖掘技术的保健品营销研究,F426.72
- 高忠英学术思想与经验总结及运用补肺汤加减治疗呼吸系统常见病用药规律研究,R249.2
- 张炳厚学术思想与临床经验总结及应用地龟汤类方治疗慢性肾脏病的经验研究,R249.2
- 大学生综合素质测评研究,G645.5
- 大豆品种对腐竹品质的影响及其品质评价体系的初步构建,TS214.2
- 21个荷花品种遗传多样性的ISSR分析,S682.32
- 基于聚类分析的P2P流量识别算法的研究,TP393.02
- 桃杂交后代(F1)幼苗光合效能评价,S662.1
- 南通市农业面源污染负荷研究与综合评价,X592
- 土壤环境功能区划研究,X321
- 基因表达谱数据聚类分析方法比较与大豆疫霉基因的网络构建,S435.651
- 大豆杂种优势及其遗传基础研究,S565.1
- 象草自交后代无性系的饲用价值及生物质能特性初步评价,S543.9
- Bicluster数据分析软件设计与实现,TP311.52
- 基于变异粒子群的聚类算法研究,TP18
- 融合粒子群和蛙跳算法的模糊C-均值聚类算法研究,TP18
- 基于遗传算法和粗糙集的聚类算法研究,TP18
- 基于数据挖掘的税务稽查选案研究,F812.42
- 面向社区教育的个性化学习系统的研究与实现,TP391.6
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com
|