学位论文 > 优秀研究生学位论文题录展示
基于密度的模糊聚类分析算法研究
作 者: 马娜娜
导 师: 孟海东
学 校: 内蒙古科技大学
专 业: 计算机应用技术
关键词: 模糊聚类 模糊C-均值聚类 高斯密度函数 隶属度密度加权
分类号: TP311.13
类 型: 硕士论文
年 份: 2012年
下 载: 40次
引 用: 0次
阅 读: 论文下载
内容摘要
聚类分析是无监督模式识别的一个重要分支,作为一个重要的数据挖掘工具已经广泛应用于多个领域。它是把一个没有类别标记的数据集按照某种准则聚为若干类,使相似的数据集尽可能归于一类,不相似的数据集划分到不同的类中的一个过程。现实生活中存在的大量不确定性和模糊性的问题,所以产生了模糊聚类分析。模糊聚类分析已发展成聚类分析中一个十分活跃的研究领域,并在众多领域得到了成功的应用,如分类学、地质学、金融业、市场营销、模式识别和图像分割等领域。因此,模糊聚类分析具有十分广阔的研究与应用空间。本文研究的内容包括以下两个方面:(1)在对基于目标函数的模糊C均值聚类算法FCM(Fuzzy C-Means)研究的基础上,针对模糊C均值聚类算法在初始簇中心选择方面存在的问题进行了改进。因为模糊C均值聚类算法对初始聚类中心有很强的依赖性,所以快速准确找到初始聚类簇中心就能得到理想的聚类结果。传统的模糊C均值聚类算法是随机选取选初始聚类中心,得到的聚类结果有随机性。本文提出了用高斯密度函数计算初始聚类中心。计算方法是:以数据空间中数据点间的最大距离DMax/C为约束条件,选取密度值最大的前C个点作为初始聚类中心,进行FCM算法聚类。实验表明,与随机选取初始聚类中心相比改进算法计算出的初始聚类中心更接近真实聚类中心。(2)基于密度函数加权的模糊C均值聚类算法(DFCM)的设计与实现:根据数据的自然分布特征(有的数据点周围的数据点多,该点的密度大;相反,有的数据点周围的数据点少,该点的密度小),通过计算每个数据对象的高斯密度函数值并将其归一化处理作为权值,加入传统的模糊C均值算法中,得到基于密度函数加权的模糊C均值算法,这样能更合理地发现数据集的自然结构,克服了只是根据数据点间距离确定其隶属度的不足。DFCM算法使用java语言编写,通过使用仿真二维数据集,UCI数据集中的IRIS数据集和高维数据集wine数据集,对改进算法(DFCM)行了测试,实验表明改进算法确定出的数据点对簇的隶属度变化能够更有效地反映出数据点的分布特征,即在密度大、数据点多的簇中数据点的隶属度高,密度大、数据点少的簇中数据点的隶属度值相对较小,密度小、数据点少的簇中数据点的隶属度值更小。因此,通过合理选取隶属度阈值能够有效地区分出客观存在的簇和噪声数据点。
|
全文目录
摘要 5-6 Abstract 6-10 1 绪论 10-16 1.1 课题研究背景 10-12 1.1.1 数据挖掘技术的发展 10-12 1.1.2 模糊理论及发展及现状 12 1.2 课题研究的现状 12-14 1.3 课题研究的意义 14-15 1.4 论文的结构和章节安排 15-16 2 聚类分析 16-21 2.1 聚类分析原理 16-17 2.2 聚类分析中的数据类型 17 2.3 模糊聚类分析 17-20 2.3.1 模糊聚类的产生 17-18 2.3.2 模糊聚类的分类 18 2.3.3 模糊聚类算法的优化方法研究 18-19 2.3.4 模糊聚类的应用 19-20 2.4 小结 20-21 3 聚类算法 21-31 3.1 数据挖掘对聚类分析的要求 21-22 3.2 常规聚类算法分类 22-26 3.2.1 基于划分的方法 22-23 3.2.2 基于层次的方法 23-24 3.2.3 基于密度的方法 24-25 3.2.4 基于网格的方法 25 3.2.5 基于模型的方法 25-26 3.2.6 基于模糊理论的聚类算法 26 3.3 模糊聚类算法 26-30 3.3.1 HCM 算法 27-28 3.3.2 模糊 C 均值(FCM,Fuzzy C-means)聚类算法 28-29 3.3.3 HCM 算法和模糊 C 均值算法(FCM)的关系 29-30 3.4 小结 30-31 4 基于密度的初始簇中心的确定 31-37 4.1 模糊 C 均值算法存在的问题 31-33 4.2 高斯密度函数确定初始簇中心 33-36 4.2.1 高斯密度函数 33-35 4.2.2 实验结果分析 35-36 4.3 小结 36-37 5 基于密度函数加权的模糊 C 均值聚类算法的设计与实现 37-60 5.1 基于密度函数加权的模糊 C 均值聚类算法的提出 37 5.2 相关定义 37-38 5.2.1 数据对象密度 37 5.2.2 加权系数 37-38 5.2.3 隶属度 38 5.3 基于密度函数加权的模糊 C 均值聚类算法设计 38-39 5.4 实验结果及分析 39-58 5.4.1 仿真二维数据集测试实验 39-54 5.4.2 标准数据集测试实验 54-57 5.4.3 高维数据集测试实验 57-58 5.5 小结 58-60 结论 60-61 参考文献 61-65 在学研究成果 65-66 致谢 66
|
相似论文
- 土壤环境功能区划研究,X321
- 细菌聚类算法及其在图像分割问题中的研究与应用,TP391.41
- 融合粒子群和蛙跳算法的模糊C-均值聚类算法研究,TP18
- 基于多因素模糊聚类的底板突水危险性预测研究,TD745
- 基于模糊聚类的图像检索方法研究及其系统实现,TP391.41
- 基于半监督模糊聚类的入侵防御技术研究,TP393.08
- 电力系统电压无功控制方法研究,TM761.1
- 采用低频采样浮动车数据的城市路段行程时间估计与预测,U491
- 基于模糊均值聚类的脑MR图像分割算法的研究,TP391.41
- 基于水平集的图像分割技术研究,TP391.41
- 基于蚁群算法的电力系统机组优化组合,F426.6;TP18
- 基于信任的访问控制模型研究,TP393.08
- 基于模糊聚类分析与最小二乘支持向量机的短期负荷预测,TM715
- 多点监测自适应网内数据融合技术的研究及应用,TP202
- 基于模糊C均值聚类的彩色图像分割算法研究,TP391.41
- 基于图像特征的空间目标识别方法研究,TP391.41
- 中医儿童性早熟智能诊断算法研究,R272
- 停车诱导在智能移动终端上的设计与实现,TN929.53
- 国企员工激励问题研究,F272.92
- 演化聚类算法及其应用研究,TP311.13
- 模拟驾驶条件下驾驶员生理特性实验研究,U491.254
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com
|