学位论文 > 优秀研究生学位论文题录展示

改进K均值算法在数据挖掘中的研究应用

作 者: 甄晓敏
导 师: 刘国丽
学 校: 河北工业大学
专 业: 计算机应用技术
关键词: 数据挖掘 聚类分析 K均值 模拟退火 调和平均
分类号: TP311.13
类 型: 硕士论文
年 份: 2011年
下 载: 77次
引 用: 0次
阅 读: 论文下载
 

内容摘要


数据挖掘是多个领域的交叉学科,用于分析海量数据中的潜在关系以给人们提供有价值的帮助。聚类分析是数据挖掘中的重要技术,它是在无先验知识情况下,按照一定的要求和规律,将数据对象分组成若干个类,使同一个类中的对象有较高的相似度,而不同类中的对象相似度较低。因具有极高的实际应用价值,聚类分析己成为数据挖掘研究中一个非常活跃的研究课题。本文对K均值算法的改进进行了深入细致的研究;在分析模拟退火全局寻优技术和调和平均函数的基础上,研究了基于模拟退火的K均值聚类算法和基于模拟退火的K调和均值聚类算法;分别利用模拟退火技术和调和均值函数使算法来获取全局最优解和减弱算法对初始值的依赖;在对基于模拟退火的K均值算法研究中提出了DK-t0选取法来选取控制参数初始值t0,对基于模拟退火的K调和均值算法研究中提出KH&K结合法;通过对09年高考本科一批理工科提档线数据集聚类效果对比,证明采用DK-t0选取法的基于模拟退火的K均值算法优于随机t0选取法的基于模拟退火的K均值算法;通过对IRIS数据集的聚类,比较了K均值算法、基于模拟退火的K均值算法和基于模拟退火的K调和均值算法的聚类性能;最后将基于模拟退火的K调和均值算法运用于数据挖掘的实例中,对“校讯通”系统数据库进行聚类分析,实现了聚类算法在数据挖掘中的应用。

全文目录


摘要  4-5
ABSTRACT  5-8
第一章 绪论  8-12
  1-1 课题研究现状  8-9
    1-1-1 数据挖掘研究现状  8-9
    1-1-2 K均值算法改进研究  9
  1-2 课题研究的意义  9-10
  1-3 论文主要内容  10-11
  1-4 论文结构安排  11-12
第二章 数据挖掘及聚类分析理论  12-19
  2-1 数据挖掘的定义及任务  12-13
    2-1-1 数据挖掘的定义  12
    2-1-2 数据挖掘的任务  12-13
  2-2 聚类分析概念及应用  13
    2-2-1 聚类分析定义  13
    2-2-2 聚类分析应用  13
  2-3 聚类分析的原理步骤  13-15
  2-4 聚类算法的要求  15
  2-5 聚类测度方法和准则函数  15-17
    2-5-1 聚类分析的相似测度  15-17
    2-5-2 聚类准则函数  17
  2-6 聚类算法的分类  17-19
第三章 基于模拟退火的 K 均值聚类算法  19-31
  3-1 K 均值算法  19-21
    3-1-1 K 均值算法的核心思想  19-20
    3-1-2 K 均值算法流程  20
    3-1-3 K 均值算法的优缺点  20-21
  3-2 模拟退火算法  21-24
    3-2-1 模拟退火算法原理  21-22
    3-2-2 模拟退火算法步骤  22
    3-2-3 关键参数设置  22
    3-2-4 模拟退火算法流程  22-24
  3-3 基于模拟退火的K 均值聚类算法  24-31
    3-3-1 SAKM 算法的结合思想  24
    3-3-2 SAKM 算法具体步骤  24
    3-3-3 SAKM 算法流程  24-26
    3-3-4 SAKM 算法参数设置  26
    3-3-5 DK-t0 选取法  26-27
    3-3-6 SAKM 算法数据分析实验  27-31
第四章 基于模拟退火的 K 调和均值聚类算法  31-42
  4-1 K 调和均值算法  31-33
    4-1-1 K 调和均值算法核心思想  31-32
    4-1-2 K 调和均值算法步骤  32
    4-1-3 K 调和均值算法流程  32-33
  4-2 基于模拟退火的K 调和均值聚类算法  33-42
    4-2-1 SAKHM 算法研究的难点  33
    4-2-2 SAKHM 算法参数设置  33-34
    4-2-3 KH&K 算法结合法  34
    4-2-4 SAKHM 算法具体步骤  34
    4-2-5 SAKHM 算法流程  34-35
    4-2-6 SAKHM 算法伪代码  35-36
    4-2-7 KM、SAKM、SAKHM 算法实验研究及结果对比  36-42
第五章 基于模拟退火的 K 调和均值聚类算法的应用  42-50
  5-1 “校讯通”系统简介  42-44
    5-1-1 “校讯通”系统主要功能  42-43
    5-1-2 “校讯通”系统数据库结构  43-44
  5-2 聚类过程  44-48
    5-2-1 数据来源及属性  44
    5-2-2 数据预处理  44-45
    5-2-3 数据属性的选择  45-46
    5-2-4 数据标准化  46-47
    5-2-5 数据集聚类  47-48
  5-3 聚类结果及分析  48-50
    5-3-1 聚类结果  48
    5-3-2 结果分析  48-49
    5-3-3 “校讯通”系统数据库聚类分析结论  49-50
第六章 总结和展望  50-51
参考文献  51-53
致谢  53-54
攻读学位期间所取得的相关成果  54

相似论文

  1. 高灵敏度GNSS软件接收机的同步技术研究与实现,P228.4
  2. 医学超声图像去噪方法研究,TP391.41
  3. 牡丹EST-SSR引物开发及其亲缘关系分析,S685.11
  4. 高血压前期证候特征研究,R259
  5. 基于数据挖掘技术的保健品营销研究,F426.72
  6. 高忠英学术思想与经验总结及运用补肺汤加减治疗呼吸系统常见病用药规律研究,R249.2
  7. 张炳厚学术思想与临床经验总结及应用地龟汤类方治疗慢性肾脏病的经验研究,R249.2
  8. K-均值聚类算法的研究与改进,TP311.13
  9. 大学生综合素质测评研究,G645.5
  10. 基于对数正态分布异方差模型的统计推断,O212.1
  11. 大豆品种对腐竹品质的影响及其品质评价体系的初步构建,TS214.2
  12. 有源电力滤波器及其在配电网中的应用,TN713.8
  13. 21个荷花品种遗传多样性的ISSR分析,S682.32
  14. 基于聚类分析的P2P流量识别算法的研究,TP393.02
  15. 桃杂交后代(F1)幼苗光合效能评价,S662.1
  16. 基因表达谱数据聚类分析方法比较与大豆疫霉基因的网络构建,S435.651
  17. Bicluster数据分析软件设计与实现,TP311.52
  18. 细菌聚类算法及其在图像分割问题中的研究与应用,TP391.41
  19. 基于变异粒子群的聚类算法研究,TP18
  20. 融合粒子群和蛙跳算法的模糊C-均值聚类算法研究,TP18
  21. 基于遗传算法和粗糙集的聚类算法研究,TP18

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com