学位论文 > 优秀研究生学位论文题录展示

基于谱聚类的亲友通话圈挖掘

作 者: 张天强
导 师: 张平健; 潘勇
学 校: 华南理工大学
专 业: 软件工程
关键词: 谱聚类 数据挖掘 特征向量 Laplacian矩阵
分类号: TP311.13
类 型: 硕士论文
年 份: 2013年
下 载: 11次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着互联网的迅猛发展,网络上的数据日益增多,这些海量的信息资源包含着大量对我们有用的信息,但是人们很难迅速有效的找到真正所需要的信息。数据挖掘能从大量的数据中找到对我们有价值的信息,聚类分析又是数据挖掘的一个经典问题。聚类分析是目前数据挖掘和机器学习领域中的一个非常活跃的研究热点,是人们认识和探索事物之间内在联系的有效手段,而谱聚类算法是聚类分析的一个重要分支。谱聚类算法是基于谱图划分理论对数据集进行划分的聚类算法,谱聚类算法作为一种新型的聚类分析的算法,与传统聚类方法相比,谱聚类具有明显的优势,该方法不但思想简单,易于实现,不容易陷入局部最优解,而且具有识别非凸分布的聚类的能力,能在任意形状的样本空间上聚类且收敛于全局最优解,非常适合于许多实际应用问题。传统的谱聚类算法有多个版本,它们之间最大的区别是选用Laplacian矩阵的不同。传统的谱聚类算法首先求得数据集的Laplacian矩阵,进而得出Laplacian矩阵的前k个特征值和特征向量,构造特征向量空间,再利用K-means或其它经典聚类算法对特征向量空间中的特征向量进行聚类。本文首先对亲友关系进行分析,确定相关属性并进行预处理工作,然后详细分析了谱聚类算法的有关理论和方法、谱聚类生效的原因和谱聚类应用的优势,并指出了目前谱聚类算法普遍存在的一些问题。通过对问题的分析,提出改进方案对算法进行改进,然后将改进后的算法应用于亲友通话圈挖掘并进一步验证改进后的算法,最后分析结果的价值。

全文目录


摘要  5-6
Abstract  6-9
第一章 绪论  9-14
  1.1 研究背景和意义  9
  1.2 研究现状  9-10
  1.3 研究的热点难点  10-12
  1.4 主要工作以及论文总体安排  12-13
  1.5 小结  13-14
第二章 谱聚类的理论基础  14-26
  2.1 聚类分析  14
  2.2 谱聚类的图论基础  14-25
    2.2.1 图的基本知识  14-15
    2.2.2 样本相似性度量  15-16
    2.2.3 Laplacian 矩阵  16-19
    2.2.4 Fiedler 向量  19-20
    2.2.5 谱图划分准则  20-25
  2.3 小结  25-26
第三章 谱聚类算法  26-33
  3.1 二路迭代谱聚类算法  28-29
    3.1.1 PF 算法  28
    3.1.2 SM 算法  28
    3.1.3 SLH 算法  28-29
  3.2 多路谱聚类算法  29-31
    3.2.1 未规范化谱聚类算法  29-30
    3.2.2 基于Lr w的规范化谱聚类算法  30
    3.2.3 基于L_(sym)的规范化谱聚类算法(NJW 算法)  30-31
  3.3 聚类效果的评价指标  31-32
  3.4 小结  32-33
第四章 改进的谱聚类算法  33-42
  4.1 确定聚类数目 k  33-37
    4.1.1 确定 k 值的传统方法  33
    4.1.2 矩阵的扰动理论  33-34
    4.1.3 因子分析原则  34-35
    4.1.4 k 值范围的确定  35-37
  4.2 改进的谱聚类算法  37-39
  4.3 基于 Iris 数据集的实验  39-41
  4.4 小结  41-42
第五章 实验及结果分析  42-52
  5.1 实验运行环境  42
  5.2 亲友关系分析  42
  5.3 数据预处理  42-47
  5.4 实验设计  47-49
  5.5 实验结果分析  49-51
  5.6 小结  51-52
结论与展望  52-55
参考文献  55-58
攻读硕士学位期间取得的研究成果  58-59
致谢  59-60
附件  60

相似论文

  1. 基于图分割的文本提取方法研究,TP391.41
  2. 基于数据挖掘技术的保健品营销研究,F426.72
  3. 高忠英学术思想与经验总结及运用补肺汤加减治疗呼吸系统常见病用药规律研究,R249.2
  4. 张炳厚学术思想与临床经验总结及应用地龟汤类方治疗慢性肾脏病的经验研究,R249.2
  5. 基于相似度计算的编程题自动评判方法研究,TP312.1
  6. Bicluster数据分析软件设计与实现,TP311.52
  7. 基于变异粒子群的聚类算法研究,TP18
  8. 融合粒子群和蛙跳算法的模糊C-均值聚类算法研究,TP18
  9. 基于遗传算法和粗糙集的聚类算法研究,TP18
  10. 基于数据挖掘的税务稽查选案研究,F812.42
  11. 面向社区教育的个性化学习系统的研究与实现,TP391.6
  12. 基于关联规则挖掘的入侵检测系统的研究与实现,TP393.08
  13. 数据仓库技术在银行客户管理系统中的研究和实现,TP315
  14. 基于行业参数优化模型的投资项目决策支持系统,F283
  15. 数据集市在电信经营分析中的应用研究,TP311.13
  16. 数据挖掘在高职院校学生成绩分析中的应用,TP311.13
  17. 基于数据挖掘的个性化在线教学辅助系统的研究与设计,TP311.13
  18. 基于数据挖掘的课程考核与分析决策系统的设计和实现,TP311.13
  19. 基于Moodle的高职网络教学系统设计与实现,TP311.52
  20. 关联规则算法在高职院校贫困生认定工作中的应用,G717
  21. Web使用挖掘与网页个性化服务推荐研究,TP311.13

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com