学位论文 > 优秀研究生学位论文题录展示

子空间孤立点检测算法研究

作 者: 张亮
导 师: 刘文远
学 校: 燕山大学
专 业: 计算机软件与理论
关键词: 数据挖掘 孤立点 高维数据 子空间 
分类号: TP311.13
类 型: 硕士论文
年 份: 2010年
下 载: 20次
引 用: 0次
阅 读: 论文下载
 

内容摘要


孤立点检测是数据挖掘的一个重要研究方向,随着其应用范围的不断扩大,传统的孤立点检测算法遇到了一个最大的障碍,不适应高维数据的特性。研究人员对此给出了几种解决方法,其中子空间挖掘是解决高维数据挖掘的一种有效方法。目前提出的子空间孤立点检测算法还存在很多问题,如算法的检测精度低,参数难以设置等。本文主要针对以上问题,对子空间孤立点检测算法进行了研究。首先,介绍了基于轴平行子空间的孤立点检测算法SOD,针对该算法中的两点不足,提出一种改进算法。一方面通过对每一维的聚集度进行量化,确定各维的参考价值,从而降低了算法结果对参数设定的敏感度。另一方面利用相对距离表示各点到中心值的偏离度,从而更利于不同密度子空间下的孤立点检测。其次,针对现实数据集中聚类个数的未知性,结合基尼提出一种基于基尼熵的相关子空间选择方法,并给出相关子空间孤立程度定义,在此基础上提出了基于相关子空间的孤立点检测算法RSOD。该算法降低了对数据集先验知识的要求,不受数据集中聚类个数的限制,无论数据集中包含一个或是多个聚类,算法均可以正确选择相关子空间,并有效检测出孤立点。最后,以四个数据集验证了所提算法的有效性,其中包括人工数据集和真实数据集。

全文目录


摘要  5-6
Abstract  6-10
第1章 绪论  10-16
  1.1 研究背景  10-12
  1.2 国内外研究现状  12-13
  1.3 主要研究内容  13-14
  1.4 论文的组织结构  14-16
第2章 数据挖掘孤立点检测算法分析  16-26
  2.1 数据挖掘概述  16-19
    2.1.1 数据挖掘定义  16-18
    2.1.2 数据挖掘功能  18-19
  2.2 子空间孤立点检测算法  19-24
    2.2.1 基于子空间投影的孤立点检测算法  20-21
    2.2.2 基于映射的混合数据孤立点检测算法  21-22
    2.2.3 偏离子空间检测算法  22-23
    2.2.4 基于局部信息的加权子空间离群点检测算法  23-24
  2.3 算法分析  24-25
  2.4 本章小结  25-26
第3章 基于SOD 的孤立点检测改进算法  26-39
  3.1 相关知识  26-29
  3.2 SOD 算法分析与改进  29-38
    3.2.1 SOD 算法描述  30-32
    3.2.2 SOD 算法改进  32-36
    3.2.3 改进算法的实现  36-38
  3.3 本章小结  38-39
第4章 基于相关子空间的孤立点检测算法  39-53
  4.1 熵理论  39-41
    4.1.1 熵的发展过程  39-40
    4.1.2 熵的概念与性质  40-41
    4.1.3 熵理论在数据挖掘中的应用  41
  4.2 SOD 算法对多聚类数据集进行孤立点检测时的不足  41-45
    4.2.1 SOD 算法中子空间选择的不足  43-44
    4.2.2 SOD 算法中计算偏离度的不足  44-45
  4.3 RSOD 算法思想  45-50
    4.3.1 求各点参考点集  45-46
    4.3.2 确定各点的相关子空间  46-50
    4.3.3 计算各点的相关子空间孤立程度  50
  4.4 RSOD 算法实现  50-52
  4.5 本章小结  52-53
第5章 实验与分析  53-62
  5.1 数据标准化  53-54
  5.2 基于SOD 的孤立点检测改进算法实验  54-57
  5.3 RSOD 算法实验  57-61
    5.3.1 人工合成数据集  57-58
    5.3.2 WDBC 数据集  58-61
  5.4 本章小结  61-62
结论  62-63
参考文献  63-68
攻读硕士学位期间承担的科研任务与主要成果  68-69
致谢  69-70
作者简介  70

相似论文

  1. 偏振条件下辐射能和熵传输的数值模拟,TK124
  2. 流动与混合过程中不可逆损失的研究,TK12
  3. 基于信息熵的课堂观察量化评价模型研究,G632.4
  4. 领域实体属性及事件抽取技术研究,TP391.1
  5. 人物言论抽取与跟踪技术研究,TP391.1
  6. 图像分割中阴影去除算法的研究,TP391.41
  7. 基于停用词处理的汉语语音检索方法,TP391.1
  8. 桡动脉超声多普勒血流信号的特征提取及分类研究,TP391.41
  9. 基于数据挖掘技术的保健品营销研究,F426.72
  10. 高忠英学术思想与经验总结及运用补肺汤加减治疗呼吸系统常见病用药规律研究,R249.2
  11. 张炳厚学术思想与临床经验总结及应用地龟汤类方治疗慢性肾脏病的经验研究,R249.2
  12. 公路生态系统健康评价方法研究,X826
  13. Bicluster数据分析软件设计与实现,TP311.52
  14. 基于变异粒子群的聚类算法研究,TP18
  15. 融合粒子群和蛙跳算法的模糊C-均值聚类算法研究,TP18
  16. 基于遗传算法和粗糙集的聚类算法研究,TP18
  17. 基于数据挖掘的税务稽查选案研究,F812.42
  18. D.R.斯汀森《密码学》中一些传统编码与破译方法的改进,TN918.1
  19. 面向社区教育的个性化学习系统的研究与实现,TP391.6
  20. 基于关联规则挖掘的入侵检测系统的研究与实现,TP393.08
  21. 数据仓库技术在银行客户管理系统中的研究和实现,TP315

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com