学位论文 > 优秀研究生学位论文题录展示

基于直方图和FP增长的离群点关联规则的挖掘

作 者: 李龙姣
导 师: 程国达
学 校: 南京财经大学
专 业: 计算机应用技术
关键词: 数据挖掘 高维离群点 KNN距离 直方图 FP增长 离群点关联规则
分类号: TP311.13
类 型: 硕士论文
年 份: 2013年
下 载: 1次
引 用: 0次
阅 读: 论文下载
 

内容摘要


由于高维空间数据的稀疏性和维灾问题使得高维空间离群点的挖掘和分析始终是数据挖掘的难点之一,本文在现有高维空间离群点挖掘算法的基础上,提出了用数据直方图FP增长(FrequentPattern-Growth)相结合的方法挖掘出现离群点的维之间的关联规则,从而能更好地认识离群点和解释离群点之间的关系。到目前为止,人们对高维离群点的挖掘提出了许多方法,比如数据约减、投影变换、特征选取等,但是在这些方法中也存在着各种不足和问题,其中不仅存在计算复杂度比较大问题,而且对离群点的产生机制、离群点之间的关系缺乏深入的研究,为此本文在这两方面做了些工作,针对上述问题提出了基于直方图和FP增长的离群点关联规则挖掘的方法。该方法首先计算每一维上数据点的KNN(K-NearestNeighbors)距离,形成直方图,利用直方图判断在该维上哪些点是全局离群点,哪些点是局部离群点和边缘离群点,从而降低计算复杂度,然后用FP增长算法挖掘满足一定支持度和置信度的频繁出现离群点的维之间的关联规则,用于解释离群点之间的关系。利用本文提出的方法对合成数据和现实数据进行了详细的分析,实验表明该方法不仅提高了计算效率,而且挖掘出来的结果能够很好地解释离群点产生的原因,揭示离群点发生的规律,这些都表明该方法不仅有效,而且具有很强的现实意义。

全文目录


摘要  4-5
ABSTRACT  5-8
第一章 绪论  8-16
  1.1 数据挖掘概论  8
  1.2 数据挖掘的功能  8-9
  1.3 数据挖掘的应用  9-11
  1.4 数据挖掘工具  11-14
  1.5 论文概述  14-16
    1.5.1 论文的主要工作  14
    1.5.2 论文的组织结构  14-16
第二章 离群点及离群点检测方法  16-20
  2.1 离群点挖掘概述  16
  2.2 离群点检测方法  16-20
第三章 高维离群点检测方法  20-25
  3.1 高维数据引起的问题  20
  3.2 高维数据的处理方法  20-21
  3.3 现有高维大数据离群点挖掘算法分析  21-25
    3.3.1 数据约减  21-22
    3.3.2 投影变换  22-24
    3.3.3 特征选取  24-25
第四章 高维空间中离群点关联规则的挖掘  25-35
  4.1 现有方法存在的问题  25
  4.2 方法依据  25-26
  4.3 方法步骤  26
  4.4 数据稀疏度  26-28
  4.5 通过直方图判别离群点  28-32
    4.5.1 识别离群点类型  28-29
    4.5.2 根据直方图识别离群点  29-32
  4.6 “离群点—维”关系表  32-33
  4.7 基于 FP 增长的离群点关联规则挖掘  33-35
第五章 实验分析  35-56
  5.1 合成数据集测试结果与分析  35-45
  5.2 现实数据集测试结果与分析  45-56
第六章 总结与展望  56-57
参考文献  57-62
攻读硕士学位期间参加的项目及发表的论文  62-63
致谢  63

相似论文

  1. 基于FPGA的高速图像预处理技术的研究,TP391.41
  2. 基于内容的服装图像检索技术研究及实现,TP391.41
  3. 基于数据挖掘技术的保健品营销研究,F426.72
  4. 高忠英学术思想与经验总结及运用补肺汤加减治疗呼吸系统常见病用药规律研究,R249.2
  5. 张炳厚学术思想与临床经验总结及应用地龟汤类方治疗慢性肾脏病的经验研究,R249.2
  6. 基于统计方法的核磁共振人脑图像的分割及三维数据的分析,R445.2
  7. 基于遗传算法和粗糙集的聚类算法研究,TP18
  8. 基于数据挖掘的税务稽查选案研究,F812.42
  9. 基于行业参数优化模型的投资项目决策支持系统,F283
  10. 数据集市在电信经营分析中的应用研究,TP311.13
  11. 数据挖掘在高职院校学生成绩分析中的应用,TP311.13
  12. 基于数据挖掘的个性化在线教学辅助系统的研究与设计,TP311.13
  13. 基于数据挖掘的课程考核与分析决策系统的设计和实现,TP311.13
  14. 基于Moodle的高职网络教学系统设计与实现,TP311.52
  15. 教学质量评估数据挖掘系统设计与开发,TP311.13
  16. 关联规则挖掘在交通事故成因分析中的应用,U491.31
  17. 关联规则算法在高职院校贫困生认定工作中的应用,G717
  18. 数据挖掘在学校管理和学生培养中的应用,TP311.13
  19. 一种面向海量数据综合评价的树状数据结构的设计与研究,TP311.12
  20. 隐私保护线性规划和支持向量机新算法,O221.1
  21. 基于智能计算的网络学习评价模型研究与系统设计,TP18

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com