学位论文 > 优秀研究生学位论文题录展示

数据聚类及可视化技术

作 者: 刘俊霞
导 师: 章毅
学 校: 电子科技大学
专 业: 计算机软件与理论
关键词: 平行坐标可视化 大数据集聚类方法 MinerOnWeb 刷子 维约束
分类号: TP311.13
类 型: 硕士论文
年 份: 2008年
下 载: 200次
引 用: 1次
阅 读: 论文下载
 

内容摘要


随着计算机硬件和软件的迅速发展,尤其是internet技术的快速进步,人们收集数据的速度日益加快。如何从海量数据中寻找到隐藏在数据背后的有用知识成为了一个热门的研究课题。数据挖掘正是解决这个问题的新兴领域。聚类分析作为数据挖掘的重要课题,受到了越来越多研究人员的关注。目前许多聚类分析算法对小数据集的聚类分析效果较好,但是对较大规模的数据进行聚类的效果就不是很好了,所以需要有高度可伸缩性的聚类算法或者聚类方法来解决这个问题。为了使数据挖掘结果更加直观,可视化技术得到了广泛应用。数据挖掘可视化技术可以结合人的视觉优点和主观认知,使数据挖掘过程具有直观性和可交互性,从而挖掘出更有价值并易于理解的信息,正激起更多数据挖掘研究人员的兴趣。本文基于MinerOnWeb数据挖掘服务系统,分别研究了一种具有较好的人机交互功能的可视化技术和一种能够处理大数据集的聚类方法。MinerOnWeb数据挖掘系统是为了给用户提供在线的数据挖掘服务而设计的系统。基于这个系统,本文实现了平行坐标可视化技术和大数据集聚类方法:(1)平行坐标可视化技术:这种方法是把所有的数据维在同一个平面上显示出来,用户不用旋转坐标就能够从同一幅图上看到数据的所有属性及其之间的关系;而一般的数据可视化方法只能看到两个数据属性或者三个数据属性及其之间的关系,如果用户想要看到三个以上数据属性及其之间的关系是不能实现的。MinerOnWeb系统使用平行坐标可视化技术展示聚类结果,不同的聚类用不同的颜色标示。这样,用户就能很清楚的看到属性及其之间的关系,以及每条数据之间的关系。另外,为了让用户能够更容易理解聚类结果,本文为平行坐标的各坐标轴添加了一些事件处理。(2)大数据集聚类方法:数据集聚类的传统方法基本上都是采用将整个数据集导入内存中进行分析。但是对于较大规模的数据集来说,将整个数据集导入内存中较难实现,对系统设备要求太高。基于迭代计算的聚类算法在分析过程中需要反复计算,直到得到较优的结果。即便不需迭代计算的算法也需要用户反复调整相关参数,以便得到较优的结果。而在处理大数据集聚类的时候,这些方法都将是一个非常复杂的过程,需要大量的计算资源和计算时间。本文在处理大数据集的聚类问题时,引入了抽样的方法来改善这样的问题。从大数据集中随机地抽取一部分数据样本,然后只对提取出来的数据样本进行聚类,再利用样本建立的聚类模型,在抽样剩下的大部分数据中实现聚类标签扩展,从而实现处理大数据集的高效聚类方法。

全文目录


摘要  4-6
Abstract  6-11
第一章 绪论  11-23
  1.1 数据挖掘的概述  11-18
    1.1.1 数据挖掘及其现状  11-13
    1.1.2 数据挖掘系统与其他系统的区别  13-14
    1.1.3 数据挖掘的分类、过程及功能  14-18
  1.2 聚类分析的概述  18-21
    1.2.1 聚类分析的概念  18-19
    1.2.2 聚类方法的分类  19-20
    1.2.3 大数据集聚类的现状  20-21
  1.3 本文的主要工作及章节安排  21-23
第二章 数据挖掘中的可视化技术  23-35
  2.1 可视化技术的定义  23-24
  2.2 可视化技术的分类  24-29
  2.3 可视化数据挖掘的研究现状  29-31
  2.4 数据挖掘中可视化技术的应用  31-33
  2.5 聚类分析与数据可视化  33-34
  2.6 本章小结  34-35
第三章 可视化技术在MinerOnWeb 中的实现  35-63
  3.1 MinerOnWeb 的概述  35-38
  3.2 平行坐标可视化聚类系统的思想  38-44
    3.2.1 平行坐标的概念  39-40
    3.2.2 平行坐标的重要性  40-41
    3.2.3 基于维约束的平行坐标系  41-42
    3.2.4 带刷子的平行坐标系  42-44
  3.3 平行坐标在MinerOnWeb 系统中的设计和实现  44-62
    3.3.1 模块概述  44-45
    3.3.2 模块功能设计  45-47
    3.3.3 数据结构定义  47-50
    3.3.4 EJB 服务端的实现  50-51
    3.3.5 WEB 服务端的实现  51-58
    3.3.6 模块界面  58-62
  3.4 本章小结  62-63
第四章 大数据集聚类方法在MinerOnWeb 中的实现  63-76
  4.1 大数据集聚类的现状  63
  4.2 一种新的大数据集聚类方法  63-68
    4.2.1 抽样  64-66
    4.2.2 聚类  66-67
    4.2.3 类标签  67-68
  4.3 大数据集聚类方法在MinerOnWeb 系统中的设计和实现  68-75
    4.3.1 大数据集聚类方法描述  68-69
    4.3.2 大数据集聚类方法功能设计  69-70
    4.3.3 数据结构定义  70-71
    4.3.4 EJB 服务端实现  71-72
    4.3.5 WEB 服务端实现  72-75
  4.4 本章小结  75-76
第五章 大数据集聚类方法在MinerOnWeb 系统中的应用  76-86
  5.1 系统运行环境与实验数据集  76
  5.2 实验目的  76-77
  5.3 实验流程  77-82
  5.4 实验结果分析  82-84
  5.5 本章小结  84-86
第六章 总结和展望  86-88
  6.1 总结  86-87
  6.2 展望  87-88
致谢  88-89
参考文献  89-92
附录  92-93
个人简历及攻读硕士期间的成果  93-94

相似论文

  1. 基于电纺丝与ATRP聚合技术构建多功能性薄膜,TB383.2
  2. 作业调度中几个具体问题的研究,O224
  3. 基于关联规则的挖掘理论研究及应用,TP311.13
  4. 可控/活性自由基聚合及其应用研究,TQ316.322
  5. 数据挖掘中可视化技术研究与实现,TP311.13
  6. 反求工程中基于宏命令的数据转换技术研究,TB47
  7. 支持XML数据查询的F&B索引结构的研究,TP311.13
  8. 海量多数据库集成系统的查询处理研究,TP311.13
  9. 海量数据压缩、操作和处理方法的研究,TP311.13
  10. 频繁图结构并行挖掘算法的研究与实现,TP311.13
  11. 海量多数据库集成系统的Mediator和Wrapper机制的设计与实现,TP311.13
  12. 隐式用户兴趣挖掘的研究与实现,TP311.13
  13. 基于BAP的数据压缩、操作与查询处理系统的实现,TP311.13
  14. 医疗信息集成平台中DICOM中间件及访问控制模型的设计与实现,TP311.13
  15. K-均值聚类算法的研究与改进,TP311.13
  16. 基于流形学习的数据降维技术研究,TP311.13
  17. K-means聚类优化算法的研究,TP311.13
  18. 公安110指挥决策业务系统,TP311.13
  19. 基于分治法的聚类方法研究,TP311.13
  20. 不完备信息系统的完备化及其上的知识获取,TP311.13
  21. 演化聚类算法及其应用研究,TP311.13

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com