学位论文 > 优秀研究生学位论文题录展示

基于云计算的并行聚类算法研究

作 者: 郗洋
导 师: 李玲娟
学 校: 南京邮电大学
专 业: 计算机软件与理论
关键词: 密度聚类 层次聚类 云计算 MapReduce
分类号: TP311.13
类 型: 硕士论文
年 份: 2011年
下 载: 463次
引 用: 0次
阅 读: 论文下载
 

内容摘要


近年来,随着信息技术和数据库技术的迅猛发展,尤其是互联网的广泛应用,需要分析和管理的数据迅速增多。数据挖掘技术便应运而生,聚类分析是数据挖掘领域的重要内容和基本工具,研究如何提高聚类算法的性能具有重要的意义。云计算作为目前国内外研究的热点,是网格计算、并行计算和分布式计算的发展。利用云计算技术,人们可以通过网络获得强大的计算能力、存储能力以及基础设施,并可以有效地解决分析与处理海量数据时所面临的问题,在降低终端设备要求的同时提高数据处理能力。本文主要研究如何利用云计算机集群系统的并行计算能力来解决海量数据聚类问题。首先,本文在重点分析了DBSCAN算法的基础上,提出了一种基于层次的HDBSCAN算法。该算法不仅纠正了由于输入参数Eps选择不当而造成的聚类结果不佳的问题,屏蔽了算法对输入参数的敏感性;而且无需对每个点进行检测和判断,从而减少了查询次数,降低了I/O开销。接着,利用Hadoop搭建云计算环境,在云计算环境下对HDBSCAN算法进行研究,将HDBSCAN算法与MapReduce编程模型结合。最后,在云计算环境下对算法功能和性能进行测试和比较。实验结果表明在集群中部署HDBSCAN算法可以有效提高聚类效率。论文对基于云计算的聚类算法做了有益研究工作。

全文目录


摘要  4-5
ABSTRACT  5-9
第一章 引言  9-13
  1.1 课题的研究背景与意义  9-10
  1.2 国内外的研究现状  10-11
  1.3 论文的主要工作  11
  1.4 论文内容的组织  11-13
第二章 并行计算与聚类相关技术  13-29
  2.1 并行计算概述  13-16
    2.1.1 并行计算策略  13-14
    2.1.2 并行计算体系结构  14
    2.1.3 并行计算进程模型  14-15
    2.1.4 常见的并行算法  15
    2.1.5 并行聚类  15-16
  2.2 聚类概述  16-22
    2.2.1 聚类的定义  16-18
    2.2.2 聚类所需的数据结构  18-19
    2.2.3 聚类的相似性计算方法  19-21
    2.2.4 聚类的步骤  21-22
  2.3 聚类方法分类  22-27
    2.3.1 分层聚类法(hierarchical clustering)  23-24
    2.3.2 划分聚类法(Partitioning Methods)  24-25
    2.3.3 基于密度的方法(Density-based Methods)  25-26
    2.3.4 基于网格的方法(Grid-based Methods)  26
    2.3.5 基于模型的方法(Model-based Methods)  26-27
    2.3.6 基于约束的方法  27
  2.4 大规模数据聚类技术  27-28
  2.5 本章小结  28-29
第三章 云计算MapReduce编程模型  29-42
  3.1 云计算概述  29-32
    3.1.1 云计算的基本概念  29
    3.1.2 云计算的特点  29-30
    3.1.3 云计算与相关计算形式的比较  30-32
    3.1.4 云计算在中国的发展  32
  3.2 云计算的关键技术  32-34
    3.2.1 简单的编程模式  33
    3.2.2 数据存储和管理  33-34
    3.2.3 虚拟化技术  34
  3.3 MapReduce技术分析  34-37
    3.3.1 编程模型  34-35
    3.3.2 实现机制  35-37
    3.3.3 容错机制  37
  3.4 MapReduce在Hadoop中的实现  37-41
    3.4.1 Hadoop开源架构  37-38
    3.4.2 HDFS  38-39
    3.4.3 Hadoop中MapReduce流程及任务调度  39-41
  3.5 本章小结  41-42
第四章 基于MapReduce的聚类算法研究  42-61
  4.1 DBSCAN聚类算法介绍  42-46
    4.1.1 DBSCAN算法基本概念  42-44
    4.1.2 DBSCAN算法执行流程  44-46
  4.2 改进算法HDBSCAN的设计  46-51
    4.2.1 问题描述  46-47
    4.2.2 HDBSCAN算法的有关概念  47-48
    4.2.3 HDBSCAN算法思想  48-49
    4.2.4 HDBSCAN算法描述  49-50
    4.2.5 HDBSCAN算法性能分析  50-51
  4.3 基于MapReduce的HDBSCAN算法并行化  51-52
    4.3.1 HDBSCAN算法并行化策略  51-52
    4.3.2 HDBSCAN算法的MapReduce实现思路  52
  4.4 实验与结果分析  52-60
    4.4.1 Hadoop环境配置  52-55
    4.4.2 eclipse下的hadoop实现  55-56
    4.4.3 在Hadoop平台上运行HDBSCAN算法  56-59
    4.4.4 实验结果分析  59-60
  4.5 本章小节  60-61
第五章 总结与展望  61-63
  5.1 总结  61-62
  5.2 展望  62-63
缩略词  63-64
图表清单  64-65
致谢  65-66
参考文献  66-70
攻读硕士学位期间的学术论文和参与的科研项目  70

相似论文

  1. 云计算平台下的动态信任模型的研究,TP309
  2. 基于云计算的数字图书馆服务模式研究,G250.76
  3. 对于系统发育谱法聚类算法的改进,TP311.13
  4. 基于Map/Reduce框架的分布式日志分析系统的研究及应用,TP311.52
  5. 结合蚁群算法与基于划分的DBSCAN聚类算法的研究,TP311.13
  6. 基于Hadoop的在线购物原型系统的设计与实现,TP311.52
  7. 基于信誉度的云环境下资源管理的研究,TP315
  8. 面向消费者感性需求的手持GPS设计探讨,TN967.1
  9. 基于云计算的ITIL运维,TP311.52
  10. 基于人工免疫的病毒检测技术研究,TP393.08
  11. 基于Google云计算平台的Web应用系统设计及实现,TP393.09
  12. 云计算数据隐私保护方法的研究,TP393.08
  13. 基于启发式算法的恶意代码检测系统研究与实现,TP393.08
  14. 高速网络环境下的入侵检测系统的研究,TP393.08
  15. 基于Hadoop的云存储系统客户端的设计与实现,TP333
  16. 云计算平台上的增量学习研究,TP311.13
  17. 数据中心Hadoop部署与追踪系统研究,TP308
  18. 基于Linux平台的局域网云监控系统的分析与实现,TP311.52
  19. 基于虚拟机内存模板的云计算服务系统,TP393.09
  20. 云环境下MapReduce容错技术的研究,TP302.8
  21. 基于云存储的手机数据备份系统,TP309.3

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com