学位论文 > 优秀研究生学位论文题录展示

基于Hadoop云计算平台的聚类算法并行化研究

作 者: 张亚楠
导 师: 谭跃生
学 校: 内蒙古科技大学
专 业: 计算机应用技术
关键词: 文本聚类 k均值 Canopy Hadoop平台 MapReduce并行化
分类号: TP391.1
类 型: 硕士论文
年 份: 2013年
下 载: 52次
引 用: 0次
阅 读: 论文下载
 

内容摘要


互联网的规模与日俱增,与此同时产生了海量的相关数据,传统的数据挖掘技术由于受到计算机自身性能以及编程模型的约束,产生了瓶颈,在处理这些数据的时候显着无能为力。数据挖掘旨在从大量的数据中自动搜索隐藏于其中的有着特殊关系性的信息。面对具有高维度数据的海量数据时,单处理机受限于运算能力和内存容量,因此多处理机平行处理的解决方案就被提出来了。最常见的思路就是将大规模数据集划分为多个足够单机处理的数据子集,并将这些子集合理分发给各个单处理机节点处理,当每个节点对自己分配到数据子集的处理完成后,将各自的结果汇总合并,最终得到的是对整个数据集的处理结果。同单处理机相比,多处理机多个运算节点的并行处理数据模式可以显著提高数据挖掘效率。当前在数据挖掘并行化领域中有关方法主要有基于MPI、PVM的并行、基于CPU、GPU的并行。前者简单易用,但是对数据组织形式有较高要求,后者对硬件要求较高,不利于大规模推广。总体来说,这几种方法使得用户过多的专注于实现并行计算细节之中,使得用户无暇顾及其他方面。MapReduce是Google早在2004年就提出来的编程模型,它简化了开发并行程序的过程,推动了并行计算的广泛应用。Google的MapReduce是商业的系统,2008年Apache Hadoop开源云平台实现了MapReduce编程模型,同时也实现了类似GFS(Google File System,谷歌文件系统)的HDFS分布式文件系统。在近几年中,随着Hadoop开源平台的发展与广泛应用,使得大规模数据集的数据挖掘变得更加大众化,因此本文提出了基于Hadoop云计算平台来实现数据挖掘聚类算法的观点。云计算主要的思想是将计算任务分布在大量计算机构成的虚拟资源池上,使各种应用系统能够根据需要获取计算能力、存储空间和各种软件服务。本文的研究设想是通过部署云计算平台,并将聚类算法MapReduce并行化,同时对数据分割、任务分配、并行处理、容错等细节进行优化。由于聚类算法比较繁多,本文仅从k均值聚类算法入手,将传统的k均值算法与Canopy算法相结合,同时按照MapReduce编程模型将上述两种算法进行了并行化。改进后的算法应用在Hadoop云计算平台,通过对SogouC数据集和复旦中文数据集进行了文本聚类处理,实验表明MapReduce并行化后的Canopy算法大大提高的运行速度。因此,Canopy算法比起K均值算法更能胜任大规模数据集的聚类情况。

全文目录


摘要  3-5
Abstract  5-9
1 绪论  9-13
  1.1 论文研究背景  9-10
  1.2 国内外研究现状  10-11
  1.3 论文研究目的及其意义  11
  1.4 论文组织结构  11-13
2 文本聚类  13-27
  2.1 文本聚类概述  13-14
  2.2 文本聚类分类  14-16
  2.3 文本聚类技术  16-26
    2.3.1 文本分词技术  16-18
    2.3.2 特征降维方法  18-21
    2.3.3 文本表示方法  21-22
    2.3.4 特征权重计算方法  22-23
    2.3.5 距离和相似度度量  23-26
  2.4 本章小结  26-27
3 Hadoop 云计算平台  27-38
  3.1 HDFS 分布式文件系统  28-34
    3.1.1 HDFS 的特点  28-29
    3.1.2 HDFS 的体系结构  29-31
    3.1.3 保障 HDFS 可靠性措施  31-32
    3.1.4 HDFS 缺点及改进  32-34
  3.2 MapReduce 编程模型  34-37
    3.2.1 MapReduce 编程思想  34-36
    3.2.2 MapReduce 处理流程  36-37
  3.3 本章小结  37-38
4 基于 MapReduce 编程模型的 Canopy 文本聚类算法  38-52
  4.1 k 均值算法简介  38-40
  4.2 k 均值算法 MapReduce 并行化  40-44
  4.3 Canopy 算法简介  44-47
  4.4 Canopy 算法 MapReduce 并行化设计  47-50
  4.5 本章小结  50-52
5 实验与分析  52-59
  5.1 实验环境  52-53
  5.2 数据集预处理  53
  5.3 单机对比实验  53-54
  5.4 集群加速比实验  54-55
  5.5 聚类结果分析  55-58
  5.6 本章小结  58-59
结论  59-60
参考文献  60-63
在学研究成果  63-64
致谢  64

相似论文

  1. 高灵敏度GNSS软件接收机的同步技术研究与实现,P228.4
  2. 医学超声图像去噪方法研究,TP391.41
  3. 隐式用户兴趣挖掘的研究与实现,TP311.13
  4. K-均值聚类算法的研究与改进,TP311.13
  5. 基于对数正态分布异方差模型的统计推断,O212.1
  6. 细菌聚类算法及其在图像分割问题中的研究与应用,TP391.41
  7. 基于变异粒子群的聚类算法研究,TP18
  8. 融合粒子群和蛙跳算法的模糊C-均值聚类算法研究,TP18
  9. 基于共振峰的OSAHS筛查,R766
  10. 体育舞蹈对青少年足底压力和步态的影响,G804.2
  11. 演化聚类算法及其应用研究,TP311.13
  12. 基于模糊聚类的图像检索方法研究及其系统实现,TP391.41
  13. 对于系统发育谱法聚类算法的改进,TP311.13
  14. 基于VaR模型在标准型股票基金风险评估中的应用研究,F224
  15. 体绘制多维传递函数的设计方法研究,TP391.41
  16. 基于本体的食品投诉文档文本聚类研究,TP391.1
  17. 多源影像融合技术研究,TP391.41
  18. 无线传感器网络中分簇路由技术的研究,TN915.02
  19. CI-OFDM系统的关键技术研究,TN919.3
  20. 多尺度遥感图像分割算法研究与应用,TP391.41
  21. 肺部病灶感兴趣区域分割算法研究,TP391.41

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com