学位论文 > 优秀研究生学位论文题录展示

基于云计算的文本聚类算法研究

作　者: 冯晓云
导　师: 陆建峰
学　校: 南京理工大学
专　业: 计算机应用与技术
关键词: 云计算 CURE聚类大文本集分布式
分类号: TP391.1
类　型: 硕士论文
年　份: 2014年
下　载: 79次
引　用: 0次
阅　读: 论文下载

内容摘要

随着互联网和通讯网的迅猛发展,网络文本已经成为信息的主要载体以及人们生活中不可或缺的主要信息来源。一方面,伴随着Web2.0时代的到来,网络上每天都在持续不断地产生大量的文本数据,并且这个速度远远地超过了人们对信息的利用能力。如何从这些大量的文本资源中获取有价值的信息和知识已经成为了一个亟待解决的重大问题；另一方面,普通的个人计算机由于硬件与软件的瓶颈限制,对于这些规模海量、多源异构、高噪声、强时效的数据根本无法在可承受的时间范围内进行处理分析,并且得到决策者需要的知识。而云计算模式的出现使得高性能的计算资源、软件资源、硬件资源和服务资源得到共享,现在已经成为信息领域的研究热点之一。因此,研究基于分布式平台的大文本集的聚类算法成为当下数据挖掘领域的一个研究热点。在本论文中,我们首先实现了一种基于HIVE的分布式k-means算法的设计,先在Hadoop的分布式平台上利用HIVE对结构化的文本数据进行整合,然后对K-means聚类算法进行分析,发现分布式计算对于K-means算法的加速比是有一定的提高的,这也是近年来很多论文进行研究的算法。接着我们设计了基于Google实验室开发的一个分布式系统架构------HadoopCURE聚类算法,实验分成四部分进行,分别利用分布式平台来计算实验参数值、TFIDF值、文本间余弦距离和具体聚类算法,然后将不同大小数据集在不同个数的slave节点上运行的结果进行了对比,发现这种算法的伸缩性比较良好,更加适合大数据。在进行了两个实验后,论文又将CURE聚类算法的实验结果与基于HIVE的K-means算法的实验结果进行了对比,发现对于小数据,两者相差不大,但是对于大数据集,CURE聚类算法在数据伸缩性上明显优于基于HIVE的K-means算法,因此,我们发现前者更加地适用于大文本集的分布式研究。综上所述,我们通过分析利用UCI数据集进行实验得到的测评结果,发现在分布式平台上利用CURE算法进行聚类计算对于海量数据还是有很好的应用前景。

全文目录

摘要  3-4
Abstract  4-9
1 绪论  9-16
  1.1 研究背景  9-14
    1.1.1 云计算的介绍  9-12
      1.1.1.1 云计算的国内外研究现状  9-10
      1.1.1.2 云计算的应用及Hadoop平台  10-12
    1.1.2 数据挖掘的内容  12-13
    1.1.3 大文本集聚类的意义与研究现状  13-14
  1.2 分布式聚类介绍  14
  1.3 本文结构  14-16
2 聚类算法的介绍  16-20
  2.1 聚类相似度计算方法  16-17
  2.2 聚类算法的概念与过程  17
  2.3 聚类算法的分类  17-19
    2.3.1 层次方法(Hierarchical Method)  18
    2.3.2 划分方法(Parti tioni ng Method)  18
    2.3.3 基于密度的方法  18-19
    2.3.4 基于网格的方法  19
    2.3.5 基于模型的方法  19
    2.3.6 基于约束的方法  19
    2.3.7 基于模糊的聚类算法  19
  2.4 本章小结  19-20
3 Hadoop分布式平台介绍  20-24
  3.1 Hadoop平台的起源  20
  3.2 Hadoop子项目构成  20-21
  3.3 HDFS架构介绍  21-22
  3.4 MapReduce编程模式  22-23
  3.5 本章小结  23-24
4 基于HIVE的K-means文本聚类算法设计与实现  24-31
  4.1 Hive简介  24-25
  4.2 K-means算法介绍  25-26
  4.3 基于HIVE的K-means算法的分布式实现  26-28
  4.4 系统主要实现类  28
  4.5 实验环境与评价标准  28-29
  4.6 实验结果与分析  29-30
  4.7 本章小结  30-31
5 基于Hadoop环境的CURE文本聚类算法设计  31-46
  5.1 文本的特征表示  31
  5.2 特征值计算公式——TFIDF公式  31-35
    5.2.1 TFIDF公式介绍  31-32
    5.2.2 一般的TFIDF公式的缺点  32-33
    5.2.3 一种改进的TFIDF公式介绍  33-35
  5.3 CURE聚类算法的介绍  35-37
  5.4 基于Hadoop的CURE聚类算法的具体设计  37-44
    5.4.1 基于Hadoop的CURE聚类算法框架  38-39
    5.4.2 参数计算  39-41
    5.4.3 文本权值TFIDF值的计算  41-42
    5.4.4 文本间余弦距离的计算  42-43
    5.4.5 CURE文本聚类算法的设计  43-44
  5.5 本章小结  44-46
6 基于Hadoop环境的CURE文本聚类算法的实验结果与分析  46-59
  6.1 基于Hadoop实验环境部署  46-48
  6.2 系统主要实现类  48-50
    6.2.1 主要实现类  48
    6.2.2 MapReduce代码框架  48-50
  6.3 实验结果及分析  50-56
    6.3.1 计算TFIDF值结果  50-53
    6.3.2 计算余弦距离值结果  53-54
    6.3.3 CURE聚类计算结果  54-56
  6.4 实验结果分析  56-58
    6.4.1 CURE聚类算法实验结果分析  57
    6.4.2 与基于HIVE的K-means算法实验结果的比较  57-58
  6.5 本章小结  58-59
7 总结与展望  59-61
  7.1 论文工作总结  59
  7.2 研究展望  59-61
致谢  61-62
参考文献  62-65
附录  65

基于云计算的文本聚类算法研究

内容摘要

全文目录

相似论文