学位论文 > 优秀研究生学位论文题录展示

Hadoop的重复数据清理模型研究与实现

作　者: 曾理
导　师: 王以群
学　校: 南华大学
专　业: 计算机应用技术
关键词: Hadoop 分布式数据清理海量数据
分类号: TP338.8
类　型: 硕士论文
年　份: 2010年
下　载: 416次
引　用: 4次
阅　读: 论文下载

内容摘要

当今,晶体管电路已经逐渐接近其物理上的性能极限,摩尔定律在2005年左右开始失效了,人类再也不能期待单个CPU的速度每隔18个月就翻一倍,单机的数据清理能力再也满足不了当今人们对海量数据的处理要求。基于大规模计算机集群的分布式并行计算将成为未来数据处理软件性能提升的主要途径。借助分布式计算近年来的应用热风,本研究从数据质量这个重要因素出发,设计并实现了一个基于Hadoop分布式框架的重复数据清理平台。Hadoop是一个开源的分布式计算框架。该分布式框架具备良好的扩充能力、较低的运作成本、较高的效率和较好的稳定性,而且它的Map/Reduce编程模式能够与本文的应用(重复数据清理)完美兼容,因此选择Hadoop框架作为本文研究的基础实验框架。当今世界,信息显得尤为宝贵,而数据质量是保证信息提取的一个重要前提。因此利用计算机来进行重复数据清理,减小信息系统数据的冗余度成为一个有意义的研究方向,这也是选择重复数据清理作为本文应用主题的关键原因。本文利用Hadoop的分布式数据处理特性,完成了完全重复数据清理并实现了数据按关键字段的排序过程,得到了初步聚类数据,然后采用单机预处理的方式对初步聚类数据进行再聚类。再聚类过程是该研究模型设计的重点和难点,它依靠一系列重要算法和清理规则做支撑,得到一个更加精确的聚类结果。经过再聚类处理后的数据最后交由Hadoop平台进行相似重复数据清理,得到最终的清理结果。本研究中,通过对该模型“过滤”后的实验数据进行分析,结果证实了本模型的可行性。此外通过时效对比实验,本人发现:随着数据量的增大,该模型在数据清理时的效率优势相比于单机越来越明显,从而说明了在实际应用中引入该分布式模型的必要性。最后本文通过分析Hadoop参数配置对本模型性能的影响,说明了Hadoop参数合理配置的重要性,并给出了相关的配置技巧,在一定程度上避免了硬件资源的浪费。

全文目录

摘要  7-8
ABSTRACT  8-12
第一章绪论  12-17
  1.1 课题研究背景  12-13
  1.2 相关课题国内外研究现状  13-14
  1.3 主要研究内容与创新点  14-15
  1.4 本文研究内容和结构  15-16
  1.5 本章小结  16-17
第二章 Hadoop 分布式文件系统  17-29
  2.1 前提和设计目标  17-18
    2.1.1 硬件错误  17
    2.1.2 流式数据访问  17
    2.1.3 大规模数据集  17-18
    2.1.4 简单的一致性模型  18
    2.1.5 “移动计算比移动数据更划算”  18
  2.2 Namenode 和 Datanode  18-19
  2.3 文件系统的名字空间  19-20
  2.4 数据复制  20-23
    2.4.1 副本存放  20-21
    2.4.2 副本选择  21
    2.4.3 安全模式  21-22
    2.4.4 文件系统元数据的持久化  22-23
  2.5 通讯协议  23
  2.6 健壮性  23-25
    2.6.1 磁盘数据错误，心跳检测和重新复制  23
    2.6.2 集群均衡  23-24
    2.6.3 数据完整性  24
    2.6.4 元数据磁盘错误  24-25
  2.7 数据组织  25-26
    2.7.1 数据块  25
    2.7.2 Staging  25
    2.7.3 流水线复制  25-26
  2.8 可访问性  26-27
    2.8.1 DFSShell  26
    2.8.2 DFSAdmin  26-27
    2.8.3 浏览器接口  27
  2.9 存储空间回收  27-28
    2.9.1 文件的删除和恢复  27
    2.9.2 减少副本系数  27-28
  2.10 本章小结  28-29
第三章 Hadoop Map/Reduce 框架介绍  29-41
  3.1 输入与输出  30-31
  3.2 Map/Reduce  31-40
    3.2.1 核心功能描述  31-34
    3.2.2 作业配置  34
    3.2.3 任务的执行和环境  34-36
    3.2.4 作业的提交与监控  36-37
    3.2.5 作业的输入  37-38
    3.2.6 作业的输出  38-39
    3.2.7 Map/Reduce 其他重要特性  39-40
  3.3 本章小结  40-41
第四章 Hadoop 重复数据清理基础算法和数据预处理  41-56
  4.1 重复数据清理概述  41-42
  4.2 记录间相似检测算法  42-48
    4.2.1 编辑距离算法  43-45
    4.2.2 字符型字段相似度检测  45
    4.2.3 布尔型字段和数值型相似度检测  45-46
    4.2.4 类Pair-wise 重复记录清理算法  46-48
  4.3 数据预处理——按关键字段聚类算法  48-55
    4.3.1 初步聚类后的数据保存  49-50
    4.3.2 确定初步聚类后数据的边界  50-52
    4.3.3 数据再聚类  52-55
  4.4 本章小结  55-56
第五章 Hadoop 实现重复数据清理  56-71
  5.1 实验平台搭建  56-61
    5.1.1 运行平台搭建  56-60
    5.1.2 开发平台搭建  60-61
  5.2 Hadoop 完全重复数据清理  61-64
    5.2.1 完全重复数据清理Map 类的实现  62
    5.2.2 完全重复数据清理Reduce 类的实现  62-63
    5.2.3 作业启动类的Hadoop 实现  63
    5.2.4 完全重复数据清理后的实验结果  63-64
  5.3 Hadoop 相似重复数据清理  64-68
    5.3.1 相似重复数据清理Map 类的实现  65
    5.3.2 相似重复数据清理Reduce 类的实现  65-67
    5.3.3 相似重复清理后的实验结果  67-68
  5.4 Hadoop 性能分析  68-70
  5.5 本章小结  70-71
第六章总结与展望  71-73
  6.1 工作总结  71
  6.2 工作展望  71-73
参考文献  73-77
附录源码  77-87
成果目录  87-88
致谢  88

Hadoop的重复数据清理模型研究与实现

内容摘要

全文目录

相似论文