学位论文 > 优秀研究生学位论文题录展示
Hadoop的重复数据清理模型研究与实现
作 者: 曾理
导 师: 王以群
学 校: 南华大学
专 业: 计算机应用技术
关键词: Hadoop 分布式 数据清理 海量数据
分类号: TP338.8
类 型: 硕士论文
年 份: 2010年
下 载: 416次
引 用: 4次
阅 读: 论文下载
内容摘要
当今,晶体管电路已经逐渐接近其物理上的性能极限,摩尔定律在2005年左右开始失效了,人类再也不能期待单个CPU的速度每隔18个月就翻一倍,单机的数据清理能力再也满足不了当今人们对海量数据的处理要求。基于大规模计算机集群的分布式并行计算将成为未来数据处理软件性能提升的主要途径。借助分布式计算近年来的应用热风,本研究从数据质量这个重要因素出发,设计并实现了一个基于Hadoop分布式框架的重复数据清理平台。Hadoop是一个开源的分布式计算框架。该分布式框架具备良好的扩充能力、较低的运作成本、较高的效率和较好的稳定性,而且它的Map/Reduce编程模式能够与本文的应用(重复数据清理)完美兼容,因此选择Hadoop框架作为本文研究的基础实验框架。当今世界,信息显得尤为宝贵,而数据质量是保证信息提取的一个重要前提。因此利用计算机来进行重复数据清理,减小信息系统数据的冗余度成为一个有意义的研究方向,这也是选择重复数据清理作为本文应用主题的关键原因。本文利用Hadoop的分布式数据处理特性,完成了完全重复数据清理并实现了数据按关键字段的排序过程,得到了初步聚类数据,然后采用单机预处理的方式对初步聚类数据进行再聚类。再聚类过程是该研究模型设计的重点和难点,它依靠一系列重要算法和清理规则做支撑,得到一个更加精确的聚类结果。经过再聚类处理后的数据最后交由Hadoop平台进行相似重复数据清理,得到最终的清理结果。本研究中,通过对该模型“过滤”后的实验数据进行分析,结果证实了本模型的可行性。此外通过时效对比实验,本人发现:随着数据量的增大,该模型在数据清理时的效率优势相比于单机越来越明显,从而说明了在实际应用中引入该分布式模型的必要性。最后本文通过分析Hadoop参数配置对本模型性能的影响,说明了Hadoop参数合理配置的重要性,并给出了相关的配置技巧,在一定程度上避免了硬件资源的浪费。
|
全文目录
摘要 7-8 ABSTRACT 8-12 第一章 绪论 12-17 1.1 课题研究背景 12-13 1.2 相关课题国内外研究现状 13-14 1.3 主要研究内容与创新点 14-15 1.4 本文研究内容和结构 15-16 1.5 本章小结 16-17 第二章 Hadoop 分布式文件系统 17-29 2.1 前提和设计目标 17-18 2.1.1 硬件错误 17 2.1.2 流式数据访问 17 2.1.3 大规模数据集 17-18 2.1.4 简单的一致性模型 18 2.1.5 “移动计算比移动数据更划算” 18 2.2 Namenode 和 Datanode 18-19 2.3 文件系统的名字空间 19-20 2.4 数据复制 20-23 2.4.1 副本存放 20-21 2.4.2 副本选择 21 2.4.3 安全模式 21-22 2.4.4 文件系统元数据的持久化 22-23 2.5 通讯协议 23 2.6 健壮性 23-25 2.6.1 磁盘数据错误,心跳检测和重新复制 23 2.6.2 集群均衡 23-24 2.6.3 数据完整性 24 2.6.4 元数据磁盘错误 24-25 2.7 数据组织 25-26 2.7.1 数据块 25 2.7.2 Staging 25 2.7.3 流水线复制 25-26 2.8 可访问性 26-27 2.8.1 DFSShell 26 2.8.2 DFSAdmin 26-27 2.8.3 浏览器接口 27 2.9 存储空间回收 27-28 2.9.1 文件的删除和恢复 27 2.9.2 减少副本系数 27-28 2.10 本章小结 28-29 第三章 Hadoop Map/Reduce 框架介绍 29-41 3.1 输入与输出 30-31 3.2 Map/Reduce 31-40 3.2.1 核心功能描述 31-34 3.2.2 作业配置 34 3.2.3 任务的执行和环境 34-36 3.2.4 作业的提交与监控 36-37 3.2.5 作业的输入 37-38 3.2.6 作业的输出 38-39 3.2.7 Map/Reduce 其他重要特性 39-40 3.3 本章小结 40-41 第四章 Hadoop 重复数据清理基础算法和数据预处理 41-56 4.1 重复数据清理概述 41-42 4.2 记录间相似检测算法 42-48 4.2.1 编辑距离算法 43-45 4.2.2 字符型字段相似度检测 45 4.2.3 布尔型字段和数值型相似度检测 45-46 4.2.4 类Pair-wise 重复记录清理算法 46-48 4.3 数据预处理——按关键字段聚类算法 48-55 4.3.1 初步聚类后的数据保存 49-50 4.3.2 确定初步聚类后数据的边界 50-52 4.3.3 数据再聚类 52-55 4.4 本章小结 55-56 第五章 Hadoop 实现重复数据清理 56-71 5.1 实验平台搭建 56-61 5.1.1 运行平台搭建 56-60 5.1.2 开发平台搭建 60-61 5.2 Hadoop 完全重复数据清理 61-64 5.2.1 完全重复数据清理Map 类的实现 62 5.2.2 完全重复数据清理Reduce 类的实现 62-63 5.2.3 作业启动类的Hadoop 实现 63 5.2.4 完全重复数据清理后的实验结果 63-64 5.3 Hadoop 相似重复数据清理 64-68 5.3.1 相似重复数据清理Map 类的实现 65 5.3.2 相似重复数据清理Reduce 类的实现 65-67 5.3.3 相似重复清理后的实验结果 67-68 5.4 Hadoop 性能分析 68-70 5.5 本章小结 70-71 第六章 总结与展望 71-73 6.1 工作总结 71 6.2 工作展望 71-73 参考文献 73-77 附录源码 77-87 成果目录 87-88 致谢 88
|
相似论文
- Ad-Hoc网络多信道MAC层协议的信道分配问题的研究,TN929.5
- 分布式系统的故障注入方法研究,TP338.8
- 并行分布式网络模拟器PDNS容错技术的研究,TP302.8
- 海量数据压缩、操作和处理方法的研究,TP311.13
- 基于BAP的数据压缩、操作与查询处理系统的实现,TP311.13
- 面向海量邮件的检索系统研究与实现,TP393.098
- 含分布式电源的微电网控制策略研究,TM61
- 基于Map/Reduce框架的分布式日志分析系统的研究及应用,TP311.52
- 基于Oracle的移动彩铃分布式数据库设计与实现,TP311.13
- 基于Hadoop的在线购物原型系统的设计与实现,TP311.52
- 分布式视频编码中边信息技术研究,TN919.81
- 网络备份系统中管理控制的设计与实现,TP309.3
- 基于云计算的软件资源服务平台研究,TP311.52
- 高速网络环境下的入侵检测系统的研究,TP393.08
- 逆变型分布式电源故障特性分析及配电网保护策略研究,TM77
- 无线传感器网络节点三维定位算法研究,TN929.5
- 基于通信约束的无线传感器网络的研究,TN929.5
- 基于压缩感知的分布式视频编码技术研究,TN919.81
- 网络环境下的分布式存储系统的设计与实现,TP333
- 云计算平台上的增量学习研究,TP311.13
- 安全应用层组播组成员管理模型,TP393.08
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 电子数字计算机(不连续作用电子计算机) > 各种电子数字计算机 > 分布式计算机
© 2012 www.xueweilunwen.com
|