学位论文 > 优秀研究生学位论文题录展示
基于Hadoop的海量数据处理模型研究和应用
作 者: 朱珠
导 师: 胡正名
学 校: 北京邮电大学
专 业: 密码学
关键词: Hadoop 海量数据 分布式 数据预处理
分类号: TP311.52
类 型: 硕士论文
年 份: 2008年
下 载: 3490次
引 用: 64次
阅 读: 论文下载
内容摘要
数据是信息的载体,信息是数据的内涵,一般认为数据是信息系统的基础。利用计算机来处理数据,提取信息是信息系统的基本功能。在当今高度信息化的社会里,Web可以说是目前最大的信息系统,其数据具有海量、多样、异构、动态变化等特性。如何实现快速地从这些海量数据中提取出对企业有用的价值信息已成为程序员在开发应用软件的过程中碰到的最令人头疼的问题。基于这个问题的出发点,本文在分析现有分布式储存和计算等关键技术基础上,结合对Hadoop的集群技术的研究以及自身的业务需求和实际软硬件实力,提出了一种基于Hadoop的海量数据处理模型,并从数据结构设计、程序流程组织和编程技术的使用等几个方面来介绍这个模型的开发方法,最后将该模型应用于大型网站的web日志数据预处理过程中。针对该模型我们还设计了一种有效的基于分布式的预处理模式。该模式首先在各分布式服务器上进行关联匹配,然后将各个服务器上的挖掘结果合成。这有利于减轻网络频繁的通讯负担,体现并行计算、异步挖掘、异构数据规约的优势。同时,它允许程序员可以不需要有什么并发处理或者分布式系统的经验,就可以处理超大的分布式系统得资源。除了数据挖掘之外,该模型还可以应用在诸如图片存储、搜索引擎、网格计算等需要处理大数据量的网络应用中。本课题的特点是将研究的模型与实际业务应用相结合,利用前沿的分布式框架技术来很好的满足项目的需求,并将模型部署到实例当中,用实验结果来检验模型的实用价值,比如高效率、低成本、可拓展性和易维护性等。在与原来的预处理系统相融合的基础上,我们还对初级的模型进行了性能的优化,主要包括:简化规则的改进、多任务的优先级设定和网络负载平衡算法的优化。
|
全文目录
摘要 4-5 ABSTRACT 5-10 第1章 绪论 10-16 1.1 课题研究背景 10-13 1.1.1 项目背景 10-12 1.1.2 技术背景 12-13 1.2 主要研究内容 13-14 1.3 课题研究目标 14 1.3.1 基本目标 14 1.3.2 高级目标 14 1.4 论文结构 14-16 第2章 分布式系统关键技术 16-30 2.1 分布式系统模型简介 16-25 2.1.1.Google的GFS 16-17 2.1.2.Apache的Hadoop 17-18 2.1.3.Memcached 18-20 2.1.4.mogileFS 20 2.1.5.Amazon的SimpleDB 20-21 2.1.6.IBM的Blue Cloud 21-22 2.1.7.Peer to Peer 22-25 2.2 分布式系统基本算法 25-29 2.2.1.存储算法 25-27 2.2.2.MapReduce算法 27-29 2.3 本章小结 29-30 第3章 HADOOP的整体构架 30-47 3.1 HADOOP核心组件概述 30-31 3.1.1.Hadoop Map/Reduce 30-31 3.1.2.Hadoop DFS 31 3.2 HADOOP分布式文件系统(HDFS) 31-41 3.2.1.假设和目标 32-33 3.2.2.名称节点和数据节点 33-34 3.2.3.文件系统命名空间 34 3.2.4.数据复制 34-36 3.2.5.持久化文件系统元数据 36-37 3.2.6.通信协议 37 3.2.7.健壮性 37-39 3.2.8.数据组织 39-40 3.2.9.空间回收 40-41 3.3 MAPREDUCE并行编程模型在HADOOP中的实现 41-45 3.3.1.映射(Map) 41-42 3.3.2.混合(Combine) 42 3.3.3.规约(Reduce) 42 3.3.4.MapReduce实现中的其他关键技术 42-44 3.3.5.MapReduce执行流程 44-45 3.4 HADOOP MAPREDUCE模型调度和容错机制分析 45-46 3.5 本章小结 46-47 第4章 海量数据处理模型设计 47-59 4.1 需求分析 47 4.2 设计思想 47-49 4.2.1 拆分 48 4.2.2 重构 48-49 4.2.3 融合 49 4.3 模型框架 49-50 4.4 功能模块 50-57 4.4.1 日志收集 50 4.4.2 格式清洗 50-51 4.4.3 导入DFS 51-52 4.4.4 规则计算 52-56 4.4.5 导出DFS 56-57 4.4.6 清理历史数据 57 4.4.7 监控报警 57 4.5 性能优化 57-58 4.5.1 分类函数 57 4.5.2 排序 57-58 4.5.3 引入混合函数(Gombine) 58 4.5.4 记录状态信息 58 4.6 本章小结 58-59 第5章 海量数据处理模型部署 59-64 5.1 方案部署 59-63 5.1.1 硬件环境 59 5.1.2 软件环境 59-60 5.1.3 运行实例配置 60-63 5.2 结果分析 63 5.3 本章小结 63-64 第6章 结论和展望 64-66 6.1 结论 64-65 6.2 展望 65-66 参考文献 66-68 附录 68-70 致谢 70-71 攻读硕士学位期间发表的学术论文目录 71
|
相似论文
- Ad-Hoc网络多信道MAC层协议的信道分配问题的研究,TN929.5
- 分布式系统的故障注入方法研究,TP338.8
- 并行分布式网络模拟器PDNS容错技术的研究,TP302.8
- 海量数据压缩、操作和处理方法的研究,TP311.13
- 基于BAP的数据压缩、操作与查询处理系统的实现,TP311.13
- 面向海量邮件的检索系统研究与实现,TP393.098
- 含分布式电源的微电网控制策略研究,TM61
- 基于移动Agent的分布式网络通信机制的研究,TP393.02
- 基于粗糙集的城市区域交通绿时控制系统研究,TP18
- 基于分布式环境压力测试问题的研究,TP311.52
- 一种可视化的分布式数据集成模型的研究与实现,TP311.52
- 分布式事务处理协议的研究与应用,TP311.13
- 基于Map/Reduce框架的分布式日志分析系统的研究及应用,TP311.52
- 基于Oracle的移动彩铃分布式数据库设计与实现,TP311.13
- 基于Hadoop的在线购物原型系统的设计与实现,TP311.52
- 分布式视频编码边信息生成研究,TN919.81
- 基于分布式三层应用的设备管理信息系统的开发和研究,TP311.52
- 基于WCF框架的管制信息系统的设计与实现,TP311.52
- 基于高斯过程的在线建模问题研究,TP181
- 基于LDPCA的分布式视频编码中的非均衡编码,TN919.81
- 分布式喷泉码的应用研究,TN911.2
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 软件工程 > 软件开发
© 2012 www.xueweilunwen.com
|