学位论文 > 优秀研究生学位论文题录展示
基于Map/Reduce框架的分布式日志分析系统的研究及应用
作 者: 刘燕
导 师: 潘伟
学 校: 东北师范大学
专 业: 计算机软件与理论
关键词: 分布式 MapReduce Hadoop Hadoop基准测试性能优化 文件系统 IO调度器
分类号: TP311.52
类 型: 硕士论文
年 份: 2011年
下 载: 80次
引 用: 0次
阅 读: 论文下载
内容摘要
本论文研究了云计算集群中基于Hadoop框架的分布式日志分析系统,利用Map Reduce计算模型进行分布式计算,并结合HDFS进行分布式存储,利用分而治之的策略去分析企业云计算平台中产生海量数据,监控云计算集群中服务器的运行状态,并从海量数据中挖掘有价值的资源。本系统首先在被监控的集群上使用RandomAccess类收集包括各个节点上的系统日志、线程池中产生的日志等数据。然后,使用SSH工具将这些收集的日志数据传输到负责分析数据的集群中去,在这个过程中,使用一些聚类的方法将数据重新组织。之后,在负责分析数据的集群上,我们在Hadoop平台上,分别实现了MapReduce框架中的map模块和reduce模块,以此达到分布式分析日志的功能,并根据用户自定义的配置,实现定制化的日志分析。最后,导入生成的分析报告到Excel VBA,将图形化的分析报告呈现给用户。另外,我们将该分布式日志分析系统应用在Hadoop基准测试中,进行了大量的实验和数据分析,描述了在不同底层IO软件(主要包括IO调度器和文件系统)的选择上IO密集型基准测试的性能比较,方便Hadoop用户选择这些底层软件。并通过调节这些底层软件层的参数,对Hadoop上运行的MapReduce程序提供了优化方案。我们比较了TeraSort基准测试在几种不同IO调度算法和几大代表性的文件系统上的测试性能,并使用之前研究的分布式日志分析工具对其进行数据的收集与分析。之后,我们通过对最终结果进行优化,比如改进IO调度算法和调节文件系统参数,进一步优化了Hadoop IO密集型基准测试的性能。
|
全文目录
摘要 4-5 Abstract 5-6 目录 6-9 第1章 绪论 9-12 1.1 研究背景 9-10 1.2 研究内容 10 1.3 研究现状 10-11 1.4 本章小结 11-12 第2章 理论基础知识 12-19 2.1 MapReduce 计算模型 12-14 2.1.1 MapReduce 计算流程 12-13 2.1.2 MapReduce 架构的特点 13 2.1.3 Map Reduce 架构的操作模块 13-14 2.2 Hadoop 介绍 14-16 2.2.1 Hadoop 定义与架构 14 2.2.2 Hadoop 集群上的并行计算 14-16 2.3 HDFS 介绍 16-17 2.3.1 HDFS 架构 16 2.3.2 HDFS 设计特点 16-17 2.4 本章小结 17-19 第3章 系统设计 19-25 3.1 系统整体架构 19-20 3.1.1 系统架构图 19 3.1.2 系统业务流程 19-20 3.2 系统结构与功能 20 3.2.1 系统组织结构图 20 3.2.2 系统功能简介 20 3.3 各模块功能 20-21 3.3.1 数据生成模块 20 3.3.2 数据收集模块 20 3.3.3 数据传输模块 20-21 3.3.4 数据重组模块 21 3.3.5 数据分析模块 21 3.3.6 报告生成模块 21 3.4 系统用例 21-23 3.4.1 系统用例分析 21-22 3.4.2 系统用例图 22-23 3.5 本章小结 23-25 第4章 系统实现 25-38 4.1 系统开发环境 25-26 4.1.1 硬件环境 25 4.1.2 软件环境 25-26 4.2 数据生成模块 26-28 4.2.1 数据生成业务流程 26 4.2.2 数据类型 26 4.2.3 数据格式与生成方式 26-28 4.3 数据收集模块 28-29 4.3.1 数据收集业务流程 28-29 4.3.2 RandomAccessFile 29 4.4 数据传输模块 29-30 4.4.1 数据传输业务流程 29-30 4.4.2 SSH 网络协议 30 4.5 数据重组模块 30-32 4.5.1 数据重组业务流程 30-31 4.5.2 数据重组方式 31-32 4.6 数据分析模块 32-36 4.6.1 数据分析业务流程 32-33 4.6.2 生成报告示例 33-34 4.6.3 核心业务实现 34-36 4.7 报告生成模块 36 4.8 压力测试 36-37 4.8.1 测试描述 36 4.8.2 测试结果分析 36-37 4.9 本章小结 37-38 第5章 系统应用 38-57 5.1 Hadoop 基准测试 38-40 5.1.1 基准测试介绍 38 5.1.2 基准测试环境配置 38-40 5.2 Hadoop 基准测试性能分析 40-52 5.2.1 基于IO 调度算法的Hadoop 基准测试 41-43 5.2.2 基于文件系统的Hadoop 基准测试 43-52 5.3 Hadoop 基准测试性能优化 52-56 5.3.1 基于IO 调度算法的测试性能优化 52-53 5.3.2 基于文件系统的测试性能优化 53-56 5.4 本章小结 56-57 第6章 结论 57-59 参考文献 59-61 后记 61-62 在学期间公开发表论文情况 62
|
相似论文
- Ad-Hoc网络多信道MAC层协议的信道分配问题的研究,TN929.5
- 分布式系统的故障注入方法研究,TP338.8
- 并行分布式网络模拟器PDNS容错技术的研究,TP302.8
- 面向海量邮件的检索系统研究与实现,TP393.098
- 含分布式电源的微电网控制策略研究,TM61
- 基于移动Agent的分布式网络通信机制的研究,TP393.02
- 基于分布式环境压力测试问题的研究,TP311.52
- 一种可视化的分布式数据集成模型的研究与实现,TP311.52
- 分布式事务处理协议的研究与应用,TP311.13
- 基于Oracle的移动彩铃分布式数据库设计与实现,TP311.13
- 基于Hadoop的在线购物原型系统的设计与实现,TP311.52
- 分布式视频编码边信息生成研究,TN919.81
- 基于ARM的嵌入式实时操作系统的设计与开发,TP316.2
- 基于分布式三层应用的设备管理信息系统的开发和研究,TP311.52
- 基于eCos和ARM7的污水在线监测传输终端的设计与实现,TP311.52
- 基于WCF框架的管制信息系统的设计与实现,TP311.52
- 基于LDPCA的分布式视频编码中的非均衡编码,TN919.81
- 分布式喷泉码的应用研究,TN911.2
- 分布式视频编码中边信息技术研究,TN919.81
- 压缩感知在无线通信网络异常事件检测中的应用研究,TN929.5
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 软件工程 > 软件开发
© 2012 www.xueweilunwen.com
|