学位论文 > 优秀研究生学位论文题录展示

基于Map/Reduce框架的分布式日志分析系统的研究及应用

作 者: 刘燕
导 师: 潘伟
学 校: 东北师范大学
专 业: 计算机软件与理论
关键词: 分布式 MapReduce Hadoop Hadoop基准测试性能优化 文件系统 IO调度器
分类号: TP311.52
类 型: 硕士论文
年 份: 2011年
下 载: 80次
引 用: 0次
阅 读: 论文下载
 

内容摘要


本论文研究了云计算集群中基于Hadoop框架的分布式日志分析系统,利用Map Reduce计算模型进行分布式计算,并结合HDFS进行分布式存储,利用分而治之的策略去分析企业云计算平台中产生海量数据,监控云计算集群中服务器的运行状态,并从海量数据中挖掘有价值的资源。本系统首先在被监控的集群上使用RandomAccess类收集包括各个节点上的系统日志、线程池中产生的日志等数据。然后,使用SSH工具将这些收集的日志数据传输到负责分析数据的集群中去,在这个过程中,使用一些聚类的方法将数据重新组织。之后,在负责分析数据的集群上,我们在Hadoop平台上,分别实现了MapReduce框架中的map模块和reduce模块,以此达到分布式分析日志的功能,并根据用户自定义的配置,实现定制化的日志分析。最后,导入生成的分析报告到Excel VBA,将图形化的分析报告呈现给用户。另外,我们将该分布式日志分析系统应用在Hadoop基准测试中,进行了大量的实验和数据分析,描述了在不同底层IO软件(主要包括IO调度器和文件系统)的选择上IO密集型基准测试的性能比较,方便Hadoop用户选择这些底层软件。并通过调节这些底层软件层的参数,对Hadoop上运行的MapReduce程序提供了优化方案。我们比较了TeraSort基准测试在几种不同IO调度算法和几大代表性的文件系统上的测试性能,并使用之前研究的分布式日志分析工具对其进行数据的收集与分析。之后,我们通过对最终结果进行优化,比如改进IO调度算法和调节文件系统参数,进一步优化了Hadoop IO密集型基准测试的性能。

全文目录


摘要  4-5
Abstract  5-6
目录  6-9
第1章 绪论  9-12
  1.1 研究背景  9-10
  1.2 研究内容  10
  1.3 研究现状  10-11
  1.4 本章小结  11-12
第2章 理论基础知识  12-19
  2.1 MapReduce 计算模型  12-14
    2.1.1 MapReduce 计算流程  12-13
    2.1.2 MapReduce 架构的特点  13
    2.1.3 Map Reduce 架构的操作模块  13-14
  2.2 Hadoop 介绍  14-16
    2.2.1 Hadoop 定义与架构  14
    2.2.2 Hadoop 集群上的并行计算  14-16
  2.3 HDFS 介绍  16-17
    2.3.1 HDFS 架构  16
    2.3.2 HDFS 设计特点  16-17
  2.4 本章小结  17-19
第3章 系统设计  19-25
  3.1 系统整体架构  19-20
    3.1.1 系统架构图  19
    3.1.2 系统业务流程  19-20
  3.2 系统结构与功能  20
    3.2.1 系统组织结构图  20
    3.2.2 系统功能简介  20
  3.3 各模块功能  20-21
    3.3.1 数据生成模块  20
    3.3.2 数据收集模块  20
    3.3.3 数据传输模块  20-21
    3.3.4 数据重组模块  21
    3.3.5 数据分析模块  21
    3.3.6 报告生成模块  21
  3.4 系统用例  21-23
    3.4.1 系统用例分析  21-22
    3.4.2 系统用例图  22-23
  3.5 本章小结  23-25
第4章 系统实现  25-38
  4.1 系统开发环境  25-26
    4.1.1 硬件环境  25
    4.1.2 软件环境  25-26
  4.2 数据生成模块  26-28
    4.2.1 数据生成业务流程  26
    4.2.2 数据类型  26
    4.2.3 数据格式与生成方式  26-28
  4.3 数据收集模块  28-29
    4.3.1 数据收集业务流程  28-29
    4.3.2 RandomAccessFile  29
  4.4 数据传输模块  29-30
    4.4.1 数据传输业务流程  29-30
    4.4.2 SSH 网络协议  30
  4.5 数据重组模块  30-32
    4.5.1 数据重组业务流程  30-31
    4.5.2 数据重组方式  31-32
  4.6 数据分析模块  32-36
    4.6.1 数据分析业务流程  32-33
    4.6.2 生成报告示例  33-34
    4.6.3 核心业务实现  34-36
  4.7 报告生成模块  36
  4.8 压力测试  36-37
    4.8.1 测试描述  36
    4.8.2 测试结果分析  36-37
  4.9 本章小结  37-38
第5章 系统应用  38-57
  5.1 Hadoop 基准测试  38-40
    5.1.1 基准测试介绍  38
    5.1.2 基准测试环境配置  38-40
  5.2 Hadoop 基准测试性能分析  40-52
    5.2.1 基于IO 调度算法的Hadoop 基准测试  41-43
    5.2.2 基于文件系统的Hadoop 基准测试  43-52
  5.3 Hadoop 基准测试性能优化  52-56
    5.3.1 基于IO 调度算法的测试性能优化  52-53
    5.3.2 基于文件系统的测试性能优化  53-56
  5.4 本章小结  56-57
第6章 结论  57-59
参考文献  59-61
后记  61-62
在学期间公开发表论文情况  62

相似论文

  1. Ad-Hoc网络多信道MAC层协议的信道分配问题的研究,TN929.5
  2. 分布式系统的故障注入方法研究,TP338.8
  3. 并行分布式网络模拟器PDNS容错技术的研究,TP302.8
  4. 面向海量邮件的检索系统研究与实现,TP393.098
  5. 含分布式电源的微电网控制策略研究,TM61
  6. 基于移动Agent的分布式网络通信机制的研究,TP393.02
  7. 基于分布式环境压力测试问题的研究,TP311.52
  8. 一种可视化的分布式数据集成模型的研究与实现,TP311.52
  9. 分布式事务处理协议的研究与应用,TP311.13
  10. 基于Oracle的移动彩铃分布式数据库设计与实现,TP311.13
  11. 基于Hadoop的在线购物原型系统的设计与实现,TP311.52
  12. 分布式视频编码边信息生成研究,TN919.81
  13. 基于ARM的嵌入式实时操作系统的设计与开发,TP316.2
  14. 基于分布式三层应用的设备管理信息系统的开发和研究,TP311.52
  15. 基于eCos和ARM7的污水在线监测传输终端的设计与实现,TP311.52
  16. 基于WCF框架的管制信息系统的设计与实现,TP311.52
  17. 基于LDPCA的分布式视频编码中的非均衡编码,TN919.81
  18. 分布式喷泉码的应用研究,TN911.2
  19. 分布式视频编码中边信息技术研究,TN919.81
  20. 压缩感知在无线通信网络异常事件检测中的应用研究,TN929.5

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 软件工程 > 软件开发
© 2012 www.xueweilunwen.com