学位论文 > 优秀研究生学位论文题录展示

MapReduce FairScheduler的高性能优化及超大规模集群模拟器设计及实现

作 者: 潘旭明
导 师: 周波
学 校: 浙江大学
专 业: 计算机技术与应用
关键词: 分布式计算 MapReduce Hadoop Shuffle独立 模拟器 并发提交 超大规模集群 延迟调度
分类号: TP311.13
类 型: 硕士论文
年 份: 2012年
下 载: 151次
引 用: 0次
阅 读: 论文下载
 

内容摘要


当前互联网面临着PB级数据集的存储和计算的难题,传统的单机内存式编程已经达到其瓶颈,而Hadoop正在被越来越多地用来处理海量数据的分布式存储和计算,是一种易扩展的分布式计算框架,将廉价的PC节点联合起来提供提供存储和计算服务,其MapReduce框架为用户提供了容易使用的并行处理大规模数据的编程模型。以此为背景,本文深入分析了MapReduce的工作原理和机制,以及Hadoop平台的主从式系统架构。Facebook在其自身数据规模大,小作业多,对作业响应时间要求高的特点下,设计并实现了MapReduce的公平调度器,但是在长时间的批处理作业和短时间的交互型作业混合的超大集群中,公平调度器的性能会严重减弱,也使得公平调度器普适性不高。本文基于Facebook的公平调度器,深入分析了其性能瓶颈,指出优化难点,并进行针对性的优化:(1)延迟调度策略(2) Shuffle独立(3)多任务分配(4)oob心跳,及其他的一些优化,从而解决数据本地性差和reduce的计算资源利用率不高等问题,从响应时间和吞吐量两个方便提高了调度器性能,并进行相应的分析。随着Hadoop的普及,Hadoop集群的benchmark测试工具也将越来越被重视,在此背景下,结合真实的线上生产集群,本文设计并实现了超大规模hadoop集群的模拟器,并对其功能和性能做了验证性测试,其主要功能有(1)用1~2台服务器模拟超大规模集群,(2)模拟客户端并发提交作业,提供全面的benchmark测试。基于模拟器搭建了2000个节点的模拟集群,分别对FIFO,FairScheduler和新的公平调度器进行全面的对比测试。结果证明,新的公平调度器在复杂的超大规模集群中,可以让作业在更加公平的环境下竞争,整个集群的吞吐量比优化前的公平调度器提高平均25%,最高40%;单个作业的平均响应时间增长了5%~25%。

全文目录


相似论文

  1. 自动变速器负载模拟器的设计与研究,TH132.46
  2. 低轨卫星移动信道特性模拟硬件实现,TN927.23
  3. 飞行模拟中飞行管理计算机系统CDU组件设计与仿真,TP391.9
  4. 空中目标抗干扰识别跟踪系统,TN215
  5. DBF基带数据模拟器的设计与研制,TN955
  6. 基于Map/Reduce框架的分布式日志分析系统的研究及应用,TP311.52
  7. 基于Hadoop的在线购物原型系统的设计与实现,TP311.52
  8. 基于Hadoop的移动学习系统设计与实现,G434
  9. 基于HADOOP架构的社保项目网络日志分析系统的研究,TP311.52
  10. 基于MapReduce模型的eMTM三维人体模型生成引擎,TP391.41
  11. 大容量光伏并网系统相关问题研究,TM615
  12. 多音频短波信道模拟器的研究与实现,TN925
  13. 构建分布式系统的关键技术研究与实现,TP338.8
  14. 基于云计算的软件资源服务平台研究,TP311.52
  15. 海量数据的快速查询算法研究,TP311.13
  16. 高速网络环境下的入侵检测系统的研究,TP393.08
  17. 云计算平台上的增量学习研究,TP311.13
  18. 基于Hadoop的文本分类研究,TP391.1
  19. 基于Hadoop的分布式服务注册中心研究和实现,TP393.09
  20. 可见光目标模拟系统分析及结构优化设计,V216.8
  21. 室内测量GaAs多结级联太阳电池特性参数分析,TM914.4

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com