学位论文 > 优秀研究生学位论文题录展示
数据密集型计算系统中的作业调度技术研究
作 者: 陈易欣
导 师: 卢锡城
学 校: 国防科学技术大学
专 业: 计算机科学与技术
关键词: 数据密集型计算 云计算 MapReduce Hadoop 负载均衡
分类号: TP311.13
类 型: 硕士论文
年 份: 2011年
下 载: 122次
引 用: 2次
阅 读: 论文下载
内容摘要
数据密集型计算是学术界在总结了工业界相应产品的经验,分析了传统的超级计算的缺陷的基础上,提出的一种重要的处理海量数据的并行计算方式。数据密集型计算方式有两个特点,一是计算时间与处理的数据量正相关,其相关程度可能会很高,基本上达到线性相关的程度,二是将计算发送到数据,而不是相反,即数据局部性。以数据密集型计算方式搭建的集群可以通过云计算的方式提供服务,即成为云计算的“云”端。数据密集型计算的重要参考原型之一就是Google的MapReduce,开源社区又以此为基础设计了Hadoop。自从Hadoop产生后,人们便对其作业调度机制进行了许多研究,主要的目标是解决Straggler问题,即出现某些运行时间显著长于其它节点的计算节点。Straggler的产生原因很复杂,可能是机器故障或网络故障,也可能是数据集的划分问题。我们认为,因低熵数据空间的划分不均,而产生的计算量的不均衡是更为本质的Straggler问题。而目前并没有一个可以较好地解决这个问题的方案。本文提出了一种运行时的负载均衡机制,在作业运行时对计算量进行均衡,从而减少了Straggler产生的可能性。在此基础上,为了减少整个作业的运行时间,根据数据局部性的原则,本文设计了数据局部性增强机制。本文以迭代式的Hadoop——HaLoop为基础,设计了实现这些机制的原型系统,并分别针对每种机制设计了实验。实验结果表明,运行时负载均衡机制能够有效地均衡计算节点的计算量,而数据局部性增强机制在理想的情况下,也能够显著地减少作业的运行时间。
|
全文目录
相似论文
- 云计算平台下的动态信任模型的研究,TP309
- 随机路由在无线传感器网络中的研究与应用,TN929.5
- 高校教务管理网上选课系统优化研究,TP393.09
- 基于Eucalyptus的教育知识服务模型设计与实现,TP393.09
- 基于云计算的数字图书馆服务模式研究,G250.76
- 基于Map/Reduce框架的分布式日志分析系统的研究及应用,TP311.52
- 基于神经网络模型预测Ad Hoc网络流量的负载均衡路由协议,TN929.5
- 空间冗余自组织网络路由协议的研究与仿真,TN929.5
- 面向云计算的动态模糊测度方法研究,TP274
- 基于云计算的图书馆信息服务研究,G252
- 基于云计算的Web教育爬虫,TP391.3
- 基于Hadoop的在线购物原型系统的设计与实现,TP311.52
- 基于软件老化的负载均衡方法,TP311.52
- 基于Hadoop的移动学习系统设计与实现,G434
- Ad Hoc网络中AOMDV-L协议的研究与实现,TN929.5
- 基于Linux集群系统的负载均衡算法研究及在Webgis中的应用,TP393.05
- 湖铁职院校园网安全体系研究与实现,TP393.18
- LBMP平台中负载均衡技术的研究与实现,TP393.09
- 面向中小型商业银行的计算机集群技术分析与设计,TP338
- 网络化福利彩票计费系统的设计与实现,TP311.52
- 基于HADOOP架构的社保项目网络日志分析系统的研究,TP311.52
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com
|