学位论文 > 优秀研究生学位论文题录展示
Hadoop平台下的作业调度算法研究与改进
作 者: 夏祎
导 师: 彭新一
学 校: 华南理工大学
专 业: 计算机应用技术
关键词: Hadoop 作业调度 朴素贝叶斯分类
分类号: TP301.6
类 型: 硕士论文
年 份: 2010年
下 载: 1323次
引 用: 9次
阅 读: 论文下载
内容摘要
近来,云计算技术在工业界和学术界共同推动下取得了巨大的发展,大量的云计算系统投入使用。其中,大多数的云计算系统采用Hadoop平台来开发和调度程序。Hadoop平台是一个在集群上运行大型数据库处理应用程序的开放式源代码框架,其最大的优点就是实现了并行化对应用开发者的透明处理,应用开发者可以像开发普通程序一样来开发云计算的应用系统,至于并行化则由Hadoop底层自动完成。但是,Hadoop还是一个比较年轻的平台,发展时间较短,研究还不够深入,在很多地方还有改进的必要和可能。作业调度技术作为Hadoop平台的核心技术之一,其主要功能是对作业执行的顺序以及计算资源的分配进行控制,这直接关系到Hadoop平台的整体性能和系统资源的利用情况。但是目前这一技术尚处于基础阶段,现有的作业调度算法均存在着一些不足之处,因此,通过对现有作业调度算法的研究,改进其不足之处,对提高Hadoop平台的整体性能和系统资源的利用具有重要的意义。本文主要研究工作和贡献如下:通过广泛的文献调研,本文首先对Hadoop平台的产生的相关背景、平台架构和核心部分进行了研究;然后对Hadoop平台下的作业调度技术进行了深入的研究,在详细分析三种现有的作业调度算法-FIFO算法、公平调度算法(Fair Scheduler)和计算能力调度算法(Capacity scheduler)的产生背景、算法思想、设计思路和具体实现以及不足之处的基础上,提出了我们的基于朴素贝叶斯分类的作业调度算法,并对该算法如何解决现有算法的不足、要达到的目标、算法流程、主要组成、设计和实现等进行了详细的介绍;最后对我们的算法进行编程实现和实验验证,实验结果表明我们的算法成功地实现了预期的目标,解决了现有算法的不足,并且在性能测试中表现出色。
|
全文目录
摘要 5-6 ABSTRACT 6-9 第一章 绪论 9-12 1.1 论文研究背景及意义 9 1.2 论文研究内容 9-10 1.3 论文组织结构 10-12 第二章 Hadoop 平台介绍 12-34 2.1 Hadoop 平台背景 12-18 2.1.1 技术背景 12-16 2.1.2 应用背景 16-18 2.2 Hadoop 平台核心部分 18-33 2.2.1 Hadoopp 分布式文文件系统HDFS 19-26 2.2.2 Hadoop 的MapReduce 计算架构 26-33 2.3 本章小结 33-34 第三章 Hadoop 平台的作业调度研究 34-53 3.1 作业调度概述 34-35 3.2 作业调度流程 35-38 3.3 现有作业调度算法 38-51 3.3.1 FIFO 调度算法 38-40 3.3.2 公平调度算法(Fair Scheduler) 40-48 3.3.3 计算能力调度算法(Capacity Scheduler) 48-51 3.4 本章小结 51-53 第四章 基于朴素贝叶斯分类的作业调度算法 53-70 4.1 产生背景 53-54 4.2 算法内容 54-59 4.2.1 算法思想 54-58 4.2.2 算法流程 58-59 4.3 算法实现 59-63 4.3.1 实现概述 59-60 4.3.2 具体实现 60-63 4.4 实验验证 63-68 4.4.1 评估方法和工作量描述 63-64 4.4.2 学习能力实验 64-66 4.4.3 决策正确率实验 66-67 4.4.4 性能比较实验 67-68 4.4.5 实验结论 68 4.5 本章小结 68-70 总结 70-72 参考文献 72-74 致谢 74
|
相似论文
- 微粒群算法的改进与应用研究,TP18
- 基于Map/Reduce框架的分布式日志分析系统的研究及应用,TP311.52
- 基于Hadoop的在线购物原型系统的设计与实现,TP311.52
- 基于云计算的软件资源服务平台研究,TP311.52
- 高速网络环境下的入侵检测系统的研究,TP393.08
- 云计算平台上的增量学习研究,TP311.13
- 云环境下MapReduce容错技术的研究,TP302.8
- 新型集装箱码头混合装卸优化调度策略研究,U691.3
- 基于云存储的手机数据备份系统,TP309.3
- 面向海量数据的云存储系统实现与应用研究,TP333
- 基于云计算的海量视频转换平台的设计与实现,TP311.52
- 基于IaaS云计算的Web应用技术研究,TP393.09
- 基于Hadoop的倒排索引技术的研究,TP391.3
- 面向工程监理的多Agent信息智能检索机制研究,TP391.3
- 基于云计算的海量数据存储技术的研究及应用,TP333
- 基于Hadoop的海量影像数据管理关键技术研究,TP751
- 非结构化数据统一访问平台及索引技术研究,TP311.52
- 分布式图片搜索引擎设计与实现,TP391.41
- MapReduce集群多用户作业调度方法的研究与实现,TP311.13
- 基于HDFS的多用户并行文件IO的设计与实现,TP338.6
- 基于时空折衷算法的Word文档破解研究,TP391.12
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 一般性问题 > 理论、方法 > 算法理论
© 2012 www.xueweilunwen.com
|