学位论文 > 优秀研究生学位论文题录展示

MapReduce计算任务调度的资源配置优化研究

作 者: 韩海雯
导 师: 齐德昱
学 校: 华南理工大学
专 业: 计算机应用技术
关键词: MapReduce编程模型 运行概貌 性能预测 性能调优 任务调度 资源感知
分类号: TP311.13
类 型: 博士论文
年 份: 2013年
下 载: 299次
引 用: 0次
阅 读: 论文下载
 

内容摘要


大数据处理平台中任务密度和数据厚度不断增加,平台资源规模也随之不断扩展。面对错综复杂的大数据计算任务串并行执行过程和并发调度过程,如何合理配置平台资源,这直接决定了大数据处理平台的业务承载能力。现有的以面向数据并行编程模型为核心的大数据处理技术,主要着眼于计算任务调度执行过程中各种资源的并行化及相关伸缩性实现研究,却在基于不同用户和不同计算任务间相异的资源需求展开资源配置优化方面尚未展开充分的研究。大数据处理平台的资源配置优化问题,是大数据应用发展推动下形成的重要研究领域,目前相关的研究工作仍处于起步阶段。瞄准这一薄弱点,着眼于新兴的MapReduce大数据处理框架,本文对大数据处理技术特点和MapReduce计算任务调度执行过程进行了全面而深入的分析,并提出了资源配置优化的系统解决方案,从纵向的单计算任务串行执行和横向的多计算任务并发调度这两个层面对大数据处理平台资源的配置进行优化,以达到提高大数据处理平台资源利用率、加强平台业务承载能力的最终目的。本文的主要研究工作和创新点概括如下:1.从大数据处理显著的动态特性出发,为构建自适应的资源配置优化体系框架,提出计算任务运行概貌概念,为大数据处理计算任务塑型负载表征。由此出发,基于新兴大数据处理系统—MapReduce编程模型及其支撑系统的工作原理和工作机制,对MapReduce计算任务运行概貌的实际结构及组成字段进行了详细的设计和构建。进一步地,基于BTrace技术开发了非入侵式的动态探针程序,实现对MapReduce计算任务实际执行情况的细粒度实时探测,并生成具体的计算任务运行概貌值。2.基于MapReduce计算任务运行概貌,从纵向的单MapReduce计算任务串行执行层面,提出一种自适应动态资源配置自调优方法,即运行概貌-性能预测-性能优化(Profile-Predict-Optimize,PPO)方法,并依次构建了相应的MapReduce计算任务性能预测模型和MapReduce计算任务性能优化模型。其中,MapReduce计算任务性能预测模型采用基于已知计算任务运行概貌及假设计算任务资源配置计划的白盒分析方法和基于决策树学习的黑盒评估方法等进行综合建模,实现对计算任务执行性能的预测和估算。MapReduce计算任务性能优化模型则在此基础上进一步采用子空间分解和递归随机搜索技术对庞大而高维的资源配置计划解空间进行有效搜索,并基于用户优化目标和相应约束条件进行寻优比较,求出资源配置计划最优解。深入的实验评测结果表明,性能预测模型在运行探针程序额外开销下,会产生平均15.1%的计算任务执行时间过量预测,但基本能够清晰有效地识别出导致好的优化效果的计算任务配置参数值;与目前常用的经验规则方法相比,性能优化模型能在多计算任务并发执行中把计算任务执行时长改善幅度的平均值提高42%、最大值提高25.7%。3.基于计算任务运行概貌和计算任务性能预测模型,从横向的多MapReduce计算任务并发调度层面,提出一种自适应的资源感知动态并发调度方法(Resource-awareDynamic Scheduler,RDS),并据此设计和开发了RDS调度器原型。RDS调度器创新性地在多任务并发调度过程中纳入了对来自多用户的不同计算任务完成质量需求的考虑,面向多个动态随机到达的MapReduce计算任务,通过资源放置矩阵感知系统资源使用情况的最新状态,基于用户计算任务完成质量需求建立计算任务效用评估模型,以计算任务效能总值最大化为调度目标,不断动态更新计算任务在各处理机节点的资源调度分配,以达到满足平台多用户计算任务完成质量要求和提高平台总体资源利用率的双赢。综合评测结果表明, RDS调度器能够对平台资源在多个并发执行的计算任务间的分配情况进行动态调整,在放松的计算任务完成时长目标和紧缩的计算任务完成时长目标下,其表现均优于Hadoop系统提供的公平调度器,达到与其相比5-100%的计算任务执行时长的缩减。

全文目录


摘要  5-7
Abstract  7-13
第一章 绪论  13-30
  1.1 大数据及大数据处理  13-19
    1.1.1 大数据和大数据应用  13-15
    1.1.2 大数据处理  15-16
    1.1.3 大数据处理系统  16-18
    1.1.4 大规模大数据处理平台—云计算平台  18-19
  1.2 面向数据并行编程模型  19-24
    1.2.1 面向数据并行编程模型  19-21
    1.2.2 相关研究  21-24
  1.3 大数据处理与大数据处理平台带来的挑战  24-26
  1.4 本文的主要贡献  26-28
  1.5 本文的结构安排  28-30
第二章 MapReduce编程模型及其支撑系统  30-56
  2.1 MapReduce框架体系及其应用  30-36
    2.1.1 MapReduce编程模型  30-31
    2.1.2 MapReduce编程模型的支撑系统-Hadoop系统  31-35
    2.1.3 弹性MapReduce及其易用性问题  35-36
  2.2 MapReduce计算任务的执行及其资源配置优化  36-43
    2.2.1 MapReduce计算任务执行过程  37-38
    2.2.2 MapReduce计算任务执行过程中的资源配置优化问题  38-40
    2.2.3 计算任务及其资源配置的形式化定义  40-41
    2.2.4 MapReduce计算任务执行过程中的资源配置优化  41-43
  2.3 多MapReduce计算任务并发调度过程中的资源配置优化  43-50
    2.3.1 云计算平台的多任务并发调度概述  44-45
    2.3.2 传统的多任务并发调度方法及资源配置优化  45-46
    2.3.3 Hadoop支撑系统现有的多任务并发调度方法  46-48
    2.3.4 现有多任务并发调度技术中存在的问题  48-50
  2.4 实例分析:资源配置计划对MapReduce计算任务执行性能的影响  50-55
  2.5 本章小结  55-56
第三章 计算任务运行概貌模型的构建和实现  56-70
  3.1 计算任务运行概貌的定义和构建  56-60
    3.1.1 计算任务运行概貌的定义  56-57
    3.1.2 构建计算任务运行概貌  57-60
  3.2 生成计算任务运行概貌  60-64
    3.2.1 监测技术概述  61-62
    3.2.2 运行状态探针  62-64
  3.3 近似运行概貌  64-65
  3.4 实验和评估  65-69
    3.4.1 实验一:验证基于计算任务运行概貌分析的计算任务执行性能优化效果  65-68
    3.4.2 实验二:验证计算任务近似运行概貌对计算任务运行概貌的可替代性  68-69
  3.5 本章小结  69-70
第四章 基于PPO方法的MapReduce计算任务自调优系统  70-108
  4.1 概述  70-79
    4.1.1 传统数据处理调优技术  71-72
    4.1.2 传统调优方法面临的挑战  72-75
    4.1.3 大数据处理调优技术发展现状  75-77
    4.1.4 PPO方法概述  77-79
  4.2 MapReduce计算任务性能预测模型  79-99
    4.2.1 MapReduce计算任务性能预测概述  79-81
    4.2.2 总体设计思路  81
    4.2.3 白盒基数模型及数据流统计字段值的估算过程  81-82
    4.2.4 黑盒评估模型及成本统计字段值的估算过程  82-85
    4.2.5 白盒分析模型及数据流状态字段和成本状态字段值的估算过程  85-99
  4.3 MapReduce计算任务性能优化模型  99-107
    4.3.1 MapReduce计算任务性能优化模型的形式化定义  99-100
    4.3.2 计算任务配置参数优化  100-105
    4.3.3 计算任务集群资源优化  105-107
  4.4 本章小结  107-108
第五章 资源感知的自适应动态并发调度器研究  108-124
  5.1 概述  108-112
    5.1.1 多任务并发调度中的用户Qos支持和资源管理技术发展现状  109-111
    5.1.2 面临的挑战  111
    5.1.3 RDS方法  111-112
  5.2 资源感知的动态资源管理模型  112-116
    5.2.1 动态资源管理模型的形式化描述  113-114
    5.2.2 基于资源放置情况的计算任务效用评估模型  114-116
  5.3 基于动态资源管理模型的资源放置算法  116-119
    5.3.1 总体思路  116
    5.3.2 算法描述  116-119
  5.4 RDS调度器系统  119-123
    5.4.1 系统体系架构  119-120
    5.4.2 组成部件  120-121
    5.4.3 工作机制  121-122
    5.4.4 计算任务资源需求概貌  122-123
  5.5 本章小结  123-124
第六章 资源配置优化系统评测  124-149
  6.1 运行及评测环境  124-127
    6.1.1 搭建Hadoop集群  124-125
    6.1.2 搭建Hadoop集群下的运行环境  125-127
  6.2 PPO自调优系统评测  127-138
    6.2.1 评测实例  127-128
    6.2.2 计算任务运行概貌模型评测  128-130
    6.2.3 性能预测模型评测  130-133
    6.2.4 性能调优模型评测  133-138
  6.3 资源感知的自适应动态调度器评测  138-147
    6.3.1 评测实例  138-140
    6.3.2 实验一:基于放松时长约束的运行效果评测  140-146
    6.3.3 实验二:基于缩紧时长约束的运行效果评测  146-147
  6.4 本章小结  147-149
结论  149-152
  本文总结  149-150
  进一步的研究方向  150-152
参考文献  152-166
攻读博士学位期间取得的研究成果  166-167
致谢  167-168
附件  168

相似论文

  1. 液力减速器制动性能及用于飞机拦阻的仿真研究,TH137.331
  2. 基于混合自适应遗传算法的动态网格调度问题研究,TP393.09
  3. 网格任务调度算法研究及其有色Petri网的建模与仿真,TP301.1
  4. 嵌入式实时操作系统MQX的内核分析及应用研究,TP316.2
  5. 基于MPSO算法的云计算任务调度策略研究,TP3
  6. 复掺矿物掺合料混凝土性能及其抗压强度预测模型研究,TU528
  7. 高速网络环境下的入侵检测系统的研究,TP393.08
  8. 多核系统中实时任务调度算法的研究,TP332
  9. 基于智能的分布式算法的设计与实现,TP338.8
  10. 基于.NET Remoting分布式技术改进投资银行风险管理系统性能的研究与应用,TP311.52
  11. 市场基准参考系统设计和实现,TP311.52
  12. 基于水力损失模型的汽车水泵性能预测的研究,U464.138.1
  13. 小型无人直升机飞行控制与任务调度,V249.1
  14. 多核集群环境下并行地理计算执行时间预测技术研究,TP338.6
  15. 基于改进PSO算法的网格任务调度算法,TP393.09
  16. 存储区域网络在联机事务处理下的性能优化及应用,TP333
  17. 面向任务调度的集群功耗管理,TP393.01
  18. 实时操作系统核心算法的硬件实现,TP316.2
  19. 数据仓库ETL分配与调度模型研究,TP311.13
  20. 可重构系统操作系统布局与任务调度算法设计与实现,TP316
  21. 基于PADK的音频编码器开发平台设计,TN762

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com