学位论文 > 优秀研究生学位论文题录展示

基于云计算的科学工作流数据存储策略研究

作　者: 刘少伟
导　师: 宋君强
学　校: 国防科学技术大学
专　业: 计算机科学与技术
关键词: 云计算科学工作流数据相关数据放置 Nimbus
分类号: TP333
类　型: 硕士论文
年　份: 2011年
下　载: 194次
引　用: 1次
阅　读: 论文下载

内容摘要

在天气预测、载人航天、基因生物计算、高能物理数据分析、生命科学计算、地震预测等复杂科研领域,问题求解越来越需要不同领域、不同学科、不同地域的科学家紧密合作才能得以有效解决,而科学工作流为这种异地科学家进行科研协作提供了有效手段。科学工作流被用来自动化科学任务的编排、执行、监控、以及追踪。传统上,科学工作流被部署在超级计算机、分布式集群系统以及网格系统等复杂且昂贵的分布式计算机系统上。随着问题求解规模和复杂性递增,一个大型复杂科学工作流通常包含成千上万个科学计算任务,这些任务本身不但涉及大规模的数据处理,任务间往往蕴含着海量的数据传输,因此,如何确保科学工作流在分布式计算环境中的高效执行一直是科学计算领域和分布计算领域共同面临的热点和难点问题。近来,随着分布计算技术的不断发展,在并行计算和网格计算等计算模式之后,又一种新的计算模型---云计算模型得到了计算机工业界和学术界的广泛关注。云计算技术是一种共享基础架构的方法,它通过虚拟技术将分布在不同地理位置的计算资源和存储资源虚拟成一个资源池,基于这种方式,云计算中心可以为科学工作流的执行提供灵活可伸缩、动态可扩展的计算资源和海量存储资源,而且成本低廉。尽管云计算技术高效、灵活、可定制的特点为解决科学工作流运行过程中遇到的难题提供了一种新的思路,但是云环境中跨数据中心科学工作流的高效执行仍然面临数据交互量大的问题。针对该问题,本文通过研究高效的数据放置和存储策略来有效减少任务间数据传输量,进而达到优化科学工作流执行的目的,具体工作如下:(1)、提出了一种改进的基于聚类的数据存储策略方法。传统基于聚类的数据放置策略方法尽管可以有效减少跨数据中心之间的数据移动次数,但是该方法并没有考虑科学工作流中数据集大小,一旦移动次数较少同时所移动的数据规模较大,总的数据传输开销不一定降低。针对这些不足,本文在原有方法基础上增加了对数据集大小的考虑,并从数据相关、任务调度、中间数据集放置三个方面对传统算法进行了优化和改进,实验表明,改进后的算法可以有效减少数据的总移动开销。(2)、提出了一种基于数据相关的两阶段高效数据放置和任务调度方法。本文在上述工作基础上,同时建立了一种基于数据相关的两阶段高效数据放置策略和任务调度策略:即在工作流建立阶段根据数据依赖关系图把关系紧密型数据集尽可能放置到同一数据中心;而后任务调度策略在运行阶段将任务调度到数据依赖最大的数据中心执行,并将新产生数据集放置到相关度最高的数据中心。实验表明,该方法能有效减少跨数据中心科学工作流执行时的数据传输量,从而提升了科学工作流执行效率以及减少了云资源租赁费用。

全文目录

摘要  9-11
ABSTRACT  11-13
第一章绪论  13-21
  1.1 引言  13-15
    1.1.1 课题研究背景  13
    1.1.2 研究的目的和意义  13-15
  1.2 课题相关研究现状  15-18
    1.2.1 国内外研究现状及分析  15-17
    1.2.2 未来发展趋势分析  17-18
  1.3 研究内容和创新点  18-19
  1.4 论文结构  19
  1.5 本章小结  19-21
第二章云计算和科学工作流相关理论  21-33
  2.1 云计算平台  21-28
    2.1.1 云计算概念及其特点  21-23
    2.1.2 云计算系统的体系结构  23-24
    2.1.3 云计算及相关计算的对比  24-25
    2.1.4 几种云计算平台简介  25-28
  2.2 科学工作流  28-30
    2.2.1 科学工作流概念  28-29
    2.2.2 几个科学工作流实例  29-30
  2.3 基于云计算环境执行科学工作流的优势与不足  30-31
    2.3.1 云计算环境下执行科学工作流的优势  30-31
    2.3.2 云计算环境下执行科学工作流的不足  31
  2.4 本章小结  31-33
第三章科学工作流云计算实验平台的建立  33-49
  3.1 Nimbus 开源云计算平台  33-38
    3.1.1 Nimbus 简介  33-35
    3.1.2 Nimbus 体系结构  35-37
    3.1.3 Nimbus 执行流程  37-38
  3.2 SwinDeW-C 科学工作流管理系统  38-43
    3.2.1 SwinDeW-C 简介  38
    3.2.2 SwinDeW-C 体系结构  38-39
    3.2.3 单个节点的组成结构  39-42
    3.2.4 SwinDeW-C 的数据管理部件  42-43
  3.3 搭建Nim-SwinDeW 实验平台  43-47
    3.3.1 Nim-SwinDeW 简介  43-44
    3.3.2 Nim-SwinDeW 体系结构  44
    3.3.3 Nim-SwinDeW 执行流程  44-45
    3.3.4 部署Nim-SwinDeW 实验平台  45-47
  3.4 本章小结  47-49
第四章云环境下科学工作流基于聚类的数据存储策略  49-57
  4.1 基于聚类的存储策略模型  49-51
    4.1.1 符号定义  49-50
    4.1.2 科学工作流建立阶段数据放置策略  50-51
    4.1.3 运行阶段数据放置策略  51
  4.2 基于聚类的存储策略的改进  51-53
    4.2.1 问题描述  51-52
    4.2.2 改进后的聚类数据存储策略  52-53
  4.3 实验测试与结果分析  53-55
    4.3.1 实验环境  53
    4.3.2 测试结果  53-55
    4.3.3 实验结果分析  55
  4.4 本章小结  55-57
第五章云环境下科学工作流基于数据相关的两阶段数据存储策略  57-69
  5.1 问题提出  57-59
    5.1.1 相关模型和符号定义  57
    5.1.2 实例分析和问题说明  57-59
  5.2 基于数据相关的数据放置策略  59-64
    5.2.1 建立阶段数据放置策略  59-61
    5.2.2 运行阶段数据放置策略  61-64
  5.3 实验测试  64-67
    5.3.1 实验环境和相关设置  64-65
    5.3.2 数据集数量变化对结果的影响  65
    5.3.3 数据集大小取值范围对结果的影响  65-66
    5.3.4 固定数据集比例对结果的影响  66-67
    5.3.5 数据中心数量变化对结果的影响  67
  5.4 结果分析  67-68
  5.5 本章小结  68-69
第六章总结和展望  69-71
  6.1 论文总结  69
  6.2 下一步的工作方向  69-71
致谢  71-73
参考文献  73-78
作者在学期间取得的学术成果  78

基于云计算的科学工作流数据存储策略研究

内容摘要

全文目录

相似论文