学位论文 > 优秀研究生学位论文题录展示

GRAPES有限区域切线/伴随模式高效并行算法研究

作 者: 任迪生
导 师: 赵文涛
学 校: 国防科学技术大学
专 业: 计算机科学与技术
关键词: GRAPES 有限区域 切线模式 伴随模式 并行计算
分类号: TP301.6
类 型: 硕士论文
年 份: 2010年
下 载: 23次
引 用: 0次
阅 读: 论文下载
 

内容摘要


四维变分同化技术作为数值天气预报的关键技术之一,可将不同地区、不同性质的观测资料随时间的变化信息融入到初始场,从而提高系统的预报质量,因而当前在国际上被认为是最有效的资料同化方案。但其计算过程非常复杂,程序占用内存量巨大,系统的运行时间较长。我国自主研发的新一代数值天气预报系统GRAPES(Global/Regional Assimilation and Prediction System)的四维变分同化系统(GRAPES-4DVAR)也有计算量大,占用内存多,运行时间长的特征。如何针对GRAPES有限区域模式在算法或代码上进行改进,提高其运行效率和并行可扩展性,是本文研究的关键与重点。文章主要从优化程序代码、改进伴随算法、开展混合并行等方面来提高程序的运行效率和可扩展性,研究并实现减少程序运行时间的有效方法。主要内容概述如下:(1)对GRAPES有限区域模式的代码进行调整优化。研究提高内存系统资源利用率和处理器运算部件运行效率的方法,消除代码中对性能有着显著影响的瓶颈因素。通过有效的代码实现,非线性模式的运行效率提高约25%。(2)提出了一种新的伴随模式计算方法—极限断点存储技术。用增加约30%的内存代价换取了程序运行性能100%的提升。(3)提出了一种可实现数据块先进先出与先进后出关系的内存数据管理技术,并实现了该结构-嵌套多链栈。(4)针对GRAPES伴随模式并行读写外部存储器可扩展性受限的问题,提出一种增强性能的改进方案。用有限的内存空间来实现大量中间数据的管理方法,替换了影响性能的外部存储器读写过程,实现了当扩展处理器规模超过128时,可减少70%程序墙钟时间。(5)实现GRAPES的混合并行计算。立足当前流行的集群系统结构,实现了在节点内使用OPENMP线程级并行,节点间使用MPI进程级并行的混合并行来替代纯MPI并行的GRAPES计算方法。得出了当纯MPI并行效率下降到90%以下时,使用混合并行方式,可提高5%到10%左右的结论。

全文目录


摘要  9-10
ABSTRACT  10-12
第一章 绪论  12-16
  1.1 研究背景  12-13
  1.2 研究目的与意义  13
  1.3 主要研究工作  13-14
  1.4 论文结构  14-16
第二章 GRAPES 模式  16-26
  2.1 非线性模式  16-17
  2.2 切线/伴随模式  17-22
    2.2.1 切线与伴随理论  17-18
    2.2.2 切线/伴随模式实现  18-22
  2.3 软件框架与并行计算  22-26
    2.3.1 模式软件框架  22-23
    2.3.2 并行计算框架  23-24
    2.3.3 伴随通信方法  24-26
第三章 GRAPES 模式高效算法设计  26-48
  3.1 代码优化  26-34
    3.1.1 基本概念  26-27
    3.1.2 性能分析  27-30
    3.1.3 优化实现  30-33
    3.1.4 效果与分析  33-34
  3.2 伴随算法改进  34-40
    3.2.1 断点存储策略开销  35
    3.2.2 极限断点存储策略  35-36
    3.2.3 新策略面临问题  36-37
    3.2.4 嵌套多链栈结构  37-39
    3.2.5 效果与分析  39-40
  3.3 伴随模式并行I/O 设计  40-48
    3.3.1 伴随并行扩展瓶颈  40-42
    3.3.2 解决方案  42-45
    3.3.3 效果与分析  45-48
第四章 GRAPES 模式混合并行设计  48-66
  4.1 支持线程开发的硬/软件基础  48-50
    4.1.1 多核、多路与多线程技术  48-49
    4.1.2 POSIX 与OPENMP 线程  49-50
  4.2 混合并行实现  50-59
    4.2.1 GRAPES 线程模型  50-51
    4.2.2 多线程实现细节  51-55
    4.2.3 混合并行通信设计  55-56
    4.2.4 效果与分析  56-59
  4.3 GRAPES 多线程优势分析  59-66
    4.3.1 负载均衡分析  59-61
    4.3.2 减少通信时间  61
    4.3.3 减少额外计算量  61-65
    4.3.4 更小的任务剖分  65-66
第五章 结论与展望  66-68
致谢  68-70
参考文献  70-73
作者在学期间取得的学术成果  73

相似论文

  1. 一种高性能可扩展公钥密码协处理器的研究与设计,TN918.1
  2. 基于多核计算平台的视频压缩算法研究,TN919.81
  3. 基于GPU的有限元方法研究,O241.82
  4. 射频波注入磁化等离子体的数值模拟,TL612
  5. 新型电网广域后备保护的算法研究,TM774
  6. 保护在线自适应整定的研究,TM77
  7. 云环境下MapReduce容错技术的研究,TP302.8
  8. 高动态SINS导航解算算法及其并行化研究,TN966
  9. 图像检索的并行计算方法与系统,TP391.3
  10. GPU加速的粒子滤波PET图像重建算法,TP391.41
  11. 基于GPU的时间序列并行检索算法研究,TP391.41
  12. 基于CPU的源强反算算法研究,TP18
  13. 面向密集数据并行计算的可重构线性阵列处理器架构的设计,TP332
  14. 基于段落指纹的大规模近似网页检测算法研究,TP393.092
  15. 并行与双系统协同差异进化算法及其应用,TP18
  16. 云计算环境下的容错并行Skyline查询技术研究,TP311.13
  17. 基于GPGPU平台的对角线模型问题研究,TP391.41
  18. CUDA加速CV图像分割和外部CT图像重建算法研究,TP391.41
  19. 无人机数码遥感测绘系统集成及影像处理研究,P237
  20. FDTD与MPSTD并行算法在电磁散射中的应用研究,O441.4
  21. 一种求解三维弹性问题有限元方程的并行DDM预条件子,O241.82

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 一般性问题 > 理论、方法 > 算法理论
© 2012 www.xueweilunwen.com