学位论文 > 优秀研究生学位论文题录展示

基于GPU的LARED-P加速技术的研究与实现

作 者: 刘来国
导 师: 徐炜遐
学 校: 国防科学技术大学
专 业: 计算机科学与技术
关键词: GPU 粒子模拟 LARED-P 加速 计算核心分解 任务分解
分类号: TP391.41
类 型: 硕士论文
年 份: 2009年
下 载: 30次
引 用: 2次
阅 读: 论文下载
 

内容摘要


LARED-P是重要的粒子模拟程序,采用粒子云网格法实现三维激光等离子体模拟,对于深入理解超强激光在低密度等离子体中的传播特征及复杂的激光等离子体相互作用过程,研究受控核聚变,解决核能源问题具有重要的意义。在实际应用中,模拟的规模往往很大,数据量、计算量庞大,是一个计算密集型程序,在大规模集群系统上实现时,需要大量的计算设备,计算成本巨大。GPU拥有比CPU更高的浮点计算能力,适用于对计算密集、控制简单、能够高度线程化、能够细粒度并行的程序进行加速。LARED-P的GPU加速具有重要意义,能够有效的降低模拟成本、提高模拟效率。本文详细的分析了LARED-P程序,重点对其中的粒子运动方程、粒子云方程和粒子重排过程进行了深入研究,找到其中制约程序在GPU上并行加速的关键因素。在此基础上结合GPU的结构特点,采用从局部到整体的策略将LARED-P移植到GPU上,首次实现了LARED-P基于GPU的双精度加速。主要工作包括:(1)提出了大规模计算核心分解策略。将粒子运动方程移植到GPU上,在此基础上针对主要计算核心效率低下的特点进行分析,发现该计算核心的规模太过庞大、内部计算复杂、占用的寄存器资源过多,直接导致了SM上活动的warp数量受到限制,SM的占用率低下,最终导致了计算性能低。经过计算核心分解后,将大规模的计算核心分解成多个计算相对简单的子计算核心,大大降低了对寄存器资源的占用量,从而提高了SM的占用率,提高了加速效果。使用大规模计算核心分解技术后,粒子运动方程的计算性能提高了20%。(2)提出了基于CPU+GPU的任务分解策略。针对粒子云方程求解过程中存在的严重的依赖关系进行分析,将整个方程的求解过程分解成两个主要部分,粒子索引的求解过程和在粒子索引基础上的网格电流密度求解过程。其中,粒子索引的求解过程中存在着严格的串行依赖关系,必须放到CPU上进行求解;在求解了粒子索引的基础上,可以选择不同的方式对网格电流密度的求解过程进行GPU加速。使用CPU+GPU的任务分解策略使得粒子云方程的GPU加速成为可能。(3)提出了基于GPU的任务分解策略。针对粒子云方程中网格电流密度求解过程的特点,采用不同的任务分解方式进行求解,发现不同的任务分解方式导致了粒子云方程的不同求解效率。采用了基于GPU的任务分解策略后,改进的任务分解方式比改进前获得了70%的性能提高,结合寄存器的使用获得了3倍的性能提升。(4)粒子重排过程的GPU加速。将粒子运动方程、粒子云方程进行GPU加速后,整个程序中仍然存在许多在CPU上串行执行的部分。这部分CPU程序不但占用了相当比重的计算量,而且导致了CPU与GPU之间大量的数据交换。粒子重排过程是这部分程序中的一个主要过程。本文从粒子重排过程实现的功能出发,对程序进行改造并实现了基于GPU的加速,获得了5倍的加速比,大大降低了CPU程序的计算比重,减少了CPU与GPU之间的通信开销。加速后的LARED-P程序在NVIDIA Tesla S1070的单个GPU上获得了相当于主频2.4GHz的Intel(R) Core(TM)2 Quad CPU Q6600单核的6倍加速比。

全文目录


相似论文

  1. Hall推进器寿命预测和壁面侵蚀加速实验研究,V439.2
  2. 大规模计算环境下网络模拟任务划分研究,TP393.01
  3. 螺旋断层加速器MVCT影像质量分析及剂量重算的研究,R730.5
  4. 基于视觉反馈与行为记忆的GPU并行蚁群算法,TP301.6
  5. 强激光对真空电子的加速研究,TN241
  6. HM-J16-Ⅰ型医用直线加速器中的自动弧度治疗(ARC)系统的设计,TH774
  7. 苏州市优秀短跑运动员起跑及加速跑的运动学分析,G822.1
  8. 基于GPU的有限元方法研究,O241.82
  9. 微放电通道的径向扩展与放电均匀性的研究,TM83
  10. 我国科技园区企业加速器建设研究,F276.44
  11. 基于GPU加速的中性气体泄漏模拟与救援研究,TP391.41
  12. 微型涡喷发动机试验研究,V235
  13. 面向产业园区综合服务的资源分析应用平台构建研究,F427
  14. 协同产品开发过程规划方法研究,TB497
  15. 基于ARM结构体系的无线传感器网络平台设计,TN929.5
  16. 基于粒子模拟问题的GPU高性能计算系统,TP338
  17. 学习设计中学习任务的研究与应用,TP391.6
  18. 基于CUDA的H.264并行编码器研究与实现,TN919.81
  19. 中国房地产价格波动的宏观经济效应实证研究,F293.3
  20. 名义利率与中国经济波动的实证研究,F822.0;F124.8
  21. 解鞍点问题的迭代法,O241.6

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 模式识别与装置 > 图像识别及其装置
© 2012 www.xueweilunwen.com