学位论文 > 优秀研究生学位论文题录展示

C到CUDA编译架构研究与实现

作 者: 朱琪
导 师: 王志英
学 校: 国防科学技术大学
专 业: 计算机科学与技术
关键词: GPGPU CUDA 并行化 编译优化
分类号: TP391.41
类 型: 硕士论文
年 份: 2011年
下 载: 193次
引 用: 0次
阅 读: 论文下载
 

内容摘要


近年来,GPU(Graphics Processing Unit,图形处理单元)已被成功地应用于生物医学、金融分析、物理模拟、数据库处理等高性能计算应用,大大扩展了GPU的应用领域。人们也将这类用于图形渲染以外领域的GPU称为GPGPU(General-purpose computation on GPU)。GPU结构的复杂性大大超出了现有的多核处理器,这使得人们很难有效利用其众多的计算资源。以NVIDIA公司推出的CUDA(Compute Unified Device Architecture,统一计算设备架构)为代表的面向GPU的编程模型在一定程度了解决了这一问题。与已有的编程模型相比,CUDA做出了两点改进:一是采用了统一处理架构,二是引入了片内共享存储器,使得其更加适合GPGPU体系结构。然而,由于CUDA模型中采用的多级线程结构以及多级存储结构,程序员必须深入理解并掌握CUDA的结构与特点才有可能开发出高度并行的应用,这无疑增加了程序员的负担。本文提出并实现一种能够减轻程序员负担的源到源编译框架,它不仅能够以较高的自动化程度生成能够在CPU+GPU混合结构上运行的代码,还可以完成一定的优化,提高代码的并行度。本文的研究工作和成果有:1.提出并实现了一个面向CUDA模型的编译框架ICuda该框架能够自动地将串行C代码直接转换为CUDA C代码,实现已有C程序向GPU平台的自动迁移。ICuda能够将程序员从GPU和CUDA的结构细节中解放出来,提高编写高性能并行程序的工作效率。与大多现有框架只适用于以行列式或矩阵计算为主的应用程序相比,ICuda架构则能够面向通用应用程序。2.提出了循环结构并行化代码调度方法将串行代码中的循环结构进行并行化处理,程序的数据结构以及代码结构需要进行一定的变换,以适应面向GPU结构的编程模型,充分发挥GPU结构的性能优势。针对上述问题,本文提出了数据下标变换、共享变量分布式访问两种面向循环结构的并行化代码调度方法。前者用于代码并行化之前,变多重循环结构为单重循环结构,简化循环索引变量;后者用于代码并行化之时,变共享变量的集中式访问为分布式访问,减小线程访存开销。3.提出了一种面向CUDA存储模型的访存优化方法CUDA编程模型提出以来,针对全局存储器空间的结合式访存优化方法就一直是研究的重点。本文充分利用CUDA存储模型提供的多级存储架构,规避这种复杂的针对全局存储器访问的优化,提出了以纹理存储器为主、共享存储器与寄存器为辅的存储布局优化策略,以简单、高效的方法实现CUDA存储模型的访问优化。本文基于SUIF2平台实现了ICuda编译框架,并针对Parboil基准程序包进行了详细的性能测试与分析。实验结果验证了本文所提出的优化方法与ICuda框架的有效性。

全文目录


相似论文

  1. 基于CUDA的图像数字水印技术的研究,TP309.7
  2. 基于GPU的BLAST程序的并行计算的研究,TP338.6
  3. 基于GPU的医学图像体绘制算法的研究与实现,TP391.41
  4. CUDA技术在多节点超短期负荷预测上的应用,TM715
  5. GPU在车辆检测与跟踪系统中的应用研究,TP391.41
  6. 水稻分蘖断层图像重建加速研究,TP391.41
  7. 基于并行计算的立体影像密集匹配算法研究,TP391.41
  8. 快速智能入侵检测技术研究,TP393.08
  9. 基于SMP的内存数据库查询处理优化研究,TP311.13
  10. 双目立体匹配的算法研究及其多核并行化,TP391.41
  11. 基于区域高斯特征的人体检测算法,TP391.41
  12. 基于GPU的有限元方法研究,O241.82
  13. 心血管系统虚拟内窥镜技术研究,TP391.41
  14. 基于能量最小化的腹部CT图像分割与三维可视化,TP391.41
  15. 基于多核环境的基因贝叶斯网络构造算法研究与实现,Q75
  16. 基于多核的动态剖析加速方法研究,TP332
  17. 基于CUDA的正则表达式匹配系统的设计与实现,TP311.52
  18. 高质量全局光照的GPU研究与实现,TP391.41
  19. 高动态条件下捷联惯导动基座传递对准并行算法研究,V249.322
  20. 基于GPGPU的快速白光干涉测量系统研究,O439
  21. 基于多核SMP集群环境的光线追踪模拟卫星成像并行研究与实现,TP391.41

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 模式识别与装置 > 图像识别及其装置
© 2012 www.xueweilunwen.com