学位论文 > 优秀研究生学位论文题录展示

基于GPU微体系结构的高性能计算研究

作 者: 谭霜
导 师: 蒋江
学 校: 国防科学技术大学
专 业: 电子科学与技术
关键词: GPU CUDA GPGU-Sim 排序算法 矩阵乘 任务划分
分类号: TP338
类 型: 硕士论文
年 份: 2009年
下 载: 170次
引 用: 2次
阅 读: 论文下载
 

内容摘要


随着处理器技术的不断发展,多核/众核处理器体系结构已成当前研究的热点。GPU(graphics processing unit,图像处理单元)由于具有强大的计算能力,成为多核众核体系结构中最具有代表性的结构之一。研究表明,除图形图像领域之外,GPU能够显著提高高性能领域核心算法的计算性能。在当前微体系结构下面临新的突破的情况下,GPU为未来体系结构的发展提供一种可借鉴的发展方向。本文对NVIDIA公司推出的G80/GT200体系结构和CUDA(Compute Unified Device architecture)编程模型进行了深入的研究。基于CUDA,结合GPU微体系结构的特点,本文设计并优化实现了多种排序算法在GPU上的映射,获得了良好的性能加速,包括:数组倒序、奇偶排序、双调排序,加速比分别为:4.1、17、25,并部分实现了枚举排序;同时,对数值计算中的矩阵乘进行了研究与实现,基于GPU中的传统矩阵乘算法,通过采用纹理Cache、增大计算访存比和预取三种技术进行加速,实测性能分别提高了约10%、60%和8.7%;并提出了CPU-GPU异构系统上的任务划分模式,实验表明,基于任务划分的矩阵乘性能获得10%的提高。通过使用GPGPU-Sim模拟器,本文还将现已映射的算法在不同的结构配置情况下进行模拟和分析,并GPU微体系结构的改进进行了探讨。本课题研究的内容是国家863计划项目“通用流处理器体系结构关键技术研究”和“可重构异构流处理器的体系结构技术研究”以及国家自然科学基金“面向科学计算的异构多流体系结构关键技术研究”的一部分,研究成果直接应用于项目组。

全文目录


摘要  9-10
ABSTRACT  10-11
第一章 绪论  11-18
  1.1 课题背景及意义  11-14
  1.2 国内外研究现状及通用GPU数据处理模型  14-16
    1.2.1 研究现状  14-15
    1.2.2 通用 GPU 数据处理模式  15-16
  1.3 课题研究内容与成果  16-17
  1.4 本文结构  17-18
第二章 GPU体系结构及CUDA编程平台介绍  18-34
  2.1 引言  18-21
    2.1.1 GPU发展历程  18-19
    2.1.2 GPU计算模型  19-20
    2.1.3 GPU专业术语  20-21
  2.2 NVIDIA GPU体系结构介绍  21-28
    2.2.1 G80/GT200 体系结构介绍  21-26
    2.2.2 下一代体系结构Fermi前瞻  26-28
  2.3 CUDA编程平台概述  28-32
    2.3.1 CUDA编程模型  29-30
    2.3.2 CUDA存储模型  30-32
    2.3.3 CUDA 执行模型  32
  2.4 算法性能测试平台  32-33
  2.5 本章总结  33-34
第三章 基于CUDA的排序算法研究  34-48
  3.1 数组倒序问题  34-36
  3.2 局部排序  36-42
    3.2.1 奇偶排序算法  36-38
    3.2.2 枚举排序算法  38-39
    3.2.3 双调排序  39-42
  3.3 全局排序  42-44
  3.4 算法优化技术  44-47
    3.4.1 体冲突消除技术  44-46
    3.4.2 循环展开技术  46-47
  3.5 本章总结  47-48
第四章 基于CUDA的矩阵乘研究  48-61
  4.1 矩阵-向量乘法  48-49
    4.1.1 矩阵-向量算法介绍及其串行算法  48
    4.1.2 矩阵-向量乘法的并行实现  48-49
  4.2 矩阵乘算法应用映射  49-58
    4.2.1 适用GPU矩阵乘算法介绍  50-51
    4.2.2 矩阵乘纹理映射  51-53
    4.2.3 增大计算量对矩阵乘的性能影响  53-54
    4.2.4 矩阵乘算法改进  54-55
    4.2.5 预取技术对矩阵乘性能影响  55-56
    4.2.6 CUDA Visual Profiler矩阵乘分析  56-58
  4.3 异构任务划分模式的设计与实现  58-60
  4.4 本节小结  60-61
第五章 模拟器验证  61-66
  5.1 GPGPU-Sim模拟器介绍  61-62
  5.2 模拟器模拟  62-65
    5.2.1 SIMD分支处理模式  62-63
    5.2.2 CUDA分支处理模式  63-64
    5.2.3 矩阵乘改进技术模拟器模拟  64-65
  5.3 本章小结  65-66
第六章 结束语与工作展望  66-68
  6.1 课题工作总结  66
  6.2 工作展望  66-68
致谢  68-69
参考文献  69-72
作者在学期间取得的学术成果  72

相似论文

  1. 基于视觉反馈与行为记忆的GPU并行蚁群算法,TP301.6
  2. 基于GPU的有限元方法研究,O241.82
  3. 基于图形处理器的SIFT算法研究,TP391.41
  4. 基于CUDA的正则表达式匹配系统的设计与实现,TP311.52
  5. 基于GPU图像搜索中文本检索的关键技术研究,TP391.1
  6. 基于GPU/CPU多级并行CFD优化策略的研究,V221
  7. 基于GPGPU的快速白光干涉测量系统研究,O439
  8. 基于ffmpeg的高性能高清流媒体播放器软件设计,TN919.8
  9. 增强现实系统中火焰特效关键技术研究,TP391.9
  10. 基于多图形处理器的高效波动声学模拟器及其应用,TP391.41
  11. 群体仿真算法研究及疏散仿真系统开发,TP391.9
  12. GPU加速的粒子滤波PET图像重建算法,TP391.41
  13. 基于GPU的图书推荐系统研究与实现,TP391.3
  14. 基于GPU加速的一种线性规划算法及其应用,TP391.41
  15. 基于CUDA的视频火灾检测系统,TP391.41
  16. 基于GPU的时间序列并行检索算法研究,TP391.41
  17. 基于CPU的源强反算算法研究,TP18
  18. 基于GPU的X射线重建算法加速研究,TP391.41
  19. 基于GPU加速的中性气体泄漏模拟与救援研究,TP391.41
  20. 异构(CPU-GPU)计算机系统性能评测与优化技术研究,TP306.2
  21. 基于CUDA的实时图像拼接技术研究,TP391.41

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 电子数字计算机(不连续作用电子计算机) > 各种电子数字计算机
© 2012 www.xueweilunwen.com