学位论文 > 优秀研究生学位论文题录展示

基于GPU微体系结构的高性能计算研究

作　者: 谭霜
导　师: 蒋江
学　校: 国防科学技术大学
专　业: 电子科学与技术
关键词: GPU CUDA GPGU-Sim 排序算法矩阵乘任务划分
分类号: TP338
类　型: 硕士论文
年　份: 2009年
下　载: 170次
引　用: 2次
阅　读: 论文下载

内容摘要

随着处理器技术的不断发展,多核/众核处理器体系结构已成当前研究的热点。GPU(graphics processing unit,图像处理单元)由于具有强大的计算能力,成为多核众核体系结构中最具有代表性的结构之一。研究表明,除图形图像领域之外,GPU能够显著提高高性能领域核心算法的计算性能。在当前微体系结构下面临新的突破的情况下,GPU为未来体系结构的发展提供一种可借鉴的发展方向。本文对NVIDIA公司推出的G80/GT200体系结构和CUDA(Compute Unified Device architecture)编程模型进行了深入的研究。基于CUDA,结合GPU微体系结构的特点,本文设计并优化实现了多种排序算法在GPU上的映射,获得了良好的性能加速,包括:数组倒序、奇偶排序、双调排序,加速比分别为:4.1、17、25,并部分实现了枚举排序;同时,对数值计算中的矩阵乘进行了研究与实现,基于GPU中的传统矩阵乘算法,通过采用纹理Cache、增大计算访存比和预取三种技术进行加速,实测性能分别提高了约10%、60%和8.7%;并提出了CPU-GPU异构系统上的任务划分模式,实验表明,基于任务划分的矩阵乘性能获得10%的提高。通过使用GPGPU-Sim模拟器,本文还将现已映射的算法在不同的结构配置情况下进行模拟和分析,并GPU微体系结构的改进进行了探讨。本课题研究的内容是国家863计划项目“通用流处理器体系结构关键技术研究”和“可重构异构流处理器的体系结构技术研究”以及国家自然科学基金“面向科学计算的异构多流体系结构关键技术研究”的一部分,研究成果直接应用于项目组。

全文目录

摘要  9-10
ABSTRACT  10-11
第一章绪论  11-18
  1.1 课题背景及意义  11-14
  1.2 国内外研究现状及通用GPU数据处理模型  14-16
    1.2.1 研究现状  14-15
    1.2.2 通用 GPU 数据处理模式  15-16
  1.3 课题研究内容与成果  16-17
  1.4 本文结构  17-18
第二章 GPU体系结构及CUDA编程平台介绍  18-34
  2.1 引言  18-21
    2.1.1 GPU发展历程  18-19
    2.1.2 GPU计算模型  19-20
    2.1.3 GPU专业术语  20-21
  2.2 NVIDIA GPU体系结构介绍  21-28
    2.2.1 G80/GT200 体系结构介绍  21-26
    2.2.2 下一代体系结构Fermi前瞻  26-28
  2.3 CUDA编程平台概述  28-32
    2.3.1 CUDA编程模型  29-30
    2.3.2 CUDA存储模型  30-32
    2.3.3 CUDA 执行模型  32
  2.4 算法性能测试平台  32-33
  2.5 本章总结  33-34
第三章基于CUDA的排序算法研究  34-48
  3.1 数组倒序问题  34-36
  3.2 局部排序  36-42
    3.2.1 奇偶排序算法  36-38
    3.2.2 枚举排序算法  38-39
    3.2.3 双调排序  39-42
  3.3 全局排序  42-44
  3.4 算法优化技术  44-47
    3.4.1 体冲突消除技术  44-46
    3.4.2 循环展开技术  46-47
  3.5 本章总结  47-48
第四章基于CUDA的矩阵乘研究  48-61
  4.1 矩阵-向量乘法  48-49
    4.1.1 矩阵-向量算法介绍及其串行算法  48
    4.1.2 矩阵-向量乘法的并行实现  48-49
  4.2 矩阵乘算法应用映射  49-58
    4.2.1 适用GPU矩阵乘算法介绍  50-51
    4.2.2 矩阵乘纹理映射  51-53
    4.2.3 增大计算量对矩阵乘的性能影响  53-54
    4.2.4 矩阵乘算法改进  54-55
    4.2.5 预取技术对矩阵乘性能影响  55-56
    4.2.6 CUDA Visual Profiler矩阵乘分析  56-58
  4.3 异构任务划分模式的设计与实现  58-60
  4.4 本节小结  60-61
第五章模拟器验证  61-66
  5.1 GPGPU-Sim模拟器介绍  61-62
  5.2 模拟器模拟  62-65
    5.2.1 SIMD分支处理模式  62-63
    5.2.2 CUDA分支处理模式  63-64
    5.2.3 矩阵乘改进技术模拟器模拟  64-65
  5.3 本章小结  65-66
第六章结束语与工作展望  66-68
  6.1 课题工作总结  66
  6.2 工作展望  66-68
致谢  68-69
参考文献  69-72
作者在学期间取得的学术成果  72

基于GPU微体系结构的高性能计算研究

内容摘要

全文目录

相似论文