学位论文 > 优秀研究生学位论文题录展示
基于GPU微体系结构的高性能计算研究
作 者: 谭霜
导 师: 蒋江
学 校: 国防科学技术大学
专 业: 电子科学与技术
关键词: GPU CUDA GPGU-Sim 排序算法 矩阵乘 任务划分
分类号: TP338
类 型: 硕士论文
年 份: 2009年
下 载: 170次
引 用: 2次
阅 读: 论文下载
内容摘要
随着处理器技术的不断发展,多核/众核处理器体系结构已成当前研究的热点。GPU(graphics processing unit,图像处理单元)由于具有强大的计算能力,成为多核众核体系结构中最具有代表性的结构之一。研究表明,除图形图像领域之外,GPU能够显著提高高性能领域核心算法的计算性能。在当前微体系结构下面临新的突破的情况下,GPU为未来体系结构的发展提供一种可借鉴的发展方向。本文对NVIDIA公司推出的G80/GT200体系结构和CUDA(Compute Unified Device architecture)编程模型进行了深入的研究。基于CUDA,结合GPU微体系结构的特点,本文设计并优化实现了多种排序算法在GPU上的映射,获得了良好的性能加速,包括:数组倒序、奇偶排序、双调排序,加速比分别为:4.1、17、25,并部分实现了枚举排序;同时,对数值计算中的矩阵乘进行了研究与实现,基于GPU中的传统矩阵乘算法,通过采用纹理Cache、增大计算访存比和预取三种技术进行加速,实测性能分别提高了约10%、60%和8.7%;并提出了CPU-GPU异构系统上的任务划分模式,实验表明,基于任务划分的矩阵乘性能获得10%的提高。通过使用GPGPU-Sim模拟器,本文还将现已映射的算法在不同的结构配置情况下进行模拟和分析,并GPU微体系结构的改进进行了探讨。本课题研究的内容是国家863计划项目“通用流处理器体系结构关键技术研究”和“可重构异构流处理器的体系结构技术研究”以及国家自然科学基金“面向科学计算的异构多流体系结构关键技术研究”的一部分,研究成果直接应用于项目组。
|
全文目录
摘要 9-10 ABSTRACT 10-11 第一章 绪论 11-18 1.1 课题背景及意义 11-14 1.2 国内外研究现状及通用GPU数据处理模型 14-16 1.2.1 研究现状 14-15 1.2.2 通用 GPU 数据处理模式 15-16 1.3 课题研究内容与成果 16-17 1.4 本文结构 17-18 第二章 GPU体系结构及CUDA编程平台介绍 18-34 2.1 引言 18-21 2.1.1 GPU发展历程 18-19 2.1.2 GPU计算模型 19-20 2.1.3 GPU专业术语 20-21 2.2 NVIDIA GPU体系结构介绍 21-28 2.2.1 G80/GT200 体系结构介绍 21-26 2.2.2 下一代体系结构Fermi前瞻 26-28 2.3 CUDA编程平台概述 28-32 2.3.1 CUDA编程模型 29-30 2.3.2 CUDA存储模型 30-32 2.3.3 CUDA 执行模型 32 2.4 算法性能测试平台 32-33 2.5 本章总结 33-34 第三章 基于CUDA的排序算法研究 34-48 3.1 数组倒序问题 34-36 3.2 局部排序 36-42 3.2.1 奇偶排序算法 36-38 3.2.2 枚举排序算法 38-39 3.2.3 双调排序 39-42 3.3 全局排序 42-44 3.4 算法优化技术 44-47 3.4.1 体冲突消除技术 44-46 3.4.2 循环展开技术 46-47 3.5 本章总结 47-48 第四章 基于CUDA的矩阵乘研究 48-61 4.1 矩阵-向量乘法 48-49 4.1.1 矩阵-向量算法介绍及其串行算法 48 4.1.2 矩阵-向量乘法的并行实现 48-49 4.2 矩阵乘算法应用映射 49-58 4.2.1 适用GPU矩阵乘算法介绍 50-51 4.2.2 矩阵乘纹理映射 51-53 4.2.3 增大计算量对矩阵乘的性能影响 53-54 4.2.4 矩阵乘算法改进 54-55 4.2.5 预取技术对矩阵乘性能影响 55-56 4.2.6 CUDA Visual Profiler矩阵乘分析 56-58 4.3 异构任务划分模式的设计与实现 58-60 4.4 本节小结 60-61 第五章 模拟器验证 61-66 5.1 GPGPU-Sim模拟器介绍 61-62 5.2 模拟器模拟 62-65 5.2.1 SIMD分支处理模式 62-63 5.2.2 CUDA分支处理模式 63-64 5.2.3 矩阵乘改进技术模拟器模拟 64-65 5.3 本章小结 65-66 第六章 结束语与工作展望 66-68 6.1 课题工作总结 66 6.2 工作展望 66-68 致谢 68-69 参考文献 69-72 作者在学期间取得的学术成果 72
|
相似论文
- 基于视觉反馈与行为记忆的GPU并行蚁群算法,TP301.6
- 基于GPU的有限元方法研究,O241.82
- 基于图形处理器的SIFT算法研究,TP391.41
- 基于CUDA的正则表达式匹配系统的设计与实现,TP311.52
- 基于GPU图像搜索中文本检索的关键技术研究,TP391.1
- 基于GPU/CPU多级并行CFD优化策略的研究,V221
- 基于GPGPU的快速白光干涉测量系统研究,O439
- 基于ffmpeg的高性能高清流媒体播放器软件设计,TN919.8
- 增强现实系统中火焰特效关键技术研究,TP391.9
- 基于多图形处理器的高效波动声学模拟器及其应用,TP391.41
- 群体仿真算法研究及疏散仿真系统开发,TP391.9
- GPU加速的粒子滤波PET图像重建算法,TP391.41
- 基于GPU的图书推荐系统研究与实现,TP391.3
- 基于GPU加速的一种线性规划算法及其应用,TP391.41
- 基于CUDA的视频火灾检测系统,TP391.41
- 基于GPU的时间序列并行检索算法研究,TP391.41
- 基于CPU的源强反算算法研究,TP18
- 基于GPU的X射线重建算法加速研究,TP391.41
- 基于GPU加速的中性气体泄漏模拟与救援研究,TP391.41
- 异构(CPU-GPU)计算机系统性能评测与优化技术研究,TP306.2
- 基于CUDA的实时图像拼接技术研究,TP391.41
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 电子数字计算机(不连续作用电子计算机) > 各种电子数字计算机
© 2012 www.xueweilunwen.com
|