学位论文 > 优秀研究生学位论文题录展示
基于共享前端的流多核体系结构关键技术研究
作 者: 王庆林
导 师: 邢座程
学 校: 国防科学技术大学
专 业: 电子科学与技术
关键词: 单指令多线程 多核 对称多核处理器 流处理器
分类号: TP332
类 型: 硕士论文
年 份: 2011年
下 载: 21次
引 用: 1次
阅 读: 论文下载
内容摘要
多核处理器主要有两个典型发展方向:以数目较少的复杂核构成的多核处理器(以传统多核处理器为代表,如服务器和桌面CPU)和以数量众多的简单核构成的众核处理器(以多核流处理器为代表,如GPU)。两者各有优缺点:传统多核处理器集成了丰富的控制单元和大量缓存,易于编程,面向广谱应用,但针对计算密集型应用的性能不如多核流处理器;多核流处理器集成了丰富的计算单元,面向计算密集型应用时,吞吐率较大,但控制功能较简单,可编程性相对较差,而且面向访存密集型和稀疏类应用时资源利用率不高,性能不如传统多核处理器。近年来,业界出现了CPU+GPU的异构架构,试图同时发挥两者的优势,然而该架构功耗较大,CPU和GPU的分离存储导致性能瓶颈。基于以上背景,我们提出了同构通用流处理器体系结构:片内集成多个同构的流多核,流多核可根据具体应用配置为CPU或GPU的一部分。该结构试图同时融合上述两种结构的优点:片内共享存储消除了CPU与GPU分离存储带来的数据传输开销、采用64位RISC核增强可编程性、动态配置流多核的功能角色增大芯片资源利用率。流多核是该体系结构中的基本可配置单元。本课题对流多核体系结构关键技术进行了深入研究,主要工作和创新点包括:1、提出了一种基于共享前端的可配置的流多核体系结构。基于同构通用流处理器的总体设计,多个同构流多核需要分别配置成CPU或GPU,以适应应用程序的不同特征需求。本文系统地研究了多核体系结构的特点,包括多核体系结构的由来、传统多核体系结构、多核流体系结构、基于共享前端的传统多核体系结构等。基于以上研究,本文提出了基于共享前端的可配置的流多核体系结构,面向不同应用时可分别按片上SMP执行模式和SIMT执行模式运行。2、对所提出的基于共享前端的流多核体系结构的关键部分进行了逻辑设计。基于流多核的总体设计要求,本文在32位Microblaze软核的基础上进行了多核和64位扩展设计,主要包括64位指令集扩展、单核流水线扩展和性能优化、多核取指地址的产生单元、共享指令I_Cache和分离数据D_cache、内存管理单元、预取缓冲等。可配置的流多核设计为构建同构通用流处理器奠定了基础。3、基于Xilinx公司ISE开发平台下的ISIM12.1行为仿真软件,对关键部分的逻辑设计进行了功能正确性验证,并进行了一定的性能分析。验证结果显示所有设计均实现了预定的功能,同时性能分析显示了本文设计的有效性。
|
全文目录
摘要 8-9 ABSTRACT 9-11 第一章 绪论 11-17 1.1 研究背景 11-15 1.1.1 多核体系结构发展的两个方向 11-12 1.1.2 现有多核体系结构面对应用的不足 12-13 1.1.3 同构通用流处理器体系结构的提出 13 1.1.4 CPU 和GPU 融合的现状研究 13-14 1.1.5 小结 14-15 1.2 论文的主要工作 15-16 1.3 论文结构 16-17 第二章 多核体系结构 17-30 2.1 多核体系结构的由来 17-18 2.2 传统多核体系结构 18-21 2.3 多核流体系结构 21-25 2.4 基于共享前端的传统多核体系结构 25-28 2.5 基于共享前端的流多核体系结构的提出 28-29 2.6 小结 29-30 第三章 同构通用流处理器体系结构 30-38 3.1 内部架构 30-31 3.2 基于共享前端的流多核体系结构 31-34 3.2.1 共享前端流多核整体架构 31-32 3.2.2 流多核前端共享架构 32-33 3.2.3 流核心的结构 33-34 3.3 流多核执行模式 34-37 3.3.1 SIMT 执行模式 34-36 3.3.2 SMP 执行模式 36-37 3.3.3 流多核执行模式的切换 37 3.4 小结 37-38 第四章 流多核关键部分的设计 38-60 4.1 指令集与流水线 38-44 4.1.1 Microblaze 软核架构简介 38-40 4.1.2 扩展后的指令集体系结构 40-42 4.1.3 扩展后的流水线体系结构 42-44 4.2 取指地址的产生单元 44-47 4.2.1 流核心指令地址产生 44-45 4.2.2 多核取指令地址选择 45-47 4.3 指令I_Cache 和数据D_Cache 47-53 4.3.1 结构和参数选择 47-50 4.3.2 指令I_Cache 50-53 4.3.3 数据D_Cache 53 4.4 内存管理单元 53-57 4.4.1 结构与参数选择 54-55 4.4.2 L1_TLB 的设计 55-56 4.4.3 L2_TLB 的设计 56-57 4.5 预取缓冲设计 57-59 4.6 小结 59-60 第五章 模拟验证与性能分析 60-68 5.1 验证环境 60 5.2 流多核关键部件的验证结果 60-64 5.3 流多核前端架构的性能分析 64-67 5.4 小结 67-68 第六章 结束语 68-71 6.1 工作总结 68 6.2 工作展望 68-71 致谢 71-73 参考文献 73-77 作者在学期间取得的学术成果 77
|
相似论文
- 基于多核学习的高性能核分类方法研究,TP391.41
- TD-SCDMA无线链路控制协议实现研究,TN929.533
- 多核系统中实时任务调度算法的研究,TP332
- 保护在线自适应整定的研究,TM77
- 多核系统中基于温度限制的节能调度算法研究,TP332
- 分布式内存多核处理器流程序虚拟机研究,TP333.1
- 基于TILE Pro64多核处理器的3G服务器视频转码软件设计,TP393.05
- 基于TilePro64多核处理器的H.264高清视频解码软件设计,TN919.81
- 基于多核SMP集群环境的光线追踪模拟卫星成像并行研究与实现,TP391.41
- 基于多核处理机的RSA并行算法的研究与实现,TP309.7
- 基于GALS的多核互连及任务调度策略研究,TN47
- 基于广义组合多核高斯函数的图像分类方法研究,TP391.41
- 多核集群环境下并行地理计算执行时间预测技术研究,TP338.6
- 面向众核温度感知的Linux调度器的研究与实现,TP316.81
- 基于群智能和冲突规避策略的基因—基因交互作用检测及其并行计算,TP391.41
- 基于多核混合支持向量机的城市短时交通预测,U491.14
- 基于EFI的软件异构多核系统及其安全应用模型,TP316
- 多分辨率图像锥结合FCM的多核并行图像分割算法研究,TP391.41
- 2D MESH片上网络容错路由算法研究,TP302.8
- 高性能低功耗多核处理器研究,TP332
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 电子数字计算机(不连续作用电子计算机) > 运算器和控制器(CPU)
© 2012 www.xueweilunwen.com
|