学位论文 > 优秀研究生学位论文题录展示
同时多线程处理器前端系统的研究
作 者: 何立强
导 师: 刘志勇
学 校: 中国科学院研究生院(计算技术研究所)
专 业: 计算机系统结构
关键词: SMT 前端系统 取指策略 QoS 分支预测器 Cache压缩 神经元
分类号: TP332
类 型: 博士论文
年 份: 2004年
下 载: 226次
引 用: 2次
阅 读: 论文下载
内容摘要
同时多线程处理器(SMT)通过在每个时钟周期从多个同时运行的线程取指令执行,充分挖掘了线程内的指令级并行性和线程间的线程级并行性,减少了指令槽的水平浪费和垂直浪费,从而极大地提高了处理器的指令吞吐率,成为目前主流的微处理器体系结构之一。SMT的前端系统(包括:取指部件、1级Cache和分支预测器)是影响其性能的关键,也是目前学术界研究SMT的重点。本论文分别从其前端系统的三个部件出发,就取指策略、Cache的压缩存储技术及分支预测器进行了研究,提出两个有效的取指策略、一种简单的Cache压缩技术,以及一种基于值的分支预测方法,将这些研究成果结合起来构成一个新的前端系统,使其总体性能得到了大幅度的提高。具体的研究成果如下:一种有效的SMT取指策略——IPCBFP:该策略分析了目前性能最好的ICOUNT策略的取指特点,发现其存在线程指令分配不适当的问题,针对该问题提出一种新的取指策略IPCBFP,该策略通过很少的硬件支持即可使SMT的总体性能得到很大的提高,同时对系统中其他资源的利用也更加有效;一种具有QoS特性的取指策略:目前对在SMT中支持线程的QoS需求的研究非常少,仅有的一个策略其实现复杂度很高,不利于物理上的实现。本研究只从取指的角度来实现线程QoS的需求,提出一种新的取指策略,该策略在一定精度的范围内可以同时满足多个线程的QoS需求,与前人的研究成果相比,该策略的实现更加简单,但精度稍差;一种简单的Cache压缩存储技术和一种覆盖存储结构:在SMT的研究中,因多个线程竞争Cache导致Cache失效率大幅度增加和单线程性能下降的问题一直没有得到很好的解决,本研究从Cache压缩存储的角度来解决该问题,提出一种简单的Cache压缩存储技术和一种覆盖存储方法,获得了较好的研究结果,使Cache的潜在容量大大提高,有效地减少了Cache失效次数,提高了SMT的总体性能;该研究同时给出了关于Cache压缩技术在SMT下应用的一些结论;一种基于数据值的分支预测器VBBP:多线程共享分支预测器的空间导致分支预测命中率大幅度下降,极大地影响了单线程的性能,本研究从数据值的角度提出一种新的分支预测器,并作为一个辅助部件与传统的分支预测器共同使用;初步研究表明,该预测器有效地提高了分支预测的命中率;结合上述研究成果提出的一种新的SMT前端系统组成方式:新的前端系统有效地提高了SMT的总体性能。与传统的基于ICOUNT取指策略和gshare分支预测器的前端结构相比,其性能得到了大幅度的提高,加速比达到了55%。除此之外,本论文对目前最新的基于神经元网络的分支预测器在SMT下的性能也作
|
全文目录
摘要 4-6 英文摘要 6-12 图目录 12-15 表目录 15-16 第一章 引言 16-26 1.1 同时多线程技术 16-21 1.1.1 基本原理 16-18 1.1.2 SMT的模拟结构 18-19 1.1.3 商业SMT处理器 19 1.1.4 SMT的关键技术 19-20 1.1.5 应用评价 20-21 1.2 本论文的研究内容及目标 21 1.3 实验方法 21-23 1.3.1 SMT模拟器 21-22 1.3.2 Benchmark程序 22-23 1.4 本文的贡献 23-24 1.5 论文的组织 24-26 第二章 一种有效的SMT取指策略IPCBFP 26-44 2.1 相关工作 26-28 2.1.1 ICOUNT取指策略 26-27 2.1.2 其他取指策略 27-28 2.2 IPCBFP取指策略 28-33 2.2.1 取指策略的理想模型 29 2.2.2 基本原理 29-31 2.2.3 具体实现 31-32 2.2.4 IPCBFP策略实施过程示例 32-33 2.3 实验结果及分析 33-43 2.3.1 参数P值的设定 33-34 2.3.2 处理器及线程的IPC性能 34-36 2.3.3 Cache和DTLB失效率 36-38 2.3.4 指令队列平均长度及队列冲突率 38-40 2.3.5 寄存器使用冲突率 40-41 2.3.6 分支误预测率和误预测路径取指率 41-43 2.4 小结 43-44 第三章 一种具有QoS特性的SMT取指策略 44-58 3.1 相关工作 45-46 3.2 具有QoS特性的取指策略 46-49 3.2.1 基本原理 46-47 3.2.2 具体实现 47-48 3.2.3 相关问题 48 3.2.4 取指策略的特点 48-49 3.3 实验结果及分析 49-56 3.3.1 实验设置 49-50 3.3.2 两线程负载的实验结果 50-54 3.3.3 三线程负载的实验结果 54-56 3.4 小结 56-58 第四章 应用于SMT的Cache覆盖及压缩存储技术 58-76 4.1 Cache的基本原理 59 4.2 相关工作 59-61 4.3 一种简单的Cache覆盖存储技术 61-67 4.3.1 基本原理 61 4.3.2 体系结构 61-63 4.3.3 Cache数据的读写 63-64 4.3.4 Cache行的替换算法 64 4.3.5 实验结果及分析 64-66 4.3.6 小结 66-67 4.4 一种简单的Cache压缩技术及其改进 67-73 4.4.1 D-Cache的压缩存储结构 67-69 4.4.2 D-Cache压缩存储结构的改进 69-70 4.4.3 实验结果及分析 70-72 4.4.4 小结 72-73 4.5 Cache覆盖与压缩存储技术的比较 73-74 4.6 小结 74-76 第五章 一种基于数据值的分支预测器VBBP 76-88 5.1 相关工作 76-78 5.1.1 基于分支历史的分支预测 77 5.1.2 基于值预测的分支预测 77-78 5.1.3 基于神经元网络的分支预测器 78 5.2 VBBP分支预测器 78-82 5.2.1 基本原理 78-79 5.2.2 系统结构 79-81 5.2.3 具体实现 81 5.2.4 分支误预测的恢复 81 5.2.5 与“基于值预测器的分支预测”方法的比较 81-82 5.3 实验结果及分析 82-86 5.3.1 处理器及线程的IPC性能 83-84 5.3.2 分支误预测率 84-85 5.3.3 沿分支误预测路径取指率 85-86 5.4 下一步的工作 86 5.5 小结 86-88 第六章 基于神经元的分支预测器及其在SMT上的应用 88-110 6.1 基本原理 88-90 6.2 相关工作 90-91 6.3 五种性能最优的神经元分支预测器 91-97 6.3.1 O-GEHL分支预测器 91-92 6.3.2 理想的Piecewise线性分支预测器 92-94 6.3.3 自适应的神经元分支预测器 94-95 6.3.4 2Bcgskew与MAC-RHSP神经元组合的分支预测器 95 6.3.5 Franken预测器 95-96 6.3.6 小结 96-97 6.4 在SMT上的性能比较 97-102 6.4.1 处理器及线程的IPC性能 97-99 6.4.2 分支误预测率 99-101 6.4.3 沿分支误预测路径取指率 101-102 6.5 对神经元分支预测器的一种改进 102-108 6.5.1 基本原理 102-103 6.5.2 具体的实现 103-105 6.5.3 实验结果及分析 105-108 6.5.4 小结 108 6.6 小结 108-110 第七章 一种有效的SMT前端结构 110-118 7.1 相关工作 110-111 7.2 一种有效的SMT前端结构 111-112 7.3 实验设置 112 7.4 实验结果及分析 112-117 7.4.1 处理器及线程的IPC性能 112-113 7.4.2 Cache和TLB失效率 113-114 7.4.3 指令队列平均长度及队列冲突率 114-115 7.4.4 寄存器使用冲突率 115-116 7.4.5 分支误预测率及沿分支误预测路径的取指率 116-117 7.5 小结 117-118 第八章 结束语 118-122 8.1 本文工作总结 118-119 8.2 下一步研究方向 119-122 参考文献 122-128 致谢 128-130 作者简历 130-131
|
相似论文
- 船用舵机电液伺服单元单神经元PID控制,U666.152
- 基于仿生模式识别的文本分类技术研究,TP391.1
- ML模型下耦合可兴奋系统的动力学研究,Q42
- 联合检测血清TPS,CEA,CYFRA21-1,NSE在肺癌诊断中的临床价值,R734.2
- 猪FTO的组织特异性表达及其调控,S828
- 磁疗用永磁磁源的定量分析与生物效应的研究,R454
- 概念隐喻的认识论意义,B842.1
- 氯通道阻断剂对一氧化氮诱导培养大鼠海马神经元凋亡的影响,R363
- EAN脑保护与脑损伤修复三细胞模型系统中的内皮细胞及神经元形态特征,R651.1
- 小电导钙激活性钾通道在阿尔茨海默病小鼠中的作用,R749.16
- 基于BMC的Web服务失配检测方法研究,TP311.52
- 基于Click的模块化软件路由器的包调度算法研究,TP393.05
- 基于QoS优化的无线传感器网络高效路由研究,TP212.9
- 基于端口流控的局域网优化系统设计,TP393.08
- 六子棋中基于BP-TD学习的局面估值方法研究,TP18
- 汽车起动机性能高精度高稳定测试方法研究及应用,U467
- 基于模糊逻辑控制原理的WLAN MAC协议改进,TN925.93
- LTE系统RRM中多用户调度策略的研究,TN929.5
- 神经元MOS管在神经网络中的应用研究,TP183
- IMS网络中的MPLS流量工程性能评估,TN919.8
- 无线多跳网络串联队列模型的研究及在QoS路由中的应用,TN92
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 电子数字计算机(不连续作用电子计算机) > 运算器和控制器(CPU)
© 2012 www.xueweilunwen.com
|