学位论文 > 优秀研究生学位论文题录展示
前瞻多线程编译优化技术的研究与实现
作 者: 邓鹍
导 师: 周兴铭
学 校: 国防科学技术大学
专 业: 计算机科学与技术
关键词: 前瞻多线程结构 编译优化 预取 动态执行轮廓 反馈优化
分类号: TP314
类 型: 博士论文
年 份: 2001年
下 载: 316次
引 用: 5次
阅 读: 论文下载
内容摘要
高性能通用微处理器是计算机系统中的核心部件,使用范围从个人电脑覆盖到超级并行计算机。对于当前软件中占主要部分的串行程序而言,微处理器主要依靠开发程序的指令级并行(ILP)来提高性能。随着片上集成度的不断提高,在单个芯片上集成10亿个晶体管的时代即将来临。在这种情况下,再增加动态指令窗口的体积和发射宽度将无助于高主频的实现,难以开发更高的ILP,获得整体性能的提升。 前瞻多线程结构(SMA)结合了前瞻性执行机制和多线程执行机制,以整个线程为步长进行前瞻性执行,多个线程并行执行,并且共享处理器硬件资源。已有的研究表明该结构能够发出程序中混合并行性,达到较高的资源利用率,是一种很有前途的新体系结构。 本文在全面深入地研究了国际上提出的多种多线程结构及其相关编译优化技术的基础上,结合前瞻多线程结构SMA的执行机制,研究了针对SMA结构的编译优化技术,实现了一个面向SMA结构的编译优化框架SMARCOF。主要的工作与创新点包括: 1 研究了SMA结构各种主要程序结构的适应性和性能优化特性,确定了SMA模型的关键性能要素:现场间负载不均衡、线程间控制前瞻失效与线程间数据前瞻失效。 2 为SMA前瞻执行优化设计了一组启发式优化规则,包括线程优化划分策略、现场间负载均衡策略以及类DEE优化的前瞻执行映射策略。 3 针对多线程模式下访存负荷加重的问题,为SMA模型设计了软硬件协同预取机制,并为SMA模型设计了Cache Filter来消减无效预取。 4 研究了基于动态轮廓信息的软硬件联合持续优化机制,并在DLX模拟器的基础上设计并实现了一个完整的指令级模拟平台和基于上述优化规则的编译框架SMARCOF。基于SPEC代码的模拟表明该方式能够有效的挖掘系统的潜力,实现深度的指令级并行和线程级并行开发。 综合来说,SMA结构是一个很有潜力的方向,而基于反馈信息的持续优化方式配合正确的启发式优化规则能够很好的挖掘SMA结构的潜力,将体系结构优势转化为现实的执行性能。值得在这个方面做进一步的研究。
|
全文目录
中文摘要 10-11 英文摘要 11-13 第1章 绪论 13-20 §1.1 研究背景 13-16 1.1.1 超标量结构的概况与局限 13-14 1.1.2 ILP的潜力和限制 14-16 §1.2 多线程结构与线程级并行 16-17 §1.3 延迟隐藏技术 17-18 §1.4 本文的工作 18-19 §1.5 本文的结构 19-20 第2章 相关研究现状 20-35 §2.1 EARTH系统 20-22 §2.2 SMT结构 22-24 §2.3 MultiScalar结构 24-25 §2.4 SPSM结构 25-26 §2.5 其他技术 26-33 2.5.1 前瞻执行技术 26-28 2.5.2 数据前瞻技术 28-29 2.5.3 单芯片多处理器SCMP 29-31 2.5.4 Trace Cache与Trace处理器 31-33 §2.6 小结 33-35 第3章 前瞻多线程结构 35-45 §3.1 SMA体系结构概述 35-36 §3.2 线程、掩码与指令扩展 36-38 §3.3 SMA运行机制 38-39 §3.4 SMA执行实例 39-44 3.4.1 DO ALL循环 40-41 3.4.2 DO Across循环 41-43 3.4.3 函数调用 43-44 §3.5 小结 44-45 第4章 基本编译优化框架的构造 45-56 §4.1 编译器与体系结构的接口 45-46 §4.2 SMA结构的性能要素 46-51 4.2.1 单线程执行周期分析 46-47 4.2.2 多线程执行周期分析 47-51 4.2.3 关键性能要素 51 §4.3 基于反馈的持续编译优化技术 51-53 §4.4 SMA编译优化框架结构 53-55 §4.5 小结 55-56 第5章 前瞻编译优化技术 56-76 §5.1 基本编译方案 56-59 5.1.1 基于基本块的线程划分算法 56-57 5.1.2 线程掩码生成算法 57-58 5.1.3 方案评估 58-59 §5.2 线程划分优化 59-65 5.2.1 循环优化 59-60 5.2.2 控制相关优化 60-62 5.2.3 数据相关优化 62-65 §5.3 线程体积优化 65-66 §5.4 线程前瞻执行优化 66-69 5.4.1 循环转换 66-68 5.4.2 多路径前瞻执行优化 68-69 §5.5 性能模拟结果与评估 69-74 5.5.1 基准测试代码与模拟环境 69-70 5.5.2 性能评价标准 70-71 5.5.3 模拟结果与分析(1) 71-73 5.5.4 模拟结果与分析(2) 73-74 §5.6 小结 74-76 第6章 访存编译优化技术 76-96 §6.1 多线程对访存的影响 76-77 §6.2 SMA中的动态数据前瞻 77-79 §6.3 SMA取指与i-Cache设计 79-82 6.3.1 取值策略 79-80 6.3.2 带宽分析 80-81 6.3.3 指令Cache设计 81-82 §6.4 静态访存优化规则 82-85 §6.5 预取机制的设计与实现 85-91 6.5.1 预取性能模型 85-87 6.5.2 SMA预取优化规则 87-89 6.5.3 Cache Filter的设计与实现 89-91 §6.6 性能模拟与结果分析 91-95 6.6.1 模拟环境与评价标准 91-92 6.6.2 模拟结果与分析 92-95 §6.7 小结 95-96 第7章 模拟平台实现与评估 96-102 §7.1 总体结构 96-98 §7.2 Profile采集与处理 98-99 §7.3 代码装载 99-100 §7.4 模拟平台评估 100-102 第8章 结束语 102-105 §8.1 所作的工作与创新 102-103 §8.2 未来研究方向 103-105 攻读博士学位期间发表的论文 105-106 致谢 106-108 参考文献 108-114 附录A SMA-DLXSIM使用手册 114-118 (1) SMA-DLXSIM的使用 114-115 (2) SMA-DLX汇编程序 115-117 (3) 示例 117-118 附录B SMA-DLXSIM程序清单 118
|
相似论文
- 高效能嵌入式处理器IP核,TP332
- 嵌入式MSDCC异构多核编译器研究,TP314
- SIMD数据置换指令的自动生成与优化,TP332
- 面向MPI程序的进程数据相似性分析与优化技术,TP311.11
- 基于双关联图的Web预取模型研究,TP393.09
- 魔力平台中数据查询优化的研究,TP18
- 仿真平台中动画展现的多帧平滑策略的研究,TP391.9
- 一种Deep Web数据集成系统预取策略的研究,TP311.13
- 基于对象的分级存储系统数据迁移技术研究,TP333
- 大型地下厂房洞室群施工期动态反馈优化设计方法研究,TU94
- 线性链条件随机场训练算法优化的研究,TP181
- 车—地互联流量模型分析及其流量管理研究,TP393.06
- 基于Agent的医疗信息整合平台的设计与研究,TP311.52
- 基于市政管网系统的三维漫游优化及缓冲策略,TP391.41
- 基于预取与缓存的磁盘节能技术研究,TP333.35
- Improving iSCSI Memory Cache Hit Through Prefetching to a Striped Disk,TP333.1
- 增量预取技术在持久化框架中的研究与应用,TP311.13
- Web缓存替换策略与预取技术的研究,TP333
- 基于IMPACT的嵌入式汇编及编译指示的研究与实现,TP368.1
- 基于切片地图Web服务的地理信息发布技术研究,TP393.09
- 基于动态二进制翻译的龙芯虚拟机中数据预取优化研究,TP391.2
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 编译程序、解释程序
© 2012 www.xueweilunwen.com
|