学位论文 > 优秀研究生学位论文题录展示
全局循环合并的实现
作 者: 谷晓铭
导 师: 吴承勇
学 校: 中国科学院研究生院(计算技术研究所)
专 业: 计算机系统结构
关键词: 编译器 Memory Wall 数据局部性 全局循环合并 复用距离分析
分类号: TP332
类 型: 硕士论文
年 份: 2006年
下 载: 36次
引 用: 0次
阅 读: 论文下载
内容摘要
当前处理器的发展速度要远远高于存储器,这就导致了两者之间出现不匹配的性能鸿沟,使得多级Cache在存储系统中出现。为了更有效地利用宝贵的Cache空间,突破Memory Wall这一系统瓶颈,编译器的局部性优化研究一直都是学术界研究的热点。而全局循环合并作为一种新型的数据局部性优化,对于一些典型的科学计算应用非常有效,急需实现。本文在龙芯2编译器中实现了全局循环合并,重点阐述和分析该局部性优化的重要性和有效性。1.全局循环合并作为一种高级循环合并优化,避免了普通循环合并中所必需的条件——待合并的循环体必须相邻,从而进一步挖掘出可利用的循环合并机会。SPECfp2000测试集中的171.swim和172.mgrid可以应用该优化。2.复用距离是一种局部性的定量描述。通过在171.swim和172.mgrid上对全局循环合并前后进行复用距离分析,本文得到直观的局部性优化效果。3.本文对未来的工作诸如数组压缩、数据重组等进行了展望,并在171.swim上使用复用距离分析来考察这两种局部性优化。
|
全文目录
作者简介 3-4 致谢 4-5 摘要 5-6 Abstraction 6-9 图目录 9-11 1. 引言 11-17 1.1 程序设计语言、编译器和体系结构 11-12 1.2 IPF与ORC 12-16 1.3 龙芯2 处理器与龙芯2 编译器 16 1.4 本文概述 16-17 2. Cache与数据局部性 17-25 2.1 Cache 17-18 2.2 Memory Wall 18-19 2.3 局部性优化 19-21 2.4 循环合并 21-22 2.5 复用距离和复用距离分析 22-25 3. 全局循环合并 25-33 3.1 问题描述 25-27 3.2 整体算法 27 3.3 关键点 27-29 3.4 算法复杂度分析 29 3.5 优化效果 29-30 3.6 之前的工作 30-33 4. 数据分析 33-39 4.1 实际性能 33-34 4.2 复用距离分析 34-39 5. 未来的工作 39-43 5.1 全局循环合并 39-40 5.2 循环合并的有效性 40 5.3 数组压缩 40-41 5.4 数据重组 41-42 5.5 内存地址访问序列分析 42-43 6. 结论 43-45 7. 附录 45-47 7.1 SPECfp2000 45-47 8. 参考文献 47-49
|
相似论文
- 面向高性能DSP Matrix向量化编译器的设计与实现,TP314
- 嵌入式MSDCC异构多核编译器研究,TP314
- 基于GCC的ARCA3的编译器移植,TP368.1
- 面向空间目标轨道预测的定制处理器及其编译器的关键技术研究,V556
- 可配置TTA处理器编译器的指令调度技术研究与实现,TP314
- 航天C程序安全规则检查技术研究,TP311.52
- 出具证明编译器中证明生成的研究,TP314
- 基于IEC61131-3标准软PLC开发系统的设计与实现,TP273
- 冗余数组边界检查与对象内联优化,TP312.2
- 自由曲线轮廓加工运动控制系统的研究,TG659
- 基于华P语言的PLC核研究与设计,TP273
- 六自由度开放式工业机器人控制系统设计,TP242.2
- 面向TTA架构处理器的编译器技术的研究与实现,TP332
- 基于LLVM的无线传感器网络专用处理器编译系统研究,TN929.5
- 模拟主机的COBOL程序集成调试环境的研究与开发,TP311.52
- BWDSP100编译器的研制及优化技术研究,TP314
- 基于IMPACT的嵌入式汇编及编译指示的研究与实现,TP368.1
- 基于MIPS嵌入式系统的iLBC编解码处理,TN919.81
- 独立式运动控制器的可编程实现技术,TP311.1
- 基于编译器和模板的通信规约自动解析研究,TM63
- 嵌入式Java虚拟机CLDC HotSpot实现分析、移植及优化,TP311.52
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 电子数字计算机(不连续作用电子计算机) > 运算器和控制器(CPU)
© 2012 www.xueweilunwen.com
|