学位论文 > 优秀研究生学位论文题录展示

高可靠处理器体系结构研究

作 者: 黄海林
导 师: 唐志敏
学 校: 中国科学院研究生院(计算技术研究所)
专 业: 计算机系统结构
关键词: 软错误 单粒子效应 故障注入 故障检测 容错技术 可靠性设计 龙芯1号处理器
分类号: TP332
类 型: 博士论文
年 份: 2006年
下 载: 509次
引 用: 3次
阅 读: 论文下载
 

内容摘要


随着处理器逐步采用纳米级制造工艺,在处理器性能得到大幅提高的同时,由于集成电路特征尺寸的减小、电源电压的降低和频率的升高,使得处理器对于串扰、电压扰动、电磁干扰以及辐射等各种噪声干扰变得更加敏感,并可能引发错误的操作,处理器的可靠性成为一个日益严峻的课题。另一方面,对于航天等特殊应用场合,由于宇宙射线和高能粒子的辐照作用,使得处理器内部电路产生各种单粒子效应,并可能引起严重的事故,因此也对处理器可靠性提出了更高的要求。本文以龙芯1号处理器为研究原型,以瞬态故障引起的软错误为主要研究对象,通过故障行为分析,结合具体的处理器结构设计,从体系结构级探讨了纳米级制造工艺下与高可靠应用场合下处理器的可靠性设计方法,本文研究工作的主要创新点与贡献如下:1.提出一种连续快速的处理器仿真故障注入技术,通过同时运行两个处理器可综合RTL模型,在较短时间内对龙芯1号处理器快速注入了大约30万个软错误,保证了分析结果具有较好的统计意义,可以有效指导后续的可靠性设计。2.提出一种基于软错误敏感性分析的体系结构级低开销容错触发器设计技术,只对龙芯1号处理器中软错误敏感性高于3%的触发器采用容错触发器,节省了81.9%的触发器资源,同时却获得了与粗放加固方法相似的可靠性。3.提出一种基于局部性原理的处理器片内存储器可靠性设计技术,一方面,通过与虚拟地址历史记录进行比较,使得片内存储器在更多时间内处于空闲关闭状态,因而提高了可靠性;另一方面,采用了一种类write-through的更新算法,使得数据Cache片内存储器与内存始终保持数据一致,有效提高了数据Cache片内存储器的可靠性,降低了保护代价;通过采用这两步措施,处理器性能平均降低了4.09%,面积增加了4.4%,以较小的性能面积开销获得了片内存储器可靠性的较好提高。4.提出一种静态检测流水线与选择性重复执行技术,根据处理器中指令与面积分布的分析,对于ALU类指令,增加一条专门用于检测执行完整性的静态流水线,对于定点乘法类指令、浮点类指令,采用重新取指并执行两次的方法,只带来了4.6%的面积开销和2.93%的性能损失,却可以检测除访存类指令外所有指令的执行完整性。5.提出一种精确流水线超时恢复技术,针对不同情况,对流水线超时错误分别采用了结果总线增加操作码比较、产生超时例外重新取指执行指令、触发器超时重置、三模冗余与ECC校验等4种方法进行处理,整个处理器的面积只增加了0.5%,以较小的面积开销实现了处理器流水线超时错误的精确恢复。6.提供了龙芯1号处理器的一个体系结构级容错处理器版本,通过采用前述可靠性设计技术,处理器性能总共平均降低了7.22%,面积增加了9.8%,相对于文献报道的各种

全文目录


摘要  3-7
目录  7-11
图目录  11-13
表目录  13-14
第一章 绪论  14-28
  1.1 研究背景  14-16
    1.1.1 开展处理器可靠性研究的必要性  14
    1.1.2 处理器发生软错误的主要原因  14-15
    1.1.3 冗余技术分类  15-16
    1.1.4 可靠性衡量指标  16
  1.2 研究现状  16-19
    1.2.1 在FPGA上实现可重构容错处理器  16-17
    1.2.2 单芯片处理器的容错与可靠性研究  17
    1.2.3 容错处理器阵列的可靠性研究  17
    1.2.4 计算机系统的可靠性研究  17-19
    1.2.5 工业界研发现状  19
  1.3 处理器可靠性设计的主要技术  19-24
    1.3.1 从工艺的角度  20
    1.3.2 从电路设计的角度  20-21
    1.3.3 从微结构设计的角度  21-23
    1.3.4 从软件设计的角度  23-24
  1.4 本文的研究目标与研究方法  24-25
  1.5 本文的主要贡献  25-26
  1.6 本文的组织结构  26-28
第二章 连续快速的处理器仿真故障注入技术  28-40
  2.1 引言  28
  2.2 处理器故障注入常用方法  28-31
    2.2.1 硬件故障注入方法  29
    2.2.2 软件故障注入方法  29-30
    2.2.3 仿真故障注入方法  30-31
    2.2.4 混合故障注入方法  31
    2.2.5 电路模拟故障注入方法  31
  2.3 处理器故障模型  31-32
  2.4 龙芯1号处理器的故障注入方法  32-39
    2.4.1 仿真故障注入平台  32-35
    2.4.2 故障注入点  35-37
    2.4.3 软错误注入过程  37-38
    2.4.4 故障注入运行效果  38-39
  2.5 小结  39-40
第三章 龙芯1号处理器的软错误敏感性分析  40-61
  3.1 引言  40
  3.2 龙芯1号处理器软错误敏感性分析  40-60
    3.2.1 取指与译码部件  41-44
    3.2.2 操作队列  44-46
    3.2.3 通用寄存器与浮点寄存器  46-48
    3.2.4 定点算术逻辑运算单元ALU与定点乘法器MUL  48-49
    3.2.5 浮点算术逻辑运算单元FALU与浮点乘法器FMUL  49-51
    3.2.6 地址运算部件  51-52
    3.2.7 TLB部件  52-55
    3.2.8 Cache部件  55-57
    3.2.9 时钟域转换部件与接口部件  57-59
    3.2.10 软错误敏感性分析小结  59-60
  3.3 小结  60-61
第四章 体系结构级低开销容错触发器设计技术  61-66
  4.1 引言  61-62
  4.2 容错触发器单元设计  62-64
    4.2.1 晶体管级容错触发器  62-63
    4.2.2 门级容错触发器  63-64
  4.3 基于软错误敏感性分析的体系结构级低开销容错触发器设计技术  64-65
  4.4 小结  65-66
第五章 处理器片内存储器的可靠性设计技术  66-88
  5.1 引言  66-67
  5.2 片内存储器的常用可靠性设计技术  67-69
    5.2.1 编码检错纠错技术  67
    5.2.2 冗余行列与内建自修复技术  67-68
    5.2.3 空闲单元关闭技术  68
    5.2.4 dirty数据块提前写回技术  68-69
    5.2.5 故障隔离技术  69
    5.2.6 高可靠存储单元电路与版图设计技术  69
  5.3 利用局部性减少处理器片内存储器的访问次数  69-80
    5.3.1 访存部件结构分析  70-71
    5.3.2 TLB部件初始设计结构分析  71-73
    5.3.3 Cache部件初始设计结构分析  73-74
    5.3.4 根据虚拟地址历史记录同时减少TLB和Cache对片内存储器的访问次数  74-77
    5.3.5 关键路径分析  77-78
    5.3.6 功耗降低情况分析  78-80
  5.4 类write-through更新算法  80-87
    5.4.1 Cache更新算法  80-81
    5.4.2 write-through更新算法与write-buffer  81-83
    5.4.3 类write-through更新算法  83-85
    5.4.4 进一步的编码保护  85-87
  5.5 小结  87-88
第六章 静态检测流水线与选择性重复执行技术  88-102
  6.1 引言  88
  6.2 常用体系结构级冗余设计技术  88-91
    6.2.1 时间冗余技术  89-90
    6.2.2 硬件冗余技术  90-91
  6.3 静态检测流水线与选择性重复执行技术  91-101
    6.3.1 龙芯1号处理器的指令执行分布情况和面积分布情况  92-94
    6.3.2 静态检测流水线技术  94-97
    6.3.3 选择性重复执行技术  97-100
    6.3.4 验证环境  100-101
  6.4 小结  101-102
第七章 精确流水线超时恢复技术  102-110
  7.1 引言  102
  7.2 常用流水线超时恢复技术  102-103
  7.3 精确流水线超时恢复技术  103-108
    7.3.1 流水线超时软错误敏感性分析  103-105
    7.3.2 结果总线增加操作码比较  105-107
    7.3.3 产生超时例外重新取指执行指令  107-108
    7.3.4 超时错误敏感触发器超时重置  108
    7.3.5 三模冗余与ECC校验  108
    7.3.6 性能面积开销  108
  7.4 小结  108-110
第八章 结束语  110-113
  8.1 引言  110
  8.2 本文的主要贡献  110-111
  8.3 进一步的研究工作  111-113
参考文献  113-123
致谢  123-124
作者简历  124

相似论文

  1. 分布式系统的故障注入方法研究,TP338.8
  2. 面向软件的故障注入工具的研究与实现,TP311.52
  3. 移动计算环境下故障结点检测方法研究,TP338.8
  4. 深亚微米SRAM存储单元稳定性研究,TP333
  5. 太阳能热水器采暖控制系统的设计,TP273
  6. 太阳能集热洗浴控制系统的设计及其故障检测,TP273
  7. 网络化控制系统故障检测方法仿真研究,TP273
  8. 基于广域网的容灾存储系统故障检测技术的研究与设计,TP333
  9. 20kV线路接地保护研究,TM862
  10. SRAM型FPGA单粒子故障传播特性与测试方法研究,V467
  11. 汽车脚踏板操纵机构总成试验台设计及其关键技术研究,U467.5
  12. 电动增压器电控系统的设计及试验研究,TK423
  13. 航天电连接器可靠性设计与增长的研究,V442
  14. 计算机系统可信性评测研究与设计,TP311.52
  15. 基于不变式的软件故障检测与恢复技术研究,TP311.52
  16. 深表土层井壁可靠性设计理论与方法体系研究,TD262
  17. 铅酸蓄电池蓄电容量测试技术的研究,TM912
  18. 桩—锚杆支护结构可靠性研究,TU753
  19. 塔式起重机机群故障检测与诊断系统的设计与研究,TP277
  20. 便携式卫星通信地球站设备可靠性分析与设计,TN927.21
  21. 旅客列车无线烟雾报警系统的研制,TP277

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 电子数字计算机(不连续作用电子计算机) > 运算器和控制器(CPU)
© 2012 www.xueweilunwen.com