学位论文 > 优秀研究生学位论文题录展示

多核微处理器容软错误设计关键技术研究

作 者: 龚锐
导 师: 王志英;戴葵
学 校: 国防科学技术大学
专 业: 计算机科学与技术
关键词: 多核微处理器 容软错误 执行模型 门级冗余 控制流检测 可靠性评估
分类号: TP332
类 型: 博士论文
年 份: 2008年
下 载: 515次
引 用: 11次
阅 读: 论文下载
 

内容摘要


微处理器受到高能粒子轰击或噪声干扰等恶劣环境的影响,将发生瞬态故障。这些瞬态故障可能引起软错误(Soft Error),甚至失效,这将对微处理器的可靠性产生较大的影响。随着集成电路制造工艺的进步,单片上能够集成的晶体管数目将呈指数增长,这将使得微处理器面临越来越严重的软错误威胁。目前,多核微处理器已经逐渐成为市场的主流。容软错误(Soft Error Tolerance)技术一般都需要某种程度的冗余,而多核微处理器中天然的冗余资源为容软错误设计提供了新的解决思路。如何有效地利用多核微处理器中的冗余资源来增强微处理器的容软错误能力,进而提高其可靠性,就成了亟待解决的问题,对其进行深入研究具有重要的理论意义和实用价值。本文的研究工作围绕多核微处理器容软错误设计中的一系列关键技术展开。首先研究了多核微处理器容软错误执行模型,容软错误执行模型关系到程序如何高效、正确、可靠地在多核微处理器上执行,这也是发挥多核冗余资源优势实现容软错误设计的关键所在。其次,本文对具体的容软错误加固技术进行了研究,任何容软错误微处理器都要采用不同层次的加固技术对软错误进行屏蔽、检测或恢复,本文主要研究了门级的冗余技术和体系结构级的控制流检测技术。最后,本文对微处理器可靠性评估模型进行了研究,以便能在设计流程的早期就对微处理器可靠性进行定量评估,从而对设计选择和优化进行有效地指导。本文所作的主要创新工作包括:(I)本文提出了两种多核微处理器容软错误执行模型,包括:(1)基于现场保存与恢复的双核冗余执行模型DCR。在该模型中,两份相同的线程在两个具有现场保存与恢复功能的内核上冗余执行。通过增强内核的功能,使得该模型在能够有效恢复软错误的同时,具有较低的容错专用核间队列带宽需求和实现复杂度。(2)可重构的三核冗余执行模型TCR。该模型通过增强内核的冗余,在三个不同的内核上执行三份相同的线程,发现软错误以后可以进行动态重构,从而以较低的容错专用核间队列带宽需求和较高的执行性能实现了对软错误的有效屏蔽。(II)本文提出了两种基于异步电路技术的门级冗余结构,包括:(1)基于异步C单元的双模冗余结构DMR。该结构采用异步C单元对双模冗余单元的输出进行屏蔽,有效地降低了硬件冗余度,在具有对SEU(Single Event Upset)故障屏蔽能力的同时,有效地降低了芯片的面积开销。(2)基于异步双沿触发寄存器的时空三模冗余结构TSTMR。本文借鉴异步电路中解同步电路显式分离主从锁存器的结构,提出了双沿触发寄存器(DCTREG)。TSTMR结构通过采用DCTREG,将时间冗余应用到门级,从而实现对SEU和SET(Single Event Transient)故障的全面屏蔽。(III)本文提出了一种增强型控制流检测技术ECFC,该技术主要包括检测方法和实现方法两部分:(1)基于节点和边的签名检测方法。该方法通过将签名同时赋予控制流图中的节点和边,实现了比经典的基于节点的签名检测方法更严格的控制流检测,并且可以杜绝经典检测方法中可能出现的非法转移误判和调整签名冲突的情况。(2)软硬件结合的控制流检测实现方法。该实现方法由编译器在程序中插入签名数据,在程序执行的过程中,执行完控制流转移指令后自动触发一次硬件检测操作。该实现方法具有二进制代码量小、性能高、检错及时等优点。(IV)本文提出了一种综合考虑芯片面积和性能开销的可靠性评估模型:该模型采用一种新的评估量化标准,以实现对微处理器可靠性的定量评估。采用该评估模型,可以在设计流程中对采用了不同容软错误技术的微处理器的可靠性进行准确的定量评估,有利于对设计选择和优化进行指导。本文还在此评估模型下,对上述容软错误执行模型、门级冗余结构和体系结构级控制流检测技术进行了可靠性评估。本文通过对容软错误执行模型、容软错误加固技术和可靠性评估模型的研究,对容软错误多核微处理器的设计实现进行了有益的探索。本文的实现、验证和评估结果表明,上述技术是有效的,能够应用于容软错误多核微处理器的设计和实现。

全文目录


摘要  12-14
ABSTRACT  14-16
第一章 绪论  16-46
  1.1 研究背景:软错误  16-26
    1.1.1 高能粒子来源  16-20
    1.1.2 噪声来源  20
    1.1.3 故障机理  20-22
    1.1.4 故障种类  22-25
    1.1.5 故障、错误与失效  25-26
  1.2 课题动机:挑战与机遇  26-31
    1.2.1 制造工艺带来的挑战  27-29
    1.2.2 体系结构带来的机遇  29-31
  1.3 课题目标与来源  31
  1.4 国内外相关研究工作  31-40
    1.4.1 容软错误加固技术  31-35
    1.4.2 容软错误执行模型  35-37
    1.4.3 容软错误微处理器与系统实现  37-38
    1.4.4 可靠性评估模型  38-40
  1.5 本文研究内容  40-41
    1.5.1 容软错误执行模型  40
    1.5.2 容软错误加固技术  40-41
    1.5.3 微处理器可靠性评估模型  41
  1.6 本文主要创新工作  41-43
  1.7 论文结构  43-46
第二章 多核微处理器容软错误执行模型  46-82
  2.1 研究动机与思路  46-48
  2.2 基本假设  48-49
  2.3 基于现场保存与恢复的双核冗余执行模型  49-61
    2.3.1 DCR 执行模型结构  49-51
    2.3.2 DCR 执行模型执行机制  51-54
    2.3.3 DCR 执行模型实现  54-57
    2.3.4 DCR 执行模型性能分析  57-60
    2.3.5 DCR 执行模型软错误恢复能力分析  60-61
  2.4 可重构的三核冗余执行模型  61-70
    2.4.1 TCR 执行模型结构  61-62
    2.4.2 TCR 执行模型执行机制  62-66
    2.4.3 TCR 执行模型实现  66-67
    2.4.4 TCR 执行模型性能分析  67-70
    2.4.5 TCR 执行模型软错误屏蔽能力分析  70
  2.5 实验与分析  70-78
    2.5.1 带宽评估  72-73
    2.5.2 性能评估  73-77
    2.5.3 容软错误能力评估  77-78
  2.6 与相关工作的比较  78-79
  2.7 小结  79-82
第三章 门级容软错误加固技术——基于异步电路技术的门级冗余结构  82-116
  3.1 异步电路简介  82-89
    3.1.1 同步电路与异步电路  83-84
    3.1.2 异步电路优势与劣势  84-86
    3.1.3 异步电路基本概念  86-89
  3.2 基于异步C 单元的双模冗余结构  89-96
    3.2.1 DMR 冗余结构  89-91
    3.2.2 DMR 结构可靠性分析  91-96
  3.3 基于异步双沿触发寄存器的时空三模冗余结构  96-104
    3.3.1 TSTMR 冗余结构  96-100
    3.3.2 TSTMR 结构可靠性分析  100-104
  3.4 异步标准单元设计与实现  104-108
    3.4.1 设计流程  104-107
    3.4.2 异步标准单元实现  107-108
  3.5 实验与分析  108-112
    3.5.1 芯片面积评估  109
    3.5.2 性能评估  109-111
    3.5.3 容软错误能力评估  111-112
  3.6 与相关工作的比较  112-113
  3.7 小结  113-116
第四章 体系结构级容软错误加固技术——增强型控制流检测技术  116-144
  4.1 控制流检测技术简介  116-127
    4.1.1 基本块和控制流图  116-118
    4.1.2 基于节点的签名检测方法  118-125
    4.1.3 纯软件控制流检测实现方法  125-127
  4.2 基于节点和边的签名检测方法  127-132
  4.3 软硬件结合的控制流检测实现方法  132-139
    4.3.1 编译签名算法  132-135
    4.3.2 硬件检测机制  135-139
  4.4 实验与分析  139-142
    4.4.1 二进制代码量评估  140
    4.4.2 芯片面积评估  140-141
    4.4.3 性能评估  141
    4.4.4 容软错误能力评估  141-142
  4.5 与相关工作的比较  142-143
  4.6 小结  143-144
第五章 微处理器可靠性评估模型  144-160
  5.1 研究动机  144-146
  5.2 量化标准  146-148
  5.3 评估框架  148-152
    5.3.1 执行时间获取方法  148
    5.3.2 结构弱点因子获取方法  148-150
    5.3.3 芯片面积获取方法  150
    5.3.4 评估流程  150-152
  5.4 评估实例  152-158
    5.4.1 容软错误执行模型可靠性评估  152-155
    5.4.2 门级冗余结构可靠性评估  155-157
    5.4.3 控制流检测技术可靠性评估  157-158
  5.5 与相关工作的比较  158-159
  5.6 小结  159-160
第六章 结束语  160-164
  6.1 工作总结  160-161
  6.2 工作展望  161-164
致谢  164-166
参考文献  166-178
作者在学期间取得的学术成果  178-179

相似论文

  1. 长寿命产品退化试验方法研究,TB114.3
  2. 智能监护服设计与可靠性评价,TS941.73
  3. 风电场运行容量可信度评估与应用研究,TM732
  4. 考虑不确定性的输电系统可靠性评估,TM732
  5. 大型风电场对发输电系统可靠性影响评估研究,TM732
  6. 含分布式电源的配电网可靠性评估,TM732
  7. 电力系统可靠性裕度评估,TM732
  8. 京津城际接触网可靠性分析及维修管理系统的研究,U226.8
  9. 县级10kV配电网的供电可靠性分析,TM732
  10. 现役亚健康多跨简支梁桥可靠性评估及运营荷载限制研究,U445.7
  11. HXD1型机车在线诊断及评估系统的研究与应用,U269.3
  12. 基于JTAG的CPU故障注入工具的设计与实现,TP332
  13. 配电网可靠性评估与优化,TM732
  14. 配电系统可靠性评估方法研究,TM732
  15. 考虑腐蚀影响的潜艇结构可靠性研究,U674.941
  16. 供气系统的可靠性分析,TB535
  17. 输配电组合系统的可靠性评估算法研究,TM732
  18. 基于故障快速遍历的配电系统可靠性模糊评估,TM732
  19. 基于DS证据理论的空间目标融合识别方法研究,TP391.41
  20. 计及多负荷水平的配电网可靠性评估贝叶斯网络区间算法,TM732
  21. 非参数核密度估计负荷模型在电网可靠性评估中的应用,TM732

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 电子数字计算机(不连续作用电子计算机) > 运算器和控制器(CPU)
© 2012 www.xueweilunwen.com