学位论文 > 优秀研究生学位论文题录展示
计算机硬件设备故障管理机制研究
作 者: 田昕
导 师: 廖湘科
学 校: 国防科学技术大学
专 业: 计算机科学与技术
关键词: 故障管理 故障诊断规则 故障诊断算法
分类号: TP307
类 型: 硕士论文
年 份: 2009年
下 载: 40次
引 用: 0次
阅 读: 论文下载
内容摘要
在现代商业应用中,高性能容错计算机的应用越来越广泛。在高性能容错计算机领域,负责故障的检测、隔离和恢复的故障管理系统是操作系统级容错框架的核心环节。然而,现有的计算机故障管理机制存在很多缺陷,已经难以满足高性能容错计算机给故障管理带来的新要求和新挑战。本文的目的是设计一种计算机设备故障管理机制,使之具备诊断计算机复杂多样的故障的能力,能够兼容各种不同故障机理,并充分利用容错设计给故障修复带来的便利。高性能容错计算机硬件结构复杂,容错设计在提高可靠性的同时往往又提高了硬件拓扑结构和硬件元件内部结构的复杂度,这加大了故障检测和诊断的难度,给故障管理机制的设计带来了巨大挑战。本文提出了一个计算机故障管理的层次化框架模型,分析了各层次的特点和意义,对故障管理各组件在框架各层次的职能及各组件在同一层次的相互联系进行了分析,对其中一些关键技术点进行了讨论。本文重点对框架中资源层的关键技术进行了研究。提出了基于故障扩散图的规则描述方法,研究了故障扩散图的组成结构和规律特性,并设计了基于故障扩散图的诊断算法;设计了一种故障扩散图描述语言,并实现了该语言的解释器,使用户可自行定义故障扩散图,从而为机器量身定做故障诊断规则;基于解释器生成的表示故障扩散图的数据结构,给出了基于故障扩散图的诊断算法实现。为验证本文的设计,进行了仿真诊断实验。实验包括两部分:首先利用伪设备注入虚拟故障以进行诊断实验;然后分析了一种真实网卡设备的故障特性,对其进行了故障诊断仿真。实验结果初步验证了设计的有效性。
|
全文目录
摘要 9-10 ABSTRACT 10-12 第一章 绪论 12-16 1.1 项目背景 12 1.2 现有的计算机故障管理机制 12-13 1.3 研究计算机故障管理的意义 13-15 1.4 本文的工作及论文结构 15-16 1.4.1 本文的主要工作 15 1.4.2 论文结构 15-16 第二章 相关技术研究 16-22 2.1 基本原理 16-17 2.1.1 错误和故障 16-17 2.1.2 故障管理系统的一般组成 17 2.2 计算机故障管理相关技术 17-21 2.2.1 错误处理器技术 17-19 2.2.2 诊断引擎相关技术研究 19-21 2.3 小结 21-22 第三章 层次化的故障管理框架 22-31 3.1 层次化的故障管理框架概述 22-24 3.2 资源层 24-25 3.3 故障管理层 25-28 3.3.1 错误处理组件 26 3.3.2 故障诊断组件 26-27 3.3.3 故障修复组件 27-28 3.4 事件层 28-30 3.4.1 FMSEP 事件协议 28-29 3.4.2 事件层的功能 29-30 3.5 该层次化框架的特点 30 3.6 小结 30-31 第四章 故障诊断规则描述 31-53 4.1 诊断规则描述方法在资源层中的重要性 31-34 4.1.1 资源层的结构 31-32 4.1.2 资源层的自定义配置 32-33 4.1.3 诊断规则描述方法的重要性和复杂性 33-34 4.2 基于故障扩散图的诊断规则描述方法 34-45 4.2.1 现有故障特性描述方法的特点与局限 34-35 4.2.2 故障扩散图的组成结构设计 35-41 4.2.3 故障扩散图的规律特性研究 41-45 4.3 利用故障扩散图的故障诊断算法 45-52 4.3.1 算法思想概述 45-47 4.3.2 上行推演 47-50 4.3.3 更新初始观察集 50 4.3.4 下行推演 50-52 4.4 小结 52-53 第五章 利用故障扩散图的故障诊断算法的实现 53-72 5.1 故障扩散图的描述语言 53-63 5.1.1 描述语言语法设计 53-55 5.1.2 解释器设计 55-63 5.2 故障诊断算法的实现 63-71 5.2.1 源节点组合真值计算的实现 64-67 5.2.2 约束的判断 67-68 5.2.3 诊断算法的实现 68-71 5.3 小结 71-72 第六章 仿真诊断实验 72-81 6.1 虚拟故障仿真诊断实验 72-73 6.2 网卡故障仿真诊断实验 73-80 6.2.1 Realtek RTL8169 网卡故障特性分析 74-78 6.2.2 实验步骤和结果 78-80 6.3 小结 80-81 结束语 81-82 致谢 82-83 参考文献 83-86 作者在学期间取得的学术成果 86
|
相似论文
- 面向三网融合的故障管理系统的研究及实现,TP315
- 基于规则和案例的远程心电图机故障诊断专家系统,TP182
- 基于改进Rete算法的旋转机械故障诊断专家系统的研究,TP182
- 便携式网络故障诊断仪的设计与实现,TP393.06
- 云师大网络故障用户自助排查系统设计与实现,TP311.52
- 信号源类仪器故障诊断专家系统设计与开发,TP182
- 基于Manager/Agent模式的网络故障管理系统的研究和实现,TP393.07
- 基于规则的特装车辆故障诊断专家系统的研究,TP277
- 矿井局部通风设备系统故障诊断规则获取研究,TD724
- 基于事件关联技术的互联网故障诊断研究,TP393.07
- 铁路客票系统安全和网络资源综合管理系统的研究,TP393.08
- 基于关联规则的告警相关性分析及在数据网管系统中的应用,TP311.13
- 通信综合网管系统故障管理的设计和实现,TP311.52
- 网络环境下设备故障管理信息系统的研究与应用,TP311.52
- 基于事件的EPON网络故障管理,TN929.1
- 通信网络故障管理系统的实现,TN915.07
- 大众网网络监控系统的分析与设计,TP311.52
- 基于序列模式挖掘的故障管理系统设计与实现,TP311.13
- 基于神经网络和遗传算法的Ad hoc网络故障管理模型研究,TN929.5
- 网络告警分布式加权关联规则挖掘系统的研究与设计,TP311.13
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 一般性问题 > 检修、维护
© 2012 www.xueweilunwen.com
|