学位论文 > 优秀研究生学位论文题录展示

基于MPI的并行容错技术研究与实现

作 者: 牛海波
导 师: 卢宇彤
学 校: 国防科学技术大学
专 业: 计算机科学与技术
关键词: MPI 容错 VFTS 通信器动态重构 性能模型 伙伴协议 全局一致性协议
分类号: TP302.8
类 型: 硕士论文
年 份: 2011年
下 载: 52次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着HPC系统的迅猛发展,其系统的可靠性问题越来越引起人们的关注,容错技术作为提高系统可靠性的一种重要的技术手段,对其开展研究具有十分重要的意义。MPI作为HPC领域使用最为广泛的并行编程环境,在MPI系统中实现对容错的支持是容错技术研究的一个重要方向。本文对现有的容错技术进行了深入的研究、分析和对比后,选择检查点技术作为本课题系统的容错手段。设计实现了独立于MPI标准实现库、具有可移植性和可扩展性的MPI容错系统——VFTS(Variable-based Fault Tolerant MPI System)。在设计和实现VFTS系统中,主要工作如下:建立了检查点容错的程序性能分析模型以指导用户为程序添加容错功能。在系统故障服从泊松分布时,给出了程序如何添加容错功能以获取程序最小时间开销。此外根据系统特点,总结了容错程序性能优化方法,提出了程序添加容错功能时获取较小时间、空间和通信开销所需要遵循的约束原则。提出了通信器动态重构方法,针对现有MPI标准中的静态进程模型对于容错的限制,通信器动态重构可以使MPI程序能够实现对失效进程的隔离、排除、新进程加入,通信器动态恢复等功能,使得程序在有进程发生失效后能够动态重构其通信器和通信空间。设计了用于程序用户数据保存和恢复的伙伴协议。伙伴协议通过两个或多个进程之间互相保存对方进程用户数据来完成容错功能,设计简单且容错能力可根据伙伴协议的变化而变化,方便用户根据程序容错需求通过调整伙伴协议来调整程序容错能力。设计了保证系统程序状态正确性的全局一致性协议,此协议设计与实现简单、开销较小。在伙伴协议和检查点机制提供的数据支持下,用于保证程序失效前后程序系统数据和用户数据保存和恢复的一致性。设计和实现了VFTS系统,并采用NPB程序对程序添加容错功能后对程序时间性能、空间性能、通信负载、容错能力和系统I/O带来的影响进行了详细测试和分析。

全文目录


相似论文

  1. 偏振光/地磁/GPS/SINS组合导航算法研究,V249.328
  2. 并行分布式网络模拟器PDNS容错技术的研究,TP302.8
  3. 移动计算环境下检查点技术研究与Petri网建模,TP301.1
  4. 分布式多视点视频编码容错边信息与相关噪声模型研究,TN919.81
  5. k元n方体的容错嵌入,O157.5
  6. 时滞线性系统的鲁棒容错控制器设计,TP13
  7. 空间信息网容错拓扑控制算法的设计与实现,TN915.02
  8. 环境一号卫星CCD影像云去除方法研究及并行化实现,P228
  9. 基于并行计算的医学超声成像技术研究,TP391.41
  10. 永磁风力发电系统新型拓扑及控制策略研究,TM315
  11. 基于IHE的PIX研究与实现,TP399-C8
  12. 基于Linux的小型高性能集群的研究和优化,TP316.81
  13. 多时相遥感影像变化检测并行系统设计与实现,TP751
  14. 过载虚机条件下MPI通信性能改善方法研究,TP302
  15. 针对并发错误的异常处理机制的设计与实现,TP332
  16. 球谐函数展开快速算法及其并行算法研究,TP301.6
  17. 基于MPI的大地电磁三维正反演并行算法研究,P631.325
  18. FDTD与MPSTD并行算法在电磁散射中的应用研究,O441.4
  19. 铜带剪切线张力控制系统及应用,TG333.21
  20. 门控心肌灌注显像在冠状动脉搭桥术前后的临床应用研究,R654.2

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 一般性问题 > 设计与性能分析 > 容错技术
© 2012 www.xueweilunwen.com