面向异构众核的Parallel C轻量级容错技术

需积分: 10 0 下载量 167 浏览量 更新于2024-09-05 收藏 769KB PDF 举报
"这篇论文研究了在Parallel C语言中设计和实现轻量级容错机制,以解决大规模异构众核计算机系统中的可用性问题。传统的基于检查点的容错方法由于开销大,不适用于这类系统。论文提出了故障局部感知的轻量级降级和编译指导与自动分析的检查点机制,旨在兼顾效率和易用性。轻量级降级利用动态任务调度框架,可扩展到百万以上并行规模,容错开销小于1%。编译指导的检查点通过减少需要保留的数据量,降低恢复成本,典型应用中最多能减少保留量至原来的1/10。实验证明,这两种容错措施在神威太湖之光超级计算机上表现优于传统方法,提高了系统的可用性和性能。" 这篇论文探讨了在面对大规模异构众核计算机系统时,如何设计有效的容错机制。随着超级计算机的发展,这类系统的复杂结构和大规模特性对容错技术提出了新的挑战。传统系统级容错技术,如基于检查点的方法,由于其高开销,往往难以适应这种环境。 论文中提出了一种新的解决方案,即在Parallel C语言层面引入轻量级的容错机制。首先,他们设计了故障局部感知的轻量级降级策略,该策略与动态任务调度相结合,能够在发生故障时快速恢复,且可以扩展到非常大的并行规模,例如百万核心以上。这一机制减少了容错过程的额外开销,据称其开销低于1%,并且能够在单次故障执行时间上减少3.5%以上,从而提高了系统的整体性能。 其次,论文还引入了编译指导与自动分析的检查点机制。这种机制允许程序员通过简单的编译指示来帮助编译器识别哪些数据是不需要保留的,从而显著降低恢复过程中需要存储的数据量。在实际应用中,这种方法最多可以将保留数据量降低到原来的十分之一,极大地提升了容错效率。 实验部分,研究者在神威太湖之光超级计算机上验证了这两种新机制的效果,结果表明它们在实际运行中的表现优于传统的容错方法,进一步证明了这些轻量级容错技术对于提升大规模异构众核系统的可用性和性能的重要性。 这篇论文为大规模异构众核计算机系统的容错技术提供了创新的思路,通过轻量级降级和编译指导的检查点,既降低了容错开销,又保持了系统的高效运行,对于未来超级计算机的可靠性设计具有重要参考价值。