GS-DMR:一种低开销的软错误检测方案

0 下载量 196 浏览量 更新于2024-07-15 收藏 1.59MB PDF 举报
"GS-DMR: 低开销的软错误检测方案,针对基于模板的计算" 这篇研究论文探讨了在大规模并行科学应用中日益严重的软错误问题。软错误通常由辐射粒子引起,对计算结果产生不可预测的影响,尤其是在高性能计算领域。双模冗余(DMR)是一种常见的错误检测方法,它能提供接近100%的错误覆盖率,但其高开销是其主要缺点。 基于模板的计算,如有限差分或有限体积方法,广泛用于结构化网格中的科学模拟。这些模板内核是计算的核心部分,因此对于这类计算的软错误检测显得尤为重要。论文提出了一种名为Grid Sampling Dual-Modular Redundancy (GS-DMR) 的新方法,这是一种针对基于模板计算的低开销软错误检测方案。 传统的DMR方法会比较整个结果集来检测错误,这在处理大数据量时可能导致显著的计算和存储开销。GS-DMR则通过在网格数据上进行采样,仅比较子集结果来实现错误检测。这种方法基于错误传播模式,即根据软错误导致的数据变化规律,有选择地进行结果比较,从而降低了比较的复杂性和所需的额外资源。 GS-DMR的关键在于理解和利用模板计算中的错误传播特性,以减少冗余计算和存储的需求。通过这种方式,可以有效降低因软错误导致的计算错误,同时保持较低的系统开销。该方案对于提升高性能计算系统的可靠性,尤其是那些依赖于模板计算的科学研究项目,具有重要意义。 论文详细阐述了GS-DMR的工作原理、设计思路以及在实际应用中的性能表现。通过实验结果,作者证明了GS-DMR相比于传统的DMR方法,在保持高错误检测率的同时,显著减少了计算和存储的负担,从而为大规模并行计算提供了更高效且经济的错误防护策略。 关键词:GS-DMR,软错误,基于模板的计算,容错 这篇研究不仅在理论层面提出了新的解决方案,还对未来的高性能计算硬件和软件设计提供了有价值的指导,有助于开发出更加健壮和可靠的计算系统。