GS-DMR:一种低开销的软错误检测方案
196 浏览量
更新于2024-07-15
收藏 1.59MB PDF 举报
"GS-DMR: 低开销的软错误检测方案,针对基于模板的计算"
这篇研究论文探讨了在大规模并行科学应用中日益严重的软错误问题。软错误通常由辐射粒子引起,对计算结果产生不可预测的影响,尤其是在高性能计算领域。双模冗余(DMR)是一种常见的错误检测方法,它能提供接近100%的错误覆盖率,但其高开销是其主要缺点。
基于模板的计算,如有限差分或有限体积方法,广泛用于结构化网格中的科学模拟。这些模板内核是计算的核心部分,因此对于这类计算的软错误检测显得尤为重要。论文提出了一种名为Grid Sampling Dual-Modular Redundancy (GS-DMR) 的新方法,这是一种针对基于模板计算的低开销软错误检测方案。
传统的DMR方法会比较整个结果集来检测错误,这在处理大数据量时可能导致显著的计算和存储开销。GS-DMR则通过在网格数据上进行采样,仅比较子集结果来实现错误检测。这种方法基于错误传播模式,即根据软错误导致的数据变化规律,有选择地进行结果比较,从而降低了比较的复杂性和所需的额外资源。
GS-DMR的关键在于理解和利用模板计算中的错误传播特性,以减少冗余计算和存储的需求。通过这种方式,可以有效降低因软错误导致的计算错误,同时保持较低的系统开销。该方案对于提升高性能计算系统的可靠性,尤其是那些依赖于模板计算的科学研究项目,具有重要意义。
论文详细阐述了GS-DMR的工作原理、设计思路以及在实际应用中的性能表现。通过实验结果,作者证明了GS-DMR相比于传统的DMR方法,在保持高错误检测率的同时,显著减少了计算和存储的负担,从而为大规模并行计算提供了更高效且经济的错误防护策略。
关键词:GS-DMR,软错误,基于模板的计算,容错
这篇研究不仅在理论层面提出了新的解决方案,还对未来的高性能计算硬件和软件设计提供了有价值的指导,有助于开发出更加健壮和可靠的计算系统。
2021-03-04 上传
2021-06-05 上传
2021-05-10 上传
2021-03-26 上传
2021-03-28 上传
2021-06-05 上传
2021-04-01 上传
weixin_38733676
- 粉丝: 5
- 资源: 915
最新资源
- Raspberry Pi OpenCL驱动程序安装与QEMU仿真指南
- Apache RocketMQ Go客户端:全面支持与消息处理功能
- WStage平台:无线传感器网络阶段数据交互技术
- 基于Java SpringBoot和微信小程序的ssm智能仓储系统开发
- CorrectMe项目:自动更正与建议API的开发与应用
- IdeaBiz请求处理程序JAVA:自动化API调用与令牌管理
- 墨西哥面包店研讨会:介绍关键业绩指标(KPI)与评估标准
- 2014年Android音乐播放器源码学习分享
- CleverRecyclerView扩展库:滑动效果与特性增强
- 利用Python和SURF特征识别斑点猫图像
- Wurpr开源PHP MySQL包装器:安全易用且高效
- Scratch少儿编程:Kanon妹系闹钟音效素材包
- 食品分享社交应用的开发教程与功能介绍
- Cookies by lfj.io: 浏览数据智能管理与同步工具
- 掌握SSH框架与SpringMVC Hibernate集成教程
- C语言实现FFT算法及互相关性能优化指南