PFS故障恢复与日志机制研究:Lustre与BeeGFS的不足
159 浏览量
更新于2024-06-19
收藏 1.73MB PDF 举报
本文主要探讨了高性能并行文件系统(PFS)中的故障恢复和日志机制,以Lustre和BeeGFS为例进行深入研究。高性能计算(HPC)对PFS的依赖性显著,然而,由于PFS相对于本地存储或云存储系统的可靠性研究相对较少,实际HPC中心的故障事件凸显了PFS集群存在的问题,强调了对其进行系统分析的紧迫性。
作者首先介绍了一种名为PFAUlT的黑盒故障注入工具,这个工具不改变PFS的内部结构,而是通过预定义的故障模型模拟存储节点故障,以触发故障恢复和日志记录操作,从而测试系统的鲁棒性。通过PFAUlT,研究人员揭示了Lustre和BeeGFS在面对故障时的不同恢复策略和潜在问题。例如,Lustre的LFSCK恢复组件在检测和修复PFS一致性方面存在缺陷,可能导致系统挂起或引发内核恐慌,即便进行了恢复尝试,后续工作负载仍可能出现异常。同样,BeeGFS的BeeGFS-FSCK也显示出类似的恢复问题。
深入剖析后,作者发现这些问题源于系统设计的某些局限性,这促使他们开发出新的补丁集,并将其整合进即将发布的Lustre版本中。文章详细描述了实验过程中产生的大量日志,指出PFS在记录故障时的独特模式和局限性,这些发现有助于社区进一步研究和改进PFS的可靠性。
本文的研究工作受到美国国家科学基金会(NSF)的支持,项目编号包括CCF-1717630/1853714、CCF-1910747和CNS-1943204。研究结果不仅提供了有价值的洞察,还为提升PFS的故障管理和性能优化提供了基础,对于保障HPC系统的稳定性和效率具有重要意义。
2021-08-15 上传
点击了解资源详情
点击了解资源详情
点击了解资源详情
2009-02-11 上传
2021-05-29 上传
点击了解资源详情
cpongm
- 粉丝: 5
- 资源: 2万+
最新资源
- Elasticsearch核心改进:实现Translog与索引线程分离
- 分享个人Vim与Git配置文件管理经验
- 文本动画新体验:textillate插件功能介绍
- Python图像处理库Pillow 2.5.2版本发布
- DeepClassifier:简化文本分类任务的深度学习库
- Java领域恩舒技术深度解析
- 渲染jquery-mentions的markdown-it-jquery-mention插件
- CompbuildREDUX:探索Minecraft的现实主义纹理包
- Nest框架的入门教程与部署指南
- Slack黑暗主题脚本教程:简易安装指南
- JavaScript开发进阶:探索develop-it-master项目
- SafeStbImageSharp:提升安全性与代码重构的图像处理库
- Python图像处理库Pillow 2.5.0版本发布
- mytest仓库功能测试与HTML实践
- MATLAB与Python对比分析——cw-09-jareod源代码探究
- KeyGenerator工具:自动化部署节点密钥生成