PFS故障恢复与日志机制研究:Lustre与BeeGFS的不足

0 下载量 159 浏览量 更新于2024-06-19 收藏 1.73MB PDF 举报
本文主要探讨了高性能并行文件系统(PFS)中的故障恢复和日志机制,以Lustre和BeeGFS为例进行深入研究。高性能计算(HPC)对PFS的依赖性显著,然而,由于PFS相对于本地存储或云存储系统的可靠性研究相对较少,实际HPC中心的故障事件凸显了PFS集群存在的问题,强调了对其进行系统分析的紧迫性。 作者首先介绍了一种名为PFAUlT的黑盒故障注入工具,这个工具不改变PFS的内部结构,而是通过预定义的故障模型模拟存储节点故障,以触发故障恢复和日志记录操作,从而测试系统的鲁棒性。通过PFAUlT,研究人员揭示了Lustre和BeeGFS在面对故障时的不同恢复策略和潜在问题。例如,Lustre的LFSCK恢复组件在检测和修复PFS一致性方面存在缺陷,可能导致系统挂起或引发内核恐慌,即便进行了恢复尝试,后续工作负载仍可能出现异常。同样,BeeGFS的BeeGFS-FSCK也显示出类似的恢复问题。 深入剖析后,作者发现这些问题源于系统设计的某些局限性,这促使他们开发出新的补丁集,并将其整合进即将发布的Lustre版本中。文章详细描述了实验过程中产生的大量日志,指出PFS在记录故障时的独特模式和局限性,这些发现有助于社区进一步研究和改进PFS的可靠性。 本文的研究工作受到美国国家科学基金会(NSF)的支持,项目编号包括CCF-1717630/1853714、CCF-1910747和CNS-1943204。研究结果不仅提供了有价值的洞察,还为提升PFS的故障管理和性能优化提供了基础,对于保障HPC系统的稳定性和效率具有重要意义。