并行文件系统故障恢复研究：Lustre与BeeGFS的日志机制分析

136 浏览量更新于2024-06-16 收藏 1.74MB PDF 举报

"本文主要探讨了高性能并行文件系统(HPC)中的故障恢复和日志机制，重点关注了Lustre和BeeGFS这两个广泛应用的PFS。通过开发名为PFAUlT的黑盒故障注入工具，作者们系统地模拟了存储节点的故障情况，以研究这些系统的响应和恢复能力。研究揭示了Lustre的LFSCK组件和BeeGFS的BeeGFS-FSCK组件在处理故障时存在的问题，可能导致系统不稳定或进一步的I/O错误。作者进行了深入的异常症状分析，并为Lustre开发了一套新的补丁。此外，他们还分析了大量的日志数据，指出了PFS在故障日志记录方面的不足。这项工作得到了NSF的资助，目的是推动社区对PFS可靠性的研究，并助力改进HPC的性能和稳定性。" 在高性能并行文件系统(HPC)中，故障恢复和日志机制是确保服务连续性和数据完整性的关键组成部分。Lustre和BeeGFS是两个被广泛采用的PFS，它们在处理大规模数据和计算任务时展现了出色的性能。然而，由于PFS的复杂性和高并发特性，它们在面临故障时的应对策略往往没有得到充分研究。 PFAUlT的创建是一个创新的步骤，它允许研究人员在不干扰PFS正常运行的情况下，模拟各种故障场景。这种透明且易于部署的工具对于理解不同存储节点故障对PFS的影响至关重要。通过PFAUlT，研究人员发现了Lustre的LFSCK组件在检测和修复PFS不一致性时可能出现的自身问题，如系统挂起或引发内核恐慌。同样，BeeGFS的BeeGFS-FSCK组件也被发现存在类似的问题，这可能影响到故障后的系统恢复。深入的故障分析不仅找出了问题，还推动了实际的解决方案。作者为Lustre开发的新补丁集有望改善其故障处理能力。同时，对日志数据的详细分析揭示了PFS在记录故障事件时的局限性，这对于优化日志系统和提高故障诊断效率具有重要意义。美国国家科学基金会( NSF )的资助支持了这项工作，旨在提升PFS的可靠性，特别是在二级存储组织和计算机系统可靠性方面。通过这样的研究，期望能激发更多的学术讨论，推动技术进步，最终使高性能计算环境更加稳定和可靠。

十四

日：

R. Han等人

ACM Transactions on Storage

，

Vol.

号

182

、第十四条。出版日期：

2022

年

月

并配置为iSCSI目标的后端设备（第2.3节），表示相应虚拟设备的

持久状态。此外，

故障状态仿

真器

操纵

备份文件，并基于工作负载

和一组预定义的故障模型来仿真每个虚拟设备的故障状

态。（2）

PFS

工作者

启动工作负载以执行PFS并生成I/O操作。（3）

PFS

服务器

调用恢复组件

（即，FSCK）

以及一组可验证的工作负载，以检查PFS的可恢复性。（4）日志

管理器

协调整

个工作流程并自动收集相应的日志。

我们将分别在3.2、3.3、3.4和3.5节详细讨论这四个组成

部分

图1（b）显示了PFAU lT的非iSCSI版本，它与iSCSI版本的不同之处在于

故障状态仿真器

和

配置器

组件。我们在第3.6节中讨论了主要差异，并在第3.7节中总结了整体工作流程。

3.2 故障状态仿真器

为了研究PFS的故障恢复和日志记录，有必要以系统的方式生成故障。由于在理解现实世

界存储系统故障方面所做的巨大努力[4，5，56-62 ]，我们可以相对容易地在不同粒度上对

一组代表性场景进行然而，真正的挑战是如何构建一个实用的工具，

以高可用性、通用性和

保真度（即，第三节中所描述的三个重要目标）。虽然在社区中已经提出了各种故障注入器

[4，10，21，23，42

-46]，但我们发现，由于许多实际约束（例如，不能处理PFS

的内核模块，需

要详细的规范，如第2.2节所述）。基于我们对PFS独特架构的关键观察，

我们确定了一个低

级软件层（即，iSCSI），它使我们能够在不同粒度的不同PFS上实现自动故障注入（例如，文

件级元数据损坏、设备和节点级崩溃以及群集级网络分区）。更具体地说，PF

通过Failure

StateEmulator将

各种故障事件还原为存储设备的状态，主要

包括两个子组件：

虚拟设备管理器

和

故

障模型

（图1（a）），如下所示：

3.2.1

虚拟设备管理器（

VDM

）。

此子组件管理iSCSI虚拟设备的状态，以实现高效的故障模

拟。目标PFS的持久状态取决于向设备发出的

I/O操作。为了捕获PFS中的所有I/O操作，VDM创

建并维护一组备份文件，每个备份文件对应于存储节点中使用的一个存储设备

。备份文件通

过iSCSI协议作为虚拟设备安装到存储节点[29]。由于有了iSCSI，从PFS的角度来看，虚拟设备

似乎是普通的本地块换句话说，PF

对于所研究的PFS（包括其内核

组件）是透明的。

PFS中的所有I/O操作最终都将转换为低级磁盘I/O命令，这些命令将通过iSCSI传输到VDM

VDM根据收到的命令更新备份文件的内容

，并相应地满足I/O请求。

请注意，虚拟设备可以

通过iSCSI装载到物理机或虚拟机（VM）在VM情况下，整个框架

和目标PFS可以托管在一个

单个物理机器上，这使得研究具有PF的PFS很方便。这种设计

理念

类似于ScaleCheck [48]，它利用虚拟机在单个机器上实现分布式系统的可伸缩性测试。

3.2.2

故障模型。

这个子组件定义了PF所有要模拟的故障事件。对于具有虚拟设备的每个存

储节点，PF

基于预定义的故障模型操纵对应的备份文件和网络守护程序 PF

的当前原

型

包括如下三个代表性故障模型：

高性能并行文件系统的故障恢复与日志研究

十四

日：

ACM Transactions on Storage

，

Vol.

号

182

、第十四条。出版日期：

2022

年

月

(a)

整个设备故障（a-DevFail）。当存储设备完全无法

访问PFS

时，就会出现这种情况，这

可能是由多种原因造成的，包括RAID控制器故障、固件错误和扇区错误累积[4，5，56]。

由于PF

旨在通过iSCSI将PFS与虚拟设备解耦，因此我们可以简单地注销虚拟设备以模拟

此故障模型。更具体地说，PF

使用iSCSI协议中的

loдout

命令（第2.3节）断开备份文件到

相应存储节点的连接，这使得PFS立即无法访问该此外，不同类型的设备（即，MGT、MDT、

OST）可以单独或同时断开，以模拟不同规模的设备故障通过利用远程存储协议，PF

可

以自动模拟

不同的场景，而无需任何手动操作。

(b)

全局不一致性（b-不一致）。在这种情况下，PFS仍然可以访问所有存储设备;即，可以正常

满足来自PFS的I/O请求此外，本地文件系统后端（例如，基于Ext4的Lustreldiskfs）是一致

的。但是，从PFS的角度来看，PFS的全局状态

（由所有本地状态组成）是不一致的。

因为PFS是建立在（修补）本地文件系统之上的，PFS通常依赖于本地文件系统来维护本地一

致性。例如，本地文件系统检查器（例如，e2fsck[63]（对于ldiskfs）需要在调用PFS FSCK之

前在每个存储节点上执行换句话说，期望PFS FSCK能够在本地文件系统损坏时正确恢复PFS可

能是不合理的因此，在此模型中，我们有意强制PFS集群中的每个本地文件系统必须在本地保持

一致请注意，这与现有的模拟异常本地文件系统的工作不同（例如，返回本地文件系统操作的

错误[21，23]）。全局不一致场景可能由各种原因引起例如，在数据中心范围的停电[17]中，各

个存储节点上的本地文件系统可能会损坏到不同程度，具体取决于故障时的PFS I/O操作类似

地，除了断电之外，本地文件系统也可能由于文件系统错误、潜在扇区错误

等而损坏[4，56，

64]。本地文件系统的损坏需要由相应

的本地文件系统检查器进行检查和修复。然而，本地检

查器仅具有本地元数据一致性规则的知识（例如，ldiskfs遵循Ext4虽然运行本地检查器可以将

所有本地文件系统带回到本地一致状态，但是由于其本地修复操作，它可能（无意地）破坏PFS

的全局一致性规则（例如，跳过不完整的日志事务、回收损坏的本地inode、将本地文件移动到

因此，在本发明中，

PFS节点之间的全局一致性可能受到损害。

为了有效且高效地仿真故障模型，PF

使用如下两种互补

方法：

(1)

调用本地文件系统的调试工具（例如，debugfs[65] for Ext4）来在选定节点上管理

本地状态调试工具允许我们利用这样的功能随机损坏磁盘上文件的inode字段的给定百分比在引

入本地损坏之后，

我们调用本地文件系统的检查和修复实用程序（例如，e2fsck[51]）来修复

本地不一致性，从而使本地文件系统恢复到（本地）健康状态。

(2)

调用Linux命令行实用程序（例如， rm）随机删除选定节点上给定百分比

的磁盘文

件。这是为了模拟本地文件系统的修复效果

，其中本地检查器可以将损坏的本地文件移动到“lost

+found“目录，使其从PFS的角度来看是“丢失”的。由于删除操作是本地文件系统支持的常规操作，因

此本地文件系统保持一致。通过删除不同的本地文件（例如，各种对象文件，链接）在不同类

型的节点上（即，MGS，MDS，OSS），我们可以很容易地引入大范围的全局不一致性，同时

保持局部一致性。

十四

日：

R. Han等人

ACM Transactions on Storage

，

Vol.

号

182

、第十四条。出版日期：

2022

年

月

这两种方法各有优缺点。由于调试工具可以暴露本地文件系统的元数据的准确类型信息，因

此第一种方法允许PF

直接且全面地操纵本地元数据结构然而，直接向本地元数据引入破坏可

能导致超出本地文件

系统实用程序的修复能力的严重损害（例如，e2fsck）。因此，局部图像

可能“太破碎”而不能用于进一步分析PFS的全局一致性，并且整个分析工作流程必须停

止

。这种中断是我们的初步原型[33]中的一个主要限制，这使得工作流程效率低下。相比之下，

第二种方法始终保持一个可用的和一致的本地文件系统状态，只关注所有可能的情况下，这使得

研究

PFS的全局不一致性问题的一个子集有效。我们在这项工作中混合使用这两种方法

(c)

网络分区（c-Network）。这是大规模网络系统中的典型故障场景[66]，这可能是由功能失

调的网络设备（例如，[67]或挂起服务器进程[62]。当故障发生时，集群会分裂成多

个“分区”，

这些分区之间无法相互通信。

为了模拟网络分区效果，PF

通过网络守护程序禁用PFS在所选节点上使用的网卡，这有

效地将所选节点与

系统的其余部分

总结与展望。上面定义的三种故障模型代表了广泛的

现实世界故障场景[4，5，56- 62 ]。通过

自动模拟这些故障模型，PF

能够有效地研究目标PFS的故障恢复和日志记录请注意，在所

有三种情况下，PF所有都从目标PFS外部引入故障（例如，目标PFS的本地模块下的iSCSI驱动

程序而且，由于存在多种类型的存储节点（例如，MGS、MDS、OSS），故障可能会以不同的

方式影响PFS，具体取决于受影响的节点类型因此，PF

允许通过配置文件指定哪些类型的

节点应用故障模型在这项研究中，我们涵盖了PFS

的行为时，故障发生在每一种类型的PFS节

点（第5节）。

由于PFS传统上是针对高性能进行优化的，因此有人可能会认为，如果目标PFS在经历这些故

障后无法正常工作，则可能是但是，我们期望目标PFS的检查和修复组件（例如，Lustre的

LFSCK [31]和BeeGFS的BeeGFS-FSCK[2]）能够检测PFS中的潜在损坏并正确响应（例如，在检

查期间不要挂起或崩溃此外，我们希望相应的故障日志组件能够生成有意义的消息。我们相

信，了解这种故障处理机制的有效性是解决

HPC中心实际发生的灾难的基本步骤[17]。

3.3 PFS工人

与新的文件系统相比，老化的文件系统更能代表真实世界的文件系统使用情况[68，69]。此外，

由于内部状态更加复杂，老化的文件系统更有可能在故障情况下遇到恢复问题因此， PFS

Worker调用数据密集型工作负载（例如，未修改的HPC应用程序）以老化目标PFS并在注入故

障之前生成在内部，PFS将I/O操作分发到存储节点，

这些操作将进一步传输到虚拟设备管理

器，如第3.2.1节所述。

除了未经修改的数据密集型工作负载外，另一种有用的工作负载是专门为检查PFS的可恢复性

而设计的自定义应用程序例如，工作负载可以在写入PFS的数据中嵌入校验和最终用户可以使用

校验和直接识别PFS中存储的文件的潜在损坏通过这种方式，

可以在不依赖于目标PFS的报告的

情况下验证用户数据的完整性（其可以是

剩余45页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

并行文件系统故障恢复研究：Lustre与BeeGFS的日志机制分析

高性能并行计算系统

并行文件系统lustre手册

并行文件系统调研报告

高性能并行计算架构.pptx

高性能日志文件数据处理分析程序

IBMGPFS并行文件系统安装与配置定义.pdf

PFS故障恢复与日志机制研究：Lustre与BeeGFS的不足

PARTE：高容错并行文件系统解析

PARTE：高容错并行文件系统支持POSIX

PARTE文件系统：高容错并行存储解决方案

最新资源