协议感知恢复：提升分布式存储系统的容错与性能 - CSDN文库

PDF格式 | 1.8MB | 更新于2024-06-15 | 164 浏览量 | 举报

收藏

在"协议感知恢复：分布式存储系统中的容错机制"一文中，作者们提出了一种创新的容错策略——协议感知恢复（PAR），该方法专门针对分布式存储系统的复制状态机（RSM）架构进行设计。PAR的核心在于利用存储系统的协议特性来有效地处理存储故障，确保数据的可靠性和系统可用性。文章首先在ACM Transactions on Storage Vol.143的2018年10月刊上发表，由Ramnatthan Alagappan、Aishwarya Ganesan等人来自威斯康星大学和德克萨斯大学的研究团队合作完成。他们展示了如何通过开发Corruption-Tolerant Replication (CTRl) 实现PAR，这是一种能够在LogCabin和ZooKeeper这样的系统中实现高可用性的恢复机制，相比于未修改的版本，CTRl能够避免数据丢失或系统不可用的问题，同时保持较小的性能开销。 PAR的概念主要与分布式存储的可靠性相关，涉及到了关键领域如通用和参考的可靠性研究，信息系统中的分布式存储问题，以及计算机系统组织中对Reddit这类分布式服务的优化。此外，文章还探讨了存储故障、数据损坏的容错处理以及共识算法的应用。文章特别提到了NSF、DOE等机构的资金支持，以及EMC、华为、Microsoft和VMware等企业的捐赠。作者们强调，虽然这些观点可能反映了他们的个人观点，但并不一定代表资助机构的看法。本文是对Alagappan等人在FAST'18会议上论文的扩展，提供了更多深入的内容，包括PAR在其他系统中的应用探讨、崩溃和损坏问题的不可解性证明、恢复协议的详细概述图、关于领导者启动快照的新实验数据，以及其他重要的补充细节。这篇论文不仅阐述了一个创新的容错技术，还提供了实验证据和理论分析，对于理解和改进分布式存储系统的可靠性具有重要意义。

第二

十一

R. Alagappan等人

ACM Transactions on Storage，Vol.号143、第二十一条。出版日期：2018年10月

假设

S2

是领导者。当

S1

读取其日志时，它检测到损坏;然而，

S1

截断其日志，丢失损坏的条目

和所有后续条目（图2（ii））。与此同时，

S2

（领导者）和

S3

崩溃.

S1

、

S4

和

S5

形成多数，并

选举

S1

为领导者。现在，系统不知道已提交的条目1、2和3，从而导致

静默数据丢失

。系统

还提交新条目x、y和z来代替1、2和3（图2（iii））。最后，当S

2

和S

3

恢复时，它们遵循S

1

总之，尽管故障节点检测到损坏，但它会截断其日志，从而丢失本地数据。当这个

节点与其他落后的节点一起形成多数时，数据会悄悄地丢失，从而违反安全性。我们

在

ZooKeeper

和

LogCabin

中发现了这种安全违规行为

此外，Truncate遭受

低效率

的恢复。例如，在图1（i）中，

S1

在故障后截断其现在要修复

S

1

ZooKeeper和LogCabin都存在恢复缓慢的问题。

删除重建。另一个常用的操作是手动删除故障节点上的所有数据并重新启动该节点。不幸

的是，与Truncate类似，DeleteRebuild可能会违反安全性：数据被删除的节点可能会与落后

的节点一起形成多数，从而导致无声的数据丢失。令人惊讶的是，管理员经常使用这种方

法，希望通过从其他节点获取数据来“简单地修复”故障节点DeleteRebuild也遭受类似于

Truncate的恢复缓慢问题。

MarkNonVoting. 在Google基于Paxos的系统中使用的这种方法中，故障节点删除其故障

上的所有数据，并将自己标记为无投票权的成员;节点不参与选举，直到它观察到一轮共识

并从其他节点重建其数据。通过将故障节点标记为无表决，可以避免图2中的安全违规。

然而，

MarkNonVoting

有时会违反安全性，正如先前的工作所指出的那样[74]。不安全的

根本原因是损坏的节点删除其所有状态，包括给予领导者的承诺

2

。一旦一个错误节点失去

了给新领导者的承诺，它就可以接受来自旧领导者的条目然而，新领导者仍然相信它有来

自故障节点的承诺，因此可以覆盖先前由旧领导者提交的条目

此外，这种方法的缺点是不可用。例如，当只有大多数节点存活时，单个故障可能导致

不可用，因为故障节点不能投票;其他节点现在不能选举领导者。

重新配置在这种方法中，删除一个故障节点并添加一个新节点。但是，要更改配置，配置

条目需要由多数人提交。因此，系统在许多情况下仍然不可用（例如，当大多数节点存活

但一个节点的数据被破坏时）。虽然在实际系统中不使用

重新配置

来解决存储故障，但先

前的研究已经提出了[16，46]。

BFT。一种极端的方法是使用拜占庭容错算法，该算法在理论上应该容忍存储故障。然

而，

BFT

在实际存储系统中的使用成本很高;具体而言，

BFT

只能实现容错协议所能实现的

吞吐量的一半[22]。此外，

BFT

需要3

个

f

+

1节点来容忍f个故障[1]，因此在图1中的大多数

场景中保持不可用。

[

2

]

在

Paxos

中，对编号为

p

的提议的承诺是由跟随者（接受者）向领导者（提议者）做出的保证，保证它将来

不会接受编号小于

p

的提议

下载后可阅读完整内容，剩余29页未读，立即下载

身份认证购VIP最低享 7 折!

30元优惠券

cpongm

粉丝: 6

大学生入口

最新资源