大规模生产系统中硬件故障的深度分析与改进建议

35 浏览量更新于2024-06-19 收藏 883KB PDF 举报

大规模故障缓慢：大型生产系统中硬件性能故障的研究与建议这篇论文发表于ACM Transactions on Storage第143卷的第二十三篇文章，发表于2018年10月。它深入探讨了在大型生产系统中广泛存在的一个鲜为人知的问题——硬件性能故障的“慢故障”现象。作者哈雅迪·古纳维河、Rizao·苏明托、Rusell Sears、Casey Golliher等人来自多个知名机构，如芝加哥大学、PureStorage、华为、Nutanix、IBM等，以及美国洛斯阿拉莫斯和阿贡国家实验室的研究人员，共同对114个大规模集群中的故障案例进行了详尽分析。研究发现，各种硬件组件，包括硬盘、固态硬盘（SSD）、CPU、内存和网络设备，都可能出现性能故障的缓慢显现。这一现象被称为“故障缓慢”，不同于常见的突发故障。研究者注意到故障形式会随着时间而转变，导致故障的影响可能持续很长时间，且故障表现可能多种多样，如抖动和limpware（软弱的软件）现象。值得注意的是，故障的级联效应往往有其深层次的根源，这对系统设计和运维提出了新的挑战。作者强调，对于供应商、数据中心运营商和系统设计师来说，理解并应对这种故障模式至关重要。他们提出的建议旨在帮助改进硬件设计、故障预测和预防策略，以及优化系统的容错能力和实时性。论文还提到了研究的资金支持，包括来自美国国家科学基金会（NSF）的多项目资助（CCF-1336580、CNS-1350499、CNS-1526304和CNS-1563956）以及美国能源部科学办公室的用户设施支持（合同编号DE-AC02-06CH11357）。这篇论文通过对大规模硬件性能故障的深入剖析，揭示了一个重要的技术问题，为IT行业的发展提供了有价值的洞见和实践指导。对于那些关注系统稳定性和性能优化的专业人士而言，这是一篇不可忽视的重要参考资料。

大规模故障缓慢：大型生产系统中硬件性能故障的证据23：

ACM Transactions on Storage，Vol.号143、第二十三条。出版日期：2018年10月

表

不同硬件类型

硬件类型

根

SSD

磁盘

Mem

净

CPU

总

ERR

TEMP

PWR

ENVC

ONF

UNK

总

125

该表显示了不同硬件类型的根本原因的发生率。例如，

在第一行和第一列中，有11个由于内部设备错误或

Wwearouts（ERR）而导致的故障慢SSD。该表参见第3.1

节。硬件

类型是 SSD 、磁盘、存储器（

“Mem”）、网络

（“Net”）和处理器（“CPU”）

。

内部根本原因是设备错误

（ ERR ）

和固件问题（ FW ），外部根本原因是温度

（ TEMP ）、电源（ PWR ）、环境（ ENV ）和配置

（CONF）。标记为未知（UNK）的问题意味着操作人员

无法查明根本原因，而只是更换了硬件。请注意，一份

报告可能有多个根本原因（环境和电源/温度问题），因

此总数（125）大于114份报告。

系统此外，一个强大的故障停止容错系统应确保故障停止故障不会转换为故障

慢。

故障

瞬时到故障

慢：

除了故障-停止，许多种类的硬件可以表现出故障-瞬时错误;例

如，磁盘偶尔返回IO错误，处理器有时产生错误的

结果

，并且不时地

存储器

位被损

坏。

由于

其

瞬态

和

“随机“性质，固件/软件通常对用户屏蔽这些错误

。一种简单的机制是

重试

操作或

修复

错误（例如，ECC或奇偶校验）。然而，当瞬时故障更频繁地发生

时

，错误请求

可能

成为

“

双端工作

”

。

也

就是说，

由于错误掩蔽不是自由操作（例如，重

试延迟、修复成本），当错误并不罕见时，掩码开销成为影响常见情况性能的最大开

销。

我们观察到许多情况下，故障瞬态到故障慢转换。例如，磁盘固件触发了严重

风险中的“写后重新加载”检查;由于许多DRAM位翻转

的

ECC校正量

很

大，机器被

认为无法工作;我们收到了许多DRAM的现场报告，显示出高错误率，因此ECC修

复延迟成为常见情况;松散的PCIe连接使驱动程序多次重试IO;以及许多丢失/损坏网

络数据包的情况（在我们的报告中，比率在1%到50%之间）触发了大量重试，导

致网络吞吐量下降了几个

从上面的故事中，很明显，必须区分罕见和频繁的故障-瞬时故障。虽然屏蔽前

者是可以接受的，但后者应该暴露于而不是隐藏于高级软件堆栈和监控工具。

部分故障到慢故障：

某些硬件也可能出现部分故障，其中只有设备的某个部分不

可用（即，部分故障停止）。这种故障通常由固件/软件层（例如，重新映射）。

然而，当部分失效的规模增大时，

剩余25页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

大规模生产系统中硬件故障的深度分析与改进建议

java餐厅智能推荐系统源码-awesome-scalability:可扩展、可靠和高性能的大规模系统的模式

应对接口级故障策略：降级与优先保障核心业务

图书管理系统性能优化与故障排除：提升系统效率的7个技巧

【Java性能监控】：复杂度分析工具在系统性能评估中的5大核心作用

HDFS数据完整性保卫战：专家级故障排查与性能优化实战手册

Go日志故障排查：使用log包进行问题定位与故障恢复的策略

【Linux系统故障诊断】：问题定位与解决，系统故障排查必修课

Flume故障诊断与调优：问题排查与性能提升全面策略

【大规模数据处理】：psycopg2性能测试与优化

大规模系统性能监控与调优

最新资源