分布式系统中的熔断器设计：保护与恢复策略

86 浏览量更新于2024-08-27 收藏 180KB PDF 举报

熔断器设计模式是一种软件架构策略，源自于传统电力系统中用于保护电路免受过载损害的保险丝概念。在家庭电路中，当负载过大或出现故障时，保险丝会在电流超过预设阈值时熔断，中断电流，以此保护电路和设备安全。在分布式软件系统中，熔断器模式同样扮演着类似的角色。在大型软件系统中，远程服务或资源的调用至关重要。然而，由于网络问题、资源临时不可用或其他不可控因素，这些调用可能会失败，尤其是在分布式系统中。如果没有适当的保护机制，频繁的重试可能导致请求阻塞服务器资源，进而引发连锁失效，影响整个系统的正常运行。例如，服务间的依赖关系可能导致一个请求的超时异常引发其他请求的阻塞，进一步消耗系统资源。熔断器模式通过引入一个断路器组件来解决这个问题。这个组件监控远程服务的调用，当连续的失败达到预设阈值（如一定次数的失败或超时）时，断路器会短暂地“打开”（即挂起），阻止进一步的请求。这样，系统可以避免无谓的尝试，给问题留出时间进行修复，并确保关键资源不会被过度消耗。断路器模式具有以下几个关键特性： 1. 短路保护：在多次失败后，断路器进入“打开”状态，防止进一步的请求直到问题解决。 2. 重试策略：当断路器关闭后，通常会设置一个固定的冷却期（或基于统计的自适应冷却期），在此期间只允许有限的重试，以防止循环故障。 3. 透明性：对用户来说，失败的调用通常表现为服务不可用，而不是长时间的等待或错误堆栈。 4. 逐步恢复：在确定服务恢复正常后，断路器会逐渐闭合，允许请求重新流经系统，而不是一次性全部开放。通过实施熔断器设计模式，系统能够更好地处理分布式环境中的故障，提高系统的稳定性和可恢复性，从而提升用户体验并维护整体系统的性能和可用性。

熔断器设计模式熔断器设计模式

如果大家有印象的话，尤其是夏天，如果家里用电负载过大，比如开了很多家用电器，就会”自动跳闸”，此时电路就会断开。

在以前更古老的一种方式是”保险丝”，当负载过大，或者电路发生故障或异常时，电流会不断升高，为防止升高的电流有可能

损坏电路中的某些重要器件或贵重器件，烧毁电路甚至造成火灾。保险丝会在电流异常升高到一定的高度和热度的时候，自身

熔断切断电流，从而起到保护电路安全运行的作用。

同样，在大型的软件系统中，如果调用的远程服务或者资源由于某种原因无法使用时，如果没有这种过载保护，就会导致请求

的资源阻塞在服务器上等待从而耗尽系统或者服务器资源。很多时候刚开始可能只是系统出现了局部的、小规模的故障，然而

由于种种原因，故障影响的范围越来越大，最终导致了全局性的后果。软件系统中的这种过载保护就是本文将要谈到的熔断器

模式(Circuit Breaker)

一问题的产生

在大型的分布式系统中，通常需要调用或操作远程的服务或者资源，这些远程的服务或者资源由于调用者不可以控的原因比如

网络连接缓慢，资源被占用或者暂时不可用等原因，导致对这些远程资源的调用失败。这些错误通常在稍后的一段时间内可以

恢复正常。

但是，在某些情况下，由于一些无法预知的原因导致结果很难预料，远程的方法或者资源可能需要很长的一段时间才能修复。

这种错误严重到系统的部分失去响应甚至导致整个服务的完全不可用。在这种情况下，采用不断地重试可能解决不了问题，相

反，应用程序在这个时候应该立即返回并且报告错误。

通常，如果一个服务器非常繁忙，那么系统中的部分失败可能会导致 “连锁失效”（cascading failure）。比如，某个操作可能

会调用一个远程的WebService，这个service会设置一个超时的时间，如果响应时间超过了该时间就会抛出一个异常。但是这

种策略会导致并发的请求调用同样的操作会阻塞，一直等到超时时间的到期。这种对请求的阻塞可能会占用宝贵的系统资源，

如内存，线程，数据库连接等等，最后这些资源就会消耗殆尽，使得其他系统不相关的部分所使用的资源也耗尽从而拖累整个

系统。在这种情况下，操作立即返回错误而不是等待超时的发生可能是一种更好的选择。只有当调用服务有可能成功时我们再

去尝试。

二解决方法

熔断器模式可以防止应用程序不断地尝试执行可能会失败的操作，使得应用程序继续执行而不用等待修正错误，或者浪费

CPU时间去等到长时间的超时产生。熔断器模式也可以使应用程序能够诊断错误是否已经修正，如果已经修正，应用程序会

再次尝试调用操作。

熔断器模式就像是那些容易导致错误的操作的一种代理。这种代理能够记录最近调用发生错误的次数，然后决定使用允许操作

继续，或者立即返回错误。

熔断器可以使用状态机来实现，内部模拟以下几种状态。

1.闭合（closed）状态：对应用程序的请求能够直接引起方法的调用。代理类维护了最近调用失败的次数，如果某次调用失

败，则使失败次数加1。如果最近失败次数超过了在给定时间内允许失败的阈值，则代理类切换到断开(Open)状态。此时代理

开启了一个超时时钟，当该时钟超过了该时间，则切换到半断开（Half-Open）状态。该超时时间的设定是给了系统一次机会

来修正导致调用失败的错误。

下载后可阅读完整内容，剩余7页未读，立即下载

weixin_38613154

粉丝: 14
资源: 987

分布式系统中的熔断器设计：保护与恢复策略

电动汽车高压熔断器选型及失效模式分析.pdf

简单实用的熔断器监测电路

MSP430系列单片机的加密熔断器设计

MSP430单片机的加密熔断器设计定义.pdf

熔断器Hystrix实战

Hystrix熔断器简介及其工作原理

工厂供电设计与熔断器选择关键

什么是熔断器模式（Sentinel）

使用熔断器模式（Sentinel）提高系统稳定性

熔断器模式（Sentinel）在微服务架构中的应用

最新资源