系统黄金指标：Latency指标异常时的故障诊断方法

需积分: 0 197 浏览量更新于2024-08-05 收藏 1.84MB PDF 举报

"系统黄金指标之延迟(Latency)指标的故障诊断1" 在IT系统监控领域，"系统黄金指标"是指Google SRE书籍中提出的四个关键性能指标，它们分别是延迟(Latency)、利用率_Utilization_、饱和度_Saturation_和错误数或错误率_Errors_。这些指标对于理解系统健康状况至关重要，因为它们直接关系到用户体验。然而，只有监控是不够的，正确地配置和解读监控指标才是关键。延迟(Latency)是衡量系统性能的重要因素，它定义为从发送请求到接收响应所需的时间。在服务交互中，这个过程可以细分为四个阶段： 1. ClientSent (cs) - 客户端发起请求到服务端。 2. ServerReceived (sr) - 服务端接收到客户端的请求。 3. ServerSent (ss) - 服务端完成处理并准备好返回信息给客户端。 4. ClientReceived (cr) - 客户端接收到服务端的返回信息。通过记录这四个阶段的时间戳，我们可以计算出各个部分的延迟，如： - sr-cs：网络延迟，即请求从客户端传输到服务端的时间。 - ss-sr：服务处理时间，表示服务端处理请求的时间。 - cr-ss：服务响应延迟，即服务端响应到客户端接收到的时间。 - cr-cs：整个服务调用执行的时间，这是通常关注的整体延迟。当延迟指标出现异常时，我们需要进行故障诊断。首先，确认延迟问题是否普遍存在还是仅限于少数机器。如果是后者，维护人员通常会登录到有问题的机器，检查相关日志寻找线索。如果问题局限于单一服务，那么需要结合请求参数来分析，可能与特定请求类型或数据有关。诊断延迟问题的常见套路包括： 1. 分析日志：查找是否存在异常错误或警告，这些可能揭示了延迟的来源。 2. 性能剖析：分析服务处理时间，确定哪个步骤或组件导致了延迟增加。 3. 负载测试：模拟高负载场景，观察系统在压力下的表现，确认延迟是否随负载增加而恶化。 4. 监控对比：对比正常情况和异常情况下的系统指标，找出差异。 5. 资源利用率：检查CPU、内存、磁盘I/O和网络带宽的使用情况，看看是否有资源瓶颈。一个好的监控系统应该是有针对性的，每个监控指标都应该对应着明确的问题诊断和响应策略。避免无目的地堆积指标，以免造成信息过载，反而使得问题更难发现。总结来说，理解和诊断延迟问题涉及到对系统整体运行情况的深入理解，以及对网络延迟、服务处理时间和响应延迟等关键指标的精确测量。通过有效的监控和故障排查手段，我们可以及时发现并解决延迟问题，从而保障系统的稳定性和用户满意度。

作者：徐彤（绍宽）

创作期：2019-09-02

专栏地址：【稳定于切】

被运维或者稳定性负责的同学奉为"圣经"的Google的《Google SRE Books》书中提出系统监控的四个󰺯

󰮣指标

Latency：延时

Utilization：使󰉁率

Saturation：饱和度

Errors：错误数或错误率

这个四个󰺯󰮣指标在在任何系统中都是很好的性能状态指标，他们之所以被称为”󰺯󰮣“指标，很个因素

是因为他们反映终端󰉁户的感知。但是光有监控还是够的，开源的商业的有很多监控具，我们可以很

的搭建套监控系统，很多维护员喜欢满满当当配上所有能监控的指标，显得有"安全感"，相信我，

这样的配置式，恐怕只会适得其反。

那如何配置个好的监控系统呢？换话讲，当我们在看个监控系统的时候，我们在看么？要回答这个

问题，我们的应当有个󰇹念的转变，是为监控󰖳监控，每当我们配置个指标的时候，我们要问󰙵

个问题，当这个指标出现问题的时候，意味着么，后续的动作是么？今天，我们这个系就会着重聊

聊当系统延迟(Latency)指标出现异常的时候，我们应该怎么办？

先从 Latency 指标定义说起

Latency 问题诊断套󰩁

结语

加我们

延迟（Latency）：延迟是发送请求和接收响应所需的时间。

定义󰲊，但是󰮟󰴯的󰲋道却少，个典型的服务发送请求到接收响应经过四个事件：

Client Sent 简称 cs，客户端发起调󰉁请求到服务端。

Server Received 简称 sr，指服务端接收到客户端的调󰉁请求。

Server Sent 简称 ss，指服务端完成处󰇹，准备将信息返给客户端。

系统󰺯󰮣指标之延迟(Latency)指标的故障诊断

󰋴录

先从 Latency 指标定义说起

下载后可阅读完整内容，剩余3页未读，立即下载

LauraKuang

粉丝: 22
资源: 334

系统黄金指标：Latency指标异常时的故障诊断方法

性能分析的几个指标

networklatencyview 网络连接延迟探测工具

udp_client.rar_UDP Client_latency_udp client_udp_client_udp客户端

系统级外部内存高速互连测试与诊断方法

网络延迟统计工具：BAT批处理脚本

C++实现实时抖动与延迟测试工具

自动化脚本：批处理统计ping延迟分析

大数据框架监控与故障诊断：集群健康检查实战指南

【Java虚拟机（JVM）深度解析】：性能调优与故障诊断的实战攻略

MySQL数据库性能监控与故障诊断：掌握数据库监控技术，快速定位并解决性能问题

最新资源