60秒掌握Linux性能诊断：必查工具与USE法实战

131 浏览量更新于2024-08-29 收藏 111KB PDF 举报

在Linux性能分析的初期阶段，特别是在面临性能问题时，至关重要的是在登录服务器后的前60秒内采取行动。本文由经验丰富的Oracle/Linux系统性能分析专家Brendan Gregg撰写，他提到Netflix的性能工程团队经常依赖其强大的工具集，如云监控的Atlas和实例按需分析的Vector，但有时候仍需要借助标准的Linux命令行工具进行深入诊断。在这一分钟内，首先进行的是检查系统基本信息，例如运行`uptime`命令，它显示了系统的运行状态、在线用户数以及过去1, 5, 15分钟的平均负载，这对于评估当前系统的压力水平至关重要。接着，`dmesg|tail`用来查看最近的日志输出，可能包含有关硬件或软件故障的线索。 `vmstat1`提供了一个实时的视图，展示了内存、处理器、磁盘和网络I/O等关键资源的状态。`mpstat-PALL1`则展示多处理器系统中的CPU利用率和负载分布，对于多核系统性能优化非常有用。`pidstat1`跟踪进程ID（PID）的活动，帮助识别异常或高占用率的进程。 `iostat-xz1`详细报告磁盘I/O性能，特别是对于存储密集型应用，硬盘的读写速度和等待时间是必须关注的。`free-m`则查看内存的使用情况，包括空闲、缓冲区、交换分区等，以确保内存资源的合理分配。 `sar-nDEV1`和`sar-nTCP，ETCP1`分别提供了设备和网络层的统计信息，有助于检测可能导致延迟的I/O瓶颈。最后，`top`命令是一个可视化的任务管理器，它显示了系统中各个进程的资源占用情况和CPU负载。在执行这些命令前，可能需要安装`sysstat`包，因为其中一些命令（如`mpstat`、`pidstat`、`iostat`和`sar`）未预装。通过这些命令提供的数据，可以应用USE方法（Utilization, Saturation, Error）来分析每个资源的使用情况，判断其是否饱和，是否存在错误，从而确定性能瓶颈的位置和优先处理的问题。在后续章节，作者会结合具体案例深入解析这些命令的使用，使读者不仅了解如何执行，还能理解其背后的原理和应用场景。对于想要深入了解Linux性能分析的读者，进一步研究每个命令的manpage（手册页）是非常重要的资源。通过这样的基础分析，工程师可以更高效地定位和解决服务器性能问题。

Linux性能分析的前性能分析的前60 秒秒

　　（补注：本文作者 Brendan Gregg，他是 Oracle/Linux系统性能分析方面的大牛。）

　　为了解决性能问题，你登入了一台Linux服务器，在开始的一分钟内需要查看什么？

　　在Netflix我们有一个庞大的EC2 Linux集群，还有非常多的性能分析工具来监控和调查它的性能。其中包括用于云监控的

Atlas，用于实例按需分析的Vector。即使这些工具帮助我们解决了大多数问题，我们有时还是得登入Linux实例，运行一些标

准的Linux性能工具来解决问题。

　　在这篇文章里，Netflix Performance Engineering团队将使用居家常备的Linux标准命令行工具，演示在性能调查开始的60

秒里要干的事，

　　开始的60秒……

　　运行下面10个命令，你可以在60秒内对系统资源的使用情况和进程的运行状况有大体上的了解。无非是先查看错误信息

和饱和指标，再看下资源的使用量。这里“饱和”的意思是，某项资源供不应求，已经造成了请求队列的堆积，或者延长了等待

时间。

　　uptime

　　dmesg | tail

　　vmstat 1

　　mpstat -P ALL 1

　　pidstat 1

　　iostat -xz 1

　　free -m

　　sar -n DEV 1

　　sar -n TCP，ETCP 1

　　top

　　有些命令需要你安装sysstat包。（译注：指mpstat， pidstat， iostat和sar，用包管理器直接安装sysstat即可）这些命令

所提供的指标能够帮助你实践USE方法：这是一种用于定位性能瓶颈的方法论。你可以以此检查所有资源（CPU，内存，硬

盘，等等）的使用量，是否饱和，以及是否存在错误。同时请留意上一次检查正常的时刻，这将帮助你减少待分析的对象，并

指明调查的方向。（译注：USE方法，是检查每一项资源的使用量（utilization）、饱和（saturation）、错误（error））

　　接下来的章节里我们将结合实际例子讲解这些命令。如果你想了解更多的相关信息，请查看它们的man page。

　　1. uptime

　　$ uptime

　　23:51:26 up 21:31， 1 user， load average: 30.02， 26.43， 19.02

　　这个命令显示了要运行的任务（进程）数，通过它能够快速了解系统的平均负载。在Linux上，这些数值既包括正在或准

备运行在CPU上的进程，也包括阻塞在uninterruptible I/O（通常是磁盘I/O）上的进程。它展示了资源负载（或需求）的大致

情况，不过进一步的解读还有待其它工具的协助。对它的具体数值不用太较真。

　　右的三个数值分别是1分钟、5分钟、15分钟系统负载的移动平均值。它们共同展现了负载随时间变动的情况。举个例

子，假设你被要求去检查一个出了问题的服务器，而它近1分钟的负载远远低于15分钟的负载，那么你很可能已经扑了个空。

　　在上面的例子中，负载均值近呈上升态势，其中1分钟值高达30，而15分钟值仅有19。这种现象有许多种解释，很有可能

是对CPU的争用；该系列的第3个和第4个命令——vmstat和mpstat——可以帮助我们进一步确定问题所在。

　　2. dmesg | tail

　　$ dmesg | tail

　　[1880957.563150] perl invoked oom-killer: gfp_mask=0x280da， order=0， oom_score_adj=0

　　[…] 　　[1880957.563400] Out of memory: Kill process 18694 (perl) score 246 or sacrifice child

　　[1880957.563408] Killed process 18694 (perl) total-vm:1972392kB， anon-rss:1953348kB， file-rss:0kB

　　[2320864.954447] TCP: Possible SYN flooding on port 7001. Dropping request. Check SNMP counters.

　　这个命令显示了新的10个系统信息，如果有的话。注意会导致性能问题的错误信息。上面的例子里包括对过多占用内存

的某进程的死刑判决，还有丢弃TCP请求的公告。

　　不要漏了这一步！检查dmesg总是值得的。

　　3. vmstat 1

　　$ vmstat 1

　　procs ———memory———- —swap– —–io—- -system– ——cpu—–

　　r b swpd free buff cache si so bi bo in cs us sy id wa st

　　34 0 0 200889792 73708 591828 0 0 0 5 6 10 96 1 3 0 0

　　32 0 0 200889920 73708 591860 0 0 0 592 13284 4282 98 1 1 0 0

　　32 0 0 200890112 73708 591860 0 0 0 0 9501 2154 99 1 0 0 0

　　32 0 0 200889568 73712 591856 0 0 0 48 11900 2459 99 0 0 0 0

　　32 0 0 200890208 73712 591860 0 0 0 0 15898 4840 98 1 1 0 0

　　vmstat(8)，是“virtual memory stat”的简称，几十年前已经包括在BSD套件之中，一直以来都是居家常备的工具。它会逐

行输出服务器关键数据的统计结果。

　　通过指定1作为vmstat的输入参数，它会输出每一秒内的统计结果。（在我们当前使用的）vmstat输出的第一行数据是从

启动到现在的平均数据，而不是前一秒的数据。所以我们可以跳过第一行，看看后面几行的情况。

　　检查下面各列：

　　r：等待CPU的进程数。该指标能更好地判定CPU是否饱和，因为它不包括I/O。简单地说，r值高于CPU数时意味着饱

和。

　　free：空闲的内存千字节数。如果你数不清有多少位，说明系统内存是充足的。接下来要讲到的第7个命令，free -m，能

够更清楚地说明空闲内存的状态。

　　si，so：Swap-ins和Swap-outs。如果它们不为零，意味着内存已经不足，开始动用交换空间的存粮了。

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_38645133

粉丝: 7
资源: 964

60秒掌握Linux性能诊断：必查工具与USE法实战

Linux常见性能分析工具

Linux 性能分析.pdf

学会使用Linux性能分析工具.pdf

Linux性能分析工具[参考].pdf

Linux 系统性能分析工具nmon

linux性能调试之vmstat分析

Linux性能监控

深入理解vmstat：Linux性能分析关键

Linux性能分析利器：深入理解sar命令

Linux性能分析：CPU、内存与系统监控详解

最新资源