米志远 常见路由器故障监测及解决方案 5 / 21
是发现网络又不通了!发现 ping 出的数据包未能到达网关。奇怪,刚才还
好的,怎么现在又不通了呢?难道是网卡或者系统有问题?但是过了一会
儿,却又通了。带了笔记本,于是把台式机上的网线插到笔记本上,配置
好 IP 地址后 ping 网关,也出现时断时续的情况。断开的现象大概持续了 50
秒钟,然后又恢复正常。可以基本排除主机的问题了,因为两台不相干主
机同时出现同样此类问题的几率几乎为零。鉴于此现象,首先排除了连接
线缆的故障,因为连接的线缆不可能出现这种时断时续的情况,故障最有
可能会出在线缆的另一端——二层交换机上。于是查看交换机的状态,这
是一个由两台交换机的堆叠,其中一台交换机上有一个上联的千兆端口。
把笔记本接到交换机的其中一个端口上,再 ping 网关。还是同样的故障,
而且还发现每过 4 分钟到 10 分钟,网络就会断一次,并且 40 到 50 秒后又
恢复正常。经过观察发现:没有发现端口指示灯的异常情况,说明交换机
的各个端口均正常。也许真是交换机的内部系统出现故障了!把交换机重
启一下。但是重启后,故障依旧。可能交换机真的出了问题,正想是否要
把堆叠模块换到另外一个交换机上的时候,我的手机响了,又一个同事告
诉我他的机器也出现相同的故障现象。而这个同事的主机在另外一个虚网
中,同时出现相同的时通时断情况,那极有可能是连接这两个虚网的路由
器出了问题。
问题集中到路由器上了。查看网络路由设备,从路由器的外部指示灯
上看,没什么异常现象。在网管机上 ping 路由器的地址,也是时通时断。
又继续观察了一段时间,发现每过 4 分钟到 10 分钟,路由器所有模块的指
示灯都会同时熄灭,接着控制模块上的“HBT”灯闪烁,然后“OK”灯亮起,
最后所有模块的指示灯均显示 Online。“ HBT”灯闪烁表示路由器正在启动,
也就是说正在自动重启,而且 40 秒左右的网络断开时间正好是路由器的重
启所需的时间。现在问题的查找工作已经结束,肯定是路由器出了故障。
具体是什么问题,还需要进一步的检测。
路由器正常工 作 的 时 候,把笔记本的 COM 口使用路由器的专用
CONSOLE 线连接起来,建立超级终端。在管理模式下使用命令“ system
show bootlog”查看系统的启动记录,发现各个模块的加载均属正常。造成
路由器重启的原因, 最大的可能就是 CPU 的利用率达到 100 %。使用
“system show cpu-utilization”命令查看 CPU 的使用率:
SSR# system show cpu-utilization
CPU Utilization (5 seconds): 50%
(60 seconds): 60%(前者是指 5 秒钟内 CPU 平均使用率为 50%,
后者是 60 秒钟内 CPU 平均使用率为 60%)
连续使用此命令后得知 CPU 利用率正在逐渐上升,当达到 95%的时候
路由器便自动重启。推测是路由器的负载太大了,因为平时正常情况下,
CPU 的使用率仅为 1%—6%左右。当网络使用高峰期的时候 CPU 的利用率
会稍微高一点。但到底是什么让路由器过载呢?路由器设置过日志记录,
并把日志发送到一个日志服务器上。但是打开服务器所记录的日志并未能
找到有用的线索。因为当路由器负载过大时,它已经不能往日志服务器上
发送日志了,只能用“system show syslog buffer”命令来查看当前系统缓存中
的日志记录:
SSR# system show syslog buffer