IBM P系列小型机故障定位与信息收集方法

需积分: 13 4 下载量 139 浏览量 更新于2024-08-01 收藏 277KB PDF 举报
本文档深入探讨了IBM P系列小型机故障的基本定位方法,主要分为两部分:故障的定义与分析以及故障信息的收集。 一、故障的定义 首先,明确故障的定义至关重要。在遇到系统问题时,需要了解系统当前的功能状态,比如它还能否执行基本任务,哪些功能已失效,何时开始出现故障,是否有进行过任何异常操作,故障是否具有规律性,是单一设备故障还是多个设备的连锁反应,以及最近是否进行了系统更改,如硬件升级、软件安装或配置调整。 1. 系统行为分析:询问系统发生故障时的具体表现,例如,是定期还是随机出现,频率如何,故障现象是否一致。 2. 操作历史:检查是否有执行过可能导致故障的操作,如更新驱动程序或更改系统设置。 二、故障信息的收集 故障信息的收集是诊断和解决问题的关键步骤,主要包括系统自动生成的故障记录。 1. 错误日志(Errorlog):IBM P系列小型机通过errdemon进程记录故障信息,存储在/var/adm/ras/errlog文件中。这个文件包含了关于硬件、软件和操作事件的详细报告,有助于追踪问题根源。用户可以使用errpt命令查看错误信息,如简短出错信息ERROR_ID、时间戳、资源名称和错误描述。 - errpt命令的使用:这个命令允许用户按类型(P、T或U)、分类(H、S、O或U)筛选错误信息,并提供详细错误记录的功能。例如,使用`#errpt-dH`列出所有硬件错误,`#errpt-dS`列出软件错误,`#errpt-ajERROR_ID`则用于获取特定错误ID的详细信息。 举例说明: - `LABEL: SCSI_ERR1`标识了一个特定的SCSI错误。 - `ID: 0502F666` 是错误的唯一标识符。 - `Date/Time: Jun19 22:29:51` 表示错误发生的时间。 - `SequenceNumber: 95` 可能表示错误的严重程度或重复次数。 - `MachineID` 和 `NodeID` 描述了受影响的系统节点。 - `Class: H` 表明这是一个硬件相关的错误。 - `Type: PERM` 表示这是一个永久性错误,需要特别关注。 总结来说,这篇文档提供了IBM P系列小型机故障诊断的基础框架,强调了故障定义的重要性以及有效利用系统日志和errpt命令获取、解析和分析错误信息的技巧。通过这些方法,IT专业人员能够更准确地定位问题,快速解决故障,确保系统的稳定运行。