没有合适的资源?快使用搜索试试~ 我知道了~
首页华为服务器2021维护指南:故障处理与日志收集
华为服务器2021维护指南:故障处理与日志收集
需积分: 9 9 下载量 199 浏览量
更新于2024-07-09
1
收藏 110.94MB PDF 举报
"华为服务器 维护宝典2021"
华为服务器维护宝典2021是一款由华为技术有限公司发布的服务器运维指南,旨在帮助用户更有效地管理和维护华为服务器。该文档详细介绍了华为服务器的型号、规格以及故障处理的操作流程,以支持用户在遇到问题时能快速定位和解决。
在产品介绍部分,文档列出了华为服务器的不同型号及其对应的技术规格,包括处理器、内存、存储、I/O接口等关键组件,使用户能够根据自身需求选择合适的服务器产品。此外,还提供了服务器的硬件配置和性能指标,便于用户评估和规划服务器的部署环境。
故障处理操作指导是该宝典的核心内容。首先,它明确了处理流程,从发现问题到解决问题,包括初步分析、故障定位、故障排除和恢复操作等步骤。在处理准备阶段,文档强调了准备工具、备份数据和了解服务器状态的重要性。
收集信息是故障诊断的关键环节。文档详细讲述了如何收集各种类型的信息,如基本信息(如服务器序列号、BIOS版本等)、操作系统日志、硬件日志,以及针对E9000服务器及MM910交换模块的日志信息。对于交换模块日志的收集,宝典给出了详细的步骤,包括通过SmartKit工具、CLI(命令行界面)和WebTools等方式,覆盖了V5、V8平台以及不同类型的交换模块,如MX510、MX210和MX220。
这些收集方法有助于用户在遇到网络或存储问题时,获取必要的诊断数据,以便于华为的技术支持团队进行远程协助或自我排查。同时,文档提醒用户,华为服务器的特性和服务可能会因购买合同而有所不同,且文档内容可能会随产品更新而变动。
华为服务器维护宝典2021是一份全面的服务器运维参考,涵盖了从基本维护到复杂故障处理的各个环节,对于华为服务器的用户和管理员来说,是不可或缺的工具书。通过深入理解和应用其中的知识,用户可以提升服务器的运行效率,降低运维成本,并确保业务的稳定运行。
5.4.8 LSI 3108 卡 RAID1 其中一个硬盘插拔之后的恢复步骤...................................................................................... 1068
5.4.9 UEFI 模式下 LSI 3108 卡 RAID10 配置指南............................................................................................................1076
5.4.10 通过 FDM 日志里 MISC 寄存器值确定报错内存条槽位....................................................................................1082
5.4.11 通过 SSH 多次登入 CMC CLI 失败导致 CMC web 登入失败........................................................................... 1085
5.4.12 KunLun90 系列产品网卡无法 up............................................................................................................................ 1087
5.5 FusionCube......................................................................................................................................................................... 1090
5.5.1 HANA................................................................................................................................................................................ 1090
5.5.1.1 HANA 一体机搭建完毕后用户要求将 slave 改为 standby..............................................................................1091
5.5.1.2 HANA 一体机在 Studio 中 sapstartsrv 服务始终处于 yellow 灯状态的解决方法.................................... 1093
5.5.1.3 一体机 HANA 数据库场景日志收集方法..............................................................................................................1094
5.5.1.4 HANA 数据库节点重启之后 sapcontrol 命令启动集群失败案例.................................................................. 1098
5.5.1.5 HANA 服务器重启网络服务导致网络中断案例..................................................................................................1099
5.5.1.6 HANA 数据库异常关闭之后 SCSI-3 持久预留锁清理案例...............................................................................1101
5.5.1.7 Suse12 默认 NFS 采用 NFSv4 导致 HANA 安装失败案例...............................................................................1102
5.5.2 Oracle............................................................................................................................................................................... 1104
5.5.2.1 ASM 磁盘意外擦写导致 RAC 宕机......................................................................................................................... 1104
5.5.2.2 FusionCube 一体机 Oracle 数据库场景日志收集.............................................................................................. 1105
5.5.2.3 FusionCube 一体机 OS 启动存储挂卷方式调整.................................................................................................1113
5.5.2.4 IB 参数文件修改导致 RDS 驱动无法加载案例.................................................................................................... 1115
5.5.2.5 IO 超时导致 Oracle RAC 意外宕机问题分析.......................................................................................................1116
5.5.2.6 OCR 磁盘组损坏&更换案例..................................................................................................................................... 1118
5.5.2.7 RAC 集群参数修改导致数据库无法启动...............................................................................................................1119
5.5.2.8 SMIO 导致 Oralce 数据库 ACFS 文件无法 disable............................................................................................1121
5.5.2.9 UDEV 配置策略删除原设备生成新设备导致挂卷失败......................................................................................1123
5.5.2.10 VBS 异常关闭之后导致的 Oralce 数据库宕机.................................................................................................. 1125
5.5.2.11 服务器 udevd 进程 CPU 异常冲高处理方法..................................................................................................... 1127
5.5.2.12 华安保险 Oracle 数据库调优................................................................................................................................ 1129
5.5.2.13 如何解决 Oralce Linux 操作系统 udisks-daemon 进程导致内存耗尽问题............................................. 1130
5.5.2.14 如何解决 Oralce RAC 在 RHEL 6.6 及以上版本缺省的 ipfrag 设置导致节点异常踢出集群................1132
5.5.2.15 如何在数据库节点上配置从哪个端口进从哪个端口出的策略路由............................................................. 1134
5.5.2.16 动增加单个 NFS 磁盘作为 OCR 共享磁盘......................................................................................................... 1135
5.5.2.17 数据库场景计算节点磁盘反复 mount 解决方法............................................................................................. 1137
5.5.2.18 数据库场景卸载磁盘时 udev 规则操作方法..................................................................................................... 1139
5.5.3 VMware............................................................................................................................................................................ 1139
5.5.3.1 如何处理 CVM 虚拟机网卡 LRO 功能导致 Esxi 数据存储偶发性时延冲高的问题.................................... 1140
5.5.3.2 如何处理安装 VMware 6.5U1 失败问题.............................................................................................................. 1143
5.5.3.3 如何处理系统上电时存储设备被锁定导致 esxi 数据存储不可用的问题...................................................... 1145
5.5.3.4 vmware 关闭 VAAI 硬件加速的方法..................................................................................................................... 1147
5.5.3.5 如何处理 Vmware 场景安装 Vcenter 报华为软件版本低的错....................................................................... 1149
5.6 操作系统类常见问题.........................................................................................................................................................1149
5.6.1 安装类问题.......................................................................................................................................................................1149
5.6.1.1 RH5485 安装 SUSE 系统特定设置......................................................................................................................... 1150
华为服务器
维护宝典 目 录
文档版本 16 (2021-06-21) 版权所有 © 华为技术有限公司 xv
5.6.1.2 CentOS/RHEL 6 安装过程上报错误...................................................................................................................... 1152
5.6.1.3 Windows2008 未安装 chipset 驱动导致设备管理器出现大量基本系统设备............................................ 1155
5.6.1.4 redhat6.3 在配置 IvyBridge E7-4830 V2 系列 CPU 的服务器上安装报错案例.........................................1157
5.6.1.5 Solaris 10U9 安装失败问题案例............................................................................................................................ 1160
5.6.1.6 ESXi5.1 安装失败案例................................................................................................................................................1161
5.6.1.7 Centos/RHEL 安装系统时报错................................................................................................................................ 1165
5.6.1.8 VNC 方式图形化安装操作系统............................................................................................................................... 1166
5.6.1.9 Windows 系统安装完成重启后 D 盘分区变小....................................................................................................1170
5.6.1.10 CH242 V3 DDR4+3108 raid 安装 VMWare6.5 操作系统失败.................................................................... 1172
5.6.2 故障类问题.......................................................................................................................................................................1175
5.6.2.1 Windows2008 系统下无法使用虚拟光驱............................................................................................................ 1176
5.6.2.2 Windows 2003 无法使用 SMM 远程控制 KVM................................................................................................. 1178
5.6.2.3 未激活 Windows 2008 R2 系统频繁自动关机................................................................................................... 1183
5.6.2.4 RH2285 服务器 OS 无法启动.................................................................................................................................. 1187
5.6.2.5 Redhat6.5 系统 Bug 不支持 bond 的 TSO 导致网络性能偏低案例.............................................................. 1189
5.6.2.6 Linux OS 提示 Out of SW-IOMMU space..........................................................................................................1194
5.6.2.7 SOL 中 BIOS 界面不能正确显示............................................................................................................................. 1195
5.6.2.8 ping 命令使用不当..................................................................................................................................................... 1197
5.6.2.9 Win2003 cluster service 自动启动失败............................................................................................................... 1199
5.6.2.10 RH2488 V2 服务器安装麒麟 3.0 系统死机....................................................................................................... 1205
5.6.2.11 SUSE11SP1 持续运行 208 天以上死机...............................................................................................................1207
5.6.2.12 RHEL6U2 6U3 图形界面花屏............................................................................................................................... 1209
5.6.2.13 IE 浏览器异常停滞后无法重新连接虚拟光驱....................................................................................................1213
5.6.2.14 V2 服务器 intel 82576 网口在 Windows 2008 系统当中出现闪断问题................................................... 1215
5.6.2.15 Windows2008 R2 无法删除分区......................................................................................................................... 1220
5.6.2.16 Windows2008R2SP1 自带 Intel82576 驱动导致 CAT ERROR 案例动...................................................... 1223
5.6.2.17 Windows2008 R2 系统显示从池标记 AFDP 高非页面缓冲的池使用率问题........................................... 1227
5.6.2.18 安装 Windows Server 2012 R2 系统重启后出现蓝屏同时提示电脑遇到问题........................................1230
5.6.2.19 BH640 V2 运行 windows 2012 R2 出现异常重启伴有 bugcheck:0x000000ca 问题........................ 1233
5.6.2.20 Windows2008 R2 Standard 设备管理器 CPU 及内存告警.......................................................................... 1235
5.6.2.21 Windows2008 R2 & SQLServer 环境下开启 NUMA 内存占用率高..........................................................1239
5.6.2.22 WindowsServer2012 任务管理器处理器个数显示异常案例........................................................................1241
5.6.2.23 服务器 BDSafeBrowser.sys 蓝屏.......................................................................................................................... 1245
5.6.2.24 VMware vCenter 报内存告警解决案例............................................................................................................. 1246
5.6.2.25 BH620/BH621 V2 Windows2008R2 死机问题解决方法.............................................................................. 1248
5.6.2.26 RHEL/CentOS 6 系列启动过程打印 BIOS needs update for CPU frequency support........................1251
5.6.2.27 RHEL NVS315 配置界面无法选择高分辨率......................................................................................................1254
5.6.2.28 RHEL 6 开机过程上报 TBOOT 错误.................................................................................................................... 1255
5.6.2.29 Windows 2012 蓝屏伴有 0x0000009E 错误码................................................................................................1259
5.6.2.30 自研 3108 RAID 卡禁用 Enable controller BIOS 导致双 RAID 卡无法正常启动操作系统.................. 1261
5.6.2.31 VMware5.5 自带 MZ910 网卡驱动 bug 导致紫屏案例................................................................................. 1265
5.6.2.32 VMware 系统界面黑白案例.................................................................................................................................. 1267
华为服务器
维护宝典 目 录
文档版本 16 (2021-06-21) 版权所有 © 华为技术有限公司 xvi
5.6.2.33 Heap 内存不足导致 VMware 紫屏案例............................................................................................................. 1269
5.6.2.34 VMware5.0 下 Windows2008R2 虚拟机有 LSI_SAS 相关告警案例........................................................... 1272
5.6.2.35 VMware 虚拟机跨 CPU 平台迁移案例............................................................................................................... 1275
5.6.2.36 VMware 识别 SSD 硬盘为 Non-SSD 案例.........................................................................................................1277
5.6.2.37 VMware 系统下 E9000 不同刀片 MAC 地址冲突案例...................................................................................1280
5.6.2.38 vSphere web client 6.0 上无法显示服务器硬件信息..................................................................................... 1281
5.6.2.39 RH8100&ESXi 5.5 VCenter 无法打开虚拟机案例........................................................................................... 1283
5.6.2.40 VMware 系统 SATA 硬盘高温告警...................................................................................................................... 1285
5.6.2.41 3108 RAID 卡 FW&驱动问题导致 VMware 紫屏............................................................................................ 1290
5.6.2.42 VMWare 启用 EVC 特性报错................................................................................................................................ 1295
5.6.2.43 内存过大导致 Suse10SP4 32bit 安装后无法启动........................................................................................... 1297
5.6.2.44 Redhat 系统命令行终端乱码问题动................................................................................................................... 1299
5.6.2.45 负载下内存分配失败即 page allocation failure 问题....................................................................................1300
5.6.2.46 Linux 系统图形界面上报“Could not update ICEauthority
le /var/lib/gdm/.ICEauthority”.......1302
5.6.2.47 Linux 操作系统启动过程打印 kernel:ERST:Error Record Serialization Table (ERST) support is
initialized.................................................................................................................................................................................... 1304
5.6.2.48 RH8100 在 Redhat6 系统下报 HAL 服务无法启动......................................................................................... 1306
5.6.2.49 Redhat6.5 系统异常重启问题案例...................................................................................................................... 1310
5.6.2.50 服务器运行 SUSE11SP2&SP3............................................................................................................................... 1315
5.6.2.51 CentOS7.0(Redhat7.0)内核 BUG 导致系统自动重启.................................................................................... 1320
5.6.2.52 redhat 6.4 datanode/nodemanager 等 java 进程不响应............................................................................ 1322
5.6.2.53 服务器 OS 运行过程中键盘鼠标无法响应案例................................................................................................ 1325
5.6.2.54 Linux 系统启动过程时间 8 小时差案例.............................................................................................................. 1327
6 维护常用 FAQ...................................................................................................................... 1329
6.1 刀片服务器.......................................................................................................................................................................... 1329
6.1.1 如何通过硬盘盘符查询硬盘槽位................................................................................................................................1329
6.2 机架服务器.......................................................................................................................................................................... 1341
6.2.1 RH5885 V2 8 路 BDS 库 NUMA 绑定说明............................................................................................................. 1341
6.2.2 iBMC 的 NTP 功能常见维护问题............................................................................................................................... 1343
6.2.2.1 iBMC 开启 NTP 功能后,没有同步成功?...........................................................................................................1343
6.2.2.2 启用 iBMC 的 NTP 功能的“DHCPv4 自动获取 NTP 信息”或者“DHC Pv6 自动获取 NTP 信息”的模
式后没有自动获取到 NTP 服务器地址?........................................................................................................................... 1345
6.2.2.3 iBMC 的 NTP 功能不能从 NTP 服务器地址同步时区?................................................................................... 1346
6.3 KunLun 服务器...................................................................................................................................................................1346
6.3.1 CMC 管理界面提示"Incorrect PIC connection",业务系统无法上电............................................................. 1346
6.3.2 KunLun90 系列的软件版本需要根据产品类型区分下载吗?............................................................................ 1346
6.3.3 软件版本升级问题..........................................................................................................................................................1347
6.3.3.1 KunLun 的软件版本中有两个 LPM CPLD 的版本文件,需要两个都下载并升级吗?.............................1347
6.3.3.2 在升级管理框 CPLD 的过程中,主 CMC 进度出现“主备 CMC 都在位,仅通过备板升级 CPI/CIM/ACM
的 CPLD”的提示正常吗?.................................................................................................................................................... 1347
6.3.4 KunLun 安装 FusionSphere 和 VMware 的时候,哪些情况下需要打开虚拟化开关进行安装?............ 1347
6.3.5 KunLun 是否支持邮件和短信告警?........................................................................................................................ 1348
6.3.6 KunLun 的管理员、操作员和普通用户之间的具体区别是什么?.................................................................... 1348
华为服务器
维护宝典 目 录
文档版本 16 (2021-06-21) 版权所有 © 华为技术有限公司 xvii
6.3.7 KunLun90 系列的重量参数分别是多少?............................................................................................................... 1350
6.3.8 CMC IP 可以 ping 通,Web 可以登入,但是 SSH 或者 WINSCP 之类的工具无法登入............................ 1351
6.3.9 使用管理框本地光驱安装系统,系统无法识别启动项........................................................................................ 1352
6.3.10 CMC external network communication failed 告警....................................................................................... 1352
6.3.11 LCD heartbeat lost 告警........................................................................................................................................... 1352
6.3.12 PXE 启动失败................................................................................................................................................................ 1352
6.3.13 如何通过日志确认设备 SN?......................................................................................................................................1353
6.3.14 如何通过日志查看设备的硬分区配置?.................................................................................................................. 1354
6.3.15 如何模拟告警?........................................................................................................................................................... 1356
6.3.16 软件升级过程中有哪些注意事项?.........................................................................................................................1356
6.3.17 ipmitool 工具无法访问 CMC,如何解决?.......................................................................................................... 1356
6.3.18 哪些系统支持 PCIe 热插拔?....................................................................................................................................1357
6.3.19 内存支持 SDDC 和 DDDC 的规格汇总...................................................................................................................1357
6.3.20 逻辑分区是否需要 licence?.................................................................................................................................... 1357
6.3.21 计算框前面板 USB 和 VGA 接口如何在同一个框里面的两个 4P 硬分区之间切换?................................1358
7 产品更多资源....................................................................................................................... 1360
8 获取技术支持....................................................................................................................... 1364
华为服务器
维护宝典 目 录
文档版本 16 (2021-06-21) 版权所有 © 华为技术有限公司 xviii
1 前言
概述
本文档主要介绍了华为服务器产品在安装、配置和维护阶段的常用操作和故障处理案
例。
读者对象
本文档(本指南)主要适用于以下工程师:
● 技术支持工程师
● 维护工程师
符号约定
在本文中可能出现下列标志,它们所代表的含义如下。
符号
说明
用于警示紧急的危险情形,若不避免,
将会导致人员死亡或严重的人身伤害。
用于警示潜在的危险情形,若不避免,
可能会导致人员死亡或严重的人身伤
害。
用于警示潜在的危险情形,若不避免,
可能会导致中度或轻微的人身伤害。
用于传递设备或环境安全警示信息,若
不避免,可能会导致设备损坏、数据丢
失、设备性能降低或其它不可预知的结
果。
“注意”不涉及人身伤害。
华为服务器
维护宝典 1 前言
文档版本 16 (2021-06-21) 版权所有 © 华为技术有限公司 1
剩余1383页未读,继续阅读
2021-04-24 上传
点击了解资源详情
2020-04-03 上传
2010-11-03 上传
2022-06-29 上传
2021-02-17 上传
2021-03-12 上传
2021-08-06 上传
2019-04-28 上传
mybrightday
- 粉丝: 0
- 资源: 8
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- zlib-1.2.12压缩包解析与技术要点
- 微信小程序滑动选项卡源码模版发布
- Unity虚拟人物唇同步插件Oculus Lipsync介绍
- Nginx 1.18.0版本WinSW自动安装与管理指南
- Java Swing和JDBC实现的ATM系统源码解析
- 掌握Spark Streaming与Maven集成的分布式大数据处理
- 深入学习推荐系统:教程、案例与项目实践
- Web开发者必备的取色工具软件介绍
- C语言实现李春葆数据结构实验程序
- 超市管理系统开发:asp+SQL Server 2005实战
- Redis伪集群搭建教程与实践
- 掌握网络活动细节:Wireshark v3.6.3网络嗅探工具详解
- 全面掌握美赛:建模、分析与编程实现教程
- Java图书馆系统完整项目源码及SQL文件解析
- PCtoLCD2002软件:高效图片和字符取模转换
- Java开发的体育赛事在线购票系统源码分析
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功