服务器故障应急处理:Web与数据库排查与恢复

需积分: 50 32 下载量 44 浏览量 更新于2024-08-31 2 收藏 28KB DOCX 举报
该文档主要探讨的是服务器软件故障应急预案,针对线上业务访问和关键服务的故障处理。以下详细解析文档中的知识点: 1. 网站访问故障处理: - 首先,当发现线上业务访问出现问题时,应立即检查负载均衡器(LB)上的web挂载状态,使用命令`ipvsadm -Ln`来验证服务的健康状态。 - 接着,通过访问监控系统(例如Nagios,通过访问`https://10.31.11.30/nagios`)获取服务器的实时状态,根据显示的状况判断故障源。 - 定位到问题服务器后,首先将其从LB上移除,通过停止服务(如`/etc/init.d/webcheck stop`)并检查日志,进一步诊断和修复。 2. 数据库故障处理: - 数据库故障可能由人为操作失误或数据同步问题引起。 - 对于人为误操作,可以通过备份恢复数据(比如使用备份文件)或者利用binlog(二进制日志)追踪操作,回滚到错误前的状态。 - 数据不同步涉及主从复制,当出现锁表(`flushtableswithreadlock;`)、停止复制(`stopslave;`)等情况时,需要操作主服务器进行同步,确认无误后再解锁(`unlocktables;`)。 3. 预览服务器故障及迁移策略: - 预览服务器若出现问题,可能会导致文件预览功能受限。此时,如果域控或文件存储服务器也故障,可以考虑将服务临时迁移到联通云平台进行修复。 - 修复完成后,再逐步切换回电信环境,确保业务连续性。 4. 文件存储服务器硬盘故障: - 当硬盘出现故障,如发现/dev/sdb异常,首先通过`umount`卸载有问题的硬盘,然后查看系统日志(`dmesg|tail`)以获取更多故障信息。 - 使用`mkfs.xfs`对新硬盘进行格式化,接着执行`mount -a`重新挂载,确保数据可用。 总结来说,这份文档提供了一套完整的服务器故障应急响应流程,涵盖了从网站访问、数据库管理到文件存储服务器的故障排查与恢复措施,强调了在实际运维中快速定位问题并采取相应措施的重要性。
2023-06-08 上传
服务器硬件故障应急预案 服务器故障应急预案 有关应急预案 1 服务器硬件故障应急预案 (1)核心服务器双机配置,配置好备用服务器,随时待命。 (2)发生服务器硬件故障后,相关人员应及时查找、确定故障原因,进行先期处置。 若故障服务器在短时间内无法修复,相关人员应启动备用服务器,保持局域网系统的正 常运行;将故障服务器脱离网络,进行故障排除工作。 2 服务器软件系统故障应急预案 (1)做好服务器软件系统的定时备份,系统崩溃后,能够及时恢复系统。 (2)发生服务器软件系统故障后,相关人员应检查出现故障的原因并尽快排除。 (3)如遇服务器系统崩溃,应启用备份系统进行恢复。 服务器硬件故障预防与排除 1 故障预防 准备相应的应急备用服务器。当服务器出现不可恢复的硬件故障时,马上启动备用服 务器,从而减小服务器硬件故障风险。 2 故障排除 当服务器出现硬件故障,通过以下步骤排除: (1)确定故障原因。依次查看电源、硬盘、内存、主板、处理器等,如条件许可,可 使用替换法检测各硬件。 (2)恢复固件缺省配置。比如去除第三方厂商备件和非标配备件;清除CMOS,恢复资 源初始配置。 二、RTX服务器备份 现RTX服务器数据备份方式为每周备份一次数据文件,安装软件及相关组件,备份文件服 务器本机一份,备份服务一份。服务器系统用GHOST备份,如系统出问题时,可使用GHO ST镜像进行系统恢复. 三、RTX服务器硬件故障处理 服务器出现硬件故障时,应及时启用备用服务器重新安装服务,如故障服务器数据能 导出,将数据导入备用服务器;如数据不能导出即启用备份数据,将备用服务器环境配 置与故障服务器相同数据恢复后放入生产网络,同时将故障服务器移出,以保证服务及 时恢复使用,如无其他状况,此操作过程在1-2小时内即可完成。 WEB服务器备份及故障应急处理方案 1. web服务常见问题处理 1. 查看IIS服务是否正常运行,尝试重启IIS服务后,查看是否可正常访问;查看IIS 配置,网站主目录,网站环境等是否出现异常、 2. 查看网站主目录内的文件是否有损坏,如有异常,尝试启用备份文件,看是否可正 常访问 3. 查看域名解析是否正确,如有问题及时改正 二、WEB服务器备份 现WEB服务器数据备份方式为每周备份一次网站主目录内的所有文件,备份文件服 务器本机一份,备份服务一份。服务器系统用GHOST备份,如系统出问题时,可使 用GHOST镜像进行系统恢复. 三、WEB服务器硬件故障处理 服务器出现硬件故障时,应及时启用备用服务器重新安装IIS,配置网站环境,将备 份好的网站目录文件导入备用服务器,测试是否能正常访问,如能访问,将环境配置与 原服务器相同后放入生产,同时将故障服务器移出生产网路。如服务器IP有变化,需注 意域名解析的IP地址变更,如无其他状况,此操作可在2小时内完成! ----------------------- 服务器硬件故障应急预案全文共6页,当前为第1页。 服务器硬件故障应急预案全文共6页,当前为第2页。 服务器硬件故障应急预案全文共6页,当前为第3页。 服务器硬件故障应急预案全文共6页,当前为第4页。 服务器硬件故障应急预案全文共6页,当前为第5页。 服务器硬件故障应急预案全文共6页,当前为第6页。