Oracle数据库恢复实战：解决因硬盘故障和断电引发的问题

133 浏览量更新于2024-08-30 收藏 63KB PDF 举报

本文档是一篇关于Oracle数据库恢复实战的详细记录，作者分享了一次遇到的问题及其解决过程。问题的核心是数据库由于硬盘损坏和存储设备掉电导致无法正常打开（Open）。根据alert log的错误信息，主要问题是在线 redo 日志（Online Redo Log）在进行块恢复（Block Recovery）时遇到了问题，具体表现为在RBA (Redo Block Allocation) 39.77.16处停止，同时出现了内部错误代码（ORA-00600）。首先，作者注意到错误提示提到的“Recovery of Online Redo Log: Thread 1 Group 3 Seq 39”，这表明系统正在尝试恢复redo日志组3中的第9个事务。当系统检测到某个块（Block）无法正确读取或写入时，它会停止并报告错误，如Block recovery stopped at EOT rba 39.77.16，这意味着遇到了End Of Transaction（EOT）标记，通常与事务结束或者硬件故障有关。其次，屏蔽回滚段（Rollback Segment）是临时解决办法，虽然可以短暂地让数据库打开，但后续可能会因为依赖的undo数据不完整而再次崩溃。这是因为undo数据是事务处理的重要部分，用于记录事务的更改，以便在发生错误时可以撤销这些更改。在打开数据库后，作者发现了更多的错误，尤其是ORA-00600内部错误，这表明系统在进行其他操作时也遇到了问题。错误消息中的"Doing block recovery for file 2 block 713" 提示了对特定文件块的修复尝试，但可能并未完全解决问题，因为随后的日志继续记录着其他的错误。解决此类问题的关键步骤包括： 1. **确认硬件故障**：检查硬盘是否真的损坏，存储设备是否正常工作，以及是否有数据丢失。 2. **redo日志管理**：由于redo日志是事务恢复的基础，确保所有丢失或损坏的日志都被正确地定位和恢复，可能需要使用备份或归档日志进行重建。 3. **修复损坏的undo数据**：既然undo数据对数据库的稳定至关重要，重建undo段以确保事务能够正确回滚或提交。 4. **检查错误日志**：通过深入分析error trace文件（如bdump/orcl_smon_192644.trc），找出触发这些内部错误的具体原因，可能涉及数据结构、内存管理或其他内部组件。 5. **恢复策略**：根据数据库的保护级别（如RAC环境）选择适当的恢复路径，可能需要手动执行额外的恢复步骤，如使用RMAN（Oracle Recovery Manager）进行更高级别的恢复。这篇文章提供了实际操作中处理Oracle数据库简单恢复案例的宝贵经验，强调了在面对这类问题时的逻辑思维和故障排查流程，包括识别关键错误信息、临时解决方案以及长期的恢复计划。这对于Oracle数据库管理员来说，是一次学习和实践的重要参考案例。

一次简单的一次简单的Oracle恢复恢复Case实战记录实战记录

发现问题发现问题

某网友的数据库由于坏盘了，并且存储掉电，导致数据库无法open了。单看其数据库alert log的错误来看，是非常之简单的，

如下:

Fri Oct 26 10:33:53 2018

Recovery of Online Redo Log: Thread 1 Group 3 Seq 39 Reading mem 0

Mem# 0: /fs/fs/oradata/orcl/redo03.log

Block recovery stopped at EOT rba 39.77.16

Block recovery completed at rba 39.77.16, scn 0.1002048587

ORACLE Instance orcl (pid = 8) - Error 600 encountered while recovering transaction (9, 30) on object 9149.

Fri Oct 26 10:33:53 2018

Errors in file /fs/fs/oradata/admin/orcl/bdump/orcl_smon_192644.trc:

ORA-00600: internal error code, arguments: [6856], [0], [43], [], [], [], [], [] Fri Oct 26 10:33:56 2018

Errors in file /fs/fs/oradata/admin/orcl/bdump/orcl_smon_192644.trc:

ORA-00600: internal error code, arguments: [4194], [33], [36], [], [], [], [], [] Doing block recovery for file 2 block 713

Block recovery from logseq 39, block 82 to scn 1002048595

对于这种错误，很明显，屏蔽回滚段即可，屏蔽之后可顺利打开数据库，不过后面很快又会crash掉，因此重建undo也就绕过

这个问题了。

打开数据库之后，再去观察数据库，会发现alert log有不少的错误，如下所示：

Fri Oct 26 11:01:46 2018