Oracle 11GR2 RAC节点故障深度剖析：CRS Crash与诊断步骤

需积分: 25 104 浏览量更新于2024-07-22 收藏 263KB PDF 举报

Oracle 11GR2 RAC (Real Application Cluster)节点crash故障分析是针对Oracle 11.2.0.4版本数据库集群在AIX 7100环境中遇到的问题进行深入探讨的文章。作者魏斌，作为新炬网络数据库专家，针对节点2突然crsh hang（即系统崩溃）的情况进行了详细故障排查和解决策略。当遇到这样的故障时，首先，应关注数据库（DB）下的alert日志和相关trace日志，因为它们通常记录了问题发生时的关键信息。在这些日志中查找关于错误的详细描述和堆栈跟踪，有助于定位问题根源。同时，执行`crsctl`命令的状态检查和输出至关重要，因为它可能提供关于集群服务（CRS）状态的线索。查看所有节点的`errpt-a`输出可以帮助收集系统级别的错误报告，特别是`GRID_HOME`目录下各服务（如CRSD、CSSD、OHASD等）的日志文件，如alert.log、crsd.log、ocssd.log以及agent日志。这些日志中可能会包含关于crash的具体原因，比如硬件故障、内存泄漏、资源争用等。检查LMON、LMS*和LMD0 tracefiles对于理解锁管理、监控和诊断性能瓶颈也是必要的。这些文件记录了数据库实例在运行时的活动，包括事务处理和资源分配。此外，检查OSW（Oracle Shared Workarea）的输出可以揭示与内存管理、线程池或共享组件相关的异常。OSW负责管理和调度数据库工作负载，任何异常都可能导致节点crash。如果问题是CRS引起的重启，那么在`/etc/oracle/lastgasp`目录下的文件中会有相应的记录，这些记录会表明重启的原因，如crash恢复策略或维护任务。最后，如果VIP（Virtual IP）没有正确地从故障节点切换到节点1，可能涉及到集群管理和网络配置，需要检查网络连接、VIP配置和集群状态的恢复策略。对Oracle 11GR2 RAC节点crash故障的分析是一个系统性的过程，涉及数据库、服务日志、性能监控和集群管理等多个层面。通过细致的排查和利用适当的工具，可以有效地定位和解决此类问题，确保数据库集群的高可用性和稳定性。

成就无边界服务

www.shsnc.cn

Archived Log entry 319 added for thread 1 sequence 246 ID 0xffffffff82080958 dest 1:

Tue Mar 25 13:45:23 2014

Thread 1 advanced to log sequence 248 (LGWR switch)

Current log# 2 seq# 248 mem# 0:

+SYSDG/dbracdb/onlinelog/group_2.264.840562709

Current log# 2 seq# 248 mem# 1:

+SYSDG/dbracdb/onlinelog/group_2.265.840562727

节点 2DB 的 alert 日志：

Tue Mar 25 12:07:15 2014

Archived Log entry 309 added for thread 2 sequence 112 ID 0xffffffff82080958 dest 1:

Tue Mar 25 12:22:22 2014

Dumping diagnostic data in directory=[cdmp_20140325122222], requested by

(instance=1, osid=7012828), summary=[incident=384673].

Tue Mar 25 12:45:21 2014

Thread 2 advanced to log sequence 114 (LGWR switch)

Current log# 6 seq# 114 mem# 0:

+SYSDG/dbracdb/onlinelog/group_6.274.840563009

Current log# 6 seq# 114 mem# 1:

+SYSDG/dbracdb/onlinelog/group_6.275.840563017

Tue Mar 25 12:45:22 2014

Archived Log entry 313 added for thread 2 sequence 113 ID 0xffffffff82080958 dest 1:

Tue Mar 25 13:14:57 2014

IPC Send timeout detected. Receiver ospid 11010320

Tue Mar 25 13:14:57 2014

Errors in file

/oraclelog/diag/rdbms/dbracdb/dbracdb2/trace/dbracdb2_lms0_11010320.trc:

IPC Send timeout detected. Receiver ospid 11534636 [

Tue Mar 25 13:15:01 2014

Errors in file

剩余18页未读，继续阅读

新炬网络

粉丝: 21

Oracle 11GR2 RAC节点故障深度剖析：CRS Crash与诊断步骤

Oracle 11gR2 RAC节点扩展实践教程

Oracle 11gR2 RAC 在 Linux 平台上的安装步骤详解

Oracle 11gR2 RAC 进程与集群配置详解

Oracle 11gR2 RAC删除节点 案例

Oracle 11gR2 RAC 添加节点 案例

Oracle 11gR2 RAC删除节点实战 案例

Oracle 11gR2 RAC到单节点DataGuard部署文档

oracle11gr2 rac安装步骤

Oracle 11gR2 RAC 进程说明

Oracle 11gR2 RAC 安装配置

最新资源

Oracle 11gR2 RAC删除节点案例

Oracle 11gR2 RAC 添加节点案例

Oracle 11gR2 RAC删除节点实战案例