IBM HACMP技术详解:高可用集群容错与灾备

需积分: 10 0 下载量 151 浏览量 更新于2024-07-26 收藏 386KB PDF 举报
"IBM HACMP听课笔记" IBM HACMP,即High Availability Cluster Multiprocessing,是一种高可用性集群解决方案,主要用于提高关键业务系统的稳定性。它通过监控和管理集群中的资源,确保在出现故障时能够快速无缝地切换到备用节点,从而最小化服务中断。 在HACMP中,SPOF(Single Point of Failure)是指任何可能导致整个系统失效的单一组件。为了减少SPOF,HACMP支持动态CPU去分配,当某个CPU发生故障时,系统会自动禁用该CPU,以避免整个系统崩溃。此外,HACMP还允许动态添加模块和驱动,这些更改无需重启系统,增加了系统的灵活性。 HACMP与VCS(Virtual Cluster Systems)类似,都关注于应用监控和故障处理。在HACMP 5.4版本之后,引入了应用监控容错机制,实现了全冗余配置,尽管这可能对某些特定应用来说成本较高。HACMP的切换速度相当快,大约在30秒内完成基本的系统切换,但如果涉及应用程序,总切换时间可能延长至3-4分钟。在AIX 5.3 Service Pack 7之后,HACMP改进了quorum机制,使得某些更改不再需要重启。 AIX 5.3开始支持网络聚合,提高了网络带宽和可靠性。HACMP的配置信息存储在对象数据模型(ODM)中,因此需要在集群的各个节点间进行同步。理想情况下,RAC(Resource Access Control)应包含两个节点,因为更多节点可能导致性能下降,就像包饺子时,人多并不一定效率高。 HACMP 5.41及以后的版本,日志文件hacmp.out的位置更改为/var/hacmp/log/。此版本仅支持在Power架构上运行的Linux系统。对于异地容灾,HACMP提供了HACMP XD作为选件,但这是一项昂贵的功能。数据库层面的高可用性解决方案包括DB2的HADR和Oracle的数据卫士。 HACMP主要监控三类故障:节点、网络和网卡。资源组(RG)是HACMP中的一组相关资源,它们一起漂移并在故障发生时作为一个整体进行切换。资源只能属于一个资源组,并且每个资源组可以有自己的策略。集群可容纳64个资源组,32个节点,256个IP地址和16个物理网络。物理网络指如VLAN这样的实际网络,而逻辑网络可能指代如网段这样的抽象网络。 HACMP不负责备份恢复或时间同步,这些需要其他工具来完成。实现零停机时间虽然理想,但可能会带来安全性问题,例如在C2和B1安全级别下启用TCB(Trusted Computing Base)可能会导致服务启动困难。在不稳定的环境中,错误配置的HA系统反而可能降低可用性。CRM(Concurrent Resource Management)自5.1版本起被整合到HACMP中。 配置文件和应用软件通常建议本地安装,而非放在共享存储中,以便进行滚动升级并保持不同应用的独立配置。RAC(Real Application Clusters)与HACMP的互备模式的主要区别在于,RAC允许并发访问,通过锁定机制来管理数据,而互备模式则是在节点故障时由另一个节点接管全部资源。 最后,共享存储保护技术如RSCT(Resilient Storage Component Technology)有助于确保在存储层面对故障的防护。RSCT是IBM提供的一种高级存储管理技术,旨在增强AIX系统对存储故障的抵抗力。