金山云云计算高可用策略:热升级与自动故障转移

需积分: 12 10 下载量 191 浏览量 更新于2024-07-19 收藏 954KB PDF 举报
"在云计算领域,高可用性是确保服务稳定性和连续性的关键因素。金山云在GOPS2016全球运维大会上分享了他们应对云计算高可用性挑战的经验和策略。面对快速发展的云计算环境,包括规模与增速的扩大、设备异构和老化等问题,以及各种计划内外的故障,如硬件错误、软件崩溃、系统升级等,金山云提出了相应的解决方案。" 云计算的高可用方案主要关注以下几个方面: 1. **服务等级协议(SLA)**:SLA是衡量服务可用性的重要标准,用户期望的平均不可用时间通常很低,例如20分钟/月。高可用的目标是降低故障的频率、减少单次故障持续时间和减小影响范围。 2. **计划内操作的无影响升级**:通过热升级和在线迁移技术,可以实现在不影响服务的情况下进行设备或软件升级。金山云利用ksplice和kpatch等工具处理内核热升级,解决高频函数调用问题,并且将停机时间控制在300毫秒以内。此外,他们还开发了自己的增量磁盘格式(ksc_inc),以降低本地数据传输时间。 3. **计划外故障的自动应对**:对于无法预见的问题,如硬件故障或软件崩溃,金山云采用AutoFailover技术,结合共享存储和精准监控来快速切换到备用系统,确保服务不间断。他们自研的高可靠弹性块存储(KDFS)提供了共享存储的高可用保障。同时,通过优化重启流程,减少了宕机时间。 4. **本地存储的高可用**:在线迁移过程中,本地存储的高可用性是一个挑战。金山云通过ksc_inc技术,实现了仅传输增量数据,从而降低了数据传输时间,提升了迁移效率。 5. **自动化备份**:除了上述措施,自动备份也是确保高可用性的重要手段,它可以在发生灾难性故障时恢复服务。 云计算的高可用方案需要涵盖预防、检测、响应和恢复等多个层面,以确保即使在复杂多变的环境中也能提供持续、稳定的服务。金山云的经验表明,通过技术创新和精细化管理,可以有效应对云计算的高可用性挑战。