云计算运维体系:保障服务可靠性与效率

5星 · 超过95%的资源 需积分: 14 47 下载量 70 浏览量 更新于2024-07-22 3 收藏 688KB PDF 举报
“云计算核心运维架构-新浪丛磊”探讨了新浪SinaAppEngine(SAE)平台的运维体系,该平台支持大量知名应用的稳定运行,并强调了在云计算环境中运维的重要性。文章由新浪云计算总负责人丛磊在第七届中国云计算大会上的演讲整理而成,主要涵盖以下几个知识点: 1. **云计算的核心运维**:丛磊指出,云计算的核心是运维,运维涉及到多个层面,包括OpenStack、CloudStack、Docker、Mesos、Kubernetes、CloudFoundry、OpenShift、Eucalyptus等技术的运用和管理。运维不仅仅是搭建云计算平台,更重要的是运维云计算平台,确保其稳定、高效。 2. **云计算平台运维的特点**:这些特点包括用户不可预知性、业务不可预知性、服务多样性、资源共享性和早期夸大导致的用户理解偏差。这些特点给运维带来了挑战,需要运维团队具备灵活应对和快速调整的能力。 3. **运维的职责**:运维的主要职责包括保证服务的可靠性(对SLA负责)、业务的质量(对Performance负责)以及成本的优化(对Cost负责)。这要求运维团队在确保服务稳定的同时,也要关注性能和成本控制。 4. **保证服务可靠**:所有资源需处于可管理状态和可监控状态,包括人员管理(接口化)、硬件管理(接口化)。变更管理是关键,无论是硬件变更(如设备上线、下线、报修、更新、搬迁)还是软件变更(服务上线、下线、配置变更、扩容方案),都需要有严格的流程控制,确保升级的成功,并有能力在出现问题时迅速回滚。 5. **故障管理**:建立有效的故障处理机制,包括常规故障处理、重大故障的紧急应对,以及故障升级制度和故障总结,以提高响应速度和解决问题的效率。 6. **监控系统**:全面的监控体系是运维的重要组成部分,包括平台监控、服务监控、业务监控和网络监控。平台监控关注硬件资源;服务监控涉及所有服务API和运行状况;业务监控则从用户角度出发,进行API监控和生命周期监控;网络监控则涵盖了内外网的DNS、访问速度、丢包率等多个方面。 7. **资源管理**:变更管理和故障管理都是资源管理的重要组成部分。任何变动都可能导致问题,因此,完善的流程和策略对于避免和解决这些问题至关重要。 这个摘要揭示了新浪SAE在云计算运维方面的深度实践,包括其运维策略、服务保障措施以及监控体系的构建,为其他云平台提供了宝贵的运维经验和参考。