云计算运维核心:服务可靠性与资源管理

3星 · 超过75%的资源 需积分: 14 832 下载量 125 浏览量 更新于2024-07-22 收藏 688KB PDF 举报
“云计算核心技术架构论坛(一)—云计算核心运维架构—丛磊,丛磊作为新浪云计算总负责人,强调了运维在云计算中的核心地位,并指出了在中国企业中进行云环境运维的挑战,包括用户不可预知性、业务不可预知性、服务多样性、资源共享性和早期过度宣传导致的理解偏差。” 在云计算领域,丛磊提到了一系列关键技术和平台,如OpenStack、CloudStack、Docker、Mesos、Kubernetes、CloudFoundry、OpenShift和Eucalyptus,这些都是构建和运维云计算平台的重要组成部分。运维不仅是搭建平台,更重要的是维护其稳定运行。 云计算平台运维具有特定的特点,首先,用户行为的不可预知性使得运维需要随时应对各种用户需求。其次,业务的不可预知性意味着运维团队必须灵活适应快速变化的业务场景。服务多样性要求运维人员管理多种服务类型,确保服务质量。资源共享性增加了管理复杂度,因为多个用户和应用共享同一基础设施。早期对云计算的夸大宣传可能导致用户对其功能和性能的误解,运维需解决这一问题,提供清晰的用户引导。 运维的职责主要包括三个方面:保证服务的可靠性,确保服务级别协议(SLA)的履行;保证业务质量,对性能负责;以及优化成本,对费用控制负责。为了实现这些目标,运维需要实施有效的资源管理,如人力资源接口化,建立值班制度、奖惩机制、权限分配和培训。同时,硬件资源的管理同样重要,包括设备管理和节点管理。 变更管理是运维中的关键环节,无论是硬件还是软件的变更,都需要有严格的流程,比如机器的上线、下线和变更流程,以及服务的上线、下线和配置变更流程。丛磊强调,确保升级的成功性和可回滚性至关重要,拒绝无法在10秒内回滚的升级。 故障管理是另一个运维的重点,包括常规和紧急重大故障的处理,建立故障升级制度,以及定期进行故障总结,以提升处理效率。全面的监控体系是保障运维效率的关键,包括平台监控、服务监控、业务监控和网络监控。例如,使用Zabbix监控硬件资源,监控服务API和运行状况,从用户角度监控业务性能,以及内外网的DNS、访问速度、丢包率等网络指标。 通过以上内容,我们可以看出丛磊对云计算核心运维架构的深入理解和实践,强调了运维在云计算环境中的核心作用以及面对的挑战和解决策略。