云计算运维体系:保障服务可靠性与效率
5星 · 超过95%的资源 需积分: 14 70 浏览量
更新于2024-07-22
3
收藏 688KB PDF 举报
“云计算核心运维架构-新浪丛磊”探讨了新浪SinaAppEngine(SAE)平台的运维体系,该平台支持大量知名应用的稳定运行,并强调了在云计算环境中运维的重要性。文章由新浪云计算总负责人丛磊在第七届中国云计算大会上的演讲整理而成,主要涵盖以下几个知识点:
1. **云计算的核心运维**:丛磊指出,云计算的核心是运维,运维涉及到多个层面,包括OpenStack、CloudStack、Docker、Mesos、Kubernetes、CloudFoundry、OpenShift、Eucalyptus等技术的运用和管理。运维不仅仅是搭建云计算平台,更重要的是运维云计算平台,确保其稳定、高效。
2. **云计算平台运维的特点**:这些特点包括用户不可预知性、业务不可预知性、服务多样性、资源共享性和早期夸大导致的用户理解偏差。这些特点给运维带来了挑战,需要运维团队具备灵活应对和快速调整的能力。
3. **运维的职责**:运维的主要职责包括保证服务的可靠性(对SLA负责)、业务的质量(对Performance负责)以及成本的优化(对Cost负责)。这要求运维团队在确保服务稳定的同时,也要关注性能和成本控制。
4. **保证服务可靠**:所有资源需处于可管理状态和可监控状态,包括人员管理(接口化)、硬件管理(接口化)。变更管理是关键,无论是硬件变更(如设备上线、下线、报修、更新、搬迁)还是软件变更(服务上线、下线、配置变更、扩容方案),都需要有严格的流程控制,确保升级的成功,并有能力在出现问题时迅速回滚。
5. **故障管理**:建立有效的故障处理机制,包括常规故障处理、重大故障的紧急应对,以及故障升级制度和故障总结,以提高响应速度和解决问题的效率。
6. **监控系统**:全面的监控体系是运维的重要组成部分,包括平台监控、服务监控、业务监控和网络监控。平台监控关注硬件资源;服务监控涉及所有服务API和运行状况;业务监控则从用户角度出发,进行API监控和生命周期监控;网络监控则涵盖了内外网的DNS、访问速度、丢包率等多个方面。
7. **资源管理**:变更管理和故障管理都是资源管理的重要组成部分。任何变动都可能导致问题,因此,完善的流程和策略对于避免和解决这些问题至关重要。
这个摘要揭示了新浪SAE在云计算运维方面的深度实践,包括其运维策略、服务保障措施以及监控体系的构建,为其他云平台提供了宝贵的运维经验和参考。
点击了解资源详情
点击了解资源详情
点击了解资源详情
2013-06-14 上传
2021-09-27 上传
2013-09-16 上传
2019-04-13 上传
2015-09-22 上传
2014-05-29 上传
周建丁
- 粉丝: 1218
- 资源: 150
最新资源
- 俄罗斯RTSD数据集实现交通标志实时检测
- 易语言开发的文件批量改名工具使用Ex_Dui美化界面
- 爱心援助动态网页教程:前端开发实战指南
- 复旦微电子数字电路课件4章同步时序电路详解
- Dylan Manley的编程投资组合登录页面设计介绍
- Python实现H3K4me3与H3K27ac表观遗传标记域长度分析
- 易语言开源播放器项目:简易界面与强大的音频支持
- 介绍rxtx2.2全系统环境下的Java版本使用
- ZStack-CC2530 半开源协议栈使用与安装指南
- 易语言实现的八斗平台与淘宝评论采集软件开发
- Christiano响应式网站项目设计与技术特点
- QT图形框架中QGraphicRectItem的插入与缩放技术
- 组合逻辑电路深入解析与习题教程
- Vue+ECharts实现中国地图3D展示与交互功能
- MiSTer_MAME_SCRIPTS:自动下载MAME与HBMAME脚本指南
- 前端技术精髓:构建响应式盆栽展示网站