阿里云弹性计算:打造超越硬件稳定性的云服务

需积分: 0 1 下载量 82 浏览量 更新于2024-07-15 收藏 5.3MB PDF 举报
“云上服务:超越硬件的稳定性.pdf” 这篇文档是阿里云在2019年云栖大会上关于云上服务稳定性的分享,由阿里云-弹性计算的资深技术专家郑旭东(鹿棠)主讲。主要内容分为三个部分:弹性计算卓越的稳定性、超高稳定性的背景以及超越硬件稳定性的秘密。 首先,文档强调了阿里云ECS(Elastic Compute Service)相对于线下IDC(Internet Data Center)具备10倍更好的稳定性。通过对比不同供应商的SLA(Service Level Agreement,服务等级协议),阿里云ECS的可用性达到了99.995%,远超其他厂商,体现了其在硬件层面的优越性。这归功于阿里云在IDC、服务器、硬件网络、操作系统以及管控链路上的全面优化。 接着,文档阐述了实现业务永续面临的挑战,指出无论线下IDC还是线上IAAS(Infrastructure as a Service)服务,都需要依赖众多组件,如IDC设施、服务器硬件、网络、操作系统等。阿里云构建了一套包括神龙MOC(Meta-Cloud Operating System,元云操作系统)、TDC(Traffic Director Control,流量调度控制)、AVS(Automatic Verification and Scaling,自动验证与扩展)等在内的基础设施,确保了从虚拟化技术到存储、网络和镜像/GuestOS的全面稳定。 为了提升业务的稳定性,文档提到了多种方法,包括高可用性设计、容灾策略以及自动化运维等。阿里云通过提供100%覆盖且零成本的开机自启动服务,显著降低了客户因硬件问题导致的宕机率。此外,阿里云的网络架构设计强大,采用3+N多线接入BGP,确保全国范围内的低延迟和低丢包率,同时在网络、电力供应等方面采用冗余设计,以增强高可用性。 最后,文档揭示了超越硬件稳定性的秘密在于全生命周期的硬件保障。阿里云通过线上数据验证、实验室测试、工厂拦截和现网运行等多个阶段对硬件进行严格把控,确保设计缺陷能在早期被发现并解决,从而实现硬件层面的标准化和可靠性。 总结来说,阿里云通过强大的基础设施、高可用性设计、全面的运维保障以及全生命周期的硬件管理,实现了云上服务超越硬件的稳定性,为客户提供了一种更可靠、更经济的业务运行环境。