没有合适的资源?快使用搜索试试~ 我知道了~
首页OpenStack Queens HA部署方案.pdf
OpenStack Queens HA部署方案.pdf
需积分: 14 177 浏览量
更新于2023-05-29
评论
收藏 5.81MB PDF 举报
部署openstack queens HA文档,版本可能有差距,但是大体一致的,仅供参考; 资源来源于教师传授
资源详情
资源评论
资源推荐

OpenStack Queens HA 部署手册
1、基础知识
1.1、高可用(HighAvailability,简称 HA)
高可用性是指提供在本地系统单个组件故障情况下,能继续访问应用的能力,无论这
个故障是业务流程、物理设施、IT 软/硬件的故障。最好的可用性,就是你的一台机器宕机
了,但是使用你的服务的用户完全感觉不到。你的机器宕机了,在该机器上运行的服务肯定
得做故障切换(failover),切换有两个维度的成本:RTO(RecoveryTimeObjective)和 RPO
(RecoveryPointObjective)。 RTO 是服务恢复的时间,最佳的情况是 0,这意味着服务立即
恢复;最坏是无穷大意味着服务永远恢复不了;RPO 是切换时向前恢复的数据的时间长度,
0 意味着使用同步的数据,大于 0 意味着有数据丢失,比如“RPO=1 天”意味着恢复时使用
一天前的数据,那么一天之内的数据就丢失了。因此,恢复的最佳结果是 RTO=RPO=0,但
是这个太理想,或者要实现的话成本太高,全球估计 Visa 等少数几个公司能实现,或者几
乎实现。
对 HA 来说,往往使用共享存储,这样的话,RPO=0;同时往往使用 Active/Active(双
活集群)HA 模式来使得 RTO 几乎 0,如果使用 Active/Passive 模式的 HA 的话,则需要将
RTO 减少到最小限度。HA 的计算公式是[1-(宕机时间)/(宕机时间+运行时间)],我们常常
用几个 9 表示可用性:
2 个 9:99%=1%*365=3.65*24 小时/年=87.6 小时/年的宕机时间
4 个 9:99.99%=0.01%*365*24*60=52.56 分钟/年
5 个 9:99.999%=0.001%*365=5.265 分钟/年的宕机时间,也就意味着每次停机时间
在一到两分钟。
11 个 9:几乎就是几年才宕机几分钟。据说 AWSS3 的设计高可用性就是 11 个 9。
1.1.1 服务的分类
HA 将服务分为两类:
有状态服务:后续对服务的请求依赖于之前对服务的请求。

无状态服务:对服务的请求之间没有依赖关系,是完全独立的。
1.1.2HA 的种类
HA 需要使用冗余的服务器组成集群来运行负载,包括应用和服务。这种冗余性也可以
将 HA 分为两类:
Active/PassiveHA:集群只包括两个节点简称主备。在这种配置下,系统采用主和备
用机器来提供服务,系统只在主设备上提供服务。在主设备故障时,备设备上的服
务被启动来替代主设备提供的服务。典型地,可以采用 CRM 软件比如 Pacemaker
来控制主备设备之间的切换,并提供一个虚机 IP 来提供服务。
Active/ActiveHA:集群只包括两 个 节 点 时简称双活 , 包 括 多节点时 成为多 主
(Multi-master)。在这种配置下,系统在集群内所有服务器上运行同样的负载。以
数据库为例,对一个实例的更新,会被同步到所有实例上。这种配置下往往采用负
载均衡软件比如 HAProxy 来提供服务的虚拟 IP。
1.1.3 云环境的 HA
云环境包括一个广泛的系统,包括硬件基础设施、IaaS 层、虚机和应用。以 OpenStack
云为例:
云环境的 HA 将包括:
应用的 HA
虚机的 HA
云控制服务的 HA

物理 IT 层:包括网络设备比如交换机和路由器,存储设备等
基础设施,比如电力、空调和防火设施等
本文的重点是讨论 OpenStack 作为 IaaS 的 HA。
1.2、灾难恢复(DisasterRecovery)
几个概念:
灾难(Disaster)是由于人为或自然的原因,造成一个数据中心内的信息系统运行严
重故障或瘫痪,使信息系统支持的业务功能停顿或服务水平不可接受、达到特定的
时间的突发性事件,通常导致信息系统需要切换到备用场地运行。
灾难恢复(DiasterRecovery)是指当灾难破坏生产中心时在不同地点的数据中心内
恢复数据、应用或者业务的能力。
容灾是指,除了生产站点以外,用户另外建立的冗余站点,当灾难发生,生产站点
受到破坏时,冗余站点可以接管用户正常的业务,达到业务不间断的目的。为了达
到更高的可用性,许多用户甚至建立多个冗余站点。
衡 量 容 灾 系 统 有 两 个 主 要 指 标 : RPO ( RecoveryPointObjective )和 RTO
(RecoveryTimeObject),其中 RPO 代表了当灾难发生时允许丢失的数据量,而 RTO
则代表了系统恢复的时间。RPO 与 RTO 越小,系统的可用性就越高,当然用户需要
的投资也越大。
大体上讲,容灾可以分为 3 个级别:数据级别、应用级别以及业务级别。
级
别
定义
RTO
CTO
数
指通过建立异地容灾中心,做数据的远程备份,
RTO 最长(若干
最低

据
级
在灾难发生之后要确保原有的数据不会丢失或
者遭到破坏。但在数据级容灾这个级别,发生灾
难时应用是会中断的。
在数据级容灾方式下,所建立的异地容灾中心可
以简单地把它理解成一个远程的数据备份中心。
数据级容灾的恢复时间比较长,但是相比其他容
灾级别来讲它的费用比较低,而且构建实施也相
对简单。
但是,“数据源是一切关键性业务系统的生命源
泉”,因此数据级容灾必不可少。
天),因为灾难
发生时,需要
重新部署机
器,利用备份
数据恢复业
务。
应
用
级
在数据级容灾的基础之上,在备份站点同样构建
一套相同的应用系统,通过同步或异步复制技
术,这样可以保证关键应用在允许的时间范围内
恢复运行,尽可能减少灾难带来的损失,让用户
基本感受不到灾难的发生,这样就使系统所提供
的服务是完整的、可靠的和安全的。
RTO 中等(若
干小时)
中等。异地
可以搭建一
样的系统,
或者小些的
系统。
业
务
级
全业务的灾备,除了必要的 IT 相关技术,还要
求具备全部的基础设施。其大部分内容是非 IT
系统(如电话、办公地点等),当大灾难发生后,
原有的办公场所都会受到破坏,除了数据和应用
的恢复,更需要一个备份的工作场所能够正常的
开展业务。
RTO 最小(若
干分钟或者
秒)
最高
1.3、HA 和 DR 的关系
两者相互关联,互相补充,互有交叉,同时又有显著的区别:
HA 往往指本地的高可用系统,表示在多个服务器运行一个或多种应用的情况下,
应确保任意服务器出现任何故障时,其运行的应用不能中断,应用程序和系统应能

迅速切换到其它服务器上运行,即本地系统集群和热备份。HA 往往是用共享存储,
因此往往不会有数据丢失(RPO=0),更多的是切换时间长度考虑即 RTO。
DR 是指异地(同城或者异地)的高可用系统,表示在灾害发生时,数据、应用以
及业务的恢复能力。异地灾备的数据灾备部分是使用数据复制,根据使用的不同数
据复制技术(同步、异步、StrectchedCluster 等),数据往往有损失导致 RPO>0;而
异地的应用切换往往需要更长的时间,这样 RT0>0。因此,需要结合特定的业务需
求,来定制所需要的 RTO 和 RPO,以实现最优的 CTO。
也可以从别的角度上看待两者的区别:
从故障角度,HA 主要处理单组件的故障导致负载在集群内的服务器之间的切换,
DR 则是应对大规模的故障导致负载在数据中心之间做切换。
从网络角度,LAN 尺度的任务是 HA 的范畴,WAN 尺度的任务是 DR 的范围。
从云的角度看,HA 是一个云环境内保障业务持续性的机制,DR 是多个云环境间保
障业务持续性的机制。
从目标角度,HA主要是保证业务高可用,DR是保证数据可靠的基础上的业务可用。
一个异地容灾系统,往往包括本地的 HA 集群和异地的 DR 数据中心。一个示例如下:
MasterSQLServer 发生故障时,切换到 StandbySQLServer,继续提供数据库服务:
剩余166页未读,继续阅读














安全验证
文档复制为VIP权益,开通VIP直接复制

评论0