IaaS环境中的故障分析建模：基础设施预测模型研究

186 浏览量更新于2023-12-10 收藏 779KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

可在www.sciencedirect.com在线获取理论计算机科学电子笔记340（2018）41-54www.elsevier.com/locate/entcs基础设施即服务（Iaas）环境中的故障分析建模Bashir Mohammed，Babagana Modu，Kabiru MMaiyama Hassan Ugail，Irfan Awan英国布拉德福德大学电气工程与计算机科学学院Mariam Kiran2能源科学网络（ESnet）劳伦斯伯克利国家实验室美国加利福尼亚州伯克利摘要故障预测长期以来一直是一个具有挑战性的问题。随着技术的发展趋势和高性能云数据中心基础设施的日益复杂，关注故障变得非常重要，特别是在设计下一代系统时。传统的运行时容错技术，如数据复制和周期性检查点，对于处理当前最先进的新兴计算系统不是很有效。这就迫切需要一个强大的系统，深入了解系统和组件故障，以及准确预测未来潜在系统故障的能力。在本文中，我们研究了国家能源研究科学计算中心（NERSC）在五年使用从计算机故障数据存储库（CFDR）收集的数据，我们开发了一个有效的故障预测模型，专注于高性能云数据中心基础设施。使用自回归移动平均（ARMA），我们的模型能够预测系统中潜在的未来故障我们的结果故障预测准确率达到95%，效果良好。因此，我们相信，我们的策略是实用的，可以适应在现有的实时系统中使用关键词：关键词：故障预测，Iaas，复制，HPC，检查点1引言故障是指组件或系统无法根据其规格执行所需的任务或功能。随着我们对计算的需求不断增长1电子邮件：bradford.ac.uk2电子邮件：mkiran@es.nethttps://doi.org/10.1016/j.entcs.2018.09.0041571-0661/© 2018由Elsevier B. V.这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。42B. Mohammed et al. /Electronic Notes in Theoretical Computer Science 340（2018）41随着云计算资源和性能不断推动高性能系统和云数据中心的发展，对云系统故障和错误及其统计和经验属性的深入了解的需求也在不断增长[3]。了解这些关键特性有助于预测可能的故障，并评估不同技术的有效性，以提高整个系统的可用性。它还可以使研究人员能够为云服务提供商和客户设计和开发新的最先进的解决方案。云计算是一个用来描述广泛的在线服务的术语。根据美国国家标准与技术研究所（NIST）[32]，云计算被定义为“一种模型，用于实现对可配置计算资源的共享池的无处不在的、方便的、按需的云计算服务提供对在线计算资源池（诸如虚拟机、计算服务器集群或网络存储）的方便、可扩展、按需访问[6]。值得注意的是，云计算系统的规模和复杂性使失败成为不可避免的这些故障可能是由系统资源不足或系统本身的意外故障引起的。因此，确保这些系统的可靠性和可用性至关重要[25]。云服务提供商（CSP）也迫切需要在出现故障时向其客户提供可扩展、高效和可靠的按需资源，从而满足其服务水平协议（SLA）。云基础设施中的组件故障很常见，但大型云数据中心的设计应保证业务系统的一定可用性。云结构即服务（IaaS）云提供计算资源（例如，CPU和内存）、存储资源和网络容量，以确保在出现此类故障时的高可用性[1]。云系统可能具有巨大的故障率，因为它们具有许多地理上分散的高工作负载服务器。如果故障得不到有效处理，此类系统的可用性可能会很快受到威胁[1]。为了保证云用户的服务可用性，云基础架构的设计应确保系统停机时间最小或无意义。数据复制和检查点技术是用于确保云服务可用性的一些常见的现有策略[2]。故障预测对于预测性维护是必要的，因为它能够防止故障事件和维护成本[38]。预测性维护是关于预测故障并采取主动行动[40]。机器学习和云存储的最新进展创造了利用云基础设施生成的大量数据为预测组件何时可能发生故障或故障提供了空间[3]。目前，数学和统计建模是用于故障预测的主要方法，这些方法分别基于设备退化、物理模型和机器学习技术[29]。根据[4]，云计算通常与失败有关。失败的风险可以被看作是在云计算生命周期中遭受损失或暴露的可能性[33]-[36]。一般来说，B. Mohammed et al. /Electronic Notes in Theoretical Computer Science 340（2018）4143云计算风险管理包括用于降低云计算失败风险的流程、方法和技术云计算提供了三个层次的基本服务：基础设施即服务（IaaS）、平台即服务（PaaS）和软件即服务（SaaS）。• 基础设施即服务（IaaS）是最基本和最重要的云服务模式，提供虚拟机、负载均衡、容错、防火墙和网络服务。向客户端或云用户提供供应处理、存储、网络和其他基础计算资源以部署和运行任意软件（诸如操作系统和应用）的能力。这些服务的常见示例包括Rackspace、GoGrid、EC2、Google Apps、Accuur、CiscoWebex、Citrix GoTo Meetings、Adobe Marketing Cloud、Facebook、Flickr和Amazon Cloud [8]。• 在PaaS模式下，提供包括API、操作系统及开发环境的计算平台，以及编程语言执行环境及网络服务器。客户端维护应用程序，而云提供商维护服务运行时、数据库、服务器软件、集成的面向服务器的架构和存储网络。各种类型的PaaS供应商可以提供完整的应用程序托管，开发，测试和广泛的集成服务，包括可扩展性和维护。一些关键的参与者包括微软Windows Azure和谷歌应用程序引擎Go-Daddy，Windows Azure，Apprenda，谷歌应用程序引擎，亚马逊网络服务，WordPress。这些服务的主要好处包括专注于高价值的软件而不是基础设施，利用规模经济并提供可扩展的进入市场能力[39]。•SaaS为客户端提供了使用在云基础设施上执行的提供商应用程序的能力整个应用程序可远程使用，并可通过瘦客户端界面（如Web浏览器）从多个客户端设备访问。云用户不管理或控制底层云基础设施[2]，但提供商安装和操作应用软件。此服务的示例提供商包括Salesforce，Facebook和Google Apps，Amazon EC2，Rackspace ， Microsoft Azure ， Google Compute Engine 和 Amazon WebServices[9]-[11]。本研究的目的是开发一个准确的模型，用于预测未来的故障趋势的系统组件在一个高性能的数据中心云基础架构。本工作的主要贡献如下：• 探讨分析和预测公开失效数据集的意义。• 开发和测试分布式计算系统的时间序列模型故障预测，灵敏度和44B. Mohammed et al. /Electronic Notes in Theoretical Computer Science 340（2018）41• 以精确的定量方式估计所选故障数据集的可用性特征• 使用生产故障数据集测试和验证我们开发的模型的预测准确性。本文的其余部分组织如下：第2节简要总结了与本研究有关的工作第3节生动地描述了我们的方法，我们提出的系统模型制定和我们的数据集的简要概述。第4节讨论的结果，分析的系统故障分布在整个时间的研究和故障预测。第五部分是论文的最后总结。2相关工作故障对云数据中心基础设施、高性能计算和分布式服务器系统的可用性和可靠性的影响然而，很少有工作试图完全分析和预测高性能和云故障数据的经验特征。[12]中的作者已经很好地尝试分析由超过12，500台服务器组成的大规模生产云环境的故障数据，其中包括对云工作负载和服务器的故障和修复时间以及特征的研究，但他们从未分别考虑工作负载强度和系统大小之间的故障相关性。[13]中的作者从许多数据源描述了云计算中心的硬件可靠性，但未能分析工作负载的故障，并且在实验中没有使用公开的数据集。 Kavulya 等人 [14] 从生产MapReduce超级计算集群中呈现工作负载故障特征他们也没有在工作中使用公开可用的数据集。作者在[3]中使用贝叶斯网络来预测失效概率。虽然这项研究看起来很有趣，但他们没有透露他们使用的数据集，因此很难复制或比较其他机器学习（ML）算法与他们提出的模型。[15]使用集成分类器在云基础设施上实现硬盘驱动器故障预测。他们进行工作的数据是通过两个来源获得的：Windows性能计数和自我监控，以及分析和报告技术（S.M.A.R.T或SMART）。这项研究与预期的工作非常然而，他们在云架构中只考虑了硬盘故障，而业务系统依赖于其他组件（如CPU，磁盘，DIMM，电缆等），而不仅仅是硬盘。最近，[16]使用从循环中获取的数据来预测集成电路（IC）故障。与[15]的情况一样，他们也仅考虑了一次硬件故障。他们分析了14个硬件样本，但他们使用的数据尚未公开。我们的方法是使用公开的硬件数据集来获得机器学习（ML）分类器来预测硬件故障，与大多数状态相反，B. Mohammed et al. /Electronic Notes in Theoretical Computer Science 340（2018）4145∼艺术品。我们决定使用公共数据集，使该领域的其他研究人员能够将他们的结果与我们获得的结果进行比较。此外，在这项工作中，我们不限制我们的实验，以一个单一的硬件，而是我们试图预测几个组件故障。对于其他学者的其他文学作品的更全面的评论，读者可以参考[17]-[25]。3方法本节生动地描述了我们的方法。由于该研究的重点是大规模基于云的基础设施中系统故障频率的数据驱动建模。从根本上说，故障数据流通常是时间相关的，并且在给定的规则时间跨度上被记录。这种情况使得应用时间序列模型（如自回归（AR）和移动平均（MA））成为可能，参见分支[30]。对于初步分析和时间序列建模[31]，将部署R编程语言版本3.4.13.1时间序列我们将基于云的基础设施环境中的时间序列定义为在给定时间段内系统发生的故障数量。设X1，X2，X3，···，Xt是系统的故障次数，数学定义为：Xt=f（Xt−1，Xt−2，Xt−3，···，Xt−n）+εt（1）其中Xt是X在时间t的值，则Xt−1，Xt−2，Xt−3，···，Xt−n表示Xt的过去值，εt表示白噪声，其分布为εt<$WN（0，σ2）。εt是一个随机项，不遵循任何模式，无法预测。基本上，系统故障是随机的，但从某些可识别的原因来看，它很少是狭义上的确定性。几十年来，时间序列模型已被用于预测的所有研究领域[28]。自回归（AR），移动平均（MA）和指数平滑等Box和Jenkins[31]开发了一个经典的时间序列模型，称为自回归综合移动平均（ARIMA）。这些技术成功地应用于各种领域，如数据中心，复杂的工业系统和运输网络以及医疗保健，以预测其系统的故障[28]-[31]。3.1.1自回归过程假设时间序列{Xt}在时间t有p个过去值Xt−1，Xt−2，Xt−3，···，Xt−p，则p阶AR过程表示为AR（p），定义为：Xt=<$1Xt−1+<$2Xt−2+<$3Xt−3+···+<$pXt−p+εt，（2）其中εtWN（0，σ2）和εt对于每个 q是不相关的，例如，Xt和Xt−s。 M A（q）过程可以简写为Xt= φ（L）εt3.1.3自回归移动平均（ARMA）这个过程是AR和MA的混合，其中系统的故障模式可以归因于两个原因。ARMA模型是p阶和q阶AR和MA模型的组合。然后，ARMA（p，q）模型由下式给出：（L）Xt=φ（L）εt（4）3.2NERSC数据集收集NERSC数据[26]的目的是尽可能详细地提供I/O相关系统和组件的故障规范，以便分析可能产生一些有用的发现。收集的数据用于存储，网络，计算机器和文件系统，供NERSC从2001年至2006年的时间范围内生产使用这些数据是从一个数据库中提取的，用于跟踪系统故障，称为Remedy，目前存储在MySQL数据库中，可导出为Excel格式。作为SciDAC Petascale数据存储研究所（PDSI）项目合作的一部分，这是由环境和分子科学实验室（EMSL），分子科学计算设施（MSCF）[26]，[27]运行的高性能计算系统2（MPP2）的故障数据。MPP2计算系统具有以下设备和功能：• HP/Linux Itanium-2• 980节点/1960 Itanium-2处理器（Madison，1.5 GHz）配置如下：• 574个节点是• 366个节点是• 34个节点是Lustre服务器节点（32个OSS，2个MDS）• 2个节点为管理节点• 4个节点为登录节点B. Mohammed et al. /Electronic Notes in Theoretical Computer Science 340（2018）4147故障原因/故障输入2级预测输出失效组件（特定失效）模型预测预测失效模式）模型检测&验证• Quadrics QsNetII互连• 11.8 TFlops峰值理论性能• 9.7兆兆字节RAM• 450 TB的本地暂存磁盘空间• 53TB共享集群文件系统，Lustre3.3建议的系统模型1级3级Fig. 1. 建议的系统模型我们提出的系统模型包括三个不同的水平，如图1所示但是，本研究仅针对第一层和第二层。3级不在本工作范围内，因为未考虑故障源我们的故障预测模型由以下主要组成部分组成：• 识别模型辨识是时间序列模型建立的第一步，是在平稳性得到保证后进行的。借助于自相关函数（ACF）和偏自相关函数（PACF），我们可以根据相关图所示的模式和顺序来• 参数估计在确定合适的模型后，再用最小二乘法、最大似然估计和矩量法等常规方法进行参数估计。• 评价在这一阶段，要检查模型的准确性和有效性，即使假设所有模型都是错误的，但有些模型比其他模型更好。例如，考虑残差的性质，并检查是否实时数据模型辨识HPC基础架构（各种HPC群集980节点）收集的存储、联网计算机器数据培训分类模型处理&估计48B. Mohammed et al. /Electronic Notes in Theoretical Computer Science 340（2018）41ARMA的残差是正态分布或随机分布。• 预测于此阶段，已识别模式将用于预测未来。将仔细检查模型的估计残差，以遵循白噪声过程。4结果和讨论在本节中，我们将分析研究期间的系统故障分布模型公式和他们的属性，预测和评价。4.1初步分析于图2.利用直方图和叠加正态密度函数的方法给出了池化系统失效的频率。我们观察到，系统故障的频率是正态分布的。此外，我们使用Shapiro-Wilk检验在α = 5%显著性水平和p−值= 0下进行了正态性检验。02.必须拒绝零假设，并得出系统故障频率呈正态分布的结论。1.510.50050010001500故障部件200025003000图二. 失效数据4.2系统故障模型于图3、我们绘制了随时间变化的系统故障频率，以了解其发生的模式。系统故障的模式表明，它不是平稳的，因为序列的均值和方差随时间不断变化。10-3正态失效分布直方图频率B. Mohammed et al. /Electronic Notes in Theoretical Computer Science 340（2018）4149为了解决这个问题，我们需要部署一些数据转换技术，如对数转换，三角转换，区分方法，并讨论它们的性质。我们在图中给出了系统故障频率转换的曲线图。图4（a）-（d）分别使用微分、对数、余弦和正弦。在这种情况下，对数转换不合适，因为零记录的系统故障会导致一些不确定的结果。然而，三角变换余弦和正弦也不合适。这是由系统故障的模式，其中两个系列的均值和方差是相当不稳定的。在本研究中，我们选择了对数，余弦和正弦的差分方法。这是因为由差异所表现出的模式表明，系统故障序列的均值和方差是相当恒定的。图3.第三章。故障组件的时间序列图在表1中，我们总结了使用微分变换、对数变换和三角变换的系统故障序列变换的频率及其局限性。表1数据标准化对比表转换函数结果均值和方差是平稳的对数此变换在某些值上是不确定的余弦均值和方差不是平稳的正弦均值和方差不是平稳的4.3型号识别我们绘制了相关图，显示了系统故障序列的自相关函数（ACF）和部分自相关函数（PACF）（见图1）。5（a）-（b））。使用50B. Mohammed et al. /Electronic Notes in Theoretical Computer Science 340（2018）41图四、故障组件数据转换过程ACF相关图，我们能够识别一阶移动平均模型MA（1）。而一阶自回归模型AR（1）。两个模型的组合得到ARIMA（1，1，1）模型，其中中心的1是模型的离散次数。在达到平稳性之前，系统的故障频率是离散的。所有落在两条蓝色虚线内的自相关值在95%时表示不显著。而那些落在95%置信区间之外的值表明它们是显著的。4.3.1参数估计在确定了系统故障频率的ARIMA（1，1，1）模型之后，我们可以估计模型的参数。ARIMA（1，1，1）模型的数学表示为：yt=φyt−1+εt+1εt−1（5）式中，εt是在时间t发生的随机冲击，其分布为σWN（0，σ2）。我们估计了以下参数φ1= −0。1016和1= −0。5784，对数似然=-178.3，AIC = 362.61，模型的关联标准差分别为0.2531和0.2085因此，我们编写B. Mohammed et al. /Electronic Notes in Theoretical Computer Science 340（2018）4151图五. ACF和PACF图系统故障频率的ARIMA（1，1，1）模型，yt= − 0。1016 t−1 + εt− 0。小行星5784εt−1（6）其中，εt∈WN（0，1. 534）。我们目前在图。6、分析了ARIMA（1，1，1）模型的预测能力，并对模型的精度进行了评价。通过对模型的评价，我们能够获得以下指标：RMSE = 38.6%，MAE = 31.6%和MASE = 23.5%。这表明该模型非常稳健，因为其误差容限小于40%。见图6。该图显示了两个区域，第一个是系统故障频率的模式，而二是失效序列的预测域52B. Mohammed et al. /Electronic Notes in Theoretical Computer Science 340（2018）415结论在这项研究中，时间序列模型预测故障已被检查，并对结果进行了讨论。本文研究了分析和预测部件故障的重要性，这项研究的目的是开发一个适当的模型来预测高性能数据中心云基础设施中组件的未来故障趋势。ARIMA（1，1，1）可以很好地拟合数据。趋势分析表明，磁盘故障率正以较快的速度增长。因此，应该更多地关注和关注基础架构的磁盘组件。该模型也证明了该模型是足够的预测每月组件的故障率。此外，发现该模型具有95%的准确度，因此适用于研究。在未来，我们将进一步研究像Google集群这样的大型实时公开数据集，通过应用不同的机器学习方法并进行比较，使我们能够改进并获得更准确的预测。确认作者感谢匿名评论者。他们的宝贵意见和建议使本文的表述方式得到了很大的改进。作者之一Bashir Mohammed是石油技术发展基金（PTDF）学者。我们衷心感谢PTDF的资助。引用[1] R.戈什湖Francesco，F. Frattini，S. Russo和S. T. Kishor，IaaS云可用性的可扩展分析，IEEE Trans.云计算，第二卷。号21，pp.5770，2014年。[2] T. Chalermarrewong，T. Achalakul和S. C. W.故障管理框架的设计forCloud，2012第九届国际Conf.电动Eng. Comput. 你好INF. Technol. ，页。2012年14日[3] A. Abu-Samah，M.K. 沙赫扎德Zamai和A.Ben Said，使用贝叶斯方法改进主动维护的故障预测方法第48卷，第21期，第120页。844851，2015年。[4] A. Elzamly，B. Hussin，A. Samad，H. Basari和C.技术，银行组织关键云计算安全问题的分类：云Delphi研究，Int. J. Grid Distrib。计算：卷号9第8页。137158，2016.[5] C. Modi，D.帕特尔湾Borisaniya，A. Patel和M. Rajarajan，关于安全问题和解决方案的调查在云计算的不同层，J.超级计算机，卷63号不行第2页。561592，2013年。[6] D. Gnanavelu和D. G. Gunasekaran，云计算安全问题和解决方案调查，Int. J. Comput. 趋势技术，卷号8 第8页。126130，2014.[7] B. Wang，Y.郑，W. Lou和Y. T.云计算时代的DDoS攻击防护软件定义的网络（Software-DefinedNetworking， COMPUT）《网络》，第一卷。《明史》，第81页。308319，2015.[8] Z. Pantic和M. Babar，构建私有云基础设施的指导方针，ITU Tech.报告- TR-2012- 153和TR-2012-153，2012年。[9] O. Sefraoui，M.Aissaoui和M.Eleuldj，云计算迁移和IT资源合理化，2014年国际Conf. 多次。Comput.系统：pp. 11641168年4月2014年。[10] A. Sen和S. Madria，O-云服务提供商的在线风险评估，2014 IEEE World Congr. Serv.，pp. 5865年6月2014年。B. Mohammed et al. /Electronic Notes in Theoretical Computer Science 340（2018）4153[11] S. Yadav，云计算平台开源软件的比较研究：Eucalyptus，Openstack和Opennebula，Res.因文Int. J. Eng.Sci. 第三卷，第10期，第二卷。号310，pp.5154，2013.[12] P. Garraghan，P. Townend和J. Xu，大规模云计算环境的经验故障分析，Proc. - 2014 IEEE第15届国际研讨会。High-Assurance System Eng. HASE 2014，pp. 113120, 2014.[13] K. V. Vishwanath和N. Nagappan，Characterizing Cloud Computing Hardware Reliability，Proc. 1stACM Symp.云计算- SoCC 10，p.193，2010年。[14] S. Kavulya，J. Tany，R. Gandhi和P. Narasimhan，对生产MapReduce集群的跟踪分析，CCGrid 2010 -10 th IEEE/ACM Int.Conf. 克鲁斯特云计算、网格计算、pp. 94103，2010年。[15] A. 汗湾Bussone，J.Richards和A.Miguel，云平台中硬盘故障预测的实用方法105116[16] G. H. Thomas Gentner，Klau p. Gungl，专利US 9319030-使用时钟占空比记录和集成电路故障预测，2016年。[17] S.盖可可，邱美康，使用监督学习进行金融大数据中基于云的网络风险管理的安全意识信息分类，2016IEEE国际会议智能数据和安全，2016年，pp。197202.[18] L. Zhang，K.拉奥河，巴西-地Wang和Y.贾，基于改进AdaBoost方法的云用户风险预测模型，OpenCybern.系统Journal，2015，vol.第9页。4449，2015年。[19] D. Pop，机器学习和云计算：分布式和SaaS解决方案调查，Inst. e-Austria Timisoara，Tech。报告1，2012年。[20] S. Bsch，V. Nissen，and A. Wnscher，使用机器学习技术进行信息生命周期管理的数据仓库数据的自动分类，Inf.系统前面，2016年。的[21] D. 福尔， T 。 Okuda ， Y. Kadobayashi 和 S. Yamaguchi ， Risk Adaptive Authorization Mechanism（RAdAM）for Cloud Computing，J.INF. 过程.，卷24，不。第2页。371380，2016年。[22] C. Guo，Y. Liu和M.黄，云环境下基于机器学习的专家系统证据获取模型，J。互联网技术，卷号167，pp.13391349，2015.[23] Z.阿明河，加-地Sethi和H. Singh，云计算中的容错技术综述，Int. J. Comput. 应用程序、卷116号不行18，pp.1117年，2015年。[24] A. Pellegrini，P. Di Sanzo，and D. R. Avresky，高度异构多云网络结构的主动云管理，2016年IEEE国际并行和分布式处理研讨会研讨会（IPDPSW），2016年，第100页。13111318[25] B. Mohammed，M.基兰岛联合Awan和K. M. Maiyama，云计算环境中容错的集成虚拟化策略，2016 IntlIEEE Conf. Ubiquitous Intell。Comput.高级信任Comput.可扩展计算Commun.云计算大数据互联网人，智能世界大会，pp. 542549，2016.[26] B. Schroeder和G.计算机故障数据库（CFDR ），Reliab 。Anal.系统失败。数据，不。^March ，p.2007年6月[27] B. Schroeder和G. Gibson，The Computer Failure Data Repository（CFDR）：Collecting，Sharing andAnalyzing Failure Data，SC 06 Proc.2006 ACM/IEEE Conf.超级计算机，号^March，p.154，2006年[28] T. Chalermarrewong，T. Achalakul和S. C. W.参见，Failure Prediction of Data Centers Using Time Seriesand Fault Tree Analysis，2012 IEEE 18th Int.Conf. 平行分布系统：pp. 794799，2012年。[29] Q. Fan和H.范，工程机械可靠性分析与故障预测的时间序列模型，J。Adv. 经理。科学，卷号3第3页。203210，2015.[30] Y.周，基于时间序列模型的故障趋势分析，2017第29届中国控制与决策大会，号1，pp.859862，2017年。[31] S.何， M。Xie和 T. Goh，神经网络和 Box-Jenkins ARIMA 建模的比较研究在时间序列预测中，COMPUT。印第安纳工程师、卷42号不行24，pp.371375，2002年。[32] P. Mell，T. Grance和T. Grance，国家标准与技术研究所云计算建议的NIST定义，Natl。仪器标准技术规范出版物800-145 7页，2011年。[33] Y. Jararweh，Z.阿尔沙拉湾Jarrah，M. Kharbutli和M. N. Alsaleh，TeachCloud：一个云计算教育工具包，没有。2012年，第页116.54B. Mohammed et al. /Electronic Notes in Theoretical Computer Science 340（2018）41[34] R. Jhawar，V. Piuri，and I. Universit，Fault tolerance management in IaaS clouds，2012 IEEE FirstAESS Eur.Conf. 卫星你好，pp. 2012年16日[35] 巴拉阿查纳岛云计算中的容错挑战、技术与实现。International Journal of Computer Science 2012; 9（1）：288293.[36] S. Shen，中国古猿A. Iosup，A. Israel，W. Cirne，D. Raz和D. Epema，按需可用性机制2015年第15届IEEE/ACM Int.Symp. 克鲁斯特云网格计算，pp. 495504，2015.[37] B. Mohammed和M. Kiran，使用开源解决方案分析云测试床，2015年第3届国际Conf. 未来互联网云，pp。195203年，2015年。[38] D.孙，G.昌角，澳-地Miao和X.云计算环境下动态自适应容错策略的分析、建模和评估，J。超级计算机，卷66号不行1，pp.193228，2013年。[39] B. Mohammed，M. Kiran，K. M. Maiyama，M. M. 卡玛拉和我。-联合 Awan，战略用于云计算环境中的容错。软件：实践与经验（2017年）。doi：10.1002/spe.2491[40] V. S. Kushwah，S. K. Goyal和P.Narwariya，关于各种容错方法的调查，负载平衡期间的云环境，Int. J.Appl. Res. Inf. Technol. Comput.，第3卷，第3期，第385394，2014年。

下载后可阅读完整内容，剩余1页未读，立即下载