云计算资源分配模型：基于IMARM的多智能体系统与强化学习方法

89 浏览量更新于2024-01-17 收藏 1.73MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

沙特国王大学学报云计算Ali Belgacema，Mr. Saha，Saïd Mahmoudib，Maria Kihlca比利时蒙斯大学c瑞典隆德隆德大学阿提奇莱因福奥文章历史记录：2021年12月15日收到2022年2月11日修订2022年3月13日接受2022年4月2日在线发布保留字：云计算资源分配多智能体系统Q-learning能耗容错负载平衡A B S T R A C T由于云计算消费者的增长和满足现代技术的计算需求，优化云计算中的资源分配变得比以往任何时候都更加重要。云基础架构通常由异构服务器组成，托管具有潜在不同规格的多个虚拟机，以及不稳定的资源使用。这使得资源分配面临许多问题，如节能，容错，工作负载平衡等，找到一个考虑所有这些问题的解决方案是云服务提供商的基本关注点之一本文提出了一种基于智能多Agent系统和强化学习方法（IMARM）的资源分配模型。它结合了多Agent的特性和Q学习过程，提高了云资源分配的性能。IMARM使用多代理系统的属性来动态分配和释放资源，从而很好地响应不断变化的消费者需求。同时，强化学习策略使虚拟机根据当前状态环境向最佳状态移动。此外，我们还研究了IMARM对执行时间的影响。实验结果表明，该算法在能耗和容错方面优于其他同类算法，具有合理的负载均衡和合理的执行时间。©2022作者（S）。由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍云计算是允许远程访问计算资源的信息技术（IT）的发展。它允许协作地共享多台计算机的资源（Velte等人，2010年）。这些资源可以根据工作负载动态配置，从而允许资源的最佳使用以及它们作为服务提供给外部客户（Buyya等人，2010年）。利用云服务来提高企业的竞争力已经成为世界范围内的一个突出趋势。通过云计算，个人和组织可以获得*通讯作者。电子邮件地址： a. univ-boumerdes.dz （ A.Belgacem ）， Said.MAH-MOUDI@umons.ac.be（S. Mahmoudi），maria. eit.lth.se（M. Kihl）。沙特国王大学负责同行审查对托管和可扩展IT资源（如服务器、存储和应用程序）共享池的按需网络访问（Sunyaev，2020）。此外，在2020年，人们对云的兴趣有所增加，因为它被用来预测未来的增长和趋势。COVID-19大流行（Tuli等人，2020年）。出于这个原因，不仅互联网服务需要云，整个IT部门也需要云（Dikaiakos等人，2009; Belgacem等人， 2020年）。云计算具有分布式架构;可用资源可以位于不同的物理机器上。进程分布在多个服务器上，更一般地，分布在多个虚拟机（VM）上。后者以不同的配置布置，其中每组在单个物理机器（PM）上运行（Velte等人，2010; Belgacem和Beghdad-Bey，2021; Belgacem等人， 2018年）。对此负责的底层技术它包括一组促进数据中心基础设施管理的技术和工具。该技术允许在几秒钟内完成虚拟机的配置、迁移和整合。它节省了时间，并使服务为客户提供活力，这使得服务水平协议和服务质量（QoS）规范的实现更加复杂。https://doi.org/10.1016/j.jksuci.2022.03.0161319-1578/©2022作者。由爱思唯尔公司出版代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。制作和主办：Elsevier可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页：www.sciencedirect.comA. Belgacem、Saïd Mahmoudi和M.基尔沙特国王大学学报2392可能因此，提高云资源分配性能是一个重要的研究领域。基于优化的代理是广泛用于许多学科的关键技术，例如人工智能和主流计算机科学（ Bellifemine 等人， 2007; Wooldridge 和Jennings，1995; De la Prieta等人， 2019年）。Agent的基本特征之一是能够与用户和系统资源进行通信，从而形成多Agent系统（MAS）。MAS是提高分布式系统性能的有力工具。它适用于资源管理策略的建模和设计。因此，基于优化的代理由于其分布式和虚拟性而适合于分配云资源（De la Prieta等人， 2019年）。特别是因为云中的资源分配受到许多因素的影响。问题（Mishra等人，2020年）。强化学习改进方法也是解决预测问题所必需的。通常，它们用于从数据创建系统模型。这些模型应该比训练期间观察到的数据更多（Sutton和Barto，2018）。在这个方向上，Q学习是一种强化学习模型，它学习值在特定状态下的动作。使用Q-learning方法的最大优势是其灵活性和适应不同云环境变化的能力。它是一个人工智能领域，允许代理在环境中智能地行动，以最大限度地提高累积奖励的概念。因此，强化学习是一种行之有效的解决方法关于动态资源分配的问题。云计算环境中的资源分配正暴露出许多问题（Mishra等人，2020;Hasan和Goraya，2018; Hameed等人，2016年）。由于工作负载可变，资源分配不当可能会使某些虚拟机过载，而其他虚拟机无法获得请求的负载。知道云中的负载平衡可能在物理主机之间或虚拟机。相应地，容错要求设计方法，允许系统在一种简化的方式，而不是当其一个组件不再正常工作时完全失效。云计算中最迫切的问题之一是提供可靠的服务（Hasan和Goraya，2018）。同样，云资源消费者的数量每年都在增长，这使得能耗问题成为IT和行业中最热门的研究趋势之一（Hameed等人，2016年; Kaur和Chana，2015年）。此外，大数据中心的出现将增加电力需求，从而影响云运营预算。另一方面，虚拟机迁移机制可以促进硬件维护、负载平衡和灾难恢复。此外，平衡方法应该在所有节点（主机或虚拟机）之间均等地分配动态工作负载（Mishra等人，2020年）。除此之外，虚拟机必须随着负载的变化而动态地重新配置和修改，以最佳地利用资源。传统的资源分配方法不考虑云的自动化和分布式性质，导致高实施复杂性，而无法实现最佳解决方案。据我们所知，在执行任务之前，没有实用的方法来提供能源消耗估计此外，在云中执行许多请求将需要比普通系统更高程度的错误和故障此外，云计算需要根据工作负载的增加和减少自动调整VM状态，从而平衡系统负载。这就是为什么优化资源分配，同时考虑能耗，容错和负载平衡是云提供商的梦想。在文献中，这些问题中的每一个都通过忽略一个对其他问题的影响来单独优化。这促使我们思考一个解决方案，同时考虑到这三个问题，资源配置与此同时换句话说，这项研究的关键贡献如下：提出了一个数学公式的容错，能源消耗，负载平衡，和执行时间。提出了一种基于Q-Learning的多Agent模型，在考虑容错、能耗和负载均衡的情况下优化云中的资源分配。此外，我们还研究了IMARM对执行时间的影响。本文的其余部分组织如下。第二节介绍相关工作。第3节给出了所研究问题的数学公式。第4节解释了我们提出的解决方案。第五部分通过仿真实验评价了其有效性。第6节讨论了我们工作的优点和局限性。最后，第7节结束了本文。2. 相关作品云计算基础设施的资源在其客户之间实时共享。这给云服务提供商带来了关于容错、能耗和负载平衡的严重问题。事实上，这些资源分配问题在文献中得到广泛讨论。然而，每一个现存的研究只解决了一个或两个问题，忽略了它对其他问题的影响（Belgacem，2022）。Tamilvizhi和Parvathavarthini，2019年）中提供的工作描述了一种高效的云架构，可以容忍故障，同时降低能耗和工作负载开销。然而，评估实验并没有针对大量的消费者进行。在（Sharma等人，2019年），作者使用了故障感知的VM整合机制（FCM）来节省易发生故障的云计算环境中的能源。在（Marahatta等人， 2019年），他们提出了一种解决方案，通过容错机制协调资源利用和能耗的优化。该机制最大限度地降低了机器故障和延迟引起的任务拒绝率然而，任务的互补特征需要进一步研究此外，为了减少能量消耗和由此产生的SLA违反，在（Mustafa等人，2018年）。但是，该解决方案没有考虑容错或负载平衡。在（Adhikari和Amgoth，2018）中，作者结合了服务器配置和任务-VM映射来改善IaaS云中的负载平衡然而，这项工作需要考虑其他性能参数，如虚拟机使用成本，截止日期等。另一方面，万源等人（Wang等人，2016）介绍了一种基于分散式多代理（MA）的VM分配方法。该方法旨在将VM分配给PM，同时最小化系统能量成本。该方法允许向每个PM分派合作代理以协助PM管理资源。然而，该解决方案在使用可扩展的VM资源时没有为消费者提供足够的质量。在（Bajo et al.，2016），称为低水平资源分配。考虑到其复杂性和相关的计算成本，它允许在整个云计算基础设施中分布计算资源。这种对系统的监视和控制使得集成虚拟化提供的新功能成为可能。然而，这项工作需要扩展，以解决新的目标，并包括其他基础设施参数。为了有效地利用资源并最小化带宽成本，（Gao）的研究人员例如，2020）提出了一种分层多智能体优化（HMAO）算法。该算法在解的质量、收敛时间和鲁棒性等●●A. Belgacem、Saïd Mahmoudi和M.基尔沙特国王大学学报2393≤≤≤≤随着任务数量的增加。此外，在（Singh等人，2017年），提出了一种新的机制，部署各种智能代理，以降低虚拟机的成本和资源分配的复杂性。然而，该技术的有效性还需要更多的实验结果来证明。在论文（Gutierrez-Garcia和Ramirez-Nafarrate，2015）中，使用不同的代理来平衡异构服务器之间的工作负载。该机制能够平衡负载，分布式和可扩展的方式。然而，在大量服务器的情况下，算法变得复杂。在（Kemchi et al.，2018年）。该模型在处理提交的客户请求时考虑了几个标准。然而，这种解决方案仍然需要改进以适应资源的分配。作者在（Singh等人，2015）提出了一种基于自治代理的负载均衡算法（AALB），该算法根据阈值动态地执行虚拟机的主动负载计算。然而，这些实验并没有显示出任何有效的结果。在（Jena等人，2020年），作者混合粒子群优化和改进的Q-学习算法，形成一个新的方法命名为QMPSO。所提出的解决方案允许根据VM的状态从可能的VM动作的集合中找到合适的动作，同时实现系统负载平衡。为了克服服务质量差的问题，Jyoti和Shrimali（2020）的作者提出了一种新方法，该方法基于负载平衡和服务代理来提供动态资源配置。本文采用深度增强技术对环境云活动进行预测和资源配置。但是，这篇文章没有讨论容错问题。另一项研究在（Xu et al.，2020）提出了一种基于机器学习的VM放置策略。它在负载平衡方面表现出了公认的改进。在（Chinnathambi等人，2019），作者试图使用检查点机制优化容错。它的有效性主要是评估拜占庭错误。该模型的性能优于其他算法，适合于实时应用。为了使能量消耗最小化，（Kurdi等人， 2018）提出了一种名为LACE的算法。它是基于蝗虫行为阶段变化的模拟。LACE允许工作负载分布在服务器之间，而不是集中在单个组件中。在（Kong等人，2020）考虑了结束时间和最早结束时间，以实现具有负载平衡的高效调度然而，这项工作没有考虑数据中心和虚拟机迁移的能耗。在（Devaraj等人，2020年），作者专注于负载平衡。该算法综合了两种技术的优点，以最小化搜索空间，并分别识别改进的响应。然而，该算法仍然需要改进以用于资源分配。在（Singhal和Singhal，2021）中，作者提出了一种拍卖资源分配模型，该模型可以促进真正的供应商提供良好的反馈，阻止市场破坏并促进系统的公平性。然而，该研究没有解决能耗问题，也没有对不同的虚拟机器设置进行评估。Thein等人（Thein等人，2020）提出了一种基于强化学习机制和模糊逻辑的解决方案，以实现数据中心的高能效。这种解决方案对于大量资源不是有效的，并且不适用于实时分配。Liang等人（Liang等人，2019）提出了一种基于半马尔可夫决策过程和强化学习的云资源自适应分配模型。评价结果表明，这一方法仍需改进，以有效分配资源。在（Praveenchendar和Tamilarasi，2021）中，作者使用了预测-动态资源表更新算法，以最小化能量消耗。在（Pradhan和Bisoy，2020）中，他们给出了一种启发式的云负载平衡方法。类似地，Karthiban et al.（Karthiban和Raj，2020）提出了一种基于深度强化学习模型（DRLM）的资源然而，这些工作并没有解决容错问题。3. 数学公式云提供商通过浏览器接收并响应客户请求。这些请求反映了消费者资源需求。不断增长的云消费者可能会因冷却系统、容错机制等原因导致能耗增加。还必须缩短实施时间以确保服务质量。此外，跨虚拟机的工作负载分布应该是平衡的.此外，在资源分配期间分配和启动虚拟机可能会导致它们失败。因此，在这种环境下管理资源。本文研究的云计算环境如图1所示。本研究中使用的主要符号总结见表1。3.1. 应用模型我们在这项工作中安排了一个任务袋（BoT）应用程序。BoT应用广泛用于科学和工程学科以及商业组织，例如Facebook（Thai et al.，2018年）。BoT应用程序由一组并行任务T = {T i|其中每个任务由标识符（id）和长度（lg）表征。在VM = {VM j}的集合上执行任务|1 ≤VM j≤n}，其中每个任务由标识符（id vm）表征，CPU资源的速度由参数每秒多指令（mips）及其带宽BW表示。 VM被放置在一组主机H={Hk|1HKs}，其中n、m和s是任务、VM分别为。3.2. 容错模型实现容错技术可以在不同级别的云服务中执行（Hasan和Goraya，2018）。一些技术用于针对特定类型的故障，其他技术用于检测和纠正故障等。简单地说，容错（#）是系统控制状态以处理不同故障的能力。中断（故障、错误、失败）发生之前。在这项研究中，我们感兴趣的抢占式容错。为此，我们需要通过资源分配操作来预测故障，因此采用了检查点机制（图1）。 2）的情况。检查点机制允许系统定期保存任务执行状态。在任何失败的情况下，任务将从上次保存的状态重新启动，而不是从头开始重新启动任务。在一定数量的执行时间单位（量程时间D）（Belgacem等人， 2020年）。在周期D期间，长度为C被占用了这导致了确定检查点在哪个执行任务情况下被阻塞或不被阻塞的挑战。换句也就是说，在资源分配过程中，需要使用适当的体系结构来存储检查点数据。为此，定义了一个减速因子O来测量在中断检查点抖动的情况下丢失的时间单位。因此，由于以下原因而浪费的工作单元检查点抖动的扰动表示为（1-OC）C已知0≤0≤ 1。O= 0对应于完全阻塞检查点，而O= 1对应于与计算重叠的检查点。A. Belgacem、Saïd Mahmoudi和M.基尔沙特国王大学学报2394ﬃﬃﬃﬃﬃﬃﬃﬃﬃ¼，h表1符号.Fig. 1. 问题描述。公式D=p2Cm+C（Young，197 4）。在本文的其余部分，我们假设#反映了失败次数F。3.3. 能耗模型在这项研究中，我们考虑了资源分配过程中不同虚拟机状态下的能耗静态能量（hs）：这是运行云系统时的基本能耗。更准确地说，它对应于VM内部没有任务运行时所消耗的能量，即CPU空闲时的能量（Belgacem et al.， 2020年）。资源池中的每个VM具有能量简档信息，诸如最小和最大操作功耗。处理能量（hp）：这是与在VM上执行工作负载的情况相对应的能量消耗，除了静态功率之外（Herault和Robert，2015）。图二.检查点机制步骤。HShp¼hsXC系列 D2-C2-XC2Þ ð1Þ2016年12月24日失败次数F是F的期望值，已知m是● 迁移能（hm）：迁移能力取决于M平均故障间隔时间（MTBF）（Herault和Robert，2015）。虚拟机cpu（mips）、网络带宽（BW）和迁移时间注意，对于d中MTBF = m的n个相同资源，1/4MTB F. In（CM）. 因此，如果平均耗散功率表示为hr，米因德迁移持续时间为CMIPS由下式给出：如果发生故障，则发生长度为CD的停机时间，然后恢复长度为CR。任务从失败前的最后一个检查点重新执行（回滚）。注意到，周期D，重新执行的工作越少，但由于无故障执行中频繁的检查点，开销也越大（Herault和Robert，2015）。因此，最佳折衷是根据以下公式实现的：MBWmhm¼hrωCM2停机时间能量（hd）：这是一台机器停机时消耗的功率。●●符号意义符号意义#容错D量子时间H能耗C检查点时间长度u执行时间MTBF平均故障R负载平衡O减速因数F失败的次数RB负载平衡阈值MMTBF值W目标函数●A. Belgacem、Saïd Mahmoudi和M.基尔沙特国王大学学报2395XPXXX2¼j<$0j是负载均衡JBJ所提到的限制表达了以下含义：●检查点能量（hc）：这是检查点所消耗的能量。u失败D公司简介ð8Þ● 失败能量（hf）：这是由于重新执行而损失的能量根据（Herault和Robert，2015）;hf计算为每个任务Ti被分配给一个VMj，并且以周期uij执行。如下所示：D2-2C新国际报lgi¼mipsj因此，任务的总执行时间取决于ð9Þ、hf¼2Dωhp3乌巴斯虚拟机设置、任务长度和因失败而损失的时间根据以上所述，如等式（4）中所示计算总VM能耗。因此，云环境消耗的总能量（hE）是所有hVM的总和（等式（4a））。hVM<$hchphmhdhf4nhE¼hVMj4aj¼03.4. 负载均衡模型在这项研究中，我们感兴趣的是在数据中心选择一个最佳的主机为此，采用VM迁移来平衡云系统。选择一个合适的主机是受一些规则。规则是根据系统的状态定义的。在时间量（D）期间周期性地控制VMj（rj）的权重这样的话，如果一个病毒-虚拟机器可以处理多个任务，这是防止得到超负荷因此，控制器将为每次分配将任务分配给最强大的VM。等式（5）示出了VM权重表达式，已知lg是指 Pn RBn（等式（10））。MuEuij ubas1/43.6.目标函数该研究旨在最小化能耗并提供容错，同时保持云系统负载平衡，如等式（11）所示。W¼MinhE11S.TD¼ Dω11RJ ≤rB 对于每个VMj11b，n8j2f1; 2;·· ·;ng;VMj≤ 1 11 cj¼0制度的因素P8>如果rj0 V Mj关断mipsifrrVMisloadedBjjj● 约束11a意味着我们选择一个最佳检查点rj¼lg<如果rj >rBVMj已加载>：如果r/rVM是平衡的ð5Þinterval.约束11b意味着每个VM的负载必须是劣负载或者等于云系统的负载均衡阈值。在每一个时期，系统都保持一个状态记录，每个虚拟机（繁忙、理想、故障）。如果一个任务到达分配，它被发送到理想的虚拟机。在VM故障的情况下，任务被迁移到另一个就绪的VM。平衡状态下的系统能量消耗（hB）如公式（6）所示计算。nhB¼rjωhpj6j¼03.5.执行时间模型资源分配时首先考虑的是无故障检查点周期它是无故障执行（ubas）期间的周期性检查点间隔在每个D周期中，系统在检查点进程上花费OC的时间，计算如下：乌巴斯粤ICP备17077777号-1对于每个故障，损失的时间根据停机时间CD和恢复时间CR表示。在D期间，当我们没有检查点时发生故障的概率被假设为D-2X。在检查点过程中发生丢失的可能性是D-X（Hasan和Goraya，2018）。由此，故障时间如等式（8）所示地表示。一台服务器。4. 建议的多智能体强化模型所提出的智能多代理强化模型（IMARM）由不同类型的代理构成，如图3所示。一组代理被命名为感测代理= {ECCA，FDA，LCA}。这些代理是一组自治的交互实体，它们使用传感器收集有关云环境的信息。此外，存在一组名为VM agents = {VMA1，VMA2，. . ，VMAm}。这些代理根据来自传感代理的报告做出反应。拟议的系统依赖于一个中央组织。因此，系统由与消费者代理（CA）一起工作的中央资源分配代理（RAA）4.1. 传感剂（环境）自主感知代理与VM代理交互，提供有关云环境的数据，使系统智能化。传感器代理提供对消费者需求的实时跟踪和对VM的监控，以提高服务质量。这些代理通过消息与RAA通信。能源消耗控制器代理（ECCA）：该代理考虑上述五种不同的能源消耗状态。换句话说，它们探测到不同的能量●在VMj上运行的任务（长度），以及r●● 约束11c意味着每个虚拟机只能在A. Belgacem、Saïd Mahmoudi和M.基尔沙特国王大学学报2396><2B@..CA关闭，反之亦然）。该方法将需要一个奖励矩阵，并将输出一个数量矩阵。图三. 建议的多代理系统行为的序列图。环境的消耗值，并将这些值存储在注册表中。容错检测代理（FDA）：该代理定期收集故障、停机时间和恢复时间。负载平衡代理（LCA）：如前所述，虚拟机被分配到各种主机，而任务被提交到分散的不同虚拟机。LCA用于收集关于虚拟机负载的精确状态信息。其结果是，它测量VM权重（r）和系统的负载平衡因子，从而推导出能量消耗的负载平衡（hB）。这类代理人给出了一个全球性的措施，环境E=（uE，hB，#，rB），在每个D时间。全球措施可以根据以下矩阵计算0Bu1;1h1;2#1;3 r1;m1C¼....ðÞlation给出。该公式是马尔可夫决策过程的推广。它包括元组。● Cr是n个VMA的集合;● S是每个VMA的可能状态的集合;● A表示每个VM的可能动作的集合;● PR 是转换到状态S的概率函数，（Pr：S×A2[0， 1]）;● r是每个转换的奖励函数。基于上面的定义，元组中的主要项目将如下所示：VMA状态空间：在某个时刻，VMA在环境中的位置和/或取向是：就绪、关闭、故障、过载、平衡。VMA动作空间：每个VMA基于能耗、容错和负载平衡采取动作我们指定u2; 1HEB2;2#2;2r2;m C操作停机、迁移、回滚和切换（从就绪12n;1hn;2#n;m rn;m这里，矩阵的每一行表示由VMA发送到感测代理和#2[0，1]的值。4.2. 服务提供商代理VMA（虚拟机代理）的作用是控制VM，奖励：在每个量子时间，VMA接收一个指示，从RAA代理获取环境的当前状态后VMA选择一个行动来改变环境的状态我是说。在每个状态转换中，VMA都会收到一个奖励（图1）。 4）.奖励功能：. 这项研究的目的是尽量减少故障和能源消耗的数量，同时保持负载平衡。因此，奖励函数应定义为：8>x1if#j<$0;randomx1;x22½0;1]使它们自主并对各种环境做出变化为此，采用Q-学习方法来增强VM的行为。Q-Learning是一种强化学习方法，可以根据环境要求和变化优化资源分配。VMA使用通过先前类别的代理获得的数据来改善负载平衡和具有容错能力的能耗在骗局中1小时j*2小时j1if#j¼1失败r1/4- 1不可能跃迁0保持相同状态>：1，如果rj>rB且#j 1/40ð13Þ多代理系统，每个VM被视为一个代理，通过与环境交互来确定其最佳计算卸载策略感知代理观察VMsi S的本地环境状态，然后RAA为每个VM决定正确的动作。对于Q-学习方法，一个随机公式，Q学习方法旨在学习一种策略，总的奖励。Q学习过程将有两个主要阶段：Q-table创建阶段：首先，构建Q学习表（矩阵），其中列和行数对应于●●..A. Belgacem、Saïd Mahmoudi和M.基尔沙特国王大学学报2397一≤≤←←见图4。VM状态的不同变化。动作和状态的数量每个状态-动作组合表示从该状态采取的动作的质量值Q值初始化为零;它将在每次训练后更新和存储Q学习表被认为是根据Q值选择最佳动作的参考。Q学习和更新阶段：。VMA代理使用以下两种方式之一与云环境进行交互。第一种方式是利用，它使用Q表作为参考，根据给定状态的所有可能动作的最大值来选择动作。第二种方式称为探索，它采取行动随机行动。这使代理可以探索和发现新的状态，否则在利用过程中可能不会被选择此外，通过确定探索与开发的价值，可以平衡探索/开发。简而言之，Q学习让VMA代理使用环境奖励来学习针对给定状态决定的最佳动作有必要参考Q表来选择一个应该使回报最大化的行动序列。更准确地说，转换到状态（si+ 1），并执行一个动作（ai+ 1），同时获得一个奖励（ri+1）。使用 Sutton 和 Barto （ 1998 ）（ Sutton 和 Barto ， 2011 ）和Kaelbling等人（Kaelbling等人， 1996）（Kaelbling等人， 1996年）：Qs;a←Qs;a arcma x0Q.s0;a0-Qs;a14这里，s在每次迭代中，根据等式（14）调整Q值。这里使用了两个操作符第一个算子是学习率（a），它随着收敛而逐渐减小（0 rB且0j = 0 rB且0 j = 0）。11：r1.12：情况3：（不可能的过渡）。13：r1.14：情况4：（a =15：r0.16：结束开关。图17：Q表（s，a第18章：一夜情抽象（Wooldridge和Jennings，1995）。实验在Intel（R）Core（TM）i5 3320 M处理器2.6 GHz，配备4 GB RAM，Windows 7平台，使用Eclipse IDELuna release 4.4.0。5.2. 性能度量三个系列的实验进行了评估的性能，我们提出的智能多智能体模型。将IMARM与故障感知VM整合机制（FCM）、工作中提出的QMPSO 和 DRLM 算法（ Sharma 等人， 2019; Jena 等人， 2020;Karthiban和Raj，2020）。选择FCM是因为它通过考虑物理资源的故障特征和使用VM整合机制可以显着改善能量消耗。QMPSO允许在负载平衡期间有效地执行时间。而DRLM算法允许突出MAS和Q-学习强化方法相结合的有效性。因此，我们的IMARM根据以下情景进行评估。容错评估场景。该实验旨在评估和比较所提出的多代理模型在异构云数据容错中中心.因此，使用Grid5000故障数据集。数据集在2005年至2006年期间收集了1.5年，故障跟踪档案（FTA）所述数据集包括功能1：Q表创建阶段输入：动作集，状态集。输出：Q值表。1：对于每个（状态）。2：随机选择动作。3：Q表（s，a第四：结束。包含关于大约1300个节点的故障和物理机器配置的信息的跟踪（Kondo等人，2010年）。每个群集中每个节点的平均故障间隔时间（MTBF）和返回时间（MTTR）是根据跟踪中给出的故障信息确定的。在这种情况下，评估故障间隔时间的累积分布函数（CDF）。许多组织广泛使用的另一种重要预测技术是平滑常数的值（Gelper等人，2010年）。因此，我们每-形成了一个统计分析的故障精度使用不同的算法3：IMARM输入：设置VM，设置T。输出：最佳映射T-VM，最佳云环境管理1：当t←1时。2：对于每个（t =D）。3：RAA从传感器代理收集信息4：调用算法1。5：调用算法2.6：调用MOSOS算法。第七章：结束。8：结束时。5. 实验评价本节介绍了我们的实验平台，评估和结果。5.1. 执行该解决方案是在基于JAVA和JADE（Java Agent DevelopmentEnvironment）的Cloudsim 3.0.3工具包中实现的。JADE是一个提供基本中间件层功能的软件平台。这些功能独立于具体的应用，简化了利用软件代理的用于故障预测的平滑常数值。选择基于平均值的预测方法的原因是从故障跟踪档案收集的可用数据的不一致性和非平稳性（Kondo等人，2010年）。对于每个恒定的平滑值，生成一组预测。然后将这些预测与时间序列的实际观测值进行比较（时间序列是观测值的时间间隔序列）。最后，选择提供最小预测误差平方和的值。该研究针对平滑常数的七个值进行，其中最大检查点开销为20 s。能源消耗实验方案。该实验实例化了从Exascale平台的投影中获得的场景（Ferreira等人，2011; Dongarra等人，2009年; Herault和Robert，2015年）。因此，选择能耗和容错参数的真实值VM的能量消耗被限制为hs= 20mW，并且存在106个VM。这个sce- nario假设平台能量大约是这个功率的50%，因此hs= 10。该实验的关键参数是等式（4a）中定义的能量环境hE。根据（Zhengetal.， 201 2），每天一次故障，mind等于45，208365125年前我们取hc=hd= 10 min，D= 1 min，O= 1/2。MTBF（m）从m=300min（5h）到m=30min不等。负载平衡实验场景。实验的目的是评估所提出的IMARM在负载平衡方面的有效性因此，我们研究了它在VM迁移过程中的行为。更准确地说，IMARM负载平衡的性能A. Belgacem、Saïd Mahmoudi和M.基尔沙特国王大学学报2399图五、云系统中的过渡状态见图6。IMARM解决方案示意图。ing进行分析，并根据均衡过程中虚拟机迁移的次数计算出不均衡的程度。任务数量固定为1000个，VM在50秒内从500到2500不等。我们保持与工作中相同的任务和VM配置（Jena等人， 2020年）。5.3. 结果和讨论从容错性、能耗、时间和环境等方面对所提出的多智能体解决方案进行了性能评估负载平衡和执行时间。将给出的结果模拟20次，然后取平均值5.3.1. 容错评估图7（a）显示了累积分布函数在故障之间的不同时间的变化。纵轴在0和0.5之间，它给出CDF的概率值。在（图7（b））中的故障事件和恢复事件的发生之间可以观察到相同的行为。这两个图都符合威布尔和正态分布，但有轻微的偏差。A. Belgacem、Saïd Mahmoudi和M.基尔沙特国王大学学报2400见图7。容错评估结果。平滑常数表示过去的观测值对预测的影响程度通过检查Fig. 在图7（c）中，我们观察到平滑常数的值在0.2和1之间增加，同时故障预测的准确性也增加。因此，值越小，平滑值中的模式越平滑，从而在短期内实现更好的预测结果同样，当使用移动平均预测方法时，IMARM显示出更好的故障预测精度。因为我们为故障轨迹中的每个故障事件值生成相应的故障期望值（内插期望）。通常，IMARM使用平滑常数0.9获得的预测精度是显著的。图图7（d）显示了在有和没有固结的不同状态下的平均可靠性行为。一般情况下，注意到有合并的系统比没有合并的系统具有更高的可靠性这可能是由于减少了故障的发生然而，当虚拟机的开销增加（传入任务的增加）时，系统可靠性能力下降。结果表明，虚拟机迁移主要用于容错反应和系统负载平衡。在故障中，系统恢复故障的虚拟机，并重新执行任务，这增加了系统的可靠性。5.3.2. 能耗评价图 8示出了系统的不同类型的平均能耗。我们提出的解决方案通常显示最小的能源消耗相比，FCM，QMPSO和DRLM算法。我们的解决方案可以减少24.25%的能源。显然，系统在处理大量传入任务的情况下消耗最大功率。由于故障数量少，系统在恢复时消耗的能量最小，反映了IMARM的容错效率。在检查点，系统消耗很少的能量.VM迁移期间消耗的能量固结技术有助于减少这种类型的能量消耗。LCA和ECCA代理定期向RAA通知虚拟机的负载和能耗，这导致选择-A. Belgacem、Saïd Mahmoudi和M.基尔沙特国王大学学报2401见图8。能耗见图9。负载平衡前后具有不平衡程度的任务数。图10个。执行时间取决于虚拟机的不同数量在每个分配中运行一组合适的就绪虚拟机，并关闭其他虚拟机。因此，减少了虚拟机的过载和能耗5.3.3. 负载平衡评估平衡之前和之后的系统负载已经被评估并且在图9中示出。使用等式（15）计算不平衡程度。它是负载大于或等于A. Belgacem、Saïd Mahmoudi和M.基尔沙特国王大学学报2402表2统计分析SSDfMSF统计p值F临界能耗组间8170894.17324085447.0863.6310.0813.16组内88508850.29571552786.847总96679744.4759执行时间组间235255.8702117627.9350.3150.7063.16组内19111018.1957352628.924总19346274.0659负载平衡组间68.359234.1800.0520.9503.16组内36720.55957660.010总37688.91859统计结果能耗执行时间负载平衡IMARM0.065 ±0.065±0.737±0.945FCM±0.7650.999±0.986QMPSO0.483 ± 1.02±0.955小于系统中的平衡因子（rB）。在云系统平衡之前和之后测量不平衡程度，知道VM由于过载而迁移。该图表明，应用后的不平衡度最低IMARM算法与其他算法的比较。这是由于定期的任务分配使工作负载在虚拟机上保持平衡。因此，所提出的解决方案有助于在分配资源时保持云系统的平衡。不平衡的虚拟机是平方的平均值通过从不同组的数据中获得平均测试结果来执行