机器学习回归优化超大规模云计算数据中心

90 浏览量更新于2024-01-18 收藏 1.52MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

沙特国王大学学报机器学习回归提高超大规模云计算数据中心放大图片作者：José A.Troyanoa，Agnieszka Jakóbikb，Alejandro Fernán-Montesaa塞维利亚大学计算机语言和系统系，Avda。Reina Mercedes s/n.，41012塞维利亚b波兰克拉科夫克拉科夫理工大学计算机科学系阿提奇莱因福奥文章历史记录：收到2021年2022年4月13日修订2022年4月14日接受2022年4月22日在线提供保留字：数据中心云计算调度优化机器学习梯度提升A B S T R A C T数据中心由于要服务的异构工作负载和模式的增加而增加了它们的大小和复杂性。各种目的工作负载的这种混合使得根据时间或应用级模式来优化资源管理系统变得困难。数据中心运营商已经开发了多种资源管理模型，以改善受控场景中的调度性能。然而，工作负载的不断变化使得在某些情况下仅利用一种资源管理模型是次优的在这项工作中，我们建议：（a）基于梯度提升的机器学习回归模型，以预测资源管理器在给定时段内调度传入作业所需的时间;以及（b）资源管理模型Boost，其利用该回归模型来预测资源管理器目录的调度时间，使得最高性能的可以在时间跨度内使用。建议的资源管理模型的好处进行了分析，通过比较其调度性能KPI提供的两个最流行的资源管理模型：两级，使用的Apache Mesos，和共享状态，采用谷歌博格。通过模拟超大规模数据中心来经验性地评估这样的增益，该超大规模数据中心执行遵循真实世界跟踪模式的真实合成生成的工作负载。版权所有©2022作者。由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍数据中心构成了当前互联网服务的核心基础设施，从全球网络和移动应用程序到大数据和高性能计算工作负载。因此，这些基础设施的性能对于支持需要计算和存储资源的服务至关重要，这些服务可供使用，可扩展，并随时为传入的工作负载提供服务，从而降低运营成本并为最终用户提供最具竞争力的服务。在过去，大中型公司更常见的是管理自己的集群，这为完全受控的在这种情况下，计算和存储资源可以由运营团队进行微调。目前，超大规模数据中心服务于广泛的用户和工作负载需求。大陆甚至世界范围的工作负载的混合导致难以根据时间或使用模式优化计算资源，因为作业到达*通讯作者。电子邮件地址： damiancerero@us.es （ D.Fernán-Cerero ）， troyano@us.es（ J.A.Troyano ）， ajakobik@pk.edu.pl （ A. Jakóbik ）， afdez@us.es （ A. Fernán-Montes）。模式逐渐消失，并且未知事件可能导致可能显著降低数据中心性能的意外需求峰值。总之，与云计算相关的工作负载已经从受控工作负载转变为呈现快速发展且难以预测的到达和资源需求模式数据中心资源管理器被认为是数据中心的操作系统，因为它们负责管理和监控调度过程，并监控最高级别的计算资源和工作量资源管理器通常协调一个或多个调度代理，而调度代理又负责应用确定每个特定任务在数据中心资源上的位置的调度策略。当公司运营自己的小型数据中心时，通常会使用微调的单片资源然而，这种单一资源管理器通常采用为所考虑的特定工作负载设计的调度算法尽管数据中心运营商过去常常让一些数据中心资源容量闲置，以吸收适度的需求高峰，而不会严重降低数据中心的性能，https://doi.org/10.1016/j.jksuci.2022.04.0081319-1578/©2022作者。由爱思唯尔公司出版代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页：www.sciencedirect.com达米安·费尔南德斯-塞雷罗Troyano，A.Jakóbik等人沙特国王大学学报3192资源管理器不能跟上新的云计算场景中存在的大量调度操作（Gog等人， 2016年）。开发了各种资源管理器来克服上述限制：集中式框架，如Omega（ Schwarzkopf et al. ， 2013 ）和 Mesos （ Hindman 等人，2011）、分布式解决方案，诸如Pigeon（Wang等人，2019），甚至微调混合方法，如水星（Karanasos等人，2015年）。目前使用最多的是两级（Mesos）和共享状态（Omega）集中式策略然而，这样的资源管理器专注于服务超大规模数据中心中存在的常见工作负载模式（Schwarzkopf等人，2013），其中大约90%的批处理作业在短时间内消耗很少的资源，而10%的作业在较长时间内消耗然而，这样的工作负载模式随着时间的推移而变化，使得这些模型与用于某些用例的其他资源管理模型相比不是最佳的，或者甚至仅用于相同用例的一段时间（D. Fernán-Cerero等人， 2018年）。这项工作的重点是提高数据中心的调度性能，提出了一种新的资源管理器选择器，确定最高性能的资源管理模型，为每个时期。这一提议利用了仅配备单一资源管理模式的行业数据中心资源管理架构，从现有资源管理器目录中动态选择资源管理模式。梯度提升回归模型负责估计目录中每个资源管理模型在给定数据中心运行情况和周期的调度性能。根据对调度性能的估计，在特定的时间段内应用最有利的资源管理模型。然后通过比较三种替代方案来说明所提出的资源管理模型的好处：（a）Mesos或YARN使用的两级资源管理模型的利用;（b）GoogleBorg和Google Omega使用的共享状态资源管理模型的利用;以及（c）所提出的资源管理模型Boost的利用，其估计上述两个资源管理模型的调度性能以动态地应用它们。选择了集中式两级和共享状态资源管理模型，因为它们构成了工业中使用的主要资源管理器。上述三种替代方案的性能和能源效率结果通过广泛的模拟进行了评估，该模拟采用了值得信赖的模拟工具以及由1，000台机器组成的真实超大规模数据中心和遵循Google和Ali-baba数据中心轨迹中存在的模式的合成轨迹。在这项工作中，我们不提高数据中心的性能，提出任何调度算法，但一个新的数据中心资源管理模型。任何调度算法都可以通过由资源管理器协调的调度代理来应用。在实验分析中采用的调度算法试图通过遵循Google在该领域的最新改进来最大化资源利用率，同时防止资源争用（Lo等人， 2016年）。在这项工作中提出了以下贡献：梯度提升回归估计器，用于预测最流行的行业级资源管理器的调度性能。转换规则，使资源管理器的调度性能的成功估计。资源管理模型，利用开发的估计器来选择一段时间内最具性能的资源管理模型和预测的传入工作负载。上述捐款的好处是：分析回归模型的每个特征对用于训练本工作中使用的回归模型的资源管理模型目录的预测质量的影响：两个级别（Mesos）和共享状态（Omega）。分析我们提出的资源管理模型Boost与超大规模数据中心相关极端情况下使用最多的资源管理器的行为，其中工作负载到达模式遵循极值分布。所有实验都基于真实的工作负载跟踪，这使得Boost能够应用于生产环境。除了文献中评估的传统调度队列时间之外，还分析了全调度时间关键性能指标（KPI）（Schwarzkopf等人，2013; Tirmazi等人， 2020年）。评估同步估计和选择资源管理器的性能影响，即每次提交作业时，与在每个给定的周期在后台异步地执行它三个时间段的背景过程进行了分析评估拟议资源管理模型的能耗，并与当前资源管理器进行比较本文组织如下：第2节检查相关的工作，而第3节提出的理论基础，支持这项研究。机器学习回归模型在第4节中说明。在第5节中评价了进行的实证分析的结果。最后，第6节介绍了本工作的结论和未来的工作。2. 相关工作大多数关于数据中心的研究都集中在提高性能、降低成本以及改善计算和存储服务上。在过去的十年中，重点已经转移到各种人工智能技术的应用，以实现各种目标。云服务分类和工作负载预测对于提高数据中心性能、降低能耗、满足所需的服务质量（QoS）水平以及提高云服务提供商的可扩展性至关重要，因此引起了研究界的广泛关注。关于工作量分类，Dewangan的作者YYYY等人提出了一种改进的KNN算法，将作业分为四类，使调度过程既考虑了用户优先级，又考虑了作业成本。Wu et al.（2018）的目标是根据所需的资源（如CPU、内存、网络和存储）对作业进行分类，以开发一种调度算法，该算法将这种分类包括在用于确定最佳资源的启发式规则中。Elrotub和Gherbi（2018）的作者提出了一种确定性方法，用于根据任务的大小对其进行分类。三组被认为是在建议的调度算法，以选择最佳的资源为每个任务：重，中，轻任务。 Iqbal等人（ 2018）显示了对Web应用程序的分析●●●●●●●●达米安·费尔南德斯-塞雷罗Troyano，A.Jakóbik等人沙特国王大学学报3193基于URI请求的工作负载来自动扩展所需的资源。作者采用人工智能来生成所谓的概率工作负载模式，用于预测传入的工作负载。然后使用这种预测来提供估计的资源需求。其他作品只专注于各种工作负载的分析，以识别，分类和集群的工作在不同的群体。在这些工作中，作者没有直接使用这种分类和聚类模型来改进数据中心KPI。Genkin等人（2019）通过考虑容器性能，重点关注Spark和Hadoop工作负载的分类。最近对Patel和Kushwaha（2020）中提出的Google跟踪的分析表明，高斯混合模型可以实现更好的工作负载聚类与其他方法相比。关于工作量预测，大多数建议都基于机器学习和人工智能技术，从神经网络到基于回归的模型。下文介绍了一些代表性提案的样本Singh等人（2019）的作者提出了一种支持向量机模型，用于估计给定时间窗口中传入作业的特征，以便优化资源提供过程。Li等人（2021）提出了一种基于自回归综合移动平均模型（ARIMA）和反向传播（BP）神经网络的混合模型，以预测SLA违规和VM迁移时间。作者Zhang et al. （2018）提出了一种新的基于规范多元分解的深度学习模型，以有效地预测传入的工作负载。CloudSim模拟器中包含的跟踪用于验证所提出的模型的效率和准确性。Wamba等人（2017）比较了约束编程和神经网络模型来预测和生成轨迹，并得出结论，神经网络模型提供更好的预测结果，而约束编程更适合于轨迹生成。Kumar等人的作者。（2018）提出了一种有趣的三层神经网络和自适应差分进化算法的组合，并声称在工作负载预测准确性方面取得了非常好的结果，以提高资源供应。训练数据集是根据对一个非常具体的服务（加拿大大学的网络服务器和美国航天局肯尼迪航天中心的网络服务器）的请求。 Gao et al. （2020）提出，重要的是在需要预测之前的某个时间执行预测，使得调度算法有足够的时间来适应。这些作者比较了各种技术，并得出结论，用于预测的聚类方法可以实现高达90%的CPU和内存预测精度Tang等人（2018）的作者进行了分析，以确定用于工作负载预测的合适技术，从而开发能量感知调度算法。为此，他们将线性在Amiri et al. （2018），作者提出了一种预测模型，其性能优于当前预测器的性能。他们的模型基于情节挖掘，能够快速适应工作负载的变化，然后用于改进资源提供过程。总之，如表1所示，各种研究使用人工智能模型来分析、分类，甚至应用这些知识来改进现有的调度算法。然而，据我们所知，在资源管理方面没有取得任何进展这项工作提出了一种预测模型的基础上，梯度推进回归预测的调度性能的资源管理模型的目录为一个给定的数据中心的操作环境和期间，这使得选择的资源管理策略，最大限度地减少调度时间为该期间和传入的工作量从这样的目录。拟议的资源管理-表1所考虑的相关工作的分类Boost工作在数据中心资源管理级别。Dewangan等人（年）Wu等人（2018Elrotub andGherbi（2018）Iqbal等人（201Genkin等人（2019Singh等人（2019）目标层帕特尔和库什瓦哈（2020）Li等人（2021Zhang等人（2018Kumar等人（2018Wamba等人（2017Gao等人（2020）Tang等人（201Amiri等人（201提振调度算法资源预配置分析资源经理XXXXXXXXXXXXXXX环境模拟基准测试真实世界XXXXXXXXXXXXXXXXX监督学习范畴X分类回归XXXXXXXXXXXXXXXXX达米安·费尔南德斯-塞雷罗Troyano，A.Jakóbik等人沙特国王大学学报3194.ΣðÞ.ΣXðÞJ1/1一对于j<$1; 2，特定工作量的作业Jj）;............................... 我们采用;J第1JJ计划j;subJX由于资源管理器可以协调配备所考虑的调度算法以及提供和迁移技术的调度代理，因此，迁移模型不与现有技术相冲突。3. 理论框架将执行调度动作，直到作业的所有任务都被分配给计算资源或者到达超时。此过程结束后，作业将被视为已完全调度在时间表上。调度代理完全调度作业Jj所需的时间被表示为Sj，其表示在调度代理上执行的每个调度动作所需的时间Sji的总和。作业J，如下：Sj<$PnjASji，其中nj表示让我们将单个工作负载表示为W，而W表示要服务的所有工作负载。在这项工作中，以下参数的值将用于每个工作负载：● 到达间隔时间D t j;sub~Wei0：5;kW 表示时间调度完全调度作业J所需的动作。因此，t j;sched<$t j;sub<$Sj。那么，作业J j的完成时间t j;com可以表示如下：t j;com^t j;sched^l j，即：tj;com^t j;sub^Sj^l j。让我们用A表示所有AW动作的集合，即：在两个连续的作业提交之间（tj;sub 和tj-1;sub为A¼ fAW; W 2 W g ¼. Aji;j<$1;2;：：;n;i<$1;2;：：;njΣð1Þ形状值为a的极值威布尔分布= 0.5来生成具有1=kW的标度值的到达间隔时间，以表示超大规模数据中心中存在的难以预测的工作负载到达间隔模式。每个调度动作Aji需要一些时间来计算做出部署决策所需的算法，如下所示：联合国Si;jKjKn;j2● 任务数nj~Expkj;n表示任务数A作业的组成，遵循指数分布J Tn1具有给定的平均值1=kj;n。● 作业持续时间lj~Expkj;l表示给定作业Jj消耗数据中心中的资源的时间段，其借助于具有给定期望值1=kj;l的指数分布来生成。● 资源使用量uj是工作负载中每个特定作业Jj的所有任务消耗的CPU（用KCPU表示）和RAM（用KRAM表示）的量。SAi;j表示对第j个作业执行第i个调度动作所需的时间，KJj表示调度算法在作业级执行的时间，KTn;j表示调度算法应用于第j个作业中的第n个任务的时间，而n j;uns表示剩余的待调度任务数。上面的等式假设当作业到达时调度代理是空闲的。但是，当队列中的前一个作业没有完全调度时，可能不会发生这种情况然后，作业在队列中等待的时间必须添加到等式中，如下所示：每个工作负载由一组作业W/4组成。琼为联合国þ吉吉·ðn;j Þð3Þn2N，并且每个第j个作业由任务Tj/2组成。tjnnnj为SAQjiKJKTn1nj2N.每次将作业Jj提交到数据中心时，n1Q表示第j个需要等待的时间，ticular操作时间，视为作业提交时间tj;sub在作业Jj的第一个时刻，图1中图形表示的调度过程开始。每次作业到达时，一个调度代理执行作业调度操作（如果可用），或者将作业放入队列中，直到它变得可用一个调度动作可以被定义为亲，纪第i个调度动作开始。每个调度动作Aji可以提供两个结果：(a) 调度动作Aji成功部署作业J的所有任务T。在这种情况下，t/dt= S，其中使用调度算法来确定要执行作业任务的资源集的过程。当调度操作无法调度作业中的所有任务时，SjSA0;j。在这个等式中，sched表示运算作业被完全调度的时间，SA0;j是执行第一次调度操作所需的时间。Fig. 1. 一般增量作业调度和执行过程。一i;j达米安·费尔南德斯-塞雷罗Troyano，A.Jakóbik等人沙特国王大学学报3195JAJA1/1XR.ΣXX2fg2 ½fgr怠(b) 调度动作Aji不能完全部署作业J j的所有T j任务，这是由于两个主要原因：数据中心没有足够的空闲资源来执行它们，或者提交调度动作的事务在乐观锁定策略中引起冲突。在这样的场景中，需要重试调度动作Aji ，直到调度动作的数量njA达到调度动作的限制nmax，从而增加调度动作的数量n j A。或者直到作业J j在后续调度动作中完全部署，此时所需调度动作的数量n jA

下载后可阅读完整内容，剩余1页未读，立即下载