没有合适的资源?快使用搜索试试~ 我知道了~
沙特国王大学学报RTSLPS:面向不断变化的云计算环境的实时服务器负载预测系统Hajer Toumia,b,Zaki Brahmia,c,Mohhamed Mohsen Gammoudia,da突尼斯Manouba大学RIADI实验室b突尼斯埃尔马纳尔理工学院沙特阿拉伯,沙特阿拉伯dISAMM,Manouba大学,突尼斯阿提奇莱因福奥文章历史记录:2019年8月31日收到2019年11月18日修订2019年12月10日接受在线预订2019年保留字:云计算概念漂移服务器负载流挖掘实时预测用户行为A B S T R A C T云计算(CC)提出了一种多租户框架,该框架由多个并发用户使用,每个并发用户表现出不同的和变化的行为。这种异构性形成了高度波动的负载,并随着时间的推移在服务器级别创建了新的使用模式。虚拟机(VM)干扰也在引起服务器负载变化方面发挥了重要作用。服务器负载预测被认为是确保高效资源使用的关键。实时交互任务的执行是CC的重要组成部分因此,在本文中,我们提出了一个实时服务器负载预测系统的基础上传入的任务分类和VM干扰检测。传入任务分类用于捕获传入工作负载趋势,并且VM干扰检测旨在捕获干扰率。最后,负载预测考虑服务器的实际资源的使用,VM干扰率,和传入的工作负载趋势。我们提出了一个改进版本的Hoeffding自适应树(HAT),增强合奏漂移检测器。结果表明,我们的实时服务器负载预测系统(RTSLPS)能够提供很大的灵活性处理的变化和非常好的准确性,快速的评估时间和小的内存占用。©2019作者(S)。由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。1. 介绍根据Vic(2011)的说法,CC是指世界各地的数据中心向拥有互联网连接的用户提供的应用程序和服务。因此,CC可以被视为客户端-服务器关系的一种形式Clarke(2010),其中用户负责根据请求的资源和任务提交量来驱动任务的量和行为Ismael et al. (2013年)。云框架的敏捷性使其成为与异构混合工作负载相关的各种应用程序的最佳选择。2018年,交互式应用程序构成了CC的重要组成部分,拥有36亿消费者用户(Lobert,2019)。随着用户数量的持续增长,CC提供商必须处理大量请求,同时一方面确保服务质量为了保证资源的按需可用性和SLA的尊重,主动资源供应被认为是一项基本任务。它试图预测未来的服务器负载,*通讯作者。电子邮件地址:hajertoumifst@gmail.com(H.Toumi),zakibrahmi@gmail.com ( Z.Brahmi ) , gammoudimomo@gmail.com ( M.M.Gammoudi)。相应地为适当的工作负载提供适当的资源。然而,CC中的服务器负载预测是一项非常微妙的任务,因为它需要深入了解云工作负载特性。与贪婪计算不同,CC工作负载往往是动态的和高度可变的(Di等人,2014年)。用户行为对负载变化的影响是显而易见的,因为最近演员詹妮弗·安妮斯顿在Instagram上的首次亮相导致了暂时的崩溃随着粉丝们蜂拥而至关注她的账户,供应商方面的过载(布伦南,2019)。这种行为无法从服务器历史中预测,因此,在预测过程中考虑用户行为的演变对于了解服务器负载的未来趋势并将其放置到位至关重要高效的负载平衡策略。在这方面,许多研究致力于了解用户行为对CC工作负载变化的影响(Ismael等人,2014; Ismael等人,2013;Shishira等人 , 2017; Sehgal 和 Bhatt , 2018; Fehling 等 人 , 2014;Gopal 和Sunilkumar,2016)。Ismael等人(2014)在他们的论文中提出了对CC工作负载特征的全面分析。该分析是使用第二版Google Cloud跟踪日志(Google,2011)中的数据进行的。该研究表明,CC的工作负载总是由用户驱动的。在现实条件下,特定类型的用户会对https://doi.org/10.1016/j.jksuci.2019.12.0041319-1578/©2019作者。由爱思唯尔公司出版代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页:www.sciencedirect.comH. Toumi等人/Journal of King Saud University343CC的整体工作量。Sehgal和Bhatt(2018)从不同的角度(如服务客户和提供商)提出了CC工作负载特征。作者展示了工作负载类型如何根据其用户行为随时间变化,从而表现出与预期不同的资源使用情况。例如,作者给出了一个作业的示例,该作业的特征是大型数据库的创建和计算;然而,在运行时,发现关键的使用是磁盘空间,而不是计算。因此,该职位需要重新分类。Fehling等人(2014)提出了CC应用程序工作负载分类。根据用户的行为和惯例,应用程序工作负载类型可以是静态的、周期性的、一生一次的、不可预测的和持续变化的。类型定义应用程序的负载变化。例如,连续变化的工作负载意味着后者经历长期变化,该长期变化可以是计划内的或计划外的,并且资源使用不断变化。Shishira等人(2017)根据其工作负载特征将CC应用分为四类:Web服务器WW、在线社交网络服务器OSNW、视频服务器VSW和移动终端服务器MDW。例如,MDW指的是用户在与移动应用交互以访问和共享内容和资源期间创建的工作负载。根据作者的说法,用户权限是这些工作负载最相关的方面之一,也是主要的负载产生者。除了用户云中的计算性能是竞争(Patrick,2017)。公共云是允许多个应用程序共同分配的多租户环境。具有各种特性的多个VM共享相同硬件资源的事实造成了对共享资源的争用(Zhu等人,2012年)。争用率直接影响应用程序响应时间和服务器性能(Xu等人,2014年)。如 果争 用很 高 , 那么 云服 务 器的 性 能将 显着 恶 化( Patrick ,2017)。事实上,在相同服务器上的相同VM中运行的应用可能基于由相同主机上的其他VM执行的工作而在不同时间经历其性能的巨大差异(Zhu等人, 2012年)。许多工作致力于研究虚拟机干扰(VMI)对服务器性能的影响。 最近对Amazon EC2的研究表明,小型实例的磁盘I/O带宽可以变化50%,中型实例的网络I/O带宽也可以变化66%,这是由于对共享资源(包括CPU内核、缓存空间和I/O带宽)的争用,从而导致VM的严重性能变化(Xu et al.,2014年)。在他们的论文Youngggyum et al. (2007)表明,与其他任务一起运行的任务的完成时间比单独运行的任务的完成时间长,导致服务器负载的意外行为。根据Javadi和Gandhi(2017)的研究,VMI是动态和不可预测的,可以影响应用程序性能高达27% 。Javadi和Gandhi(2017)表明,在干扰下,应用程序的负载比没有干扰时更高Xu等人(2016)研究了VMI对应用程序性能的影响。拟议的结果表明,在两个位于同一地点的虚拟机上运行的基准应用程序的性能在资源使用方面的差异从0.7%到29.1%。特别是,缓存和(网络和磁盘)I/O资源上的性能变化比CPU和内存资源上的性能变化要大得多这是因为缓存空间和I/O带宽资源很难隔离。此外,Xu etal.表明,增加位于同一地点的虚拟机数量会增加VMI的比率,从而导致性能进一步下降。 Zhu等人(2012)研究了考虑时变资源使用的所有类型资源的干扰。作者引入了一个膨胀因子,它说明了来自协同定位应用程序的资源争用的影响。膨胀因子指的是应用程序与单独运行时相比Caglar等人(2014)表明,性能干扰根据运行任务类型而变化。这意味着,例如,在同一VM上托管内存密集型任务将导致内存和磁盘I/O的严重争用。此外,Pu等人(2010年)进行的一项实验研究表明,由于I/O通道中需要快速内存页面交换,因此在共享硬件平台上共同定位CPU密集型工作负载会引发高CPU争用。CC工作负载的独特性质使其具有以下特征:服务器负载变化显示出高速度,因为云应用程序用户的访问模式往往在不同的观察期内更加多样化,从而导致相同任务的执行长度和资源使用模式不同(Ismael等人, 2013年)。由于共享资源上的争用引起的性能干扰,VM行为往往是动态和不可预测的(Javadi和Gandhi,2017)。上述特征导致了现有技术的贬值(Ismael等人,2013),其仅基于服务器资源使用的历史建立其预测和/或不考虑由用户习惯的改变和VM干扰引起的服务器负载的突然变化。因此,需要允许提供者获得更准确预测的自适应和演进机制。由于用户的需求不断发展(Sehgal和Bhatt,2018),随着时间的推移形成了新的使用模式,VMI的速率主要取决于当前运行的VM的类型(Caglar等人,2014年),预测模型必须结合和调整其决策模型,以适应最新的信息,因为它到达。我们的想法是创建一个能够实时进化和适应变化的预测模型与经典的数据挖掘技术和深度学习技术相比,这些技术被训练成在预定义的情况下表现出色( Shrestha 和 Mahmood , 2019; Moirs , 2016 ) , 流 挖 掘 技 术(SMT)被设计为基于收到的最新信息创建决策模型(Albert等人,2015年)。SMT能够检测概念漂移并做出反应,这使得决策模型能够随着数据流的变化而发展(Albert和Ricard,2007)。本文提出了一个实时服务器负载预测系统RTSLPS。RTSLPS结合了关于用户行为和VMI的最新信息,以建立准确的预测。该系统主要基于流挖掘算法来提供实时预测。我们的贡献呈列如下:根据用户行为和性能干扰形式化服务器负载。提出使用Liang等人(2010)提出的(不确定性处理和概念自适应非常快速决策树)UCVFDT对已知和未知任务进行任务分类,以捕获传入负载趋势。根据服务器实际负载、VM干扰率和传入工作负载趋势,提出服务器负载预测解决方案。提出了一种改进的HAT增强合奏漂移检测器(HAT-nDetectors),以捕捉服务器负载中的不同类型的数据变化。我们的论文组织如下:第二节介绍了相关的工作。第3节提出了流挖掘的概述第4节提出了一个服务器负载形式化。在第5节中,我们提出了我们提出的方法RTSLP的详细介绍。第6节介绍了实验和结果,最后我们在第7节结束了我们的论文。●●●●●●●344H. Toumi等人/Journal of King Saud University2. 相关作品为了处理服务器负载预测,已经提出了各种工作。所使用的技术可以分为三个主要类别。第一类是统计技术。自回归积分移动平均(ARIMA)由于其简单性和速度是用于时间序列分析的最广泛使用的模型之一(Zhang等人, 2012年)。该技术在静止环境中表现良好为了更好地适应CC环境的特殊性Chen和Wang(2018)提出了一种基于包络经验模式分解EEMD和ARIMA的资源需求预测方法。EEMD将非平稳的主机使用序列分解为相对稳定的固有模式函数(IMF)分量和残差分量,以提高预测精度。然后用ARIMA预测各分量的未来值通过叠加每个分量的结果来获得最终结果。所提出的方法能够驯服资源需求的随机变化,并提供良好的精度。然而,由于分解,该解决方案具有较高的误差累积和时间成本。因此,在最近的一项工作中,Chen和Wang(2019)试图解决这些限制。因此,他们提出了一种用于短期主机使用预测的混合方法,该方法通过选择和重建有效的IMF分量来降低时间成本。实验结果表明,与第一种方法相比,所提出的混合方法能够保持更低的时间开销和更高的精度然而,结果证明,这种解决方案无法有效地应对资源使用的随机和突然变化 Zia Ullah 等人(2017 )试图提出一种基于ARIMA和自回归神经网络(AR-NN)的实时资源使用预测系统。其思想是获取实时资源使用值并将其馈送到多个缓冲区中。如果库存数据服从高斯分布,则使用ARIMA,否则使用AR-NN。结果表明,ARIMA能够提供良好的精度与真实的记录,而AR-NN能够提供更好的精度。该系统利用ARIMA快速执行时间的优点,进行实时预测。然而,所提出的方法无法提供实时预测,因为AR-NN的时间复杂度非常重要(Chen和Wang,2019)。 Jian等人(2014)提出了使用线性和非线性预测模型的组合的动态集成预测算法。所提出的模型包括一组异质预测因子,其中每组包含同质预测因子。结果表明,与单一模型方法相比,所提出的集成模型具有更好的精度然而,这些结果在私有CC环境的上下文中是有效的,私有CC环境更稳定并且包含与公共云环境相同的更少的随机变化(Ismael等人, 2014年)。第二类包括深度学习技术。达根等人(2018)提出了一种基于递归神经网络RNN的多时间步长。RNN表现出更好的性能,通过提供更准确的准确性与非平稳数据的非线性和线性预测方法。然而,RNN的特征在于其高时间复杂度(Rahmanian等人,2018年),因为它需要很长的时间和大量的数据来有效地训练。 Song等人(2017)提出了长短期记忆来预测连续未来时间间隔内的平均负载和多步提前的实际负载。该方法基于RNN。然而,作者用长短期记忆LSTM模型取代了RNN的隐藏层,以学习长期依赖关系。实验结果表明,该方法在Google数据中心痕迹数据集上具有较高的准确率。然而,LSTM-RNN很难训练,因为它需要大量的数据才能提供良好的准确性,这需要很长的训练时间。同样,黄等人(2017)使用LSTM和RNN与请求向量来预测基于用户请求序列的Web服务器或数据中心的性能和未来工作负载。他们研究了用户请求序列和Web服务器性能之间实验结果表明,该模型对nginxweb服务器和mysql数据库服务器的数据集具有较好的预测性能由于RNN本身的特性,该方法仍然存在时间复杂度高的Rahmanian等人(2018)提出了一种基于学习自动机LA的集成预测算法。每个组件模型都有一个确定其准确性的权重LA用于确定集合的每个分量的权重通过将各个模型的预测值与它们的权重相乘来提供最终预测实验表明,该方法能够优于其他技术。然而,所提出的解决方案存在执行时间长(Chen和Wang,2019)和错误率高的问题,因为最终预测是由基本预测结果的组合产生 Qiu等人(2016)使用深度信念网络和回归层设计了他们的模型。深度信念网络DBN用于提取VM负载高特征。回归层用于预测未来的负载。在他们的方法中,作者解决了两个主要事实:i)VM之间的相关性和ii)工作负载数据集的不准确性和不完整性。与简单神经网络、多层神经网络和ARIMA相比,该方法具有更好的性能。但由于DBN的训练非常复杂,因此它的时间复杂度很Li等(2019)提出了一种基于人工神经网络ANN的两阶段工作量预测模型,由一个分类模型和两个预测模型组成。结果表明,与ARIMA、线性回归、支持向量回归和神经网络相比,然而,人工神经网络总是与随机和不可预测的变化作斗争,因为它的预测模型与过去高度相关。的三类包括数据采矿技术(DMT)。Minarolli等人(2017)提出了长期资源使用预测,以使用基于高斯过程的监督数据挖掘方法检测主机何时过载或负载不足。在他们提出的工作中,作者解决了过载检测长期预测的不确定性问题。然而,CC环境中的长期预测非常棘手,因为服务器负载变化显示出高速度,因为云应用程序Zhong等人(2018)提出了一种基于加权小波支持向量机(WWSVM)的主机负载预测模型。其主要思想是将反映更多重要性的样本与其他样本区分开来。为了找到WWSVM模型参数的最优组合,提出了一种基于粒子群优化(PSO)的参数优化算法,以减少训练时间。Gopal和Sunilkumar(2016)基于对用户行为和时间框架的分析提出了贝叶斯网络BN模型。该模型旨在确定在几个时间间隔内,云中几个数据中心的CPU/内存密集型应用程序和工作负载模式的短期和长期虚拟资源需求。在他们的工作中,作者解决了云工作负载的动态性和多样性。该方法考虑了并发应用程序之间的交互,同时产生的预测。结果表明,与回归技术和支持向量机技术相比,该方法具有更好的精度。然而,作者忽略了VM干扰对应用程序性能和数据中心负载的影响。表1列出了相关工作的比较研究我们考虑以下特征进行比较:UT描述了所使用的技术,可以是数据挖掘技术DMT,H. Toumi等人/Journal of King Saud University34511/4fgð Þ ðÞ表1负荷预测相关工作的调查WUTPRCP重量PerfCPUCPU +其他历史用户干扰一不Jian等人(2014年)St**D+++++陈和王(2019)St**D+++++Rahmanian等人(2018年)DL**D+++++Zia Ullah等人(2017年)St**D+++++Qiu等人(2016年)DLT**D+++Duggan等人(2018年)DLT**D+++++Song等人(2017年)DLT**D++++Huang等人(2017年)DLT***D++++Li等人(2019)DLT**D+++++Minarolli等人(2017年)DMT**德++++Gopal和Sunilkumar(2016)DMT***D++++Zhong等人(2018年)DMT**D+++++提出SMT***德++++++深度学习技术DLT,一种统计技术ST或流挖掘技术SMT,PR描绘了预测的资源,其可以是CPU或CPU和其他资源(例如存储器、BW和磁盘I/O),CP描绘了用于预测的考虑参数,其可以是服务器历史、用户的使用模式和性能干扰,WT描绘了工作负载类型,其可以是静态S、动态D和具有不可预测变化的动态DUC,Pref描绘了相关技术的性能,并且其根据技术的准确度A和响应时间T(+:非常好,++:好,+:中等)来测量。时间和精度的测量是根据作者的实验和我们对所用技术的文献回顾确定的。例如,神经网络的准确性取决于网络的深度这意味着精度将随着层数的增加而增加。增加更多的层会增加时间复杂度(Shrestha和Mahmood,2019)。根据表1,我们可以将相关工作总结如下:大多数的工作都是围绕CPU使用率建立预测模型,而忽略了其他资源如内存、带宽和磁盘I/O对负载的影响。托管内存密集型任务,即使服务器的CPU使用率没有过载,服务器也可能因内存而过载(Fehling等人, 2014年)。大多数作品只考虑历史来产生他们的预测。然而,服务器负载变化显示出高速度,因为云应用程序的任务往往很短并且非常交互(Di等人, 2014年)。大多数建议的作品只考虑云计算的动态特性,忽略了服务器负载可以记录无法预见的变化,不能从过去的事实。大多数建议的作品认为,服务器负载变化是高度相关的时间。这使得一个非鲁棒的假设,因为用户可以被视为服务器负载变化的主要驱动力(Huang等人, 2017年)。据我们所知,目前还没有一种服务器负载预测方法将VM干扰和用户行为考虑在内,以预测服务器负载。虽然许多建议的作品能够提供非常好的准确性,这些作品遭受高训练时间,因为他们使用DL或DM技术。DMT和DLT需要大量的数据来训练,这需要很长的训练时间(Chen和Wang,2019)。此外,DMT和DLT经过训练,在预定义的条件下表现出色,因此,它们与DMT和DLT不同,在我们的建议中使用SMT这种方法帮助我们在较短的评估时间内提供高准确性,因为SMT不需要存储训练集,因为学习是随着最新数据的到来而逐步建立的。此外,考虑到不可预测的变化,我们提出的方法能够管理CC环境的高度动态和不断变化的性质。3. 数据流挖掘数据流挖掘正在成为从正在发生的事情中提取有用知识的最有效和它允许在发生变化或检测到新趋势时实时反应,同时以有效和低成本的方式处理资源(Albert等人,2015年)。与传统的数据挖掘技术不同,数据流挖掘技术需要对要分析的数据进行先验知识,到达。数据流S被看作是数据点x~i的序列,这就是x~1;x~2;.. . ;x~。每个x~i在特定时间ti到达,并且它被表示为具有d维的特征向量数据分布概念可能会随着时间的推移而变化,导致概念漂移,对于由联合概率分布的变化引起的流中的不可预见的变化,使得Ptx~i;Yi-Ptx ~ i ; Yi。概念漂移的特点是它的速度,它可以是突然的或渐进的,根据其速度。处理连续的变化,一个有效的流挖掘技术必须能够以最有效的方式检测和应对所有类型的漂移(突然的,逐渐的)。3.1. 概念漂移检测方法根据Albert和Ricard(2007)的说法,针对时变数据的高效数据流解决方案必须有效地响应以下问题:记住或忘记什么什么时候进行型号升级?如何进行模型升级。第一步非常关键,因为输入数据的质量将决定输出结果的质量。为了处理概念漂移,人们提出了各种方法,其中许多方法使用监测两个分布技术、统计过程控制技术或序列分析技术。监测两个分布技术使用一个参考窗口,总结过去的信息,和一个滑动检测窗口包含最新的数据。他们比较两个窗口上的分布,并假设两个分布相等。一旦零假设被拒绝,则在检测窗口的开始处宣布概念漂移。不用担心,使用滑动窗口时的最大问题是窗口的大小。小尺寸的窗口有助于对变化做出快速反应,但在稳定时期会失去准确性。一●●●●●346H. Toumi等人/Journal of King Saud University¼ttttJJj j jj大尺寸有助于提高学习者在静止期间的准确性,但不能快速适应突然的漂移(快速变化的ADWIN(自适应WINdowing)是由Albert和Ricard(2007)提出的一种众所周知的窗口技术。它是一种基于监测两个分布的变化检测器。它保持一个可变大小的窗口,并根据观察到的变化进行调整ADWIN是一个无参数和无约束的,它自动检测和适应当前的变化,只使用置信界限参数来指示我们希望在算法输出中有多自信。统计过程控制技术包括监视和控制过程的发展。它们被认为是触发方法。漂移检测器对概念变化做出反应,并在学习器需要重建或更新时发出警报最流行的技术之一被称为漂移检测方法(DDM)(Joo等人, 2004年)。DDM是一种基于在线错误率监测的变化检测器它假设学习是一系列的尝试。提出了DDM的许多改进,例如EDDM 、 RDDM 和 HDDM ( Wiecki 等 人 , 2013 年 ) 。 STEPD(Kyosuke and Kaichiro,2007)是一种基于监测准确度的变化检测器:最近的准确度和整体准确度。这个想法是,在线学习器的准确性必须等于从学习开始的整体准确性,如果不是,这意味着概念正在改变。STEPD证明了面对逐渐漂移的良好性能。3.2. 数据流挖掘分类一般来说,流挖掘任务包括分类、聚类、离群点检测等。出于本文的目的,我们将只讨论分类技术。更具体地说,我们将讨论基于决策树的分类技术,因为它们与我们的研究最相关。决策树是最常见和研究最充分的分类器模型之一(Babu等人,2017年)。在数据流的上下文中,一种众所周知的决策树,Hoeffding Tree(HT)由Domingos和Hulten在Pedro和Geoff(2000)中提出。HT提供增量学习和随时学习,使用第一个示例来选择决策树的根。下面的例子将被传递到相应的叶子,以递归地选择适当的属性等等。为了选择最佳的分裂属性,Hoeffding界被使用。利用HT,小样本就足以选择最佳分裂属性。HT可以很好地处理大型数据集,但它不能处理概念(Hulten等人,2001年)。Pedro和Geoff(2000)提出了一种快速决策树(VFDT),HT的扩展,可以处理概念漂移。VFDT在最优分裂属性选择中使用信息增益,窗口中的最后一个数据流,并将变化检测器ADWIN放置在树的每个节点。HWT只在当前滑动窗口的节点处维护相关统计量的估计器,并且一旦检测到变化就创建替代树。老树一到那里就被换掉了证明了新模型更准确将窗口的有界部分存储在主存中,其余部分存储在desk中。Hoeffding Adaptive Trees(HAT)HWT的演化,由Albert和Ricard(2007)提出。HAT不需要固定的滑动窗口,它可以从到达的数据流中自适应地学习. HWT将频率统计的估计器的实例放置在每个节点处,并保存来自节点中的数据的所有相关统计。每个节点可以决定最后一个实例中的哪个实例当前与它相关。HAT将其所有数据保存在主内存中,并且它使用的内存比HWT少。4. 实时服务器负载预测系统RTSLPS形式化在本节中,我们将讨论服务器负载公式。服务器S具有以资源R的形式表示的容量,托管一组VM,并保持必须遵守预定义QoS的性能Perf,使得S/VR;VM;Perf>。 每个VM2个VM属于服务器S,使用服务器资源RVM的一部分来操作,ate,执行一组任务XVM,并且遭受由与其他VM共享服务器资源而引起的干扰I,使得VM/RVM;XVM;I>。每个任务x在VM中执行,使用VM 资源Rx 进行操作,由用户u 提交,并保留Type ,使得x1/4。 每个用户u 2 U,其中U表示用户的集合,提交任务集合X u,要求要遵守的QoS,并且具有确定他的行为的简档,使得u 。在本文中,我们认为,将在未来的FLoad与两个主要因素密切相关:i)用户行为和ii)VM干扰。用户的行为由提交任务的类型定义,并定义了虚拟机干扰通过共享资源上的共置VM的争用。 我们提出的方法是由三个主要模块:入局干扰趋势检测IWTD,虚拟机干扰率检测IRD,和服务器负载预测SLP。IWTD的目标是在任务分类的基础上提取传入任务的负载趋势。该模型的输出将是每个任务类型的速率。形式上,IWTD问题(IWTDP)可以定义如下:IWTDP¼X;U;T>10000● X是任务流,例如X¼fx;x;. ;xg表示用于概念漂移检测的滑动窗口它保持统计数据12在时间t提交任务流n联合每个任务并通过减少节点处的统计量来移除过时的数据。众所周知,VFDT速度很快,Hulten等人(2001年)提出了VFDT的扩展。提出了一种自适应快速决策树(CVFDT)的概念,它利用一组样本周期性地评估树的质量。在等待固定数量的传入实例以确认更改之后创建备用树,并且在等待固定数量的传入实例以确认新树的准确性之后,用新的更准确的树替换旧的树。CVFDT保留了VFDT的特点,但速度快,精度高. Liang等人(2010)提出了一种不确定性处理和概念自适应的快速决策树(UCVFDT),作为CVFDT的扩展,可以处理具有不确定属性的数据UCVFDT基于DTU(Biao等人, 2009)(不确定数据的决策树)。UCVFDT保持了CVFDT高速应对概念漂移的能力。Hoeffding Window Tree(HWT)是由Albert和Ricard(2007)提出的,它是基于VFDT的。HWT保持下滑由一组用户xi是元组TaskID;t;uj;RRes>,使得TaskID是任务的唯一标识符,uj是提交任务的用户,t是提交任务的访问时间,并且RRes是任务的唯一标识符。<在任务执行期间,用户可能会请求可能与实际使用的资源Rxi不同的资源,因为用户倾向于高估所需资源的量。● U:是提交X的用户的集合。在时间t,用户u j负责提交一组任务X t,使得X t¼ fx1j t;x2j t;. 其中n表示由u j在t提交的任务的数量。 每个用户uj有一个配置文件j 使得具有Profile t的是u j在t处的Profile。● T:是 U提交 X的时间间隔IRD的目标是提取干扰率,形式上,IRD问题(IRDP)可以定义如下:IRDP¼ 102mmH. Toumi等人/Journal of King Saud University3471 2d¼●ðÞG¼f--ij jj使得M是共置VM的数量,RDvm是VM的资源需求,并且RSvm是VM的资源供应最后,服务器负载预测模型LPred可以定义如下:LPred¼A负载;IR;IWT;D>103μ m使得:● ALoad:ALoad¼,表示服务器的资源使用的实际负载。RU i是资源i使用的量。干扰率IR基于共置VM的数量M以及VM资源需求RD与VM资源供应RS之间在CPU和盘I/O方面的差异(Xu等人,2016年)。传入任务趋势IWT包括传入任务的类型在term的资源,等即:IWT其中rtyej是tyej任务D:ALoad;IR;IWT#FLoad是预测服务器未来工作负载FLoad的决策函数。因此,未来的服务器负载FLoad可以根据等式2来计算四、FLoad1/4A Load-一个带IW的带IR的带4A使得a是与活动任务(已完成/已中断)相关的已释放服务器资源,IW是由传入任务集确定的传入工作负载。5. 实时服务器负载预测系统描述图1显示了我们提出的方法的概述。当任务流到达时,第一步包括将传入任务分为四个主要类别:CPU密集型(CPU-I),RCPUI是CPU密集型任务的比率,MEMI是内存密集型任务的比率,RCPUMEMI是CPU密集型任务的比率,RN是正常任务的比率。服务器负载预测(SLP)模块将IWT、由VM干扰检测模块计算的IR和服务器的实际资源使用ALoad作为输入,并产生未来服务器的预测负载FLoad趋势,等的FLoad超载;CPU过载;内存过载;使用不足;正常。亲-引入更精确的预测来确定哪个资源过载将极大地帮助迁移步骤,因为它提供了关于哪些VM需要被迁移的洞察在下文中,我们将对每个模块进行更深入的描述。5.1. 传入工作负载趋势检测IWTD该模型由任务分类和趋势检测两个子模型组成5.1.1. 任务分类我们认为任务类型TYPExi取决于提交时间t期间的用户行为uj。事实上,云计算中的多租户不仅意味着IT基础设施由云用户共享,而且应用程序的任务也可以由不同的云用户共享。不同需求的用户。此外,用户的模式往往在不同的观察期内更加多样化,从而导致相同任务的不同执行长度和资源使用模式(Ismael等人,2013年)。因此,特定任务的资源使用可以在每个用户的基础上动态地重新分配(Ismael等人,2014年)。因此,相同的任务可能根据其用户而 属 于 不 同 的 类 型 。 正 如 我 们 在 论 文 中 提 到 的 ( Hajer et al. ,2017),任务类型的期望值由其概率P x t给出,该概率以P u t的概率为条件,例如u t是在时间t的用户简档。ExtxtPxtjPut5记忆强化(MEMI)、CPUMEMORY强化(CPUMEMI)和正常(N)。每个类确定任务计算每种类型的速率,以便检测传入的工作负载趋势,使得IWT/RCPUI;RMEMI;RCPUMEMI;RN>,ij ij ij ij用户配置文件u ,j可以是:CPU密集型(CPU-1)、存储器密集型(MEM-1)、CPU-存储器密集型(CPUMEM-1)或正常(N)。这意味着,例如,具有CPU密集型的用户Fig. 1. 建议的方法概述。●●348H. Toumi等人/Journal of King Saud University我IJJJXiX中央处理器输入输DCPUioCPUio11;xnm←0←0ð 0ÞD--fd¼Dmd;8i2½1;n]29Ixi12一aa配置文件意味着它提交的大多数任务都是CPU密集型的。uj的简档由他在t期间提交的任务集合Xuj确定。提交的任务X的流由已知的任务和未知的任务组成,这意味着xt已经在服务器S必须考虑到,随着时间的推移,xt的类型可能会改变,因为任务分布可能会由于用户行为的变化而漂移。此外,必须预期新用户和新任务的到来。任务分类主要是基于uj和t,这意味着ClassifyUnKnownCATGTask(x)和ClassifyUnKnownNUMTask(x)。ClassifyKnownTask(x)用于对已知任务进行分类ClassifyUnKnownCATGTask(x)和ClassifyUnKnownNUMTask(x)旨在对未知任务进行分类。5.1.2. 传入工作负载趋势检测趋势检测子模块将分类的任务作为输入,并计算每个类型rtyej的比率。其中N是在t时到达的任务的数量,使得:在t期间具有CPU-I简档的用户可能在相同的时间间隔t期间提交CPU-I任务,使得8xi jt2Xt,概率类型x jt 1/4 Y型 是P型x jt <$Typey<$PTypeyjut,例如:rtyej¼ rtyej任务Nð7Þi ijtPutj类型yP类型y5.2. 虚警干扰率检测P型yjuj蒲ð6Þ现有的大多数作品定义的工作量,未知任务xi意味着它的一个或多个属性是不确定属性。让<云服务器作为响应用户请求的服务器所使用的资源量并导致额外的随机负载属性,使得ATTa2ATT0x与ATT0x是不确定的集合xii美德.先知-愿给定一属于域多姆·萨拉特 Þ使得DomATT v1;v2;.. . ;v bg;ATT保留了概率分布,变化.性能干扰会影响任务的完成时间,从而导致服务器负载的意外行为(Caglar例如,2014年)。根据Xu等人(2016)的研究,性能干扰-Xi关于DomATTa我Xi可以是分类属性,例如用户可以看作是资源供给之间的不匹配属性uj或数值属性,例如RRes。任务分类模块由两个子模块组成:在线任务分类(OTC)和任务类型更新(TTU)。其原理如下:一旦任务到达,OTC子模块由托管服务器提供的资源和位于同一位置的VM的资源需求。因此,为了捕获VM的VM干扰率,(Xu等人,2014)提出了一个供需比模型,如下所示:使用UCVFDT将任务影响到一个类型UCVFDT是一个扩展我SiSiHulten等人提出的CVFDT。(2001年),旨在分类F¼c0c1:c2:ð8ÞD不确定的数据点。我们选择UCVFDT的原因是它是CVFDT的扩展 在我们最近的工作中(Hajer等人,我我中央处理器输入输出使得c0, c1和c2是由Xu确定的系数2017),我们对CC中用于任务分类的一些流挖掘算法进行了比较研究,包括CVFDT。实验结果表明,CVFDT算法在精度和完成时间上均优于其他算法。一旦任务被执行,TTU子模块的目标是使用来自服务器日志的任务执行信息来实现任务的类型。任务类型根据任务执行的实际信息实时更新,并考虑使用的CPU和使用的内存。这有助于保持我们的模型实时更新.算法1示出了任务分类模型的伪代码。算法1 OTC算法输入:X t¼ fx tt ;......的人。;xtg输出:任务类型对于每个传入任务x0t如果Xt:包含sx0t,则如果xt:getUser2Xt:getUsers不匹配,则TaskTypeClassifyKnownTask(xt)其他TaskTypeClassifyUnKnownCATGTask(xt)结束,如果否则TaskType←ClassifyUnKnownNUMT ask(x0t)Xt:添加xtend ifxt:SetType任务类型如算法1所示,OTC基于三个主要函数:ClassifyKnownTask(x),等(2016)。对于每个VM实例i,Di和Di表示其共处一地的VM的聚集的CPU利用率和磁盘I/O利用率,分别Si和Si分别表示其托管服务器上的可用物理CPU资源(核心)和I/O资源对于fi2= 0;1],小的fi速率意味着干扰高。VM干扰的总体性能降级因子fd被公式化为所有VM中的平均干扰值,并且其由下式给出:P如果我其中m是共同分配的VM的数量。5.3. 数据流准备实际上,服务器负载数据集表现出演化数据流的特性,因为它们遵循以
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功