没有合适的资源?快使用搜索试试~ 我知道了~
高吞吐量周期窃取分布式系统的能源效率优化策略
可在www.sciencedirect.com在线获取理论计算机科学电子笔记310(2015)65-90www.elsevier.com/locate/entcs高吞吐量周期窃取分布式系统中的节能检查点系统马修·福肖1英国泰恩河畔纽卡斯尔大学计算机科学学院A.斯蒂芬·麦高夫2杜伦大学英国达勒姆奈杰尔·托马斯3英国泰恩河畔纽卡斯尔大学计算机科学学院摘要检查点是一种容错机制,通常用于高吞吐量计算(HTC)环境中,以允许在遭受硬件或软件故障以及来自资源所有者和更重要任务的中断的计算资源上执行长时间运行的计算任务。 直到最近,许多研究人员一直专注于通过检查点实现的性能增益,但现在随着对IT基础设施能耗的日益关注,了解HTC环境中检查点的能源影响变得越来越重要。在本文中,我们通过跟踪驱动的模拟真实世界的数据集,现有的检查点策略是不足以维持一个可接受的水平的能源消耗,同时保持预期的性能增益与检查点。此外,我们确定的重要因素,在决定是否利用检查点内的HTC环境,并提出了新的战略,以减少能源消耗在保持性能优势的前提下,关键词:能量效率,检查点,迁移,容错,桌面网格1电子邮件:m. j. newcastle.ac.uk2电子邮件:stephen. durham.ac.uk3电子邮件:nigel. ncl.ac.ukhttp://dx.doi.org/10.1016/j.entcs.2014.12.0131571-0661/© 2015作者。出版社:Elsevier B.V.这是一篇基于CC BY-NC-SA许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-sa/3.0/)。66M. Forshaw等人理论计算机科学电子笔记310(2015)651引言集群计算的性能和可靠性问题已被广泛研究多年[18],从而产生了改进这些特性的技术。集群的“性能”的问题高吞吐量的周期窃取分布式系统,如HTCondor [23]和BOINC [1],允许组织利用现有基础设施上的空闲容量来进行有价值的计算。这些高吞吐量计算(HTC)系统经常用于执行大量长时间运行的计算任务,因此容易由于硬件和软件故障而中断。此外,像许多组织一样,我们利用由学生和学生机器组成的机构这样的中断会导致任务从资源中被驱逐,增加任务的完工时间和浪费的能量。这些长时间运行的任务的执行时间往往超过平均时间MTTF(MTTF)是指它们所执行的资源的平均故障时间。此外,运行数千个作业会大大增加其中一台计算机在运行期间出现故障的可能性因此,资源故障导致大量计算和能源消耗浪费。此外,这些开销导致系统中任务的完工时间(在文献中也称为逗留时间)检查点是一种容错机制,通常用于通过定期将应用程序状态的快照存储到稳定存储来提高可靠性和可预测性。然后,这些快照可以用于在发生故障时恢复执行,从而将浪费的执行时间减少到自上次检查点以来执行的时间。检查点设置以前曾在HTC集群上使用,很少考虑检查点设置开销所产生的能量消耗。近年来,注意力已转向组织内IT基础设施的能耗积极的电源管理政策,往往采用减少机构集群的能源影响,但在这样做,这些政策严重限制了高吞吐量系统可用的计算资源这些策略通常被配置为仅在短的空闲时间段之后将服务器和最终用户集群机器快速转换到低功率状态,从而进一步加剧了可靠性问题并降低了系统中运行的应用程序所感知的可用性。在这项工作中,我们深入了解了高吞吐量计算环境中检查点的能源影响,做出了以下关键贡献:• 评估文献[38][31]中先前提出的两种检查点方案对实际工作负载的能量影响。• 针对高吞吐量计算环境提出了新的检查点策略,并从平均任务完成时间和能耗两个方面评估了它们在实际工作负载下的性能。M. Forshaw等人理论计算机科学电子笔记310(2015)6567• 开发一个跟踪驱动的仿真环境,为研究HTC系统节能容错方法奠定基础论文的其余部分组织如下。我们在第2节中概述了相关工作,并在第3节中使用真实世界的数据集在高吞吐量计算环境中介绍了我们的实验方法和跟踪驱动的检查点模拟。第4节介绍了一些现有的检查点策略,我们提出了新的能源和故障感知检查点策略。在第5节中,我们展示了所提出的检查点策略对能源消耗的不利影响,激发了对HTC集群内检查点策略影响的进一步理解的需要最后,我们在第6节中讨论了在HTC集群中采用检查点时的关键考虑因素,并在第7节中得出结论。2相关工作2.1实时系统中的检查点以前的工作在能源意识检查点主要集中在实时系统[41,37,29]受到严格的能源和最后期限的限制。Zhang等人 [41]提出了一种自适应检查点方案,以最大限度地提高在存在k个故障的情况下满足任务截止日期的概率然后引入能耗作为二级优化标准,采用动态电压缩放(DVS)来维持处理器处于低功率状态,当需要满足任务的最后期限时转换到更高频率的操作模式Melhem等人 [29]提出了一种类似的方法,在没有故障的情况下采用DVS来利用任务的截止日期和预期完成时间之间的“松弛”时间,将处理器转换为性能较低但更节能的操作状态。Unsal等人 [37]评估应用级容错(ALFT)方案的能量特性,其中冗余和恢复逻辑在应用级并入,而不是在系统或硬件级提供,并提出一种任务调度启发式方法,将能量消耗降低高达40%。相比之下,我们的方案的高吞吐量计算环境是不受相同的预算约束的实时系统。HTC系统倾向于强调整体系统吞吐量而不是单个任务的完成怎么--这些方法可以被认为是对我们自己的方法的补充。2.2HPC中的检查点最近,研究已经试图了解容错机制的开销和能量影响,包括检查点,以期待兆级高性能计算(HPC)。 Bouguerra等人 [6]调查68M. Forshaw等人理论计算机科学电子笔记310(2015)65结合HPC系统中的主动和预防性检查点方案的影响,在开销增加可忽略不计的情况下实现高达30%的计算效率提高,但未考虑其对能耗的影响在兆级,预计故障频率会增加,能耗是一个关键问题[10]。为此,Diouri等人探索了MPI HPC工作负载上不协调和协调的检查点协议的能耗影响[14],而Mills等人通过在检查点期间应用动态电压和频率缩放(DVFS)来演示节能[30]。进一步的工作集中在能源和可扩展性问题有关的持久化检查点图像稳定存储.Saito等人[36]在保存检查点映像时考虑了节能,采用基于配置文件的I/O优化将检查点到NAND闪存的能耗降低了40- 67%。我们考虑应用DVS [41,37]和DVFS [30]来降低能量检查点操作的消耗是对我们方法的补充。2.3HTC系统检查点在高吞吐量计算环境和细粒度循环共享(FGCS)系统中的应用在[34,7]中得到了广泛的探讨,尽管没有考虑其对能耗的影响Aupy等人。 [2]在任意可分割任务的背景下研究了能量感知检查点策略。虽然可分割的任务包含许多常见的应用,包括BLAST测序和并行视频处理[40],但此类任务仅代表我们工作量的一部分,并且HTC系统通常无法控制批量任务的分割2.4仿真存在许多网格和集群级模拟器,包括SimGrid [20],Grid-Sim [8]和OptorSim [4],尽管这些模拟器更多地关注集群内和集群之间的资源选择最近,已经提出了云模拟器,其不仅能够对成本和服务质量之间的权衡进行建模,还能够对能耗进行建模。其中包括CloudSim [9]、GreenCloud [19]和MDCSim [22]。但是,这些不允许对具有交互式用户工作负载的多用途集群进行建模,也不支持检查点。Zhou等人 [42]提出了对CloudSim [9]框架的扩展,以支持容错机制的模拟,但其代码库尚未公开。Vieira等人。 [39]提出了ChkSim,一个基于Java的仿真环境,用于评估检查点算法。该工具侧重于工作负载的检查点方法,这些工作负载包括通过网络相互通信的相关进程组,相当于MPI HPC工作负载。Chk-Sim将未使用的检查点数量作为检查点的关键度量M. Forshaw等人理论计算机科学电子笔记310(2015)6569业绩;然而,它没有评估检查点设置方案对能量消耗的影响,并且可能不容易适用于对高吞吐量环境和交互式用户工作负载进行建模。3仿真在本文中,我们使用跟踪驱动的模拟对2010年在纽卡斯尔大学收集的真实数据集[26]评估了现有检查点方案的有效性3.1数据集2010年,纽卡斯尔大学的HTCondor集群由来自35个计算机集群的1,359台机器组成。这些联网的开放时间各不相同,有些联网的开放时间是开放的,有些联网的开放时间是24小时。集群可能属于大学内的特定部门,为特定的用户子集提供服务,也可能是公共区域的一部分,如大学图书馆或学生会大楼。联网内的电脑会按五年滚动计划更换为表一所列三大类别的电脑。能源消耗值是大学有一项政策,以尽量减少所有计算基础设施的能源消耗,该政策已实施多年,管理硬件的供应。因此,“普通”计算机被选为节能型计算机。“高端”计算机是为需要大量计算和/或渲染要求的课程提供的,例如CAD或视频编辑,因此它们具有更高的能量要求。‘Legacy’ computers pre-date the policy 群集中的所有计算机同时配置,并将包含等效的计算资源。因此,大学内的集群之间存在很大差异,但集群内没有显著差异图1显示了2010年所有HTCondor工作提交我们的工作量主要包括批量任务提交,平均提交率为1,454个任务提交,类型核速度功耗活性空闲睡眠正常23GHz57W40W2W高端43GHz114W67W3W遗产22GHz100- 180瓦50- 80瓦4W表1计算机类型70M. Forshaw等人理论计算机科学电子笔记310(2015)65Ssions每天然而,工作量显示出显著的变化,一年中有一半的时间提交的工作少于65份,并且有一些工作量非常大,例如2010年6月3日,93,000个职位提交。图2显示了交互式用户访问的季节性特征这些集群内的活动,表现出周末和工作日之间的明显差异,以及学期时间和假期的使用。100000100001000100101一月二月三月四月五月六月八月九月十月十一月十二月日期Fig. 1. HTCondor工作提交1000080006000400020000一月二月三月四月五月六月八月九月十月十一月十二月日期图二. 交互式用户到达3.2仿真系统在这项工作中,我们扩展了基于HTCondor软件的共享资源高吞吐量计算系统的跟踪驱动仿真模型[27,25,24]。这种基于Java的模拟软件比测量方法具有许多优点,使我们能够以受控和可重复的方式快速评估新的政策想法和调度决策,而不需要昂贵的测试环境,并且与基于实时划界案数量每天用户登录次数(千)M. Forshaw等人理论计算机科学电子笔记310(2015)6571HTCondor环境。由于在我们的环境中观察到的交易是高度海洋性的,跟踪驱动的模拟方法还允许我们跨各种工作负载和交互式用户需求比较策略。仿真环境的设计方式是,通过仿真评估的策略可以轻松部署到真实的HTCondor环境中[28]。模拟软件的行为由三个文件通知,第一个文件描述用于模拟的策略配置,第二个文件是用户访问计算机的跟踪日志,第三个文件是HTCondor工作负载的跟踪日志用户跟踪数据指示用户的登录和注销时间以及用户占用的特定计算机。在本文中,我们不模拟改变这种使用模式。相比之下,高吞吐量跟踪数据只包含作业提交的时间、作业的持续时间和作业完成时的内存占用。通过相互作用这些跟踪数据集,我们能够准确地模拟纽卡斯尔大学HTCondor系统和计算机集群的操作。我们扩展了我们的模拟环境,对第3.3节中介绍的检查点模型进行建模,并评估了在系统中制定第4虽然在这项工作中,我们主要考虑能源消耗和平均任务完工时间,我们的模拟记录了许多额外的性能指标,使我们能够评估政策对系统的所有领域在以前的工作[27]中,我们研究了资源分配策略对高吞吐量系统的能量效率的影响,根据能量效率和估计的中断可能性在整个工作中,我们认为随机资源分配策略是许多HTC系统中最具代表性的默认策略。我们提供了多个模拟运行的平均结果,并报告了由于这种不确定性的资源分配而引入结果的可变性。将检查点和迁移策略引入HTC系统,通过重复分配“坏”任务,解决了浪费执行的问题为了减少这样的执行并隔离检查点策略对系统操作的影响,在我们的整个实验中,我们将执行时间限制为总共24小时,这相当于我们的HTCondor集群中观察到的最大可用期,这是由于每晚集群重新启动。虽然我们的仿真环境是基于HTCondor系统设计的,但我们对HTC工作负载和计算资源的表示是通用的,因此我们相信我们的结果很容易推广到类似的高吞吐量计算环境.3.3检查点和故障模型Choi等人 [11]对桌面网格环境中遇到的两种故障进行了分类:易失性故障(包括机器崩溃和由于网络问题而导致的不可用),以及由志愿者性质引起的干扰故障。72M. Forshaw等人理论计算机科学电子笔记310(2015)65去除驱逐检查点去除移除职位工作机会驱逐分配交互式用户到达去除任务运行完成工作干完交互式交互式用户到达驱逐用户分离去除悬浮图三. 作业状态转换图的资源。我们在整个工作中考虑的正是这些干扰故障。此外,我们认为资源波动的形式定期夜间重启维护。图3显示了在出现这些故障的情况下,系统中单个作业执行的状态转换图。作业由用户提交,并在分配到资源之前加入队列。作业一旦运行,就很容易由于交互式用户访问资源而中断。作业可以被立即驱逐,或者被暂停一段时间,在这段时间之后,如果交互式用户还没有离开,则作业被驱逐。此外,作业可在处于任何非最终状态时由其所有者或系统管理员作业还可以周期性地检查点,在此期间,它们的执行被暂停,同时拍摄应用程序状态的快照。虽然基于MPI的并行应用程序等高性能计算(HPC)工作负载依赖于节点之间的低延迟互连和显著带宽,但HTC作业通常具有最低的网络要求,因此我们预计检查点对驻留作业的影响可以忽略不计。因此,我们假设一旦检查点作业的执行恢复,就可能发生我们的检查点模型与文献中提出的模型不同,因为我们假设在检查点操作和后续恢复过程中可能会发生3.4功率模型服务器和商品硬件的能耗已在文献中广泛研究。早期的工作在开发能源消耗的预测模型时利用了低级别的指标,例如每单位时间计数器[5]。这些模型往往需要大量的架构知识,并且通常无法推广到其他硬件,也无法扩展到整个计算机系统。一M. Forshaw等人理论计算机科学电子笔记310(2015)6573能耗和CPU利用率之间存在很强的线性相关性,一些研究将其用作能耗的预测因子[15],而另一些研究则基于CPU、内存和存储子系统的利用率导出线性回归模型[13,35]。文献提供了单个服务器[13,35],系统组[33,16,15]和虚拟化环境[12]的在这项工作中,我们缺乏HTC工作节点的资源利用信息,因此采用了一个功率模型,该模型采用了容易获得的“低”功耗值,其中机器可能属于高级配置和电源接口(ACPI)规范[ 17 ]中定义的三种表1显示了我们的模拟中考虑的三类机器,以及每个状态下的相关功率值在这项工作中,我们假设检查点存储在现有服务器的稳定存储上,这些服务器被配置为充当中央管理器并为HTCondor提交节点,因此能够降低其能耗。因此,我们模型的能量成本的检查点操作作为能源消耗的资源在检查点操作。在设计检查点策略时,我们确保它们只依赖于现成的系统信息,避免昂贵的计算,这样它们就可以很容易地在一个真正的HTC系统中实现。下面列出的策略使用了通过HTCondor ClassAd机制[32]和其他HTC系统暴露的系统信息,因此我们认为这些策略都是现实的。4政策在本节中,我们将介绍贯穿本工作的检查点策略我们将这些策略分为确定检查点评估事件之间的间隔的策略和确定是否应该针对给定的评估事件进行此外,我们提出了一类迁移策略,主动检查点在预期的故障事件,并迁移任务的资源不易发生故障。4.1基线政策建议采用以下检查点政策,作为评估拟议政策竞争力无:这代表了2010年在纽卡斯尔大学HTCondor游泳池颁布的政策,那里没有工作被检查。Opt:用于最佳情况比较的最佳检查点策略,即作业在被驱逐之前立即被检查点。这一政策的结果是最大可能的减少能源消耗和makespan实现使用检查点机制,假设未来事件的完美知识。为了提供一个现实的最优策略,我们根据我们的比较,在Opt方案检查点只执行当前执行时间的作业是大于或等于检查点操作的持续时间。否则,不采用检查点,从而导致一些计算损失74M. Forshaw等人理论计算机科学电子笔记310(2015)65⎨⎩4.2检查点间隔在这里,我们提出了一些政策,确定检查点操作的作业之间的时间间隔。C(n):每n分钟检查一次作业。每小时检查点(C(60))在文献中经常被考虑,HTCondor默认策略相当于C(180)[38]。Multi(nopen,nclosed,t):该策略利用容易获得的系统知识,将计算机集群打开/关闭状态分别视为类似于高和低我们将集群j中的作业在时间τ时到下一个检查点间隔的时间定义为:Ij,τ=nopenifsi,j,fi,j:si,j-cj≤τ≤fi,j-cj否则,将关闭(一)其中si,j是集群j中的所有开放时段的开始的有序集合,fi,j是集群j中的所有关闭时段的对应有序集合,并且cj是用于减轻在边界附近选择的检查点区间的影响的时间区间,该边界被分配了相对于下一区间的坏检查点区间MinuteInHour(m,t):在我们对机构工作量的分析中,我们观察到很大一部分来自交互式用户的中断发生在办公时间内接近小时边界的地方。这是由于系统的交互式用户主要由授课学生组成,学生在预定的实践课程和讲座之前到达和离开计算机。 在此策略中,我们利用这一观察结果,设置检查点间隔,以便在中断增加之前执行下一个检查点设置间隔i使用以下等式导出:i=0m-jmin+Rifjmin(m-t)(二)60+(m-jmin+R),否则其中jmin(0≤jmin≤ 59)是我们计算下一个检查点间隔的小时过去的分钟数,阈值t表示作业可以被检查点设置之前的最小作业运行时间,并且m是我们希望执行检查点的小时过去的分钟数在同时向系统提交大量作业的情况下,这可能会导致同时采取许多检查点。在实际系统中,这可能会给网络和存储节点带来很大的负载。为了减轻这些潜在的影响,我们在检查点间隔R中引入了一个随机分量,其中R是均匀分布在[-r,r]上的随机变量,以分钟为单位测量随着r值的增加,系统将变得不太容易受到由批量到达引起的大量同时检查点的影响,但限制了策略在检查点调度中利用分钟周期行为的能力。Ratio(p):在这个策略中,我们对执行的比例设置了一个上限M. Forshaw等人理论计算机科学电子笔记310(2015)6575pJ⎩通过检查点操作消耗的时间。 的检查点间隔i给定作业j的计算公式为ij=dj其中dj是估计的时钟脉冲持续时间对于作业j,p是检查点所占用的执行时间的最大比例。StartDelay(n,d):通过初步调查,我们观察到很大一部分浪费的检查点是由于短时间运行的作业的检查点。虽然任务的执行时间不是先验已知的,并且用户估计已经被证明是不准确的[3],但该策略旨在减少这种浪费,应用开始延迟d,在此之前,新分配的任务可能不会被检查点,之后每n分钟检查一次任务GeometricProgression(a,r):这里我们提出了一种基于几何级数的广义回溯策略,其中作业j的第n个检查点间隔的持续时间由下式给出:in=0a如果n=0(三)arn−1ifn≥ 1其中a表示初始检查点间隔,r(r≥0)表示序列的Oliner等人提出的“指数回退”策略。 [31]等价于r = 2的几何级数策略。4.3跳过检查点策略在每个检查点间隔,必须决定是继续执行检查点操作,还是推迟到下一个检查点间隔。这些决策可以是静态的,或者可以由系统或作业的状态通知ClosedCluster:一个简单的策略,包含容易获得的有关机构计算机集群的信息,当运行作业的集群关闭以供交互式用户使用到达间隔(w、m、l、d):一个政策,需要更深入地了解HTC系统的全局状态,在这个政策中,我们观察互动用户到达的数量在一个滑动窗口的w分钟。检查点操作的可行性每隔m分钟评估一次,如果来自事件集E的周期ei中的到达次数大于阈值l,并且作业先前在最后d分钟内没有被检查点,则执行检查点操作。这一政策可表述如下:如果t=0,则t(t−cj)≤d。 ,ei. ei∈Et−w≤T(ei)≤t,. ≥l(四)否则 跳过其中当前时间是t,T(e)是交互式用户事件e的到达时间,cj表示作业j上次被检查点的时间(或者对于先前没有被检查点的作业为0我们考虑这种策略的两种变体,一种考虑作业本地机器集群中到达的机器数量,另一种考虑作业本地机器集群中到达的机器数量。76M. Forshaw等人理论计算机科学电子笔记310(2015)65交互式用户到达整个系统。4.4主动迁移除了能够从故障中恢复之外,检查点机制还可以用于支持计算任务的主动迁移,以减少完工时间和能耗。计划:任务被迁移以避免计划中断,例如纽卡斯尔大学的所有计算机每天在凌晨3点到5点之间重新启动,以执行例行维护和应用更新。检查点打开:一种事件驱动的检查点策略,其中检查点操作在集群从关闭转换为开放以供交互式用户使用5结果None和Opt策略对平均任务开销和能耗的影响显示在图中分别为4和5所有结果均为从5次模拟运行中获得的平均值,误差条表示95%置信区间值。14121086420见图4。 平均任务开销2010年的HTCondor工作负载没有应用检查点机制,导致平均任务开销为12.94分钟,能耗为112 MWh。在这种情况下,任务开销是由新到达或被驱逐的作业等待资源可用所花费的时间造成的。在我们的最优策略下,假设完全了解故障,开销减少到3.48分钟,从而产生54.6 MWh的能耗在这里,生成平均任务开销(分钟)没有一中文(简体)OPT(30)中文(简体)OPT(60)OPT(120)OPT(180)OPT(240)M. Forshaw等人理论计算机科学电子笔记310(2015)6577- 我是说...Σ120100806040200图五. 能耗在最优检查点间隔选择的情况下,检查点对检查点设置的效率几乎没有影响。5.1策略结果我们评估了拟议政策的影响,作为检查点方法的最大收益比例。我们将福利功能定义如下:Bene fit = 1vx−vopt(5)vnone−v opt其中vx可以指给定策略x的平均任务完成时间、能量消耗或检查点利用率,并且vnone和vopt分别指None和Opt基线策略我们将检查点利用率定义为随后用于恢复的已完成检查点操作的比例,表明给定策略图6a、6b和6c显示了该策略对我们的固定(周期性)检查点策略的完工时间、能耗和检查点利用率的影响。显示了检查点生成持续时间从1分钟到4分钟的结果。我们观察到,该政策有可能实现能源和最大完工时间的节省,这是多达60%的最佳时,政策是正确的参数化。最佳的检查点间隔被证明是依赖于检查点持续时间的工作量,与一个和四分钟的工作集中在30和55分钟左右的最佳间隔。在所有情况下,如果选择的检查点间隔小于30分钟,则性能会显著下降,检查点操作的成本超过可能节省的成本,从而导致整体性能和能耗恶化。随着检查点间隔长度的增加,检查点的好处趋于零,表示没有任务执行间接费用能源消耗(兆瓦时)没有中文OPT(30)中文OPT(60)OPT(120)OPT(180)OPT(240)78M. Forshaw等人理论计算机科学电子笔记310(2015)65检查作业。我们观察到只有一小部分成功生成的虽然在180分钟的检查点间隔内,利用率上升到约15%,但从 那么早以前生成的检查点将是有限的。当考虑以前在文献中考虑的检查点策略时,每小时检查点(C(60))提供了良好的性能,这取决于为作业生成检查点所需的时间,但我们表明HTCondor默认的C(180)[38]对我们的工作负载几乎没有好处。在图7a、图7b和图7c中,我们将固定周期性方案与计划主动迁移策略进行了比较为了提高可读性,我们提供了检查点持续时间为1分钟和4分钟的每个策略的结果。当考虑使用计划重新启动主动迁移的ClosedCluster策略时,我们观察到平均任务开销和能耗的显着改善,该策略在所有检查点间隔长度上都优于固定定期检查点方案虽然最大比例的完工时间和节能仅从固定周期方案的0.6上升到CCSR方案的0.7,但在更宽范围的检查点间隔上观察到这种改进,使得这些策略不太容易受到次优检查点间隔选择导致的性能差的影响。此外,我们观察到在所有情况下生成的检查点的利用率在图8a、8b和8c中,我们展示了几何策略的结果显示了30分钟检查点间隔和不同公比参数的结果R. 我们发现这一政策为能源提供了好处,并为所有价值创造了最大限度的效益。钢筋混凝 参数r的最佳选择取决于检查点持续时间, 对于1分钟检查点,r=1;对于4分钟检查点,r=2。此外,该共同比率的选择取决于HTC工作量的组成,较短或较长的作业的较大比例影响要选择的最佳值。 这一政策的一个有趣的延伸是探索基于工作负载的预期执行时间来选择r。我们的MinuteInHour策略的结果如图9a、9b和9c所示。使用交互式用户活动的知识来通知检查点操作的位置,发现在能量和完工时间节省的20%的改进,其中m=55相比,在小时边界上进行的检查点。我们引入随机分量r来防止同时安排大量的检查点,从而导致网络拥塞和增加的传输延迟。为了验证这种调整的潜在影响,我们显示了以下结果:一个刻意保守的值r= 5分钟。在此政策下,能源和完工时间的节省减少,特别是对于四分钟检查点的情况下,由于检查点操作被推迟到小时边界,增加了中断的可能性利用率在很大程度上仍然不受参数m的选择的影响。在一个真实的系统中,我们预期一个小得多的r值就足够了。M. Forshaw等人理论计算机科学电子笔记310(2015)657910.80.60.40.20−0.2−0.4-0.6-0.8−10 20 40 60 80 100 120 140 160 180检查点间隔(分钟)(a) 固定检查点政策对能源消耗的影响10.80.60.40.20−0.2−0.4-0.6-0.8−120 40 60 80 100 120 140 160 180检查点间隔(分钟)(b) 固定检查点策略对平均任务开销的影响25201510500 20 40 60 80 100 120 140 160 180检查点间隔(分钟)(c) 固定检查点策略对检查点利用率的影响见图6。 固定检查点策略1 min2 min3 min4 min1 min2 min3 min4 min比例最大跨度节省1 min2 min3 min4 min比例节能检查点利用率(%)80M. Forshaw等人理论计算机科学电子笔记310(2015)6510.80.60.40.20−0.2−0.4-0.6-0.8−10 20 40 60 80 100 120 140 160 180检查点间隔(分钟)(a) ClosedCluster策略和计划的主动迁移对能耗的影响。10.80.60.40.20−0.2−0.4-0.6-0.8−120 40 60 80 100 120 140 160 180检查点间隔(分钟)(b) ClosedCluster策略和计划的主动迁移对平均任务开销的影响。504540353025201510500 20 40 60 80 100 120 140 160 180检查点间隔(分钟)(c) ClosedCluster策略和计划的主动迁移对检查点利用率的影响。见图7。已关闭群集策略和计划的主动迁移比例最大跨度节省比例节能检查点利用率(%)1分钟,固定4分钟,固定1分钟,SR4分钟,SR1分钟,CCSR4分钟,CCSR1分钟,固定4分钟,固定1分钟,SR4分钟,SR1分钟,CCSR4分钟,CCSR1分钟,固定4分钟,固定1分钟,SR4分钟,SR1分钟,CCSR4分钟,CCSRM. Forshaw等人理论计算机科学电子笔记310(2015)658111分钟0.82分钟3分钟0.64分钟0.40.20−0.2−0.4-0.6-0.8−11 2 3 4 5 6 7 8 9 10公比(r)(a) 几何政策对能源消耗的影响11分钟0.82分钟3分钟0.64分钟0.40.20−0.2−0.4-0.6-0.8−11 2 3 4 5 6 7 8 9 10公比(r)(b) 几何策略对平均任务开销的影响251 min2 min3 min204分钟1510501 2 3 4 5 6 7 8 9 10公比(r)(c) 几何策略对检查点利用率的影响见图8。 几何政策比例节能比例最大跨度节省检查点利用率(%)82M. Forshaw等人理论计算机科学电子笔记310(2015)6510.80.60.40.20−0.2−0.4-0.6-0.8−15 10 15 20 25 30 35 40 45 50 55 60分钟/小时(m)(a) MinuteInHour政策对能源消耗的影响10.80.60.40.20−0.2−0.4-0.6-0.8−15 10 15 20 25 30 35 40 45 50 55 60分钟/小时(m)(b) MinuteInHour策略对平均任务开销的影响25201510505 10 15 20 25 30 35 40 45 50 55 60分钟/小时(m)(c) MinuteInHour策略对检查点利用率的影响见图9。 MinuteInHour策略图10a、10b和10c显示了Ratio策略的结果。该策略利用了对给定作业生成检查点所需时间的估计我们观察到,检查点可以确保占用14%的执行时间,这对我们的工作负载来说是最大的好处。超过这一点,福利开始减少,检查点的成本为10.15%,1 min,r=01 min,r=54 min,1 min,r=01 min,r=54 min,1 min,r=01 min,r=54 min,比例节能比例最大跨度节省检查点利用率(%)M. Forshaw等人理论计算机科学电子笔记310(2015)6583操作超过由于中断而丢失的执行。在Ratio策略下考虑检查点利用率时,利用率会随着检查点所花费的执行时间比例(以及检查点操作的数量10.80.60.40.20−0.2−0.4-0.6-0.8−10 110 10检查点比例(%)(a) 比率政策对能源消耗的影响10.80.60.40.20−0.2−0.4-0.6-0.8−10 110 10检查点比例(%)(b) 比率策略对平均任务开销的影响3025201510500 110 10检查点比例(%)(c) Ratio策略对检查点利用率的影响见图10。 率政策图11a、11b和11c显示了我们的政策延迟的结果。作业检查点的开始除了C(60)一分钟外1 min2 min3 min4 min1 min2 min3 min4 min比例节能比例最大跨度节省1 min2 min3 min4 min检查点利用率(%)84M. Forshaw等人理论计算机科学电子笔记310(2015)65检查点,我们观察到在任务执行的第一个小时延迟检查点的开始有一定的好处。由于构成我们的工作负载的作业的执行时间相对较短,结果开始减少超过1.90分钟的启动延迟,因为启动延迟比执行时间长 任务的时间。检查点利用率图中以大约120分钟为中心的可观察到的下降也是任务执行时间和启动延迟之间的这种相互作用的假象在图12a、12b和12c中,我们示出了确定预定检查点操作应当进行的条件的到达间隔策略的结果这些结果中的每一个都显示为一分钟检查点持续时间,以及长度为一分钟、十分钟和二十分钟的滑动窗口。我们提出了两种变化的政策,其中之一,制定检查点的工作的基础上,在集群中的互动用户到达的工作正在执行,和其他基于整个系统的互动用户到达系统级检查点的策略,以提供更大的改善,以能源消耗和开销相比,基于路由器的方法,尽管显着较低的检查点利用率。结果表明,使用一分钟滑动窗口的策略比具有较长窗口长度的策略对交互式用户到达阈值(l)的选择更敏感。在这两种情况下,小的l值的好处都是最大的,但是我们没有发现如此低数量的用户到达是我们工作负载的任务抢占的一个足够好的预测器5.2总结从我们的初步调查的结果,我们注意到,对于周期性检查点方案,检查点生成持续时间往往是一样重要的检查点间隔的选择。这突出了检查点调度策略和检查点机制本身的效率虽然我们发现检查点可以显著改善任务开销,但对于包括定期检查点在内的许多策略,其好处依赖于正确的策略参数化。探索自适应检查点策略的方法,使参数适应所观察到的交互式用户和HTC工作负载的能力,将成为这一领域正在进行的工作的基础此外,在检查点减少平均完工时间的巨大潜力中,一个重要的贡献因素是纽卡斯尔大学HTCondor集群中观察到的相对较低的负载(2010年约为12%)。相反,被逐出的作业被快速重新分配,在等待资源变得可用时只会产生很短的延迟。我们预计,对于使用率更高的游泳池,这些完工时间节省将更为适度这项工作的一个关键发现涉及基于负载的措施来管理检查点方案的操作的有效性。虽然我们发现政策包含计划中断和集群将对交互式用户关闭的时间段的知识,但我们的基于阈值的用户到达间隔政策并没有带来显著的好处。在一个真实的世界系统中,这种去-
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 高清艺术文字图标资源,PNG和ICO格式免费下载
- mui框架HTML5应用界面组件使用示例教程
- Vue.js开发利器:chrome-vue-devtools插件解析
- 掌握ElectronBrowserJS:打造跨平台电子应用
- 前端导师教程:构建与部署社交证明页面
- Java多线程与线程安全在断点续传中的实现
- 免Root一键卸载安卓预装应用教程
- 易语言实现高级表格滚动条完美控制技巧
- 超声波测距尺的源码实现
- 数据可视化与交互:构建易用的数据界面
- 实现Discourse外聘回复自动标记的简易插件
- 链表的头插法与尾插法实现及长度计算
- Playwright与Typescript及Mocha集成:自动化UI测试实践指南
- 128x128像素线性工具图标下载集合
- 易语言安装包程序增强版:智能导入与重复库过滤
- 利用AJAX与Spotify API在Google地图中探索世界音乐排行榜
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功