云计算中异构GPU资源管理及能源消耗分析

50 浏览量更新于2023-12-10 收藏 1021KB PDF 举报

在线获取

电子笔记

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

可在www.sciencedirect.com在线获取理论计算机科学电子笔记340（2018）3-22www.elsevier.com/locate/entcs云计算中图形处理单元的整体资源管理AbdulazizAlnori和KarimDjemame英国利兹大学计算机学院摘要云计算的持续发展吸引了个人和组织改变他们的IT战略。根据这种发展和使用云计算的增量需求，云提供商不断更新云基础设施以适应增量需求。最近，加速器单元（诸如图形处理单元（GPU））已经被引入云计算中。这种更新的存在导致在云基础设施中提供硬件异构性的增加。随着硬件异构性的增加，新的问题也会出现。例如，管理异构云基础设施，同时保持服务质量（QoS）和最大限度地降低基础设施运营成本将是一个重大问题。因此，需要开发新的管理技术来有效地管理更新的云基础设施。在本文中，我们提出了一个系统的架构，以管理异构GPU在云环境中考虑的性能和能源消耗作为关键因素。此外，我们开发了一个异构GPU分析器作为实施的第一步所提出的架构。它旨在定量比较和分析两种不同GPU架构（NVIDIA Fermi和Kepler）在性能、功耗和能耗方面的行为。实验结果表明，在Fermi GPU中，通过合理的分块和分块线程数分配，可以节省13.1%的能量，在Kepler GPU中，可以节省11.2%的能量关键词：云计算，图形处理单元，服务质量，异构GPU分析器。1介绍处理图形处理单元（GPU）的编程平台的存在，例如计算统一设备架构（CUDA）[11]和开放计算语言（OpenCL）[9]，已经将GPU的使用从其标准用途（在计算机屏幕上显示图像和视频游戏）转移到计算用途。这些编程平台的出现导致设计应用程序以在GPU上运行，用于具有高性能能力的通用用途。第1Email:scasal@leeds.ac.uk2Email:K.Djemame@leeds.ac.ukhttps://doi.org/10.1016/j.entcs.2018.09.0021571-0661/© 2018由Elsevier B. V.这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。4A. Alnori，K.Djemame/理论计算机科学电子笔记340（2018）3云计算利用计算资源的虚拟化，允许最终用户以可接受的价格提供这些资源。在增加计算需求的过程中，GPU已经被引入云数据中心，因为它们的性能和它们对某些应用程序的适用性[16]。此外，GPU集群将在未来的云计算数据中心中发挥重要作用，因为一些计算密集型应用程序需要使用GPU和CPU[36]。像Amazon[2]、Microsoft Azure [1]、IBM Bluemix [5]、NIMBIX[6]和最近的Google[4]这样的云计算提供商已经使用户能够访问位于其云数据中心的GPU。因此，最近的情况正在改变云数据中心的分类和管理这些资源的方法。云服务提供商必须持续为最终用户提供性能，维持最终用户应用的性能需要在云基础架构中采取一些纠正措施，例如虚拟机（VM）实时迁移技术;这些措施会在云基础架构中产生大量的能量消耗，并增加运营成本。美国数据中心能源使用报告[33]指出，2014年美国数据中心消耗的总能源估计为700亿千瓦时，约占美国总能源消耗的1.8%。该报告还显示，从2014年到2020年，美国数据中心的能源消耗预计将增加4%。因此，业务费用的账单将继续增加。随着这种大规模的能源使用，云数据中心的节能解决方案已成为一个主要的研究问题。云物理基础设施（即CPU、内存和网络）在性能、能耗和成本方面已经被研究人员然而，物理云基础设施中的异构GPU资源在性能和能耗方面需要更多考虑。因此，建立一个资源的供应框架来支持应用以实现服务质量（QoS）和降低运营成本是非常因此，本文的研究目的是在保证GPU性能稳定的前提下，提高GPU应用在云计算环境中的可用性，同时通过最小化能耗和增加GPU资源共享来降低运行成本本文的主要贡献在于：1）提出了一种通用云计算环境下GPU资源共享管理的系统架构。该架构将关注应用部署时间，并确保应用QoS在操作时间内得到满足。此外，在这个架构中，我们将考虑性能和能源消耗作为关键因素。2）通过对比实验研究，揭示了异构GPU架构对性能、功耗和能耗本文其余部分的结构如下。第二节介绍了相关的工作。第3节介绍了拟议的架构。第4节介绍了异构GPU的基准测试和分析。第5节介绍了GPU基准测试实验和结果。最后，第六部分对全文进行了总结，并对未来的工作进行了展望.A. Alnori，K.Djemame/理论计算机科学电子笔记340（2018）352相关工作云计算为最终用户提供了以合适的价格访问资源池的机会。然而，使用CPU和GPU构建的提供GPU应用程序的数据中心和超级计算机消耗大量电力，这将增加运营成本。例如，2015年Titan Cray XK7超级计算机的能耗为820万瓦[7]。处理能耗的一种方法是使用虚拟化技术，例如，[19]中进行的一项研究旨在通过使用虚拟化技术减少系统中物理GPU的数量。然而，本研究并未提及资源管理活动以及这些活动对性能和能耗的影响。为了降低成本和实现服务质量，有必要建立一个支持应用的资源配置框架。在[15]，[21]，[32]，[27]，[14]和[35]中进行的研究涉及预测在云计算中执行应用程序所需的资源，以降低运营成本并减少能耗，并为最终用户提供稳定的性能在云计算环境中，对CPU、内存、网络等标准资源的管理能量效率的研究已经引起了广泛的关注。例如，在[22]，[20]，[18]和[28]中进行的研究提出了能量感知机制来管理云计算环境中的资源。然而，他们没有考虑GPU应用程序和在云计算中运行这些应用程序的资源供应虽然在[24]，[30]，[25]，[31]和[34]中进行的研究将云计算中的GPU调度作为第一级调度，但他们仅将性能视为将虚拟GPU分配给物理GPU的关键因素，忽略了分配这些VM时的能耗因素。此外，先前的研究没有考虑用于分配目的的能耗预测。此外，通过使用实时迁移，VM可以根据其要求的条件动态迁移到更少数量的PM[17]。因此，在云计算中开发资源管理机制是随后，当应用程序需求未完全满足时，连续实时迁移技术可能会带来性能下降，这可能会导致SLA违规[13]。因此，云计算提供商应该意识到能耗与性能和运营成本之间的权衡。因此，云系统包括自适应管理以自动满足最终用户的QoS要求并防止违反SLA是很重要的。在[37]中，进行了自适应管理框架以管理云计算中的GPU资源，但其仅关注满足SLA要求的性能。在[23]中，作者开发了一个自适应管理框架，以保证考虑能源效率的SLA，但他们只考虑云游戏的角度，而不处理本研究中具有通用用途的GPU应用程序。6A. Alnori，K.Djemame/理论计算机科学电子笔记340（2018）3在GPU功耗分析方面，作者在[29]中提出了一项分析功耗与工作负载特性之间相关性的研究。该研究是在模拟环境中进行的，但没有考虑异构GPU架构。在回顾了目前在云计算中管理异构GPU以供通用用途的工作之后，我们得出结论，缺乏关于如何在部署和操作时间中管理GPU应用程序的生命周期以在异构云基础设施中运行这些应用程序的研究，同时考虑两个因素：性能和能耗。因此，我们提出了一个系统的架构来管理异构GPU在云环境中考虑性能和能源消耗的部署和操作时间的关键因素3所提出的架构为了实现研究目标，提出了一种自适应系统架构，如图1所示，以管理在VM内运行的GPU应用程序，重点关注两个参数：云计算环境中的能耗和性能，分为两个阶段：部署和操作时间。该架构考虑了云计算中GPU应用程序从部署到运行的生命周期，并提供了一个自适应框架来保证应用程序的运行时QoS在服务部署之前，能量预测建模器将估计GPU应用消耗的能量。这将允许VM调度器将服务分配给最节能的VM。在运行期间，自适应管理器将持续监控应用程序的性能，并在性能下降时采取主动和纠正措施。所提出的体系结构由交互组件组成，以实现本研究的目标，每个组件都有一定的作用，如下所示异构GPU分析器旨在分析和比较异构GPU架构，例如Fermi和Kepler，在性能，功耗和能耗方面，请参见第4节。能耗预测建模器负责预测在虚拟机（VM）上运行GPU应用程序的能耗，同时考虑部署和操作阶段的功耗。VM分配器基于来自预测模型的输出并且在操作阶段期间将VM分配（VM）给物理机（PM）。基础设施监控器负责观察物理基础设施的性能和功耗，并将监测到的数据发送给自适应管理器和虚拟机管理器。自适应管理器是一个组件，它确保在VM内运行的GPU应用程序期间满足QoS，并实现MAPE-K [26]（监视，分析，计划，执行和知识）技术。自适应管理器将需要调用VM调度器和预测建模器来维护应用程序调用预测建模器的目的是A. Alnori，K.Djemame/理论计算机科学电子笔记340（2018）37预测应用程序的未来行为。当未来的行为应用程序表现出性能下降，自适应管理器将调用VM调度器来重新调度VM，以稳定应用程序图1：建议的架构的高级别4异构GPU基准测试和分析作为实施拟议架构的第一步，重要的是根据适当的资源管理开发来分析和比较云基础设施中GPU架构的异构性本研究涉及两代NVIDIA GPU架构：Fermi和Kepler。开普勒体系结构比费米体系结构更新，能量效率更高。C2075和K40c分别是费米和开普勒结构的例子我们分析的架构行为的GPU的三个标准：每-带宽，功率和能源消耗。我们研究了上述标准中软件方面对GPU架构方面的影响。软件方面被定义为开发人员分配的块的数量和每个块的线程数量，以运行内核，内核是GPU执行的功能。这是通过使用处理GPU的特定编程语言来执行的选择的编程语言是NVIDIA支持的CUDA。此外，我们还研究了影响性能和功耗的因素。这些因素是硬件块调度、GPU8A. Alnori，K.Djemame/理论计算机科学电子笔记340（2018）3占用和内存层次结构，如设备内存。在本研究中，我们不考虑CPU和主存储器在性能、功耗和能耗方面的影响。硬件块调度可以定义为可以在流多处理器（SM）中分配的块的数量。我们使用CUDA占用率计算器[3]中的公式来计算每个SM中分配的块数和GPU占用率。为了找到每个SM的块数，我们首先使用以下公式计算给定内核中每个块的warp数量每个块的扭曲数=每个块数#warp size（一）其中经线尺寸= 32根线然后，我们通过使用以下公式找到每个SM的块数：每个SM的块数=min（每个SM的最大块数每SM的每块的（2）占用率是分析处理通用GPU时性能的重要指标。GPU占用率定义为SM中活动线程数与最大线程数的比率。GPU占用率的值介于0和1之间。为了计算GPU占用率，我们使用以下公式：GPU占用率=每个SM的块数×每个块的扭曲数每SM的（三）每个块的活动线程百分比是指分配的线程与每个块的最大线程它通过以下公式计算每个块数每个块的活动线程数=#每个块的最大线程数× 100（4）我们假设每个块的活动线程百分比代表GPU工作负载，因为它足以代表两种GPU架构的GPU利用率。5执行异构GPU基准测试和结果本节将解释异构GPU分析的步骤5.1实验设置和设计实验是在利兹大学的云计算学院测试平台上进行的。实验在两个异构GPU支持的这些异构GPUA. Alnori，K.Djemame/理论计算机科学电子笔记340（2018）39NVIDIA Fermi C2075和NVIDIA Kepler K40c。OpenNebula [10]被用作虚拟基础设施管理器（VIM）。使用KVM hypervisor。此外，使用的操作系统（OS）是Linux CentOS。表1显示了每个VM的资源，表2显示了Fermi C2075和Kepler K40cGPU的详细信息CPU英特尔至强E5-2630 v3 2.4GHz英特尔至强E5-2630 v3 2.4GHzVCPU88RAM大小32 GB64 GBGPUNVIDIA Fermi C2075NVIDIA Kepler K40c管理程序KVMCUDA编译器版本7.5OSLinux CentOSVIMOpenNebula表1虚拟机详细信息Details费米C2075开普勒K40cCUDA核心4482880SMS1415核心/SM32192核心频率（MHz）1150745内存大小（GB）612最大功耗（W）225235最大线程数/块10241024最大扭曲/SM4864最大螺纹块/SM816表2Fermi C2075和Kepler K40c GPU特性在这些实验中，我们使用了一个CUDA矩阵乘法应用程序，复杂度为O（n3）。CUDA编译器Version7.5用于编译矩阵乘法CUDA代码。我们使用NVIDIA支持的几个工具，如图所示2.我们选择NVIDIA CUDA编译器（NVCC）来编译不同尺寸的矩阵乘法应用程序。我们使用NVIDIA系统管理接口（nvidia-smi）[8]监控工具来分析GPU的功耗，10A. Alnori，K.Djemame/理论计算机科学电子笔记340（2018）3运行时的温度。此外，NVIDIA Profiler（nvprof）[12]用于在运行时测量硬件性能计数器实验的目的是：• 研究GPU工作负载和功耗之间的关系以及影响因素• 探索块和每个块分配的线程数对能耗的影响• 探索温度对功耗的影响图2：分析工作流程和使用的工具5.2GPU功耗与功耗的关系及影响因素本实验设计的目的是找出Fermi C2075和Kepler K40c GPU的GPU工作负载与GPU功耗之间的关系，以及影响性能和功耗的因素。我们逐渐增加每个区块的线程数，直到达到最大值（每个区块1024个线程），并冻结区块数。块的数量为80 x 80，以确保SM同时工作。通过增加每个块的线程数，我们也增加了内存的大小。然后，我们运行每个矩阵乘法大小五次，并计算功耗和执行时间的平均值。我们每50毫秒分析一次GPU功耗。5.2.1Fermi C2075结果表3显示了在Fermi C2075 GPU上的实验结果。我们应用回归分析（线性和非线性）来找出功耗与每个块的活动线程之间的关系在应用该分析之后，我们发现，通过应用二次回归，该关系趋于更加非线性，图3显示了C2075中每个块的活动线程数与功耗之间的关系A. Alnori，K.Djemame/理论计算机科学电子笔记340（2018）311费米GPU。矩阵大小线程数量每个数据块的平均执行时间平均功耗（W）480x48036百分之四0.0082887.79800x800100百分之十0.0271794.481120x1120196百分之十九0.06493126.271440x1440324百分之三十二0.12215137.531760x1760484百分之四十七0.2238149.112080x2080676百分之六十六0.39725160.052400x2400900百分之八十八0.56202136.032560x25601024百分百0.65631133.51表3Fermi C2075 GPU图3：Fermi C2075 GPU5.2.2Kepler K40c结果表4显示了该实验的结果。我们应用回归分析（线性和非线性）来找到图4中功耗和工作负载之间的关系。在应用该分析之后，我们发现，应用二次回归时，关系趋于非线性，因为二次回归中的R平方值大于线性回归中的R平方值。然而，它们之间的差异并不高，分别为0.9875和0.8976。12A. Alnori，K.Djemame/理论计算机科学电子笔记340（2018）3矩阵大小线程数量每个块的平均执行时间平均功耗（W）480x48036百分之四0.0083552.5800x800100百分之十0.0203257.341120x1120196百分之十九0.046876.091440x1440324百分之三十二0.0884680.31760x1760484百分之四十七0.1559998.42080x2080676百分之六十六0.24055106.432400x2400900百分之八十八0.382151112560x25601024百分百0.2745111.57表4Kepler K40c GPU图4：回归分析功耗和Kepler K40c GPU5.2.3结果分析考虑到费米C2075 GPU，我们发现，有一个逐渐增加的功耗达到一定水平的线程数每块百分比，当活动线程每块百分比为66%。在此之后，功耗显著降低至136瓦。为了解释GPU工作负载增加期间的功耗趋势在通过应用硬件性能计数器分析GPU微架构在运行时的处理之后，我们发现一些这些计数器的行为具有意想不到的值，特别是存储器行为，例如设备存储器，L2和L1缓存存储器。表5显示了与2080 x 2080、2400 x 2400和2560 x 2560矩阵的某些内存类型相关的性能计数器的值，因为当矩阵大小为2080 x 2080时，功耗开始下降A. Alnori，K.Djemame/理论计算机科学电子笔记340（2018）313我们发现矩阵大小为2080 x 2080的性能计数器值大于2400 x 2400的性能计数器值，同样，2560 x 2560的性能计数器值也大于2400 x 2400和2560 x 2560的性能计数器值，甚至它们的内存大小（2400 x 2400和2560 x 2560）也大于前一个。然而，2400 x 2400矩阵中GST交易的计数器值大于2080 x 2080矩阵中GST交易的计数器值。计数器名称计数器描述计数器价值（2080x2080）计数器价值（2400x2400）计数器价值（2560x2560）商品及服务税交易全球商店交易411362520331204960读取吞吐量装置存储器读取吞吐量19.179GB/s3.3041GB/s2.8727GB/s写入吞吐量装置存储器写入吞吐量94.811MB/s61.674MB/s47.643MB/sl2 l1读命中率L2命中率（L1读取）百分之九十一点八五76.42%百分之六十七点八五二级读事务L2读取事务1960588232174374480131120172表5Fermi C2075 GPU中内存类型的性能计数器值然后，当增加每个块的线程数时，在每个SM中调度这些块的方法（如图5所示）没有固定。当每个数据块的活动线程百分比增加时，分配给SM的数据块数量会图5：Fermi C2075 GPU中每个SM的块数在计算每个工作负载的GPU占用率（如图6所示）后，我们发现功耗受GPU占用率的影响。因此，即使在Fermi C2075 GPU中增加内存大小和每个块的线程数，功耗也接近GPU占用值。当每块活动线程百分比为66%时，GPU占用率大于每块活动线程百分比为88%时的GPU占用率。因此，具有66%的活动线程的2080 x 2080矩阵14A. Alnori，K.Djemame/理论计算机科学电子笔记340（2018）3每个块消耗更多的功率。图6：Fermi C2075 GPU的功耗和GPU占用值对于Kepler K40c GPU，我们发现功耗逐渐增加，直到每个块的活动线程百分比达到一定水平，每个块的活动线程百分比为88%。然后，当每个块的活动线程的百分比增加时，功耗值相等。然而，GPU占用对性能有显着影响。即使2560 x 2560矩阵的内存大小大于2400 x 2400矩阵的内存大小，2560 x 2560的执行时间也低于2400 x 2400的执行时间，如表4所示对于Kepler K40c，在分析Fermi C2075 GPU中使用的相同性能计数器（特别是内存行为计数器）后，我们发现其中一些计数器值与功耗趋势相关，并且在增加工作负载时也会下降，如表6所示这些计数器是：GST事务、L2 L1读取命中率和L2读取事务。上述性能计数器具有与内存大小相反的值，每区块活动线程数百分比。即使2560 X 2560矩阵的大小大于2400 X 2400矩阵的大小，2560 X 2560矩阵中的上述计数器的值也小于2400 X 2400矩阵中的计数器值。然后，我们分析了将块调度到SM中对Kepler K40c GPU功耗的影响，如图7所示。当增加每个块的线程数时，调度这些块的方式并不固定。当每个块的线程数增加时，分配给SM的块数减少。当每个块的活动线程百分比为66%时，此数字是恒定的。观察到最后三个矩阵的功耗值彼此接近。但是，它们在GPU占用和硬件性能计数器中具有不同的值。A. Alnori，K.Djemame/理论计算机科学电子笔记340（2018）315计数器名称计数器描述计数器价值（2080x2080）计数器价值（2400x2400）计数器价值（2560x2560）商品及服务税交易全球商店交易411200522000204800读取吞吐量装置存储器读取吞吐量9.8835GB/s7.8928GB/s9.4082GB/s写入吞吐量装置存储器写入吞吐量130.00MB/s95.954MB/s113.87MB/sl2 l1读命中率L2命中率（L1读取）百分之九十七点二九百分之九十七点七八百分之九十七点四一二级读事务L2读取事务174726823928301892742621517916表6Kepler K40c GPU中内存类型的性能计数器值图7：Kepler K40c GPU中每个SM的块数对于Kepler K40c，我们发现每个工作负载中的GPU占用值都大于或等于0.5。因此，GPU占用率并不足以解释功耗趋势，因为此处的GPU占用率与功耗值不相关，如图8所示。16A. Alnori，K.Djemame/理论计算机科学电子笔记340（2018）3图8：Kepler K40c GPU中的功耗和GPU占用值5.3块和每个块的线程分配对能耗的影响设计这个实验的目的是探索异构GPU架构中块和每块线程分配对能耗的影响。在实验1中，我们选择了降低功耗后的矩阵乘法大小来分析对能耗的影响我们实现了相同的矩阵乘法大小（2400 x 2400）和不同的工作负载分配（不同的块数和每个块的线程数）。第一个实现有100 x 100个块和24 x 24个线程。第二个实现有80x80个块和30x30个线程每个区块。然后，我们通过将执行时间（秒）乘以功耗（瓦）来计算能耗（焦耳）。表7显示了费米C2075中这些矩阵的执行时间和能耗。我们矩阵大小数量的块数量每区块平均功率（W）平均执行时间（s）能量（J）2400x2400100x10024x24158.880.5110281.192400x240080x8030x30136.030.5620276.45表7Fermi C2075 GPU中相同矩阵大小的执行时间和能耗发现在每个块具有更多线程的矩阵中节能5.8%，性能损失9.1%第二个场景检查了执行时间对性能和能耗的影响。我们将两个矩阵的块大小都增加到了上一个实验中块大小的五倍，以增加执行时间。我们重复了五次实验，并计算了功耗和执行时间的平均值，如表8所示此外，即使在具有24 x 24数字的矩阵中增加执行时间矩阵大小数量的块数量每区块平均功率（W）平均执行时间（s）能量（J）12000x12000500x50024x24179.43968.35512265.5512000x12000400x40030x30147.13872.42710656.76表8Fermi C2075 GPU中增加块对于每个块具有30 x 30线程数量的矩阵，节能13.1%，这与先前的实验类似，并且具有较低的执行时间。在这种情况下，通过增加执行时间，与前一种情况相比，性能损失降低到5.6%A. Alnori，K.Djemame/理论计算机科学电子笔记340（2018）317因此，在Fermi C2075 GPU中，能量消耗减少向具有较低功耗的块和每个块分配的线程移动。因此，在这种情况下，在Fermi C2075 GPU中，存在能量消耗和单位时间之间的可排序的权衡。此外，能源当增加执行时间时，消耗和性能降低随后，我们在Fermi C2075中实现了精确的矩阵乘法大小和相同的表9显示了Kepler K40c中这些矩阵的执行时间和能耗在开普勒K40c中，我们发现了相反的情况。我们发现，由于第一次和第二次工作负载分配之间的功耗没有实质性差异，因此具有更快执行时间和更多块（100 x100）的矩阵中的能耗节省了9.1%。它们之间的功耗差异仅为3.08瓦然后矩阵大小数量的块数量每区块平均功率（W）平均执行时间（s）能量（J）2400x2400100x10024x24114.080.3376338.512400x240080x8030x301110.3821542.41表9Kepler K40c GPU中同一矩阵的执行时间和能耗第二种情况是将两个矩阵的块大小增加到前一个实验中的块大小的五倍，以类似地增加Fermi C2075 GPU的执行时间，如表10所示。每个块具有24 x 24个线程的矩阵大小的能量效率高11.2%。因此，在Kepler K40 GPU中，能量消耗的减少朝着具有快速执行时间的块和每个块分配的线程移动因此，该实验可以使开发人员意识到基于GPU架构选择能量感知块和每个块的线程数分配。在本实验中，Kepler K40cGPU的能量效率比Fermi C2075 GPU高46.5%矩阵大小数量的块数量每区块平均功率（W）平均执行时间（s）能量（J）12000x12000500x50024x24141.21340.3665700.2012000x12000400x40030x30140.69545.6726425.82表10Kepler K40c GPU中增加块5.4温度对功耗的影响本实验设计的目的是探索温度对费米C2075和开普勒K40c功耗我们将矩阵的大小和块的大小增加到1000 x 1000。我们在两个GPU上执行了一个2000 x 2000的矩阵乘法应用程序18A. Alnori，K.Djemame/理论计算机科学电子笔记340（2018）3（费米C2075和开普勒K40c），见图9和图10。功耗和温度每五秒进行一次分析我们发现，当两个GPU的温度升高时，功耗都呈线性增加。然而，开普勒K40cGPU在某种程度上存在功耗阻力，但在消除此阻力后功耗继续增加。GPU内存利用率与nvidia-smi管理工具的功耗保持一致，可能会导致这种阻力的发生，如图11所示图9：Fermi C2075 GPU图10：Kepler K40c GPU图11：Kepler K40c GPUA. Alnori，K.Djemame/理论计算机科学电子笔记340（2018）3195.5结果的总体讨论Kepler K40c的工作负载和功耗之间的线性水平大于Fermi C2075。在Fermi C2075中，增加块数会导致硬件资源使用的增加。因此，SM中的驻留块数量从8减少到1. 这种减少会产生低效的并行行为，以覆盖指令流水线和内存延迟。因此，它导致性能下降。这种性能降低会降低功耗。类似地，GPU占用率随着SM中的驻留块一起减少，导致性能和功耗降低。然而，在Kepler K40c中，尽管SM中的驻留块数量从16减少到2，但大小为2560 x 2560的矩阵（这是最大的矩阵大小）的性能不受此减少的影响，并且其执行时间比先前的矩阵2400 x 2400更快。原因在于GPU占用率对性能的影响，因为2560 x 2560的GPU占用率大于2400 x 2400。GPU内存类型对费米GPU的功耗有影响，因为某些类型会影响开普勒GPU的功耗在Fermi C2075 GPU中，GPU占用率、GPU内存类型和硬件块调度因素与功耗有很强的相关性。但是，GPU占用率对Kepler K40c GPU功耗的影响并不可靠。它对性能有明显的影响。可以根据对功耗的有效性来考虑一些GPU内存类型和块调度等此外，块和每个块的线程分配了一个很好的能量消耗。影响取决于GPU架构的类型。在Fermi C2075 GPU中，存在性能和能耗之间的权衡。增加块的数量将提高性能，同时也会增加能耗。然而，在Kepler K40c GPU中，增加块的数量将提高性能并变得更加节能。最后，当执行时间增加时，温度对费米和开普勒GPU架构6结论和今后的工作在本文中，我们提出了一个自适应架构在云计算环境。该架构的目的是管理云计算环境中的通用异构GPU该架构通过关注性能和能耗因素来考虑部署和运行时。异构GPU分析器已被引入作为开发上述架构的第一步。异构GPU分析器旨在分析异构GPU在性能、功耗和能耗方面的架构行为。此外，开普勒结构的能量效率比费米结构高46.5%在分析了异构GPU架构的性能之后，20A. Alnori，K.Djemame/理论计算机科学电子笔记340（2018）3功率和能耗，将开发一种新的能耗预测模型来估计GPU应用程序消耗的能量。能耗预测模型将通过选择两种GPU架构能耗的最高基本因素来开发该等基本因素将设定为模型输入数据。然后，能源效率的调度策略将被开发，以分配的GPU应用程序的能源效率最高的虚拟机。能源效率调度策略的决策将依赖于能源消耗预测模型。此外，该调度策略将执行时间和能量消耗作为关键因素考虑。最后，我们将开发一个自适应的管理框架，自动维护的QoS分配的应用程序在操作时间。为了保证GPU应用程序在运行期间的服务质量，需要在能量效率、性能和成本方面进行权衡。因此，另一个研究目的是找到上述的交易。引用[1] 使用GPU计算扩展的应用程序，https://channel9.msdn.com/Events/Microsoft-Azure/AzureCon-2015/ACON 303，2016-02-22。[2] AWS -高性能计算- HPC云计算，http://aws.amazon.com/hpc/，2016- 02-21。[3] CUDA职业计算器-Nvidia，2017-10-23.developer.download.nvidia.com/compute/cuda/CUDA{_}职业{_}计算器.xls，[4] 图形处理单元（GPU）-Google Cloud Platform，https://cloud.google.com/gpu/，2017- 08-20。[5] IBM Bluemix -GPU云计算-更多的处理能力，https://www.ibm.com/cloud-computing/bluemix/gpu-computing，2017-08-20.[6] Nimbix：高性能计算超级计算平台，https://www.nimbix.net/，2017- 08-20。[7] 2015年11月-超级计算机网站500强，http://www.top500.org/lists/2015/11/，2016-02- 22。[8] nvidia-smi， http://developer.download.nvidia.com/compute/DCGM/docs/nvidia-smi-367.38.pdf，2017-10-20.[9] OpenCL -异构系统并行编程的开放标准，https：//www. khronos.org/opencl/，2016-02-21.[10] OpenNebula，https://opennebula.org/，2017-10-26.[11] 并行编程和计算平台- CUDA -NVIDIA-NVIDIA，http：//www.nvidia.com/object/cuda{_}home{_}new.html，2016-02-21.[12] Profiler用户http://docs.nvidia.com/cuda/profiler-users-guide/index。html{#}gpu-trace-and-api-trace-modes，2017-10-20.[13] Beloglazov，A.和R. Buyya，用于云数据中心中虚拟机的能量和性能高效动态整合的最佳在线确定性算法和自适应算法，并发计算实践和经验24（2012），pp.公元1397-1420年。[14] 卡列罗斯河N.，E.马苏米河Ranjan和R. Buyya，使用ARIMA模型进行预测及其对云应用程序QoS的影响449-458[15] Caron，E.，F. Desprez和A. Muresan，基于模式匹配的网格和云计算按需资源预测，在：Proceedings -2nd IEEE International Conference on Cloud Computing Technology and Science，CloudCom 2010，2010，pp. 456-463.A. Alnori，K.Djemame/理论计算机科学电子笔记340（2018）321[16] 崔，H。J.，D. O.儿子，S。G. Kang，J.M.金，H.- H. Lee和C. H. Kim，An efficient scheduling schemeusing estimated execution time for heterogeneous computing systems ， Journal of Supercomputing65（2013），pp. 886-902网址http://www.scopus.com/inward/record.url? eid=2-s2.0-84881370959{&}partnerID=40{&}md5=b32a9579e35bb92b866752c17cd6302b[17] 克拉克角，K. Fraser，S.手，J。G。J. Hansen，E.朱尔角林帕克岛Pratt和A. War field，Live migrationof virtual machines ， in ： Proceedings of the 2nd conference on Symposium on Networked SystemsDesign Implementation - Volume 2，VMM，2005，pp. 273-286.网址http://dl.acm.org/citation.cfm? id=1251203.1251223{%} 5Cn http：//dl.acm.org/citation.cfm? 1251223 - 1251223 - 1251223[18] 董， J.，X. Jin ，H. Wang， Y. Li， P. Zhang和S. Cheng，节能虚拟机布局在云数据中心，在：Proceedings - 13th IEEE/ACM International Symposium on Cluster， Cloud， and Grid Computing，CCGrid 2013，2013，pp. 618-624[19] Duato，J.，A. J. Penapa，F. 西拉河 M ayo和E. S. Quin tana-Ort，rCU DA：ReducingthenumberberofGPU-based accelerators in high performance clusters ， in ： Proceedings of the 2010International Conference on High Performance Computing and Simulation，HPCS 2010，2010，pp. 224-231[20] Feller ， E. ， C. Rohr ， D. Margery 和 C. Morin ， Energy management in IaaS clouds ： A holisticapproach，in：Proceedings - 2012 IEEE 5th International Conference o

下载后可阅读完整内容，剩余1页未读，立即下载