系统级熵：定量评估协同工作负载资源竞争的新度量方法

52 浏览量更新于2023-11-06 收藏 2.16MB PDF 举报

资源竞争

数据中心

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

ACM Transactions on Architecture and Code Optimization，卷。号201、第10条。出版日期：2023年2月用系统级熵YI Liang和Shaokang ZENG，北京工业大学10王磊，中国科学院计算技术研究所工作负载协同定位，例如在同一节点上部署离线分析工作负载和在线服务工作负载，对于现代数据中心来说已经变得很常见协同定位部署显著提高了数据中心的资源利用率然而，它也引入了资源争用，导致在线服务由于在线服务是尾部延迟敏感的工作负载，因此尾部延迟度量可以反映应用级别的共址工作负载的性能干扰程度然而，为了指导系统的设计和评估，在系统级别上定量评估协同工作负载的资源争用也是必不可少的。本文提出了一种新的度量称为系统级熵（SLE）。SLE作为一种系统级的度量指标，可以定量地度量协同定位系统的资源竞争情况，并进行系统间的比较。实验结果表明，SLE能够准确反映负载对系统性能的干扰，进而评估系统资源竞争情况。我们还展示了SLE的两个案例研究我们量化了不同的协同定位组合的亲和力，包括三个在线服务和五个离线工作负载。此外，我们评估了最先进的隔离机制（容器和CPU亲和结合）与这些协同定位组合的效果。CCS概念：·计算机系统组织→云计算;·计算方法→建模方法;附加关键词和短语：协同定位，资源竞争，熵ACM参考格式：梁毅，曾少康，王磊。2023年用系统级熵量化协同工作负载的资源竞争 ACM Trans. 阿奇特代码优化20，1，第10条（2023年2月），25页。https://doi.org/10.1145/35636961介绍为了提高资源利用率，将高优先级在线服务工作负载和低优先级离线分析工作负载放在同一节点上是数据中心的理想选择工作负载共置可以提高资源利用率并降低总拥有成本，因此它在现代数据中心中变得很普遍[7，18，19，26，34，41，45，53]。然而，即使精心设计了部署规划（如设置协同工作负载的并发线程），协同工作负载的性能干扰也是不可避免的新论文，不是会议论文的延伸作者Liang和S.Zeng，北京工业大学;电子邮件：yliang@bjut.edu.cn，zhaoyu@emails。bjut.edu.cn; L.王，中国科学院计算技术研究所;电子邮件：wanglei_2011@ict.ac.cn。允许制作本作品的全部或部分数字或硬拷贝供个人或课堂使用，无需付费，前提是复制品不以营利或商业利益为目的制作或分发，并且复制品在第一页上带有此通知和完整的引用。版权的组成部分，这项工作所拥有的其他人比ACM必须尊重。允许用信用进行提取复制，或重新发布，张贴在服务器上或重新分发到列表，需要事先特定的许可和/或费用。从permissions@acm.org请求权限。© 2023计算机协会1544-3566/2023/02-ART10 $15.00https://doi.org/10.1145/3563696ACM Transactions on Architecture and Code Optimization，卷。号201、第10条。出版日期：2023年2月10：2Y. Liang等人与部署节点的CPU核心总数相等我们的实验在两种模式下运行高性能键值存储服务：Masstree和离线分析工作负载：Sort一种是co-location模式，在线服务Masstree与离线分析工作负载Sort位于同一节点。另一种是独立模式，其中Masstree和Sort工作负载部署在不同的节点上。无论是协同定位还是独立模式，资源配置都是相同的。它们部署在相同类型的节点上，工作负载的资源配置也是相同的，例如Masstree使用两个CPU核心，Sort使用10个CPU核心。实验结果显示，在线服务工作负载的平均延迟相似（0.7 ms vs. 0.6 ms）和离线分析工作负载的执行时间（452 s vs.452 s）。然而，Masstree的尾部延迟是协同定位模式下平均延迟的3.4倍，而在独立模式下仅为1.1倍（第2.2节）。协同工作负载竞争系统的共享资源，如LLC、存储带宽等，因此协同工作负载的性能干扰可以反映为协同系统的资源竞争Tang等人[44]还认为，离线分析工作负载的一秒资源争用突发会显著降低其协同定位的在线服务工作负载的性能。如今，提出了许多隔离技术来减少协同定位工作负载的资源争用，例如命名空间机制[10，39]，虚拟化[43]和亲和绑定[48]。量化评估协同工作负载的资源争用变得非常重要，而量化度量是第一步[12]。尾部延迟对性能干扰比较敏感，是描述协同工作负载性能干扰的理想指标有许多工作通过量化尾部延迟波动来评估性能干扰[16，17，20]。而尾部延迟作为应用级的度量指标，很难衡量协同定位系统的资源竞争程度例如，系统A将Imgdnn（在线AI推理服务）的工作负载与Sort（离线分析工作负载）放在一起。 Imgdnn的尾部延迟在每秒1,100次查询（QPS）下恶化了6倍，在550次QPS下恶化了4倍。我们可以看到，尾部延迟值与不同的QP有关，并且很难描述系统的资源争用程度。其次，很难进行苹果对苹果的比较。例如，系统A将Shore（在线数据库服务）工作负载与Union（离线分析）工作负载放在一起。Shore如何定量地比较两个系统然而，一些系统级指标，如缓存未命中率，可以反映性能干扰[11，12，22，46]。仍然存在两个挑战。首先，许多资源竞争是瞬时的，并且难以使用平均度量来捕获它们。例如，由于Masstree工作负载是存储器密集型的，因此LLC每千指令未命中（MPKI）的度量与其性能有关。我们发现，在我们的实验中，平均LLC MPKI几乎没有变化，无论是独立的Masstree还是与Sort共处一地相比之下，在共定位模式下，尾潜伏期显著恶化（第2.2节）。这意味着排序对马斯特里的影响是即时的。因此，我们应该考虑瞬时资源度量，并分析资源度量的时间序列，而不仅仅是平均值。第二，与尾部延迟相关的资源度量在不同的协同工作负载之间变化例如，Shore-Wordcount的LLC MPKI不再像Masstree-Sort那样有效。此外，相同工作负载的尾部延迟可能在不同程度上受到各种资源行为的影响例如，LLC和DTLB中的Imgdnn-Wordcount行为与尾延迟强相关所以我们无法研究资源度量和尾部延迟之间的差异。使用SLE量化共存工作负载的资源争用十比三ACM Transactions on Architecture and Code Optimization，卷。号201、第10条。出版日期：2023年2月在本文中，受熵统计方法的启发，这是一个衡量系统中的无序程度，我们提出了系统级熵（SLE）来描述瞬时的资源竞争。SLE是时间序列中竞争资源值的熵的加权和它可以定量地评估系统资源的竞争程度，从而指导系统的设计和优化。我们的贡献可归纳如下。(1) 提出了一种描述系统资源竞争的SLE度量SLE是时间序列中的竞争资源值的熵的加权和作为系统级指标，SLE可以测量共址系统的性能上限，并执行系统之间的苹果到苹果的比较我们还提出了基于SLE的评估框架，主要包括基准，潜在的竞争资源集，和基于熵的竞争资源模型。(2) 为了构造潜在的竞争资源集，我们提出了一种指令集架构（ISA）驱动方法，它将工作负载的性能干扰映射到系统的资源竞争。在ISA驱动方法中，利用典型的基准点建立二进制代码集，利用指令执行模型将指令映射到系统资源，建立潜在竞争资源集。现在，潜在竞争资源集对于X86ISA有49个资源度量。(3) 我们提出了一种新的基于熵的竞争资源模型（基于转换熵的模型）。该模型以潜在竞争资源集为输入，利用熵变换模型构造系统熵，包括设置约束、噪声消除和权重设置。实验结果表明，在多工作负载、多系统的场景下，该算法与应用级指标具有较强的相关性，与归一化尾延迟的Pearson相关系数可达0.95。(4) 采用典型的协同工作负载来评估SLE。实验结果表明，该方法可以实现系统级的性能比较，并对平台的性能上限进行评估此外，通过SLE评估，我们发现CPU亲和机制是减轻协同工作负载的性能干扰的最有效方法，将SLE降低高达22.48%，平均为8.47%。文章的其余部分组织如下。第二节介绍了背景和动机。第三、四部分介绍了基于系统学习的评价方法和基于熵的评价模型。第五节进行综合评价。第六节对相关工作进行了总结第7节结束2背景和动机2.1背景2.1.1协同工作负载。对于传统数据中心，在线服务工作负载的部署是独立的，其中根据峰值服务需求分配资源以保证QoS。然而，随着数据中心规模的不断扩大，提出了协同定位工作负载以提高资源利用率。托管是指将在线服务和离线分析工作负载部署在同一集群平台上，以充分利用非高峰在线服务的空闲资源。如图1所示，一部分浪费的资源由离线分析工作负载填补，提高了节点的整体资源利用率。谷歌和阿里巴巴等数据中心供应商已经证明，托管是提高资源利用率的有效方法[14，45]。然而，即使部署方案和应用程序代码经过精心设计，协同工作负载的性能干扰也不可避免。十比四Y. Liang等人ACM Transactions on Architecture and Code Optimization，卷。号201、第10条。出版日期：2023年2月图1. 协同定位工作负载的动机图2. 独立模式和协同定位模式下的Masstree工作负载的LLC MPKI和尾部延迟2.1.2联机服务的尾部延迟尾部延迟是在线服务工作负载的所有请求延迟中的较高延迟（第95到第99个）。它对性能干扰的影响比较敏感，因此可以用在线服务的尾延迟来描述性能干扰。例如，我们运行两个不同的协同定位工作负载，Shore-Union和Shore-Sort（在线服务Shore与离线分析工作负载Union和Sort协同定位，重新定位）。结果表明，两者具有相似的平均延迟，约为200 ms。然而，Shore-Sort因此，尾部延迟对性能干扰很敏感2.2动机2.2.1为什么传统的系统级评估方法失败了？协同工作负载共享相同的硬件资源，如缓存和内存。与独立模式相比，协同定位引入了对共享资源的竞争，并导致在线服务的不可预测和无序的资源行为以及长尾延迟。现有的工作尝试使用系统级度量的平均值来评估性能干扰，例如平均LLC MPKI。该方法是工作负荷特征的标准[12，51]。然而，平均值不能捕捉性能干扰的瞬时特性图2是平均LLCMPKI和尾部延迟。协同工作负载以多线程模式运行，线程数等于CPU内核数由于实验平台（表1中的平台A）具有12个CPU核，因此在线服务工作负载使用两个线程模式，离线分析工作负载使用10个线程模式。我们可以看到，在不同的Masstree的 QPS下，平均LLC MPKI的关键资源度量的平均值变化不大，无论Masstree是独立的还是与Sort共处一地相比之下，我们发现，尾部延迟显着增加，通过改变QPS，特别是对于位于同一地点的工作负载。为了发现平均LLC MPKI和尾部潜伏期之间的关系，我们使用最小-最大归一化[37]进行归一化在图2（b）中，我们可以看到，趋势与平均LLC MPKI和尾潜伏期不一致。而且使用SLE量化共存工作负载的资源争用十点五ACM Transactions on Architecture and Code Optimization，卷。号201、第10条。出版日期：2023年2月图3. LLC MPKI和Masstree-Sort工作负载的延迟图第四章主机托管模式和单机模式下的主机托管MPKI和分拣工作量。平均LLC MPKI和尾潜伏期之间的相关系数在Masstree中为0.3，0.4在Mastree-Sort。我们计算特定时间序列的平均LLC MPKI和延迟这两个指标都通过Min-Max Normalization[37]从0到1进行了归一化，以便进行直观的比较。图3显示了Masstree-Sort的平均LLC MPKI和10秒时间间隔下的延迟（Masstree 从图中可以看出，延迟在三个阶段中变化：阶段一（1-8），阶段二（8-10）和阶段三（10-43）。Sort的工作负载行为导致不同的阶段的尾部延迟：在阶段一，Sort对每个线程从输入文件读取的缓存行进行排序，其中LLC的访问最频繁，因此未命中的数量最高。在第二阶段，每个线程的排序已经完成，LLC的访问大大减少。在第三阶段，数据被合并到输出文件中。在整个执行过程中，在第一阶段存在高延迟和高LLC MPKI因此，长尾延迟处于第一阶段，但仅占总时间的18%，平均LLC MPKI仍然很低。这意味着传统的系统级平均统计量很难反映应用程序级的尾部延迟。此外，我们分析了性能干扰与变异的关系时间序列上的系统级指标图4显示了共址Masstree（Masstree-Sort）、独立Masstree和独立Sort的LLC MPKI之间的关系，其中独立配置与共址模式相同。从图中可以看出，与单机模式相比，Masstree的托管工作负载的LLC MPKI完全有不同的变化。相比之下，它与独立Sort的变化类似，这表明Sort的引入确实导致了显著的资源争用，直接改变了在线服务原本有序的资源行为（图中独立的Masstree在时间序列上呈现稳定的波动），增加了无序度，这是性能干扰的根本原因。十点六分Y. Liang等人ACM Transactions on Architecture and Code Optimization，卷。号201、第10条。出版日期：2023年2月..图5. LLC MPKI、WA和Shore-Wordcount工作负载的延迟此外，与尾部延迟相关的资源度量在各种共址工作负载之间变化。图5（a）显示Shore-Wordcount的LLC MPKI（Shore服务器相反，另一个关键的系统级度量WA（等待IO的CPU时间与CPU时间的比率）的变化与尾部延迟相关，如图5（b）所示。此外，相同工作负载的尾部延迟可能在不同程度上受到各种资源行为的影响例如，在 LLC 和DTLB 中， Imgdnn-Wordcount的行为与尾部延迟强烈相关，但它们的贡献程度不同。因此，在逐个案例的模式下，我们无法在一个统一的系统级度量下研究资源度量和尾部延迟之间的关系。2.2.2用系统级熵反映性能干扰。熵是衡量系统无序程度的统计度量[6]。熵已被广泛应用于许多研究领域，包括计算机界[9，13，30，40，52]。我们首先给出随机变量X的熵的一般表示，其熵定义如下：H（X）=−p（x）×log2p（x），（1）x∈Xp（x）=（x）n、（二）其中p（x）是样本X中独立状态x的概率，n（x）是样本X中x的数量，n是样本的数量此外，给定由一组独立的子系统s1，s2，. ，sk. 根据熵的可加性，S的熵可以表示为：KH（S）=H（si），（3）i=1由于熵可以描述竞争资源在时间序列上的无序程度，因此可以构建一个基于熵的统一系统级度量来表征协同工作负载的性能干扰使用熵来描述资源争用将具有以下挑战。第一种是建立潜在竞争资源集，实现应用层到系统层的映射第二个是基于熵的模型来评估协同工作负载的资源竞争。3基于业务级熵的评价方法图6是SLE方法的概述我们通过将应用程序级的尾延迟映射到系统级的资源争用来实现SLE度量SLE框架主要包括基准测试、潜在竞争资源集和基于熵的竞争资源模型。我们选择典型的基准测试来表示协同定位的工作负载。我们使用使用SLE量化共存工作负载的资源争用十点七分ACM Transactions on Architecture and Code Optimization，卷。号201、第10条。出版日期：2023年2月图第六章基于SLE的评估方法概述一种ISA指令驱动的方法，将二进制流分析与指令执行模型相结合，建立潜在竞争资源集，实现从应用级到系统级的映射我们提出了一种新的基于熵的模型--转换熵模型，来评估资源竞争。3.1基准为了评估协同工作负载，Xiong et al.[47]提出DCMIX，这是一个涵盖多个云应用程序域和协同工作负载类型的基准套件我们采用典型的协同工作负载基准测试套件DCMIX，选择了八个具有不同特征的代表性工作负载.在线服务Imgdnn：使用基于深度神经网络的自动编码器和Softmax回归来识别手写字符。延迟要求为1• Masstree：快速、可扩展的内存键值存储。延迟要求为1• Shore：磁盘上的事务数据库延迟要求为1离线分析作业合并：将两个文件合并在一起。乘法：计算输入矩阵的乘法。Wordcount：统计每个单词在输入文件中出现的次数，并将其输出到输出文件。• Sort：按递增顺序对输入文件进行排序，并将其输出到输出文件。• MD5：计算输入文件每行的MD5值，并将其输出到输出文件。3.2潜在竞争资源集在数据中心中，协同工作负载作为同一平台上的进程并发执行，这会导致资源争用，特别是对于LLC/内存/磁盘等共享资源潜在竞争资源集是特定平台中竞争资源的集合，它表征了工作负载行为空间与系统资源空间的映射。在实现方面，根据该方法框架，可以从系统级和微架构级提取相应的资源行为度量，实现对争用资源的统一描述。现代处理器和操作系统为其相关的管理资源提供了大量的监视事件我们可以获取许多资源metrics。这也导致了一个巨大的集合。例如，最新的英特尔至强处理器提供了数百个硬件监控事件，可以计算出数万个相关的资源事件指标。如何分析资源竞争行为并提取其代表集是一个具有挑战性的问题。····十点八分Y. Liang等人ACM Transactions on Architecture and Code Optimization，卷。号201、第10条。出版日期：2023年2月图第七章从应用程序到系统的映射虽然工作负载有不同的算法和实现，但它们都是二进制机器代码，就像操作系统的进程一样它们在硬件处理器上作为指令流执行，如图7所示。ISA指令流是一个统一的抽象层。因此，从指令层搜索潜在的竞争资源集是可行的本文在X86平台上实现了该方法由于先前的研究证明ISA与性能无关，因此它在RISC平台上也可以有效[5]。我们使用的指令执行模型（取，解码，执行，内存，写回，并更新）通过输入ISA指令流和迭代映射的指令执行的系统资源，建立潜在的竞争资源集。我们提取了这个集合中的竞争资源的行为度量作为模型的输入。3.2.1二进制流集。二进制流的基本元素是原语操作。然而，原始操作是众多的。例如，X86 ISA具有200多个并行操作。此外，研究表明，只有20%的手术是经常使用的。因此，我们定位每个工作负载本文将Hotspot函数定义为占用相应工作负载60% CPU利用率的子集。从ISA的角度来看，基本的指令类型包括移动、操作、条件和跳转。此外，诸如栈指令中的PUSH和POP的复合指令是移动和操作的组合（栈指令对栈指针的值执行算术操作循环指令是操作、条件和跳转的组合（寄存器ECX的值不断减小，并确定其是否为0以决定是否跳转）。CALL和RET结合了PUSH或POP和Jump指令（CALL指令将紧接在CALL之后的指令地址推入堆栈并跳转到标签子例程。RET弹出堆栈上的地址并跳回到地址位置）。同样，条件移动，条件跳转和条件循环属于条件指令。虽然某些指令类型包含多个数据元素长度，例如，移动指令MOV包括MOVL、MOWW和MOVB，分别表示32位长字值和16位字值以及8位字节值的移动。尽管如此，它们具有相同的执行过程，这并不影响对争用资源集的搜索。然后分析源和目的操作数类型，包括立即数、寄存器和内存。前两个操作地址在CPU内核内部，内存在CPU内核外部具体地，对于一元操作数指令，操作数类型需要与指令类型一起解析，例如递增指令INC，其将操作数增加1，因此目的地操作数是源操作数。附录中的表A.1是本文中分类的指令类型。3.2.2指令执行模型。虽然指令是多种多样的，但所有的指令都服从一个统一的阶段顺序，包括取、解码、执行、存储、写回和更新。我们将上述序列抽象到指令执行模型中。基于使用SLE量化共存工作负载的资源争用十点九分ACM Transactions on Architecture and Code Optimization，卷。号201、第10条。出版日期：2023年2月图第八章指令执行的层次资源在这个模型中，我们将指令执行阶段映射到系统资源。根据ISA指令流的抽象，基于三重指令特征模型（操作、目的和源）对ISA空间指令进行分类例如，汇编指令movl %eax，（%rsp）和movw %dx，（%rax）都属于（Move，register，memory）类。分析从获取到更新的执行阶段具有相同的潜在争用资源。由于我们发现更多的热点分布在MOVE指令上，因此以（Move，memory，register）类为例，考虑其在所有指令执行过程中的典型行为图8是这种典型的顺序指令执行过程到系统资源的映射根据指令执行模型，这些阶段包括（1）取：首先，程序计数器用于从指令层次存储器读取指令;（2）解码，其从寄存器读取操作数，其是存储器操作的基址寄存器值;（3）执行：算术和逻辑单元以及条件代码寄存器用于取决于指令的类型的不同目的，其在这种情况下是计算存储器操作的有效地址;（4）存储器：读取或写入数据层次存储器;（5）写回，其将从数据存储器读取的值写回操作数寄存器;以及（6）更新：PC的值更新到下一指令的地址。在图8中，黄色的是CPU核心的非共享资源，而紫色的是共享资源。然而，对共享资源的争用导致资源争用。因此，争用资源包括分层存储器资源。对于减少的ISA空间中的所有指令，我们合并映射结果，并且潜在的竞争资源集是{L1 I TLB，L1 DTLB，L2 TLB，L1 I高速缓存，L1 D高速缓存，L2高速缓存，L3高速缓存，存储器，DISKIO}。3.2.3潜在竞争资源集。我们可以根据潜在的竞争资源集构造度量集。由于指令执行模型是一个有限状态机，我们可以遍历潜在的竞争资源集操作来获得度量。我们以内存相关资源为例.首先，我们提取基本的和更细粒度的行为，如每千条指令的未命中数（miss_PKI）或每千条指令的命中数（hit_PKI）TLB和Cache，以及它们的加载/存储行为。此外，我们提取的分层行为，描述资源之间的相互作用由于争用资源例如，我们提取类似itlb_miss_stlb_hit_PKI，这是L1I TLB未命中，但每公斤指令有L2 TLB命中。我们将较高级别缓存的写回拉到较低级别缓存（如l1d_wb_l2_PKI）和缓存的snoop协议行为最后，我们得到了49个竞争资源度量（详见附录表A.2争用资源指标基于典型的X86 ISA和典型的Intel Xeon平台。它还可以扩展到其他ISA和平台。十点十分Y. Liang等人ACM Transactions on Architecture and Code Optimization，卷。号201、第10条。出版日期：2023年2月3.3基于熵的资源竞争模型基于熵的模型的问题定义描述如下，其包括映射模型f和约束C：f：（x，p，M，B，P）→ 1 s. t. C.（四）模型的输入是x、p、M、B和P，其中x是要在平台p上计算的任意共置工作负载，M是争用资源集，B是x所属的共置工作负载集，P是平台的集在2.2节中，我们发现竞争资源的变化与尾部延迟的变化有一定的相关性。因此，我们采用信息熵作为理论工具与约束C来描述资源竞争。输出是x的SLE，与其尾部延迟度量正相关。4基于熵的非线性变换模型本文提出了基于熵的小波变换模型来解决这一问题，该模型依次消除噪声、确定权值和归一化，构成了小波变换的全过程。该熵转换熵模型可以表示为等式（5），n nSLE= f（x，p，M，B，P）=0.H（Mi）= kn·kd.wiE（Mi），C，（5）其中Mi是M中的竞争资源度量Mi的样本集，n是M的数量，H（Mi）是Mi的x的熵，E（Mi）是消除噪声的H（Mi），Wi是Mi的贡献度权重，并且kd和kn是用于归一化的过载是在线服务的一种状态。我们将资源过载定义为在线服务不能提供QoS保证的服务、在线请求处理阻塞、在线服务请求通过率下降。由于我们不关注共址工作负载资源过载的场景，而主要关注瞬时表征，因此我们设置约束C以过滤掉不满足条件的争用资源度量，如等式（6）所示C：H（Mi）≥min（Hon（Mi），Hoff（Mi）），（6）其中，Hon和Hoff分别表示当x独立运行在线服务和离线分析工作负载时mi的熵我们把超载的co-location系统的熵是低于任何两个独立的模式。由于过载导致的联机请求处理阻塞，此资源上没有数据流入或流出。所以熵不高，呈现稳定状态。我们在下面分别说明了这种转换的具体过程。4.1消声噪声消除的目标是消除离线分析工作负载中的噪声例如，Imgdnn-MD5和Imgdnn-Wordcount的原始熵分别为225.94和210.08，而尾部延迟分别是平均延迟的1.68倍和3.71倍。在有噪声的情况下，Imgdnn-Wordcount进一步的分析表明，MD5和Wordcount在独立时的熵分别为218.51和176.42因此，MD5本身的高熵确实影响Imgdnn-MD5的范围。为了解决上述问题，对于同位模式和独立模式的熵，我们首先考虑使用同位熵减去两个独立熵的方法。然而，并不是所有的竞争资源度量在共置模式下的熵都大于独立模式下的熵。i=1i=1使用SLE量化共存工作负载的资源争用十点十一ACM Transactions on Architecture and Code Optimization，卷。号201、第10条。出版日期：2023年2月.≥wi = |corr（Mi，L）|= cov（Mi，L）= E [（Mi− μMi）（L − μL）]，（8）熵，所以这种方法会得到负面的结果。我们希望噪声消除方法仍然以熵的形式存在熵值为负，因此两种模式相减法是不合理的。此外，我们决定使用两种模式的熵比来消除由工作负载特性的差异引起的熵噪声，其可以表示为等式（7），E（M）=H（Mi）。（七）4.2权重定义iHon（Mi）+Hoff（Mi）一旦资源发生变化，无论何种度量我们定义了竞争资源度量的权重w来解决上述问题。Pearson相关系数是相关分析中常用的一种方法，可以从统计学上反映两个变量的相关程度[15]。绝对值越大，相关性越强。计算方法是事件序列的协方差除以两个序列的标准差我们使用竞争资源度量和尾部延迟之间的皮尔逊相关系数来定义w，如等式（8）所示，σMiσLσMi σL其中L是m的尾部延迟的样本集;因此，原始SLE_o在等式（9）中示出，其可以是相同平台上的相同共置工作负载的尾部延迟的映射，以及尾部延迟与共置工作负载的平均延迟的比率nSLE_o =wiE（Mi），H（Mi）min（Hon（Mi），Hoff（Mi））。（九）i=14.3正常化为了比较多工作负载和多平台场景下的性能干扰，我们引入了SLE的归一化，包括统一平台尽管第3.2.3节中提到的方法是根据一般资源行为选择争用资源度量，但具有不同处理器架构的平台为相同资源提供不同数量的硬件事件例如，Sky-lake在TLB上的硬件事件比Westmere多在TLB刷新行为方面，Skylake包括L1I TLB、L1D TLB和L2 TLB刷新事件，而Westmere仅提供L1ITLB此外，有些平台例如，这些平台没有L3缓存，使用L2缓存作为最后一层缓存，这也可以反映在指标的值差异上。因此，我们定义kn来规范化不同的平台。对于平台s，kn表示为等式（10），kn= 最大值（N）n、（十）其中n是M的数量，N是S中所有平台的n的集合。此外，我们使用熵与尾延迟的比值来表示映射程度。在相关研究中，尾潜伏期通常定义为第90在本文中，我们使用第95个延迟来表示尾部延迟。然而，当横向比较工作负载或系统时，由于不同的在线服务和离线分析工作负载特性的影响，尾部延迟幅度是不同的。因此，我们提出了归一化尾延迟，它使用十点十二Y. Liang等人ACM Transactions on Architecture and Code Optimization，卷。号201、第10条。出版日期：2023年2月尾部延迟和平均延迟的相对比值，以取代尾部延迟具体定义如式（11）所示，其中，l和ls表示在线业务在共址和独立时的尾部延迟，a和as表示在线业务在共址和独立时的平均延迟。尾部延迟除以平均延迟以消除离线分析工作负载的特征差异。通过单机划分协同定位，消除了在线业务工作负载的特征差异，归一化尾潜伏期=L/als/as.（十一）对于位于同一地点的工作负载x，其映射度是其最新熵与归一化尾部延迟的比率，其如等式（12）所示，d=kn·SLE_o。（十二）归一化尾潜伏期然后，我们通过将B中所有共置工作负载的最大映射度除以x的映射度来定义kd，如等式（13）所示最大值（D）KD=、（十三）D其中，D是B中所有共置工作负载的d的集合。通过归一化，完成SLE的建模，其可以表示为等式（14），SLE=kn·kd·SLE_o。（十四）我们举一个例子来说明SLE的计算我们使用Imgdnn-Wordcount作为x，平台A（配置细节见第4.1节）作为p，DCMIX作为B，平台A和C作为P，为Imgdnn分配2个核心，为Wordcount分配10个核心，QPS设置为1，100。首先，我们计算在co-location Imgdnn、Imgdnn独立和Wordcount独立下的每个竞争资源度量的熵。我们过滤掉不满足约束C的度量。等式（6）总共去除了六个度量，例如snoop_rsps_hite_PKI，并且其H（3.75）小于等式（5.17）上的H或等式（4.38）中的H接下来，我们通过等式（7）消除熵的噪声例如，l2_wb_l3_PKI（4.62）的熵由Hon（5.25）和Hoff（2.45）更新为0.60然后，我们通过等式（8）计算每个竞争资源度量的w，其中l3_miss_PKI具有最高的w，其为0.89。通过等式（9）将SLE_o计算为9.91 如果需要归一化，则p Westmere（平台A）的n为49，而P中Skylake（平台C）的n为31，kn可以通过等式（10）计算为1。根据公式（12），在平台C上 Imgdnn-Sort的Imgdnn-Wordcount的映射度为2.49，在D中的最大映射度为10.48，因此通过公式（13）计算的Imgdnn的kd为3.56最后，通过使用等式（14），Imgdnn-Wordcount的SLE为35.32。5实验实验的目的是双重的。首先，我们使用典型的协同工作负载评估SLE指标其次，我们举例说明了SLE的两个案例研究：一个是基于SLE的工作负载分类，另一个是评估不同的隔离机制。5.1实验设置5.1.1硬件平台。我们使用四个节点的集群作为测试床。一个节点是客户端节点，在线服务的客户端进程通过该节点发送请求。其他三个节点分别是平台A、B和C，每个节点部署在线服务和离线分析工作负载，以评估使用SLE量化共存工作负载的资源争用十点十三ACM Transactions on Architecture and Code Optimization，卷。号201、第10条。出版日期：2023年2月−表1. 系统配置详情项目CPU类型A和B站台Intel Xeon E5645@2.40GHz 12平台C英特尔酷睿i7- 7500U@2.70GHz4插座21LLC12，288 KB4，096 KB存储器32 GB（A）/96 GB（B）8 GBLinux内核2.6.32-754.27.1.el6.x86_644.4.0-201-genericOSCentOS 6.1Ubuntu 16.04.1 LTSSLE。集群配备1 GB/s以太网。此外，我们禁用超线程技术和涡轮增压。表1总结了详细的配置和设置。平台A和平台B具有相同的处理器，但具有不同的内存容量。平台C的处理器和内存容量与平台A和平台B不同。5.1.2测量工具和工具我们采用LinuxPerf来测量潜在竞争资源集中的绝大多数指标。此外，我们使用Linux/proc文件来获取指标，如CPU利用率和内存利用率。我们采用DCMIX作为协同工作负载来评估SLE指标，总共包括八个不同的工作负载，三个在线服务工作负载和五个离线分析工作负载。例如，Imgdnn-Sort意味着将Imgdnn和Sort工作负载放在一起。所有工作负载都以多线程模式运行，线程数等于CPU核心数。由于实验平台A和B具有12个CPU核心，因此将两个核心分配给在线服务工作负载。相比之下，10个核心被分配给离线分析工作负载。对于平台C，两个内核被分配给在线服务工作负载，另外两个内核用于离线分析工作负载。对于所有平台，在线服务Imgdnn、Masstree和Shore的默认QPS分别为1，100、550和5当工作负载是独立的时，也可以使用该配置进行公平的度量。5.1.3分析方法。我们在co-location节点上进行分析，而忽略客户端节点。我们考虑两种情况：（1）独立：离线分析工作负载的分析时间等于在线服务工作负载的运行时间等于所有离线分析工作负载的最大时间（2）协同定位：剖析时间由离线分析作业的运行时间决定联机服务分析在预热10秒后启动，以确保应用程序已达到稳定状态。最后，分析间隔设置为10 s，每个实验进行五次以排除离群值。5.1.4评估指标。我们关注SLE是否能够客观准确地表征性能干扰。我们通过分析SLE_o和归一化尾潜伏期（在等式（11）中定义）之间的相关性来评估SLE，以证明其有效性。我们采用SLE和标准化尾潜伏期之间的Pearson相关系数RPearson相关系数在1 ~ 1之间，其绝对值表示相关性。绝对值越大，两个变量之间的相关性越强正值意味着正相关，反之亦然。一般来说，皮尔逊相关系数的绝对值可分为四个等级[15]，包括强（0.6 -1.0）、中等（0.4-0.6）、弱（0.2-0.4）和无（0-0.2）。十点十四Y. Liang等人ACM Transactions on Architecture and Code Optimization，卷。号201、第10条。出版日期：2023年2月≥表2. SLE值，标准化尾潜伏期值在括号Imgdnn-Union平台A11.42（1.8）平台B12.16（2.1）平台C11.21（2.8）Imgdnn-乘法13.00（2.0）12.79（2.2）10.90（2.8）Imgdnn-Wordcount35.32（5.5）10.79（1.8）13.10（3.3）Imgdnn-Sort38.46（6.0）12.79（2.2）14.99（3.8）Imgdnn-MD512.05（1.9）13.10（2.2）11.21（2.8）Imgdnn-Idle10.48（1.6）10.48（1.7）10.48（2.6）马斯特里联盟11.21（1.3）13.52（1.9）13.94（1.8）马斯特里乘法14.57（1.6）12.05（1.7）11.11（1.5）马斯特里-字数统计14.57（1.6）10.58（1.5）14.36（1.9）马斯特里排序17.61（2.0）12.79（1.8）14.67（1.9）马斯特里-MD513.73（1.5）11.84（1.7）14.46（1.9）马斯特里-伊德尔10.48（1.2）10.48（1.4）10.48（1.4）海岸联盟48.63（6.5）56.38（8.0）21.69（6.1）海岸倍增13.00（1.7）12.47（1.8）13.52（3.8）Shore-Wordcount48.00（6.4）39.61（5.6）22.53（6.3）Shore-Sort36.89（4.9）25.68（3.7）17.82（5.0）Shore-MD525.89（3.5）29.66（4.2）13.83（3.9）海岸闲置10.48（1.4）10.48（1.5）10.48（2.9）我们计算每个共置工作负载样本的平均值的SLE_o和

下载后可阅读完整内容，剩余1页未读，立即下载