现代数据中心高性能互连设计与性能评估研究

11 浏览量更新于2023-12-05 收藏 2.45MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

BenchCouncil交易基准，标准和评估2（2022）100074研究文章通过广泛的基准调查李宇科a，郝琦a，卢刚b，冯进b，郭燕飞c，卢晓毅a，加州大学默塞德分校，北湖路5200号，关闭CA，USAb中国广东省深圳市海天二路33号腾讯c阿贡国家实验室，9700 S。Cass Avenue，Lemont，60439，ILA R T I C L E I N F O关键词：基准互连RDMAA B S T R A C T了解现代数据中心和高性能计算（HPC）集群中热互连的设计和性能表征是近年来一个富有成果的研究课题。各种类型的数据中心和HPC应用（如大数据、深度学习和微服务）的高带宽和低延迟通信需求的快速持续增长一直在推动高级互连设计的发展。我们认为，这是高的时间来研究具有代表性的热互连与不同的基准的性能表征。因此，本文提出对数据中心和HPC群集上最先进的热互连以及相关的代表性基准进行了广泛的调查，以帮助社区更好地了解现代互连。此外，我们在不同的应用场景下，这些互连的相关基准进行了表征。我们提供我们的基准数据中心互连的基础上，我们的调查，实验和结果的观点1. 介绍数据中心和高性能计算（HPC）集群的规模随着数据量的日益庞大和对分布式计算能力的高需求而迅速增长[1]。这种趋势导致了现代数据中心互连的各种设计，并使其性能表征成为一个有价值的研究课题。为了持续改进跨现代数据中心或HPC集群中的大量节点的数据移动或通信的性能和可扩展性，已经设计了不同类型的高级互连以满足流行的数据中心应用（诸如深度学习、大数据、微服务等）中的高带宽和低延迟通信的要求。为了升级传统的以太网（100 Gbps）网络并提高数据中心应用的效率，硬件供应商展示了多种类型的高级数据中心互连。例如，NVIDIA（Mellanox）已经生产了200 Gbps的InfiniBand（IB）[2]，其中具有经过良好优化的远程直接存储器访问（RDMA）子系统，以加快应用程序中的节点间通信。Cray有Slingshot互连[3]和Aries互连[4]作为现代HPC系统的高速互连。RIKEN（日本物理和化学研究所）和富士通开发了豆腐互连[5]系列，用于他们设计的超级计算机。与此同时，以太网的网络速度在几十年的发展中从10 Gbps提高到100 Gbps [6]甚至更高[7]。∗ 通讯作者。随着硬件发展的趋势和新的互连的产生，有几个问题是应用程序开发人员需要注意的。随着硬件的升级，开发人员需要重新评估不同代硬件的性能，以根据提高的数据传输速率设计合适的系统软件。此外，随着新硬件功能的发展，许多新的互连正在出现。这些功能可能会影响应用程序的性能，需要进行系统研究。另一方面，不同类型的数据中心应用代表了各种性能特征，如HPC工作负载、深度学习训练和推理、大数据分析和基于云的微服务。新互连对这些不同工作负载的影响应单独仔细评估。因此，我们认为现在是时候通过不同应用场景下的标准基准测试实验来研究现代数据中心和HPC互连的性能特征了。这一观察促使我们广泛调查现代数据中心和HPC集群上的热门互连以及相关的代表性基准，以帮助社区更好地了解这些高级互连。存在一些调查来总结不同工作负载的基准测试经验。例如，Han等人[8]调查了10个大数据基准，以讨论基准挑战。Zhang等人[9]第一章电子邮件地址：yli304@ucmerced.edu（Y.Li），hqi6@ucmerced.edu（H. Qi），gateslu@tencent.com（G. Lu），ronyjin@tencent.com（F. Jin），yguo@anl.gov（Y.Guo），xiaoyi.lu @ ucmerced.edu（X.Lu）。https://doi.org/10.1016/j.tbench.2022.100074接收日期：2022年9月19日;接收日期：2022年10月21日;接受日期：2022年10月21日2022年10月28日网上发售2772-4859/©2022作者。Elsevier B. V.代表KeAi Communications Co. Ltd.提供的出版服务。这是CC BY-NC-ND许可证下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表标准和评价期刊主页：www.keaipublishing.com/en/journals/benchcouncil-transactions-on-benchmarks-standards-and-evaluations/BenchCouncil交易基准，Y. Li，H. Qi，G. Lu等人BenchCouncil交易基准，标准和评估2（2022）1000742图1.一、数据中心互连和基准测试概述。研究了14个深度学习基准。Zhou等人[10]讨论了七个微服务基准。Gao等人[11]比较了15个大数据和AI（人工智能）基准。但是，我们没有找到这样一个调查，可以广泛涵盖广泛的最新先进的互连在现代数据中心和相关的代表性基准为不同的应用场景- ios。因此，本文解决了需要调查不同的热互连部署在现代数据中心和相应的基准，以揭示其性能特征。图1显示了本文调查范围的概述以下各节将介绍图中的每个组件。1、采用自下而上的方法。在第2节中，我们调查了现代数据中心和HPC集群中的在第3节中，我们调查了常用的微基准评估这些热互连与他们的网络原语和机制。第4节将概述具有不同评估粒度的应用程序级基准测试，如图所示。1.一、在第5节中，我们选择了几个代表性的基准测试，包括 Netperf [12] ， Perftest [13] 和 OSU Micro-Benchmarks（OMB）[14]用于MPI（消息传递接口）[15]和PGAS（分区全局地址空间）[16]应用程序，以及互连，包括IB，Omni-Path [17]和以太网来运行实验。我们提出的结果显示这些热互连的性能表征作为例子或参考数字。第6节将根据我们的调查、实验和结果讨论我们对基准测试数据中心互连的一些观察和观点第7节讨论了更多的相关研究，第8节总结了论文。本文的主要贡献如下：• 我们对当前一代和新兴数据中心和HPC集群中的高级热互连进行了广泛的调查。• 我们还全面调查了相关的代表性基准测试从微观基准测试和应用程序级基准测试的角度。• 我们在真实的互连硬件上进行了一系列基准测试实验，并讨论了它们的性能特征。• 我们分享我们对现有基准测试的可改进方面的观察，例如性能稳定性，参考编号，实验指令等，帮助社区设计更好的2. 现代互连作为HPC和数据中心系统不可或缺的一部分，互连在实现更高的可扩展性和现代集群的性能。近年来，社区见证了以太网和InfiniBand等传统互连的发展，以及Fugaku Tofu [5]和BXI（Bull eXascale Interconnect）[18]等专有互连的诞生。本节将简要概述一些具有代表性的最先进的现代互连及其特征[1]。在我们逐一讨论这些互连之后，表1显示了它们之间的简要比较热互连。2.1. 以太网以太网是HPC和数据中心群集最常用的互连之一。在早期阶段，1Gb/s以太网（1-GigE）被广泛使用。然而，随着CPU性能和I/O速度的提高随着对更高带宽和数据传输速率的需求，10-GigE、25-GigE、50-GigE甚至100-GigE的以太网截至2022年6月，25-GigE是Top500名单中使用最广泛的互连，以太网互连系列是名单中的大多数，占近50%。利用RDMA的优点，开发了融合以太网上的RDMA（RoCE）[20]，这是一种允许RDMA在以太网网络上运行的网络协议。RoCE旨在支持第2层网络上的以太网上的RDMA，其扩展版本RoCE v2支持第3层网络上的传输。传统上，以太网将拥塞控制留给TCP（传输控制协议）层.随着发展，1996年提出的第一个针对以太网的算法是暂停帧[21]。 RoCE上的拥塞控制使用TCP/IP协议的扩展，称为ECN（显式拥塞通知）[22]。等其他技术QCN（Quantized Congestion Notification，量化拥塞通知）[23]是后来开发的。传统以太网和RoCE都可用于各种互连拓扑。2019年，亚马逊宣布EFA（弹性结构适配器）[24]用于其EC2（弹性计算云）实例。EFA上的libfabric接口提供高达100 Gbps的速度，并通过操作系统旁路等技术减少开销2.2. InfiniBand由NVIDIA提供的InfiniBand（IB）是一种行业标准交换机结构，也是Top500列表中第二大最受欢迎的互连系列[19]。截至2022年6月，Top500集群中有32.4%通过IB互联，尤其是Summit [26]和Sierra [27]等Top10集群。除了更高的带宽（高达400 Gbps）和更低的延迟（1 μs）外，IB还支持高级功能，如RDMA，允许软件在远程存储器中读取/写入数据。Y. Li，H. Qi，G. Lu等人表3BenchCouncil交易基准，标准和评估2（2022）1000743互连比较名称EthernetInfiniBandOmni-PathSlingshotAriesTofuDBXI25-100 Gbps200-400 GbpsRoCE制造商ManyManyNVIDIA/MellanoxIntel/CornelisCrayCrayFujitsuAtosCommodityPublic PublicPublicPublic PublicPublicProprietary专有专有专有单向带宽（Gbps）25200100 [38] 400 [39] 100 [37] 200 [37] 40 [4] 56 [40] 100端到端延迟（μs）10拥塞控制是拓扑各种胖树，蜻蜓+Fat-treeDragonflyDragonflyTorus各种RDMA否否是年份201420172010199920152019201220182015节点，而无需来自远程端的任何CPU参与。 IB提供可靠或不可靠、连接或数据报数据传输类型[28]。可靠的传输可以保证数据包的有序传输，但它需要花费额外的时间来等待来自接收端的确认。不可靠传输不能确保数据包被接收，但它不需要额外的时间来等待数据包。用于连接传输的队列对以一对一映射连接，而用于数据报传输的队列对以一对任意映射连接。连接传输更适合连接数量较少的应用。数据报传输通常在大规模应用中表现更好，因为需要在内存中维护的连接上下文更少[29]。具体地，支持RDMA的网络（如InfiniBand）通常支持四种类型的传输模式：可靠连接（RC）、可靠数据报（RD）、不可靠连接（UC）和不可靠连接数据报（UD）。所有模式都支持SEND和RECV操作，而UD不支持RDMA WRITE操作，UD和UC不支持RDMA READ操作。IB最常用的网络拓扑结构是胖树[30]，但它也支持ports其他拓扑结构，如+ [31]。IB标准包括拥塞控制机制，通过使用两个中继消息来检测和解决拥塞：FECN（前向显式拥塞通知）[32]和BECN（后向显式拥塞通知）[33]。在将IB应用于GPU时，CUDA5.0首次引入了GDR（GPUDirect RDMA）[34]。GDR允许IB适配器直接访问GPU内存，同时也绕过主机。GDR可以显著提高GPU之间的数据通信性能，这进一步有利于越来越多的重新设计的经典HPC和机器/深度学习应用程序。2.3. Omni-PathOmni-Path于2015年首次由英特尔发布，作为英特尔可扩展系统框架的一部分 Omni-Path主要包括网卡、交换机和网络管理器组件。它基于英特尔技术构建，具有多种功能，如流量优化和数据包完整性保护。它主要是设计为了支持胖树拓扑结构，其CCA（拥塞控制架构）自其第一个版本以来一直在不断更新。第一代Omni-Path可为每个端口提供100 Gbps带宽，集成到一些CPU架构中，如Skylake和Knights Landing（KNL）[35]。尽管英特尔在2019年停止了第二代Omni-Path的开发，但截至2022年6月，它仍然占据了Top500集群的7.8%[19]。2020年末，英特尔宣布分拆科内利斯网络[36]继续作为Omni-Path产品的继任者的业务。2.4. 弹弓2019年，Cray推出了名为Slingshot的新一代HPC互连技术[3]。Slingshot使用标准的协议以太网，同时也兼容专有的HPC网络在需要时。它提供了自适应路由、服务质量保证和完全实现的高级拥塞控制等关键功能在硬件方面。弹弓交换机配备了64个端口，每个端口都以200 Gbps的速度运行。Slingshot还支持多个互连拓扑，如胖树（fat-tree）和双树（fit-tree）[41]。作为Cray的世界第一超级计算机。 Slingshot也计划部署在即将到来的exascale集群上，如Aurora [44]和EI Capitan [45]。Slingshot在Top500列表中占据4.8%的集群截至2022年6月[19]。2.5. Aries互连Aries作为Cray一个带有四个网络接口卡和一个48端口平铺路由器的Aries设备可以为Cray XC刀片上的所有四个节点提供网络连接。Aries中的NIC和交换机紧密耦合在以太网网络中，以提供经济高效且可扩展的全球带宽。该系统可根据用户的全局带宽需求进行配置，其光连接数可根据成本约束。它还提供了自适应路由、通信机制和同步机制等技术。Aries采用了TCP拓扑结构，并通过实现Valiant的路由算法来实现拥塞控制截至2022年6月，5%的Top500集群使用Aries，包括Piz Daint [47]和Cori [48]。2.6. 豆腐互联D作为专有互连的代表之一，Tofu [49]是由RIKEN和Fujitsu开发的互连系列， K计算机[50] 2018年，TofuD（Tofu Interconnect D）作为豆腐家族的新成员推出。其主要特点正如其名称所示。豆腐代表TofuD是一个专有的基于环面[5]的六维网络，它主要支持使用家族虚拟信道调度算法的拥塞控制。与Tofu和Tofu2 [51]相比，TofuD具有更高的通信资源密度，例如每个节点48个核心。并引入了动态包分片的双轨传输技术来解决延迟问题以及豆腐2中的容错问题。Fugaku [52]采用了TofuD，Fugaku在2020年建成时是Top500名单中的前1名集群，截至2022年6月排名第2 [19]。2.7. BXI互连2015年，Atos将BXI设计为HPC的新互连[18]。BXI基于可扩展且可靠的Portals4 [53]网络编程接口和并行计算和通信Y. Li，H. Qi，G. Lu等人BenchCouncil交易基准，标准和评估2（2022）1000744通信N表2微基准的总结[13][56][61][62][63][64][65]链路层IB、Eth（RoCE）IB、Eth（RoCE）Eth Eth IB、Eth（RoCE）IB、Eth（RoCE）等。编程模型RDMA RDMA Socket Socket RDMA/Socket MPI传输协议RC/UC/UDDCT，SRDRC/UC/UD TCP，UDP，SCTP TCP，UDP，SCTP TCP，UDP，SCTP，SDPRC/UC/UD、RDSMPI可以使用的任何协议主要指标吞吐量、平均延迟、尾延迟平均延迟，尾延迟，WQE缓存未命中吞吐量，平均延迟平均延迟，尾延迟吞吐量，平均延迟吞吐量、平均延迟、尾部延迟、拥塞影响语言C语言C语言C语言线程模型单线程单线程多线程单线程多进程（MPI）通信模式P2P P2P P2P P2P;多播P2PP2P，集体真实场景Y（w/real应用）N N N Y或迹线协议内部通过硬件卸载。它由两个基于ASIC（专用集成电路）的组件组成：BXI NIC和BXI交换机。BXI NIC提供操作系统旁路、通信卸载和可靠性等功能。每台BXI交换机配备48个100 Gbps端口，并提供节能和网络性能监控功能。BXI支持多种网络拓扑结构，如胖树，蝴蝶[54]和环面。BXI在每个端口上实现高效的细粒度自适应路由，以最大限度地减少拥塞的可能性。它还通过一些优化（如死锁避免和负载平衡机制）提供可靠性和稳定性保证截至2022年6月，Tera-1000-2采用BXI 1.2，在Top500排行榜中排名第45位[19]。2.8. 总结我们调查了上述热门互连，因为它们在Top500列表中的集群中很受欢迎。表1总结了一个简短的比较这些热互连。它们在带宽、延迟、拥塞控制机制和网络拓扑等方面表现出巨大的差异，这促使我们研究它们的性能特征。由于缺乏对专有互连的访问，本文主要对以太网、RoCE、IB和Omni-Path进行了评估。InfiniBand是原生RDMA设计的重要互连。10/25 Gbps以太网网络是数据中心和HPC集群中使用的大多数互连（27.2%）。RoCE和TCP/IP可以部署在10/25 Gbps以太网上[55]。我们评估这些不同的互连，并显示在第5节的结果。3. 微观基准调查社区设计了许多基准来评估各种类型的互连。在本节中，我们将介绍六个微基准测试，这些微基准测试旨在测量低级别的性能指标，如延迟和带宽。我们介绍了它们的特点，并讨论了它们的优点和缺点。如表2所示，包括六个公开的微基准测试进行比较。本节的其余部分将逐一讨论这些微基准。3.1. 完美Perfest [13]由Mellanox开发，自2005年以来一直保持良好。RDMA社区广泛使用它来评估InfiniBand和RoCE网络的延迟和带宽性能。所包含的微基准测试采用单线程和乒乓通信模式来评估基本RDMA操作的吞吐量和延迟我们还可以通过将传输指定为RC，UC，UD，原始以太网甚至Mellanox DCT（动态连接传输）[63]和AWS SRD（可扩展可靠数据报）[64]来比较不同的传输，这些传输在标准IB规范中没有指定[65]。除了基本的操作和传输，Perftest 还支持通过 GPUDirect RDMA 进行直接 GPU 间通信的GPUDirect功能，以及使用RDMA进行数据加密和解密场景的AESXTS[66Perfest的设计没有模拟任何真实的应用程序流量或流量概率分布。它不允许用户选择流量模式，而只允许用户使用一个参数来指定每个测试中的消息大小。这些测试主要有助于硬件或软件调优以及功能测试。3.2. RDMA-工作台RDMA-bench [56]由卡内基梅隆大学于2016年开发。与Perftest不同，RDMA-bench是一个新的基准测试套件，了解从实际应用中提取的几个场景中的RDMA性能。通过运行RDMA-bench获得的指导方针，RDMA-bench的作者成功地开发了一个网络测序仪和一个RDMA-bench中的基准可以分为几类：（1）应用程序基准，包括作为基于RDMA的键值存储系统的HERD [68]和MICA [69 其中用户可以为请求和响应选择不同的RDMA操作;（4）微基准测试，其使用不同的RDMA传输和操作来仿真基于RPC（远程过程调用）的定序器服务器;（5）微基准测试，其仿真具有可配置的线程QP比率的复杂通信方案以进行可伸缩性评估;（6）微基准测试，其帮助理解影响RDMA性能的低级因素，例如WQE缓存出站读取和写入的缺失等。3.3. NetperfNetperf [12]由Hewlett-Packard于2005年开发。它被广泛用于测量BSD套接字[71]的性能，用于使用IPv4和IPv6的TCP，UDP或SCTP（流控制传输协议）[72]，Unix域套接字[73]和DLPI（数据链路提供程序）实际工作负载NNNNNY参数NNNYNN上次更新202220182021202220182021Y. Li，H. Qi，G. Lu等人BenchCouncil交易基准，标准和评估2（2022）1000745接口）[74]。Netperf采用简单的客户机-服务器模型，不支持多线程。主要参数包括套接字缓冲区大小、消息大小、TCP_NODELAY选项和测试模式。Netperf支持两种测试模式：（1）STREAM模式，通过TCP或UDP套接字传输批量数据;（2）RR（请求/响应）模式，模拟客户端和服务器之间的迭代请求-响应事务。传输的数据是合成的。既不支持不同的概率分布，也不支持真实世界的数据跟踪。 Hewlett-Packard制定了Netperf4.x版本的计划，旨在支持同步和多线程基准测试。3.4. iPerfiPerf [57，58]用于评估IPv4和IPv6下TCP、UDP和SCTP流量它提供了丰富的功能[57，58]：(1)iPerf采用多线程设计，可以随系统中CPU的数量而扩展;（2）iPerf支持Netperf很少支持的各种参数的调整，如定时，缓冲区，最重要的是，协议的内部参数;（3）iPerf支持多播测试和双向测试;（4）iPerf可以在许多平台上运行，包括Linux和Windows;（5）用户可以在iPerf中获得各种形式的输出;（6）iPerf提供了libiperf库，是使用和自定义iPerf功能的一种简单方法。iPerf已经演变成两个不兼容的活跃分支。一个分支是iPerf2[57]，它是原始iPerf的更新版本另一个分支是iPerf3 [58]，它是对原始iPerf的重新设计，现在主要由ESnet和劳伦斯伯克利国家实验室开发。它们中的任何一个都包含其他中不存在的几个选项和功能。通常，对于以太网中的TCP和UDP，如果使用默认配置运行，则iPerf2和iPerf3大致相同。但是，用户应检查[59，60]中的详细比较，以避免误用。3.5. qperfqperf [61]最初由QLogic在2007年开发，然后由Linux社区维护。qperf可以测量使用TCP、UDP、SCTP、RDMA、SDP（套接字直接协议）和RDS（可靠数据报套接字）的两台主机之间的带宽和延迟。它采用类似于Netperf的单线程客户端-服务器模型。对于RDMA，我们可以测试RC、UC和UD传输的带宽和延迟。在测试中可以测量每个运输的所有操作。与Perftest相比，从评估RDMA性能的角度来看，qperf支持的传输和功能较少。对于非RDMA协议，qperf选项只能更改消息大小。使用qperf无法评估协议的内部特性。即使qperf只报告平均延迟，无法执行精确的尾部延迟测量，它仍然很受欢迎一个方便的工具。qperf的发布是稳定的，轻量级更新是在四年前。3.6. GPCNetT全球性能和拥塞网络测试（GPCNeT）[62，75]由Cray于2019年开发，用于评估基于MPI的系统的网络性能，该系统采用MPI-3.0规范[76] 。 GPCNeT 由两个基准测试折衷而成： network_test 和 net-work_load_test.network_test描述MPI应用程序在没有网络拥塞的情况下运行时的延迟和带宽。它建立自然环和随机环模式，使所有通信都发生在网络上，而不是在本地组内。通信模式包括双边对等（8字节延迟和128K字节带宽，自然环和随机环），单边远程存储器访问（8字节延迟和128K字节带宽，随机环）、allreduce（8字节延迟，随机环）和alltoall（128字节带宽，随机环）。network_load_test测量MPI应用程序在网络拥塞情况下的性能。这模拟了在多租户HPC网络上运行时的场景。每个拥塞器具有唯一的随机环，并且通信模式包括点对点Incast、All-to-all、单侧RMA Incast和单侧RMA广播。在随机环基础设施中执行两个测量：点对点延迟测量，通过从两侧发送和接收8字节的消息，点对点带宽同步，通过从两侧发送和接收8个128K字节的消息默认设置旨在用于一般的生产场景。它报告了平均值和第99百分位数的乳酸，以及每个秩的带宽。对于拥塞，它还报告拥塞影响度量，该度量定义为拥塞延迟或带宽除以非拥塞延迟或带宽的比率。拥塞影响度量是研究具有不同网络的系统之间的拥塞影响的指标。3.7. 总结上述微基准测试是因为它们在社区中的流行而被调查的。在表2中，我们展示了这些微基准的总结。在六个微基准测试中，我们将在本次调查中使用Perftest和NetPerf测试互连。它们自第一个版本以来都得到了广泛的使用和良好的维护。除此之外，Perftest是由InfiniBand最受欢迎的制造商Mellanox提供的。因此，我们相信Perftest和NetPerf可以分别代表各种互连上基于RDMA和基于套接字的编程模型的事实上的标准基准。我们在第5节中展示了相关结果。4. 应用程序级基准在数据中心的机器上运行各种类型的工作负载，从并行计算到微服务，从用于深度学习工作负载的GPU应用程序到用于大数据工作负载的键值存储。这些工作负载共享的相同问题是，它们都需要通过互连进行有效的数据通信。如上所述，不同的互连可以在相同的应用上显示出不同的特性。因此，研究人员需要使用基准来表征在特定互连上运行的应用程序。本节调查了数据中心中涉及通过互连进行跨节点通信的不同应用场景的具有不同评估粒度的应用级基准测试。为了节省空间，我们将这些基准的详细描述放在表格中。4.1. mpi性能指标评测MPI [15]是一种消息传递标准，广泛用于HPC，其中许多进程或核心被组织为同时运行并行程序以加速。使用一个基准测试来描述不同互连上的MPI库，可以帮助开发人员理解互连的特性，并以有效的方式设计应用程序。我们调查了三个流行的MPI基准测试。俄亥俄州立大学（OSU）提供的OSU MPI微基准[14]包括点对点MPI操作、阻塞/非阻塞集体MPI操作和单侧MPI操作。表3显示了描述细节。由NASA提供的NAS并行基准（NPB）[77]源自CFD（计算流体动力学）应用，并采用MPI编程设计。其详细描述见表4。英特尔提供的MPI Benchmarks（IMB）[78]针对一系列消息大小的通信操作执行MPI 1.0和3.0测量，如表5所示。Y. Li，H. Qi，G. Lu等人表3BenchCouncil交易基准，标准和评估2（2022）100074表56OSUMPI Micro-Benchmarks。英特尔MPI基准测试的详细信息表4NAS并行基准测试（NPB）的详细信息4.2. PGAS基准测试PGAS（分区全局地址空间）是HPC社区中的并行编程模型。PGAS由以下通信定义：每个处理元件（PE）可以访问而没有许可问题的共享存储器空间。许多编程语言和库都是从PGAS模型设计的，例如，通用并行C语言（UPC）[79] [80]第80话当进程从全局内存或向全局内存空间传输数据时，包括在节点内和跨节点传输数据时，通信发生。OSUMicro-Benchmarks还提供了PGAS模型的基准测试：OpenSHMEM基准测试如图所示在表6中; UPC和UPC++具有点对点（put和get）和集体通信的基准。4.3. RPC基准测试RPC是一种方法，当一台机器上的进程调用其他机器上的过程时，该过程的执行发生[81]。它是一种客户机-服务器交互，其中数据通过互连频繁传输，以调用（从客户机）和响应（从服务器）过程。因此，互连的特性可以具有直接影响RPC的性能。我们调查了数据中心中RPC应用程序的三个基准ATB是在[82]中提出的，它评估了基于Apache Thrift [83]的RPC性能包括三类：RPC延迟评估基准、RPC吞吐量评估基准以及混合RPC延迟和吞吐量评估基准。表7显示了TF-gRPC-Bench的详细信息，它评估了参数服务器和工作进程之间的通信性能。Twitter维护RPC-perf [84]。它的目的是评估RPC4.4. 存储基准测试随着硬件技术的发展，产生了许多新的存储硬件，例如NVMe SSD[85]。存储系统依赖于数据中心中的不同驱动程序和库，处理器和存储设备之间通过互连进行交互。英特尔SPDK [86]提供NVMe perf [87]作为NVMe SSD基准测试工具，具有最小的基准测试开销。NVMe perf提供了几个运行时选项来支持最常见的工作负载。用户Y. Li，H. Qi，G. Lu等人表6BenchCouncil交易基准，标准和评估2（2022）100074表97OSU OpenSHMEMMicro-Benchmarks。表7TF-gRPC-Bench的详细信息表8IOzone和Iometer的详细信息。可以在许多方面配置NVMe性能，如工作负载特性（例如，读/写的百分比，有/没有随机读/写），数据移动协议（例如，PCIe、RDMA、TCP）和执行时间[87]。除了硬件，现代数据中心还具有不同的存储系统。表8中显示了两个针对存储系统的调查基准。IOzone [88]是一个用来衡量存储系统中的文件操作。Iometer [89]是一个用于单个和集群系统的I/O子系统测量工具。为分布式存储系统上的擦除编码（EC）提供了一个基准. EC-Bench[90]是用于存储架构的擦除编码方案基准，详细描述见表9。4.5. GPU应用程序基准测试近年来，GPU在数据中心和HPC集群中的计算密集型工作负载中变得非常流行。两个流行的深度学习框架TensorFlow [91]和PyTorch [92]提供了评估深度学习模型的基准，例如Per- fZero [93]和TorchBench[94]。PerfZero是一个基准框架EC-Bench的详细信息表10PerfZero和TorchBench的详细信息用于调试和跟踪TensorFlow性能回归和变化。TorchBench包含一系列开源基准点，用于使用PyTorch 评估模型和工作负载。有关PerfZero和TorchBench的更多详细信息见表10。来自Meta Platforms（以前的Facebook）的PARAM基准[95]可以评估Py- Torch深度学习框架中通信组件的性能，并评估应用程序级工作负载，如深度学习推荐模型[96，97]。由BaiduResearch制作的Deep-Bench [98]是另一个评估不同平台上深度学习操作的基准 NCCL （ NVIDIA CollectiveCommunications Library）[99]和Gloo [100]提供了他们对集体通信库的基准测试，即NCCL测试[101]和Gloo基准测试[102]，以评估集体操作的性能。OSU 微基准也提供几扩展用于GPU编程模型和库，如CUDA [103]，ROCm [104]和OpenACC [105]扩展，通过配置--enable-cuda，运行时中的--enable-rocm和--enable-openacc[14]。4.6. 键值存储基准测试Key-Value Store是一种数据存储模型，用于存储键和值之间的关联。键是基本的，值可以是基本的或复杂的。由于其高效性和可扩展性，它在大数据社区中很受欢迎，并广泛应用于数据中心的NoSQL数据库。我们调查了键值存储的两个基准。[106]第106话我的世界 Cloud ServingBenchmark）用于评估键值和云服务商店的性能。YCSB提供了五种不同数据库操作百分比的工作负载，并评估了三个性能指标：请求延迟，增加机器时的数据库性能，以及系统运行时增加机器时的数据库性能。OSU HiBD-Benchmarks [107]提供了用于评估Memcached和基于HBase4.7. 微服务基准微服务是一种云服务架构。与传统的单体应用程序不同，微服务由多个服务组成，这些服务一起工作以完成工作负载。因此，通信频繁地经由数据中心中的互连在服务之间发生。我们调查了微服务工作负载的两个基准。Y. Li，H. Qi，G. Lu等人BenchCouncil交易基准，标准和评估2（2022）1000748MLNX-5.5IB驱动程序表11DeathStarBench的详细信息表13实验中的测试平台的细节。[110]第110话在第5.2节和第5.3节中使用，使用Bebop[111]和JLSE [112]集群第5.4节。测试床（节点）互连（Gbps）Intel XeonCPURAM（GB）通信子系统中国（2）尖峰（40）InfiniBand（200）InfiniBand（100）黄金6330 256OFED黄金6330 256RHTL 8.6比波普（36）JLSE全路径（100）InfiniBandBroadwellE5-2695v4铂Libfabric [25]v1.15.1768UCX [113，114]表12详细的套房。DeathStarBench [108]是一个用于云和边缘系统上的微服务的开源基准套件，详细信息如表11所示。可使用RISKSuite [109]评估操作系统和网络对微服务的影响，详情如表12所示。4.8. 总结上述应用级基准测试可以代表广泛的数据中心应用，包括HPC、大数据、AI和云计算。在这次调查中，我们选择MPI和PGAS为基础的基准作为应用程序的例子，并运行在不同的互连。基于MPI和PGAS的基准测试已经设计和维护了很多年，社区提供了很多优化。我们的经验还表明，它们易于部署和方便运行。实验结果见第5节。5. 实验本节介绍了各种热互连的性能表征与选定的基准（13）（100）8180M/8176 v1.13.0图二. 200 Gbps InfiniBand上的Perftest、RoCE（25 Gbps以太网）上的Perftest、10/25Gbps以太网上的Netperf和IPoIB（200 Gbps InfiniBand）上的Netperf的延迟。5.1. 基准设定我们在具有各种互连的不同集群上运行基准测试，表13显示了每个集群的详细信息。我们试图通过以下方法来保持实验结果的比较尽可能公平：（1）在不同的实验中分配相同机架中的节点;（2）调整基准选项的迭代次数（Perftest）或持续时间（Netperf），直到获得相对稳定的结果。5.2. 微观基准评价我们使用两种编程模型，RDMA和套接字，在三个10/25 Gbps以太网和200 Gbps InfiniBand互连上使用两个Perftest和Netperf微基准来组织以下实验。我们讨论的实验结果在三个方面：（一）的延迟比较; （二）的带宽使用比较;(3) 使用两种不同的InfiniBand互连对性能的影响。5.2.1. 延迟图2显示了基于不同网络的基准测试的延迟。200 Gbps InfiniBand上的Perftest基准测试是我们实验中最快的互连，由于其性质，核心旁路和高性能协议的实现。虽然RoCE也支持RDMA，但在我们的测试平台上它使用的硬件是25 Gbps以太网，低于200 Gbps InfiniBand，因此RoCE上的Perftest比InfiniBand上的Perftest慢。Netperf [12]是在IPoIB和10/25 Gbps以太网上运行的TCP基准测试。由于TCP的众所周知的沉重开销[29，115]，这三个的延迟数字远低于本地RDMA设计，并且延迟随着网络带宽的降低而变得更大128Y. Li，H. Qi，G. Lu等人BenchCouncil交易基准，标准和评估2（2022）1000749图三. 200 Gbps InfiniBand上的Perftest、RoCE（25 Gbps以太网）上的Perftest、10/25Gbps以太网上的Netperf和IPoIB（200 Gbps InfiniBand）上的Netperf的带宽。5.2.2. 带宽图3示出了在不同互连上使用不同基准的带宽比较。RDMA基准测试Perftest运行在200 Gbps的InfiniBand上，并

下载后可阅读完整内容，剩余1页未读，立即下载