海报：光互连系统中分布式DNN训练的高效All-reduce

52 浏览量更新于2023-08-23 收藏 12.4MB PDF 举报

分布式

DNN

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

4220海报：光互连系统中分布式DNN训练的高效全局归约0费戴1*，陈雅雯1，黄志毅1，张海波1，张芳芳201新西兰奥塔哥大学，新西兰达尼丁2齐鲁工业大学，中国济南daitr616@student.otago.ac.nz*，{yawen.chen，zhiyi.huang，haibo.zhang}@otago.ac.nz，zhff4u@qlu.edu.cn0摘要全局归约是分布式深度神经网络（DNN）训练中减少模型参数的关键通信原语。大多数现有的全局归约算法都是为传统的电气互连系统设计的，由于电气互连系统的低数据带宽，无法满足大规模DNN分布式训练的通信需求。电气互连的一个有前途的替代方案是光互连，它可以提供高带宽、低传输延迟和低功耗。我们提出了一种名为Wrht（WavelengthReused HierarchicalTree）的高效方案，用于在光互连系统中实现全局归约操作。Wrht可以利用波分复用（Wavelength DivisionMultiplexing，WDM）来减少分布式数据并行DNN训练的通信时间。使用真实的DNN模型进行仿真，结果表明，与电气和光网络系统中的全局归约算法相比，我们的方法分别减少了75.76%和91.86%的通信时间。0CCS概念：•计算方法→并行算法;分布式人工智能。0关键词：光互连，分布式DNN训练，全局归约，波分复用0ACM参考格式：费戴1*，陈雅雯1，黄志毅1，张海波1，张芳芳2。2023年。海报：光互连系统中分布式DNN训练的高效全局归约。在第28届ACM SIG- PLAN并行编程原则和实践年会（PPoPP’23）上，2023年2月25日至3月1日，加拿大蒙特利尔。ACM，纽约，美国。https://doi.org/10.1145/ 3572848.357739101引言0数据并行是最广泛采用的范例之一，每个工作节点使用其本地数据集对DNN进行训练0未经费用许可，可以制作本作品的部分或全部的数字或硬拷贝，但不得为牟利或商业优势而制作或分发拷贝，并且拷贝必须带有本声明和第一页的完整引用。必须尊重本作品中第三方组件的版权。对于其他所有用途，请联系所有者/作者。PPoPP’23，2023年2月25日至3月1日，加拿大蒙特利尔©2023版权由所有者/作者持有。ACM ISBN 979-8-4007-0015-6/23/02。0https://doi.org/10.1145/3572848.35773910并交换模型参数（例如梯度）与其他工作节点进行迭代[ 1]。随机梯度下降（SGD）是DNN训练中最广泛使用的方法，它在分布式深度学习（DL）的全局归约操作中频繁调用数据通信[ 2]。全局归约的目标是使每个工作节点从所有其他工作节点接收模型参数，然后应用归约操作以获得平均模型参数。已经证明，当工作节点的数量较大时，全局归约的通信可能占用每次迭代训练时间的50-90%[ 3]。传统电气网络中的通信时间可能非常高，这是由于电气路由器的带宽低、电气网络的延迟高以及网络拥塞。当通信引起的开销超过并行计算带来的收益时，训练性能将受到降低。随着CMOS兼容光学器件的最新发展[ 4]，光纤/片上网络连接是一种有前景的替代方案，它可以提供高带宽、低传输延迟和低功耗。此外，光互连可以通过利用WDM实现不同波长的波导传输数据，实现并行数据传输。然而，大多数现有的全局归约算法并不适用于光互连。它们是为电气互连系统设计的，不利用光互连的特性，如利用WDM进行并行数据传输。例如，众所周知的环形全局归约算法需要2 ( �− 1 ) 步完成全局归约通信[ 5 ]，其中 �是工作节点的数量。然而，这种方法不适用于光互连系统，因为它只假设每步传输中只有一个波长，无法利用光互连的WDM。因此，我们提出了一种高效的全局归约方案，名为Wrht，用于在光互连系统中最小化全局归约操作的通信步骤和通信时间。据我们所知，Wrht是首个优化光互连系统中全局归约的方案。02 Wrht方案0Wrht方案基于称为TeraRack的微环谐振器光互连架构[ 6]。我们假设�个计算节点顺序地连接成一个环，并且计算节点是GPU。每个波导的可用波长数为�，每个波长的带宽为�。我们使用图1来说明Wrht的机制，它由两个阶段组成：减少阶段和广播阶段。减少阶段：在第1步中，所有节点沿着环被划分为具有�个节点的群组。每个群组的中间节点被选为代表节点，并负责通过� � / 2�个波长收集每个群组内的数据。之后，每个代表节点执行归约操作以在下一步中传输。在随后的�步中，前一步中选择的旧代表节点进一步被划分为� �...............................................................................................................................................................02550751001251501750501001502002503003504000102030405060708005101520254230PPoPP ’23, 2023年2月25日至3月1日，加拿大蒙特利尔0广播阶段0� � �个群组，每个群组的中间节点被选为新的代表节点，如图1所示。这个过程重复进行，直到波长足够提供最后一步中代表节点之间的全互联通信，如图1中间的虚线框所示。广播阶段：一旦减少阶段最后一步的代表节点获得最终的减少值，广播阶段的过程就是减少阶段的逆过程。具体来说，代表节点使用 � �/ 2 �个波长在相应的群组中广播减少数据，根据分层树结构重复进行，直到所有节点接收到减少数据，如图3的下部所示。结果，Wrht的通信步骤总数为2 � log � � � 或 2 � log � � � − 1。0减少阶段0由于节点在每个步骤中被Wrht分成子组，因此每个子组内的通信需要分配适当的波长以避免冲突，而来自不同子组的通信在环形拓扑中不共享任何链路。因此，我们可以使用First Fit[ 7 ] 或 Best Fit [ 8]的波长分配方法来为每个子组内的通信分配波长。0由于每个子组的节点数为�，中间节点被选为代表节点，很容易推导出波长需求为� � / 2�。对于减少阶段的最后一步，代表节点的数量为0*）2�波长进行全对全通信[9]，当��>1时可以推导出��=��−1�，这需要�（� 803实验设置和结果在模拟中使用的DNN模型是AlexNet（62.3M参数）[10]，VGG16（138M参数）[11]，ResNet50（25M参数）[12]和GoogLeNet（6.7977M参数）[13]与ImageNet数据集[14]。我们在我们的光互连模拟器中实现了Wrht以及一系列全局归约算法，并使用SimGrid[15]来模拟电气网络系统。我们通过在模拟器和SimGrid中数值设置不同的DNN传输数据、节点数、波长等来估计通信时间。0128 256 512 1024（a）AlexNet0标准化时间0128 256 512 1024（b）VGG160标准化时间0128 256 512 1024（c）ResNet500标准化时间0128 256 512 1024（d）GoogLeNet0标准化时间0图2.使用不同的全局归约算法，比较电子互连和光互连系统中的通信时间0图2比较了不同规模下不同DNN模型在电子互连系统中的Ring和RD全局归约算法与光互连系统中的Ring全局归约和Wrht之间的通信时间。04 结论0在本文中，我们提出了一种在光互连系统中高效的全局归约算法，称为Wrht，利用多个波长来减少总通信步骤数。我们已经证明了我们的方法在电气和光互连系统中分别减少了75.76%和91.86%的通信时间。4240Wrht PPoPP '23，2023年2月25日至3月1日，加拿大蒙特利尔0参考文献0[1] Zhe Zhang，Chuan Wu和ZongpengLi。分布式DNN训练中近似最优的拓扑自适应参数同步。在IEEE INFOCOM2021-IEEE计算机通信会议上，第1-10页。IEEE，2021年。0[2] Jiayi Huang，Pritam Majumder，Sungkeun Kim，AbdullahMuzahid，Ki Hwan Yum和Eun JungKim。面向分布式深度学习的通信算法架构协同设计。在2021ACM/IEEE第48届年度国际计算机体系结构研讨会（ISCA）上，第181-194页。IEEE，2021年。0[3] Guanhua Wang，Shivaram Venkataraman，Amar Phanishayee，JorgenThelin，Nikhil Devanur和IonStoica。Blink：用于分布式机器学习的快速通用集合。arXiv预印本arXiv:1910.04940，20[4] Peng Yang，Zhehui Wang，Zhifei Wang，Jiang Xu，Yi-ShingChang，Xuanqi Chen，Rafael KV Maeda和JunFeng。用于节能机架级计算系统的多域内/互芯片硅光网络。IEEE计算机辅助集成电路与系统交易，39(3)：626-639，2019年。0[5] Pitch Patarasuk和XinYuan。用于工作站集群的带宽最优全局归约算法。并行与分布式计算杂志，69(2)：117-124，2009年。0[6] Mehrdad Khani，Manya Ghobadi，Mohammad Alizadeh，ZiyiZhu，Madeleine Glick，Keren Bergman，Amin Vahdat，BenjaminKlenk和EimanEbrahimi。Terarack：用于机器学习训练的Tbps级机架。2020年。0[7] Asuman E Ozdaglar和Dimitri PBertsekas。光网络中的路由和波长分配。IEEE/ACM网络交易，11(2)：259-272，2003年。0[8] P Sathishkumar和VMahalingam。用于持久通信的最佳波长分配算法。国际计算机科学与信息技术杂志，6(1)：728-733，2015年。0[9] Weifa Liang和XiaojunShen。多跳WDM光网络中适用于全对全路由的一般方法。IEEE/ACM网络交易，14(4)：914-923，2006年。0[10] Alex Krizhevsky，Ilya Sutskever和Geoffrey EHinton。使用深度卷积神经网络的图像分类。神经信息处理系统进展，25：1097-1105，2012年。0[11] Karen Simonyan和AndrewZisserman。用于大规模图像识别的非常深的卷积网络。arXiv预印本arXiv:1409.1556，2014年。0[12] Kaiming He，Xiangyu Zhang，Shaoqing Ren和JianSun。用于图像识别的深度残差学习。在IEEE计算机视觉与模式识别会议论文集中，第770-778页，2016年。0[13] Christian Szegedy，Wei Liu，Yangqing Jia，PierreSermanet，Scott Reed，Dragomir Anguelov，Dumitru Erhan，VincentVanhoucke和AndrewRabinovich。使用卷积深入研究。在IEEE计算机视觉与模式识别会议论文集中，第1-9页，2015年。0[14] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，Kai Li和LiFei-Fei。ImageNet：一个大规模的分层图像数据库。在2009年IEEE计算机视觉与模式识别会议上，第248-255页。Ieee，2009年。0[15] Henri Casanova，Arnaud Legrand，和MartinQuinson。Simgrid：大规模分布式实验的通用框架。在第十届国际计算机建模与仿真会议（uksim 2008）上，第126-131页。IEEE，2008年。

下载后可阅读完整内容，剩余1页未读，立即下载