SiP-ML：光网络加速机器学习训练的革命性突破

127 浏览量更新于2024-06-16 收藏 1.98MB PDF 举报

SiP-ML，全称为Silicon Photonic-ML，是一项前沿的研究成果，旨在利用高带宽光网络技术来提升机器学习训练的效率。随着深度学习模型的复杂度不断增加，对计算资源的需求也随之飙升，现有的电力驱动的网络连接已经难以满足大规模分布式训练的需求。因此，研究人员提出了一种创新的设计思路，即通过硅光子学技术实现的可重构网络，将光信号用于在GPU之间快速交换大量数据和模型信息。硅光子链路是SiP-ML的核心组成部分，它利用光的高速特性，每秒能够提供数太比特（Terabits）级别的带宽，远超传统电信号的传输速率。这使得SiP-ML能够在单次训练迭代中处理更大规模的数据，显著降低延迟，从而加速整个训练过程。文章强调了数据并行性和模型并行性在分布式机器学习中的关键作用，通过有效地将任务分解到多个GPU上，并优化光互连网络的配置，实现了高效的通信。为了实现这一目标，研究团队开发了一套综合考虑任务划分策略和光器件布局的方法，充分考虑了光互连的延时和动态重构能力。通过真实深度神经网络（DNN）模型的仿真结果，SiP-ML相较于最先进的电气网络，展示了显著的时间缩短，训练速度提高了1.3到9.1倍。这种进步对于推动机器学习在诸如自然语言处理、计算机视觉等领域的应用具有重要意义。 SiP-ML的设计和实施涉及网络架构、设计规划算法以及光网络与分布式机器学习的结合，展示了硅光子学技术在高性能计算环境中的潜力。该研究被发表在2021年的SIGCOMM会议上，强调了光网络在未来计算基础设施中的关键角色，尤其是在追求更大规模、更高效的数据处理和模型训练方面。 SiP-ML代表了光通信技术与机器学习领域的一次重大融合，其在提高训练效率方面的成果预示着一种可能的未来趋势，即光网络将逐渐成为数据中心和云计算环境中不可或缺的一部分。通过这样的技术革新，有望突破现有硬件的限制，推动人工智能技术的持续发展。

SIGCOMM

M. Khani等人

660

以实现逻辑丰富

的

拓扑。使用嵌入在

SiP

端口

[22

，

23]

中的

微环谐振器（

MRR

）

[21]

进行重新配置

MRR

用作光谱滤波

器以选择和转发波长，并且它们使得能够跨环的非重叠段

重用波长（附录中的图

13a

示出了示例）。我们的实验表

明，

MRR

可以在

25 µ s

内在不同波长之间切换（

§4.4

）。我们

在附录

A.1

中更详细地讨论了

SiP

环设计。

3.2

度感知的企业化策略

DNN

可以被视为操作（

ops

）的有向非循环图（

DAG

）为

了并行化

DNN

训练任务，我们需要决定哪个

GPU

负责运行

每个操作（或每个操作的一部分作为一个简单的例子，为

了在

个

GPU

上使用

训练全局批量大小

为

的模型，我们

将每个

分解为

个并行

子

，每个子

对大小为

的本

地批量进行操作（这被称为样本维度上的分裂

[38]

），并且

我们将一个子

映射到每个

GPU

。一般来说，

遵循类似

的步骤：首先将每个操作划分为并行操作，然后放置子操

作。然而，分区和放置决策并不像

中那样简单

我们的并行化算法将以下内容作为输入：（

）

为了最小化每个操作的运行时间，希望将操作拆分为更小

的计算片段。有很多方法可以拆分操作

;

例如，

卷积可以在

高度，宽度和通道维度上拆分[38]。但是，在拆分操作时，我

们必须注意不要影响GPU利用率。GPU（和其他ML加速器）

在内部将操作分发到大量核心上。如果我们将一个op分割得

太细，它将没有足够

的计算强度

来有效地利用内核，因此，

我们不会从分割中减少运行时间。因此，我们选择计算时间τ

的最小量，并将操作拆分为大小接近τ的子操作。我们还将每

个操作的最大分区数限制在

（

度），因为分裂超过可用

并行工作器的最大数量结果是一个平衡的计算图，其顶点是

子操作，如图4（b）所示，用于我们的运行示例。

拆分维度的正确选择取决于操作的类型例如，在具有多

个输出通道的图像上的

卷积的情况下，如果我们在输入

的高度和宽度维度上划分

，则没有子

需要知道整个输

入图像。但是如果我们把行动分散到

DNN

计算图，

在

操作（节点）和

=（V，E），其中V是

输出通道维度，每个子操作都需要输入的副本

图像，导致广播通信模式，

是数据依赖关系（边）的集合

（ii）由b表示的全局批量大小;

(iii)参数k

，

表示使用MP划分模型的GPU的数量;（iv）参数

l，表示使用DP划分数据的GPU的数量;以及（v）光网络拓扑

的物理度约束，由表示。我们的算法找到了一种混合MP-DP

策略，该策略具有用于N=klGPU

的

k路模型并行性和l路数据

并行性，使得训练迭代时间最小化，同时满足度约束（即，

每个GPU与不多于其它GPU通信）。我们假设所有GPU都是

相同的。

该算法的核心确定DNN计算在k

个

GPU上的MP放置。具体

来说，我们首先将GPU分成l

个

组，每组k个GPU，并且我们

在组之间均等地划分全局批处理（即，每个小组负责

对于大小为

B/1

的局部批量训练数据）。然后，我们计算一个

跨

个设备的

放置我们在每组中重复相同的放置以产生

最终的混合

MP-DP

策略。图图

示出了我们的跨

个

GPU

的

并行化算法中的关键步骤，其中

k=4

路

，

l=2

路

，并

且度约束

。在本节的剩余部分中，我们将其作为一个运行示

例。

(i)

分区。

DNN

训练包括

COM

的连续阶段，

插补，如计算图中的数据依赖性所指示的例如，图

（

）

中的曲线图具有

个顺序

，示出为不同颜色的矩形每个矩

形的大小表示运算的计算时间最小化训练时间的关键是在

计算的

每个

阶段平衡设备之间的计算负载，以最大限度地

提高并行性。请注意，平衡每个阶段的计算与平衡每个设

备上的总负载不同顺序相关的操作不能并行运行，因此将

它们放置在同一设备上与将它们放置在不同设备上相比对

运行时间没有影响，即使它增加了设备上的总负载

头顶我们为每个操作选择最有效的维度由于我们总是均匀地

分割

，所以子

倾向于与它们的后代通信相同量的数据

（图

（

）中每个阶段的子

之间的边缘承载大致相同量的

流量）。

(ii)

安置接下来，我们将GPU设备分配给

平衡图我们的布局目标是最大限度地减少总运行时间，同时

尊重所需的光互连的通信度约束。每个

GPU

具有两种类型的

通信：（

）它必须与其

组中的一些

GPU

通信（取决于操作

布局）;（ii）给定混合DP-MP策略，存在1

个

MP组需要通过

DP同步它们的参数。因此，每个GPU必须与其他1MP组中的

其对应方通信以执行全归约操作，从而跨DP分区同步模型参

数。我们使用ring-allreduce [29，30]算法来完成这一步。这需

要MP组中的对应GPU之间的环形通信模式，这需要每个GPU

向另一组中的一个

GPU

发送数据。因此，

GPU

最多可以与其

自身

组内的其他

GPU

进行通信，以满足总体度约束。

现在，我们提出了一个启发式算法，用于将

放置在

组内，以最大限度地减少运行时间，并对通信程度进行

约束。虽然该问题可以被写为非线性问题（

ILP

），但是考

虑到平衡计算图的规模（例如，对于

Transformer DNN

模型

超过

20K

个子操作算法

提供了伪代码。

我们算法的关键策略是将

GPU

设备映射到度量空间，并

将度约束转换为该空间中的距离约束。我们选择

GPU

设备

的任意排序，并放置操作以保持最大通信距离为

1/2;

即，

设备

和

仅在以下情况下才被允许通信

（i − j）mod k ≤ k。这种约束导致稀疏的对角线流量

剩余19页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

SiP-ML：光网络加速机器学习训练的革命性突破

SiP-ML：光网络驱动的高效机器学习训练加速

SIP-T协议：PSTN与SIP网络互连详解

SIP-T与SIP-I：多媒体通信协议详解与应用

贝岭的matlab的代码-sip-client:SIP客户端

go-sip-ua:前往clientb2bua的SIP UA库

sip-servlets:常用的 SIP Servlet 应用程序集合

SIP-Pi：在Raspberry Pi上运行的SIP应答机

npm-civic-sip-api:公民安全身份平台（SIP）的Node.js客户端库

sip-attacks：zeek程序包，用于检测SIP协议中的攻击

SIP-Healthy:使用 Check_MK Nagios 进行 SIP 服务监控和通话质量

最新资源