SplitNets：头戴设备上高效分布式计算的神经网络架构

186 浏览量更新于2023-10-25 收藏 13.83MB PDF 举报

分布式计算

摄像头传感器

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Fusion redictioFusion Predictionstacked cameraMul�ple Cameras AR/VR processor multi-layer stacked cameras with AI computing capabil-ity arise [32, 33], as depicted in Figure 1.Because ofthe small form factor, these intelligent cameras have highlyconstrained resources compared with general purpose mo-bile or data center grade AI processors. However, each cam-era is still capable of performing pre-processingy af-ter imagition, signiﬁcantly reducingwimage data movement.In a modern HMD system, thedistributed intelligent stacked image sensors and a centralAR/VR processor (aggregator) form the hardware backboneto realize complex CV/ML functions on device [3, 13, 14].Within such systems, it’s natural to split the machinelearning workload for an application between the sensorsand the centralized computer (aggregator).As is shownin Figure 2, for an application that requires multiple lay-ers of convolutional neural networks and fusion of multipleinput sources, the early layers can be distributed to the on-sensor processing. The feature fusion and rest of process-ing are on the aggregator. This way, overall system latencycan be improved by leveraging direct parallel processing onsensors and reduced sensor-aggregator communication.The success of distributed computing for DNNs betweensensors and aggregator heavily relies on the network ar-chitecture to satisfy the application and hardware systemconstraints such as memory, communication bandwidth, la-tency target and etc.. Prior work [10, 27, 28, 39] searchesnetwork partitions (i.e., the splitting points) for existingmodels in either exhaustive or heuristic manners.Somework [4, 11, 36, 45, 46] manually injects a bottleneck mod-125590SplitNets：设计用于头戴式系统上高效分布式计算的神经网络架构0Xin Dong 1，Barbara De Salvo 2，Meng Li 2，Chiao Liu 2，Zhongnan Qu 3，H.T. Kung 1和Ziyun Li 201 哈佛大学，2 Meta Reality Labs，3 ETH Zurich0xindong@g.harvard.edu0传感器上的推理聚合器上的推理0多层0堆叠摄像头0带有AI处理0多个摄像头0轻量级0AR/VR处理器0图1. 带有多个智能AI摄像头的AR/VR设备。0摘要0我们设计了深度神经网络（DNN）和相应的网络分割，将DNN的工作负载分布到头戴式设备上的摄像头传感器和集中式聚合器上，以满足给定硬件资源约束下的系统性能目标，包括推理准确性和延迟。为了在计算、通信和性能之间实现最佳平衡，引入了一种分割感知的神经网络架构搜索框架SplitNets，同时进行模型设计、分割和通信减少。我们进一步扩展了该框架，用于多视图系统，以实现从多个摄像头传感器中融合输入的学习，以实现最佳性能和系统效率。我们验证了SplitNets在ImageNet上的单视图系统以及在3D分类上的多视图系统，并展示了与现有方法相比，SplitNets框架实现了最先进的性能和系统延迟。01. 引言0虚拟现实（VR）和增强现实（AR）正逐渐成为下一代计算平台之一[3]。AR/VR的头戴设备（HMD）配备了多个摄像头，以支持各种计算机视觉（CV）/机器学习（ML）驱动的人机交互功能，例如物体分类[40，61]，手部跟踪[19]和SLAM[38]。由于摄像头技术的最新进展，出现了具有AI计算能力的多层堆叠摄像头[32，33]，如图1所示。由于体积小巧，这些智能摄像头与通用移动设备或数据中心级别的AI处理器相比，资源受限。然而，每个摄像头仍然能够在图像采集后直接进行预处理，大大减少了昂贵的原始图像数据传输。在现代HMD系统中，分布式智能堆叠图像传感器和中央AR/VR处理器（聚合器）构成了实现设备上复杂CV/ML功能的硬件支撑[3，13，14]。在这样的系统中，将应用程序的机器学习工作负载在传感器和集中式计算机（聚合器）之间进行分割是自然而然的。如图2所示，对于需要多层卷积神经网络和多个输入源融合的应用程序，可以将前期层分布到传感器上进行处理，特征融合和其余处理在聚合器上进行。通过利用传感器上的直接并行处理和减少传感器-聚合器之间的通信，可以提高整个系统的延迟。在传感器和聚合器之间进行DNN的分布式计算的成功在很大程度上依赖于网络架构，以满足应用程序和硬件系统的约束，如内存、通信带宽、延迟目标等。之前的工作[10，27，28，39]在现有模型中搜索网络分割点（即分割点），要么是通过穷举法，要么是通过启发式方法。一些工作[4，11，36，45，46]手动注入了瓶颈模块。0传感器上的推理聚合器上的推理0多层0带有AI处理0轻量级0图2.传感器和聚合器的分布式推理。在这项工作中，我们专注于单/多视图分类任务。125600优势 ↓ 通信成本 ↓ 峰值传感器内存 ↑ 并行性 ↑ 硬件利用率隐私保护0全部在传感器上 � � � � �0全部在聚合器上 � � � � �0分布式计算 � � � � �0表1. 不同DNN计算卸载范式的比较。0组件要考虑的系统因素0� 传感器0□� 计算能力 □� 峰值内存约束 □�传感器数量（即并行性）0� 通信 □� 通信带宽0� 聚合器 □� 计算能力0整个系统0□� 任务性能（例如准确性） □� 总体延迟 =在传感器上的延迟 + 通信延迟 +在聚合器上的延迟0表2.在分布式神经网络计算中需要平衡的因素。所列因素相互交织，必须全面考虑。0为了减少通信，我们将分割模块引入模型中。然而，这些方法有时会得到天真的分割结果（即在最后一层之后进行分割）[28]，从而导致性能下降[35]。分割DNN的挑战来自于许多模型和硬件因素的复杂相互影响。例如，现有的（手工设计和搜索的）模型架构是在不考虑多个计算模式上的分布式计算的情况下设计的，因此不适合首先进行分割。此外，分割点的位置以及插入的压缩模块将同时影响模型性能、计算负载、通信和硬件利用率的不同方向[37]。在这种情况下，启发式和基于规则的方法受到限制。在这项工作中，我们采用神经架构搜索（NAS）方法，自动搜索面向AR/VR眼镜上的分布式计算系统的分割感知模型架构。我们提出了SplitNets框架，它在满足移动AR/VR系统资源约束的前提下，共同优化任务性能和系统效率。我们具体回答以下两个问题：1.我们是否可以同时搜索最优网络架构和传感器与聚合器之间的网络分割解决方案，同时满足底层硬件的资源约束？02.我们是否可以学习一种最优的网络架构，将多个传感器的特征压缩和融合到聚合器中，并实现与传统集中式模型相比的SOTA性能和效率？0我们设计了SplitNets，一种分割感知的NAS框架，用于在分布式计算环境中对网络中的分割模块进行高效灵活的搜索，其中分割模块能够分割网络，沿通道维度压缩特征以节省通信开销，并进行多视图任务的视图融合。我们引入了一系列技术来进行模块初始化和采样，以稳定训练并减轻引入的准确性降低。我们进一步扩展了SplitNets，支持搜索具有多视图任务的分割模块和视图融合。据我们所知，这是第一个支持在多输入神经网络中搜索信息压缩/融合位置的框架。总的来说，我们的贡献总结如下：•我们提出了SplitNets，一种分割感知的NAS框架，用于高效灵活地搜索单视图/多视图任务的分割模块。0•我们引入了用于单视图和多视图任务的分割模块，可以同时实现模型分割、特征压缩和视图融合。为了搜索分割模块的最佳位置，我们提出使用分别用于传感器和聚合器的独立超网络，并将它们拼接在一起形成感兴趣的分割感知模型，使用共享的分割模块作为连接点。此外，我们将基于压缩/恢复/融合的分割模块设计与自定义权重初始化以及一种新颖的候选网络采样策略相结合，以减轻由于模型分区而导致的准确性下降。0•我们使用单视图分类和多视图3D分类来评估SplitNets。实证观察验证了联合模型和分割位置搜索对于改善任务和系统性能的重要性。我们的结果表明，SplitNets发现的优化网络架构和模型分区明显优于现有解决方案，并且很好地适应了AR/VR眼镜上的分布式计算系统。02. 背景和相关工作0我们考虑的系统由V个传感器、一个聚合器和传感器与聚合器之间的通信接口组成。为简单起见，我们假设传感器是同质的。DNN是传感器和聚合器之间分布的层/计算的组合。与之相比(1)125610通过在传感器上进行计算（全在传感器上）和传统的移动计算（全在聚合器上）之间的分布计算，分布计算具有在计算和通信之间实现更好平衡、实现硬件高利用率的灵活性，如表1所总结。0一个挑战是确定DNN中的分割点。在传感器上执行的部分fsen，由分割点之前的所有层组成，由传感器的处理器执行。每个传感器生成的特征z将被上传到聚合器。在聚合器上执行的部分fagg，由分割点之后的所有剩余层组成，接收z并在计算能力更强的聚合器处理器上完成计算。0找到最佳分割点的问题可以总结如下,0min fsen,fagg Tsen(fsen, x) + Tcomm(z) + Tagg(fagg, z)0其中z = fsen(x)0s.t. L(fagg ◦ fsen; Dval) ≤ Losstarget0PeakMem(fsen, x) ≤ Memsen,0其中T(∙,∙)是延迟测量函数，L是损失函数，例如交叉熵。PeakMem(∙,∙)测量传感器部分的峰值内存消耗，Memsen是传感器处理器的内存大小。0为了找到最佳的分割点，必须同时考虑几个因素，如表2所总结的。现有的解决方案只通过启发式或穷举方法考虑其中的一部分因素[10,27,28,39]。DNN通常有数十甚至数百层。因此，通过重新训练进行穷举搜索是昂贵的。一些文献提出了注入手工设计的压缩模块来减少特征通信[4,11,36,45,46]。然而，手动设计和插入压缩模块不仅需要高工程成本和训练成本，还会导致次优的系统性能和准确性降低。0此外，先前的方法都考虑将现有模型如VGG[47]和ResNet[22]进行分割。然而，这些模型可能不适合分割。例如，Kang等人[28]对七个模型进行了分析，发现它们的最佳分割点通常在第一层或最后一层。此外，向现有模型注入压缩模块通常会导致显著的准确性下降[36]。0其他工作提出了专门的有损（或无损）压缩技术来减少中间激活并节省通信，包括压缩感知[59]，修剪[26]和量化[6,8,29]。SplitNets与这些先前方法正交，并且可以从中受益。03. 分割感知NAS0我们将NAS应用于求解公式（1）中的约束优化问题。目标是最小化系统延迟Tsen + Tcomm +Tagg，并在满足硬件约束的同时提高任务性能。我们搜索整个模型fsen ◦fagg以及分割点的位置，记为Split-Aware-NAS（或SA-NAS）。这样，分割点之前（或之后）的所有层将分别组成fsen或fagg。此外，我们还考虑在分割点位置插入一个分割模块。分割模块中的特征压缩可以通过减小特征张量z的通道大小c来减少通信成本，但可能会影响训练稳定性并导致任务性能损失。我们提出了几种方法来缓解这个问题。分割模块在SA-NAS过程中与fsen和fagg一起演化，详见第3.1.3节。最终，搜索到的网络必须有且仅有一个分割模块。0初步：两阶段NAS 以往的NAS方法利用进化搜索[42, 43,50, 58]或强化学习[52,62-64]需要大量的训练，因为需要训练大量的模型。最近的NAS进展将模型训练和架构搜索分为两个独立的阶段[5, 7,18, 55,60]，大大降低了训练成本。在两阶段NAS框架中，模型训练阶段通过权重共享优化超网及其所有子网络。在后续的架构优化阶段，根据系统约束搜索子网络，以获得最佳的任务和系统性能平衡。基于以上优势，我们构建了基于两阶段NAS框架的SA-NAS。03.1. 构建和训练超网（阶段1）0超网的骨干结构我们构建超网的搜索空间遵循FBNet-V3[9]，它使用MobileNetv2块（记为MB，也称为反向残差块）[44]作为元架构。更多细节请参见附录C。我们根据SA-NAS的特定搜索空间（图3）对超网进行了扩展，如下两节所讨论。03.1.1 SA-NAS用于单视图SplitNets0现在我们详细说明如何为单视图任务（例如ImageNet分类）搜索SplitNets，即搜索分割模块的位置，如图3所示。单视图任务的分割模块由两部分组成，Conv-Reduce和Conv-Recover，将在第3.1.3节中讨论它们的架构和初始化策略。分割模块可以插入 = [8, ...]K = [0, 1, ...]softmaxSearchable inverted residual block (MB)Dynamic expansionratio: [4, 8, ...]Dynamic output #channels: [64, 72, ...]etc.FCDynamic resolutions: [192, 224, 256]after any of inverted residual block (MB) in a supernet the-oretically. However, instead of equipping every MB with acandidate splitting module, we divide a supernet into sev-eral phases and insert one splitting module for each phaseto reduce the number of splitting positions to be optimized.Suppose a supernet has N stride-2 MB blocks, We dividethe whole model into N phases where each phase has onestride-2 MB block. Within a phase, MB blocks before thestride-2 block have the same spatial size and similar chan-nel sizes. We then insert one Conv-Reduce (green trapez-ium, Figure 3) layer φ : Rc×s×s → Rd×s×s in each phasefor the on-sensor supernet, associated with a gate variablegi ∈ {0, 1} indicating whether this layer is selected. Acorresponding Conv-Recover (purple trapezium, Figure 3)layer φ′ : Rd×s×s → Rc×s×s will be inserted into the on-Samplednetwork-11-S2-S3-S4-S1-S2-S3-A4-A1-S2-S......VSamplednetwork-21-S2-S4-A1-S2-S......V3-S3-S1-A2-A3-A4-AOn-Sen. SupernetOn-Agg. SupernetFigure 5. SA-NAS for multi-view SplitNets. A convolution layer(Conv-Reduce, purple trapezium) to reduce input’s channel size onthe sensor side. The reduced input from V views will be concate-nated together (View-Fuse, green trapezium) on the aggregator. Inthis example, 3-A and 3-S are learning features for local view andmixed views respectively, thus their weights cannot be shared.aggregator supernet. Conv-Recover layer shares the samegate variable with Conv-Reduce, meaning that they are al-ways selected, or not, at the same time.Using Conv-Recover allows weight-sharing of a block between differentsampled sub-networks speciﬁed by different Conv-Reduceselections during training.The number of MB blocks before (variable M) and af-ter (variable K) the splitting module can be adjusted freelyand searched through SA-NAS. This provides us with fullsearch space of the splitting point at ﬁne granularity, as wellas a small amount of candidate networks to train. In par-ticular, on-sen. and on-agg. blocks at the same depth learnsimilar features and can share weights for single-view prob-lems.In sub-network sampling, once a splitting module (i.e.,gi = 1) is selected, we take blocks before splitting from theon-sensor supernet and blocks after splitting from the on-aggregator supernet, and stitch them together using split-ting module as the joint point to form a sampled network asillustrated in Figure 4.Eventually, we need exactly one splitting module. There-fore, gate vector g = (g1, . . . , gM) is restricted to a one-hot vector in the resource-constrained architecture searchstage. However, during supernet training, we are free toinsert more splitting modules to help reduce the maximumperformance loss (see Appendix D).3.1.2SA-NAS for Multi-View SplitNetsWith V sensors in the system, V images are captured fromdifferent perspectives. Each sensor processes its capturedimage with the on-sen. model. Afterwards, a fusion moduleon the aggregator will fuse the compressed V features fromsensors and the on-agg. model further transforms the fusedfeatures to the ﬁnal result.Similar to searching the position of splitting module (i.e.,Conv-Reduce and Conv-Recover) for single-view tasks, we125620MB-M ... MB-K ...0第i个传感器模型阶段0动态块数之前：0M = [1, 2, ...]0动态减少0通道数：0动态块数之后：0聚合0第1阶段0聚合0第i阶段0SplitNets0Sen.0第1阶段0... 第N阶段 ... Sen.0第i阶段0Gate : g_i = [0,1]0共享门：g_i = [0,1]0第i个聚合模型阶段0MB-M ... MB-K ...0SplitNets的搜索空间标准NAS的搜索空间0Conv-Reduce Conv-Recover（单视图）或View-Fuse（多视图）0图3.在训练SA-NAS中的架构采样空间。on-sen.和on-agg.网络都包含多个阶段，每个阶段都包含一个分割模块、步幅前的可变块、一个步幅为2的块和步幅后的可变块。分割模块可以是一个减少运算符（on-sen.，绿色）或一个恢复/融合运算符（on-agg.，紫色）。SA-NAS还包括标准NAS的搜索空间（蓝色），例如输入分辨率、通道宽度等。0采样网络-101-S 2-S 3-S 4-S01-A 2-A 3-A 4-A0On-Sen. 超网0On-Agg. 超网01-S 2-S 3-A 4-A0采样网络-2 1-S 2-S 3-S 4-A0共享0共享0共享0共享0图4.用于单视图SplitNets的SA-NAS。在每个训练步骤中，从搜索空间中采样出多个子网络。一个子网络由一组选择指定，包括on-sen.块、分割位置、on-agg.块和块的配置。对于单视图，on-sen.块和on-agg.块之间启用权重共享，因为它们学习相似的特征。Initialization MethodWeights’ VarianceAverageKaiming Fan-In or -Out [21]2k2 cin or2k2coutNoXavier [17]125630k 2 ∙ (cin + cout) / 2 算术0我们的 20k 2 √ cin ∙ cout 几何0表3.不同初始化方法的比较。本表中的方程式假设激活函数为ReLU。0现在使用SA-NAS来搜索多视图任务中分割模块（即Conv-Reduce和View-Fuse）的位置。与单视图情况相比，我们在on-sen.超网络中保留Conv-Reduce层，但是将on-agg.超网络中的Conv-Recover层替换为View-Fuse层，以聚合多个视图的特征，如图5所示。与单视图情况不同，on-sen.和on-agg.超网络之间无法进行权重共享，因为on-agg.网络学习处理融合表示，其中包含来自V个视图的混合信息，而on-sen.超网络仅处理局部信息。换句话说，on-sen.和on-agg.的功能完全不同，强制一个共享块同时扮演这两个角色是次优的。03.1.3 分割模块的架构0单视图：压缩和恢复受到[4, 11,0在SA-NAS中，我们采用了一个直接的实现方式来实现分割模块。如图3所示，我们使用两个卷积层来压缩特征：φ：Rc×s×s→Rd×s×s和恢复特征：φ'：Rd×s×s→Rc×s×s在通道维度上，其中d可以通过SA-NAS进行搜索。在SA-NAS中，φ和φ'总是同时选择的。多视图：压缩和融合之前的工作已经提出了复杂的融合架构，如针对不同应用的循环和图神经网络[16, 20, 34,49]。与单视图类似，多视图分割模块使用卷积层φ：Rc×s×s→Rd×s×s进行通信节省，然后使用View-Fuse层将这些来自V个视图的压缩特征融合在一起。不失一般性，我们使用一个高度简化的融合操作-连接（见附录B）。View-Fuse将V个视图沿通道维度连接在一起，concat � V × Rd×s×s �→RV∙d×s×s。尽管融合架构非常简单，但我们凭经验表明，使用SA-NAS联合搜索分割（即融合）位置和网络架构可以显著提高准确性，与具有专用融合层的SOTA方法相比（见第4节）。分割感知权重初始化正如[36]所观察到的，将压缩/融合模块添加到超网络中0训练过程降低了训练稳定性并产生了次优的训练性能。我们发现这个问题是由于压缩模块的梯度引起的。实际上，压缩层的梯度比常规层大10倍以上，从初始化开始。以Kaiming初始化为例[21]。其Fan-In模式是确保每个层的输出具有零均值和单位方差，因此输出幅度在前向传递中不会爆炸。类似地，卷积层的反向传递也是一个卷积，但是使用转置的权重矩阵WT，并且应用相同的思想将导致Fan-Out模式。无论是Fan In还是FanOut都适用于标准神经架构，因为大多数层的输入通道大小cin和输出通道大小cout是相似的（见表3）。然而，对于Conv-Reduce和Conv-Recover，cin和cout非常不同，因此Kaiming和Xavier无法同时调和前向和后向。为了缓解这种冲突，我们使用一种新的初始化策略，将cin或cout替换为它们的几何平均值√cin∙cout。使用几何平均值可以在前向和后向传递之间找到更好的折衷，并显著提高训练稳定性和最终准确性，如附录F所示。03.2. 资源受限搜索（第二阶段）0在超网络训练阶段之后，所有候选网络都被充分优化。下一步是搜索满足系统约束的最优网络。由于两阶段NAS将训练和搜索解耦，系统约束是完全可配置的。此外，当系统约束发生变化时，无需重新进行昂贵的超网络训练。由于超网络的搜索空间非常庞大，采用进化算法加速搜索过程[5, 7, 18,55,60]。具体而言，我们对当前一代网络的成对进行变异和交叉，生成它们的子网络。所有子网络都根据其硬件和任务性能进行评估和选择。选择的子网络将用于填充下一代的候选网络。经过几代的迭代，可以找到最优网络。我们同时考虑两种硬件约束。1）软约束，例如在相同任务准确率下的整体延迟：选择具有前k个最小延迟的子网络。2）硬约束，例如峰值内存使用量：只有满足所有硬约束的子网络才能被选入下一代。0系统硬件建模给定一个采样的网络，通过硬件模拟器对其硬件性能进行建模。在这项工作中，我们使用了一个专为逼真的HMD系统定制的硬件模拟器[40, 61]，其中包括智能传感器。0017173757779Neurosurg.All-on-Sen.All-on-Agg.Head-DistillSplitNets040024Sen.Comm.Agg.737779125640图6.目标系统的硬件模型。传感器上的计算使用较低级别的技术节点（16纳米），具有有限的芯片内存。智能传感器通过共享的1.2Gb/s总线连接到聚合器。聚合器使用先进的工艺（7纳米），具有更快的计算速度和更大的内存。0整体延迟（毫秒）0Top-1准确率（%）0模型索引0整体延迟（毫秒）0Top1准确率（%）0图7.左：使用不同网络架构在ImageNet上比较SplitNets与之前方法的结果。右：展示SplitNets搜索模型的准确率（虚线和右侧y轴）和整体延迟分解（堆叠条形图和左侧y轴）。每个搜索模型的整体延迟由垂直堆叠条形图表示。每个条形图从底部到顶部的长度分别代表Tsen，T comm，T agg。0传感器（见图6）。传感器上的处理器配备了一个16纳米的神经处理单元（NPU），其峰值性能为Comp sen = 125GOP/s，峰值内存为Mem sen = 2MB。聚合器处理器采用强大的7纳米NPU进行建模，其峰值性能为Comp agg = 1.25TOP/s，并具有足够的芯片内存。传感器与聚合器之间的通信采用高性能的共享总线进行建模，HMD的峰值带宽为BWcomm = 1.2Gbs。在实际中，高速总线将被多个传感器共享。附录中总结了更多的实现细节。04. 结果0我们验证了SplitNets可以满足所有系统硬件约束，并找到具有竞争力的准确率和最佳系统性能的优化模型，与手工制作或标准NAS方法搜索的SOTA模型相比。具体而言，我们评估了我们在ImageNet分类（第4.1节）上的单视图系统的SplitNets和在3D分类（第4.2节）上的多视图系统的SplitNets。04.1. 单视图任务：ImageNet0对于单视图系统的分布式计算，我们使用公共的大规模单视图分类数据集ImageNet来训练和测试该方法，并评估性能。结果总结在表4中。0SplitNets训练/搜索配置：在超网训练中，我们采样了5种网络（见附录D），使用[54]中的标准训练方法进行360个epoch的优化，批量大小为4096。在资源受限的搜索中，我们使用进化算法[9, 54,55]采样了512个候选网络，进行了20代的优化。0与SOTA方法的比较：我们将SplitNets与几种现有的手工设计或通过现有NAS方法搜索得到的模型进行比较。比较的模型包括MobileNet-v2 [44]，MNAS-Net [52]，Ef�cientNet[53]，ResNet [22]，DenseNet [25]，Inception-v3[51]和RegNet[41]，其中前三种架构专门设计用于移动设备上的计算。为了使评估更符合实时应用的实际情况[32]，我们假设每个传感器分配了共享总线的25％带宽。我们还假设所有模型的权重和激活都被量化为8位，而不会损失精度（文献已经证明这种假设是合理的[12, 15, 30,56]）。如果模型具有更大的位宽，则SplitNets将获得更多好处，因为来自特征压缩的通信节省更为显著。我们将SA-NAS方法与四种基线模型分割方法进行比较：•“All-on-sen.”：所有计算都在传感器上进行。通信开销可以忽略不计，但峰值内存通常超过传感器的内存容量。在我们的实验中，我们发现即使是轻量级的现有模型，也需要>5MB的峰值内存，这对于传感器部署来说太大了。0• “All-on-agg.”:将原始图像传输到聚合器并在聚合器上执行所有计算。通信成为瓶颈，系统在传感器数量增加时无法扩展。0• “Neurosurgeon [ 28 ]”:一种启发式方法，它对每一层进行分析，并穷举搜索每个可能的分割位置，以找到最佳的分割点。Neurosurgeon对许多网络进行模型分割，并发现最佳分割点通常位于开始或最后一层，这会退化为“All-on-agg.”或“All-on-sen.”。我们将“Neurosurgeon[28]”应用于最近的高效架构，并观察到类似的结果。这证实了联合设计网络和分割的必要性。0• “Head Distill [ 23 ]”:一种方法，首先手动确定分割点的位置，然后通过知识蒸馏将头部部分替换为较小的网络。这种方法能够显著提高性能。Memsen ≤ 2MBCompsen (16nm) =125 GOP/sCompagg (7nm) =1.25 TOP/sBWcomm =37.5 MB/sAll-on-sen.MobileNet-v271.883.51M301M5.90MB2.46ms000002.46msMNASNet-1.0§73.464.38M314M5.59MB2.52ms000002.52msEfﬁcientNet-B0§77.135.30M386M7.70MB3.09ms000003.09msResNet-15278.3160.2M11.5G120 MB92.1ms0000092.1msRegNetX-3.2GF§78.3615.3M3.18G29.3MB25.4ms0000025.4msAll-on-agg.MobileNet-v271.8800003 · 22424.01ms3.51M301M0.24ms4.25msMNASNet-1.0§73.4600003 · 22424.01ms4.38M314M0.25ms4.26msEfﬁcientNet-B0§77.1300003 · 22424.01ms5.3M386M0.31ms4.32msResNet-15278.3100003 · 22424.01ms60.2M11.5G9.21ms13.2msRegNetX-3.2GF§78.3600003 22424.01ms15.3M3.18G2.54ms6.60ms1.0909294125650硬件约束方法骨干网络Top-1传感器上的通信聚合器上的整体延迟参数数量操作数量峰值延迟大小延迟0� :对于所有模型，我们假设权重和激活都被量化为8位，而不会损失精度。0神经外科医生0MobileNet-v2 71.88 0 0 0 0 3 ∙ 224 2 4.01ms 3.51M 301M 0.24ms 4.25ms0MNASNet-1.0 § 73.46 82.0K 103 M 1.29MB 0.83ms 80 ∙ 14 2 0.84ms 4.30M 212M 0.17ms 1.82ms0Ef�cientNet-B0 § 77.13 0 0 0 0 3 ∙ 224 2 4.01ms 5.3M 386M 0.31ms 4.32ms0ResNet-152 78.31 0 0 0 0 3 ∙ 224 2 4.01ms 60.2M 11.5G 9.21ms 13.2ms0RegNet

下载后可阅读完整内容，剩余1页未读，立即下载