通用瘦身网络与训练优化：提升ImageNet与更多任务性能

61 浏览量更新于2025-01-16 收藏 1.23MB PDF 举报

通用可精简网络与改进的训练技术是当前研究的热点，特别是在深度学习领域。这项工作主要由美国伊利诺伊大学香槟分校的研究团队提出，他们关注的是如何设计和训练能够根据运行时需求动态调整网络宽度的神经网络，即所谓的通用可瘦身网络（US-Nets）。这种网络可以在预定义的宽度集中选择，从而实现在保持精度的同时优化效率。 US-Nets的设计允许网络在不同的宽度上执行，这与Slimmable Networks有所不同，后者仅限于预先定义的宽度选择。研究者扩展了这一概念，不仅适用于具有批量归一化层的网络，还探讨了如何处理没有批量归一化的网络结构。通过这种方法，可瘦身网络能够在不影响性能的前提下，适应不同的计算资源限制。为了提升训练效果和测试精度，研究者提出了两种创新的训练技术：三明治规则和原地蒸馏。三明治规则可能涉及在训练过程中交替调整网络的宽度，而原地蒸馏可能是利用已有模型的知识来指导新模型的训练，以提高性能。实验部分，研究者将US-Nets应用到ImageNet图像分类任务上，对比了通用可精简的MobileNetv1和MobileNetv2与单独训练以及4开关可精简网络的性能。结果显示，通用可瘦身网络在不同宽度下都能展现出较好的性能，甚至与专为特定宽度设计的模型相当。此外，研究者还评估了通用可精简网络在图像超分辨率和深度强化学习任务上的表现，展示了其在多样应用场景下的潜力。通过大量的实验数据，这项研究为评估网络架构的FLOPs-Accuracy谱提供了新的可能性，即网络的计算复杂度与其性能之间的关系。总结来说，这项工作不仅推动了神经网络设计的灵活性，还通过创新的训练技术改进了网络的训练效率和精度，这对于资源受限的设备和任务具有实际意义。感兴趣的读者可以访问<https://github.com/JiahuiYu/slimmable_networks>获取代码和模型。这项研究对于理解深度学习中的网络结构优化和高效部署具有深远影响。

1805

∀ ∈

⌈

⌉

其中，

总结了前

个通道

，

在每次训练迭代中，我们随机采样n个宽度

K [k

，

），

是常数超参数（例如，

ple，

0. 25n）。有界不等式

表明，在离散宽度集

上可执行的可精简网络[25]可以潜在地在其间的任何

宽度上运行（如果适当的话

训练），因为残差随着宽度的增加而减小此外，该不

等式概念上适用于任何深度神经网络，无论使用什么

归一化层[11，17]。然而，正如[25]中所建议的，由于

训练和测试之间的不一致性，批量归一化（BN）[11]

需要特殊处理

在这项工作中，我们提出了通用的可瘦身网络

（US-网），可以在很宽的范围内以任何宽度运行。培

训美国网络的三个基本挑战得到解决。首先，如何处

理神经网络的批量规范化？第二，如何有效地培养美

国网队？第三，与训练单个网络相比，我们还可以在

US-Nets中探索什么来提高整体性能？

批量归一化[11]一直是深度学习中最重要的组成部

分之一。在训练过程中，该算法利用当前小批量数据

的均值和方差对特征进行这种不一致性导致训练可精

简网络的失败，如[25]所示。然后介绍可切换的批量

归一化[25]（我们默认解决共享尺度和偏倚的版本，

专用尺度和偏倚的版本将在第6节中讨论）。然而，由

于两个原因，训练US-Net是不实际的。首先，在训练

期间累积US-Net中所有子网络的独立BN统计量是计算

密集型的并且效率低下。其次，如果在每次迭代中我

们只更新一些采样的子网络，那么这些BN统计量没有

充分积累，因此不准确，导致我们实验中的准确性差

得多。为了正确解决这个问题，我们通过一个简单的

修改来适应修改是在训练后计算所有宽度的BN统计。

训练后的US网的权重是固定的，因此所有BN统计数

据可以在集群服务器上并行计算更重要的是，我们发

现，一个

随机抽样

的训练图像子集，少至1个小批量

（1024张图像），已经产生了准确的估计。因此，计

算BN后统计量可以非常快。我们注意到，为了更普

遍，我们有意避免修改国阵的提法或提出新的正常

化。

接下来，我们提出了一个改进的训练算法的US-网

的动机方程1中的有界不等式。为了训练US-Net，一个

自然的解决方案是累积或平均从不同宽度采样的损失

考试-

分析基于单个隐藏层。未来对具有非线性激活的深度神经网络

的理论分析的研究可能会充分揭示为什么普遍存在或为什么不存在

可瘦身网络。

范围内 [0

。

，

。

0个字符] . 更进一步，我们

我应该注意到，在美国网络，性能在所有宽度

受模型在最小宽度处的性能限制（

例如

，

的情况

。

25）和最大宽度（

例如

，1 .一

、

0）。换句话说，优化

性能下限和上限可以隐式地优化所有宽度的模型。因

此，在每次训练迭代中，我们不是随机采样n

个

宽度，

而是在最小宽度、最大宽度和（n-2）个随机采样的宽

度上训练模型。我们采用这种规则（命名

为三明治规

则

）来训练US网，并显示出更好的收敛行为和整体性

能。

此外，我们提出

了就地蒸馏

，在每个训练迭代中就

地将单个US网络内的知识从全网络转移到子网络这个

想法是由两步知识提取[7]激发的，首先训练一个大模

型，然后通过使用预测的软目标进行训练，将其学习

的知识转移到一个小模型。在US-Nets中，通过

三明治

规则

，我们在每次迭代中以最大宽度，最小宽度和其

他随机采样宽度一起训练模型。值得注意的是，这一

培训计划自然支持就地知识转移：我们可以直接使用

模型在最大宽度处的预测标签作为其他宽度的训练标

签，而对于最大宽度，我们使用地面实况。它可以在

训练中就地实现，而无需额外的计算和内存成本。重

要的是，所提出的

原地蒸馏

是通用的，我们发现它不

仅适用于图像分类，而且适用于图像超分辨率和深度

强化学习任务。

我们应用所提出的方法来训练具有代表性的网络

（有和没有BN，以及剩余和非剩余网络）的代表性任

务的通用可瘦网络。我们表明，经过训练的US网络的

性能与单独训练的模型相似，甚至更好。

三明治规则

和

原位蒸馏

的广泛烧蚀研究表明，我们提出的方法的

有效性。我们的贡献总结如下：

这是我们第一次能够使用一种简单而通用的方法

来训练一个任意宽度的神经网络。

我们进一步提出了两种改进的训练技术，在US-

Nets的背景下，以提高训练过程和测试精度。

我们目前的实验和烧蚀研究的图像分类，图像超

分辨率和深度再学习。

我们进一步深入地研究了US网关于（1）宽度下

限k

，（2）宽度因子d，（3）每次训练

迭代

的采

样宽度数n，

(4)BN后统计的子集的大小。

剩余11页未读，继续阅读

cpongm

粉丝: 6

通用瘦身网络与训练优化：提升ImageNet与更多任务性能

百度发文，pp-LCnet网络，pp-PicoDet算法，pp-shitu应用

自然语言处理-基于预训练模型的方法 笔记

从ChatGPT看大模型的演化 - 20230109精简版 .pdf

高级人工智能训练师 .docx

YOLOv5通用目标检测演示系统源码发布

超轻型1MB通用面部检测模型解析与应用场景

yolov10深度学习模型的改进策略研究

大模型自动化训练与分布式训练技术

ONNX Runtime量化技术：精简模型，加速推理

：YOLOv5算法改进与创新：推动目标检测技术的发展

最新资源

自然语言处理-基于预训练模型的方法笔记