深度子网络混合多输入与多输出的MixMo模型

181 浏览量更新于2023-10-16 收藏 13.79MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

8230MixMo：通过深度子网络混合多个输入以获得多个输出0Alexandre Ramé *†1，Rémy Sun *1,2和Matthieu Cord 1,301 Sorbonne Université，CNRS，LIP6，法国巴黎 2Thales陆地与空中系统，光电与导弹电子 3 Valeo.ai0摘要0最近的策略通过在单个基础网络中同时适应多个不同的子网络来实现免费集成。在训练过程中，每个子网络只学习同时提供的多个输入中的一个进行分类。然而，迄今为止，如何最好地混合这些多个输入的问题尚未研究。在本文中，我们引入了MixMo，一种用于学习多输入多输出深度子网络的新的广义框架。我们的主要动机是用更适当的混合机制替换以前方法中隐藏的次优求和操作。为此，我们从成功的混合样本数据增强中汲取灵感。我们表明，在特征中进行二进制混合 - 特别是使用CutMix的矩形补丁 -通过使子网络更强大和更多样化来提高结果。我们改进了CIFAR-100和TinyImageNet数据集上的图像分类的最新技术。我们易于实现的模型显著优于数据增强的深度集成，而无需推断和内存开销。由于我们在特征上操作并更好地利用了大型网络的表达能力，我们开辟了与以前的工作互补的新研究方向。01. 引言0卷积神经网络（CNN）在计算机视觉任务中表现出色，尤其是分类[42]。然而，获得可靠的预测仍然具有挑战性[34,58]。为了在现实场景中提高鲁棒性或赢得Kaggle竞赛，CNN通常与两种实用策略配对使用：数据增强和集成。数据增强减少过拟合并改善泛化能力，特别是通过多样性训练样本[51]。传统方法是保持标签不变。相反，最近的混合样本数据增强（MSDA）通过按比例混合多个输入及其标签来创建人工样本。开创性的工作Mixup [86]线性插值像素，而Manifold Mixup[76]在网络中插值潜在特征。二进制掩码MSDA [21, 29, 41]（如CutMix[83]）通过在插值的位置上将一个图像的补丁粘贴到另一个图像上，从而使混合样本多样化。聚合来自多个神经网络（即具有不同失败情况的网络）的预测极大地改善了泛化能力[14, 28,43]，特别是不确定性估计[2, 27,58]。与一个大型网络相比，几个小型网络的集成在经验上通常表现更好[9,50]。然而，不幸的是，集成在训练和推断中都需要时间和内存，这常常限制了应用的范围。0*平等贡献。†通信作者：alexandre.rame@lip6.fr0图1：MixMo概述。我们将M =2个输入嵌入到共享空间中，使用卷积层（c1，c2）对它们进行编码，将它们混合，通过进一步的层将嵌入传递，并通过密集层（d1，d2）输出2个预测。我们MixMo的关键点是混合块。使用补丁进行混合比基本求和效果更好：在CIFAR-100数据集上，使用WRN-28-10，准确率为85.40％，而MIMO [30]的准确率为83.06％。0泛化，特别是通过多样化训练样本[51]，取得了显著的进展。传统方法是保持标签不变。相反，最近的混合样本数据增强（MSDA）通过按比例混合多个输入及其标签来创建人工样本。开创性的工作Mixup[86]线性插值像素，而Manifold Mixup[76]在网络中插值潜在特征。二进制掩码MSDA [21, 29,41]（如CutMix[83]）通过在插值的位置上将一个图像的补丁粘贴到另一个图像上，从而使混合样本多样化。聚合来自多个神经网络（即具有不同失败情况的网络）的预测极大地改善了泛化能力[14, 28, 43]，特别是不确定性估计[2, 27,58]。与一个大型网络相比，几个小型网络的集成在经验上通常表现更好[9,50]。然而，不幸的是，集成在训练和推断中都需要时间和内存，这常常限制了应用的范围。8240在本文中，我们提出了MixMo，一种新的广义多输入多输出框架：我们使用M≥2个输入和输出训练一个基础网络。通过这种方式，我们适应了由输入/输出对和网络权重子集定义的M个独立子网络[23, 30,66]。这是可能的，因为大型网络只利用它们的一部分权重[19]。我们不是剪枝（即消除）不活跃的滤波器[44,47]，而是通过多个子网络充分利用可用的神经元和超参数化。挑战在于防止同质化并在没有结构差异的子网络之间强制实施多样性。因此，我们在训练中同时考虑M个（输入，标签）对：{（xi，yi）}0≤i 2。03.1. 总体概述0我们利用一个训练分类数据集D，其中包含独立同分布的关联图像/标签对 { x i , y i } | D |i =1。我们随机采样一个子集 | B | 的样本 { x i , y i } i ∈B，并通过置换 π 随机打乱。我们的训练批次是 { ( x i , x j ), ( y i , y j ) } i ∈ B,j = π ( i )。损失函数 L MixMo 对这些 |B |个样本进行平均：通过反向传播和梯度下降更新网络的权重。让我们关注训练样本 { ( x 0 , x 1 ) , ( y 0 , y 1 )}。在MixMo中，两个输入分别被编码（见图1）成共享的潜空间，使用两个不同的卷积层（每个卷积层有3个输入通道，没有偏置项）：x 0 通过 c 0 编码，x 1 通过 c 1编码。为了恢复与MIMO[30]严格等价的公式，我们简单地将这两个编码相加：c 0 (x 0 ) + c 1 ( x 1)。实际上，MIMO通过像素级的通道连接将输入合并在一起：MIMO的第一个卷积层（具有6个输入通道和没有偏置项）在输出通道中隐藏了求和操作。明确地突出显示底层混合的基本原理使我们考虑到一个广义的多输入混合块M。这种流形混合提供了一个独特的机会来解决集成多样性/个体准确性的权衡，并改善整体集成结果（见第3.2节）。共享表示 M ( c 0 ( x 0 ) , c 1 ( x 1 ))输入到下一层卷积层。我们用 κ表示输入之间的混合比例。核心网络 C处理同时表示两个输入的特征。密集层 d 0 预测 ˆ y 0 = d0 [ C ( M { c 0 ( x 0 ) , c 1 ( x 1 ) } )]，目标为 y 0，而 d 1的目标为 y 1。因此，训练损失是两个交叉熵 L CE的和，由参数化函数 w r（在第3.3节中定义）加权以平衡 κ不等于 0.5 时的不对称性：0L MixMo = w r ( κ ) L CE ( y 0 , ˆ y 0 )+ w r (1 − κ ) L CE ( y 1 , ˆ y0在推理阶段，相同的输入 x 重复两次：核心网络 C 接收 c 0( x ) + c 1 ( x )的输入，该输入保留了来自两个编码的最大信息。然后，多样的预测结果取平均值：1/2(ˆ y 0 + ˆ y 1)。这使我们能够在单次前向传递中从集成中受益。̸κ)1/r .(3)82603.2. 混合块 M0混合块 M是MixMo的核心，它将两个输入组合成一个共享表示。我们的主要直觉是将MIMO视为一个简化的Mixup变体，其中混合比例 κ固定为0.5。MixMo的广义框架包括了受MSDA混合方法启发的更广泛的变体。我们的第一个主要变体Linear-MixMo完全扩展了Mixup。混合块是 M Linear-MixMo ( l 0 , l 1 )= 2 [ κl 0 + (1 − κ ) l 1 ]，其中 l 0 = c 0 ( x 0 )，l 1 =c 1 ( x 1 )，κ 服从 Beta(α, α)分布，α是集中参数。第二个更有效的变体Cut-MixMo则采用了来自CutMix的补丁混合：0M Cut-MixMo ( l 0 , l 1 ) = 2 [ 1 M ⊙ l 0 + ( 1 − 1 M ) ⊙ l 1]。0其中，1 M 是一个二进制掩码，其面积比例 κ 服从 Beta(α,α)分布，其值为1，要么在一个矩形上，要么在一个矩形的补集上。简而言之，从 c 0 ( x 0 ) 中提取的一个补丁被粘贴到c 1 ( x 1 )上，反之亦然。Cut-MixMo中的二进制混合有利地取代了MIMO和Linear-MixMo中的线性插值：子网络更准确且更多样化，如图7所示的实验证明。首先，M中的二进制混合以与CutMix改进Mixup的原因相同的方式训练更强大的单个子网络。简而言之，线性MSDA [76, 86] 会产生噪声样本[5]，从而导致稳健的表示。由于MixMo倾向于将不同的输入分布在不重叠的通道上（如图4a所讨论的），这种正则化在MLinear-MixMo中几乎不再发生。相反，通过遮蔽特征，我们模拟了常见的物体遮挡问题。这样，子网络的注意力分散在不同的位置上：两个分类器被迫在不同的位置上寻找与其分配的输入相关的信息。由于第一个浅层潜空间中的感受野仍然很小，这种遮挡仍然有效。其次，线性插值从根本上不适合引入多样性，因为它保留了来自两个输入的全部信息。另一方面，CutMix明确地通过呈现通常不会一起出现的图像的补丁来增加数据集的多样性。这些好处可以直接转移到MCut-MixMo中：使用补丁进行二进制混合增加了子网络之间的随机性和多样性。实际上，与装袋 [4]类似，不同的样本被提供给子网络。通过从两个输入中删除不对称的互补位置，子网络不会依赖于相同的区域和信息。总的来说，它们不太可能收敛到相似的解。03.3. 损失加权wr0混合机制中的不对称性可能导致一个输入盖过另一个输入。特别是当κ≠0.5时，主导输入可能更容易预测。我们寻求一个加权函数wr来平衡相对重要性。0图3：Cut-MixMo训练。我们根据κ采样混合掩码，并使用来自方程3的wr平衡损失。0在L MixMo 中的两个 L CE的权重。这种加权修改了有效学习率，梯度在网络中的流动方式以及混合信息在特征中的表示方式。在本文中，我们提出通过参数化来进行加权：0wr(κ) = 2κ 1 /r0这定义了一个由参数r索引的函数族，在图3中以红色表示r=3。请参见附录6.1以获取补充的可视化信息。这个幂律提供了两个极端配置之间的自然放松。第一个极端，r =1，w1(κ) =2κ，与MSDA中的线性标签插值一致。每个子网络对LMixMo的贡献不平衡导致了不对称的更新。虽然它促进了多样性，但也减少了正则化：被盖过的输入对损失的影响减小。另一个极端，r → ∞，w∞(κ) → 1，去除了重新加权。因此，wr 会夸大硬性欠表示的输入的重要性，类似于Focal Loss[49]。然而，减小主导输入的作用会不稳定训练。总体而言，我们经验性地观察到中等值的r表现最佳，因为它们在两个极端之间权衡了优缺点。有趣的是，损失组件的适当加权也是多任务学习[6,8]的一个核心主题。虽然它旨在从共享输入预测多个任务，但MixMo从几个不同的输入预测共享任务。除了这种倒置的结构外，我们还面临着类似的问题：例如，一个任务的梯度可能对另一个冲突的任务有害。幸运的是，MixMo具有一个优势：每个任务的确切比例κ和1−κ都是完全已知的。03.4. 从混合流形到MixMo0我们已经详细讨论了如何通过借用MSDA的混合协议来扩展多输入多输出框架。现在我们反向指出我们的MixMo与MSDA方案的不同之处。乍一看，这个想法LMixMo =0i2个子网络，如图9所示。当M= 2时，Cut-MixMo的子网络表现为82.3％，而当M =3时为79.5％。在MIMO中，分别为79.8％和77.7％。因为子网络不共享特征，所以较高的M会降低它们的结果：只有两个可以无缝适配。尽管有额外的预测，集合Top1整体下降，这已经在MIMO [30]中注意到。0图9：M≥2的集合/个体准确率。0这反映了MixMo在过参数化的情况下的优势，但也反映了当子网络欠拟合时（回顾前面的图5）其在较少参数时的局限性。面对类似的发现，MIMO[30]引入了输入重复，以使子网络共享其特征，但代价是大大降低了多样性。我们的推广可能会通过未来的方法进行扩展，这些方法的混合块（可能不是受MSDA启发）将解决这些问题。04.3.5 多个编码器和分类器0在第3.4节中，我们比较了MixMo和MSDA。表3证实了需要2个编码器和2个分类器。使用1个分类器和线性插值标签（与[7]的精神相同），2个编码器的性能比1个编码器差。使用1个共享编码器和2个分类器时，不清楚每个分类器应该针对哪个输入。在第一个朴素的�中，我们随机关联了2个分类器和2个输入（使用相同的编码器进行编码）。这个�变体的结果很差。在�中，第一个分类器试图从主要输入中预测标签，第二个分类器针对另一个输入：�达到0.598，而Cut-MixMo为0.563。04.4. 对图像损坏的鲁棒性0当面对不熟悉的样本时，深度网络的结果会下降。为了衡量对训练-测试分布差异的鲁棒性，[34]将CIFAR-100测试图像损坏成CIFAR-100-c（详见附录6.4）。与Puzzle-Mix[41]一样，我们报告了使用AugMix[35]（一种专门为此任务引入的像素数据增强技术）的WRN-28-10结果。表4显示Cut-MixMo（b =4）最好地补充了AugMix，并达到了71.1％的Top1。0表4：CIFAR-100-c 上的鲁棒性比较。0方法 1 网络 CutMix Puzzle-Mix † DE (2 网络) MIMO Linear-MixMo Cut-MixMo AugMix - � - - � - � - - � - �ApproachTimeTop1%, ↑NLLc↓Top1%, ↑NLLc↓Top1%, ↑NLLc↓1/162.561.5364.801.5165.781.53Mixup63.741.6266.621.5067.271.51Manifold Mixup†58.701.92----Co-Mixup†64.15-----CutMix65.091.5867.761.3368.951.29Puzzle-Mix†2/164.481.65----DE (2 Nets)2/265.531.3968.061.3768.381.36DE (3 Nets)3/366.761.3469.051.2969.361.28D

下载后可阅读完整内容，剩余1页未读，立即下载