特征对齐：通过特征插值改善表示

16 浏览量更新于2023-10-25 收藏 12.79MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Bengio et al. [3]show that traversing along the manifold--191740AlignMixup：通过插值对齐特征来改善表示0Shashanka Venkataramanan 1 Ewa Kijak 1 Laurent Amsaleg 1 Yannis Avrithis 201 Inria，Univ Rennes，CNRS，IRISA 2 Athena RC0摘要0在输入或特征空间以及相应的目标标签之间进行两个或多个示例之间的插值是如何定义的。最近的混合方法将两个或多个对象叠加或剪切粘贴到一个图像中，这需要在选择区域时小心。混合还与自动编码器相关，因为通常自动编码器会生成一个连续变形为另一个的图像。然而，这样的图像通常质量较低。0在这项工作中，我们从变形的角度重新审视混合0透视并引入AlignMixup，在特征空间中几何地对齐两个图像0对应关系使我们能够在两组特征之间进行插值，同时保持一组特征的位置。有趣的是，这主要保留了一幅图像的几何或姿态以及另一幅图像的外观或纹理。我们还表明，自动编码器在混合中仍然可以改善表示学习，而分类器从未见过解码后的图像。AlignMixup在五个不同的基准测试中优于最先进的混合方法。代码0可在https://github.com/shashankvkt/AlignMixup_CVPR22.git上找到01. 引言0数据增强[10, 36, 43]是一种强大的正则化方法0增加数据量和多样性的正则化方法，无论是有标签还是无标签的数据[16]。它提高了泛化性能，并帮助学习不变性[49]，几乎没有成本，因为同一个示例可以在不同的时期以不同的方式进行转换。然而，通过一次只对一幅图像进行操作，并限制为保留标签的变换，它在探索图像流形之外的机会有限。因此，在对抗性示例[53]的记忆化和敏感性方面，它几乎没有帮助。0混合一次对两个或多个示例进行操作0在输入空间[69]或特征空间[58]中在它们之间进行插值，同时也在目标标签之间进行插值0图2 流形混合[58] AlignMixup（我们的方法）0Bengio等人[3]表明，沿着流形遍历0图像分类的标签。这会使类别表示变平[58]，减少过于自信的错误预测，并使决策边界远离训练数据变得平滑。然而，输入混合图像是叠加的，往往不自然[65]。有趣的是，最近的混合方法专注于将来自不同图像的两个[32,65]或多个[31]对象在输入空间中合并为一个，以有效利用训练像素。然而，补丁选择中的随机性以及标签混合可能会误导分类器学习无信息的特征[57]，这引发了一个问题：什么是图像的良好插值？0从网络的深层获取的表示更有可能导致找到逼真的例子。这是因为插值点平滑地遍历数据的底层流形，捕捉到两个图像的显著特征。此外，[4]表明自动编码器捕捉到通过解码混合潜在代码获得的语义对应关系的能力。这是因为自动编码器可以解开变化的潜在因素。已经进行了努力，将自动编码器的潜在表示混合在一起，以生成用于数据增强的逼真图像。3. AlignMixup191750然而，这些方法更昂贵，需要三个网络（编码器、解码器、分类器）[4]，并且更复杂，通常还需要一个对抗鉴别器[2,39]。更重要的是，它们在大型数据集上的表现比标准输入混合差[39]，因为生成的图像质量较低。0在这项工作中，我们受到变形的想法的启发0作为一种自然的图像插值方法，一幅图像可以以连续的方式变形成另一幅图像。与以前的努力相反，我们不直接在输入空间中插值，不限制为向量作为潜在代码，也不解码。相反，我们研究了基于特征空间中明确的语义对应关系的几何对齐用于混合。特别地，我们明确地对齐两幅图像的特征张量，得到软对应关系。张量可以被看作具有坐标的特征集合。因此，一个集合中的每个特征可以与另一个集合中的少数特征进行插值。0通过选择保留一个集合的坐标或另一个集合的坐标0为了使一个对象连续变形，而不是在一幅图像中存在两个对象，我们定义了一种非对称操作。有趣的是，观察这种非对称变形揭示了我们保留了保留坐标的图像的几何形状或姿态以及保留其他图像的外观或纹理。图1说明了我们的方法AlignMixup保留了图像2的姿态和图像1的纹理，这与现有的混合方法不同。请注意，与流形混合一样，我们不解码，因此我们不关心生成图像的质量。0我们做出以下贡献：01. 我们引入了一种新的混合操作，称为AlignMixup0Mixup，提倡在特征空间中插值局部结构（第3.2小节）。特征张量非常适合对齐，产生语义对应关系并具有低分辨率。通过使用Sinkhorn距离[11]，对齐是高效的。02. 我们还展示了一个普通的自动编码器可以进一步0在混合训练中改善表示学习，而分类器不会看到解码的干净或混合图像（第4节）0对抗性攻击的鲁棒性、校准、弱监督定位和对更复杂的混合操作进行的混合操作的分布检测在几个网络和数据集上的表现（第4节）02. 相关工作0Mixup [69]与类似方法[30, 56]同时进行0引入了混合，通过两个示例之间的线性插值来增加数据。虽然[69]在中间表示上应用混合，但是[58]才是这项工作的创始人，引入了流形混合。在没有对齐的情况下，结果是0覆盖图像[69]或特征[58]的叠加。[23]消除了“流形干扰”——混合数据与真实数据冲突。与流形混合不同，AlignMixup在对齐后插值更深层次的特征张量。0在随机图像区域上进行非线性混合是一种0例如，从遮盖方形区域[14]到从一幅图像中剪切一个矩形区域并将其粘贴到另一幅图像中[65]，以及使用任意区域的几个变体[25, 52,54]。可以使用显著性来定位不同图像中的对象并将它们拟合在一起[31, 32, 44,57]，而不是随机选择区域。[12]提出了利用教师网络的知识基于显著性混合图像的方法。AlignMixup试图将一个对象变形成另一个对象，而不是在一幅图像中组合多个对象。0另一种选择是 Automix [ 72 ]，它使用了一个0与自编码器不同，U-Net在多个层次上进行混合。它只适用于小型数据集，并且在流形混合[ 58 ] 上提供的改进很小。StyleMix 和StyleCut-Mix [ 28 ] 使用 AdaIN [ 29]（一种风格转换自编码器网络）在两个图像之间插值内容和风格。相比之下，AlignMixup直接对齐特征张量并插值匹配特征，而不使用任何额外的网络。0对齐局部对应关系来自类内对齐0特征张量的对齐已经在图像配准 [ 9 , 40 ]、光流 [ 61]、语义对齐 [ 24 , 46 ] 和图像检索 [ 50 ]中使用。在这里，我们主要使用跨类别对齐。在 few-shot学习中，查询图像和支持图像之间的局部对应关系对于找到注意力图非常重要，例如 CrossTransformers [ 15 ] 和DeepEMD [ 68 ] 中使用的方法。地球移动距离（EMD）[47 ]，或者 Wasserstein 距离，是最优传输的一个实例[ 59]，可以通过线性规划来解决。为了加速计算，[ 11 ] 使用Sinkhorn距离和熵正则化来计算最优匹配。这个距离在生成模型[ 18 , 42 ] 中广泛应用于分布之间的比较。0EMD 已经在输入空间中用于 mixup，用于03D 点云的实例点混合 [ 6 ] 和图像的 OptTrans-Mix [ 72]，这是与我们工作最接近的方法。然而，仅对齐坐标仅适用于具有干净背景的图像。我们更倾向于在特征空间中对齐张量，这是通用的。我们使用 Sinkhorn距离来实现这一点，该距离的计算速度比 EMD [ 11 ]快几个数量级。03.1. 预备知识0问题定义设 ( x, y ) 为图像 x 2 X 和0对于其独热编码的类别标签 y 2 Y ，其中 X是输入图像空间，Y = [0 , 1] k，k是类别数量。编码器网络 F : X ! R c � w � h 将 x映射到特征张量 A = F ( x )，其中 c 是通道数量和mix�(y, y0) := �y + (1 � �)y0(1)Mixf1,f2�(x, x0) := f2(Mix�(f1(x), f1(x0)),(2)Lc(g(Mixf1,f2�(x, x0)), mix�(y, y0)),(5)port theory [59] and Sinkhorn distance (SD) [11] in partic-ular. Let A := F(x), A0 := F(x0) be the c ⇥ w ⇥ h featuretensors of images x, x0 2 X. We reshape them to c ⇥ rmatrices A, A0 by ﬂattening the spatial dimensions, wherec of A, A0 formij :=ai � a0j2(6)Ur := {P 2 R+: P1 = P1 = 1/r}(7)and 1 is an all-ones vector in Rr. That is, P is non-negativewith row-wise and column-wise sum 1/r, representing ajoint probability over spatial positions of A, A0 with uni-form marginals. It is chosen to minimize the expected pair-wise distance of their features, as expressed by the linearcost function hP, Mi, under an entropic regularizer:P ⇤ = arg minP 2Ur hP, Mi � ✏H(P),(8)pij log pij is the entropy of P,,eA := A0R>(9)A0 := AR.(10)191760w � h 是空间分辨率。一个分类器 g : R c � w � h ! R k 将 A映射到类别概率向量 p = g ( A )。0Mixup 我们遵循 [ 58 ] 的方法，将表示从不同层的网络混合在一起。0网络的不同层次，重点关注靠近分类器的最深层。给定两个带标签的图像 ( x, y ) , ( x 0 , y 0 ) 2 X � Y 。我们从 Beta( �,� ) [ 69 ] 中抽取一个插值因子 λ 2 [0 , 1]，然后通过标准的mixup 运算符线性插值标签 y, y 00和输入 x, x 0 的通用公式0其中 Mix λ是一个待定义的混合运算符。这个通用公式允许根据 f 2 ◦ f1 对输入或特征进行插值0输入 ( x ) ：f 1 := id，f 2 := F (3)0特征 ( A ) ：f 1 := F, f 2 := id , (4)0其中 id 是恒等映射。对于（3），我们将 Mix λin（2）定义为标准的 mixup mix λ ( 1 )，类似于 [ 69]；而对于（4），我们根据第3.2小节中的讨论定义 Mix λ。0默认情况下，我们训练编码器网络和分类器0通过在混合示例的分类器 g 的输出上使用分类损失 L c，以及相应的混合标签，对分类器进行训练。0其中 L c ( p, y ) := − P k0i =1 y i log p i 是标准的交叉熵损失0熵损失。在第4节中，研究了使用自编码器架构的更多选项。03.2. 对齐特征张量的插值0j 2 R c of A, A 0 for0对于插值来说，特征张量非常适合这个目的，因为它的空间分辨率较低，降低了优化成本，并且允许语义对应，因为靠近分类器的特征较小。重要的是，我们不是试图将两个或多个对象合并成一个图像[32]，而是将两个对象对应起来，然后插值成一个。我们对输入图像的结构没有任何假设，也不使用任何基准对应。0我们的特征张量对齐基于最优传输理论 [59] 和 Sinkhorn 距离 (SD) [11]。令 A := F(x)，A 0 := F(x 0)是图像 x, x 0 的 c � w � h 特征张量。我们通过展平空间维度将它们重塑为 c � r 矩阵 A, A 0 ，其中0r := hw . 然后，每一列 a j , a 00j = 1 , . . . , r 是表示原始图像 x, x 0中的空间位置的特征向量。令 M 为 r � r成本矩阵，其元素是这些向量的成对距离:0对于 i, j 2 { 1 , . . . , r } ，我们正在寻找一个传输计划，即一个r � r 矩阵 P 2 U r ，其中0其中 H ( P ) := − P0是 Frobenius 内积，� 是一个正则化系数。最优解 P �是唯一的，并且可以通过形成相似性矩阵 e − M/� 并应用Sinkhorn-Knopp 算法 [34]找到，即迭代地对行和列进行归一化。较小的 �导致更稀疏的 P，从而改善一对一匹配，但使优化更加困难[1]，而较大的 � 导致更密集的P，导致更多的对应和较差的匹配。0插值分配矩阵 R := rP � 是一个双0是一个双随机矩阵，其元素 r ij 表示 A 的列 a i 对应于 A 0 的列 a 0 的概率0因此，我们将 A 和 A 0 对齐如下:0这里，矩阵 e A 的列 e a i 是与 A 的列 a i 对应的 A 0的列的凸组合。我们通过扩展空间维度将 e A 重新塑造为 c� w � h 张量 e A ，并且我们说 e A 代表对齐到 A 0 的 A。然后我们在 e A 和原始特征张量 A 之间进行插值:0混合 λ ( A , e A ) . (11)0如图2所示（玩具示例，右上角），e A 几何上接近 A 。与A 0 的对应关系和与 A 的几何接近性使得 e A 适合与 A进行插值。对称地，我们也可以将 A 0 对齐到 A ，并在 e A0 和 A 0 之间进行插值:0混合 λ ( A 0 , e A 0 ) . (12)0当使用特征张量与对齐进行混合（4）时，我们将Mixλ在（2）中定义为（A，A0）到（11）或（12）的随机映射。"# = #!!"##"#!"/$191770分配矩阵！0%#′ = #!0距离（'）Sinkhorn0#′0#′0%#′0混合#(#, "#)0混合#(#′, %#′)0图2. 特征张量对齐和插值。成本矩阵M包含张量A，A0中特征向量的成对距离。分配矩阵R是通过Sinkhorn-Knopp[34]在相似性矩阵e−M/�上获得的。根据R将A与A0对齐，得到eA。然后在A，eA之间进行插值。对称地，我们可以将A0与A对齐，并在A0，eA0之间进行插值。左边的A，A0（2D中16个点的玩具示例）在右边显示为半透明以供参考。0xx 0 0.00.20.40.60.81.00.00.20.40.60.81.0λ0混合λ(A, A0)0混合λ(A, eA)0混合λ(A0,eA0)0(a) (b)0混合λ(A, A0)0混合λ(A, eA)0混合λ(A0,eA0)0(c) (d)0图3. 可视化对齐。对于不同的λ2 [0,1]，我们在没有对齐（顶部）或对齐特征张量（底部）的情况下插值特征张量A，A0的两个图像x，x0，然后通过解码器D将生成的嵌入解码为新图像。（a），（c）我们将A与A0对齐并与（11）混合。（b），（d）我们将A0与A对齐并与（12）混合。仅用于说明：分类器在训练过程中看不到解码后的图像。03.3. 可视化和讨论0带或不带特征对齐。令f：Rc�w�h！Rd0将A映射到嵌入e =f(A)的FC层。我们使用f◦F作为编码器和解码器D：Rd！X将e映射回图像空间，重构图像ˆx =D(e)。自编码器仅使用干净图像（无混合）使用重构损失Lr（x，x0）:=kx−x0k2进行训练，其中Lr(x，x0)是欧氏距离的平方。我们仅在下面用于可视化目的生成图像，但在第4节的AlignMixup训练中也可以选择使用解码器。0特征张量A，A0的x，x0，无对齐或带对齐，使用（11）或（12），然后通过解码器D生成新图像。0有趣的是，通过将A与A0对齐并使用λ=0的（11）进行混合，生成的图像保留了x的姿势和x0的纹理。特别是在图3（a）中，当x是“企鹅”而x0是“狗”时，生成的图像保留了企鹅的姿势，而狗的纹理与企鹅的身体对齐。类似地，在图3（c）中，金鱼的纹理与鹳的纹理对齐，而鹳的姿势保持不变。相反，如图3（b，d）所示，通过将A0与A对齐并使用λ=0的（12）进行混合，生成的图像保留了x0的姿势和x的纹理。相比之下，从未对齐的特征生成的图像似乎是一个叠加。0在Figure 3中，我们可视化了这些生成的图像。互相插值0训练生成了大量的样本，捕捉了一个图像的纹理和另一个图像的姿势。这使得模型能够探索图像流形之外的空间，从而191780数据集 CIFAR-10 CIFAR-100 TI0网络 R-18 W16-8 R-18 W16-8 R-180基准模型 5.19 5.11 23.24 20.63 43.40 �0Input [69] 4.03 3.98 20.21 19.88 43.48 �0CutMix [65] 3.27 3.54 19.37 19.71 43.11 �0Manifold [58] 2.95 3.56 19.80 19.23 40.76 �0PuzzleMix [32] 2.93 2.99 20.01 19.25 36.52 �0Co-Mixup [31] 2.89 3.04 19.81 19.57 35.85 �0SaliencyMix [57] 2.99 3.53 19.69 19.59 34.810StyleMix [28] 3.76 3.89 20.04 20.45 36.130StyleCutMix [28] 3.06 3.12 19.34 19.28 34.490AlignMixup (我们的方法) 2.95 3.09 18.29 18.77 33.130AlignMixup/AE (我们的方法) 2.83 3.15 17.82 18.09 32.730增益 +0.06 -0.10 +1.52 +1.14 +1.760表1.CIFAR-10/100和TI(TinyImagenet)图像分类top-1错误率(%)。数值越低越好。蓝色：第二好。R：PreActResnet，W：WRN。�：[31]报告。0改善其泛化性能并提升其在多个基准测试中的性能，详见第4节。04. 实验04.1. 实现细节0架构我们使用残差网络作为编码器0F. 输出A是一个c�4�4的张量。然后通过一个全连接层作为分类器g。0可视化特征张量对齐的效果。在我们的实验中，我们还可选择在AlignMixup的训练过程中使用解码器，以研究其对混合训练下的表示学习的影响。这导致了一个香草自编码器架构，我们将其称为AlignMixup/AE。我们使用残差生成器[21]作为解码器D。编码器和解码器具有相同的架构。0训练我们只使用分类任务进行AlignMixup的训练0混合示例上的分类损失Lc(5)。在训练过程中，对于给定的小批量数据，我们随机选择混合x或A(使用(11)或(12)进行对齐)。我们以均匀随机的方式在三种情况之间进行选择。对于AlignMixup/AE，我们可以选择在干净样本上使用重构损失Lr，训练编码器和解码器，或者在混合样本上使用分类损失Lc(5)，训练编码器和分类器。这产生了第四种情况，我们以均匀随机的方式选择。算法见补充材料。0超参数使用不同的超参数0在补充材料中报告了不同数据集的结果。04.2. 图像分类和鲁棒性0我们使用PreActResnet18 [26] (R-18)和WRN16-8 [66]0作为CIFAR-10和CIFAR-100数据集的主干架构[35]。使用Man-的实验设置0方法参数 MSEC/BATCH TOP-1错误率0Input † [69] 25M 436 22.580CutMix † [65] 25M 427 21.400Manifold † [58] 25M 441 22.500PuzzleMix † [32] 25M 846 21.240Co-Mixup � [31] 25M 1022 –0SaliencyMix � [57] 25M 462 21.260StyleMix � [28] 25M 828 -0StyleCutMix � [28] 25M 912 -0AlignMixup (我们的方法) 25M 450 20.680AlignMixup/AE (我们的方法) 35M 688 18.830增益 +2.410表2.使用Resnet-50在ImageNet上进行300个epoch的图像分类top-1错误率(%)和计算分析。数值越低越好。蓝色：第二好。�：作者报告；†：PuzzleMix报告。0在补充材料中，我们复现了基准网络(无混合)、Inputmixup [69]、Manifold mixup [58]、CutMix[65]、PuzzleMix [32]、Co-Mixup [31]、SaliencyMix[57]、StyleMix [28]和StyleCutMix[28]等最先进的混合方法，使用了作者提供的官方代码。我们没有将AlignMixup与AutoMix [72]和Re-Mix[5]进行比较，因为它们的实验设置与我们的不同，并且没有可用的代码。0TinyImagenet [63]（TI）上复现了SaliencyMix[57]，StyleMix [28]和StyleCutMix[28]，遵循[32]的实验设置，并在ImageNet[48]上使用Resnet-50（R-50），遵循[32]的训练协议。使用top-1错误率（%）作为评估指标，我们展示了AlignMixup在图像分类和对FGSM [19]和PGD[41]攻击的鲁棒性方面的有效性。0图像分类如表1所示，AlignMixup在图像分类方面表现出色。0AlignMixup/AE与SOTA方法相比，具有最低的top-1错误率，特别是在大型数据集上。在CIFAR-10上，AlignMixup和AlignMixup/AE与R-18和WRN16-8的Co-Mixup和Puzzlemix性能相当。在CIFAR-100上，AlignMixup超过了Co-0使用R-18和WRN16-8，AlignMixup的性能分别比StyleCutMix和Manifold mixup提高了1.05%和0.46%。在TI上，0使用R-18，AlignMixup的性能超过Co-Mixup2.72%。从表2可以看出，AlignMixup/AE在ImageNet上的性能超过PuzzleMix2.41%。虽然SOTA方法在ImageNet上相对于基线的整体改进约为2%，但AlignMixup/AE又提高了SOTA方法2.5%。0计算复杂度表2 显示了计算复杂度0计算分析表2显示了AlignMixup在ImageNet上与基线和SOTAmixup方法相比的参数数量和每批次的毫秒数。191790攻击 FGSM PGD0数据集 CIFAR-10 CIFAR-100 TI CIFAR-10 CIFAR-1000网络 R-18 W16-8 R-18 W16-8 R-18 R-18 W16-8 R-18 W16-80基线 89.41 88.02 87.12 72.81 91.85 99.99 99.94 99.97 99.990Input [69] 78.42 79.21 81.30 67.33 88.68 99.77 99.43 99.96 99.370CutMix [65] 77.72 78.33 86.96 60.16 88.68 99.82 98.10 98.67 97.980Manifold [58] 77.63 76.11 80.29 56.45 89.25 97.22 98.49 99.66 98.430PuzzleMix [32] 57.11 60.73 78.70 57.77 83.91 97.73 97.00 96.42 95.280Co-Mixup [31] 60.19 58.93 77.61 56.59 – 97.59 96.19 95.35 94.230SaliencyMix [57] 57.43 68.10 77.79 58.10 81.16 97.51 97.04 95.68 93.760StyleMix [28] 79.54 71.05 80.54 67.94 84.93 98.23 97.46 98.39 98.240StyleCutMix [28] 58.79 56.12 77.49 56.83 80.59 97.87 96.70 91.88 93.780AlignMixup (我们的方法) 54.83 56.20 74.18 55.05 78.83 95.42 96.71 90.40 92.160AlignMixup/AE (我们的方法) 52.13 54.86 76.40 55.44 78.98 97.16 95.32 91.69 92.230增益 +4.98 +1.26 +3.31 +1.40 +1.76 +1.80 +0.87 +1.48 +1.600表3. 对FGSM和PGD攻击的鲁棒性。Top-1错误率（%）：越低越好。蓝色：第二好。增益：错误率减少。TI：TinyImagenet。R：PreActResnet，W：WRN。02080 TI GPU。AlignMixup的计算开销几乎与Manifoldmixup相同，同时准确率提高了1.82%。虽然Co-Mixup和PuzzleMix等SOTA方法比AlignMixup计算上更昂贵，分别增加了1.8倍和2.3倍，但AlignMixup的平均性能超过它们0.6%。0Mixup/AE相比AlignMixup进一步提高了1.85%的准确率。重要的是要注意，增加了40%的参数数量0AlignMixup/AE的参数数量增加是由于残差解码器，该解码器仅在没有mixup的干净图像中的一种情况下使用。在推断过程中，所有方法的计算复杂度相同。0挑战从表1可以看出，AlignMixup面临的挑战是0在CIFAR-10和CIFAR-100上实现了SoTA的top-1错误率。这些结果是根据[58]的实验设置在2000个epochs下计算得出的，该方法在2000个epochs时也达到了最佳性能。尽管基线的mixup方法[28, 31, 32, 57, 65,69]在300个epochs时表现最好，但它们并不受益于长时间的训练。与这些方法不同，Manifold mixup[58]和AlignMixup在特征空间中进行mixup。我们假设这需要更长的训练时间，直到网络学习到一些有意义的表示。在我们的情况下，这更具挑战性，因为我们在比Manifoldmixup更深层的特征上进行mixup。经验上，在训练2000个epochs而不是300个epochs时，Manifoldmixup的top-1错误率从21.64降至19.80，AlignMixup的top-1错误率从21.38降至18.29。0对FGSM和PGD攻击的鲁棒性。根据[32]报告的结果，重现了SaliencyMix、StyleMix和StyleCutMix的结果0根据[32]的评估协议，我们使用8/255的l1-ball进行FGSM攻击，使用4/255的l1-ball和步长2/255进行PGD攻击。我们重现了竞争对手在CIFAR-10和CIFAR-100上使用FGSM和PGD的结果；在TI上，重现了基线、Input、Manifold、Cutmix和Puzzlemix的FGSM结果。0与SOTA方法相比，AlignMixup与PuzzleMix和Co-Mixup在CIFAR-10图像分类上表现相当，但在FGSM攻击的鲁棒性方面，它比Co-Mixup和PuzzleMix分别提高了5.36%和2.28%。在Tiny-ImageNet上对FGSM的鲁棒性和对CIFAR-100上更强的PGD的鲁棒性也有显著提高。0如表3所示，AlignMixup更加稳健。0深度神经网络往往对自己的预测过于自信。04.3. 过度自信0分布外检测。根据[27]，在分布内（ID）指的是从网络训练的相同分布中抽取的测试示例，而在任何其0错误预测远离训练数据，而mixup有助于解决这个问题。评估这种改进的两个标准基准是它们对于检测分布外数据和它们的校准能力，即准确性和置信度之间的差异。0我们将AlignMixup与训练了SOTA方法的模型进行比较。0分布（ID）是指从网络训练的相同分布中抽取的测试示例，而从任何其他分布中抽取的样本是分布外（OOD）。在推断时，给定ID和OOD示例的混合，网络通过softmax为已知类别分配概率。然后，如果最大类别概率低于某个阈值，则将示例分类为OOD，否则为ID。一个良好校准的网络应该能够将ID的概率分配得比OOD示例更高，从而更容易区分这两个分布。0任务：分布外检测0使用R-18在CIFAR-100上进行讨论中的4.2小节。在推断时，ID示例是来自CIFAR-100的测试图像，而OOD示例是来自LSUN（裁剪）[64]，iSUN[62]和Tiny-ImageNet（裁剪）的测试图像；其中裁剪表示OOD示例被中心裁剪为Baseline54.047.154.545.666.572.374.569.261.264.867.860.6Input [69]57.559.361.455.259.663.060.263.458.762.863.062.1Cutmix [65]63.863.161.963.467.076.381.077.770.484.387.180.6Manifold [58]58.960.357.859.564.773.180.776.067.469.969.370.5PuzzleMix [32]64.369.180.673.773.977.279.371.171.876.278.281.9Co-Mixup [31]70.475.682.370.368.680.182.575.471.584.886.180.5SaliencyMix [57]68.579.782.264.465.676.978.379.873.383.787.082.0StyleMix [28]62.364.270.963.961.668.467.660.367.873.971.578.4StyleCutMix [28]70.878.683.774.970.682.483.776.575.382.682.978.4ACoL [70]45.9–57.4–ADL [8]52.4–61.358.4Input [69]41.749.357.160.6CutMix [65]52.554.862.664.8191800指标：AUC，AUPR0数据集 LSUN (裁剪) iSUN TI (裁剪)0基准 54.0 47.1 54.5 45.6 66.5 72.3 74.5 69.2 61.2 64.8 67.8 60.60AlignMixup (我们的方法) 74.2 79.9 84.1 75.1 72.8 83.2 84.1 80.3 77.2 85.0 87.8 85.00AlignMixup/AE (我们的方法) 76.9 83.5 86.7 79.4 75.6 84.1 85.9 81.7 79.7 88.0 89.7 85.70增益 +6.1 +3.8 +3.0 +4.5 +1.7 +1.7 +2.2 +1.9 +4.4 +3.2 +2.6 +3.80表4. 分布外检测使用PreActResnet18。DetAcc（检测准确性），AuROC，AuPR（ID）和AuPR（OOD）：数值越高越好；蓝色：第二好。增益：性能提升。TI：TinyImagenet。附加结果请参见补充材料。0度量指标 T OP -1 LOC . M AXBOX A CC - V 20网络 VGG-GAP R ES N ET -50 VGG-GAP R ES N ET -500基线CAM [ 71 ] 37.1 49.4 59.0 59.70AlignMixup（我们的方法） 53.1 56.2 63.8 65.40增益 +0.6 +1.4 +1.2 +0.60表5. CUB200-2011上的弱监督目标定位。Top-1 loc.:top-1定位准确率（%），MaxBoxAcc-v2: 最大框准确率[ 7]。数值越大越好。蓝色：第二好。增益：准确率的增加。032 � 32以匹配ID图像的分辨率[ 65 ]。根据[ 27]，我们使用阈值为0.5的检测准确率（DetAcc），ROC曲线下的面积（AuROC）和精确率-召回率曲线下的面积（AuPR）进行度量。0如表4所示，AlignMixup优于SOTA方法0在所有指标下，AlignMixup相对于基线方法有很大的优势，表明它在减少过度自信的预测方面更好。我们进一步观察到Input mixup不如Baseline，这与[ 65]的发现一致。更多结果在补充材料中给出。0根据[ 13 ]，校准度量网络预测的准确性和置信度之间的一致性。0网络预测的准确性和置信水平之间的差异。一个校准不良的网络可能会以高置信度进行错误的预测。在补充材料中，我们使用校准图和定量实验将AlignMixup与SOTA方法进行比较。04.4. 弱监督目标定位（WSOL）0WSOL旨在仅使用类别标签而没有边界框来定位感兴趣的对象。0在训练时，仅使用类别标签而没有边界框。WSOL0通过提取视觉上有区别的线索来引导分类器关注图像中显著的区域。0我们使用与训练AlignMixup相同的过程0图像分类。在推断时，根据[ 65 ]的方法，我们使用CAM [71]计算显著性图，使用阈值0.15进行二值化，并取掩模的边界框。我们使用在Imagenet [ 48 ]上预训练的VGG-GAP [ 51]和Resnet-50 [ 26 ]，并在CUB200-2011 [ 60]上进行微调。我们遵循[ 7]的评估协议，使用IoU阈值为0.5的top-1定位准确率和最大框准确率（MaxBoxAcc-v2）来比较AlignMixup与基线CAM（无混合）、Input mixup [ 69 ]、CutOut [ 14]和0如表5所示，AlignMixup优于Input0在定位准确率方面，使用VGG-GAP时，AlignMixup相对于mixup、CutOut和CutMix分别提高了11.4%、7.3%和0.6%，使用Resnet-50时分别提高了6.9%、3.8%和1.4%。此外，AlignMixup在MaxBoxAcc-v2方面相对于CutMix分别提高了1.2%和0.6%。它还优于专门的WSOL方法ACoL [ 70]和ADL [ 8]，这些方法专注于学习空间分散的表示。定性的定位结果在补充材料中给出。04.5. 消融实验0所有消融实验都是在CIFAR-100上使用R-18进行的0编码器F和特征张量A的大小为512 � 4 �4。我们通过在不同层（x，A）进行对齐或不对齐以及使用不同的自动编码器架构中的解码器D来研究在不同层进行混合的效果。我们报告top-1准确率StyleCutMix [28]80.66-x, e80.81–191810M ETHOD /A RCH L AYERS U NALIGNED A LIGNED（方法/架构层未对齐对齐）0基线 76.76 –0Manifold（流形）[ 58 ] 80.20 -0{ A } 79.07 80.280{ e } 78.71 -0{ x,

下载后可阅读完整内容，剩余1页未读，立即下载