正交投影损失：深度神经网络中的特征分离和聚集

63 浏览量更新于2023-10-16 收藏 12.8MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

123330正交投影损失0Kanchana Ranasinghe†，�Muzammal Naseer◦，†Munawar Hayat§0Salman Khan†，◦Fahad Shahbaz Khan†，‡0†阿联酋穆罕默德∙本∙扎耶德人工智能大学，◦澳大利亚国立大学，§莫纳什大学，‡林雪平大学，�Stony Brook University，USA0kranasinghe@cs.stonybrook.edu0摘要0深度神经网络在一系列分类任务上取得了显著的性能，softmax交叉熵（CE）损失成为事实上的目标函数。CE损失鼓励同一类别的特征在真实类别向量上具有更高的投影分数，而不是负类别。然而，这只是一个相对的约束，并没有明确地强制不同类别的特征之间有很好的分离。基于观察到CE损失中的真实类别表示是正交的（one-hot编码向量），我们开发了一种新的损失函数，称为“正交投影损失”（OPL），它在特征空间中施加正交性。OPL通过在小批量级别上的正交性约束，在特征空间中直接强制执行类间分离和类内聚类。与CE的其他替代方法相比，OPL具有独特的优势，例如没有额外的可学习参数，不需要仔细的负样本挖掘，并且不受批量大小的影响。由于OPL的即插即用性质，我们在各种任务上对其进行评估，包括图像识别（CIFAR-100），大规模分类（ImageNet），域泛化（PACS）和少样本学习（mini-ImageNet，CIFAR-FS，tiered-ImageNet和Meta-dataset），并展示了其在各个任务上的有效性。此外，OPL对抗性攻击和标签噪声具有更好的鲁棒性。代码可在以下链接找到：https://github.com/kahnchana/opl。01. 引言0近年来，由于深度神经网络（DNNs）的进展，计算机视觉任务取得了巨大成功[23]。有效的DNN训练损失函数是这些进展的关键组成部分[15]。特别是，softmax交叉熵（CE）损失通常用于解决分类问题。0图1：正交投影损失：在深度神经网络的训练过程中，OPL在每个小批量中强制不同类别样本的特征分离，同时将相同类别样本的特征聚集在一起。OPL与softmaxCE损失结合得很好，因为它只是补充了其固有的角度特性，从而在各种分类任务和各种DNN骨干上实现了一致的性能改进。0对于DNN的稳定和高效训练至关重要。为了增强训练过程中学习到的特征表示的区分性和泛化性，已经探索了多种CE的变体。对比[16]和三元组[43]损失函数是一类常见的方法，已经在需要更具区分性特征的任务上获得了流行。与此同时，像中心损失[57]和对比中心损失[37]这样的方法试图通过类原型之间的欧几里德间隔明确地强制执行类间分离和类内聚类。基于角度边界的损失[32，31，7，53，52]是另一类目标函数，通过改变CE损失之前的logits来增加类间边界。123340尽管这些方法在促进更好的类间分离和类内紧凑性方面取得了成功，但它们也存在一定的缺点。对比和三元组损失函数[16，43]依赖于精心设计的负样本挖掘过程，这既耗时又对性能敏感。与CE损失一起工作的中心损失方法[57，37]在欧几里德空间中促进边界，这与CE损失通过角度分离所施加的本质相悖[31]。此外，这些方法引入了额外的可学习参数，即新的类别中心。基于角度边界的损失函数[31，32]在人脸识别任务中非常成功，但对于所有计算机视觉任务来说，假设人脸嵌入位于超球面流形上是不普遍成立的[45]。有些损失设计也仅适用于特定的架构类别，例如[45]只能与输出类激活图的DNN一起使用。在这项工作中，我们探索了一种新的方向，即通过对倒数第二层的特征表示施加正交性约束，同时强制执行类间分离和类内聚类（图1）。我们提出了正交投影损失（OPL），它可以作为即插即用模块应用于任何DNN的特征空间。我们受到图像分类的启发，它本质上假设独立的输出类，并且特征空间中的正交性约束与使用CE的正交标签空间相辅相成。此外，与任意增加边界的方法相比，正交性约束提供了明确的几何结构，而后者容易因所选批次而改变，从而降低了对批次组成的敏感性。最后，仅仅最大化边界可能导致类之间的负相关，从而不必要地关注分离良好的类，而我们倾向于确保不同类别特征之间的独立性，以成功解开类别特定的特征。与对比损失函数[16，43]相比，OPL直接在小批量上操作，消除了复杂的负样本挖掘程序的要求。通过通过计算特征向量之间的点积来强制正交性，OPL对CE的固有角度特性提供了自然的增强，而不是像[57，51，37]那样在特征空间中强制施加欧几里德边界。此外，OPL不引入额外的可学习参数，不像[57，51，37]那样依赖于模型架构，与在超球面流形上操作的损失[31，32，7，53]相比，在各种任务上表现良好。0总之，我们的主要贡献如下：•我们提出了一种新颖的损失函数OPL，通过正交约束直接实现了类间分离和类内聚类，而无需可学习参数。0• 相比现有方法[26,46]，我们的正交约束的表达更高效，可以进行小批量处理，无需显式获取奇异值。这导致OPL的简单向量化实现直接与CE集成。0•我们在各种不同的图像分类任务上进行了广泛评估，突出了OPL的区分能力。此外，我们在少样本学习（FSL）和领域泛化（DG）数据集上的结果证明了使用OPL学习到的特征的可迁移性和泛化性。最后，我们证明了学习到的特征对抗性攻击和标签噪声的改进鲁棒性。02. 相关工作0可泛化的表示。最近的研究探索了通过监督训练学习到的特征的可迁移性，例如FSL和DG任务。Tian等人[49]仅使用标准（非情节性）监督预训练建立了一个强大的FSL基线。[59,4]探索了将监督预训练模型适应到FSL任务的情节性评估设置中。Goldblum等人[14]展示了基于边界的正则化方法对于FSL的重要性。我们的工作通过建立正交约束来学习更具可迁移性的特征，与[14]相比更适用于CE。多个DG方法还探索了特征空间的约束[20,9]以提高跨领域性能。特别是[9]通过对比损失函数和三元组损失函数探索了类间分离和类内聚类。OPL在这些方法的基础上进行了改进，同时消除了计算昂贵和复杂的样本挖掘过程。0正交性。在深度神经网络中，核的正交性已经得到了广泛研究，旨在使学习到的权重向量多样化。正交性的思想也被用于解耦表示，例如[55]，并用于稳定网络训练，因为正交化可以确保能量保持不变。正交权重初始化也显示出改善学习行为的潜力。然而，所有这些工作都是在参数空间中操作，而我们的工作则在特征空间中应用正交性，以实现更好的类间分离和类内聚类。值得注意的是，以前在特征空间中实现正交性的公式通常依赖于计算奇异值分解，这可能在数值上不稳定，对于矩形矩阵难以估计，并且需要进行迭代过程。相比之下，我们的正交约束以一种新颖的方式实施，通过小批量内样本之间的关系分解来实现，同时避免了繁琐的配对/三元组计算。̸̸1233503. 提出的方法0在分类中，最大化类间分离同时增强类内紧凑性是非常理想的。虽然常用的交叉熵（CE）损失鼓励同一类别的logits更加接近，但它不会在不同类别之间强制执行任何间隔。已经有多个努力将最大间隔学习与CE集成。例如，大边界softmax[32]直接在点积相似度上强制执行类间可分性，而SphereFace[31]和ArcFace[7]分别在超球面流形上强制执行乘法和加法角度间隔。在角度域中直接强制执行最大间隔约束是不适当的，并且需要近似[32]。一些工作转向欧几里得空间以增强特征空间的区分度。例如，中心损失[57]使用欧几里得距离对倒数第二层特征进行聚类。类似地，亲和损失[17]基于欧几里得空间中的高斯距离形成均匀形状的等距类别簇。在欧几里得空间中最大化间隔的目标函数与CE损失不太适合一起使用，因为CE试图在角度域中分离输出logits。通过强制施加正交约束，我们提出的OPL损失在角度域中最大化地分离中间特征，从而补充了增强输出空间角度区分度的交叉熵损失。在接下来的讨论中，我们将在最大间隔学习的背景下重新审视CE损失，并论证为什么OPL损失非常适合补充CE。03.1. 重新审视Softmax交叉熵损失0考虑一个深度神经网络H，可以分解为H = Hϕ ∙Hθ，其中Hϕ是特征提取模块，Hθ是分类模块。给定输入-输出对{x, y}，令f = Hϕ(x)，f∈ Rd为中间特征，ˆy = Hθ(f)，ˆy ∈Rk为输出预测。为简洁起见，我们将分类模块定义为一个线性层Hθ = W = [w1, ∙ ∙ ∙ wi, ∙ ∙∙ wc]，没有单元偏置，其中wi ∈ Rd，i = 1 ∙ ∙ ∙c是类别-wise可学习的投影向量，用于c个类别。然后，传统的CE损失可以定义为预测ˆy和实际标签y之间的差异，通过将特征f投影到Rd上。0投影到权重矩阵W ∈ Rd×c上。0LCE(ˆy, y) = -log ex0j exp(fTwj) (1)0∝0j ≠ y exp(fTwj - fTwy)0∝0j ≠ y exp(∥f∥2 ∥wj∥2 cos(θj) - ∥f∥2 ∥wy∥2cos(θy))0图2：CE与OPL的特征空间可视化：在这个MNIST2D特征可视化中，可以观察到OPL强制的类间正交性。归一化是指将向量投影到特征空间中的单位超球面上，归一化图中包含每个角度的直方图。0由于CE不明确地强制每个类别对之间存在任何间隔，先前的研究表明，某些类别样本的学习类别区域往往比其他类别更大。为了解决这个问题并确保所有类别均等分离，人们已经努力通过修改cos(θ_y)项为cos(m +θ_y)来引入不同类别之间的间隔m的加性角度间隔[7]，cos(mθ_y)为乘性角度间隔[31]，以及m +cos(θ_y)为加性余弦间隔[53]。这种基于间隔的softmax损失公式的梯度传播很困难，先前的研究依赖于近似方法。我们的提出的损失函数不引入任何间隔来确保不同类别之间的均匀分离，而是通过高效的向量化实现和直接的梯度计算和传播来强制所有类别彼此正交，并同时对类内样本进行聚类。通过将w_y ∈W向量视为单独的类别原型，CE损失可以被视为将特征向量f与其相关类别原型对齐。在极坐标中，CE损失的特征自然地分离，如图2所示。此外，在基于标准SGD的优化过程中，CE损失应用于小批量。我们注意到，在小批量随机迭代的监督训练中，没有明确强制要求特征之间的分离或聚类。鉴于在小批量内部强制执行这些约束的机会，我们探索了在增强CE损失的内在判别特性方面的可能性。s =�i,j∈Byi=yj⟨fi, fj⟩/�i,j∈Byi=yj1(2)d =�i,k∈Byi̸=yk⟨fi, fk⟩git/�i,k∈Byi̸=yk1(3)LOPL = (1 − s) + |d|(4)⟨xi, xj⟩ =xi · xj∥xi∥2 · ∥xj∥2(5)LOPL = (1 − s) + γ ∗ |d|(6)deffeatures = F.normalize(features, p=2, dim=1)L = LCE + λ · LOPL(7)minϕc�i=1c�j=1��E(Fi,Fj)∼D�FiFTj�− i = j�� ,(8)1233603.2. 正交投影损失0使用独热编码的CE损失函数旨在在输出空间中隐式实现不同类之间的正交性。我们提出的OPL损失通过在中间特征空间中强制执行类别间正交性来改善CE损失。给定数据集D中的输入-输出对{x_i, y_i}，令f_i =Hϕ(x_i)表示网络中间层输出的特征。我们的目标是通过约束聚类特征f_i对于D中的所有x_i来实现，使得不同类的特征彼此正交且相同类的特征相似。为此，我们定义了一个统一的损失函数，同时确保了小批量内部聚类和类间正交性，具体如下所示：0其中 �∙ , ∙� 是应用于两个向量的余弦相似性运算符， | ∙ |是绝对值运算符， B表示小批量大小。注意，方程2和3中使用的余弦相似性运算符涉及特征的归一化（投影到单位超球面），如下所示：0其中 || ∙ || 2是ℓ2范数运算符。这种归一化是将OPL的结果与CE损失的内在角度特性对齐的关键。在方程4中，我们的目标是将 s推向1，将 d 推向0。由于 1 − s > 0 ，我们取 d的绝对值，给定 d ∈ ( − 1 , 1)。这反过来限制了整体损失，使得 L OPL ∈ (0 , 3)。在最小化这个整体损失时，第一项 (1 − s )将确保同类样本的聚类，而第二项 | d |将确保不同类样本的正交性。该损失可以在小批量级别上以矢量化的方式高效实现，避免任何循环（参见算法1）。我们进一步注意到，可以通过控制每个个体项在方程4中对整体损失的贡献比例来重新设置类间分离和类内紧凑性的两个目标之间的优先级。虽然仅使用 s 和 d的无权组合表现良好，但特定的用例可能会从加权组合中受益。我们将方程4重新表述如下：0其中 γ 是控制两个不同约束权重的超参数。0算法1 OPL的Pytorch风格伪代码0""" features: 形状为(B, D)的特征0labels: 形状为(B, 1)的目标0# 同类和异类特征的掩码 mask = torch.eq(labels, labels.t())eye = torch.eye(mask.shape[0]) mask_pos =mask.masked_fill(eye, 0) mask_neg = 1 - mask0# 计算s和d dot_prod = torch.matmul(features, features.t()) pos_total =(mask_pos * dot_prod).sum() neg_total = torch.abs(mask_neg *dot_prod).sum() pos_mean = pos_total / (mask_pos.sum() + 1e-6)neg_mean = neg_total / (mask_neg.sum() + 1e-6)0# 总损失 loss = (1.0 - pos_mean) + neg_mean0返回损失0由于OPL仅作用于中间特征，我们在最终分类器 H θ的输出上应用交叉熵损失。使用的整体损失是CE和OPL的加权组合。我们注意到，我们提出的损失也可以与其他常见的图像分类损失一起使用，例如引导交叉熵、标签平滑甚至不同计算机视觉任务中的任务特定损失函数。整体损失 L可以定义为：0其中 λ 是控制OPL权重的超参数。03.3. 解释和分析0总目标：考虑 F c 是由给定数据集 D 中同一类别 c的归一化特征组成的小批量样本集合。整体OPL约束可以被视为对以下目标的最小化，以更新网络 H ϕ 关于随机变量F c ：0其中 | ∙ | 是绝对值运算符， � ∙ �是Iver-son括号运算符。我们将方程8中定义的术语称为预期的类间正交性。通过在CIFAR-100数据集上计算ResNet-56模型在“仅CE”和“CE+OPL”设置下的每类平均特征向量，可以直观地观察到OPL在最小化预期的类间正交性方面的行为，如图4所示。可以观察到相对于CE基准线，OPL在最小化预期的类间正交性方面有明显的改进。此外，基于随机小批量的OPL应用可以防止简单地将所有非对角值推向零。123370(a) 特征正交性（↓）0(b) 相同类别特征的相似度（↑）0(c) 不同类别特征的相似度（↓）0图3：特征分析：我们比较由OPL测量的特征正交性和由余弦相似度测量的特征相似性，并绘制它们在训练过程中的收敛情况。特征相似性最初很高，因为所有特征在初始化后立即变为随机。与CE基线相比，OPL同时强制实现更高的类间相似性和类内不相似性。0(a) 使用仅CE训练的特征0(b) 使用CE+OPL训练的特征0图4：正交性可视化：我们展示了在CIFAR-100测试集上计算的每个类别平均特征的正交性矩阵。更多分析请参见附录B.3。0观察到，这意味着允许在数据集的独热标签中未编码的必要的类间关系在学习特征中被捕捉到。将OPL分解：进一步，我们将OPL分解为其子组件s和d，如方程4所定义。s计算小批量内所有相同类别特征之间的成对余弦相似度，d计算不同类别特征之间的相似度。这些度量可以直接用于量化任何给定特征空间中的类间分离和类内紧凑性。此外，方程4中的非加权OPL公式可以被认为是任何给定嵌入空间中的整体特征正交性的度量。有趣的是，将OPL对类间分离和类内聚类的贡献与通用CE训练场景进行比较。我们通过在CIFAR-100数据集上训练ResNet-56来呈现这种比较，如图3所示。通过OPL实现的特征分离不仅在标准分类设置中表现出性能改进，而且在需要可转移或可泛化特征的任务中也表现出性能改进。Goldblum等人探讨了在将特征嵌入转移到少样本学习任务时，类间分离和类内聚类的重要性。类似的概念涉及判别特征。0在[9]中探讨了领域泛化中的这些问题。我们在少样本学习设置中探索了OPL的影响，并使用LDA[35]在附录B中可视化了使用OPL学习的新类别嵌入，以保持类间与类内方差比率，如[14]所建议。为什么要使用正交性约束？：人们可能会想知道在特征空间中正交性相比于仅仅最大化类别间间隔有什么好处。我们的理由有两个：减少对批次组成的敏感性和避免负相关约束。在基于随机小批量的训练设置中，正交性目标提供了一个明确的几何结构，而最优的最大间隔分离则依赖于批次组成。此外，在常见情况下，输出空间的特征维度d >c（c为类别数），在单位超球面上最大化归一化特征之间的角度间隔将导致类别原型之间的负相关（考虑到最大和等角分离）。我们认为这是一个不希望的约束，因为分类任务本身假设类别之间不存在序关系（例如使用正交的独热编码标签）。此外，将约束扩展到导致类别之间不必要的负相关性也会在训练过程中过分关注已经分离良好的类别，而我们的约束则更倾向于确保独立性，提供了一个更平衡的目标来解开更细粒度类别的类别特定特征。04. 实验0我们对我们提出的损失函数在多个任务上进行了广泛评估，包括图像分类（表1和表2），对标签噪声的鲁棒性（表3），对对抗攻击的鲁棒性（表4）和对领域转移的泛化能力（表5）。我们进一步观察到正交特征的增强传递性，例如在少样本情况下。CE (Baseline)72.40%92.68%73.79%93.11%CE+OPL (Ours)73.52% 93.07% 74.85% 93.32%123380学习（表6和表7）。我们的方法在这些多样的任务和数据集上展示了一致的改进，并突出了正交特征在各种深度网络骨干中的优势。此外，我们通过展示其在CE、TruncatedLoss（用于噪声标签）[64]、RSC[20]和各种对抗学习基线上的使用的好处，证明了OPL的即插即用性。04.1. 图像分类0我们使用我们提出的训练目标（公式7）评估倒数第二层中正交特征在图像分类中的有效性。在两个数据集上（CIFAR-100 [21]和ImageNet[22]）取得了竞争性的结果，表明一致的改进。CIFAR-100包含60,000个自然图像，分布在100个类别中，每个类别有600个图像。我们在CIFAR-100上应用OPL来进行交叉熵基线的监督分类（按照[45]中的实验设置），并将我们的结果与其他施加边界约束的损失函数[31, 32, 53,7]、引入正则化的损失函数[45, 26, 29,6]或促进聚类的损失函数[57,63]进行比较，以增强类别之间的分离。尽管方法简单，但我们的方法在与最先进的损失函数的比较中表现良好。请注意，HNC [45]依赖于类别激活图，RBF [63]和LGM[51]涉及可学习参数，CB Focal Loss[6]专门解决类别不平衡问题。相比之下，OPL具有简单的公式，可以轻松集成到任何网络架构中，不涉及可学习参数，并且针对通用分类。此外，我们注意到OPL相对于top-1准确率（相对于top-5准确率）具有更高的性能增益，这是更具挑战性的指标。我们将这归因于OPL通过增加分离度主要有助于对困难样本进行分类。此外，我们注意到对于CIFAR-100来说，top-5不是首选的度量标准，因为大多数类别的性质不同，而不是像ImageNet那样有几个密切相关的类别（在这些类别中，我们对top-5准确率的增益更加显著，如下所讨论）。ImageNet是一个用于视觉识别任务的标准大规模数据集，包含大约120万张训练图像和5万张验证图像。我们将OPL集成到常用的图像分类任务中使用的骨干架构ResNet18和ResNet50中。我们使用带动量的SGD训练模型90个epoch（初始学习率为0.1，每30个epoch衰减10倍）。这些实验的结果在表2和图5中呈现。我们注意到，仅仅强制执行我们的正交性约束就可以将ResNet50的top-1（%）准确率从76.15%提高到76.98%，而无需任何额外的技巧。此外，鉴于ImageNet的1000个类别中有大量细粒度类别（例如多个狗品种），可以将其视为困难的任务01 https://github.com/pytorch/examples/tree/master/imagenet0Resnet-56 ResNet-110 损失 Top-1 Top-5 Top-1 Top-50Center Loss（ECCV'16）[57] 72.72% 93.06% 74.27% 93.20%Focal Loss（ICCV'17）[29] 73.09% 93.07% 74.34% 93.34%A-Softmax（CVPR'17）[31] 72.20% 91.28% 72.72% 90.41%LMC Loss（CVPR'17）[53] 71.52% 91.64% 73.15% 91.88% OLELoss（CVPR'18）[26] 71.95% 92.52% 72.70% 92.63% LGMLoss（CVPR'18）[51] 73.08% 93.10% 74.34% 93.06% AnchorLoss（ICCV'19）[42] - - 74.38% 92.45% AAMLoss（CVPR'19）[7] 71.41% 91.66% 73.72% 91.86% CB FocalLoss（CVPR'19）[6] 73.09% 93.07% 74.34% 93.34%HNC（ECCV'20）[45] 73.47% 93.29% 74.76% 93.65%RBF（ECCV'20）[63] 73.36% 92.94% - -0表1：CIFAR-100：这些结果表明，交叉熵与我们提出的正交约束的简单组合相对于基准损失函数有所改进。0CE（基准）72.40% 92.68% 73.79% 93.11%CE+OPL（我们的方法）73.52% 93.07% 74.85% 93.32%0CE（基准）69.91% 89.08% 76.15% 92.87% CE +OPL（我们的方法）70.27% 89.60% 76.98% 93.30%0ResNet-18 ResNet-50 方法 top-1 top-5 top-1 top-50图5：定性结果：我们展示了在使用OPL进行训练后，OPL和CE在“仅CE”模型的错误预测中修正的前5个预测。请参见附录B.2。0表2：在ImageNet上的结果：OPL相对于交叉熵（CE）基准在常见骨干架构上有所改进。04.2. 对标签噪声的鲁棒性0考虑到深度神经网络的丰富表示能力，尤其是大多数网络甚至可以完美拟合随机标签或噪声[62]，样本标签中的错误对于训练来说构成了一个重大挑战。在大多数实际应用中，几乎不可能避免标签噪声，特别是在需要数百万人工注释的大规模数据集中。多个研究[13，64]探索了针对标签噪声构建鲁棒性的常见目标函数的修改。尽管明确存在差异，但OPL学习到的更好的判别特征也显著提高了前5的准确率。CIFAR10Madry et al.(ICLR’18) [34]87.1444.04Madry et al. [34] + OPL87.7649.15Hendrycks et al.(PMLR’19) [19]87.1154.92Hendrycks et al. [19] + OPL87.5155.73MART [56] (ICLR’20)84.4954.10MART[56] + OPL84.4156.23CIFAR100Madry et al.(ICLR’18) [34]60.2020.60Madry et al. [34] + OPL61.1323.01Hendrycks et al.(PMLR’19) [19]59.2328.42Hendrycks et al. [19] + OPL61.0030.05MART (ICLR’20) [56]58.9023.40MART[56] + OPL58.0125.74MethodArtCartoon SketchPhotoAvgJiGen(CVPR’19) [3]86.2078.7070.6397.6683.29MASF(NeurIPS’19) [10]82.8980.4972.2995.0182.67MetaReg(NeurIPS’18) [1] 87.2079.2070.3097.6083.60RSC(ECCV’20) [20]87.8982.1683.3596.47* 87.47RSC + OPL88.2884.6484.1796.8388.48123390数据集方法均匀类别相关0CIFAR10 TL（NeurIPS’18）[64] 87.62% 82.28%0TL[64] + OPL 88.45% 87.02%0CIFAR100 TL（NeurIPS’18）[64] 62.64% 47.66%0TL[64] + OPL 65.62% 53.94%0表3：在CIFAR-100上的噪声标签结果：我们探索了在使用OPL进行图像分类任务训练时噪声标签的影响。我们使用[64]中的方法作为基准，噪声水平为0.4，使用ResNet18作为骨干网络。0通过OPL对特征空间施加的类别分离约束，我们认为OPL所利用的基于随机小批量的优化抵消了噪声标签的影响。我们在表3中的实验支持了这个假设，表明OPL对标签噪声具有额外的鲁棒性。我们只是在[64]中的方法上集成了OPL，没有进行任何特定任务的修改。04.3. 对抗攻击的鲁棒性0对抗攻击通过添加对抗性噪声来修改给定的良性样本，以欺骗深度神经网络[48]。对抗样本是分布之外的样本，仍然是一个具有挑战性的问题。对抗训练[34]作为一种有效的防御方法出现，其中对抗性样本被生成并添加到训练集中。我们在特征空间中对这些对抗性样本施加正交性约束，同时优化模型权重，并在不同的对抗训练机制[34，19，56]上展示了我们的优势。值得注意的是，所有考虑的对抗训练方案[34，19，56]在性质上都不同，例如Madry等人[34]的训练仅基于交叉熵，Hendrycks等人[19]提出利用预训练，而Wang等人[56]在交叉熵之外引入了一个替代损失。我们的正交约束有助于在所有情况下最大化对抗鲁棒性，展示了我们提出的损失函数的通用性和即插即用性。为了进行可靠的评估，我们在表4中报告了针对Auto-Attack（AA）[5]的鲁棒性增益。在CIFAR10上，我们的方法使[34]的鲁棒性提高了5.11%，[19]提高了0.81%，[56]提高了2.2%。04.4. 域泛化（DG）0域泛化问题旨在使用多域源数据训练模型，以便它可以直接推广到新域而无需重新训练。我们认为OPL的特征空间约束倾向于捕捉更通用的图像语义特征，从而在跨域泛化方面表现更好。通过将OPL与[20]中的最先进方法集成，并在流行的PACS数据集[28]上进行评估，我们验证了这一点。表5中的结果表明，与[20]相比，将OPL与[20]集成在一起在所有四个域上都取得了新的最先进水平。0数据集方法清洁对抗0表4：对抗鲁棒性上的OPL性能：我们展示了在鲁棒特征上强制正交性的影响。我们通过在训练过程中添加OPL约束来对基线方法[ 34 ,19 , 56]进行对抗训练。使用OPL获得的鲁棒特征具有更好的准确性，并且相对于基线方法显示出明显的改进。在白盒设置下（攻击者对模型架构和预训练权重有完全了解），报告了针对Auto-Attack [ 5]的Top-1准确率。0表5：PACS数据集上的结果：我们将OPL与[ 20]集成，为域泛化任务获得了改进（*最佳复制值）。04.5. 少样本学习 (FSL)0在本节中，我们探索了使用我们的损失函数学习的特征在FSL任务中的可迁移性。我们在三个基准少样本分类数据集上评估了OPL：miniImageNet，tieredImageNet和CIFAR-FS。我们在Meta-Dataset [ 50]上进行了额外的实验，这是一个用于在更多样化和具有挑战性的环境中评估FSL方法的大规模基准。与[ 40]类似，我们通过添加三个额外的数据集MNIST，CIFAR10和CIFAR100来扩展Meta-Dataset。鉴于显示出学习强大特征的工作在FSL方面的潜力[ 49]，我们尝试在监督训练期间将OPL作为特征空间的辅助损失进行实验。在表6中呈现了突出性能改进的定量结果。我们在Meta-Dataset上的结果是使用[ 50 ]中提出的“train onall”设置获得的。我们将OPL集成到[ 11]中提出的方法中，在Meta-Dataset的前8个数据集上进行训练，并在剩余的数据集上进行评估（包括[ 40]中的三个额外数据集）。结果在表7中呈现。有关OPL特征在FSL任务中对样本噪声的鲁棒性，请参见附录A.4。MethodNew LossCifar:1shotCifar:5shotMini:1shotMini:5shotTier:1shotTier:5shotMAML(PMLR’17) [12]-58.90±1.971.50±1.048.70±1.8463.11±0.9251.67±1.8170.30±1.75PN (NIPS’17) [44]-55.50±0.772.00±0.649.42±0.7868.20±0.6653.31±0.8972.69±0.74RN(CVPR’18) [47]-55.00±1.069.30±0.850.44±0.8265.32±0.7054.48±0.9371.32±0.78Shot-Free(ICCV’19) [39]-69.20±N/A84.70±N/A59.04±N/A77.64±N/A63.52±N/A82.59±N/AMetaOptNet(CVPR’19) [25]-72.60±0.784.30±0.562.64±0.6178.63±0.4665.99±0.7281.56±0.53RFS(ECCV’20)[49]-71.45±0.885.95±0.562.02±0.6079.64±0.4469.74±0.7284.41±0.55RFS + OPL (Ours)✓73.02±0.486.12±0.263.10±0.3679.87±0.2670.20±0.4185.01±0.27NAML(CVPR’20) [27]✓--65.42±0.2575.48±0.34--Neg-Cosine[30]--63.85 0.8181.57 0.56--123400SKD (Arxiv’20) [38] � 74.50 ± 0.9 88.00 ± 0.6 65.93 ± 0.81 83.15 ± 0.54 71.69 ± 0.91 86.66 ± 0.60 SKD + OPL (Ours) �74.94 ± 0.4 88.06 ± 0.3 66.90 ± 0.37 83.23 ± 0.25 72.10 ± 0.41 86.70 ± 0.270表6：少样本学习改进：我们使用OPL相对于RFS[49]基线和SKD基线[38]（包含ResNet-12骨干网络）获得了性能改进。我们的损失函数简单地嵌入到他们的监督特征学习阶段。我们实验的结果是在3000个剧集运行中平均得出的。注意，[38, 27, 30]是最近针对少样本学习的损失函数。0Dataset CNAPs [40]0（NeurIPS’19）0SUR [11]0（ECCV’20）0SUR + OPL0（我们的）0Imagenet 52.3 ± 1.0 56.4 ± 1.2 56.5 ± 1.1 Omniglot88.4 ± 0.7 88.5 ± 0.8 89.8 ± 0.7 Aircraft 80.5 ± 0.679.5 ± 0.8 79.6 ± 0.7 Birds 72.2 ± 0.9 76.4 ± 0.9 76.9± 0.7 Textures 58.3 ± 0.7 73.1 ± 0.7 72.7 ± 0.7 QuickDraw 72.5 ± 0.8 75.7 ± 0.7 75.7 ± 0.7 Fungi 47.4 ±1.0 48.2 ± 0.9 50.1 ± 1.0 VGG Flower 86.0 ± 0.5 90.6± 0.5 90.9 ± 0.5 MSCOCO 42.6 ± 1.1 52.1 ± 1.0 52.0± 1.0 MNIST 92.7 ± 0.4 93.2 ± 0.4 94.3 ± 0.4CIFAR10 61.5 ± 0.7 66.4 ± 0.8 66.6 ± 0.7 CIFAR10050.1 ± 1.0 57.1 ± 1.0 57.6 ± 1.00平均值 67.0 71.4 71.90表7：在Meta-Dataset上的结果：OPL与[11]中的SUR-PNF方法相结合，进行了所有设置的Meta-Dataset训练。由于Meta-Dataset中可能影响先前工作的错误，交通标志数据集在比较中被省略。0超参数 γ =2 γ =1 γ =0.50λ = 0.05 70.48 70.66 72.02 λ = 0.1 70.12 70.9471.30 λ = 0.5 70.26 71.18 70.66 λ = 1 69.7870.48 72.20 λ = 2 67.64 69.58 70.520表8：超参数搜索：我们报告了在CIFAR-100留存验证集上使用ResNet-56进行OPL训练后的top-1准确率值，使用不同的 λ 和 γ组合。04.6. 消融研究0OPL的完整形式（公式6）包含两个超参数，λ和γ。我们在CIFAR-100的留存验证集上进行了超参数搜索（见表8）。从这些实验中选择了最佳值。0(a) 对λ的敏感性0(b) 批量大小的变化0图6：消融研究：在CIFAR-100数据集上，使用ResNet-56骨干网络评估时，OPL相对于仅使用CE的基线实现了一致的性能提升。0在报告测试性能时，我们将γ固定，评估OPL在CIFAR-100测试集上对不同λ值的性能敏感性的最小化。此外，我们评估OPL在随机小批量上的操作方式，并评估其在不同批量大小（CIFAR-100数据集）上相对于CE基线的性能。图6b中呈现的结果展示了OPL在不同批量大小上始终相对于CE基线实现性能提升。05. 结论0我们提出了一个简单而有效的损失函数，用于在输出特征空间上强制正交性，并展示了它对各种分类任务的改进。我们的损失函数与softmaxCE损失一起使用，并可以轻松地与任何深度神经网络集成。我们还探索了使用OPL学习的特征的各种特性，说明了它在少样本学习、领域泛化以及对抗攻击和标签噪声的鲁棒性方面的优势。未来，我们希望探索OPL的其他变体，包括其在无监督学习中的应用。致谢：本工作得到了ARC DECRAFellowship DE200101100的部分支持。123410参考文献0[1] Yogesh Balaji, Swami Sankaranarayanan, and Rama Chel-lappa. Metareg: Towards domain generalization using meta-regularization. In Advances in

下载后可阅读完整内容，剩余1页未读，立即下载