鲁棒性损失：基于样本质心的表示学习

183 浏览量更新于2023-10-13 收藏 824KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

9495^1^长尾学习的分布鲁棒性损失德维尔·塞缪尔以色列巴伊兰大学dvirsamuel@gmail.com加尔·谢奇克以色列巴伊兰大学NVIDIA Research，以色列gal. biu.ac.il摘要现实世界的数据通常是不平衡的和长尾的，但是深度模型很难在频繁类的存在下识别稀有类。为了解决不平衡的数据，大多数研究尝试平衡数据，损失或分类器，以减少对头部类的分类偏差远没有注意到已经给予了潜在的表示学习不平衡的数据。我们发现，深度网络的特征提取器部分受到这种偏见的严重影响。我们提出了一个新的损失鲁棒性理论的基础上，鼓励模型学习高质量的表示头和尾类。虽然鲁棒性损失的一般形式可能难以计算，但我们进一步推导出可以有效地最小化的易于计算的上限该过程减少了对特征空间中头部类的表示偏差，并在CIFAR 100-LT，ImageNet-LT和iNaturalist长尾基准上获得了新的SOTA结果。我们发现，鲁棒性训练新的鲁棒性损失可以与各种分类器平衡技术组合，并且可以应用于深度模型的若干层处的表示1. 介绍真实世界的数据通常在语义类上具有长尾分布：很少有类是高度频繁的，而许多类很少遇到。当使用这种不平衡的数据进行训练时，深度模型往往会产生对头部类有偏见和过度自信的预测，并且无法识别尾部类。处理不平衡数据的早期方法使用重新采样[12，17]或损失重新加权[18，27]，旨在重新平衡训练过程。其他方法通过从头部到尾部类传递信息[31，46，41，29]或通过应用自适应损失来[6] 或分类器的正则化[21]。这些技术的主要重点是平衡多类分类器。图1：我们的分布鲁棒性损失是为了学习样本保持接近其类的质心的表示而设计的。在这里，经验质心μ2（带框的粉红色三角形）仅基于少量样本（四个粉红色三角形）进行估计，因此它远远偏离真实质心（μ2）。我们的损失拉了同类样本（绿色箭头），并推开了其他类样本（红色箭头）。损失通过向估计质心（红色虚线）周围的不确定区域内与具有许多样本的头部类（µ周围的蓝色虚线）相比，尾部类的不确定性区域通常更大很少有人关注用不平衡数据学习的潜在表征直观地说，头类在训练期间更经常遇到，并且预计将主导深度模型顶层的潜在表示。与这种直觉相反，[21]比较了一系列用于重新平衡表示的技术，并得出结论然而，不平衡数据对学习的表示的影响远未被理解，并且其可能损害分类准确性的程度是未知的。虽然现有的再平衡方法并没有改善代表性9496然而，问题仍然存在，如果更好的表示可以大大提高不平衡数据的识别。本文重点关注改进用不平衡数据训练的深度模型的表示层我们表明，可以简单地通过平衡最后一层的表示来实现大的精度增益关键的见解是，尾部类的训练样本的分布并不能很好地代表数据的真实分布。这产生阻碍应用于该表示的分类器的表示。为了解决这个问题，我们引入了稳健优化理论的思想。我们设计了一个损失，是更强大的不确定性和变化的尾巴表示。标准训练遵循经验风险最小化（ERM），其旨在学习在训练分布上表现良好的模型。然而，ERM假设测试分布与训练分布相同，并且这种假设经常与尾类相违背。相比之下，分布鲁棒优化（DRO）[28，14，4]被设计为对测试分布的可能变化具有鲁棒性。它学习分类器，可以处理训练分布的邻域内的最坏情况分布。图1说明了这个想法。在一般情况下，基于最坏情况分布计算损失可能在计算上是困难的。在这里，我们展示了如何从上面限制最坏情况下的损失，具有直观形式的界限，可以很容易地最小化。由此产生的界限允许我们最小化DRO损失，这只会影响表示，并将其与标准分类损失相结合，这将在表示之上调整分类器本文的主要贡献是：1. 我们制定学习与不平衡的数据作为鲁棒优化的问题，并强调高方差在阻碍尾部准确性的作用。2. 我们开发了一种新的损失，DRO-LT损失，基于分布鲁棒性优化学习平衡的特征提取器。使用DRO-LT进行训练产生了能够很好地捕获头部和尾部类的表示。3. 我们推导出一个上限的DRO-LT损失，可以有效地计算和优化我们进一步展示了如何学习每个类的鲁棒性安全裕度，与任务一起，避免额外的超参数调整。4. 我们在四个长尾视觉识别基准上评估我们的方法：CIFAR100-LT、CIFAR10-LT、ImageNet-LT和iNaturalist。我们提出的方法始终实现优越的性能比以前的模型。2. 相关工作2.1. 长尾识别现实世界的数据通常遵循长尾分布，这导致模型倾向于头部类和过拟合尾部类[5，35]。以前为解决这一影响所作的努力可分为四种主要方法：数据处理方法，损失处理方法，两阶段微调和集成方法。数据处理（重新采样）：数据操作方法旨在平衡长尾数据。存在三种流行的重采样策略技术：（1）通过简单地复制样本对少数（尾部）类进行过采样[7，17]。(2) 通过删除样本对大多数（头部）类进行欠采样[12，20]。(3)生成增强样本以补充尾部类[2，8，24，7]。虽然简单且直观，但过采样方法遭受尾部类上的严重过拟合，欠采样方法降低了模型的一般化，并且数据增强方法开发起来昂贵。损失处理（重新加权）：损失重新加权方法通过将成本设置为跨类不均匀来鼓励尾类的学习。例如，[18]通过逆类频率缩放损失。另一种策略降低了分类良好的示例的损失，防止容易的否定占主导地位的损失[27]或基于分类样本的难度动态地重新调整交叉熵损失[34]。[6]建议鼓励对稀有类别提供更大的[22]使用类别不确定性信息，使用贝叶斯不确定性估计，学习鲁棒特征，[10]使用有效样本数而不是比例频率重新加权。两阶段微调：两阶段方法将训练过程分为表示学习和分类器学习[32，21，30，35]。第一阶段旨在从未修改的长尾数据中学习良好的表示，使用传统的交叉熵进行训练，而无需重新采样或重新加权。第二阶段旨在通过冻结主干并使用重新采样技术微调最后完全连接的层或通过学习消除分类器的置信度来平衡分类器这些方法基本上假设对头部类的偏差仅在分类器（即最后一个完全连接层）中是显著的，或者调整分类器层可以纠正表示中的潜在偏差。集成模型：集成模型的重点是通过组装和分组模型来生成平衡模型。通常，类被分成组，其中包含类似训练实例的类被分组在一起。然后，集中在每个组的个人模型assem- bled形成一个多专家框架。[46]学习头类的一个分支和尾类的另一个分支，然后使用软融合过程组合分支[四十三]9497^CFΣF^^--x，y=y），其中δ是克罗内克δ。^n∼从多个教师分类器中提取统一模型。每个分类器侧重于从数据中对一个小的且相对平衡的类组[第四十届]形式，得出样本z的损失为e−d（µc，z）−∆（一）描述了一种用于多个分类器的共享架构，分布感知损耗和专家路由模块。的L（z）鲁棒性=−logΣz′ e−d（µc，z′）−∆′。当前的论文提出了一种用于利用单个分类器训练一个模型的两阶段方法因此，我们比较我们的方法与非合奏方法。2.2. 分布鲁棒优化分布鲁棒优化（DRO）[28，14，4]考虑了测试分布与列车分布不同的情况。它通过在训练分布周围定义一组不确定的测试分布并学习一个分类器来实现这一点DRO已被证明等同于标准鲁棒优化（RO）[44]，并且与正则化其中d（µ，z）测量特征空间中样本z与其类µc的估计质心之间的距离，∆和∆′是我们下面描述的稳健性裕度。4.分布鲁棒优化当学习分类器时，我们寻求使数据分布P（x，y）的预期损失最小化的模型f。minExP[lf（x）]=∫l（f（x），y）dP（x，y）.（二）由于数据分布未知，经验风险最小化（ERM）[39]建议使用训练数据对数据分布进行经验估计Pδ=1δ（x=1）。我更多详情，请参见[33]。据我们所知DRO理论并不适用于长尾学习。许多研究调查了我ERM：minE（x，y）ΔPδ[1f（x）]（3）对对抗性攻击是鲁棒的[3，1，16]，但这超出了本文的范围。3.我们的方法我们首先概述了我们的方法的主要思想，并在随后的章节中提供详细信息。我们的目标是在深度网络的最后一层学习一个表示，这样不同类的样本分布就可以很好地分离。然后，它们可以稍后被不同的线性分类器正确地分类。当使用足够的标记数据进行训练时，深度网络可以有效地学习这种表示。然而，当一个类只有很少的样本时，训练样本的分布可能不能很好地代表数据的真实分布，并且由模型学习的表示阻碍了分类器。为了弥补这一缺点，我们设计了一个损失，适用于表示，它考虑到由于少量的样本的错误。图1说明了这个想法。我们的损失扩展了标准的对比损失，它将样本拉到更接近其自身类的质心，并推开属于其他类的样本。我们的新损失解释了真实质心未知的事实，并且它们的估计是有噪声的因此，它针对经验质心周围的安全超球内的最坏可能质心进行在一般情况下，计算这样的最坏情况损失在计算上可能是困难的。我们进一步推导出一个上限的损失，可以很容易地计算，并表明，使用该界作为替代损失，产生更好的表示。由此产生的损失有一个简单的一般不幸的是，使用Pδ来近似P会做出天真的假设，即测试分布将接近经验火车分布。当训练数据很小时，这个假设可能远非真实。在这些情况下，选择更有可能减少测试分布损失的其他P一个这样的解决方案由分布鲁棒优化（DRO）[14，4]给出它建议学习一个模型f，在一个可能的分布族内使损失DRO：minsupE（x，y）Q[If（x）]。（四）fQ∈UDRO的目标是同时对一组测试分布表现良好，每个测试分布都在一个不确定性集合U中。分布集U通常被选择为围绕经验训练分布P的半径为λ的超球（λ-球）：U：={Q：D（Q，P）≤ε}，（5）其中D是分布之间的差异度量，通常选择为KL散度或Wasserstein距离。5. 我们的方法我们现在正式描述我们的方法：DRO-LT损失。5.1. 预赛我们给出n个标记样本（xi，yi）i = 1，. . . .，n，其中yi是k个类别c1，. . . ，c k. 设f θ是具有可学习参数θ的特征提取器函数f，其映射方法[36]、风险厌恶方法和博弈论[33]。9498^^C^ ^您的位置：||-|^U：={q|D（q||p^）≤ε}，ccc||--{1}|}^CΣ集合经验质心，即所有特征的平均值|C|Ce−d（µc，z′），（日志C ′{1}|}Σz′∈Z12其质心为µC 在Uc内。每类否定任何给定的输入样本xi到zi=fθ（xi）。映射输入Z =z1，…zn驻留在某个潜在向量空间中。令Sc=z iy i=c是表示标签为c的样本的特征向量的集合。我们用µc表示5.3.一个强大的损失方程的对数似然损失(7)在每个类µc的质心已知的假设下运行。事实上，我们无法获得。以下经验风险c类向量z，µ =1Σ|C|兹岛我们还表示为由方程式(7)，但µ 可能是一个很差的近似µ ccc类样本的真实数据分布P的平均值，µ c=ExP|y=c[z]。5.2.表征学习我们采用度量学习和表示学习[42，26，37]的思想来设计表示学习损失。给定具有标签yi=c的样本xi的表示zi，我们希望设计一个损失，该损失在特征空间中将zi映射到来自同一类的其他样本，并且远离其他类的样本我们首先开发一个对比损失，然后将其扩展到一个强大的。考虑来自类yi = c的样本（xi，yi），其特征表示为zi。我们对c类样本进行建模，假设它们围绕质心μ c分布，样本的似然性随着与c类质心μ c的距离呈指数衰减。这种指数衰减在度量学习中已经使用很久了，可以查看μc，估计误差随着样本数Sc的减少而增加。结果，对数似然和损失也会被很差地估计。我们没有近似NLL损失（logP（Scµc）），而是通过计算一组候选质心上的最坏情况损失，证明了我们可以以高概率约束它为此，我们采取了一种基于分布鲁棒优化的方法设Pc为C类样本的经验分布我们将其邻域中候选分布的不确定性集定义为（九）其中D是两个分布的散度的度量。具体来说，我们在这里考虑的情况下，其中D是Kullback-Leibler散度，并且所考虑的分布是同方差球面高斯分布。在这种情况下，它们的散度等于DKL（q pc）=2d（µq，µp）[9]，其中d是欧几里得距离。因此因为反映了表示空间2σ^c上的随机walk[15，13]。因此，样本的归一化似然为−d（µ，z）对于任意q∈Uc，我们有d（µq，µp^c）≤σc√2c≡εc，（10）√2c，方便使用。eciΣz′∈Z其中d是质心µc和特征表示zi之间的散度或距离的度量。d通常被设置为欧几里得距离，但也可以使用较重的尾部建模，如使用学生t分布[38]。类似地，对于集合Sc=zi yi=c，是：Σe−d（µc，zi）zi∈ Sce−d（µ，z）我们现在推导出我们所确定可以使用估计的质心µ进行计算。的形式边界是非常直观的，它可以被看作是NLL损失的修改，其中样本和经验质心之间的距离增加了一个因子，该因子取决于不确定性球的半径。定理1.设εc为不确定集Uc的半径设σc为样本分布的方差，我们将负对数似然损失定义为每类损失的加权对数似然的界为-log P（z|µ c）≤ − log z′∈Ze−d（µ（c，z）−2εce−d（µ（c，z′）−2εcδ（z′，c）（十一）L NLL= Σw（c）（−log P（S c|µ c））（8）p（ε），其中reδ√（z，c）=1，如果z属于c类c∈CΣΣe−d（µc，zi）否则为0且εc=σc2c.哪里=−c∈Cw（c）zi∈ Sc对数Σz′∈Ze−d（µc，z′），1证据表示给定样本的负对数似然z和类分布p，质心为μbyL（z，p）=-log P（z|µ）。对于概率p（），真实分布pc最小化，我们可以天真地插入经验估计，配对µci=1P（zi| µc）=其中我们定义εc≡σclog P（Sc|µc）=.（七）C类设p（ε）为真实分布9499Q||w（c）是类权重。设置w（c）=Sc 为所有类赋予相等的权重，并防止头类主导损失。在不确定球pc∈Uc内。因此L（z，p c）≤ max L（z，q）= max（−log P（z|µc））。（十二）q∈Ucq ∈Uc9500CCˆQΣˆ^CCCCC^−d（µq，z）≤−d（µ^c，z）+d（µ^c，µq）≤−d（µ^c，z）+εc（15）Σd（µc，z） ≤d（µ，z）+d（µ^c，µ）∈这里，μq是分布q∈Uc的质心。与结合的-log P（z|µ q），我们使用三角不等式并写：6. 培训不确定性半径：不确定性的大小联系我们d（µq，z）≤d（μ^c，z）+d（μ^c，μq）（13）每个班级都扮演着重要的角色。当联合国-确定性半径太小，真实的概率Q QC c屈服−d（µq，z）≥−d（µ^c，z）−d（µ^c，µq）≥−d（µ^c，z）−εc（14）CC质心在不确定区域内的概率以及边界保持的概率减小。当半径太大时，边界更有可能保持，但它变得不那么紧。此外，由于尾类具有较少的样本，类质心的估计被预期为噪声更大应用等式（14）对Eq.的分子（6），并应用Eq.(15)对于它的分母，我们得到：我们探索了三种确定半径的方法1. 共享ε：所有类共享相同的不确定性半径。2. 样本数ε/√n：类半径与1/√n成比例，e−d（µc，z）|q≥e−d（µc，z）−2εc其中n是训练样本的数量。该缩放基于以下事实：平均值的标准误差P（ z µc）=Σz′∈Z e−d（µc，z′）Σz′∈Ze−d（µc，z′）−2εcδ（z′，c）（十六）衰变为√n，并且导致尾类具有更大的其中，当c是z的类时，δ（z，c）= 1，否则为0。这个不等式对所有分布q都成立U c，以及作为特例的真实分布μ c（概率为p（ε））。因此，负对数似然由下式限定：e−d（µc，z）−2εc安全半径更多详情请参见附录C。3. 学习ε：我们将半径视为可学习的参数，并在训练期间调整其值。在前两种情况下，半径参数ε被视为超参数并使用验证集进行调整。培训流程：为了计算鲁棒性损失，一个-log P（z|µ c）≤ −log这就完成了证明。z′∈Z e−d（µc，z′）−2εcδ（z′，c）。（十七）估计类质心需要数据的基本特征表示因此，在训练过程中，我们首先用标准交叉熵损失（λ= 1）训练模型进行学习基于该定理，定义替代鲁棒性损失：初始特征表示和质心。然后，我们通过设置λ1将DRO损失添加到训练中。最后作为L鲁棒性= −cΣ∈Cw（ c）zΣ∈Sc日志z′e−d（µ（c，z）−2εce−d（µ（c，z′）−2εcδ（z′，c）（十八）在[21]中，我们通过冻结特征提取器来学习平衡分类器，并且仅用平衡采样来微调分类器这种替代损失修正了Eq的损失。(8)以一种简单和直观的方式。它增加了样本和经验质心之间的距离d（µ，z），其方式取决于类的不确定性球的半径。共同损失。在实践中，我们用两种损失的组合来训练深度网络。标准交叉熵损失被应用于分类层的输出，并且鲁棒损失被应用于倒数第二层的潜在表示我们将这两种损失L=λLCE+（1 − λ）LRobust。（十九）可以使用验证集来调谐折衷参数λ请参见下面的实现细节。p（ε）和下界。附录A给出了p（ε）的形式定义。附录B推导出了我们损失的下限，并且还根据经验表明，在我们的实验中，界限是紧的。需要更大的半径Q9501Nmin估计质心：如果经常使用完整数据集来计算，则计算每个类的质心在计算上是昂贵的。人们可以估计每个批次内的质心，但是对于不平衡的数据，少数类几乎没有任何样本，并且它们的质心估计将非常差。相反，我们在每个时期开始时计算每个样本xi的特征zi，计算每个类的质心，并在时期的持续时间内将它们固定在内存7. 实验7.1. 数据集我们评估了我们提出的方法，使用三个主要的长尾识别基准实验。(1) CIFAR 100-LT[6]：CI-FAR 100 [25] 的长尾版本。CIFAR100包含来自100个类别的60K图像在[6]之后，我们用不平衡因子β控制数据不平衡的程度。β=Nmax，其中Nmax和Nmin分别是最频繁类和最不频繁类的训练样本的数量。9502√联系我们--联系我们∈表1：ResNet 32在长尾CIFAR- 100 [6]上的Top-1准确度，比较我们的方法和SoTA技术。星号 * 表示再现的结果。DRO-LT变体在所有不平衡比上都能获得最佳结果。我们在β=100、50和10的情况下进行实验。(2) ImageNet-LT[31] ：大规模对象分类数据集ImageNet [11]的长尾版本，通过对遵循帕累托分布的子集进行采样，幂值α= 6。包含来自1000个类别的115.8K图像，每个类别包含1280到5个图像。（3）iNaturalist[19]：用于物种分类的大规模数据集它本质上是拥有来自8，142个类别的437.5K图像。7.2. 比较方法我们将我们的方法与以下方法进行了比较。（ A ）基线： CE ：具有交叉熵损失的朴素训练 ;ReSample：过采样类以达到均匀分布，如[6]中所示。（B）损失操纵：重计：重计损失，如[6，46];局灶性损失[27]和LDAM损失[6]。（C）两阶段微调：τ-范数[21]，cRT[21]和smDragon[35]。（D）表征学习：[23][24][25][26][27][28]][29][29][29][29]（E）DRO-LT变体：我们比较了四种方法来设置Uc的半径。设置ε= 0（ERM）; ε值在所有类之间共享;共享值除以类的平方根size（ε/√n）;以及每个类的学习值。7.3. 评价方案在[31]和[21]之后，我们报告了类平衡测试集上所有类的前1准确度。该度量由“Acc”表示对于CIFAR-100和ImageNet-LT，我们进一步报告了三个类集合的划分的准确性。“多”：列车样本超过100个的班;“Med”：具有20 - 100个训练样本的类;和“少”：具有少于20个训练样本的类。图2：在CIFAR 100-LT上训练的ResNet-32的每个类别的学习ε值，不平衡比为50。蓝色：多项式拟合。7.4. 实现细节在所有的实验中，我们使用SGD优化器，动量为0.9，以优化网络。对于长尾CIFAR-100，我们遵循[6]并在一个GPU上使用多步学习率计划训练ResNet-32对于ImageNet-LT和iNaturalist，我们遵循[21]并使用余弦学习率计划在4个GPU上训练ResNet-50超参数调整：我们确定了训练时期（早期停止）的数量，并使用验证集调整了超参数。我们优化了以下超参数：（1）半径参数ε一、二、五、十、三十、七十对于ε/n“。 (2)折衷参数λ 0，0。3，0。5，0。七，一。(3) 学习率10−4，10−3，10−2。我们研究了精度对ε和λ值的敏感性，发现ε值在很宽的范围内都能获得很高的精度我们还发现，当调整λ并选择λ = 0时，精度相当稳定。五、详见附录D。8. 结果CIFAR 100-LT：表1比较了DRO-LT与CIFAR 100-LT上的常见长尾方法。它表明，我们所有的鲁棒损失变量在所有不平衡因素上始终达到最佳结果，强调了鲁棒学习在不平衡数据中的重要性。”Learned CIFAR-10-LT：附录G提供了CIFAR-10-LT的结果，不平衡比率为100。ImageNet-LT：表2进一步评估了我们的方法对不同测试分割的ImageNet-LT和CIFAR 100-LT（不平衡因子=100）报告准确度的影响。DRO-LT在尾类（这与牺牲头部准确度以获得更好的尾部分类的先前方法形成对比。这也表明DRO-LT学习所有类的高质量特征。自然主义者：表3评估了我们在大规模iNaturalist上的方法。与SoTA基线相比，DRO-LT略微提高了准确度更多结果和进一步分析见附录F不平衡类型不平衡比率CE*重新取样[10][第10话][27]第二十七话LDAM损失[6][21]第二十一话cRT*[21]smDRAGON [35]SSL*[23][45]第四十五话DRO-LT（我们的）ε= 0（ERM）长尾CIFAR-100100 5038.3233.4433.9938.4139.6041.1141.2443.5537.5143.4343.85--44.3244.9746.7446.8346.8544.0247.111055.7155.0657.1255.7856.9157.0657.9358.0156.7058.91共享εε/√n学习ε43.92 52.31 59.5445.66 55.32 61.2246.92 57.2047.31 57.57 63.419503长尾CIFAR-100长尾ImageNet方法许多Med几ACC许多Med几ACCCE*65.537.97.438.364.038.85.841.6LDAM损失[6]61.041.619.839.6----OLTR [30]61.841.417.641.2----τ-范数[21]61.442.515.741.156.644.227.446.7smDragon [35]60.544.323.543.559.744.225.347.4SSL *[23]64.136.97.137.561.447.028.249.8DRO-LT（我们的）ε= 0（ERM）61.943.722.243.961.045.526.848.1共享εε/√n可学习ε64.165.064.747.949.850.021.522.323.845.7 ±0.246.9 ±0.247.3±0.162.663.864.045.249.549.830.532.733.151.6 ±0.453.0 ±0.353.5±0.2表2：不平衡因子为100的长尾CIFAR-100 [6]和ImageNet-LT [31]的前1准确度。我们还分别报告了多镜头（我们的方法在不牺牲头部准确性的情况下，在尾部类上表现良好星号 * 表示使用作者发布的代码复制的结果。DRO-LT（我们的）iNaturalist表3：长尾iNaturalist上的前1准确度。与以前的方法相比，DRO-LT实现了稍好的结果。星号 * 表示我们复制的结果已学习ε69.7±0.1分类器与特征提取器：我们的方法侧重于提高学习表示在倒数第二层。其他方法专注于改进应用于该表示的分类器。因此，探索这两个任务之间的关系是有趣的（与[46，21]相比）。因此，我们比较了不同的特征提取器和分类器训练方法。对于表示学习，我们采用具有交叉熵损失（CE）的普通训练，数据的平衡重采样（RS）和我们的方法（DRO-LT）。对于分类器学习，我们冻结特征提取器的参数并以三种方式微调分类器：交叉熵损失（CE）、遵循[6]的方案的重采样（RS）和平衡分类器（LWS）[21]。表4提供了所有组合的前1准确度。它表明，我们的表示学习方法，使所有类型的分类器达到良好的性能，相比其他表示学习方法。这强烈表明，我们的方法学习：（1）头部和尾部类的良好特征表示，以及（2）以判别分类器可以轻松区分类别的方式将它们自适应鲁棒性：图2显示了通过在CIFAR 100-LT上训练ResNet-32而学习的每个类半径（ε）的不确定性值，其中不平衡比为50.与头部类相比，该模型学习了尾部类的略大的半径有关半径对精度影响的详细信息，请参见补充说明耐用性：我们的损失预计将改善确认-图3：应用于ResNet-32的卷积层0，10，20和30时，最近质心邻居分类器的准确性。上图：模型在平衡CIFAR-100上训练。当使用更高层时，验证精度会增加。底部：模型在CIFAR-100-LT上训练。我们报告头部类（蓝色），中等类（橙色）和尾部类（绿色）的平衡验证精度头类和尾类之间的准确性差距甚至在所有层都是相当大的。主要是在尾巴类。图4比较了使用交叉熵损失训练的模型（红色）和使用我们的方法训练的模型（蓝色）之间的训练误差使用鲁棒性损失大大减少了尾部类中的错误，而不会伤害头部类。特征空间可视化：为了获得更多的洞察力，我们研究了学习表示的t-SNE投影，并将香草交叉熵损失与我们提出的方法进行了比较。图5显示了我们学习的特征空间是CE61.7LDAM损失[6]68.0T-norm[21]CB LWS [21]69.569.5smDragon [35]69.1SSL *[23]66.49504分类器学习表示学习RS（cRT）LWS [21]CECERsDRO-LT（我们的）38.541.237.647.341.436.346.834.941.2表4：CIFAR 100-LT上不同表示学习方式和分类器学习方式的前1准确度。CE是指交叉熵，RS是指重采样，LWS是指根据[21]的平衡分类器。结果表明，简单的重采样方法取得了良好的效果时，学习的功能是好的头部和尾部。图4：比较使用vanilla交叉熵损失训练的模型和使用我们的DRO-LT训练的模型之间的训练和测试误差。与vanilla相比，DRO-LT中尾类的训练误差和测试误差之间的差距要小得多，而头类保持不变。更紧凑，头部和尾部类周围有边距。尾部类具有较大的余量，因为它们的特征的估计不太准确。潜在表征有多不平衡？上述分析集中于校正倒数第二层处的表示。但是，在低层的表示有多大的偏见呢直观地，低层表示输入的更多“物理”属性，而更高层捕获更多对应于语义类的属性。人们会期望早期的层会相当平衡。我们以下面的方式测试了ResNet- 32的几个层中的类不平衡。我们首先在不平衡的CIFAR 100-LT数据集上训练了ResNet-32。然后，对于每个潜在表示，我们计算每个类的质心，并使用它们来使用最近质心分类器对所有样本进行分类。图3显示了应用于ResNet-32的第0、10、20和30层时使用此分类器获得的准确度。当使用平衡数据（左）进行训练时，正如预期的那样，使用更高层时准确率会增长。令人惊讶的是，当使用不平衡数据（右）进行训练时，我们测试的每一层中头部和尾部类的准确率都有很大的差异虽然当使用较高层时准确度增长，但是保持头部和尾部类之间的准确度差异，即使在被认为表示类不可知特征的低层中也是如此。在附录H中，图5：使用交叉熵损失和DR 0- LT损失方法获得我们模型的特征嵌入对于头部（蓝色）和尾部（绿色和红色）类都更紧凑，并且更好地分离。每个类别的样本数量写在括号中。我们比较了用标准交叉熵损失训练的模型和用DRO-LT训练的模型之间的最近质心邻居分类器的准确性我们表明，DRO-LT缩小头部和尾部之间的准确性差距。9. 讨论本文研究了在长尾数据上训练的深度模型学习的特征表示我们发现，这样的模型受到极大的偏见，头部类在他们的特征提取器（骨干），这伤害了识别。这与以前的研究相反，表明不平衡的数据不会损害表示学习，并且重新平衡分类器层就足够了。为了学习一个平衡的表示，我们采取了鲁棒性的方法，并开发了一种新的损失的基础上分布鲁棒优化（DRO）理论。我们进一步推导出一个上限的损失，可以有效地最小化。我们展示了如何在训练过程中学习鲁棒性安全裕度，并且不需要额外的超参数调整。使用DRO-LT损失和标准分类器的组合进行训练在三个长尾基准上设置了新的最先进的结果：CIFAR100-LT、ImageNet-LT和iNaturalist。我们的方法不仅提高了性能的尾部类，但也保持了高精度的头部。这些结果表明，对不平衡数据的表示进行适当的训练可以对下游准确性产生很大影响我们相信我们的发现不仅有助于更深入地理解长尾识别任务，而且可以为未来的工作提供灵感。致谢：这项工作由以色列创新机构通过AVATAR财团资助;以色列科学基金会（ISF赠款737/2018）;以及向GC和Bar Ilan大学提供设备补助金（ISF补助金2332/18）。9505引用[1] Anurag Arnab、Ondrej Miksik和Philip HS Torr。论语义分割模型对对抗性攻击的鲁棒性。在CVPR，2018年。[2] S. Beery ， Y.Liu ， L.Morris ， J.Piavis ， A.Kapoor ，M.Meister和P.佩洛娜合成的例子提高了稀有类的泛化能力预印本arXiv：1904.05916，2019。[3] Dimitris Bertsimas，Jack Dunn，Colin Pawlowski，andYing Daisy Zhuo. 稳健分类 INFORMS Jour-nal onOptimization，2019.[4] Dimitris Bertsimas，Vishal Gupta和Nathan Kallus。数据驱动的鲁棒优化。数学规划，2018。[5] M. Buda，A.Maki和M.马祖洛夫斯基系统研究卷积神经网络中的类不平衡问题神经网络，2018。[6] K. 曹氏C.Wei，A.盖登Arechiga和T.MA. 使用标签分布感知的边际损失学习不平衡数据集NeurIPS，2019。[7] Nitesh V Chawla，Kevin W Bowyer，Lawrence O Hall，and W Philip Kegelmeyer. Smote：合成少数过采样技术。人工智能研究杂志，2002年。[8] Peng Chu，Xiao Bian，Shaopeng Liu，and Haibin Ling.长尾数据的特征空间扩充。 arXiv 预印本 arXiv ：2008.03673，2020。[9] T. Cover和J.托马斯信息论的基本原理。1991.[10] Y. Cui，M.贾氏T. Lin，Y. Song和S.贝隆吉基于有效样本数的类平衡损失。CVPR，2019年。[11] J. 邓，W。东河，巴西-地索赫尔湖Li，K.Li和F.李Imagenet：一个大规模的分层图像数据库。CVPR，2009年。[12] 克里斯·德拉蒙德C4。5、等级不平衡和成本敏感性：为什么欠采样胜过过采样。2003年。[13] Amir Globerson、Gal Chechik、Fernando CN Pereira和Naftali Tishby。共现数据的欧几里得嵌入。NIPS，2004年。[14] Joel Goh和Melvyn Sim。分布鲁棒优化及其易处理的逼近。运筹学，2010年。[15] Jacob Goldberger，Geoffrey E Hinton，Sam Roweis，andRuss R Salakhutdinov.邻域成分分析。神经信息处理系统进展，2004。[16] Gaurav Goswami 、 Nalini Ratha 、 Akshay Agarwal 、Richa Singh和Mayank Vatsa。基于深度学习的人脸识别对对抗性攻击的鲁棒性。在AAAI，2018。[17] H.汉，W。Wang和B.毛。边缘打击：一种新的不平衡数据集过采样学习方法。ICIC，2005年。[18] H. He和E. A. 加西亚从不平衡的数据中学习。IEEETransactions on Knowledge and Data Engineering ，2009。[19] G. 霍恩岛 Aodha ， Y.Song ，中国黑杨 A.Shepard ，H.Adam，P.Perona和S.贝隆吉自然主义者挑战2017数据集。ArXiv，2017年。[20] Xinting Hu，Yi Jiang，Kaihua Tang，Jingyuan Chen，Chunyan Miao，and Hanwang Zhang.学习如何分割尾巴。在CVPR，2020年。[21] B.康，S. Xie，M. Rohrbach，M. Yan，中国山核桃A.Gordo，J. Feng，and Y.卡兰提迪斯用于长尾识别的解耦表示和分类器。ICLR，2020年。[22] Salman Khan ， Munawar Hayat ， Syed Waqas Zamir ，Jianbing Shen，and Ling Shao.在不确定性中找到了正确的平衡。在CVPR，2019年。[23] Prannay Khosla ， Piotr Teterwak ， Chen Wang ， AaronSarna，Yonglong Tian，Phillip Isola，A. Maschinot，CeLiu ， and Dilip Krishnan. 监督对比学习。 Nuerips ，abs/2004.11362，2020.[24] Jaehyung Kim，Jongheon Jeong和Jinwoo Shin。M2m：通过大到小转换的不平衡分类CVPR，2020年。[25] 亚历克斯·克里热夫斯基从微小的图像中学习多层特征。2009年[26] Brian Kulis等人度量学习：一个调查。机器学习的基础和趋势，2012年。[27] T. Lin，P. 戈亚尔河格希克角He和P. 多尔拉。用于密集对象检测的FOC AL损失ICCV，2017年。[28] Anqi Liu和Brian D.齐巴特样本选择偏差下的鲁棒分类。在NIPS，2014。[29] Jiaun Liu，Yifan Sun，Chuchu Han，Zhaopeng Dou，and Wenhui Li.长尾数据的深度表示学习在CVPR，2020年。[30] Z. Liu，Z. Miao，X. Zhan，J. Wang，B. Gong和S. Yu.开放世界中的大规模长尾识别。在CVPR，2019年。[31] Ziwei Liu ， Zhongqi Miao ， Xiaohang Zhan ， JiayunWang，Boqing Gong，and Stella X Yu.开放世界中的大规模长尾在CVPR，2019年。[32] 欧阳万里、X.Wang，Cong Zhang，and X.杨用于具有长尾分布的对象检测的微调深度模型的因素。CVPR，2016年。[33] H. Rahimian 和 S. 梅罗特拉分布式鲁棒优化：审查 .ArXiv，2019。[34] S. Ryou，S. Jeong和P.佩洛娜锚钉丢失：基于预测

下载后可阅读完整内容，剩余1页未读，立即下载