基于高斯云Logit平差的长尾视觉识别

7 浏览量更新于2023-10-25 收藏 991KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

6929基于高斯云Logit平差的长尾视觉识别张耀明1*杨璐21香港浸会大学计算机科学系2厦门大学信息学院计算机科学与技术系{csmkli，ymc} @ comp.hkbu.edu.hk，luyang@xmu.edu.cn摘要长尾数据仍然是深度神经网络的一大挑战，尽管它们在平衡数据上取得了巨大成功。我们观察到，在具有交叉熵损失的长尾数据上进行vanilla训练使得实例丰富的头部类严重挤压尾部类的空间分布，这导致难以分类尾部类样本。此外，原始交叉熵损失只能短暂地传播梯度，因为softmax形式的梯度随着logit差异的增加而迅速接近零。这种现象称为softmax饱和。它不利于平衡数据的训练，但可以用来调整长尾数据中样本的有效性，从而解决长尾问题嵌入空间失真的问题。为此，本文提出了利用不同类别logit的高斯扰动进行变幅高斯云logit平差。我们定义的扰动的幅度为云的大小，并设置相对较大的云大小的尾部类。较大的云大小可以降低softmax饱和度，从而使尾类样本更活跃，并扩大嵌入空间。为了减轻分类器的偏差，我们提出了基于类的有效数目抽样策略和分类器再训练。在基准数据集上的大量实验验证了该方法的优越性能。源代码可在https://github.com/Keke921/GCLLoss上获得。1. 介绍深度神经网络（DNN）凭借大规模，高质量和注释的数据集，已被广泛用于各种视觉识别问题[6，7，21，28DNN通常需要人工平衡训练数据集，并且每个类都有足够的样本。不幸的是，从实际的角度来看，对象频率通常遵循幂律，并且通常是*张耀明为通讯作者。图1.扭曲嵌入空间的t-SNE可视化。（颜色为最佳视图。）使用ResNet-32在具有四类CIFAR-10-LT的子集我们随机选择了四个类，分别具有训练编号500、200、灰色区域表示不同类之间的模糊区域。它是一个长尾分布。对这些数据的朴素学习容易对占据大部分训练样本的头部类产生不期望的偏差[37]。由于尾类的训练样本很少，无法覆盖嵌入空间中的真实分布，因此它们的空间跨度被头类严重压缩。此外，大量的头类样本产生压倒性的不利梯度的尾部类。因此，分类器的学习偏向于头部类。因此，直接在长尾数据上训练带来了两个关键问题：1）扭曲的嵌入空间，2）有偏的分类器。在文献中，大多数最近提出的方法只集中于解决第二个问题，即，偏置分类器。例如，Menonet al. [17]和Honget al. [8]将后调整策略应用于训练的模型以校准类边界。然而，失真的嵌入不能用事后校准来调整，这不利于进一步提高嵌入的准确性。6930模型性能最近，已经提出了两阶段解耦方法[2，10，31，35，40]，以在第一阶段获得良好的嵌入，然后在第二阶段重新平衡分类器。这些方法通过交叉熵（CE）损失来获得表示，然而，这导致了严重不均匀的嵌入空间分布。我们实现了一个玩具实验来说明嵌入空间的失真，如图1所示，其中t-SNE [25]用于可视化CIFAR-10数据集的长尾子集的特征我们可以观察到，尾类占用的空间跨度比头类小得多。这是因为具有较少样本的尾类不能覆盖地面真实分布。此外，图1还示出了存在模糊区域（即，灰色区域）。Softmax饱和度[3]是这些模糊区域的因素之一这些模糊区域对尾类有严重的影响，但对头类的影响很小由于尾类样本聚集在类边界附近加剧了它们的空间压缩，而具有足够多样性的头类样本已经可以覆盖真实分布。Softmax饱和是指softmax [3，36]产生的不合时宜的早期gra-消失，它削弱了训练样本的有效性并阻碍了模型训练。但是，从另一个角度来看，看似有害的具体来说，我们用不同的幅度干扰不同类别的logit。我们将扰动logit命名为高斯云logit（GCL），扰动的幅度为云大小，因为我们将扰动设置为高斯分布。尾类的训练样本较少，因此尾类的训练因此，我们干扰具有较大相对云大小的尾类的logit，以降低softmax饱和度。以这种方式，尾类样本可以提供更多的梯度而不会过度拟合，从而间接影响它们的嵌入空间。此外，尾类logit的大云大小对应于类锚点方向上的特征上的大云大小。因此，尾类可以具有朝向类边界的大余量，以便减轻头类和尾类之间的严重不均匀分布相反，头部类被设置为较小的云大小，以便它们可以在训练期间自动过滤掉。最后，如图2所示，尾部类样本可以被推得更远离类边界，以便可以校准嵌入空间的失真。为了解决有偏见的分类器，我们重新平衡训练数据与类明智的采样策略。由于使用GCL进行训练使得不同类的有效性不同，因此它们的所谓现有的类间均衡抽样策略将导致过度-图2. GCL的概述。（颜色为最佳视图。）尾类logit被分配给比头类更大的样本云大小，这对应于尾类锚点方向上特征的较大相对云大小。通过这种方式，可以很好地校准嵌入空间的失真。为GCL提供针对性的尾班培训。因此，我们提出了基于类的有效数（CBEN）抽样策略，这是基于样本有效性和标签频率的分类器重新平衡。这种简单但有效的采样策略有助于减轻分类器对头部类的偏见，并进一步提高GCL的性能在多个常用的长尾识别基准数据集上的实验表明，所提出的GCL优于最近提出的对应部分。总之，我们工作的主要贡献是三重：• 我们提出了GCL调整损失函数，它利用softmax饱和度来平衡不同类别的样本提出的GCL可以实现均匀分布的嵌入。• 我们提出了一个简单但有效的基于类的有效数（CBEN）抽样策略重新平衡分类器，以避免重复训练的尾部类。这种采样策略可以进一步提高GCL的性能。• 在流行的长尾数据集上的大量实验表明，所提出的方法优于国家的最先进的同行。2. 相关作品长尾分类问题是机器学习中一个长期存在的研究问题。针对这一问题，人们提出了多种方法，本节简要介绍了最相关的三种方法，即损失修正法、logit调整法和解耦表示法。2.1. 损修正通过重新加权来修改损失函数是最自然的方法。逐样本重加权方法6931联系我们{}T{}∈ TΣzjp j，j ∈ =y.̸ODS [15，20]试图通过在不平衡学习的损失中引入精细增益系数来使模型对困难样本给予更多关注。例如，焦点损失[15]引入了可调聚焦参数，其与目标类别的预测概率负相关。该聚焦参数有助于模型训练聚焦于硬样本，并防止大量容易的负面影响。类重加权方法[4，9，11，23]将标准CE损失分配给与类频率成反比的类别特定参数例如，Tanet al. [23]提出的均衡损失，其利用权重项来随机忽略头部类样本的令人沮丧的梯度。这些方法可以在一定程度上缓解数据不平衡的问题然而，样本的分类难度与其对应的类大小没有直接关系此外，将较高权值分配给困难样本/尾类的另一副作用是过度关注有害样本（例如，噪声数据或错误标记的数据）[13]。2.2. Logit调整Logit调整为尾部类别分配相对较大的裕度最近，Menonet al. [17]提出了一种与最小化平衡误差一致的logit调整（LA）方法不同类别的LA中的Logit移位基于训练数据的标签频率。相应地，LADE [8]使用测试数据的标签分布将logit校准到测试集，使得测试集也可以是不平衡的。Tang等人[24]采用因果干预法去除“坏”的DisAlign [35]通过将模型预测校准到有利于平衡预测的类的参考分布来调整logit。这些方法通过事后移位很好地调整了模型logits，但没有考虑校准嵌入空间。另一种类型的方法[1，2]通过在训练期间为尾类留下较大的相对余量来解决长尾数据。例如，Cao等人提出的标签分布感知边缘（LDAM）损失。[2]利用Rademacher复杂性从理论上证明了裕度应与标签频率的四分之一幂成反比目标logit上的硬余量有助于使类内样本更加COM。显著提高了长尾预测精度，但DRW的理论解释尚不清楚。之后，Kanget al. [10]精确地指出表示和分类器的学习过程可以分解为两个独立的阶段。第一阶段对原始长尾数据进行表示学习，第二阶段对类均衡重采样数据进行分类器学习。许多作品[31，32，35，39]进一步完善了这一策略。例如，Zhanget al.[35]提出了一种自适应校准函数，用于在第二阶段将不同类别的预测logitsZhong等[39]提出了基于标签分布的软标签来处理类的不同程度的过度置信，并且可以改善第二阶段的分类器学习。Zhou等人提出了另一种替代方向.[40]，它将网络结构分为两个分支，分别专注于学习头部和尾部类的表示。该方法将特征混淆[27]纳入累积学习策略中，并且还实现了最先进的结果。继[40]，Wanget al.[30]将对比学习引入到该双边分支网络中，以进一步改进长尾分类性能。3. 建议方法：GCL我们提出的GCL的核心思想是利用软最大饱和度自动平衡头部和尾部类的有效样本。所提出的方法的理论动机和制定的损失函数如下。3.1. 动机图1显示了不同类别之间的模糊区域，特别是尾部类别，很大。这个模糊区域的一个重要因素是CE损耗中的softmax饱和度[3]。假设x，y 表示来自具有C个类中的总共N个样本的训练集的样本x，y，并且y1，. . .，C是地面实况标签。输入图像X的softmax损失函数可以写为：ezypact，但并没有真正扩大嵌入空间中的尾类跨度L（x）=− logpy，其中py=Cj=1 ezj 、（1）2.3.解耦表示最近的许多工作都集中在通过解耦表示和分类器来提高长尾视觉识别性能。最近，已经提出了LDAM-DRW[2]，它学习了其中z j表示类别j的预测logit。我们使用下标y（j =y）来表示目标类。也就是说，z y表示目标logit，z j（j y）是非目标logit。在反向传播中，zj上的梯度计算如下：第一阶段，并采用递延重新加权（DRW），在第二阶段微调决策边界。它L=.p j− 1， j= y（二）6932JJJJ∥ ∥ ≈ ∥ ∥·JN∈JJE∈RS1{···}∈JJJJ··j·在不失一般性的情况下，我们使用二进制分类作为示例。假设x来自类1，则z1上的梯度计算如下：云术语需要注意的是，基于预测对数的不同，云项对最终预测结果的影响程度也不同。当原始logitzj较大时，它对zcld上Lz11=1 +ez1−z2 .（三）J相反，当zj较小时，它将对zcld起关键作用。因此，我们需要将差异造成的影响标准化-当量（3）表示随着logit差的增加，目标类的梯度迅速接近零。Softmax只能稍微分离各种类，缺乏将每个类均匀分布在嵌入式空间中的能力。因此，类之间存在许多重叠区域。特别是在长尾分类的情况下，尾类特征不足以覆盖嵌入空间中的真实分布softmax饱和精确度导致的早期梯度消失，的预测logits，并保持一致性的影响，云项。受[5，28，29]的启发，我们基于余弦距离对云logits进行归一化。以这种方式，特征和类锚的范数可以被归一化为固定数。我们使用s1和s2来代表这两个数字。标准化的云logit称为云余弦logit，计算公式为：s1wT· s2fcldbates挤压他们的嵌入空间。一个直-Ward方法是引入硬保证金[2，5，36]。不过，硬边会使样品收缩到-zcldJ=jT.T.CldwTf、wT E向类锚和容易过拟合尾类，不能很好地均匀分布嵌入空间。幸运的是，softmax饱和度可以帮助过滤掉头类=s（j+δj）wT（六）样本，使尾类样本充分参与训练。这样，可以将尾部类推走其中s = s1s2是一个常数。在Eq的第一项中（6）、因为δ是一个很小的数。在第二项，特征的范数被归一化为s1。因此，zcld从头类中抽取，间接地扩大了它们的嵌入空间。可以简化为：JwTfδ3.2. 嵌入空间校准假设不同类别样本的特征满足高斯分布。我们可以得到一个被干扰的特征 fcld，其表示为：fcldf+δE，（4）其中fRD是从具有D的维度的嵌入层获得的特征。 E（u，n）是从高斯分布中采样的扰动，均值向量和协方差矩阵用u∈RD表示和ε∈RD×D。δ >0是参数，zclds（j+IE），（7）T.A.T.A.其中I j是与wT方向相同的单位向量。为了简化计算，我们使云余弦logit仍然满足高斯分布。因此，我们引入一个常数σ，并设置协方差矩阵=σI，其中ID×D是单位矩阵。然后，IjE是由高斯采样的噪声在类别j的锚向量的方向上的投影。我们用ε j表示它的大小. 因此，可以通过下式计算zcld用于调节扰动的幅度。此外，δ应该是一个很小的数字，因为大的干扰会误导模型。这个受干扰的特征是zcldJ=s（zj+δεj）、（8）惠s·（z<$j+δjε）分类器我们用W= w1，w2，，wCRD×C表示分类器的权矩阵，其中wj表示分类器中第j类的锚向量。然后，计算类别j的相应的受扰logitz_cld。其中zj=cosθj是余弦距离，θj是角度在f和wj之间。 δ j是取决于不同类别的logit云大小。为了实现上述两个目标3.1，即，第一章日期：cldjJ=wTfcld+bj=wTf+bj+wT（δE）（五）鼓励尾类样本更多地参与训练; 2）扩大尾类的嵌入空间，logit云的大小应与训练样本的数量负相关。对于最频繁的类，J J=z j+ δ（wTE）。由于zcld的范围随随机高斯扰动而扩大，我们称之为高斯云logit，δ（wTE）为训练样本的多样性是足够的，并且我们将其logit云大小设置为零，同时将较大的云大小用于尾类。这种大的尾类相对云大小的优点是三方面的：1 ）减少softmax饱和度，从而增加尾类的训练程度;z−J6933不B不←−BρjJBBΣΣJJ- LΣiρiJ2)在高斯云上随机抽取不同的值，避免了过拟合; 3）对尾类，扩大类边界的裕度，校正嵌入空间的畸变。因此，我们根据经验将类别j的云大小设置为：δj= lognmax− lognj，（9）其中nmax是最频繁类别的样本数。我们实验验证了这种云大小调整策略的有效性。4.5.2.目标类别和非目标类别之间的高斯云logit差算法1：高斯云logit输入：训练数据集;输出：预测标签;1随机初始化CNN网络的模型参数ω<$（（x，y）;ω）;对于iter=1toI0do，3样品一批样品从原来批次大小为b的长尾数据;4获得logit云大小：δjlognmaxlognj;5.计算损失的公式（12）：L（（x，y）;ω）=1<$（x，y）∈BLGCL（x，y）;yj=zcld−zcld.（十）6更新模型参数：ω=ω−α<$ωL（（x，y）;ω）.=zy−zj+ε（δy−δj）如果ε > 0，则尾类的yj将增加。然而，我们的目标是减少logit差异，以减轻软-7端8，iter=I0+1toI0+I1do9计算采样率：βj←b×δj−δmax +a;ρj<$1−βj;尾类的最大饱和度。此外，降低的logit对应于相对远离类的特征δmax−δminρj<$iρi;1−βnj主播如果相对遥远的特征可以被预测，正确的，越接近一个将能够分配正确的标签。因此，我们要求ε为负数。因此，云余弦logit可以写成以下形式：z<$cld=s·（z<$j−δj <$ε<$）。（11）将云余弦logit带入原始softmax，我们可以得到GCL的损失函数：z轴10抽样一批样品’与抽样概率ρj和批量b;11计算损失的方程式。（12）：L（（x，y）;ω）=1（x，y）∈B′LGCL（x，y）;12更新分类器参数ωcls（表示参数已冻结）：ω cls= ω clsαωcls（（x，y）; ω cls）.13端部1张图片eLGCL= −N日志我cld。（十二）zjJ抽样概率ρj计算人：从J类的样本是cal-3.3. 分级机再平衡在等式中导出的梯度。（2）证明目标类y的样本惩罚非目标类j的分类器权重wj，jyw.r.t.p j. 头类ρ =1 −βj。（十三）1−βnj由于所有数据的抽样概率之和需要为1，因此我们通过ρ j <$ρj对ρ j进行归一化-是的βj反映了比尾类有更多的训练实例因此，尾部类的分类器权重在训练期间比正信号接收因此，分类器将偏向头类，不同类别样本的有效性云大小越大的类样本参与训练越多因此，β j与云的大小δ j 正相关。我们将β j设为：δj−δmin并且尾类的预测logit会被严重抑制，导致分类精度βj=b×δMax -δmin+a、（14）的尾巴类。一种简单的方法是使用重新采样的数据来重新训练分类器。我们应用分类器再训练（cRT），这是通过康等人。[10]和Wanget al. [31 ]第30段。由于GCL损失使不同类别的样本参与训练的程度不同，因此不同类别样本的有效性不同。类平衡抽样将导致尾类的重复训练利用Cuiet al. [4]，我们提出了基于类的有效数（CBEN）采样，以避免尾部类的过度训练因此β j可以在区域[a，a + b]中，其中a和b是距离超参数。算法1中总结了所提出的方法的总体训练过程。4. 实验4.1. 数据集我们使用了五个基准测试：包括CIFAR-10-LT和CIFAR-100-LT的长尾CIFAR数据集，yJ6934×我×∈−3∈−−∈ −联系我们ImageNet-2012（ImageNet-LT），iNaturalist 2018 [26]和长尾Places-2 （ Places-LT）。原始版本的CIFAR-10/100 [14]，ImageNet-2012 [22]和Places-2 [41]都是平衡数据集。我们遵循曹等人。[2]和Cuiet al.[4]创建CIFAR-10/100的长尾版本，并使用 Liu 等人制作的ImageNet-2012和Places-2的长尾版本。[16 ]第10段。CIFAR-10/100-LT。最初的CIFAR-10和CIFAR-100分别由10个和100个类组成。它们都有60，000个大小为3232的彩色图像其中50，000张用于训练，其余图像用于验证。在[2，4]之后，我们使用指数函数n i=n oµ i对每个类的训练样本进行下采样，其中i是类索引（0索引），noi是原始CIFAR中的训练样本数，µ（0，1）。验证集保持不变。不平衡比γ定义为最频繁类和最不频繁类的样本量之比，即：γ=max（n i）/min（n i），i=0，1，.，C1. γ被设置在其公共值，即在我们的实验中，γ = 50，100和200。ImageNet-LT和Places-LT。ImageNet-2012和Places-2的平衡版本是用于分类和本地化的大规模真实世界数据集。我们跟随刘等人。的工作[16]通过从平衡版本中截断具有Pareto分布的子集来构建这两个数据集的长尾版本，其中幂值α=6。原始的平衡验证集保持不变.总体而言，ImageNet-LT拥有来自1，000个类别的115.8K训练图像，γ=1， 280/ 5。Places-LT包含来自365个类别的62.5K训练图像，γ=4， 980/ 5。iNaturalist 2018. iNaturalist的2018版本是一个用于分类和检测的真实世界细粒度数据集，它表现出极不平衡的分布。它包含来自8，142个类别的437.5K训练图像和24.4K验证图像。我们在实验中遵循训练集和验证集的官方划分。4.2. 实验环境第一阶段的预置参数为高斯分布参数（μ，σ2）和样本有效度β j的区域[a，b]。我们知道，[1，1]，因此最大特征云大小不能超过1。由于高斯分布的概率约为99。7%落在[µ 3 σ，µ+3 σ]中，我们设置µ=0和σ=1。我们进一步将ε钳制到[1，1]，以防止其振幅超过 1 。我们设置 β j[0. 999 ， 0 。9999]，即a=0。999，b=0。0009.此外，我们将δ i归一化，i=一二得双曲余切值.通过δ i<$δi/δ max，以确保δi的最大值不超过1。相似Zhong等[39]，在我们的实验中也采用了mixup [33]策略我们使用PyTorch [19]来实现所有的后台-骨头采用动量因子为0.9的SGD优化器和多步学习率算法。所有模型都是从头开始训练的，除了ResNet-152是在ImageNet-2012的原始平衡版本上预先训练的。对于第一阶段，我们选择ResNet-32作为骨干网络，并遵循Cao等人的设置。[2]对于CIFAR-10/100-LT。对于大规模数据集，即 ImageNet-LT ， iNaturalist 2018 和Places-LT，我们主要遵循Kang等人。[10]除了学习率表。对于第二阶段，即，重新平衡的分类器，我们遵循康等人。[10]所有数据集。4.3. 竞争方法为了验证所提出的方法的有效性，我们进行了大量的实验，与以前的方法进行比较，包括以下两组：基线方法。我们实现了具有交叉熵（CE）损失的香草训练作为我们的基线方法之一。许多视觉识别工作[12，18，34，38]已经显示了混淆的功效，因此也比较了与混淆配合的CE损失。最先进的方法。比较了最近提出的表示学习方法，即OLTR [16]和logit调整方法，即De-confound-TDE推理[24我们还与包括LDAM-DRW [2]和MisLAS [39]在内的两阶段方法进行了比较，这两种方法在上述长尾数据集上都达到了令人满意的分类精度。对于CIFAR-10/100-LT数据集，我们与BBN [40]和对比学习[30]进行了比较。对于大规模数据集，我们与最近提出的两阶段方法进行了比较，包括解耦[10]，logit调整[17]和DisAlign [35]。为了公平比较，我们还使用两阶段策略进行了比较实验，该策略将分类器重新训练（cRT）[10]添加到所有数据集上的4.4. 比较结果已经进行了比较研究，以显示拟议的GCL的功效。结果见表。1和Tab。二、我们使用测试集上的top-1准确度作为性能指标。对于那些尚未发布代码或相关超参数的论文的结果，我们直接引用原始论文的结果。4.4.1CIFAR-10/100-LT的实验结果CIFAR-10/100-LT数据集的结果总结见表1。1.一、我们可以观察到，我们提出的GCL在所有不平衡比率的情况下都以显着的幅度优于以前的方法。特别是对于最大的一个，即， γ=200时，该方法有明显的改进。我们得到79。03%，44。88%的top-1分类准确率6935表1. CIFAR-10/100-LT在前1准确度（%）方面的比较结果，其中最佳和次佳结果分别以下划线粗体和粗体* 表示结果引用自相应的参考文献。其他结果是通过重新实现官方代码获得的。数据集CIFAR-10CIFAR-100-LT骨干网ResNet-32不平衡比2001005020010050CE损失2018年《死亡+混乱》（CE loss+ mixup）[33]65.6865.8470.7072.9674.8179.4834.8435.8438.4340.0143.945.16LDAM-DRW [2]（2019）去混淆-TDE* [24]（2020）CE丢失+混淆+cRT [10]（2020）BBN[40]（2020）对比学习*[30]（2021）[39]第39话73.52-73.0673.47-77.3177.0380.6079.1579.8281.4082.0681.0383.6084.2181.1885.3685.1638.91-41.7337.21-42.3342.0444.1545.1242.5646.7247.5047.6250.3150.8647.0251.8752.62GCL79.0382.6885.4644.8848.7153.55表2.比较ImageNet-LT、iNaturalist 2018和Places-LT的前1名准确率（%），其中最好和第二好的结果分别以下划线粗体和粗体*表示结果引用自相应的参考文献。其他结果是通过重新实现官方代码获得的。数据集ImagNet-LTiNaturalist 2018地点-LT骨干网ResNet-50ResNet-50ResNet-152CE损失2018年《死亡+混乱》（CE loss+ mixup）[33]44.5145.6663.8065.7727.1329.51LDAM-DRW [2]*（2019）[第16话]第16话[10]第10集第10集CE丢失+混淆+cRT [10]（2020）Logit调整*[17]（2021）DisAlign*[35]（2021）[39]第39话48.80- 四十七块七51.6851.1152.9152.1168.00-69.4970.1666.3670.0671.57-35.937.6238.51- 三十九点半40.15GCL54.8872.0140.64对于γ=200的CIFAR-10-LT和CIFAR-100-LT，其优于次优方法，即， MisLAS显著差值为1。72%和2。55%。4.4.2大规模Lataset在三个大规模长尾数据集上的结果，ImageNet-LT、iNaturalist 2018和Place-LT在表1中报告。二、我们的方法在所有数据集上都优于现有技术。在ImageNet-LT上，我们的方法达到了54。88%的top-1准确率，在1.97%，MisLAS为2。77%，分别。在iNaturalist 2018上，所提出的方法达到72。01%的top- 1准确率，优于次优方法0. 百分之四十四。在Place-LT上，我们的方法达到了40。64%的top-1分类准确率，性能增益为0。比MisLAS高49%。虽然与iNaturalist 2018和Place-LT上的MisLAS相比，性能增益不如其他数据集高，但我们的方法不需要对不同数据集进行超参数搜索，因此相对容易实现。4.5. 模型验证与分析我们进行了一系列的消融研究，以进一步分析所提出的方法。4.5.1高斯云Logit为了获得额外的见解，我们利用嵌入的t-SNE由于基线和MisLAS的损失函数都是CE损失，并且MisLAS在我们迄今为止尝试的大多数情况下表现第二好，因此我们将CE损失嵌入可视化以进行比较。根据CIFAR-10-LT中的样本计算嵌入，γ=100。图3显示了训练集和测试集的可视化结果。从训练集的结果（图3a）中，我们可以看到通过不同类别的GCL获得的嵌入更加分散。因此，每个类的GCL嵌入更容易分离。图3b所示的测试集的结果证明了我们提出的方法的有效性。CE损失嵌入的模糊区域大于GCL em-1的模糊6936MaxMax-n表4. 消融实验表5. 在γ= 100的CIFAR-10-LT上进行不同再采样策略和不同再训练策略的消融实验。在CIFAR-10-LT上，γ= 100。Sam.RTAcc.（%） Sam.RT Acc.（%）(a) 在训练集上(b) 测试集图3.通过CIFAR- 10-LT的t-SNE嵌入的可视化，γ= 100，其中骨干网络是ResNet-32。（颜色为最佳视图。）表3.在CIFAR-10-LT上进行了不同云量调整策略（AS）的烧蚀试验，γ= 100。AS表达Acc.（%）cos.cos（nj/nmax·π/2）79.21平衡有效数（EN）[4]，以及我们提出的基于类的有效数（CBEN）。为了公平比较，所有采样器的再训练策略均为cRT。选项卡. 第四部分展示了CBEN的有效性。在分类器再训练策略的选择上，我们首先训练了没有任何分类器再训练技术的骨干。然后，我们固定了表示，并使用可学习的权重缩放（LWS）[10]，τ-归一化（τ-nor.）[10]，分别为cRT选项卡. 图5显示了CIFAR-10-LT在γ=100时的最高精度。我们可以观察到，即使没有任何分类器重新训练技术，我们的方法仍然可以击败大多数最先进的方法，包括两阶段方法。例如，我们的没有分类器重新训练的GCL将BBN抑制0。7%。此外，cRT在分类器再训练策略中表现最好，其将前1个准确度提高了1。百分之六十四从Tab。4和Tab。5，我们可以观察到IB+cRT降低了模型性能，砰。diff. （e：1/3） n1/3砰。diff. （e：1/4） n1/4三分之一J四分之一J80.8082.31mance，这表明用IB训练分类器可能导致分类器过拟合。log. diff.logn max− log n j82.68寝具良好的嵌入有助于提高模型性能。我们只使用简单的cRT对分类器进行了改进，没有使用其他复杂的技术，但分类精度可以得到很大的提高。4.5.2云大小调整策略我们探索了几种不同的云大小调整策略（AS），其中包括余弦形式（cos.），功率差（pow.差异）具有不同的指数（ e ： 1/3 和 e ： 1/4 ），以及对数差（log.diff.）。为了公平比较，分别选择了CBEN和cRT作为采样器和再训练策略。选项卡. 3显示结果。我们选择了日志。diff.根据Tab。3 .第三章。4.5.3分类器再平衡策略我们比较了不同的策略，数据重新采样和分类器重新训练，以更好地分析我们提出的方法。重采样策略（sam.）包括：物质平衡（IB）[10]，类平衡（CB）[10]，类-nIBCRT80.41-不含RT80.52CBCRT82.43CBENLWS82.25ENCRT82.47CBENτ-nor。82.1669375. 结论在本文中，我们发现softmax饱和度降低了样本有效性，这对头部和尾部类有不同的影响。这意味着，从另一个角度来看，softmax饱和度可以用来自动调整不同类别的训练样本有效性。其次，我们提出了GCL。尾类logit被设置为相对较大的云大小，以鼓励更多的尾类样本参与训练，并留下较大的余量，这有助于获得均匀分布的嵌入空间。不同类的有效性通过GCL而不同。在此基础上，提出了一种简单有效的CBEN采样策略，并结合cRT算法进行分类器平衡在各种基准数据集上的大量实验表明，与现有的最先进的方法相比，所提出的GCL具有优越的性能。鸣谢本工作得到国家自然科学基金/研究资助委员会JRS基金：N HKBU 214/21，浙江实验室ORP：2021 KB 0AB 03，GRF基金：12201321，国家自然科学基金资助基金编号：62002302及61672444，福建省国家科学基金编号：2020 J 01005，浸大基金编号：RC-FNRA-IG/18-19/SCI/03。6938引用[1] Dong Cao ， Xiangyu Zhu ， Xingyu Huang ， JianzhuGuo，and Zhen Lei.域平衡：长尾域上的人脸识别.在CVPR，2020年。3[2] Kaidi Cao ， Colin Wei ， Adrien Gaidon ， NikosArechiga，and Tengyu Ma.学习具有标签分布感知的边际损失的不平衡数据集。在NeurIPS，第1567- 1578页，2019年。二三四六七[3] Binghui Chen，Deng Xiao，and Junping Du. Noisy soft-max ： Improving the generalization ability of dcnn viapost-poning the early softmax saturation. 在CVPR，2017年。二、三[4] Yin Cui，Menglin Jia，Tsung-Yi Lin，Yang Song，andSerge Belongie.基于有效样本数的类平衡损耗。在CVPR中，第9268-9277页，2019年。二三五六八[5] 邓健康，贾国，薛念南，Stefanos Zafeiriou。Arcface：用于深度人脸识别的附加角度余量损失。在CVPR中，第4690-4699页，2019年。4[6] 何开明、吉欧吉亚·吉欧萨里、彼得·多尔和罗斯·吉尔希克.面具R-CNN。在ICCV，第2961-2969页，2017年。1[7] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。CVPR，第770-778页，2016年。1[8] Youngkyu Hong ， Seungju Han ， Kwanghee Choi ，Seokjun Seo，Beomsu Kim，and Buru Chang.用于长尾视觉识别的解开标签在CVPR中，第6626-6636页，2021年。第1、3条[9] Chen Huang，Yining Li，Chen Change Loy，and XiaoouTang.学习不平衡分类的深度表示。在CVPR，2016年。3[10] Bingyi Kang，Saining Xie，Marcus Rohrbach，ZhichengYan，Albert Gordo，Jiashi Feng，and Yannis Kalantidis.用于长尾识别的解耦表示和分类器。在ICLR，2020年。二、三、五、六、七、八[11] 萨尔曼 ·HKhan ， MunawarHayat ， MohammedBennamoun ， Ferdous Ahmed Sohel ， and RobertoTogneri.从不平衡数据中对深度特征表示进行成本敏感学习。IEEE TNNLS，29（8）：3573-3587，2018。3[12] Jang-Hyun Kim，Wonho Choo，Hosan Jeong，and HyunOh Song.联合混淆：具有超模块多样性的显著性引导的联合混淆。ICLR，2021年。6[13] Pang Wei Koh和Percy Liang。通过影响函数理解黑盒预测。在ICML，第70卷，第1885-1894页，2017年。3[14] Alex Krizhevsky，Geoffrey Hinton等人，从微小图像中学习多层特征。技术报告，2009年。6[15] 放大图片创作者：林宗毅， Priya Goyal ， Ross B.Girshick，Kaiming He，andPiotrDoll a'r. 密集目标检测的焦面损失。IEEETPAMI，42（2）：3183[16] Ziwei Liu ， Zhongqi Miao ， Xiaohang Zhan ， JiayunWang，Boqing Gong，and Stella X. Yu.开放世界中的大规模长尾识别。在CVPR中，第2537-2546页，2019年。六、七[17] Aditya Krishna Menon 、 Sadeep Jayasumana 、 Ankit SinghRawat、Himanshu Jain、Andreas Veit和Sanjiv Kumar。通过logit调整的长尾学习。ICLR，2021年。一、三、六、七6939[18] 庞天宇、徐坤、朱钧。混淆推理：更好地利用混淆来防御对抗性攻击。在ICLR，2020年。6[19] Adam Paszke，Sam Gross，Francisco Massa，AdamLerer ， James Bradbury ， Gregory Chanan ， TrevorKilleen ， Zeming Lin ， Natalia Gimelshein ， LucaAntiga，et al. Pytorch：An imperative style，high-performance deep learning library. 在 NeurIPS ，第8024-8035页，2019年。6[20] Mengye Ren ， Wenyuan Zeng ， BinYang ， andRaquel Urta-sun. 学习为强大的深度学习重新加权示例在ICML，第80卷，第4331-4340页，2018年。3[21] 任少卿、何开明、罗斯·格尔希克、孙健。更快的r-cnn：用区域建议网络实现实时目标检测。IEEETPAMI，39（6）：11371[22] Olga Russakovsky ， Jia Deng ， Hao Su ， JonathanKrause ，

下载后可阅读完整内容，剩余1页未读，立即下载