不平衡数据在深度学习中的问题及解决策略

132 浏览量更新于2023-10-13 收藏 1.99MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

92∼不平衡深度学习叶汉佳詹德川南京大学软件新技术国家重点实验室{yehj，zhandc}@ lamda.nju.edu.cn赵伟伦美国俄亥俄州立大学的osu.edu摘要已知用类不平衡数据训练的神经网络最近的一些作品将此归因于对小类的过度拟合。在本文中，我们提供了一个新的解释这个问题。我们发现神经网络倾向于(a) 训练集精度1008060402000 50 100 150 200训练时期(b) 分级比20017515012510075502500 50 100 150 200训练时期首先通过在早期训练时期将它们的大部分数据分类到主要类中为了纠正这些错误的预测，神经网络必须专注于推动次要类别数据的特征跨越主要类别和次要类别之间的我们认为，这种欠拟合阶段过度强调了主类和次类之间的竞争，阻碍了神经网络学习可以推广到测试数据的判别为了解决这个问题，我们提出了一种新的学习策略，以均衡跨类的训练进度。我们将主要类别数据的特征与小批量中其他数据的特征混合，故意削弱它们的特征，以防止神经网络首先拟合它们。我们表明，这种策略可以在很大程度上平衡训练精度和跨类的特征梯度，有效地减轻了欠拟合，然后过拟合问题的小类数据。在几个基准数据集上，我们的方法达到了最先进的精度，特别是对于具有挑战性的步骤不平衡的情况下。1. 介绍使用类不平衡数据训练的深度神经网络[21，25，37，55，56]，其中我们有一些“主要”类的充足数据由于许多现实世界的数据集本质上是类不平衡的，特别是那些用于识别大量对象的数据集[17，35，44，59，60]，这个问题最近在机器学习和计算机视觉社区中引起了越来越多的关注[5，9，30，58，52，66]。许多著作试图解释这个问题，图1.类神经网络的训练过程不平衡数据我们在长尾CIFAR-10数据集[36]上训练了ResNet-32 [21]。为了清楚起见，我们只显示了两个类。类-1和类-10分别具有5000和50个训练实例。（a）沿着时期的每个类的训练准确度。（b）分类比率：分类到一个类中的训练实例的数量除以真正属于那个类的训练实例的数量。小类需要更长的时间才能达到几乎100%的训练准确率，并且它们的大多数实例在早期被分类到主要类中。制定相应的解决方案。一些人将其归因于训练和测试数据分布之间的不匹配[5，7，20，32，29，64，57，26，49]1或对小类的拟合不足[40，41]。其他人将其归因于不良的特征学习[12，13，22，23，77，19，70，79]或过度拟合到mi- nor类[1，72，33]。也就是说，神经网络可以很容易地拟合有限数量的小类数据以获得100%的训练精度，但不能推广到测试数据。[72，33]的一个特别发现是训练数据和测试数据之间的特征偏差：对于小类，由学习的神经网络2生成的训练和测试特征彼此偏离，使得学习的判定边界不适用于测试数据。在本文中，我们提出了一个新的发现，连接这两条线的解释。我们分析了神经网络的训练过程（即，它的训练精度沿时期;见图1）。我们发现，虽然神经网络最终适合小类数据，但只有在训练即将收敛时才会发生事实上，在大多数早期训练过程中，神经网络将大部分小类训练数据分类为大类，1在测试过程中，通常假设类平衡的测试数据或计算平均每类精度。2这里的特征是指神经网络1级10级1级10级培训准确率（%）分类比例（%）93∇对次类数据进行显著欠拟合为了纠正这些错误的预测，神经网络必须专注于将次要类别数据的特征推过主要类别和次要类别之间的决策边界。我们认为，小类的初始欠拟合阶段夸大了主要类和次要类之间的竞争，迫使神经网络过度学习无法泛化的判别知识，最终导致特征偏差和过拟合。具体地，在使用损失函数训练特征提取器fθ（x）3时，我们发现分配给小类数据（即，fθ（x））的值远高于主类数据的值（将在第3中进行分析）。这一发现为特征偏差[33，72]提供了解释：夸大的梯度将最小类训练数据的特征推得比它们需要的地方更远，从而偏离了测试数据的特征。为了解决这个问题，我们提出了一种新的，简单而有效的学习策略，以减轻欠拟合，然后过拟合问题的小类数据。其核心思想是通过抑制神经网络首先拟合主类数据的倾向来均衡我们通过在每一个小批量中弱化主要类数据的特征来实现这一点具体地说，对于一个主类数据，我们将它的特征与另一个数据的特征混合（即，凸插值），使得所得到的特征将可能朝向或甚至跨越决策边界移动（因此被误分类）。我们证明，这种学习策略不仅可以有效地平衡跨类的训练精度，还可以平衡分配给特征的梯度。因此，所得到的神经网络遭受较小的特征偏差和过拟合的小类。我们在几个基准数据集上验证了我们的方法，包括CIFAR-10 [36]，CIFAR-100 [36]，TinyImageNet [38]和iNaturalist [60]。我们的方法在许多实验设置上实现了最先进的结果，特别是对于更具挑战性的步骤不平衡的情况。通过分析学习到的特征，我们还观察到更小的特征偏差，基本上解决了类不平衡深度学习中的一个基本问题。2. 相关工作有两种主流的班级不平衡学习方法：基于重新采样和基于成本敏感。基于重新采样的方法旨在改变训练数据分布以匹配平衡的测试数据[14，3，61]。示例方法是直接从训练数据中过采样次要类数据[3，4，53]或欠采样主要类数据[3，20，27，48]。一些方法合成大小额外的小类数据以扩大的多样性3fθ是神经网络在最后一个全连接层之前的部分a类[2，7，15，63]。其他人则将统计数据从大类到小类[18，34，45，74]。[8]提出Remix通过线性内插两个真实数据来合成新数据。与mixup [76]不同，Remix对输入数据和标签使用不同的混合系数（较小类别的较大标签系数），基本上为较小类别生成更多数据相反，我们只在输入数据中执行线性插值。我们的目标是平衡训练进度，而不是为小类增加更多数据。基于成本敏感的方法根据真实的类标签来调整不正确预测的成本。一种流行的方法是重新加权，在计算总损失时，根据每个实例的真实标签为其赋予通过每个类的训练实例数量的倒数（的平方根）来设置权重已被广泛使用[22，24，47，64，69]。[9]提出了一种通过计算训练实例的有效数量来设置权重的原则性方法。[6，28，51，54，68，26，49]探索了通过元学习或课程学习来动态调整权重[ 32 ]没有调整实例权重，而是开发了几个实例损失函数来反映类的不平衡;[5，72]迫使小类实例从决策边界具有较大的加法或乘法余量。[31]建议将实例或类别的不确定性纳入损失函数。最接近我们的是[42，57]，它引入了新的损失函数来平衡最后一个全连接层的梯度（即，线性分类器）。相比之下，我们的目标是平衡分配给数据实例的梯度，以更好地进行特征学习。还研究了使用类别不平衡数据的学习特征嵌入，特别是用于人脸识别[12，13，22，23，77]。[19，70，79]结合分类和嵌入学习的目标函数，以更好地利用次要类别数据。[65，10，78]提出了两阶段训练过程，以预训练具有不平衡数据的特征并微调具有平衡数据的分类器;[30]系统研究了不同阶段的训练策略。[80]引入了双边分支网络，以累积进行两阶段过渡。我们的工作还通过减少不利的特征偏差来改善特征[72，33]。经验观察。与我们类似，最近的几项工作都是建立在实证分析的基础上的。 [16 ， 30 ， 74 ， 33]发现，ConvNet的学习线性分类器倾向于对主要类别具有较大的规范，并建议在训练中强制跨类别使用类似的规范或在测试中校准规范。[70]发现大类实例和小类实例的特征规范是不同的，并提出通过强制相似规范来规范它。[72，33]都发现了训练和测试数据之间的特征偏差现象，特别是对于小类数据。我们的工作是不同的，提出了一个新的发现的网络训练的进展。观察到的较大梯度94n=1c=1◦nnnnc=1--◦··n=1c=11nnn=1θ，{wc}Cc=1C----小类数据提供了特征偏差的解释3. 方法在本节中，我们介绍我们的方法，我们称之为主要特征弱化（MFW）。我们从基本符号开始，然后是我们的算法。然后，我们提供了分析其属性，特别是它如何平衡算法1：主要特征弱化（MFW）：详见第3.2小节。输入：训练数据Dtr=（xn，yn）N;初始参数θ，wcC;权重函数s;β分布系数α;批量B模型：fθ=hθgθ而不收敛(1)（一）样本D={（x，y ）}B ，来自D(2)（二）置换D以得到D={（x，y ）}B3.1. 背景和注释1为2nnn=1我们将C类神经网络分类器表示为n∈{1，···，B}doλnBeta（α，α）λn←s（Ny（1））×λny∈{1，···，C}wc∈fθ（x），（1）其中X是输入，fθ（·）是特征提取器参数。z~ny~n端=（1−λn=y（1））×gθ（x（1））+λn×gθ （x（2））用θ表示，{wc}C是最终的全连通层优化公式2（w.r. t） θ和{wc}C线性分类。特征提取器fθ（·）可以是c=1~B进一步分解为hθgθ（）=hθ（gθ（）），其中g θ的输出是中间特征。使用D=（z~n，y~n）n= 1，其中等式2中的gθ（xn）由z~n代替。端给定训练集Dtr={（xn，yn）}N，其中每个类c有N 个c个实例，我们通常通过经验风险最小化（ERM）来训练分类器，使用损失函数（y，{wcfθ（x）}C ）的情况下，min（yn，{wc<$fθ（xn）}C ）c=1n其混合（即，凸插值）中间特征gθ（x1）与gθ（x2）以成为x1的新中间特征z~1。x 1的标签保持完整。因此，当y2y1时，等式4基本上将gθ（x1）移向其他类别的特征，从而削弱其特征。的=minθ，{w}CΣ（yn，{wchθ（gθ（xnCc=1）的情况。（二）然后将所得的（z~1，y~1）馈送到hθ中以获得特征1、计算损失。cc=1n这里，λ1∈[0，1]是从beta分布一种流行的损失函数是交叉熵损失，CCBeta（α，α）遵循[76]，然后乘以类相关权重s（Ny1）。权重函数s（·）（y，{wc fθ（x）}c=1）= − log p（y|x;θ，{wc}c=1）exp（wyfθ（x））随着类大小N y1单调增加，并且具有范围[0，0. 5]，这给了主要类更大的权重=−logΣ exp（wf.（x））（三）来弱化他们的特征即gθ（x1）将被削弱我们应用随机梯度下降（SGD）进行优化，从Dtr均匀采样的实例。对于类不平衡学习，每个类c将具有不同数量的训练实例Nc。3.2. 主要特征弱化如第1和图1所述，使用类不平衡数据训练的神经网络倾向于首先拟合主要为了解决这个问题，我们建议削弱每个小批量内的主要类的功能。设（x1，y1）和（x2，y2）为小批量中的两个训练数据实例，MFW对x1的中间特征gθ（x1）z~1=（1−λ1）×gθ（x1）+λ1×gθ（x2），y〜1=y1，⑷））}特征梯度和跨类的训练进度trCθ如果y1是主类，则λ1越大，则Y1越大然而，尽管如此，95·2s的范围和β分布的支持确保gθ（x1）仍然是新中间特征zθ1 的主要成分。算法1总结了MFW的训练过程我们讨论如何在等式12中设置s（）。在评估期间，给定训练或测试示例x，我们不执行MFW，而是通过hθ（gθ（x））提取其特征。3.3. 为什么MFW有助于不平衡的学习？我们现在分析为什么MFW可以减少小类特征的梯度，并平衡类间的训练进度。在不失一般性的情况下，让我们考虑一个二元分类问题，其中c=1作为主类，c=0作为次类。分类器可以可以简化为y=1[sign（w<$fθ（x））+1]。因此，数据实例（x，y）的交叉熵损失变为=−y× logσ（w-（1−y）×log（1−σ（wfθ（x），（5）964∇∉θ2θ1混合数据上的负真实数据上的负主要类别特点次要类别特征混合特征负梯度方向&幅度（a）（b）（c）（d）图2. MFW的插图。（a）中间特征z=gθ（x）;（b）对于一个ma jor类，混合的、弱化的特征z∈1;（c）梯度（d）梯度gθ（x2）和gθ（x1），其中x2和x1是z2和z1的原像。从（c）到（d），将<$z<$1<$$>分成两部分，其中一部分将影响<$gθ（x2）<$$>. WithMFW，gθ（x2）2（即，小类数据）。其中σ（w<$fθ1（x））=。1 +exp（−wfθ（x））这意味着gθ（x2）的范数与等式7相比将减少MFW。降低梯度。令（x1，y1=1）和（x2，y2=0）是大小为2的小批量中的两个数据实例，其中x1来自主类，x2来自次类。根据算法1，我们构造（z~1，y~1=y~1=1）和（z~2，y~2=y ~2=0）。z~1=（1−λ1）×gθ（x1）+λ1×gθ（x2），z~2=（1−λ2）×gθ（x2）+λ2×gθ（x1）。（六）让我们首先考虑hθ作为识别函数：即， fθ= gθ。当不应用MFW时（即，λ1=λ2=0），则有gθ（x1）g（x）当应用MFW时，我们有一个权重函数，它给c=1一个权重0。5且c=0a weight 0（因此主类具有更大的权重），我们有λ1[0，0. 5]，而λ2=0。这导致z~1z~2其中，通过根据等式6将梯度传递回gθ（x1）和gθ（x2）（注意，我们已经设置λ2=0），然后给出g（x）平衡训练进度。我们现在分析梯度w.r.t.线性分类器W.如果没有MFW，则w+（σ（wgθ（x2））−y2）× gθ（x2）。（10）对于MFW（但λ2= 0），梯度w.r.t. w成为w+（σ（w<$gθ（x2））−y2）×gθ（x2）（11）=（σ（wz~1）−y1）×（（1−λ）gθ（x1）+λgθ（x2））+ （σ（wgθ（x2））−y2）×gθ（x2）.通过比较等式10和等式11中的第一项，MFW降低了w拟合主类数据5的趋势。换句话说，除了削弱主要类别训练数据的特征之外，MFW还削弱了它们的分类器。两者基本上都可以平衡跨类的训练进度。进一步讨论。gθ（x2）的梯度约简由λ1控制，λ1受y1的类大小的影响。在理论上，minibatch中的大部分数据来自主要类。因此，很可能次要类别数据将与主要类别数据配对以使其梯度减小。对于其他hθ，且对于λ2=0。当hθ是线性映射V时，上述结论仍然成立：唯一的区别是V将被乘以梯度。当hθ为非线性函数时，分析需要雅可比矩阵。伊西斯详见补充资料。实际上我们发现即使有复数hθ（例如，几个剩余gθ（x2）+λ1×（σ（w<$z<$1）−y1）×w。（九）网络块[21]），MFW仍然有效地改善了类不平衡学习。我们注意到，当λ2= 0时，gθ（x1）特征空间=一大特色弱化1 −��˜��˜��=(1−�� )�� +��1 −��˜��97第二部分弱化gθ（x2）来自gθ（x2）使用将受λ2×（−σ（wgθ（x2））−y2）×w的影响。3.4. 均衡的训练进度和梯度gθ（x1）。图2给出了说明。现在假设x2没有被当前模型正确分类，即σ（w<$gθ（x2））>0. 5、我们有|（σ（wgθ（x2））− y2）|≥|（σ（wg（x））−y）+λ×（σ（wz~）−y）|≥0，我们将MFW应用于与图1相同的问题。我们使用ResNet-32 [21]在长尾上4可以通过代入y1=1和y2=0来说明这一点，并考虑（σ（w<$gθ（x2））−0）>0。5且λ1×（σ（wz~1）−1）∈[−0.5，0。0]。θ2 21 115第一项m向（1−λ）gθ（x1）+λgθ（x2）移动，而不是gθ（x1）。∇981级10级培训准确率（%）∥∇∥∥∇∥∥∇∥·≈≈∥∇∥(a) ERM(b) MFW第20期第60期第120期第160100 10080 8060 6040 4020 2000 50 100 150200训练时期00 50 100 150 200训练时期图3. 通过使用ERM（a）和MFW（b）学习来训练集合准确性。MFW使专业的培训进度（即1类）和次要（即，类-10）类更procrustean。(a)gθ（x）2（ERM）0.00300.00250.00200.00150.0010(b)gθ（x）2（MFW）0.00300.00250.00200.00150.0010图5. 使用ERM，训练（顶部）和测试（底部）沿训练过程的特征我们研究了一个四类不平衡任务，不同的类由不同的颜色/形状表示（类-0，类-1是主要的类）。在训练和测试之间存在明显的特征偏差（因此是过拟合）0.00050.00000 50 100 150200训练时期0.00050.00000 50 100 150200训练时期第20期第60期第120期第160图4. 通过学习ERM（a）和MFW（b），获得了梯度范数g θ（x）。我们在每个训练时期之后示出gθ（x），在每个类的样本上求平均。通过MFW，小类的梯度范数（即，Class-10）特征降低;跨类的梯度范数更加平衡。CIFAR-10数据集[36]。最主要的类c=1有5000个训练样本，而最次要的类c=10有50个样本。我们在ResNet的第二组卷积层之后应用MFW，使用S形权重函数s（）使得s（N1）0。5和s（N10）0（参见等式12）。更多详情请参见第5节图3显示了训练集精度：我们在每一个时期之后对此进行评估，而不改变特征。为了清楚起见，我们只包括两个极端的类。使用MFW，准确度在各个类别之间更加平衡。通过比较图4中每个类的样本的平均梯度范数gθ（x），我们可以看到，没有MFW（a）的学习在类之间具有更大的梯度范数差距，而使用MFW（b）的学习显著减少了差距。我们注意到，MFW在给定相同网络参数的情况下降低了梯度这并不意味着MFW在整个训练过程中具有比ERM更小的小类梯度范数。实际上，如将在第4节中看到的，MFW具有保持样本不太远离决策边界以防止过拟合的效果。这意味着在最终训练时期的训练损失将大于ERM，从而导致稍大的梯度。3.5. 与mixup和Remix的我们的等式4让人想起mixup [76]和[62]，但有一个显著的区别：我们没有混合标签。因此，我们的工作并不打算正则化神经网络，以支持训练示例之间的简单线性行为。最近的一项工作Remix [8]提出通过允许数据和标签的混合系数被解开来使用mixup进行不平衡学习。具体来说，更高图6. 训练（顶部）和测试（底部）使用MFW沿训练过程的特征分布。我们研究了一个四类不平衡任务，不同的类由不同的颜色/形状表示（类-0，类-1是主要的类）。减少了训练和测试之间的特征标签混合系数被分配给次要类别。因此，他们的方法可以被视为对次要类别的重新采样或数据扩充：用线性内插数据增加次要类别示例。相比之下，MFW不改变类别分布，因此不是重新采样方法。此外，对于小类数据，MFW倾向于执行无混合（无特征弱化）。因此，MFW很难成为小类的数据增强方法，而是一种有效且数学上合理的方法来平衡训练进度和跨类的梯度规范。4. 说明性实验为了展示MFW的效果，我们进行了另一个实验。我们从CIFAR-10 [36]中选择四个类，并使它们的训练数据为每个类5000，5000，50，50：即，两个大类和两个小类。每个类别的测试数据为1，000个样本。我们使用ResNet-32 [21]，但添加了一个额外的线性投影层来使最终的特征维度（即，就在最后一个完全连接层之前）为2以用于可视化。然后，我们使用MFW或ERM训练ResNet-32，使用交叉熵损失（cf.方程3），持续200个时期。初始学习率为0。1过1级10级1级10级1级10级培训准确率（%）梯度范数梯度范数99联系我们×c=1××C×基于余弦退火规则减小。对于MFW，我们在第二组卷积层之后混合中间特征。我们设置s=0。对于主要类别，s = 5，对于次要类别，s = 0，并且设置α=2。0为beta分布。换句话说，小类特征不会被削弱。在每个训练时期之后，我们绘制了训练和测试数据的最终二维特征和决策边界。由于页面限制，图5（对于ERM）和图6（对于MFW）中仅显示了20、60、120和60个历元的结果。我们还对图中的数据进行子采样，以使其不那么拥挤。从图5（对于ERM）中，我们看到在时期20处，次要类的训练数据（顶行）100%错误分类到主要类中。因此，它导致大的梯度，试图推动小类数据到自己的领土。在训练结束时，我们看到训练数据的几乎完美的分离。然而，对于测试数据（底行），情况并非如此。具体地，在时期160处，小类的大多数测试特征接近于大类和小类之间的边界，或者甚至被错误地分类，本质上是特征偏差的情况。现在让我们来看图6（针对MFW）。与图5有四个显著差异。首先，在时期60，大多数小类训练数据被正确分类（或接近分类）;主要类别特征保持靠近边界。因此，训练进度更加均衡。第二，通过MFW的梯度降低，减少了主类和次类之间的竞争即使在时期160，次要类训练数据也不会被过度推离边界。第三，训练数据和测试数据的特征分布更接近，指示更小的特征偏差。最后，与图5相比，更大部分的小类测试数据在最后被正确分类。因此，MFW的最终模型优于ERM（83.65% vs. 78.30%）。5. 实验5.1. 设置1000张训练图像，160个少镜头类作为小类，每个小类有5个训练实例。所有类都有50个测试实例。详见补充资料。Setup. 我们遵循[5，9]来创建不平衡的CIFAR-10，CIFAR-100和 Tiny-ImageNet，具有不同的不平衡比ρ=Nmax/Nmin10，100，200。研究了两类不平衡数据，即，长尾（LT）不平衡，其中每个类的训练实例的数量指数地衰减，以及步长不平衡，其中类的第二半的大小与固定比率w.r. t成比例上半场是头班。测试集和确认集保持不变并保持平衡。我们重新索引类，以便较小的索引具有更多的训练实例。我们遵循现有的作品[5，9，80，39]使用ResNet[21] ： ResNet-32 用于 CIFAR ， ResNet-18 用于 Tiny-ImageNet，ResNet-12用于Tiered-ImageNet，ResNet-50用于 iNaturalist 。我们将 [5 ， 9] 中的代码改编为CIFAR，将[39]中的代码改编为Tiered-ImageNet，将[80]中的代码改编为iNaturalist。详见补充材料。在[9 ，5，80]之后，报告测试集准确度（Tiny-ImageNet和iNaturalist上的验证集准确度）以进行评估。详见补充资料。5.2. MFW的实施我们应用等式3中的交叉熵损失来用 MFW 训练ResNet。将残差块和第一残差块之前的卷积层各自视为一组卷积层，除非另有说明，否则我们在第二组卷积之后应用MFW。我们设计算法1中的权重函数s如下。首先，权重应该从小类到大类单调增加。其次，major和minor类的权重都在0左右。5（更弱）和0。0（无弱化）。为了考虑每个类的实例数Nc，我们定义s如下s（N）= 0。5×σ（Nc−µ），（12）β·γ数据集。我们在五个数据集上验证MFW。 CIFAR-10和CIFAR-100[36]用于图像分类32 32张图片。有5万名培训人员和1万名分别从10个和100个类测试图像小小的-ImageNet[38]有200个类。每个班有500人培训其中σ（a）=1是sigmoid函数，其为1+exp（−a）广泛用于将实值压缩到范围[0，1]中。µ和γ是以下的几何平均值和标准差{Nc}C，其相对于所有和64 × 64像素的50个验证图像。iNaturalist[60]（2018版）是一个自然的大规模长尾数据集，包含来自8，142个类的437，513个训练图像，每个类有3个验证图像。图像分辨率为224 224。Tiered-ImageNet[50]是ImageNet [11]的一个子集，广泛应用于少数学习。图像分辨率为84 84。我们使用Tiered-ImageNet来合成一个大规模的步长不平衡数据集。我们将351个多镜头类视为主要类，每个类约班级6. 我们使用几何平均值，因为它是不太敏感的极大的Nc比算术平均值，使权重稳定在长尾和步骤设置。比例β控制权重的柔度。我们设置β=2。对于长尾情况，β=0。01对于步骤情况。我们在训练数据的一个小的保留集上调整beta分布系数α详情载于补充资料。6减去平均值并除以标准差是标准化函数输入的常见做法（例如，z分数）。100联系我们CIFAR-10CIFAR-100表1.不平衡CIFAR-10/-100上的测试集准确度（%）。每个设置（列）的最佳结果以粗体显示不平衡比ρ长尾200 100 10200步骤10010长尾200 100 10200步骤10010ERM [9]65.6 71.1 87.2 60.0 65.3 85.135.9 40.1 56.9 38.7 39.9 54.6Focal [43]65.3 70.4 86.8-63.9 83.635.6 38.7 55.8-38.6 53.5CB [9]68.9 74.6 87.5-61.9 84.636.2 39.6 58.0-33.8 53.1LDAM-DRW [5]74.6 77.0 88.2 73.6 76.9 87.839.5 42.0 58.7 42.4 45.4 59.5τ-范数[30]70.3 75.1 87.8 68.8 73.0 87.339.3 43.6 57.4 43.2 45.2 57.7CDT [72]74.7 79.4 89.4 70.3 76.5 88.840.5 44.3 58.9 40.0 47.0 59.6BBN [80]-79.8 88.3---42.6 59.1---M2M [34]-79.1 87.5---43.5 57.6---元权重[54]67.2 73.6 87.6--36.6 41.6 58.9---[26]第二十六话70.7 76.4 88.9---39.3 43.4 59.6---[8]第十八话-79.8 89.0-77.9 88.3-46.8 61.2-46.8 60.4去混淆-TDE [58]-80.6 88.5----44.1 59.6---MFW73.2 78.5 89.8 75.4 80.1 89.640.7 44.7 60.1 42.5 46.9 61.2MFW w/DRW75.0 79.8 89.7 78.8 81.6 89.941.4 46.0 59.1 43.0 48.4 61.6表2.不平衡Tiny-ImageNet上的前1/-5验证集准确率（%）每个设置（列）的最佳结果以粗体显示长尾步骤不平衡比ρ前100100前5名前1010前5名前100100前5名前1010前5名ERM [5]33.857.449.773.336.255.949.172.9CB [10]27.347.448.471.125.140.945.566.8LDAM-DRW [5]37.560.952.876.239.461.952.676.7τ-范数[30]36.459.849.672.840.061.951.775.2CDT [72]37.961.452.775.639.661.553.376.2MFW35.459.251.073.440.462.952.976.3MFW w/DRW36.259.852.874.540.061.254.376.7受[5，8]的启发，我们还在训练80%的epoch后应用延迟重新加权（DRW）。DRW在损失函数上应用特定于实例的权重，这强调了对小类的优化。我们遵循与[5]相同的加权策略。5.3. 结果CIFAR。我们广泛地研究了CIFAR-10和CIFAR- 100在长尾和阶跃情况下的不平衡比ρ10，100，200。结果示于表1中。MFW（无DRW）与比较方法相当或更好通过DRW，MFW在大多数设置中实现了最佳性能。值得注意的是，MFW在大多数其他方法难以解决的步进不平衡情况下获得了特别高的精度。与在主要类和次要类之间存在类大小的平滑过渡的长尾设置相反，步长设置仅具有两个极端（即，大类或小类），其大小以比率ρ不同。MFW的优越性在于它的内部工作机制，旨在解决大、小班之间的过度竞争。表3. Step Tiered-ImageNet上的前1/-5测试准确度（%）。Top1Top5ERM41.758.1LDAM [5]42.363.1CDT [72]43.864.2cRT [30]44.466.5τ-范数[30]43.062.4LWS [30]42.658.8混音[8]43.462.6MFW46.167.5MFW w/DRW46.467.8这种竞争在步骤情况下比在长尾情况下更强，这就是为什么MFW优于。Tiny-ImageNet.（表2）我们的MFW再次在具有挑战性的步骤设置中表现得特别好。步骤Tiered-ImageNet。（表3）分层ImageNet是大规模阶跃不平衡数据集（511个类），其不平衡比率ρ >200。我们重新实施所有基线。我们的MFW优于所有的方法，这表明强大的能力MFW的步骤不平衡的情况下。自然主义者。（表4）iNaturalist有8，142个类和101∼1Σ（c）（c）0.80.70.6长尾（ERM）0.80.70.6长尾（MFW）0.80.70.6步骤（ERM）0.80.70.6步骤（MFW）0.50.50.50.50.40.40.40.40.30.30.30.30.20.20.20.20.10.10.10.10.00 50 100 150200训练时期0.00 50 100 150200训练时期0.00 50 100 150200训练时期0.00 50 100 150200训练时期图7. 在训练过程中，每个类的训练和测试数据之间的特征偏差。我们在CIFAR-10上进行实验，使用长尾和步长设置（ρ=100）。为了清楚起见，我们只显示了最主要的类（c=1，具有5000个训练样本）和次要的类（c=10，具有50个训练样本）。偏离的表述见第5.4小节。随着训练时期的数量增加，偏差增加，而MFW可以实现小得多的偏差。表4. iNaturalist上的前1/-5验证准确度（%）。我们通过以“A/B”的形式训练90/180个时期来呈现结果Top1Top5ERM58.8/64.380.1/84.5CB [9]61.5//下一页 - -一种80.9//下一页 - -一种LDAM [5]64.6/66.183.5//下一页 - -一种LDAM-DRW [5]68.0/68.685.2/85.3CDT [72]63.7/69.582.5/86.8BBN [80]66.3/69.6-cRT [30]65.2/67.6-τ-范数[30]65.6/69.3-[8]第十八话- /70.5- /87.3MFW65.5/67.385.3/85.8MFW w/DRW66.7/69.685.5/86.1它们中的许多具有稀少的实例，使得其特别具有挑战性。我们的MFW几乎优于所有的，但混音方法（更糟的是1%）。由于大规模训练对批量大小很敏感，Remix使用256的批量大小，而我们使用128（由于计算约束）可能会导致差异。5.4. 消融研究我们对CIFAR-10进行了进一步的分析（ρ=100）。MFW能减少特征偏差吗？我们遵循[72]来计算特征偏差。我们提取2归一化特征，计算每个类c的训练和测试数据中的特征均值，并计算它们的欧氏距离dis（c）=R mean（S（{f（x ）}））− mean（{f（x）}）表5. CIFAR-10/-100上的测试准确度（%）。我们在每个卷积组之后应用MFW并与[76，62]进行比较。CIFAR-10CIFAR-100不平衡比ρ=100长尾步长尾步ERM71.1 65.840.1 39.9MFW（输入层）76.368.141.243.1MFW（第1组）77.372.442.344.3MFW（第二组）78.580.144.746.9MFW（第三组）77.169.843.146.3MFW（第四组）75.067.440.342.2我们声称特征偏差可能是由次要类上的放大的特征梯度引起的。MFW在哪一层？（表5）我们在不同组的卷积之后应用MFW。中间层产生最高的精度。所有这些都优于ERM。标签混合。我们将MFW与mixup [76]和man-ifold mixup[62]进行比较。详情载于补充资料。6. 结论类不平衡深度学习是计算机视觉中要解决的基本问题和实际问题。在本文中，我们采取了一个新的角度来解决这个问题，这是研究如何不平衡的数据影响神经网络的训练也就是说，大类和小类如何沿着时代进行拟合。我们发现了一个巨大的差异：网络倾向于先拟合主要类，然后拟合次要类，导致次要类数据的梯度较大，最终可能导致特征偏差Rr=1Kθ列θ测试2和过度拟合我们提出了一个相当简单但数学上合理的方法MFW有效地平衡列车-SK是在计算平均值之前对每个类的训练样本进行的（K个示例的）子采样，这是为了减轻由不同类大小引起的估计方差。我们按照[72]执行R=1，000次抽样循环，并将K设置为小类大小。差异越大（c）特征偏差越大，意味着过拟合越严重（因此准确度越差）。图7显示了结果。MFW显著降低了特征偏差，证明了提高学习进度，降低辅修班梯度。MFW在多个基准数据集上表现良好，特别是在具有挑战性的步骤不平衡的情况下。谢谢。本研究得到国家重点研发计划（2020AAA0109401）、国家自然科学基金（61773198、61921006 、 62006112 ）、江苏省国家自然科学基金（BK20200313）的资助。我们感谢俄亥俄州超级计算机中心和AWS Cloud Credits for Research的慷慨支持1级10级1级10级1级10级特征偏差1级10级特征偏差特征偏差特征偏差102引用[1] Mustakim Al Helal ， Mohammad Salman Haydar ， andSeraj Al Mahmud Mostafa.使用几何平均和交叉验证对不平衡数据的算法效率进行度量。在2016年的国际计算智能研讨会上。1[2] 匿名的通过对抗性微小度过采样的不平衡分类。OpenReview.net，2019年。2[3] Mateusz Buda、Atsuto Maki和Maciej A Mazurowski。对卷积神经网络中类不平衡问题的系统研究。神经网络，106：249-259，2018。一、二[4] 乔纳森·伯德和扎卡里·利普顿。深度学习中重要性加权的效果是什么？在ICML，2019。2[5] Kaidi Cao ， Colin Wei ， Adrien Gaidon ， NikosArechiga，and Tengyu Ma.学习具有标签分布感知的边际损失的不平衡数据集。NeurIPS，2019。一、二、六、七、八、十四、十六、十七[6] Haw-Shiuan Chang ， Erik Learned-Miller ， and AndrewMc-Callum. 主动偏置：通过强调高方差样本来训练更准确的神经在NIPS，2017年。2[7] Nitesh V Chawla，Kevin W Bowyer，Lawrence O Hall，and W Philip Kegelmeyer. Smote：合成少数过采样技术。JAIR，16：321-357，2002. 一、二[8] 周新平，张世杰，潘家玉，魏伟，大程娟。Remix：重新平衡混音。2020. 二五七八十五十七[9] Yin Cui，Menglin Jia，Tsung-Yi Lin，Yang Song，andSerge Belongie. 基于有效样本数的类平衡损耗。在CVPR，2019年。一、二、六

下载后可阅读完整内容，剩余1页未读，立即下载