不平衡数据学习的平衡损失方法

65 浏览量更新于2023-10-14 收藏 799KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

735不平衡视觉分类的影响平衡损失朴钟仁林英汉全珍崔英ASRI省首尔国立大学电气与计算机工程系{seulki.park，ljin0429，yh1992，jychoi} @ snu.ac.kr摘要在本文中，我们提出了一种平衡训练方法来解决不平衡数据学习中的问题。为此，我们得到了一个新的损失，用于平衡训练阶段，减轻样本的影响，导致过拟合的决策边界。所提出的损失有效地提高了任何类型的不平衡学习方法的性能。在多个基准数据集的实验中，我们证明了我们的方法的有效性，并reveal，所提出的损失优于国家的最先进的成本敏感的损失方法。此外，由于我们的损失不限于特定的任务，模型或训练方法，因此它可以很容易地与其他最近的重新采样，元学习和成本敏感的学习方法结合使用，以解决类不平衡问题。我们的代码可在https://github.com/pseulki/IB-Loss 上获得。1. 介绍尽管目前深度神经网络（DNN）取得了显着的成功，但计算机视觉的许多领域都存在高度不平衡的数据集。许多真实世界的数据表现出偏态分布[23，16，11，24，10]，其中每个类别的样本数量差异很大。类之间的这种不平衡可能是有问题的，因为在这种不平衡的数据上训练的模型倾向于过拟合占主导地位的（大多数）类[18，14，4]。也就是说，虽然整体表现似乎是令人满意的，该模型表现不佳的少数民族类。为了克服类的不平衡问题，最近进行了广泛的研究，以提高泛化性能，通过减少overwhelming的影响，占主导地位的类模型。对不平衡学习的研究可以分为三种途径：数据级方法、成本敏感的重新加权方法和元学习方法。数据级方法旨在通过重新采样直接平衡训练数据分布（即，欠采样或过采样）[6，32]或通过生成合成样本[28]。同时，代价敏感的重新加权方法旨在通过设计新的损失函数来重新加权样本考虑到它们的重要性[33，17，22]。最后，Meta学习方法经由元学习增强了数据级和/或成本敏感的重新加权方法的性能[31，25，30]。最新的数据级方法需要沉重的计算负担。而且，欠采样会丢失一些有价值的信息，过采样或数据生成会导致在某些重复样本上过拟合元学习方法需要额外的无偏数据[31]或元采样器[30]，这在实践中是计算昂贵因此，我们的工作集中在成本敏感的重新加权的方法来设计一个新的损失函数，是简单的，但有效的。成本敏感的重新加权方法的目的是分配类惩罚转移的方式，减少数据不平衡引起的偏见的为此，最常用的方法是与每个类别中的训练样本数量相反地重新加权样本，以便为少数类别分配更多权重[17，33，8]。这些方法只关注全局级的类分布，并将相同的固定权重分配给属于同一类的所有样本。然而，并非数据集中的所有样本在确定模型参数方面都起着相同的作用[7]。也就是说，一些样本对形成决策边界具有更大的影响。因此，每个样本需要根据其对模型的影响进行不同的重新加权。最近，已经进行了许多研究，其中每个样本都被认为是设计样本损失函数[9，22，27]。具体而言，这些方法降低了分类良好的样本的权重，并将更多的权重分配给硬样本，这会产生高错误。当DNN的高容量足以最终记住整个训练数据时，这种重新加权可能导致完整的训练[34，3]。这意味着DNN被过拟合到硬样本，硬样本位于多数类和少数类之间的重叠区域。在不平衡数据中，大多数硬样本是多数样本，其强制决策边界是复杂的并且移位到次要区域。为了解决上述问题，本文提出了一种损失敏感的方法来降低sam的权重736这些问题导致用高度不平衡的数据训练的DNN的过拟合为此，我们推导出一个公式，measures- sures多少每个样本的影响复杂的和有偏见的决策边界。为了推导公式，我们利用了影响函数[7]，该函数在稳健统计中得到了广泛应用。使用推导出的公式，我们设计了一种新的损失函数，称为影响平衡（IB）的损失，自适应分配不同的权重样本，根据他们对决策边界的影响。具体来说，我们将损失按比例重新加权到每个样本影响的倒数。我们的方法分为两个阶段：标准培训和微调影响力平衡。在微调阶段期间，所提出的IB损失减轻了导致决策边界的过拟合的样本的影响通过在多个基准数据集上的大量实验，我们证明了我们的方法的有效性，并表明所提出的方法优于最先进的成本敏感的重新加权方法。此外，由于我们的IB损失不限于特定的任务，模型或训练方法，它可以很容易地与其他最近的数据级算法和混合方法相结合，用于类不平衡问题。本文的主要贡献如下：• 我们发现，现有的基于损失的损失方法可以导致DNN的决策边界最终过拟合到大多数类。• 我们设计了一种新的影响平衡损失函数，以更有效地重新加权样本，以这种方式，可以allevi- ated的决策边界的过拟合。• 我们证明，简单地取代我们提出的损失标准的交叉熵损失显着提高了高度不平衡的数据的泛化性能。2. 相关工作2.1. 班级不平衡学习为了解决不平衡的学习问题，已经进行了许多研究。该研究可分为三种方法：数据级、成本敏感的重新加权和元学习方法。数据级方法。数据级方法旨在通过重新采样直接平衡训练数据分布（例如，对多数类欠采样或对少数类过采样）[6，32]或生成合成样本[28]。然而，欠采样会丢失一些有价值的信息，并且当类之间的数据不平衡显著时，欠采样不适用。虽然过采样或数据生成可能是有效的，但这些方法容易过拟合某些重复样本，并且通常需要更长的训练时间。重新加权方法。成本敏感的重新加权方法为样本分配不同的权重以调整它们的重要性。常用的方法包括与类的数量[17，33]或类频率的平方根[26]成反比地重新加权样本。而不是启发式地使用类的数量，崔等人。[8]建议使用有效样本数。虽然这些方法可以成功地将更多权重分配给少数样本，但是它们将相同的权重分配给属于同一类的所有样本，而不管每个重要性如何。为了根据每个样本在模型中的重要性为其分配不同的权重，提出了许多方法，用于根据其困难或损失重新加权样本[22，9，27]。也就是说，这些方法降低分类良好的样本的权重，并将更多的权重分配给硬样本。这些重新加权方法可能会导致DNN过度拟合到困难的例子，因为DNN的高容量足以在最后记住训练数据[3]。在类不平衡数据中，硬示例可能是从大多数类中生成的。因此，少数样本被分配较小的权重。因此，我们需要一种更精细的重新加权样本的方法，该方法可以将过拟合消除到大多数样本。同时，Cao etal.[5]提出了标签分布感知的边缘损失，以通过正则化边缘来解决对少数类的过拟合。元学习方法。最近，基于元学习的方法[31，25，30]已经出现，以提高这两种方法的性能。Shu等人。[31]提出了一种元学习过程来学习加权函数，而Liu等人。[25]提出了一种结合集成学习和元学习优点的重采样方法。此外，Ren et al.[30]提出了元采样器和平衡softmax，其适应训练数据和测试数据之间的分布的移位。虽然这些方法可以获得令人满意的性能，但这些方法在实践中有些难以实现。例如，元权重网[31]需要额外的无偏数据用于学习，并且[30]中的元采样器在实践中计算昂贵。另一方面，我们提出的损失易于实现，因为它不需要超参数、专门设计的架构或用于数据重新采样的额外学习。因此，它很容易与其他方法配合使用。2.2. 影响函数影响函数被提出来寻找样本对模型的影响实例，这在稳健统计学中已经研究了几十年[13，7]。最近，已经尝试在深度神经网络中使用影响函数[1，19]。例如，Koh和Liang [19]采用影响函数来理解DNN。虽然影响函数主要用作737····×个×个≈Wn×个我我我我ni=1Σcision边界比做蓝色×样本，因为决定(a) 原始决策边界。（b）拟议方法。图1. 说明我们方法的关键概念。在二元分类中，红色和蓝色标记分别属于少数和多数类。(a)黑色边界线表示在不平衡数据集。黑×样品对脱-如图1（b）所示，通过对高影响样本进行下加权，可以经由微调来平滑决策边界。为此，我们通过使用影响函数[7]推导出影响平衡（IB）损失，该函数测量训练样本3.2.影响函数影响函数[7]允许我们在移除样本时估计模型参数的变化，而无需实际移除数据并重新训练模型。令f（x，w）表示由w参数化的模型，具有n个训练数据（xi，yi），（xn，yn），其中xi是第i个训练样本，yi是其标签。给定经验风险R（w）=1nL（yi，f（xi，w）），最优参数初始训练后的ter定义为w*=de=fargminR（w）.边界将在没有黑色样本的情况下显著改变。(b)我们提出的方法旨在降低对过拟合决策边界（虚线）有很大影响的样本（浅蓝色样本）的权重，以创建更平滑的决策边界（红线）。训练的模型，我们的工作首先试图将其应用到一个在微调阶段，为了解决不平衡问题，我们与样本影响的倒数成比例地如果训练数据在点（x，y）处的分布被稍微修改，则该点的影响可以通过参数变化来近似导出了去除训练点（x，y）时的新参数学习计划，其中我们设计的影响平衡为w x，ε=de=f阿尔明WR（w）+ εL（y，f（x，w））. 然后在在训练期间利用影响函数的损失。3. 方法为了解决不平衡数据学习问题，我们的想法是通过样本对deci的影响来重新加权样本假设▽wR（w）0对于w在w*，我们可以利用[1，19]中的影响函数在微调阶段重新加权样本损失影响函数由下式给出：I（x;w）=−H−1▽wL（y，f（x，w）），（1）一个更广义的决策边界-阿里。首先，我们提出了我们所提出的方法其中H=de=f1Σ ni=1 ▽2L（yi，f（xi，w））是海森矩阵第3.1节。作为背景，我们简要回顾了3.2节中的影响函数，然后在3.3、3.4和3.5节中推导出IB损失。最后，在第3.6节中给出了训练方案。3.1. 建议方法在本节中，我们解释了如何根据样本的影响重新加权样本，可以帮助形成一个很好的广义决策边界上众所周知，DNN的高容量足以最终记住整个训练数据[34，3]。这意味着DNN可以过拟合到位于多数类和少数类之间的重叠区域处的样本，如图1（a）所示。在不平衡数据中，许多多数样本侵入稀疏的少数样本之间，并在重叠区域中成为主导，从而迫使决策边界变得复杂并向少数区域移动。此外，黑色图1（a）中的样本对形成决策边界具有更强的影响，因为它们支持决策边界，当样本被移除时，决策边界基本上改变。因此，可以说，具有高影响力的主导样本可能创建复杂且有偏的决策边界。作为插图-并且是正定的，基于假设L是严格的在最佳点w*周围的局部凸盆中凸。3.3. 影响平衡加权因子从（x;w），我们得到IB损失。由于（x;w）是需要大量计算逆Hesian的向量，因此几乎不可能直接使用它。因此，我们通过将（x;w）修改为简单但有效的影响平衡加权因子来解决这个问题。首先，由于我们需要训练样本的相对影响，而不是绝对值，因此我们可以简单地忽略（x;w）中的逆Hesian。这是因为hessian的逆通常乘以所有训练样本。然后，我们设计IB加权因子如下：IB（x;w）=||▽wL（y，f（x，w））||等式2原来是梯度向量的幅度。Anand等 [2]揭示了在类不平衡问题中，净误差梯度向量由主要类支配。因此，通过梯度向量的幅度对样本重新加权可以成功地对来自主导类的样本进行在实验部分，我们证明了L1范数的选择。在下面的章节中，我们将演示如何使用IB加权因子与实际损失一起使用。W738ΣbyL（y，f（x，w））=−ylogf，其中y是一个群dk k kΣ←K····--M工作令h=[h，···，hT是隐藏特征向量，更新KKk′=1k′KΣΣΣΣΣΣ3.4. 影响平衡损失当使用softmax交叉熵损失时，可以进一步简化等式（2交叉熵损失表示为KKfk是模型f（x，w）的第k个输出，其中K总类。由于我们对上的过拟合感兴趣模型的决策边界，我们关注的是变化算法一：影响力平衡训练输入：训练数据集D=（X，Y）。输出：影响平衡模型f（x，w）。第1阶段：正常训练用随机参数w初始化模型。对于t=1到T1，做从D中抽样小批量Dm在深度神经网络的最后一个完全连接（FC）层L（w）1（x，y）∈DL（y，f（x，w））1Lwt=wt−1−η▽L（w）f（x，w）= [f1，… ，fK]T是由fk：= σ（w，T，h）表示的输出，其中σ是softmax函数。FC层的权重矩阵表示为w=[w1，···，wK]T∈RK×f.端阶段2：针对t=T1+1到Tdo的影响平衡的微调然后，损失的梯度w.r.t. W 被计算为从D中抽样小批量DmKLIB（w）←1Σ（x，y）∈DmL（y，f（x，w））K||f（x，w）−y||1·||H||1∂ L（ y，f（x，w））=（ f-y）h。（三）updatewt=wt−1η▽L（w）端wklk k l类式重新加权产生以下两个等式：对于具有S形函数的交叉熵损失或用于回归的均方误差（MSE）然后，（2）中的IB加权因子由下式给出：影响。首先，λk通过减慢多数损失最小化来减轻由总体不平衡分布第二，λk进一步控制取决于λ k的逐样本重新加权。K LIB（x;w）=|（fk−yk）hl|K LK L（4）=|（fk−yk）||hl|一个有高度影响力的样本所属的类别也就是说，如果样本属于多数类，则λk进一步降低样本的权重，因为决策边界可能被多数样本过拟合同时，当样本属于少数类时，λk变小k比多数样本的k大且不降低权重为||f（x，w）−y||1·||H||1、其逆可以用于重新加权因子，以在微调中降低有影响的样本的权重，从而调整增强不平衡数据学习的决策边界最后，影响平衡损耗由下式给出：由于数据稀缺，少数样本的影响很大是自然的。3.6. 影响力平衡培训计划影响平衡训练过程包括两个图1lbL（y，f（x，w））（y，f（x，w）=||f（x，w）−y||1·||H||1.（五）阶段：正常训练和微调平衡。我们将T1称为从正常训练到微调的过渡时间。在正常的训练阶段，网所提出的影响平衡项约束决策Sion边界不会过拟合到有影响的大多数样本（见图1（b））。3.5.影响平衡类重加权此外，我们将按类别重新加权项λk添加到（5）中的IB损失，如下所示：在第一个T1时期，遵循任何训练方案来训练工作同时，在微调阶段期间，施加影响平衡损失以减轻由有影响的（有噪声的）多数样本引起的决策边界的过拟合由于我们在微调阶段期间的IB损失减轻了过拟合，因此将T1设置为模型开始收敛到局部（全局）最小值时的时期是有利的一般建议图1lb一个（w）=ML（y，f（x，w））λk，（6）||f（x，w）−y||1·||H||1设置T1占整个培训计划的一半我们提出（x，y）∈Dm其中λ=αn−1/Kn−1。这里，n是训练数据集中第k个类中的样本数，并且执行归一化以使λ k对于每个类具有相似的尺度。引入α作为调整的超参数。在实验部分中，性能根据正常训练期间的训练时期的数量而变化显然，我们的培训不需要额外的培训计划或专门设计的架构。因此，它可以很容易地利用在任何任务遭受不平衡的数据。训练过程的伪代码在算法1中给出。MMLλ739∈{}最小的;最小的--IB4. 实验4.1. 实验设置数据集。我们在三个常用的基准数据集上验证了我们方法的有效性：CIFAR-10，CIFAR-100 [20]，TinyImageNet [21] 和 iNaturalist 2018 [16] 。 CIFAR-10 和CIFAR-100数据集由50，000张训练图像和10，000张测试图像组成，分别具有10个和100个类。同时，TinyImageNet包含200个用于训练的类，其中每个类有500个图像。它的测试集包含10，000张图像。由于CIFAR和Tiny ImageNet是均匀分布的，我们分别根据[8，4]使这些数据集不平衡。我们主要研究两种常见的不平衡：(i)长尾不平衡[8]和（ii）阶跃不平衡[4]。在长尾不平衡中，每个类的训练样本数量从最大的多数类到最小的少数类呈指数下降为了构建长尾不平衡数据集，将第k个类别中的选定样本数设置为n k µ k（µ（0，1）），其中nk是原始的第k个类的最终编号同时，在步进不平衡中，这些班级分为两组：多数阶级和少数阶级。组内的每个类包含相同数量的样本，并且多数类组中的类比少数类组中的类具有更多的样本为了评估，我们使用了原始的测试集不平衡比ρ由ρ = maxk {nk}定义。KK因此，不平衡比率表示不平衡的程度数据集中的事件。我们评估了我们的方法在各种不平衡比从10到200的性能。iNaturalist 2018数据集是一个大规模的真实世界数据集，包含437，513张训练图像和24，426张测试图像，包含8，142个类。iNaturalist 2018表现出长尾不平衡，其不平衡比为500。我们在实验中使用了官方的训练和测试分割。基线。我们将我们的算法与以下成本敏感损失方法进行了比较：（1）我们的基线模型，它是在标准交叉熵损失上训练的。将我们的模型与该基线进行比较，使我们能够清楚地了解我们的训练方案对性能的改善程度;（2）焦点损失[22]，其增加了硬样本的相对损失并降低了分类良好的样本的权重;（3）CB损失[8]，其与有效样本数成反比地重新加权损失;（4）LDAM损失[5]，其使少数类别正规化以具有更大的余量。由于我们的IB损失可以很容易地与其他方法相结合，我们采用了两种进一步的变体。首先，IB + CB在CB损耗中使用有效数，而不是在IB中使用λk。第二，IB +焦点在微调阶段期间使用焦点损失，而不是使用交叉熵损失。我们证明，与其他方法相结合，可以fur-从而提高性能。实施详情。我们使用PyTorch [29]来实现和训练本文中的所有模型，并且我们使用ResNet架构[15]用于所有数据集。对于CIFAR数据集，我们使用随机初始化的ResNet-32。网络用随机梯度下降（SGD）（动量=0.9）训练200个时期。按照[8，5]中的训练策略，初始学习率设置为0.1，然后在160个epoch时衰减0.01，并在180个epoch时再次衰减此外，我们使用了学习率[12]在前五个时代。由于我们的方法使用两阶段训练时间表，因此我们使用标准交叉熵损失对前100个时期进行训练，然后使用IB损失对接下来的100个时期进行微调我们在单个NVIDIA GTX 1080Ti上训练了CIFAR模型，批量大小为128。对于Tiny ImageNet，我们采用ResNet-18并使用动量为0.9的随机梯度下降，权重衰减为2 e 四是培训。网络最初训练了50个时期，然后针对具有IB损失的后续50个时期进行微调。开始时的学习率被设置为0.1，并且在50和90个时期之后下降0.1倍。对于iNaturalist 2018，我们使用四个GTX 1080TiGPU训练了ResNet-50。网络最初训练50个时期，然后在IB损失的情况下针对随后的150个时期进行微调。开始时的学习率被设置为0.01，并且在30和180个时期之后被降低0.1倍。作为一个简单但重要的实现技巧，我们添加了ε=0。001到（x;w），以防止当影响接近零时反演中的数值不稳定性。我们将在下面的章节中讨论超参数（ε）的影响。4.2. 分析为了验证所提出的方法，我们进行了广泛的实验。影响对重新加权是否有意义？第一，确认影响力是否可以充当有意义的线索的类不平衡学习的重新加权，我们之间的平衡数据集和不平衡的数据集的影响进行了比较。对于不平衡的CIFAR-10，我们使用不平衡比ρ=100的CIFAR-10的长尾版本，其中最大的类“平面”（即，类索引0）包含5，000个样本，而最小的类，“卡车”（即，类别索引9），仅包含50个样本。我们使用标准交叉熵损失训练ResNet-32 200个epoch，如实施细节中所述，在平衡（原始）和不平衡CIFAR-10上。我们在图2中绘制了两个类的影响。对于每个数据集，我们将影响缩放由于少数类仅包含50个样本，因此我们选择最高的50个样本进行比较。如图2所示，在不同的时间段内，这些细胞的分布几乎没有差异----IB- -IB−IB−IB图2. 平衡和不平衡数据集之间的影响比较。我们绘制了样本对在原始 CIFAR-10 和 CIFAR-10 的不平衡版本上训练的ResNet-32的影响。实线和虚线分别表示不平衡数据和平衡数据的虽然在平衡数据集中几乎没有差异，但可以看出，在不平衡数据集中，主导类的影响远大于次要类的影响。平衡数据集中类之间的注量。然而，在不平衡数据集中，少数样本对模型的影响显著小于主要样本。该结果证实了大多数样本极大地有助于形成决策边界，并且重新加权它们的影响可以改善模型的泛化。影响力的大小在3.3节中，我们使用L1范数来计算影响的大小。我们研究了依赖于三个向量范数的性能变化，以计算梯度向量的大小▽wL（y，f（x，w））：L1，L2，L∞。如表1所示，L1常模，它提供了一个独特的变化的影响在平衡点附近，表现出最好的分类在CIFAR-10上具有多个不平衡比的精确度表1.规范的比较使用L1范数产生最佳性能。CIFAR-100不平衡度（ρ）100 20 100 20电话：+86-021- 8888888传真：+86-021 - 88888888电话：+86-021 -88888888传真：+86-021 -88888888L∞77.23 84.30 37.48 50.99开始微调平衡的时间。我们的培训计划分为两个阶段：用于平衡的正常训练和微调。这必须确定正常训练和微调之间的过渡时间图3. 影响力平衡的培训计划。我们改变了正常训练的训练时期，T1，以确定从正常训练到影响平衡微调的最佳过渡时间。当将过渡时间设置为训练损失收敛时，我们实现了最佳性能。用于正常训练阶段的训练时期T1的我们改变了过渡时间，T1，从0到120，而总的训练次数固定在200。实线表示模型针对每个训练时间表获得的分类准确度。为了分析正常训练阶段的收敛与过渡定时之间的关系，我们绘制了标准交叉熵损失，而没有采用整个训练时期的IB损失（虚线）。从图3可以观察到，所提出的方法展示了稳健的性能，而不管过渡时间Tl的选择如何。然而，当训练损失已经收敛时，在第100个历元之后向微调的转变产生最佳性能。由于影响函数是从损失最小化上下文[19]导出的，因此在学习收敛之后开始微调阶段是合理的的影响。如实现细节中所述，对于所有数据集，我们添加了超参数（ε = 0。001）到（x; w）以防止数值不稳定。为了分析超参数的影响，我们对IB损失（5）进行了以下分母的实验：（a）（x;w）+1 e8，（b）（x;w）+1 e3，（c）（x;w）+1 e3。1e 2和（d）1e 3。我们在长尾CIFAR-10（ρ=100）上使用不同的随机种子迭代实验三次。如表2所示，将ε设置为1e 3会产生最佳性能。因此，我们在所有实验中将ε设为1e 3。然而，当我们不使用IB加权因子时，准确性大大降低。平衡因此，我们研究了7转换时间影响性能并确定最佳转换时间。为此，我们在不平衡比ρ=10和100的CIFAR-10长尾版本上进行了实验。在图3中，X轴表示图3中的数字。表2. 的影响。（a）IB+1e-8（b）IB+1e-3（c）IB+1e-2（d）1e-3精度七十六。03±0. 9778岁17±0。57七十七。55±0。55六十四91 ±1。四十个741表3.ResNet-32在不平衡CIFAR-10数据集上的分类准确率（%）每个类别的测试样本数量最佳结果以粗体标记。不平衡CIFAR-10类平面车鸟猫鹿狗青蛙马船卡车长尾（ρ=50）#训练样本5000323720961357878568368238154100基线（CE）97.498.084.080.378.868.476.164.557.052.0焦点[22]91.695.173.159.267.867.284.277.383.961.8CB [8]92.996.379.275.182.469.975.069.173.666.8LDAM [5]96.998.582.974.782.869.078.569.965.366.0LDAM-DRW [5]94.897.882.672.385.373.082.076.775.872.4IB92.296.281.366.685.776.481.775.979.981.1IB + CB93.897.278.164.884.874.286.479.779.576.9IB +局灶90.996.181.769.082.075.785.277.580.276.8阶跃不平衡（ρ= 50）#训练样本50005000500050005000100100100100100基线（CE）95.999.291.591.995.524.840.246.752.755.1焦点[22]96.393.991.290.595.720.046.748.856.157.6CB [8]87.496.376.877.085.734.661.556.568.763.8LDAM [5]96.498.591.190.294.628.350.357.056.264.4LDAM-DRW [5]94.597.288.084.594.350.469.971.474.676.0IB94.097.786.783.293.856.971.075.176.581.7IB + CB91.895.786.679.493.662.877.272.374.287.3IB +局灶91.296.483.377.192.064.878.074.483.583.14.3. 类别准确性比较。在本节中，为了验证性能改善实际上是由少数类而不是多数类引起的，我们报告了长尾和阶跃不平衡CIFAR-10的类准确性我们比较所提出的方法与国家的最先进的成本敏感的损失的方法。由于之前的研究没有报告不平衡CIFAR- 10的类准确性，因此我们实施了基线方法[22，8，5]。对于LDAM [5]的实现，我们使用他们的官方实现代码来重现结果。总体结果报告于表3中。如表3所示，现有方法在少数类别中表现出严重的性能下降。也就是说，现有方法的报告改进归因于多数类，而不是少数类。相比之下，所提出的IB损失在所有少数类别中表现出显著改善值得注意的是，性能改善并不显著，特别是在具有焦点损失[22]方法的阶跃不平衡CIFAR- 10上。我们认为，这表明，大多数硬的例子是大多数样本在高度不平衡的数据，这些样本强制决策边界被过拟合。相比之下，我们提出的影响平衡重新加权可以减轻导致过拟合的大多数样本的影响。作为因此，它可以实现强大的和优越的性能，少数类与非常少量的样本。虽然单独使用影响平衡损失可以实现对少数类别的分类的显著增强，但是将其与其他方法相结合是有益的例如，结果表明，应用具有焦点损失的影响平衡损失可以鼓励网络学习4.4. 与最新技术水平CIFAR的实验结果总体分类准确度见表4。与其他方法相同，在无偏测试集上报告模型性能。实验结果表明，该方法显著提高了泛化性能，且优于现有的代价敏感损失方法。在多个基准数据集上，单独使用IB损失可以实现最佳性能。这表明，它是有效的模型的鲁棒性，以平衡的影响，负责过拟合的决策边界的样本。当与其他方法[8，22]结合时，我们可以进一步提高多个数据集的准确性。这表明，我们提出的降低权重的有影响的样本，诱导过拟合的方法可以受益于其他方法。742表4. ResNet-32在不平衡CIFAR-10和CIFAR-100数据集上的分类准确率（%）。“最佳结果以粗体标记失衡CIFAR-10失衡CIFAR-100不平衡（ρ）200100502010200100502010长尾基线（CE）66.2870.8778.2282.4386.4933.5438.0543.7151.2156.96[22]第二十二话65.2970.3876.7182.7686.6635.6238.4144.3251.9555.78†CB [8]68.8974.5779.2784.3687.4936.2339.6045.3252.5957.99†LDAM [5]-73.35--86.96-39.6--56.91†LDAM-DRW [5]-77.03--88.16-42.04--57.99IB73.9678.2681.7085.888.2537.3142.1446.2252.6357.13IB + CB73.6978.0481.5485.4288.0937.0641.3146.1652.7456.78IB +局灶75.0579.7681.5185.3188.0438.2342.0647.4953.2858.20阶跃失衡基线（CE）56.9764.8169.3579.7184.1638.2939.2741.6548.5554.13†LDAM [5]-66.58--85.00-39.58--56.27†LDAM-DRW [5]-76.92--87.81-45.36--59.46IB72.1576.5381.6685.4187.7239.6645.3948.9353.5757.96IB + CB69.9675.9782.0985.2788.0139.6945.2748.8053.4257.86IB +局灶74.1277.9782.3885.6887.9040.3944.9648.9254.5359.54在Tiny ImageNet上的实验结果我们在TinyImageNet上评估了我们的方法。当我们对其他基线进行实验时，LDAM的结果是从他们的原始论文中复制的。如表5所示，IB损失在Tiny ImageNet上的表现也优于其他基线iNaturalist 2018上的实验结果。我们在大规模真实世界图像数据iNaturalist 2018上评估了我们的方法。我们将我们的方法与最先进的基于损失的方法进行了比较。表6显示，简单地平衡损失的影响可以获得相当大的收益。改进.5. 结论在本文中，我们提出了一种新的影响平衡的损失，以解决过度拟合的大多数类的类不平衡问题。在不平衡类数据上训练的模型容易由于DNN的高容量和某些类中样本的稀缺而过拟合因此，随着学习的进行，现有方法可能产生不期望的结果，例如向来自多数类的样本与现有方法不同，IB损失可以鲁棒地分配权重，因为它直接关注样本我们进行了实验，以证明我们的方法可以提高泛化性能下的类不平衡设置。此外，我们的方法是易于实现和集成到现有的方法。在未来，我们计划通过结合数据级方法或其他最近的元学习方法来扩展我们的方法。表5.课ResNet-18在Tiny ImageNet上的准确率（%）长尾阶跃不平衡不平衡（ρ）1001010010基线（CE）38.5236.6236.7451.11焦点[22]38.9554.0238.2441.77CB [8]41.3754.8237.3554.3LDAM*[5]37.4752.7839.3752.57IB42.6557.2241.1354.83表6. 班级s。ResNet-50在iNaturalist 2018上的准确度（%）。iNaturalist 2018方法top1top5基线（CE）57.3079.48焦点[22]58.0378.65CB [8]61.1281.03LDAM [5]64.5883.52IB65.3984.98确认这项工作得到了韩国政府（MSIT）资助的信息通信技术规划评估研究所（IITP）资助（No.B0101- 15-0266，用于大规模实时数据分析的高性能可视化大数据发现平台的开发）和（2017-0-00306，用于户外监控机器人的基于多模态743引用[1] 阿连德校长罗德里戈·萨拉斯克劳迪奥·莫拉。基于影响函数的前向神经网络鲁棒有效学习算法模式识别和图像分析，2003年。二、三[2] R. Anand，K. G.梅赫罗特拉角K. Mohan和S.兰卡一种改进的非平衡训练集神经网络分类算法。 IEEETransactions on Neural Net-works，1993. 三个[3] Devansh Arpit ， Stanisław Jastrzundefinedbski ， NicolasBal- las，David Krueger，Emmanuel Bengio，MaxinderS. Kan-wal 、 Tegan Maharaj 、 Asja Fischer 、 AaronCourville、Yoshua Bengio和Simon Lacoste-Julien。深入研究深度网络中的记忆化。在第34届国际机器学习会议论文集-第70中，ICML'17，2017。一、二、三[4] Mateusz Buda、Atsuto Maki和Maciej A.马祖洛夫斯基对卷积神经网络中类不平衡问题的系统研究。神经网络，106，2018。一、五[5] Kaidi Cao ， Colin Wei ， Adrien Gaidon ， NikosArechiga，and Tengyu Ma.学习具有标签分布感知的边际损失的不平衡数据集。在神经信息处理系统的进展，2019。二、五、七、八[6] 放大图片作者：Kevin W.作者：Lawrence O. Hall和W.菲利普·凯格尔迈耶Smote：合成少数过采样技术.J. Artif.国际Res. ，2002年。一、二[7] R. 丹尼斯·库克和桑福德·韦斯伯格回归中的残差和1982.一、二、三[8] Y. Cui，M.贾氏T. Lin，Y. Song和S.贝隆吉基于有效样本数的类平衡损失。2019年IEEE/CVF计算机视觉和模式识别会议（CVPR），2019年。一、二、五、七、八[9] Q. Dong，S.巩，和X。竹深度学习不平衡的课堂整改难2017年IEEE国际计算机视觉会议（ICCV），2017年。一、二[10] 迪鲁·杜瓦和凯西·格拉夫。UCI机器学习存储库，2017年。一个[11] 放大图片作者： Mark Everingham ， Luc Van Gool，Christopher K. I. Williams ， John Winn ， and AndrewZisserman. pascal视觉对象类（voc）的挑战。国际计算机视觉杂志，88，2009。一个[12] PriyaG o yal ， PiotrDoll a´r ， RossB. Girshick ， PieterNoord-huis ， Lukasz Wesolowski ， Aapo Kyrola ，Andrew Tulloch，Yangqing Jia，and Kaiming He.精确的大批量SGD：1小时内训练imagenet CoRR，2017年。五个[13] F.R. Hampel 稳健统计：基于影响函数的方法。概率与统计系列Wiley，1986年。二个[14] 何海波和E.A.加西亚从不平衡的数据中学习。知识与数据工程，IEEE Transactions on，21，2009。一个[15] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。2016年IEEE计算机视觉和模式识别会议（CVPR），2016年。五个[16] Grant Van Horn、Oisin Mac Aodha、Yang Song、YinCui、Chen Sun、Alexander Shepard、Hartwig Adam、Pietro Perona和Serge J.贝隆吉自然物种分类和检测数据集。2018年IEEE计算机视觉和模式识别会议，CVPR2018，美国犹他州盐湖城，2018年6月18日至22日。一、五[17] C. Huang，Y.黄氏Y. Li，C. C. Loy和X.唐学习不平衡分类的深度表示。2016年一、二[18] 纳塔莉·雅普科维奇和莎朱·斯蒂芬。阶级不平衡问题：一个系统的研究。智能数据分析，第 429-449页，2002。一个[19] Pang Wei Koh和Percy Liang。通过影响函数理解黑盒预测。第34届机器学习国际会议论文集，第1885-1894页，澳

下载后可阅读完整内容，剩余1页未读，立即下载