均衡损失解决长尾目标识别问题

50 浏览量更新于2023-10-24 收藏 14.55MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

116620均衡损失用于长尾目标识别0Jingru Tan 1 Changbao Wang 2 Buyu Li 3 Quanquan Li 20Wanli Ouyang 4 Changqing Yin 1 Junjie Yan 201 同济大学 2 商汤研究 3 香港中文大学 4 悉尼大学，澳大利亚商汤计算机视觉研究组0{ tjr120,yinchangqing } @tongji.edu.cn, { wangchangbao,liquanquan,yanjunjie } @sensetime.com0byli@ee.cuhk.edu.hk, wanli.ouyang@sydney.edu.au0摘要0使用卷积神经网络（CNN）的目标识别技术取得了巨大成功。然而，最先进的目标检测方法在大词汇量和长尾数据集（例如LVIS）上仍然表现不佳。在这项工作中，我们从一个新的角度分析了这个问题：一个类别的每个正样本都可以被看作是其他类别的负样本，使得尾部类别接收到更多的负梯度。基于此，我们提出了一种简单但有效的损失，称为均衡损失，通过简单地忽略那些稀有类别的梯度来解决长尾稀有类别的问题。均衡损失保护了稀有类别的学习，在网络参数更新过程中不处于劣势地位。因此，模型能够为稀有类别的对象学习更好的判别特征。在没有任何花哨的技巧的情况下，我们的方法在具有挑战性的LVIS基准测试中，相对于MaskR-CNN基线，稀有类别和常见类别的AP分别提高了4.1%和4.8%。通过使用有效的均衡损失，我们最终在LVISChallenge2019中获得了第一名。代码已在https://github.com/tztztztztz/eql.detectron2上提供。01. 引言0最近，计算机视觉社区由于深度学习和卷积神经网络（CNN）的出现而见证了目标识别的巨大成功。目标识别是计算机视觉中的一项基本任务，在许多相关任务中起着核心作用，如重新识别、人体姿态估计和物体跟踪。如今，大多数用于通用目标识别的数据集，例如Pascal VOC [10]和COCO[28]，主要收集频繁出现的类别，并为每个类别提供大量的注释。0图1：正负样本的整体梯度分析。我们收集最后一个分类器层权重的梯度的平均L2范数。类别的索引按照它们的实例数量排序。注意，对于一个类别，所有其他类别和背景的提议都是它的负样本。0然而，在更实际的场景中，不可避免地会出现具有长尾分布的类别频率的大词汇数据集（例如LVIS[15]）。类别长尾分布的问题对于目标检测模型的学习来说是一个巨大的挑战，特别是对于稀有类别（样本数量非常少的类别）。注意，对于一个类别，其他类别（包括背景）的所有样本都被视为负样本。因此，在训练过程中，稀有类别很容易被数量众多的类别（样本数量较多的类别）压倒，并倾向于被预测为负样本。因此，传统的目标检测器在这种极度不平衡的数据集上训练时会遇到很大的困难。以往的大部分工作将类别长尾分布问题的影响视为训练过程中批量采样的不平衡，并主要通过设计专门的采样策略[2, 16, 32,38]来处理这个问题。其他工作引入了专门的损失函数来应对正负样本不平衡的问题[27,25]。但是它们主要关注前景和背景样本之间的不平衡，因此不同前景类别之间的严重不平衡仍然是一个具有挑战性的问题。在这项工作中，我们关注不同前景类别之间极度不平衡的频率问题，并提出了一种新的分析方法来分析其影响。如图1所示，绿色和橙色曲线分别表示正样本和负样本贡献的平均梯度范数。我们可以看到，对于频繁出现的类别，正梯度的平均影响大于负梯度，但对于稀有类别，情况恰恰相反。进一步说，常用的分类任务损失函数，例如softmax交叉熵和sigmoid交叉熵，对于非真实类别具有抑制作用。当使用某个类别的样本进行训练时，其他类别的预测参数将接收到抑制性的梯度，导致它们预测低概率。由于稀有类别的对象几乎不会出现，这些类别的预测器在网络参数更新过程中会被抑制性的梯度压倒。为了解决这个问题，我们提出了一种新的损失函数，均衡损失（EQL）。一般来说，我们为每个样本的每个类别引入一个权重项，主要减少稀有类别的负样本的影响。suffer a great decline.Most of the previous works consider the inﬂuence ofthe long-tailed category distribution problem as an imbal-ance of batch sampling during training, and they handle theproblem mainly by designing specialized sampling strate-gies [2, 16, 32, 38]. Other works introduce specialized lossformulations to cope with the problem of positive-negativesample imbalance [27, 25]. But they focus on the imbal-ance between foreground and background samples so thatthe severe imbalance among different foreground categoriesremains a challenging problem.In this work, we focus on the problem of extremelyimbalanced frequencies among different foreground cate-gories and propose a novel perspective to analyze the ef-fect of it. As illustrated in Figure 1, the green and orangecurves represent the average norms of gradients contributedby positive and negative samples respectively. We can seethat for the frequent categories, the positive gradient has alarger impact than the negative gradient on average, but forthe rare categories, the status is just the opposite. To putit further, the commonly used loss functions in classiﬁca-tion tasks, e.g. softmax cross-entropy and sigmoid cross-entropy, have a suppression effect on the classes that are notthe ground-truth one. When a sample of a certain class isutilized for training, the parameters of the prediction of theother classes will receive discouraging gradients which leadthem to predict low probabilities. Since the objects of therare categories hardly occur, the predictors for these classesare overwhelmed by the discouraging gradients during net-work parameters updating.To address this problem, we propose a novel loss func-tion, equalization loss (EQL). In general, we introduce aweight term for each class of each sample, which mainlyreduces the inﬂuence of negative samples for the rare cat-116630图2：使用EQL预测的概率。x轴是按照每个类别的实例数量排序的类别索引，y轴是每个类别正样本的平均预测概率。0平衡损失的完整公式在第3节中给出。通过平衡损失，负样本的平均梯度范数减小，如图1所示（蓝色曲线）。图2简单地可视化了EQL的效果，它展示了带有（红色曲线）和不带（蓝色曲线）平衡损失的每个类别的正样本的平均预测概率。可以看出，EQL显著提高了稀有类别的性能，而不损害常见类别的准确性。通过提出的EQL，在网络参数更新期间，不同频率的类别被带到更平等的状态，训练模型能够更准确地区分稀有类别的对象。在几个不平衡的数据集上进行了大量实验，例如Open Images [23]和LVIS[15]，证明了我们方法的有效性。我们还在其他任务上验证了我们的方法，如图像分类。我们的主要贡献可以总结如下：（1）我们提出了一种新的视角来分析长尾问题：由于类间竞争引起的对稀有类别的抑制，这解释了长尾数据集上稀有类别的性能较差。基于这个视角，我们提出了一种新的损失函数，平衡损失，通过引入一种忽略策略来减轻学习过程中压倒性的抑制梯度的影响。（2）我们在不同的数据集和任务上进行了大量实验，如目标检测、实例分割和图像分类。所有实验都证明了我们方法的优势，它在常见的分类损失函数上带来了大幅提升。配备我们的平衡损失，我们在LVISChallenge 2019中获得了第一名。02. 相关工作0首先我们回顾常见的目标检测和实例分割方法。然后我们介绍了重新采样、成本敏感重新加权和特征操作方法，这些方法被广泛用于缓解长尾数据集中的类别不平衡问题。目标检测和实例分割。目标检测有两种主流框架：单阶段检测器[29, 36, 27]和两阶段检测器[13, 12, 37, 26,31]。虽然单阶段检测器速度更快，但大多数最先进的检测器采用两阶段模式以获得更好的性能。流行的MaskR-CNN[17]在典型的两阶段检测器中扩展了一个蒙版头部，在许多实例分割基准上取得了有希望的结果。MaskScoringR-CNN[21]引入了一个额外的蒙版分数头部来对齐蒙版的分数和质量。Cascade MaskR-CNN[1]和HTC[3]通过级联方式预测蒙版进一步提高了性能。CC�jlog( ˆpj)(3)∂Lcls∂zj=116640重新采样方法。重新采样中常用的方法之一是过采样[2, 16,32]，它从少数类别中随机采样更多的训练数据，以解决类别不平衡问题。类别感知采样[38]，也称为类别平衡采样，是一种常见的过采样技术，它首先采样一个类别，然后均匀地采样包含采样类别的图像。虽然过采样方法对于少数类别取得了显著改进，但也存在过拟合的高风险。与过采样相反，欠采样[9]的主要思想是从频繁类别中删除一些可用数据，使数据分布更平衡。然而，在极度长尾的数据集中，欠采样是不可行的，因为头部类别和尾部类别之间的不平衡比例非常大。最近，[22]提出了一种解耦训练模式，它首先联合学习表示和分类器，然后通过使用类别平衡采样重新训练分类器来获得一个平衡的分类器。我们的方法有助于模型学习更好的尾部类别表示，因此可以与解耦训练模式相辅相成。0重新加权方法。重新加权方法的基本思想是为不同的训练样本分配权重。在一个不平衡的数据集中，一种直观的策略是根据类别频率的倒数赋予样本权重[41,20]，或者使用平滑版本，即类别频率的倒数的平方根[33]。除了上述调整类别级别权重的方法外，还有其他研究专注于样本级别的重新加权。[27,25]通过增加困难样本的权重和减少容易样本的权重，使神经网络具有成本敏感性，这可以看作是在线版本的困难样本挖掘技术[39]。最近，Meta-Weight-Net[40]学习了一个显式的映射来进行样本重新加权。与上述工作不同，我们关注不同前景类别之间的不平衡问题。我们提出了一个新的观点，即来自频繁类别的大量负梯度严重抑制了训练中罕见类别的学习。我们提出了一种新的损失函数来解决这个问题，同时应用于样本级别和类别级别。0特征操作。还有一些直接对特征表示进行操作的方法。Range Loss[44]同时增大类间距离并减小类内变化。[43]通过转移具有足够训练样本的常规类别的特征方差，增加尾部类别的特征空间。[30]通过采用记忆模块将语义特征表示从头部类别转移到尾部类别。然而，设计这些模块或方法并不是一项简单的任务，会使模型更难训练。相比之下，我们的方法更简单，不直接访问表示。03. 均衡损失0我们均衡损失的核心目标是减轻长尾类分布中每个类别的类别数量分布不平衡问题。我们首先回顾了传统的分类损失函数，即softmax交叉熵和sigmoid交叉熵。03.1. 交叉熵损失回顾0Softmax交叉熵从网络输出z中推导出每个类别的多项式分布p，并计算估计分布p与真实分布y之间的交叉熵。softmax交叉熵损失L SCE 可以表示为：0L SCE = -0j =1 y j log( p j ) (1)0其中，p由Softmax ( z )计算。注意，C个类别中包括一个额外的背景类别。在实践中，y使用one-hot表示，我们有� C j =1 y j =1。对于样本的真实类别c，形式上有：0y j =0� 1 如果 j = c 0 否则 (2)0Sigmoid交叉熵使用C个sigmoid损失函数独立地估计每个类别的概率。真实标签y j只代表类别j的二进制分布。通常，背景类别不包括在内。相反，当一个提议属于背景时，所有类别的y j =0。因此，sigmoid交叉熵损失可以表示为：0L BCE = -0其中0ˆ p j =0� p j 如果 y j = 1 1 − p j 否则 (4)0其中，p由σ ( z j ) 计算。对于sigmoid交叉熵损失L BCE和softmax交叉熵损失L SCE对网络输出z的导数具有相同的公式：0� p j - 1 如果 y j = 1 p j 否则 (5)0在softmax交叉熵和sigmoid交叉熵中，我们注意到对于类别c的前景样本，它可以被视为任何其他类别j的负样本。因此，类别j将接收到一个负向的梯度pj用于模型更新，这将导致网络预测较低。LEQL = −C�j=1wjlog( ˆpj)(6)TR(λ) =�Cj Tλ(fj)NjCj Nj(8)LSEQL = −C�j=1yj log( ˜pj)(9)˜pj =ezjCk=1 ˜wkezk(10)˜wk = 1 − βTλ(fk)(1 − yk)(11)116650如果j是一个罕见的类别，则在优化的迭代过程中，不鼓励梯度会比鼓励梯度更频繁地出现。累积的梯度对该类别会产生非常大的影响。最终，即使类别j的正样本可能从网络中获得相对较低的概率。03.2. 均衡损失公式0当类别的数量分布相当不平衡时，例如在一个长尾数据集中，来自频繁类别的不鼓励梯度对稀缺注释的类别有显著影响。使用常用的交叉熵损失，很容易抑制罕见类别的学习。为了解决这个问题，我们提出了均衡损失，它忽略了罕见类别的负样本对罕见类别的梯度。这个损失函数旨在使网络训练对每个类别更加公平，并将其称为均衡损失。形式上，我们在原始的sigmoid交叉熵损失函数中引入了一个权重项w，均衡损失可以表示为：0对于一个区域提议r，我们根据以下规定设置w：w j = 1 − E ( r ) T λ ( f j )(1 − y j ) (7)0在这个方程中，当r是前景区域时，E(r)输出1，当r属于背景时输出0。而fj是数据集中类别j的频率，它通过类别j的图像数量除以整个数据集的图像数量来计算。而Tλ(x)是一个阈值函数，当x <λ时输出1，否则输出0。λ用于区分尾部类别和其他所有类别，尾部比率（TR）用作设置其值的标准。形式上，我们通过以下公式定义TR：0其中N j是类别j的图像数量。方程7中每个部分的超参数设置在第4.4节中进行了研究。总结起来，均衡损失函数中有两个特殊设计：1）我们忽略罕见类别的负样本的不鼓励梯度，其数量频率低于一个阈值。2）我们不忽略背景样本的梯度。如果忽略罕见类别的所有负样本，在训练过程中将没有负样本，学习到的模型将预测大量的假阳性。03.3. 扩展到图像分类0由于softmax损失函数在图像分类中被广泛采用，我们还设计了一种Softmax均衡损失的形式。Softmax均衡损失（SEQL）可以表示为：0其中0而权重项w k 由以下公式计算：0其中β是一个随机变量，以概率γ为1，以1-γ为0。需要注意的是，图像分类与目标检测中的分类不同：每个图像属于一个特定的类别，因此没有背景类别。因此，权重项˜ w k中没有E(r)部分，如方程7中所示。因此，我们引入β来随机保持负样本的梯度。γ的影响在第6节中进行了研究。04. 在LVIS上的实验0我们对均衡损失进行了大量实验。在本节中，我们首先介绍了在LVIS数据集[15]上的实现细节和主要结果，在第4.2节和第4.3节中进行了介绍。然后我们进行消融研究，分析均衡损失的不同组成部分，在第4.4节中进行了介绍。在第4.5节中，我们将均衡损失与其他方法进行比较。LVIS Challenge2019的详细信息将在第4.6节中介绍。04.1. LVIS数据集0LVIS是一个用于实例分割的大词汇数据集，当前版本v0.5中包含1230个类别。在LVIS中，根据包含这些类别的图像数量，将类别分为三组：稀有（1-10个图像），常见（11-100个）和频繁（>100个）。我们在57k个训练图像上训练模型，并在5k个验证集上进行评估。我们还在20k个测试图像上报告了结果。评估指标是在所有类别上从0.5到0.95的IoU阈值下的AP。与COCO评估过程不同，由于LVIS是一个稀疏注释的数据集，将不评估未在图像级标签中列出的类别的检测结果。Mask R-CNNR-50-C4✗19.732.520.37.921.122.820.3✓22.536.623.514.424.922.623.1Mask R-CNNR-101-C4✗21.835.622.710.523.424.222.9✓24.138.725.615.826.824.125.6Mask R-CNNR-50-FPN✗20.132.721.27.219.925.420.5✓22.836.024.411.324.725.123.3Mask R-CNNR-101-FPN✗22.235.323.49.822.626.522.7✓24.838.426.814.626.726.425.2λ(10−3)TR(%)APAPrAPcAPfAPbbox0020.17.219.925.420.50.176(λr)0.9320.811.720.225.220.80.53.1422.011.222.825.222.40.84.8822.311.423.425.323.01.57.8222.811.024.525.523.01.76(λc)9.0822.811.324.725.123.32.09.8322.711.324.325.323.23.013.1222.511.024.025.323.15.018.1722.410.023.625.723.0116660骨干网络 EQL AP AP 50 AP 75 AP r AP c AP f AP bbox0级联Mask R-CNN R-50-FPN � 21.1 33.3 22.2 6.3 21.6 26.5 21.10级联Mask R-CNN R-101-FPN � 21.9 34.3 23.2 6.0 22.3 27.7 24.70表1：不同框架和模型的结果。所有这些模型都使用无类别掩码预测，并在LVISv0.5验证集上进行评估。AP是掩码AP，下标'r'、'c'和'f'分别表示稀有、常见和频繁类别。对于均衡损失函数，将λ设置为1.76×10−3，以包括所有稀有和常见类别。04.2. 实现细节0我们实现了标准的Mask R-CNN [17]，并配备了FPN[26]作为基线模型。训练图像的尺寸调整为短边为800像素，长边不超过1333像素。除了水平翻转之外，没有使用其他数据增强。在第一阶段，RPN采样256个锚点，前景和背景之间的比例为1:1，然后在第二阶段，每个图像采样512个提议，前景-背景比例为1:3。我们使用16个GPU进行训练，总批量大小为32。我们的模型采用随机梯度下降（SGD）进行优化，动量为0.9，权重衰减为0.0001，训练25个时期，初始学习率为0.04，在第16个时期衰减为0.004，在第22个时期衰减为0.0004。尽管类别特定的掩码预测可以获得更好的性能，但由于大规模类别的内存和计算成本巨大，我们采用了无类别的方法。根据[15]的建议，将预测分数的阈值从0.05降低到0.0，并将前300个边界框保留为预测结果。当在LVIS上应用EQL时，我们进行了一些小的修改。由于对于每个图像，LVIS提供了额外的图像级注释，其中包含该图像中的类别（正类别集）和不包含的类别（负类别集），因此如果EQL中的类别在正类别集或负类别集中，它们将不会被忽略，即方程式7的权重项将对这些类别设为1，即使它们是稀有类别。04.3. 均衡损失的有效性0表1展示了均衡损失函数在不同骨干网络和框架上的有效性。除了Mask R-CNN，我们还在级联Mask R-CNN[1]上应用了均衡损失。我们的方法在不同的骨干网络和框架上都取得了一致的改进。0表2：不同λ的消融研究。λr约为1.76×10^(-4)，恰好包含所有稀有类别。λc约为1.76×10^(-3)，恰好包含所有稀有和常见类别。当λ为0时，我们的均衡损失退化为sigmoid交叉熵。0所有这些模型都取得了改进。从表中可以看出，改进主要来自稀有和常见类别，表明我们的方法对长尾分布的类别具有有效性。04.4. 消融研究0为了更好地分析均衡损失，我们进行了几项消融研究。对于所有实验，我们使用ResNet-50 MaskR-CNN。频率阈值λ：表2显示了不同λ的影响。我们进行了一系列实验，将λ从1.76×10^(-4)（恰好将稀有类别从所有类别中分离出来）改变到一个较大的范围。我们经验性地发现，当TR(λ)在2%到10%之间时，适当的λ位于空间中。表2的结果显示，随着λ的增加以包含更多的尾部类别，整体AP显著提高。APAPrAPcAPfAPbbox✗22.212.5 24.723.122.7✓22.811.324.7 25.123.3116670图3：不同设计的阈值函数Tλ(f)的示意图。0同时，当λ增加以包含频繁类别时，性能趋于退化。均衡损失的一个优点是对于频率大于给定λ的类别几乎没有影响。当λ=λr时，APr显著提高，对APc和APf的影响较小。当λ=λc时，APr和APc都有很大的提升，而APf只稍微退化。我们在所有实验中将λ设置为λc。阈值函数Tλ(f)：在公式7中，我们使用Tλ(fj)来计算给定提议的类别j的权重。除了提出的阈值函数，Tλ(f)可以有其他形式来计算频率低于阈值的类别的权重。如图3所示，我们提出并与另外两种设计进行了比较：（1）指数衰减函数y = 1 -(af)^n，根据类别频率的幂计算权重。（2）Gompertz衰减函数y = 1 -ae^(-be^-cf)，在开始时平滑衰减，然后更陡地减小。我们对指数衰减函数和Gompertz衰减函数进行了多次实验，使用不同的超参数，并报告了最佳结果。指数衰减函数的最佳超参数设置为a = 400和n =2，Gompertz衰减函数的最佳超参数设置为a = 1，b =80，c =3000。表3显示，这三种设计的结果都非常相似，而指数衰减和Gompertz衰减函数都引入了更多的超参数来适应设计。因此，我们在我们的方法中使用阈值函数，因为它具有更简单的格式、更少的超参数和更好的性能。排除函数E(r)：表4显示了使用或不使用项E(r)的EQL的实验结果。不使用E(r)的EQL意味着从公式7中删除E(r)，这将以相同的方式处理前景和背景。使用E(r)的EQL意味着均衡损失只影响前景提议，如公式7所定义。实验结果表明-0指数衰减 22.3 10.4 24.0 25.0 22.80Gompertz衰减 22.7 11.0 24.5 25.1 23.20我们的方法 22.8 11.3 24.7 25.1 23.30表3：阈值函数Tλ(f)的消融研究。为了公平比较，我们将性能与多次实验中的最佳超参数进行比较。0E(r) AP AP r AP c AP f AP bbox0表4：排除函数E(r)的消融研究。顶行是不使用项E(r)的结果，底行是使用项E(r)的结果。0表明E(r)的重要性。从表中可以看出，使用E(r)的情况下，与不使用E(r)的情况相比，EQL获得了0.6个AP增益。如果丢弃E(r)，尽管APr有所增加，但APf会大幅下降，从而导致整体AP下降。值得注意的是，如果我们不使用E(r)，大量的背景提议也将被忽略，对于稀有和常见类别，背景提议的监督不足将导致大量的假正例。我们可视化了一个示例图像的检测结果，如图4所示。没有E(r)，引入了更多的假正例，用红色表示。上述分析和说明都表明，没有E(r)，APr应该会下降，这与表4中的实验结果相矛盾。原因是根据LVIS评估协议，如果不能确定类别j是否在图像I中，图像I中的所有类别j的假正例都将被忽略。如果类别j是稀有的，则增加的假正例大多被忽略，从而减轻了它们的影响。但同时增加的真正例会直接增加APr。04.5. 与其他方法的比较0表5展示了与其他广泛采用的解决类别不平衡问题的方法的比较。根据表格，重新采样方法在牺牲APf的同时提高了APr和APc，而重新加权方法在所有类别上都带来了一致的增益，但整体改进微不足道。均衡损失在显著提高APr和APc的同时对APf的影响较小，超过了所有其他方法。04.6. LVIS挑战赛20190借助均衡损失的帮助，我们最终在COCO和Mapillary举办的LVIS挑战赛中获得了第一名。Sigmoid Loss20.132.721.27.219.925.419.335.745.020.5Softmax Loss20.232.621.34.520.825.619.936.344.720.7EQL(Ours)22.836.024.411.324.725.120.538.749.223.3car_0.66street_sign_0.55scoreboard_0.50scoreboard_0.51car_0.72street_sign_0.50scoreboard_0.43street_sign_0.49car_0.36car_0.69car_0.40street_sign_0.60scoreboard_0.38car_0.67street_sign_0.33license_plate_0.66street_sign_0.48street_sign_0.58wheel_0.35street_sign_0.31license_plate_0.80car_0.49street_sign_0.59car_0.58street_sign_0.48street_sign_0.58car_0.36car_0.66street_sign_0.62car_0.80car_0.42car_0.35streetlight_0.41license_plate_0.94wheel_0.43street_sign_0.56wheel_0.35street_sign_0.70license_plate_0.36license_plate_0.86wheel_0.30wheel_0.35license_plate_0.33streetlight_0.57MethodAPAP1AP2AP3AP4AP5SGM48.1359.8651.2449.3146.5133.72CAS [38]56.5064.4459.3059.7457.0242.00EQL(Ours)57.8364.9560.1861.1758.2344.61https://github.com/richardaecn/class-balanced-loss116680AP AP 50 AP 75 APr APc APf APS APM APL AP bbox0类别感知采样[38] 18.5 31.1 18.9 7.3 19.3 21.9 17.3 32.1 40.9 18.4 重复因子采样[15] 21.3 34.9 22.012.2 21.5 24.7 19.6 35.3 46.2 21.6 类别平衡损失[5] 20.9 33.8 22.2 8.2 21.2 25.7 19.8 36.1 46.4 21.0Focal Loss[27] 21.0 34.2 22.1 9.3 21.0 25.8 19.8 36.5 45.5 21.90表5：基于ResNet-50 Mask R-CNN在LVIS v0.5验证集上与其他方法的比较。0图4：排除函数E(r)的效果示意图。上下两幅图分别对应使用和移除E(r)。真正例用绿色表示，假正例用红色表示。我们将得分高于0.3的结果进行可视化。02019年联合识别挑战赛。结合其他增强方法，如更大的主干网络[19,42]，可变形卷积[6]，同步批归一化[35]和额外数据，我们的方法在LVIS v0.5测试集上实现了28.9的maskAP，比ResNeXt-101 MaskR-CNN基线（20.1%）提高了8.4%。关于我们在挑战赛中的解决方案的更多细节，请参见附录A。05. Open Images检测实验0OpenImage数据集v5是一个包含900万张图像的大型数据集，其中包含图像级别的标签和边界框注释。0表6：基于ResNet-50在OID19验证集上的结果。SGM和CAS分别代表sigmoid交叉熵和类别感知采样。我们将所有类别按照图像数量进行排序，并将它们分为5组。TR和λ分别为3%和3×10^(-4)。0在我们的实验中，我们使用了数据的划分和竞赛2019年目标检测赛道(OID19)的类别子集。OID19的训练集包含了500个类别上的1220万个边界框，共170万张图像，验证集包含约1万张图像。根据表6，我们的方法相比于标准的sigmoid交叉熵有了很大的改进，超过了类别感知采样方法很多。为了更好地理解我们方法的改进，我们将所有类别按照它们的图像数量进行分组，并报告每个组的性能。我们可以看到我们的方法在样本较少的类别上有更大的改进。与sigmoid交叉熵和类别感知采样相比，我们在最少的100个类别组上取得了显著的AP增益(分别为2.6和10.88个点)。06. 图像分类实验0为了展示均衡损失在转移到其他任务时的泛化能力。我们还在两个长尾图像分类数据集CIFAR-100-LT和ImageNet-LT上评估了我们的方法。数据集。我们完全按照[5]的设置生成了具有200倍不平衡因子的CIFAR-100-LT。CIFAR-100-LT的训练集包含9502张图像，其中最常见的类别有500张图像，最少的类别有2张图像。γAcc@top1 Acc@top5 Acc@top1 Acc@top5041.3367.7541.3367.750.7542.0870.0342.2669.950.943.1271.5043.7471.420.9543.3871.9443.3072.310.9942.4471.4442.4972.07Focal Loss† [27]35.62-Class Balanced† [5]36.23-Meta-Weight Net† [40]37.91-2https://github.com/zhmiao/OpenLongTailRecognition-OLTR053.227.58.034.758.70.552.528.79.835.259.70.7552.130.711.636.260.80.949.432.314.536.461.10.9546.532.816.435.860.7116690λ=3.0×10^(-3) λ=5.0×10^(-3)0表7：对SEQL进行不同γ和λ的变化。准确率报告在CIFAR-100-LT测试集上。γ=0表示使用softmax损失函数。0方法 Acc@top1 Acc@Top50SEQL(我们的方法) 43.38 71.940表8：基于ResNet-32[18]在CIFAR-100-LT测试集上的结果。我们使用γ为0.95和λ为3.0×10^(-3)。†表示结果来自原始论文[5,40]。不平衡因子为200。0对于最稀有的类别。CIFAR-100-LT与原始的CIFAR-100共享相同的测试集，包含1万张图像。我们报告top1和top5的准确率。ImageNet-LT [30]是从ImageNet-2012[7]生成的，包含1000个类别，每个类别的图像数量从1280到5不等。训练集有11.6万张图像，测试集有5万张图像。与CIFAR-100-LT不同，我们还额外提供了许多样本、中等样本和少样本的准确率，以衡量对尾部类别的改进。实现细节。对于CIFAR-100-LT，我们使用NesterovSGD优化器，动量为0.9，权重衰减为0.0001进行训练。每个GPU的总批量大小为256，每个批量包含128张图像。模型ResNet-32进行了12800次迭代训练，学习率为0.2，在第6400次和第9600次迭代时衰减为原来的0.1。在前400次迭代中，学习率从0.1逐渐增加到0.2。在数据增强方面，我们首先按照[24, 18]的设置进行，然后使用autoAugment[4]和Cutout[8]。在测试时，我们简单地使用原始的32×32图像。对于ImageNet-LT，我们使用16个GPU，总批量大小为1024。我们使用ResNet-10作为我们的主干网络，与[30]相同。模型进行了12000次迭代训练，学习率为0.4，在第3400次、第6800次和第10200次迭代时除以10。在前500次迭代中，采用逐渐升高的学习率策略[14]，将学习率从0.1增加到0.4。我们使用随机调整大小裁剪、颜色抖动和水平翻转作为数据增强。训练输入尺寸为0γ 多样本中等样本少样本 Acc@top1 Acc@top50表9：在λ为4.3×10^(-4)时，对SEQL进行不同γ的变化。准确率报告在ImageNet-LT测试集上。当γ为0时，SEQL退化为softmax损失函数。0FSLwF † [11] 28.4 - Focal Loss † [27]30.5 - Lifted Loss † [34] 30.8 - RangeLoss † [44] 30.7 - OLTR † [30] 35.6 -0SEQL（我们的）36.44 61.190表10：基于ResNet-10 [18]的ImageNet-LT测试集结果。最佳γ和λ分别为0.9和4.3×10-40分别。†表示结果来自原始论文[30]0224 × 224。在测试中，我们将图像调整为256 ×256，然后在中心裁剪一个224 ×224的单个视图。CIFAR-100-LT和ImageNet-LT的结果。由于这些增强技术，我们在CIFAR-100-LT上建立了一个更强大的基线。如表7所示，我们的EQL仍然大幅改善了强基线2%的差距。这些改进来自训练样本较少的类别。至于ImageNet-LT，我们还在表9中进行了消融研究。γ的各种值都对软最大化损失基线产生了一致

下载后可阅读完整内容，剩余1页未读，立即下载