基于累积学习的长尾视觉识别

43 浏览量更新于2023-10-25 收藏 853KB PDF 举报

深度网络

特征学习

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

9719基于累积学习的长尾视觉识别周博彦1崔泉1， 2魏秀申1陈兆民1， 31兆纬科技2早稻田大学3南京大学摘要我们的工作重点是解决具有挑战性但自然的视觉识别任务的长尾数据分布（即。少数类占据了大部分数据，而大多数类很少有样本）。在文献中，阶级再平衡策略（例如，重新加权和重新采样）是为处理长尾问题而提出的缓解极端不平衡的突出和有效的方法。在本文中，我们首先发现这些重新平衡方法能够实现令人满意的识别准确性，因为它们可以显著促进深度网络的分类学习。但与此同时，它们也会在一定程度上意外地损害所学习到的深层特征所以我们特征空间在重新平衡类别索引特征空间重新平衡后提出了一个统一的双边分支网络（BBN）来同时处理表示学习和分类器学习，其中每个分支都单独履行自己的职责。特别是，我们的BBN模型进一步配备了一个新颖的累积学习策略，该策略旨在首先学习普遍模式，然后逐步关注尾部数据。在包括大规模iNaturalist数据集在内的四个基准数据集上的广泛实验此外，验证实验可以证明我们的初步发现和BBN中的长尾问题的定制设计的有效性我们的方法在iNaturalist 2019大型物种分类竞赛中获得第一名，我们的代码是开源的，可在https://github.com/Megvii-Nanjing/BBN上获得。1. 介绍随着深度卷积神经网络（CNN）研究的出现，图像分类的性能取得了令人难以置信的成功是不可能的-第十章- S. Wei为通讯作者（weixs.gm@ gmail.com）。Q. 崔和ZM.Chen本研究得到了国家重点科技攻关项目（2005年第10期）的资助。2017YFA0700800）。图1.真实世界的大规模数据集通常显示phe-长尾分布的名词。极端的不平衡对分类准确性造成了巨大的挑战，特别是对于尾部类。类再平衡策略可以为长尾问题提供更好的分类精度在本文中，我们揭示了这些策略的机制是显着促进分类学习，但会在某种程度上意外地损害学习到的深层特征的代表能力。如概念上所示，在重新平衡之后，决策界限（即，黑色实弧）倾向于准确地分类尾部数据（即，红色方块）。然而，每个类别的类内分布变得更加可分离。定量结果见图2，更多分析可在补充材料中找到。与可用的高质量大规模数据集密不可分，例如、ImageNet ILSVRC 2012 [24]、MS COCO [18]和PlacesDatabase [37]等。与这些视觉识别数据集呈现大致均匀的类别标签分布相比，真实世界的数据集总是具有带有长尾的倾斜分布[15，26]，即。，一些类（a.k.a. 头类）占据大部分数据，而大多数类（a.k.a. 尾类）很少有少量样本，参见。图1.此外，近年来，计算机视觉社区构建和发布了越来越多反映现实挑战的长尾数据集，例如。、iNaturalist [6]、LVIS [10]和RPC [29]。在处理头部类尾级头尾巴头部类尾级头部类尾级数量的图像9720图2.在两个长尾数据集CIFAR-100-IR 50和CIFAR-10-IR 50上进行表示学习和分类器学习的不同方式的前1错误率[3]。正如所观察到的，当固定表示（比较垂直方向上三个块的错误率）时，使用RW/RS训练的分类器的错误率合理地低于CE。然而，当固定分类器时（在水平方向上比较错误率），用CE训练的表示令人惊讶地获得比RW/RS更低的错误率实验详情见第3节。这样的视觉数据，由于深度模型的数据饥饿限制以及长尾数据分布的极端类不平衡问题，深度学习方法不可行以实现出色的识别准确性。在文献中，处理长尾问题的突出和有效的方法是类再平衡策略，它被提出来减轻训练数据的极端不平衡。通常，类重新平衡方法大致分为两组，即：、重新采样[25，1，14，1，11，2，7，21，4]和成本敏感重新加权[13，28，5，23]。这些方法可以调整网络训练，通过重新采样的例子或重新加权的损失的例子在小批量，这是在预期更接近的测试分布。因此，类重新平衡对于直接影响深度网络的分类器权重更新是有效的，即，促进小班化学习。这就是为什么重新平衡可以在长尾数据上实现令人满意的识别精度然而，尽管再平衡方法有很好的实际预测，我们认为，这些方法仍然有负面影响，即。，它们还将意外地损害所学习的深度特征的代表能力（即，学习（在某种程度上）。具体而言，当数据不平衡达到极端时，重新采样有过度拟合尾部数据（通过过度采样）的风险，也有欠拟合整个数据分布（通过欠采样）的风险。对于重新加权，它将通过直接改变甚至反转数据来呈现频率作为我们的工作的初步，通过进行验证实验，我们证明我们上述的论点。具体来说，为了弄清楚再平衡策略是如何工作的，我们将深度网络的训练过程分为两个阶段，即：，分别进行表示学习和分类器学习。在前一阶段的代表，在语义学习中，我们采用普通训练（传统的交叉熵）、重加权和重采样作为三种学习方式来获得它们相应的学习表示。然后，在分类器学习的后一阶段，我们首先固定表示学习的参数（即，，骨干层）在前一阶段收敛，然后重新训练这些网络的分类器（即，全连接层）从头开始，也使用上述三种学习方式。在图2中，两个基准长尾数据集的预测错误率[3]，即报道了CIFAR-100-IR 50和CIFAR-10-IR 50。显然，在固定表示学习方式时，重新平衡方法可以合理地实现更低的错误率，这表明它们可以促进分类学习。另一方面，通过固定分类器的学习方式，对原始不平衡数据进行普通训练可以根据其更好的特征带来更好的结果。此外，重新平衡方法的较差结果证明它们会损害特征学习。因此，在本文中，为了彻底提高长尾问题的识别性能，我们提出了一个统一的双边分支网络（BBN）模型，以同时兼顾表示学习和分类器学习。如图3所示，我们的BBN模型由两个分支组成，称为一般来说，BBN的每个分支分别执行自己的任务，分别用于顾名思义，传统的学习分支配备了典型的均匀采样器w.r.t.原始数据DISPLAY负责学习用于识别的通用模式。同时，再平衡分支与反向采样器耦合被设计为模拟尾部数据。在此之后，这些双边分支的预测输出通过自适应权衡参数α聚合在累积学习部分中。α由9721图3.我们的双边分支网络框架。它由三个关键部分组成：1）常规学习分支从均匀采样器获取输入数据，均匀采样器负责学习原始分布的通用模式。同时，2）再平衡分支从反向采样器获取输入，并且被设计用于对尾部数据进行建模。两个分支的输出特征向量fc和fr通过3）我们的用于计算训练损失的累积学习策略聚合。“Adaptor”更重要的是，α可以进一步控制每个分支的参数更新，例如，当在训练后期强调尾部数据时，避免损坏学习的通用特征在四个基准长尾数据集上的实验结果此外，广泛的验证实验和烧蚀研究可以证明上述初步发现，也验证了我们的长尾问题的定制设计的有效性。本文的主要贡献如下：• 我们探讨了长尾问题的突出类再平衡方法的机制，并进一步发现这些方法可以显着地促进类的平衡。更简单的学习，同时会影响表征学习w.r.t.原始数据分布。• 我们提出了一个统一的双边分支网络（BBN）模型来处理表示学习和分类器学习，以彻底提升长尾识别。此外，一个新的累积学习策略的发展，以调整双边学习，并结合我们的BBN模型• 我们在四个基准长尾视觉识别数据集上评估了我们的模型，我们提出的模型与显然实现了优于先前的计算方法的性能。2. 相关工作班级再平衡策略：再抽样方法作为最重要的班级再平衡策略之一，GIES可分为两种类型：1）过采样通过简单地重复少数类的数据[25，1，2]和2）通过放弃主导类的数据进行欠采样[14，1，11]。但有时，通过重新采样，重复的尾样本可能会导致对少数类的过度拟合[4，5]，而丢弃宝贵的数据肯定会损害深度网络的泛化能力。重新加权方法是另一系列突出的类别重新平衡策略，通常在损失函数中为尾类的训练样本分配较大的权重[13，28]。然而，重新加权无法处理长尾数据的大规模真实场景，并且往往会导致优化困难[20]。因此，Cui et al. [5]建议采用有效样本数[5]代替比例频率。此后，Cao et al. [3]探讨了培训示例的边际，并设计了一个标签分发意识损失，以鼓励少数族裔班级获得更大的边际。此外，最近开发了一些两阶段微调策略[3，6，22]来修改重新平衡，以有效处理长尾问题。具体来说，他们将培训过程分为两个阶段。在第一阶段，他们像往常一样在原始不平衡数据上训练网络，并在第二阶段仅利用重新平衡来以较小的学习率微调网络。Beyondthat,othermethodsof differentlearningparadigms were also proposed to deal with long-tailed prob-lems, e.g. ，度量学习[34，13]，元学习[19]和知识转移学习[28，36]，然而，这些不在本文的范围内。Mixup：Mixup [33]是一种通用的数据增强算法，即凸组合训练图像及其相关标签的随机对，以在训练深度网络时生成附加样本。此外，man-ifold mixup [27]对随机变量传统学习科累积学习间隙WC均匀取样器共享权重Softmax重新平衡分支间隙Wr反向采样器时代头→尾头→尾损失适配器9722在流形特征空间中对样本进行扩充。混合中的混合比从β分布中采样，以增加扩增的随机性。虽然mixup显然与我们统一的端到端可训练模型相去甚远，但在实验中，我们仍然与一系列mixup算法进行了比较，以验证我们的有效性。3. 阶级再平衡策略是如何工作的？在本节中，我们试图找出这些阶级再平衡方法的工作机制更具体地说，我们将深度分类模型分为两个基本部分：1）特征提取器（即，，前端基础/骨干网络）和2）分类器（即，最后的全连接层）。因此，深度分类网络的学习过程可以分为表示学习和分类器学习。由于类重新平衡策略可以通过改变训练数据分布更接近测试并更多地关注尾类来提高分类准确性，因此我们提出了一个猜想，即这些策略的工作方式是显着促进分类器学习，但可能会由于扭曲原始分布而损害学习的深度特征的普遍代表能力。为了证明我们的猜想，我们设计了一个两阶段的实验方式来分别学习深度模型的表示具体地说，在第一阶段，我们用普通训练（即，交叉熵）或重新平衡方法（即，重新加权/重新采样）作为学习方式。然后，我们得到不同种类的特征提取器对应于这些学习方式。当进入第二阶段时，我们固定前一阶段学习的特征提取器的参数，并重新从头开始用上述学习方式重新训练分类器。原则上，我们设计这些实验是为了通过遵循控制变量方法，公平地比较以不同方式学习的表示和分类器的质量CIFAR [16]数据集是通常用于评估计算机视觉方法的图像集合。以前的工作[5，3]创建了具有不同不平衡比率的CIFAR数据集的长尾版本，即最频繁类的数目除以最不频繁类的数目，以评估性能。在本节中，在[3]之后，我们还使用长尾CIFAR-10/CIFAR-100作为试验台。如图2所示，我们进行了几个对比实验来验证我们对CIFAR-100-IR 50的猜想（不平衡比为50的长尾CIFAR-100）。如前所述，我们将整个网络分为两部分：特征提取器和分类器。然后，我们应用三个根据我们的两阶段训练方式，分别为特征学习和分类器学习的方式因此，我们可以根据不同的排列获得九组结果：（1）交叉熵（CE）：我们像往常一样在原始的不平衡数据上训练网络传统的交叉熵损失。（2）重新采样（RS）：我们首先对一个类进行均匀采样，然后通过替换采样从该类通过重复该过程，获得平衡的小批量数据。(3)重新称重（RW）：我们通过其类别的样本大小的倒数重新加权所有样本。在验证集上评估错误率。如图2所示，我们从两个角度观察到：• 分类器：当我们应用相同的表示学习方式时（比较垂直方向），可以合理地发现RW/RS总是比CE实现更低的分类错误率，这归因于它们的重新平衡操作调整分类器权重• 表述：当应用相同的分类器学习方式时（比较三个块的错误率，水平方向），看到CE块的错误率始终低于RW/RS块的错误率有点令人惊讶。研究结果表明，与CE的培训取得了更好的分类结果，因为它获得了更好的特性。RW/RS的较差结果表明，它们导致学习到的深度特征的较差辨别能力。此外，如图2（左）所示，通过在表示学习中使用CE，在分类器学习中使用RS，我们可以在 CIFAR-100-IR 50的验证集此外，为了评估三种方式产生的表示的泛化能力，我们使用在CIFAR-100-IR 50上训练的预训练模型作为特征提取器来获得CIFAR-10-IR 50的表示，然后执行与上述相同的类分解器学习实验。如图2（右）所示，在CIFAR-10-IR 50上，即使在特征提取器是在另一个长尾数据集上训练的情况下，它也可以具有相同的观察结果4. 方法4.1. 总体框架如图3所示，我们的BBN由三个主要组件组成。具体而言，我们设计了两个分支，分别用于表示学习和分类器学习，称为两个分支使用相同的残差网络结构[12]并且共享除了最后的残差块之外的所有权重。令X表示训练样本，并且y·∈ {1，2，.，C}是其对应的标签，其中C是班级数量。对于双侧分支，我们应用单-分别对它们中的每一个形成和反向采样器，并获得两个样本（ xc， yc）和（ xr， yr）作为输入数据，其中（xc，yc）用于常规学习分支，（xr，yr）用于再平衡分支。然后，两个样本9723公司简介N被送入各自对应的分支，通过全局平均池化得到特征向量fc∈RD和fr∈RD采样数量wiPi=CWJ、（四）此外，我们还设计了一个特定的累积学习策略，用于在训练阶段在两个分支之间转移学习“注意力”。具体地，通过用自适应权衡参数α控制fc和fr的权重，加权特征向量αfc和（1-α）fr将被送入分类器Wc∈RD×C和Wr∈RD×C产出将通过以下方式整合在一起：元素加法输出logit公式为z=αW<$f+（1−α）W<$f，（1）其中z∈RC是预测输出，即，[z1，z2，.，z[C]=0.对于每个类i∈ {1，2，.，C}，softmax函数通过以下方式计算类的概率ezij=1其中wi=Nmax; 2）根据以下随机采样类：我3）从类别i中均匀地拾取样本，更换.通过重复该反向采样过程，获得小批量的训练数据。权重共享。在BBN中，两个分支经济上共享相同的剩余网络结构，如图3所示。我们使用ResNets [12]作为我们的骨干网络，例如。、ResNet-32和ResNet-50。具体来说，两个分支网络，除了最后的残余块之外，共享相同的权重。共享权重有两个好处：一方面，传统学习分支的良好学习表示可以有利于再平衡分支的学习。另一方面，共享权重将大大降低推理阶段的计算复杂度。pi=Cj=1.（二）ezj4.3. 拟议的累积学习策略然后，我们将E（·，·）表示为跨中心p y损失函数，输出概率分布表示为p=[p1，p2，.，[2008-04-20]因此，我们的BBN模型的加权交叉进入L=α E （ p， yc ） + （ 1−α ） E （ p，yr），（3）整个网络是端到端可训练的。4.2. 拟议的双边事务处结构在本节中，我们详细阐述了我们的统一提出了一种累积学习策略，通过控制两个分支产生的特征的权重和分类损失L，在两个分支之间转移学习焦点.它的设计是首先学习通用模式，然后逐渐关注尾部数据。在在训练阶段，常规学习分支的特征fc将乘以α，而再平衡分支的特征fr将乘以1-α，其中α根据训练时期自动生成。具体地，总训练时期的数量表示为Tmax，当前时期为T。α计算公式如下：双向分支结构如图3所示。如前所述，所提出的传统学习分支和再平衡分支确实履行它们自己的职责（即，，representa-α= 1−.Σ2不Tmax、（五）学习和分类学习）。这些分支有两种独特的设计。数据采样器。传统学习分支的输入数据来自统一采样器，其中训练数据集中的每个样本仅采样一次，在一个训练阶段中的概率相等。均匀采样器保留了原始分布的特征，因此有利于表示学习。而重新平衡分支旨在缓解极端不平衡，特别是提高尾类的分类精度[26]，其输入数据来自反向采样器。对于反向抽样器，每一类的抽样概率与其样本容量的倒数成正比，即，一个类中的样本越多，该类的抽样概率就越小。在公式中，让表示类别i的样本数为Ni，所有类别的最大样本数为Nmax。构建反向采样器有三个子程序：1）根据下式计算类别i的采样可能性Pi：其中α将随着训练时期的增加而逐渐减小-折痕直觉上，我们设计α的自适应策略是基于这样的动机，即区分性特征表示是学习鲁棒分类器的基础。虽然表示学习和分类器学习值得同等关注，但我们的BBN的学习重点应该逐渐从特征表示转向分类器，这可以彻底提高长尾识别的准确性。随着α的减小，BBN的重点从传统的学习分支转向再平衡分支。与两阶段微调策略[3，6，22]不同，我们的α确保不同目标的两个分支可以在整个训练过程中不断更新，避免了为一个目标训练时对另一个目标的影响在实验中，我们还提供了这种直觉的定性结果第97245.5.2节。9725N表1.ResNet-32在长尾CIFAR-10和CIFAR-100上的前1错误率（最佳结果以粗体标记数据集长尾CIFAR-10长尾CIFAR-100不平衡比10050101005010CE29.6425.1913.6161.6856.1544.29Focal [17]29.6223.2813.3461.5955.6844.22[33]第三十三话26.9422.1812.9060.4655.0141.98[27]第二十七话27.0422.0512.9761.7556.9143.45歧管混淆（两个采样器）26.9020.7913.1763.1957.9543.54CE-DRW [3]23.6620.0312.4458.4954.7141.88CE-DRS [3]24.3920.1912.6258.3954.5241.89CB-Focal [5]25.4320.7312.9060.4054.8342.01LDAM-DRW [3]22.9718.9711.8457.9653.3841.29我们的BBN20.1817.8211.6857.4452.9840.884.4.推理阶段在推理过程中，测试样本被送入两个32 [12]作为我们所有实验的骨干网络，通过标准的小批量随机梯度下降（SGD），动量为0。9，重量衰减为2×10−4。我们训练所有得到分支和两个特征fc和fr因为这两个分支同样重要，我们只需将α固定为0。5在测试阶段。然后，相等加权的特征被馈送到其对应的分类器（即，，Wc和Wr），以获得两个预测logits。最后，两个logits通过元素加法聚合以返回分类结果。5. 实验5.1. 数据集和经验设置长尾CIFAR-10和CIFAR-100。CIFAR-10和CIFAR-100都包含60，000张图像，其中50，000张用于训练，10，000张用于验证，类别编号分别为10和100。为了公平比较，我们使用与[ 3 ]中使用的相同的CIFAR数据集的长尾版本，数据不平衡程度可控。我们使用不平衡因子β来描述长尾问题的严重性，其中最频繁的类和最不频繁的类的训练样本的数量，例如。，β=Nmax.min我们在实验中使用的不平衡因子是10，50和100。iNaturalist 2017和iNaturalist 2018。的iNatural- ist物种分类数据集是大规模的真实世界遭受极端不平衡的标签分布的数据集。iNaturalist的2017年版本包含579，184张图片，5，089个类别，2018年版本包含8，142个类别的437，513张图片。请注意，除了极端的不平衡之外，iNaturalist数据集还面临细粒度问题[32，35，30，31]。在本文中，训练和验证图像的官方分割用于公平比较。5.2. 实现细节CIFAR的实施细节。对于长尾CIFAR-10和CIFAR-100数据集，我们遵循[12]中提出的数据增强策略：从原始图像或其水平图像中随机裁剪32 ×32在每侧填充4个像素的IP我们训练ResNet-这些模型在单个NVIDIA 1080Ti GPU上运行200个epoch，批量大小为128。初始学习率设置为0。第一个五个epoch使用线性预热学习率计划进行训练[8]。学习率在第120和160个历元处衰减0. 01我们的BBN 关于iNaturalist的实施细节。为了公平比较，我们在iNaturalist 2017和iNaturalist 2018上的所有实验中使用ResNet-50 [ 12 ]作为骨干网络。我们遵循[ 8 ]中相同的训练策略，在NVIDIA 1080Ti的四个GPU上批量大小为128。我们首先通过将短边设置为256像素来调整图像大小，然后从它或它的水平切片上截取224×224。在训练过程中，我们将第60和第80个时期的学习率衰减0。1为我们的BBN，分别。5.3. 比较方法在实验中，我们将我们的BBN模型与三组方法进行比较：• 基线方法。我们采用具有交叉熵损失和焦点损失的普列训练[17]作为我们的基线。请注意，我们还使用一系列混合算法[33，27]进行实验以进行比较。• 两阶段微调策略。为了证明我们的累积学习策略的有效性，我们还与提出的两阶段微调策略相在以前的国家的最先进的[3]。我们在第一阶段使用交叉熵（CE）对不平衡数据训练网络，然后在第二阶段进行类重新平衡训练“CE-DRW” and “CE-DRS”refer to the two-stage baselines using re-weighting andre-sampling at the sec- ond• 最先进的方法。对于最先进的方法，我们与最近提出的LDAM [3]和CB-Focal [5]进行了比较，这些方法实现了良好的分类精度在这四个长尾数据集上。9726表 2. ResNet-50 在大规模长尾数据集 iNaturalist 2018 和iNaturalist 2017上的前1错误率。我们的方法比以前的国家的最先进的大幅度，特别是与2×调度。“*” indicates originalresults in that数据集iNaturalist 2018iNaturalist 2017CE42.8445.38CE-DRW [3]36.2740.48CE-DRS [3]36.4440.12CB-Focal [5]38.8841.92LDAM-DRW*[3]32.00–LDAM-DRW [3]35.4239.49LDAM-DRW [3]（2×）33.8838.19我们的BBN33.7136.61我们的BBN（2×）30.3834.255.4. 主要结果5.4.1长尾CIFAR的实验结果我们在长尾CIFAR数据集上进行了大量实验，具有三种不同的不平衡比率：10、50和一百块表1报告了各种方法的错误率。我们证明我们的BBN始终实现最佳在比较其他比较方法时，包括两阶段微调策略（即，、 CE-DRW/CE-DRS ）、一系列混叠算法（即，、mixup、流形mixup和具有与我们的采样器相同的两个采样器的流形mixup），以及先前的最新技术（即，，CB-Focal [5]和LDAM-DRW [3]）。特别是对于不平衡比率为100的长尾CIFAR-10（极端不平衡情况），我们得到了20.18%的错误率，比LDAM-DRW [3]低2.79%。此外，从该表中可以发现，两阶段微调策略（即、CE-DRW/CE-DRS）是有效的，因为它们可以获得与最先进的方法相比相当甚至更好的结果。5.4.2iNaturalist的实验结果表2显示了两个大规模长尾数据集的结果，即iNaturalist2018和iNaturalist 2017。如该表所示，两阶段微调策略（即：， CE-DRW/CE-DRS ）也表现良好，与长尾CIFAR的结果一致。与其他方法相比，在iNaturalist上，我们的BBN仍然优于竞争方法和基线。此外，我们认为，由于iNaturalist是大规模的，我们也使用2×调度器进行网络训练。同时，为了公平的比较，我们进一步评估了以前最先进的LDAM-DRW [3]与2×训练调度器。很明显，使用2×调度器，我们的BBN比没有2×调度器的BBN实现了更好的结果。此外，与LDAM-DRW（2×）相比，+3。50%+3 比iNaturalist 2018提高了94%，表3.长尾CIFAR-10-IR 50上BBN再平衡分支不同采样器的消融研究采样器错误率均匀取样器21.31平衡取样器21.06反向采样器（我们的）17.82表4.BBN的不同衔接子策略对长尾CIFAR-10-IR 50的消融研究适配器α错误率等重量0的情况。521.56β分布Beta（0. 2，0。（二）.Σ221.75抛物线增量不Tmax22.70线性衰减1−TTmax18.55余弦衰变cos（T·π）Tmax218.04抛物线衰变（我们的）.Σ21−TTmax17.82iNaturalist 2017年此外，即使我们不使用2×调度器，我们的BBN仍然可以得到最好的结果。对于细节，我们使用作者提供的源代码基于LDAM [ 3 ]进行了实验，但未能重现该论文中报道的结果。5.5. 消融研究5.5.1用于再平衡分支的不同采样器为了更好地理解我们提出的BBN模型，我们在重新平衡分支中使用的不同采样器上进行了实验。我们在表3中列出了使用不同采样器训练的模型的错误率。为了清楚起见，均匀采样器保持原始的长尾分布。平衡采样器为所有类分配相同的采样可能性，并构造一个服从平衡标签分布的小批量训练数据。如该表所示，反向采样器（我们的提议）实现了比均匀和平衡采样器好得多的性能，这表明BBN的再平衡分支应该通过享受反向采样器来更多地关注尾部类。5.5.2不同的累积学习策略为了便于理解我们提出的累积学习策略，我们探索了几种不同的策略来生成CIFAR-10-IR 50上的自适应权衡参数α。具体来说，我们用进展相关/不相关策略进行测试，参见表4.为了清楚起见，进度相关策略会根据训练时期的数量调整α，例如：线性衰减、余弦衰减等。与进度无关的策略包括相等的权重或从离散分布（例如，β分布）。9727i=1表5.不同学习方式下的特征质量评价表征学习方式错误率CE58.62RW63.17Rs63.71BBN-CB58.89BBN-RB61.09如表4所示，衰减策略（即，线性衰减、余弦衰减和我们的抛物线衰减）产生α的方法比其他方法（即线性衰减、余弦衰减和抛物线衰减）产生的结果更好。等权、β分布和抛物线增量）。这些观察结果证明了我们的动机，即应该首先学习传统学习分支，然后再学习再平衡分支。在这些策略中，生成α的最佳方法是提出的抛物线衰减方法。另外，在常规学习之前进行再平衡的抛物线增量的性能最差，这从另一个角度验证了我们的建议更详细的讨论可以在补充材料中找到。5.6. 我们建议的验证实验5.6.1特征质量评价在第3节中证明了使用vanilla CE对原始数据分布进行学习可以获得良好的特征表示。在本小节中，我们通过遵循第3节中的经验设置，进一步探索我们提出的BBN的表示质量。具体来说，给定一个在CIFAR-100-IR 50上训练的BBN模型，首先，我们固定两个分支的表示学习的参数然后，我们分别在CIFAR-100-IR 50上从头开始重新训练两个分支的相应分类器。最后，在这两个分支上独立地测试分类错误率。如表5所示，通过BBN的常规学习分支（“BBN-CB”）获得的特征表示实现了与CE相当的性能，这表明我们提出的BBN极大地保留了注意，BBN的再平衡分支（5.6.2分类器权重让表示 W∈RD×C作为一设置分类器{w1，w2，...，wC}，其中wi∈RD表示类别i的权重向量。以前的工作[9]图4. 不同学习方式的分类器权重的范数。具体来说，图例中的σ是十个类别的σ2如图4所示，我们可视化了在CIFAR-10-IR 50上训练的10个类的N2对于我们的BBN，我们可视化了常规学习分支（“BBN-CB”）的分类器权重Wc此外，还对第3节中的学习方式进行了培训，即：、CE、RW和RS。显然，我们提出的模型的10个类的分类器的2 -范数（即，，“BBN-ALL”）基本相等，并且它们的标准差σ = 0。148是最小的一个。对于其他学习方式训练的分类器，CE的σ2RW/RS的2-范数分布看起来有点奇怪，但它们的标准差比我们的大。它给出了一个解释为什么我们的BBN可以优于这些方法。此外，通过单独分析我们的模型，其常规学习分支（再平衡分支的2-范数分布（“BBN-RB”）具有相对于原始长尾分布，这表明它能够模拟尾部。6. 结论在本文中，为了研究长尾问题，我们探索了类重新平衡策略如何在深度网络的增强表示学习和分类器学习中发挥作用，并揭示了它们可以显著促进分类器学习，但也会在一定程度上损害表示学习。受此启发，我们提出了一个双边分支网络（BBN），该网络具有特定的累积学习策略，以兼顾表示学习和分类学习，从而彻底提高识别率已经表明，C的值为2-范数{\displaystyle{\mathbb {i\mathbb{2}不同的执行长尾任务。通过广泛的输入类可以证明分类器的偏好即，具有最大范数的分类器wi倾向于将一个例子判断为属于其类i。在[9]之后，我们可视化这些分类器的N2实验证明，我们的BBN可以达到最佳的长尾基准的结果，包括大规模的iNaturalist。在未来，我们试图解决长尾检测问题与我们的BBN模型。9728引用[1] Mateusz Buda、Atsuto Maki和Maciej A Mazurowski。卷积神经网络中类不平衡问题的系统研究。神经网络，106：249二、三[2] 乔纳森·伯德和扎卡里·利普顿。深度学习中重要性加权的效果是什么？在ICML，第872-881页，2019年。二、三[3] Kaidi Cao ， Colin Wei ， Adrien Gaidon ， NikosArechiga，and Tengyu Ma.学习具有标签分布感知的边际损失的不平衡数据集。在NeurIPS，第1二三四五六七[4] 尼特什五世作者：Kevin W.作者：Lawrence O.厅和W.菲利普·凯格尔迈耶SMOTE：合成少数过采样技术.《人工智能研究杂志》，16：321-357，2002年。二、三[5] Yin Cui，Menglin Jia，Tsung-Yi Lin，Yang Song，andSerge Belongie.基于有效样本数的类平衡损耗。在CVPR中，第9268-9277页，2019年。二三四六七[6] Yin Cui，Yang Song，Chen Sun，Andrew Howard，andSerge Belongie.大规模细粒度分类和特定领域的迁移学习。在CVPR中，第4109-4118页，2018年。一、三、五[7] 克里斯·德拉蒙德和罗伯特·霍尔特。C4.5、类别不平衡和成本敏感性：为什么欠采样胜过过采样。从不平衡数据集学习的讲习班，11：1-8，2003年。2[8] PriyaGo yal ， PiotrDolla´r， RossGirshick ， PieterNoord-huis ， Lukasz Wesolowski ， Aapo Kyrola ， AndrewTulloch，Yangqing Jia，and Kaiming He.准确的大批量小批量SGD：1小时内训练ImageNet。arXiv预印本arXiv：1706.02677，第1-12页，2017年。6[9] 郭延东和张磊。通过推广代表性不足的班级进行一次性人脸识别。arXiv预印本arXiv：1707.05574，第1-12页，2017年。8[10] 阿格里姆·古普塔、彼得·多尔和罗斯·格希克。LVIS：用于大词汇实例分割的数据集在CVPR中，第5356-5364页1[11] 何海波和爱德华多·加西亚。从不平衡的数据中学习IEEE Transactions on Knowledge and Data Engineer-ing，21（9）：1263-1284，2009. 二、三[12] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习CVPR，第770-778页，2016年四五六[13] Chen Huang，Yining Li，Chen Change Loy，and XiaoouTang.学习不平衡分类的深度表示在CVPR中，第5375-5384页，2016年。二、三[14] 纳塔莉·雅普科维奇和莎朱·斯蒂芬。阶级不平衡问题：系统的研究智能数据分析，6（5）：429-449，2002年。二、三[15] Maurice George Kendall, Alan Stuart, John Keith Ord,Steven F Arnold, Anthony O’Hagan, and Jonathan Forster.肯德尔1987. 1[16] 亚历克斯·克列日夫斯基和杰弗里·辛顿从微小的图像中学习多层特征技术报告，Citeseer，2009年。4[17] 林宗义、普里亚·戈亚尔、罗斯·格希克、何开明和彼得·多尔·拉尔。密集目标检测的焦面损失在ICCV，第2980-2988页6[18] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。Microsoft COCO：上下文中的公用对象。在ECCV，第740-755页，2014中。1[19] Ziwei Liu ， Zhongqi Miao ， Xiaohang Zhan ， JiayunWang，Boqing Gong，and Stella X. Yu.开放世界中的大规模长尾识别。在CVPR中，第1-10页3[20] Tomas Mikolov 、 Ilya Sutskever 、 Kai Chen 、 Greg SCorrado和Jeff Dean。单词和短语的分布式表示及其组合性。在NeurIPS，第31113[21] 阿金克亚·莫尔在不平衡数据集中提高分类性能的恢复技术的调查。arXiv预印本arXiv：1608.06048，第1-7页，2016年。2[22] Wanli Ouyang ， Xiaogang Wang ， Cong Zhang ， andXiaokang Yang.使用长尾分布对深度模型进行微调的因素。在CVPR，第864三、五[23] Mengye Ren ， Wenyuan Zeng ， BinYang ， and RaquelUrtasun. 学习为强大的深度学习重新加权示例。在ICML，第1-13页，2018年。2[24] Olga Russakovsky ， Jia Deng ， Hao Su ， JonathanKrause，San-jeev Satheesh，Sean Ma，Zhiheng Huang，AndrejKarpathy ， AdityaKhosla ， andMichaelBernstein.ImageNet大规模视觉识别挑战。InternationalJournal of Computer Vision ， 115 （ 3 ）： 211-252 ，2015。1[25] 李申，林舟晨，黄清明。中继反向传播用于深度卷积神经网络的有效学习在ECCV，第467-482页，2016年。二、三[26] 格兰特·范·霍恩和皮埃特罗·裴罗纳。魔鬼在尾巴里：野外的细粒度分类。arXiv预印本arXiv：1709.01450，第1-22页，2017年。一、五[27] Vikas Verma、Alex Lamb、Christopher Beckham、AmirNaja fi、Ioannis Mitliagkas、David Lopez-Paz和YoonneBengio。歧管混淆：通过插入隐藏状态得到更好的表示。

下载后可阅读完整内容，剩余1页未读，立即下载