ACE：一阶长尾识别的AllyComplementaryExperts

7 浏览量更新于2023-10-14 收藏 12.85MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1120ACE：一次性解决长尾识别的AllyComplementary Experts0Jiarui Cai，Yizhou Wang，Jenq-NengHwang华盛顿大学西雅图，美国0{ jrcai, ywang26, hwang } @uw.edu0摘要0一阶长尾识别方法以“跷跷板”方式改善整体性能，即为了更好地分类尾部类别，牺牲头部的准确率，或者提高头部的准确率，但忽视尾部。现有的算法通过多阶段训练过程绕过这种权衡：在不平衡集上进行预训练，然后在平衡集上进行微调。尽管取得了有希望的性能，但它们不仅对预训练模型的泛化能力敏感，而且不容易集成到其他计算机视觉任务（如检测和分割）中，因为仅对分类器进行预训练是不适用的。在本文中，我们提出了一种一阶长尾识别方案，即AllyComplementaryExperts（ACE），其中专家是在其训练中占主导地位的子集中最有知识的专家，并且对于其他少见类别的专家是互补的，而不会被其从未见过的内容所干扰。我们设计了一种分布自适应优化器，以调整每个专家的学习速度，以避免过拟合。普通的ACE方法在CIFAR10-LT、CIFAR100-LT、ImageNet-LT和iNaturalist数据集上的性能优于当前的一阶SOTA方法3�10％。它还被证明是第一个在一个阶段中同时改善多数类和少数类别准确率的方法。代码和训练模型可在https://github.com/jrcai/ACE找到。01. 引言0目标识别是计算机视觉中最重要和最实质性的应用之一。然而，最先进的目标识别方法在分类现实世界实体（其自然上呈长尾分布）方面的能力有限。当前的模型主要是由人工平衡的数据集驱动[4,13]，这些模型被样本丰富的类别所主导。0多数类准确率0少数类准确率0基准0� -范数[10]0OLTR [15]0LDAM+DRW [1]0cRT [10]0渐进重采样+IM0CB Resampling +IM0CB Focal Loss + IM0输入0Mix-up [30]0类平衡0交叉熵损失0Focal Loss [14]0渐进0Resampling [10]0类平衡重采样[9]0ReMix [2]0流形0Mix-up [30]0BBN [34]0一阶：重新平衡和数据增强0多阶段：多阶段训练和迁移学习0RIDE [23]0LFME [26]0图1.代表性长尾识别方法在多数类和少数类方面与基准模型（ResNet）相比的性能。结果表明，大多数重新平衡方法通过牺牲多数类的性能来改善少数类别的性能，即使进行了两阶段训练（第四象限）。数据增强对头部有效，但对尾部略有损害（第二象限）。提出的ACE是第一个同时改善多数类和少数类的一阶SOTA方法。此图的统计数据列在补充材料中。0当适应长尾数据集时，现有的方法往往过于关注多数类并忽视尾部。面对现实，尽管尾部类别稀缺，但它们在各个领域中与头部具有相同甚至更高的重要性，例如生物物种识别[20]、疾病分类[21]和网络垃圾消息检测[33]。这个长期存在的瓶颈非常重要。1130将分类相关的计算机视觉任务限制在实际应用中，包括检测[19, 25, 28]和实例分割[22,29]。为了确保对所有类别具有良好的识别能力，需要一种对尾部敏感的分类器。现有的解决方案分为三类：一阶段[8,24]，带预训练的两阶段[10, 1]和多阶段多专家框架[26,23]。一阶段算法通过重新平衡训练集来解决训练集不平衡的问题，包括重新采样[10]和重新加权[1, 3,31]。尽管提升了尾部的性能，但平衡技术显示出明显的“跷跷板”现象（图1），即大多数类别的准确性受到牺牲，表明头部类别的代表性不足。这引发了一个新的担忧，即降低头部类别的准确性可能导致更严重的后果。以动物识别系统为例，一些物种的种群比濒危物种更丰富。提高雪豹的识别准确性几乎没有机会得到验证，因为它们很少被发现；相反，无法准确分类两种鸟类可能很容易导致对当地生态的误解。近年来的文献[10, 23, 26,32]以迂回的方式处理这个问题：首先用整个不平衡的数据集训练特征提取器（骨干），进行可泛化的表示学习，然后通过重新采样数据或在级联阶段为各种任务构建多样化的专家来重新调整分类器。然而，尽管它们的性能有所提高，但这个总体思路仍然是新瓶装旧酒，因为它们进行了新的权衡。为了重新平衡数据分布，过度依赖调整良好的预训练模型和重新平衡技巧使得框架对超参数敏感，并且很难找到一个最佳点。更重要的是，累积的训练步骤使得多阶段模型变得冗余且不太适合与其他任务同时集成，例如检测[22]和分割[29]。为了保证插拔性，因此非常希望只有一个阶段就能克服长尾挑战的分类器。克服当前长尾挑战的渴望使我们更深入地研究人类智能。当人类做出困难的分类选择时，比如诊断疾病，涉及到了对专家见解的利用，他们对自己的领域非常了解。此外，对于罕见疾病，小组讨论和咨询是必不可少的，以排除干扰潜力。类似地，在长尾问题中，我们受到启发，设计了一组具有互补技能的专家：（1）他们共享来自最多样化数据源的基础知识；（2）他们分别在数据的不同部分上进行专业分割，并意识到他们不擅长的领域；（3）来自经验丰富的专家（看到更多数据）的意见被纳入以补充初级专家的判断。0根据这个思路，我们提出了Ally ComplementaryExperts（ACE）用于一阶段长尾识别。ACE是一个多专家结构，专家们在共享的骨干网络上并行训练。专家们被分配到不同但有重叠的不平衡子集上，以从在主导部分的专业化中受益。我们还引入了一种分布自适应优化器，根据其训练集的数量来控制每个专家的更新。最后，所有专家的输出通过数据分割进行重新缩放和聚合。ACE在没有任何预训练或分阶段训练的情况下进行端到端训练。我们在各种广泛使用的长尾数据集上对ACE进行了评估，包括CIFAR10-LT，CIFAR100-LT [3]，ImageNet-LT [15]和iNaturalist2018[20]，并进行了各种实验设置。我们的方法成为所有一阶段长尾识别方法中的新SOTA，准确率提高了3-10％，并且是第一个在所有三个频率组（多样本、中样本和少样本）上提高性能的方法。ACE还大幅超过了几种多阶段方法[10, 11,15, 26]。02. 相关工作0长尾识别的方法主要可以分为三类：（1）重新调整数据分布；（2）两阶段训练和迁移学习；（3）多专家/分支框架。02.1. 关于数据：重新平衡和数据增强0重新平衡包括对头部类别进行欠采样，对尾部类别进行过采样，并通过样本的频率或重要性对损失函数进行重新加权[9，14，3，1]。简单的类平衡重新采样[8，24]很容易在样本稀缺的类上过拟合，通过平方根采样[17]构建一个不那么不平衡的分布，或者逐渐从实例平衡采样调整到类平衡采样[1，3，34]是一种更稳定和有前景的替代方法。此外，强大的数据增强可以弥补数据的不足，提高模型的泛化能力，并增加训练集的多样性。Mixup[30]及其长尾变体重新平衡Mix-up（ReMix）[2]；以及尾部类别合成[32]是代表性的方法。然而，上述算法通常为了头部而牺牲尾部，或者反之（图1）。原因是表示学习和分类器学习之间的矛盾，即基于实例的（偏差）采样学习最具有泛化能力的表示，而无偏的分类器不太可能过拟合重新采样的集合。̸1140方法专家数据专家之间的关系训练阶段的数量0多数类增益0少数类增益0LFME [26]非重叠分割独立2 + +0RIDE [23]相同的完整集合竞争和互补3 ++ +0ACE（我们的方法）重叠分割支持和互补1 + ++0表1. 提出的方法与两种最先进的多专家网络的比较。02.2. 关于表示：两阶段训练和迁移学习0第二类方法通过两阶段训练或基于记忆的迁移学习将学习到的知识从头部迁移到尾部。延迟重新平衡的重新采样（DRS）和重新加权（DRW）方案[1]在第一阶段在不平衡集合上获得良好的表示后，使用重新平衡来训练分类器层。康等人[10]提出了τ-范数和可学习权重缩放（LWS）来重新平衡参数域中的分类器决策边界。OLTR[15]和膨胀的情节记忆（IEM）[35]利用记忆库进行原型学习和类别间的知识传递。然而，重新平衡的使用仍然可能损害头部的准确性，并且不可避免的额外内存消耗可能限制在大规模数据集上的部署。02.3. 集成方法：多专家网络0最近多专家或多分支网络的趋势显示，通过将相对平衡的子组分别处理，有很大潜力解决长尾问题。BBN[34]在正常和反向采样中分配两个分支，结合累积学习策略来调整双边训练。BBN将两阶段方法合并为一种，但仍然存在头部准确性轻微降低的缺点。LFME [26]和RIDE[23]是多专家架构，可以并行学习多个分类器，并结合知识蒸馏和分布感知的专家选择。我们的方法与这两种最先进的方法的主要区别总结在表1中。尽管取得了令人印象深刻的性能，但它们都需要进行大量的超参数调整来平衡多个优化函数。更重要的是，多阶段训练要求使它们难以集成到其他任务中，如检测和分割。03. 提出的方法03.1. ACE框架0所提出的Ally ComplementaryExperts（ACE）网络的架构如图2所示。遵循了一个0共享骨干网络，多个专家通过可学习的个体块和预测层分支出来。分布感知规划器为每个专家分配不同但有重叠的类别分割，包括目标类别（TC）和干扰类别（IC）。这些专家从三个方面互补：（1）它们的TC中占主导地位的类别不同，因此预测具有自己的优势；（2）TC之间有重叠，特别是在少数类别上，因此预测相互支持；（3）专家学习抑制IC的输出，以使其不会在从未见过的类别中带来歧义。为了进一步适应数据的差异，设计了一种分布自适应优化器来引导专家以自己的速度更新。我们使用分类损失L cls 和补充损失Lcom来进行一次性地对模型进行训练。最后，通过对每个数据分割中重新缩放的logits进行平均，聚合了专家的预测结果。03.2. 分布感知规划器0在不平衡集上，分类器往往在多数类别上的性能优于少数类别，这被认为是一个缺点，并且被现有方法所避免。然而，如果每个分割的预测都来自于对其有偏见的分类器，我们可以期望在任何地方都获得准确性提升。因此，我们设计了一个分布感知规划器，为每个专家分配一个训练集的子集，该子集也是不平衡的，并且分别由不同的分割所主导。形式上，该过程如下，0给定一个训练集D = {X;Y}，其中X表示数据，Y表示相应的类别标签，总共有C个类别，对于K个专家E ={E1，E2，...，EK}。每个Ei被分配子集类别Ci，其中C被假设为K的倍数，以简化讨论并不失一般性，|C1∪C2∪...∪CK|= C且Ci∩Cj ≠ �。0与重新平衡的精神类似，应该更多地暴露少数类别。因此，第i个专家T𝐶!TC"TC#Exp#Exp"IC"IC#! ℒ!"# (𝑇𝐶$) ℒ!%&(𝐼𝐶$)𝜼𝟐………! ℒ!"# (𝑇𝐶') ℒ!%&(𝐼𝐶')! ℒ!"# (𝑇𝐶() ℒ!%&(𝐼𝐶()𝜼𝑲+ 3, ..., C},ˆzi = ∥wi∥2∥w1∥2 · zi(2)o = |Sc| Ei∈Scˆzi(3)Licls(Bi) = −Licom(Bi) =1150指数0共享骨干网络专家分布自适应0优化器0互补结果0重新缩放0TC: 目标类别 : 反向传播0IC: 干扰类别0结果聚合0训练推理0组平均0图2.ACE的网络架构。包括四个组件：（1）用于表示学习的共享骨干网络；（2）分布感知规划器分别为每个专家分配不同的目标类别（TC）和干扰类别（IC）；（3）一组专家学习通过分类损失L cls 识别TC，并通过补充损失L com消除其对IC的影响；（4）分布自适应损失调整每个专家的学习速度η以实现同时收敛。通过以组平均的方式结合互补的专家（ACE），聚合的预测结果折中了所有专家的优点。0E i 被分配目标 C i 和干扰类别集合 � C i0K ( i − 1) } . (1) 对于随机抽样的训练数据的小批量 B � D ，E i 使用相应的子批次 B i = { ( x, y ) : ( x, y ) ∈ B , y ∈ Ci }。在这种情况下，总是有一个专家用所有样本进行训练，并且类别越小，呈现的专家越多。此外，通过这种数据分割机制，中等数量或少量的类别有机会主导一个专家，从而消除对样本丰富类别的偏见。如果 K = 1，网络退化为一个普通的分类器。与现有方法类似，我们使用 ResNet [ 7 ]作为我们的主干网络。最后一个残差块为每个专家复制，并跟随一个可学习的权重缩放 (LWS) 分类器 [ 10 ]。 E i的输出 logits (在 SoftMax 之前) 是 z i ∈ R 1 ×| C |，通过完全连接层的权重的范数进一步调整为 ˆ z i，以具有可比较的尺度：0训练了类别 c 的专家集合为 S c ，那么类别 c 的输出 logit是 S c 中输出的平均值，即0对 o 应用 SoftMax 操作以获得分类置信度。03.3. 目标函数0损失函数分别应用于每个专家，而不是聚合输出 o，以避免混合专家特定特征。我们使用交叉熵损失作为分类损失，对于 E i ，使用子批次 B i ，0C i ∑ y log( σ ( z i )) , (4)0其中，σ ( ∙ ) 表示 SoftMax操作。除了对分配的目标类别进行分类之外，每个专家的响应不应影响其它专家对于它们从未见过的类别，即干扰类别(IC)。对于专家自身而言，IC中的类别也是混淆的主要来源。通过消除 IC的影响，专家之间以互补的方式工作而不是竞争。因此，需要一个正则化项来抑制 IC 的输出。我们定义互补损失 Lcom 为0c j ∈ C i ∥ z c j i ∥ 2 . (5)0互补损失作为优化过程中的软正则化，最小化非目标类别的logits 以减小它们的影响。关于引入 L com的影响的详细研究可以在第 4.3 节中找到。LEi(Bi) = Licls + Licom.(6)ηi = η0 ·1160总体上，E i 的损失函数为03.4. 分布式自适应优化器0回顾一下线性缩放规则 [ 6 ]，用于使用随机梯度下降 (SGD)优化器在小批量中训练网络：当小批量大小乘以 k时，将学习率乘以 k。所有其他超参数 (权重衰减、动量等)保持不变。根据这个规则，为了避免过拟合，优化器应该具有分布感知性，将较小的权重分配给使用较少数据进行训练的 E i 。将基础学习率表示为 η 0，即用于用所有类别呈现的专家的学习率，第 i个专家的训练方式为0c ∈C i n c ∈ C n j , (7)0其中 N = { n 1 , n 2 , ...n C }是每个类别中的样本数量，假设 N 以降序排列。E 1的损失更新主干网络和 E 1 的参数，而 i > 1 的 L i仅更新专家本身。原因是由于数据重叠，错误很可能重复出现，这意味着主干网络可能因为相同的错误而被多次修正。这类似于重新加权方法的思想，如第 2.1节中介绍的那样，这种方法会损害表示学习。因此，只有 E1 更新主干网络。04. 实验04.1. 数据集和协议0通常，在长尾识别任务中，类别被分为许多（具有100个以上的训练样本）、中等（具有20到100个样本）和少数（具有少于20个样本）的分割[15]。长尾数据集的不平衡因子（IFs），定义为最大类别的频率除以最小类别的频率，从10到500以上不等[3, 15, 20]。CIFAR100-LT和CIFAR10-LT[3]是通过根据指数函数n =niµi（其中i是类别索引，ni是原始样本数，µ∈（0，1））减少训练样本从平衡的CIFAR数据集[13]人工创建的。我们使用两种常用的IFs，即100和50。每个分割大约有10K到13K个训练图像和10K个测试图像。我们使用ResNet-32作为基础网络，其中最后一个残差块被三倍化，以便与其他方法进行比较。根据[7]，对于训练样本，每边填充4个像素，然后在填充图像或其水平翻转的基础上进行32×32的随机裁剪。网络使用随机梯度下降（SGD）优化器进行400个epoch的训练，动量为0.9。基础0学习率为0.1，在第320和360个epoch时分别减小0.1。使用α为0.3的Mixup[30]数据增强方法，最后20个epoch不使用Mixup。ImageNet-LT [15]是从ImageNet-2012[4]中按照Pareto分布采样得到的，其幂值α=6。ImageNet-LT包含115.8K张图像，共1000个类别，每个类别最多有1280张图像，最少有5张图像。我们使用ResNet-10作为骨干网络。为了与[10,23]进行比较，我们还报告了使用ResNet-50和ResNeXt-50[27]的结果。对于数据预处理，训练样本被调整为256×256，然后随机裁剪为224×224，并以0.5的概率进行水平翻转；在测试时，保持测试样本的纵横比，首先将其较短的一边按比例调整为256，然后在中心裁剪224×224。网络使用动量为0.9的SGD优化器进行100个epoch的训练。基础学习率为0.1，在第120和160个epoch时减小0.1。使用α为0.3的Mixup数据增强方法，最后20个epoch不使用Mixup。iNaturalist2018[20]是一个用于动植物物种识别的真实大规模数据集。根据文献，我们使用包含438K张图像和超过8K个类别的2018版本，其分布极不平衡（IF=512），并且存在挑战性的细粒度问题。我们使用ResNet-50作为骨干网络，以及与ImageNet-LT相同的预处理和训练协议。使用α为0.3的Mixup数据增强方法，最后20个epoch不使用Mixup。04.2. 性能0竞争方法。通常，竞争方法分为两种类型，一种是是否存在骨干预训练阶段。对于一阶段方法，长尾数据集的重新平衡可以通过重新采样（例如，类别平衡和渐进平衡[10]）或重新加权（例如，focal loss [14]，类别平衡focal loss[3]和LDAM[1]）来实现。此外，强数据增强技巧（例如，mixup[30]，重新平衡的mixup[2]，使用类激活图（CAM）进行尾部样本合成）也可以提高整体准确性，特别是头部。此外，无论是在图像域（major-to-minor translation [11]）还是在特征域（OLTR[15]）进行的迁移学习都被证明是有用的。LogitAdjustment[16]通过一阶损失鼓励稀有标签与主导标签之间存在较大的相对边界。BBN[34]使用两分支架构逐步组合正常采样和分布反转采样，大幅提高尾部的准确性。另一种类型是两阶段方法。在第二阶段，τ-范数、LWS和cRT[10]使用平衡的数据集或无偏的分类器权重对分类器进行重新训练或微调。LFME [26]和RIDE [23]是多分支组合架构ηsqrti= η0 ·�1170使用知识蒸馏。LFME使用教师-学生网络在许多-中等-少数样本拆分上训练专家，而RIDE不限制分支数量，并使用KL散度损失使它们成为不同组的专家。0CIFAR-LT表2显示了提出的ACE在所有一阶方法中表现最好，并在CIFAR100-LT-100上超过其他多阶段方法。我们的方法在CIFAR10-LT和CIFAR100-LT上的类别准确率增益比较如图3所示。ACE在中等和少数类别中具有显著优势。它也是唯一一个通过单一阶段改进所有组别的方法。表4显示了在不平衡因子为50和100的CIFAR10-LT和CIFAR100-LT上的top-1准确率。0数据分布0许多中等少数0图3.代表性一阶长尾识别方法与基线之间的准确率增益比较。而其他方法降低了多数类的准确率，我们的ACE同时提高了许多、中等和少数类别的准确率。0ImageNet-LT和iNaturalist我们还报告了在ImageNet-LT上使用ResNet-10、ResNet-50和ResNeXt-50等不同骨干模型以及在iNaturalist-LT上使用ResNet-50的性能，如表3所示。我们的方法在ImageNet-LT上分别比BBN提高了6.4%（ResNet-50）和7.3%（ResNeXt-50），在iNaturalist2018上提高了3.9%。04.3. ACE的工作原理0专家的互补性。我们将ACE与其两个变体进行比较，以展示其架构、学习过程和损失函数的有效性：一个是没有Lcom的训练，另一个是非互补架构，称为拆分特定分类器（SSC）。在后者中，Ei的分类器的输出维度与|Ci|相同，即zi∈R1×|Ci|。换句话说，非目标组的权重被设置为零作为硬约束，而不是通过Lcom学习来抑制它们。0正则化方式。结果见表5。图4显示了顶行中带有Lcom的ACE，其中Ei在所有数据拆分中学习到相似的尺度，干扰类的尺度为零。因此，所有训练的专家对共享的拆分贡献几乎相等。我们还观察到，在少数拆分中，Ei生成了对Ej有支持性结果的情况（例如，E1在少样本拆分中是边缘的，其尺度小于E3，因此它只是E3输出的补充）。从图4的中间行可以看出，通过将数据分割为互补的批次，但没有Lcom，所有专家在共同的拆分中相互竞争。例如，E1在所有类别上都很强大，尽管在少数类别中比E3不准确，但E1的尺度仍然大于E3的。这解释了为什么没有Lcom的ACE在头部类别中具有最好的性能。在SSC的实验中，专家学习对Ci进行分类，但无法区分未训练的类别，导致受训专家在所有拆分中占据主导地位，使其他专家无用。这里的结果是令人鼓舞的：与大多数现有的试图消除偏见的方法不同，我们利用了它。数据再平衡嵌入在数据分配中，以确保少数类别更多地暴露。每个专家的个别反向传播不会损害表示学习。因此，Lcom将表示学习和分类器训练解耦在一个阶段。分布感知优化器的有效性。分布感知优化器通过各种数据分配控制每个专家的学习速度。在本节中，我们将线性缩放规则与平方根缩放[12]和均匀优化器进行比较。[12]表示当将批次大小乘以S时，应将学习速率乘以√0S以保持梯度期望中的方差恒定。对于均匀优化器，所有专家共享相同的 η ，即0c ∈C i n c � C n j , η uni i = η0 (8)0训练对于具有较大学习率的数据方差更敏感。对于由少数划分训练的专家，我们有 η uni i >> η sqrt i > η linear i。结果的比较显示在表6中。所有三种方案都比基准线产生更好的结果。η uni i促进了大多数类别的更高改进，但显著降低了尾部。原因是几个专家过早收敛，因此由于过拟合而不起作用。η sqrt i和 η linear i 的性能相似，但 η linear i在中等和少样本划分中更好。通过比较 η sqrt i 和 η lineari，我们观察到学习率不是准确性提升的主要原因。我们得出结论，根据1180类型方法多专家准确率0所有许多中等少量0单阶段0基准线（ResNet-32）38.3 65.2 37.1 9.10CB resampling [9]§ 36.0（-1.7）59.0（-6.2）35.4（-1.7）10.9（+1.8）0Focal loss [14] 37.4（-0.9）64.3（-0.9）37.4（+0.3）7.1（-2.0）0CB Focal loss [3]§ 38.7（+0.4）65.0（-0.2）37.6（+0.5）10.3（+1.2）0Progressive [10] 39.4（+1.1）63.3（-1.9）38.8（+1.7）13.1（+4.0）0ReMix [2] 40.9（+2.6）69.6（+4.4）40.7（+3.0）8.8（-0.3）0Mixup [30] 41.2（+2.9）70.7（+5.5）40.4（+3.3）8.8（-0.3）0BBN [34] � 39.4（+1.1）47.2（-18.0）49.4（+12.3）19.8（+10.7）0Logit Adjustment [16] 43.9（+5.6）- - -0ACE（3个专家）� 49.4（+11.1）66.1（+0.9）55.7（+18.6）23.5（+14.4）0ACE（4个专家）� 49.6（+11.3）66.3（+1.1）52.8（+15.7）27.2（+18.1）0多阶段0τ -norm [10] 43.2 65.7 43.6 17.30cRT [10] 43.3 64.0 44.8 18.10LDAM+DRW [1] 42.0 61.5 41.7 20.20LDAM+LFME [26] � 43.8 - - -0LDAM+M2m [11] 43.5 - - -0CAM [32] � 47.8 - - -0RIDE [23]（2个专家）� 47.0 67.9 48.4 21.80RIDE [23]（3个专家）� 48.0 68.1 49.2 23.90RIDE [23]（4个专家）� 49.1 69.3 49.3 26.00表2.CIFAR100-LT-100的Top-1准确率。（∙）表示与基准线的比较，其中增加和减少用颜色表示。我们的ACE是唯一在所有组上都有性能提升的单阶段方法，并且在所有类别中表现最好。§：CB表示类平衡。0方法 ImageNet-LT iNaturalist0Res10 Res50 ResX50 Res500基准线 20.9 41.6 44.4 66.1 FSLwF [5] 28.4 - - - RangeLoss [31] 30.7 - - - Lifted Loss [18] 30.8 - - - Focal loss[14] 30.5 - - 60.3 CB Focal loss [3] - - - 61.1 BBN [34] -48.3 49.3 68.0 Logit Adj.[16] - 51.1 - 66.40ACE（3个专家）44.0 54.7 56.6 72.90OLTR [15] 34.1 - 46.3 63.9 NCM [10] 35.5 44.3 47.3 -LDAM+DRW [1] 36.0 - - 68.0 cRT [10] 41.8 47.3 49.5 65.2τ -norm [10] 40.6 46.7 49.4 65.6 LWS [10] 41.4 47.7 49.965.9 CAM [32] 43.1 - - 70.9 LFME [26] 38.8 - - - RIDE[23]† - 54.4 55.9 71.4 RIDE [23]‡ - 54.9 56.4 72.20表3.ImageNetLT和iNaturalist2018的Top-1准确率。每个组的详细结果列在补充材料中。总体而言，多专家/分支架构优于重新平衡方法。我们的ACE与其他具有多个骨干网络的单阶段方法相比，具有一致的性能提升，并且与多阶段方法相当。†：2个专家，‡：3个专家。0方法 CIFAR100-LT CIFAR10-LT0基准 38.3 42.1 69.8 75.2 Focal loss [14] 37.4 42.4 70.475.3 Mixup [30] 39.5 45.0 73.1 77.8 CB Focal loss [3]38.7 46.2 74.6 79.3 BBN [34] 39.4 47.0 79.8 82.2 LogitAdj.[16] 43.9 - 77.7 -0ACE（3个专家）49.4 50.7 81.2 84.30ACE（4个专家）49.6 51.9 81.4 84.90LDAM+DRW [1] 42.0 45.1 77.0 79.3 LFME [26] 42.3 -- - LDAM+M2m [11] 43.5 - 79.1 - CAM [32] 47.8 51.780.0 83.6 RIDE [23] 49.1 - - -0表4.CIFAR100-LT和CIFAR10-LT的top-1准确率，不平衡因子分别为100和50。0数据分布可以有效地提高整体性能。组平均输出聚合的有效性。我们比较了来自K个专家的输出logits{zi}的不同聚合方法。图5（3个专家）显示了聚合方法的四个变体。表7中（ACE）和（4）之间的比较表明，尺度的设计是为了保持头部类别的准确性。通过对每个主导专家组的结果进行连接，放大了过度自信的缺点，并使专家相互竞争。总体而言，合并多个专家是一阶段方法的权衡，其中所有专家都是从头开始训练的。另一方面，我们的ACE通过调整学习速度和使用补充损失来平衡它们，从而改善了所有组的性能。𝑳𝒄𝒐𝒎Expert 1Expert 2Expert 31190方法所有多中等少0ACE（带有Lcom）49.4 66.1 55.7 23.50专家1 41.9 71.2 40.2 10.70专家2 30.7 19.9 53.7 17.70专家3 21.8 0.0 38.7 27.80没有Lcom 47.2 71.5 49.4 17.50专家1 42.0 71.0 40.9 10.50专家2 31.1 19.4 53.8 19.40专家3 22.0 0.0 38.8 28.3 使用SSC 43.4 65.1 44.418.00专家1 41.6 68.2 41.2 12.10专家2 16.0 2.4 26.5 19.90专家3 21.4 0.0 38.6 26.70表5.CIFAR100-LT-100上的整体和多-中-少样本分割的top-1准确率。结果与我们的分析一致，没有补充损失时，专家们会相互竞争，因此结果趋向于平均。分割特定分类器（SSC）主要依赖于E1。0ACE0没有0学习的逐类尺度（LWS层）0类别索引0类别索引0类别索引0分割特定0分类器0图4.ACE模型学习的三个模型的尺度：使用补充损失训练的ACE（顶部），不使用补充损失训练的ACE（中部），以及在CIFAR100-LT-100上训练的分割特定分类器（底部）。红色、蓝色和绿色分别表示E1、E2和E3。补充损失使得专家们可以在共同的分割上共同工作。没有补充损失时，使用完整批次训练的专家在所有分割上具有最大的尺度，并与真正的主导专家竞争。0方案所有多中等少0线性 49.4 66.1 55.7 23.5 平方根 49.1 67.1 55.222.1 均匀 41.7 69.7 39.9 10.70表6. CIFAR100-LT-100上学习率缩放方案的比较。0图5. 输出聚合方法的变体示例。0缩放的logits（2）也会抑制头部的性能，因为小类别的专家更容易过拟合，因此过于自信。连接每个主导专家组的结果会放大过度自信的缺点，并使专家相互竞争。总体而言，合并多个专家对于一阶段方法来说是一个权衡，其中所有专家都是从头开始训练的。另一方面，我们的ACE通过调整学习速度和使用补充损失来平衡它们，从而改善了所有组的性能。0聚合所有多中等少0组平均（带缩放的ACE）49.4 66.1 55.7 23.5 组最大（2）43.4 47.554.2 26.5 组连接（3）37.7 30.3 50.2 22.9组平均（不带缩放的4）46.7 49.5 53.0 36.50表7. CIFAR100-LT-100输出聚合的消融研究。05. 结论0在本文中，对现有的长尾识别算法进行了广泛的实验，揭示了偏向性表示学习和无偏分类器学习之间的矛盾。我们提出了一种多专家网络，通过一个统一的网络对两者进行优化。在数据和目标函数中应用互补约束，以抑制非目标群体的影响并促进主导和少数群体的发展。此外，一种分布自适应优化方案有助于调整每个专家的学习速度，以避免过拟合。ACE成为所有一阶长尾识别方法中的新SOTA，准确率提高了3�10％，并且是第一个在所有三个频率分割上提高性能的方法。与多阶段方法具有相当强的性能相当，有很大的潜力将形式良好的一阶ACE扩展到复杂的计算机视觉任务，如检测和分割。1200参考文献0[1] Kaidi Cao, Colin Wei, Adrien Gaidon, NikosArechiga和Tengyu Ma.使用标签分布感知边界损失学习不平衡数据集。arXiv预印本arXiv:1906.07413，2019年。2, 3, 5, 70[2] Hsin-Ping Chou, Shih-Chieh Chang, Jia-Yu Pan, WeiWei和Da-Cheng Juan.Remix:重新平衡混合。在欧洲计算机视觉会议上，页码为95-110。Springer，2020年。2, 5, 70[3] Yin Cui, Menglin Jia, Tsung-Yi Lin, Yang Song和SergeBelongie.基于有效样本数量的类别平衡损失。在IEEE/CVF计算机视觉和模式识别会议论文集中，页码为9268-9277，2019年。2, 5, 70[4] Jia Deng, Wei Dong, Richard Socher, Li-Jia Li, Kai Li和LiFei-Fei.ImageNet：一个大规模的分层图像数据库。在2009年IEEE计算机视觉和模式识别会议上，页码为248-255。IEEE，2009年。1, 50[5] Spyros Gidaris和Nikos Komodakis.无遗忘的动态少样本视觉学习。在IEEE计算机视觉和模式识别会议论文集中，页码为4367-4375，2018年。70[6] Priya Goyal, Piotr Doll´ar, Ross Girshick, Pieter Noordhuis,Lukasz Wesolowski, Aapo Kyrola, Andrew Tulloch, YangqingJia和Kaiming He.准确的大型小批量SGD：在1小时内训练ImageNet。arXiv预印本arXiv:1706.02677，2017年。50[7] Kaiming He, Xiangyu Zhang, Shaoqing Ren和Jian Sun.深度残差学习用于图像识别。在IEEE计算机视觉和模式识别会议论文集中，页码为770-778，2016年。4, 50[8] Chen Huang, Yining Li, Chen Change Loy和Xiaoou Tang.学习用于不平衡分类的深度表示。在IEEE计算机视觉和模式识别会议（CVPR）论文集中，2016年6月。20[9] Nathalie Japkowicz和Shaju Stephen.类别不平衡问题：一项系统研究。智能数据分析，6(5):429-449，2002年。2, 70[10] Bingyi Kang, Saining Xie, Marcus Rohrbach, ZhichengYan, Albert Gordo, Jiashi Feng和Yannis Kalantidis.解耦表示和分类器用于长尾识别。arXiv预印本arXiv:1910.09217，2019年。2, 3, 4, 5, 70[11] Jaehyung Kim, Jongheon Jeong和Jinwoo Shin.M2m:通过major-to-minor翻译进行不平衡分类。在IEEE/CVF计算机视觉和模式识别会议论文集中，页码为13896-13905，2020年。2, 5, 70[12] Alex Krizhevsky.并行化卷积神经网络的一个奇怪的技巧。arXiv预印本arXiv:1404.5997，2014年。60[13] Alex Krizhevsky, Geoffrey Hinton, et al.从小图像中学习多层特征。2009年。1, 50[14] Tsung-Yi Lin, Priya Goyal, Ross Girshick, Kaiming He, andPiotr Doll´ar.密集目标检测的焦点损失。在《IEEE国际计算机视觉会议论文集》中，第2980-2988页，2017年。2，5，70[15] 刘子伟，苗中琪，詹晓航，王佳韵，龚博青，Stella X Yu.开放世界中

下载后可阅读完整内容，剩余1页未读，立即下载