长尾视觉识别中的嵌套协作学习的重要性

124 浏览量更新于2023-10-25 收藏 12.64MB PDF 举报

视觉识别

深度学习

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Jun Li1,2∗, Zichang Tan3,4*, Jun Wan1,2†, Zhen Lei1,2,5, Guodong Guo3,4{lijun2021,jun.wan}@ia.ac.cn, zlei@nlpr.ia.ac.cn, {tanzichang, guoguodong01}@baidu.com0204060801000.02.55.07.510.0Data distributionKL distanceLogits1Logits21&2 Overlap69490长尾视觉识别的嵌套协作学习01 CBSR&NLPR，中国科学院自动化研究所，中国北京 2中国科学院大学人工智能学院，中国北京 3 百度研究院深度学习研究所，中国北京 4国家深度学习技术与应用工程实验室，中国北京 5中国科学院香港创新科技研究院人工智能与机器人中心，中国香港0摘要0尽管在相同的训练设置下，长尾数据集上训练的网络差异显著，这表明长尾学习存在很大的不确定性。为了减轻这种不确定性，我们提出了一种嵌套协作学习（NCL），通过协同学习多个专家来解决这个问题。NCL包括两个核心组件，即嵌套个体学习（NIL）和嵌套平衡在线蒸馏（NBOD），分别专注于每个单一专家的个体监督学习和多个专家之间的知识传递。为了更全面地学习表示，NIL和NBOD都以嵌套方式进行，其中学习不仅涉及全面的所有类别，还涉及部分视角下的一些困难类别。关于部分视角的学习，我们特别选择具有高预测分数的负类别作为困难类别，使用提出的困难类别挖掘（HCM）方法。在NCL中，两个视角的学习是嵌套的，高度相关和互补的，并且有助于网络捕捉全局和稳健的特征以及细致的区分能力。此外，还进一步利用自监督进行特征增强。广泛的实验证明了我们的方法的优越性，无论是使用单个模型还是集成模型都超过了现有技术水平。代码可在 https://github.com/Bazinga699/NCL 上找到。01. 引言0近年来，深度神经网络在各种视觉任务中取得了巨大的成功，例如人脸分析0* 第一和第二作者对本文贡献相同 † 通讯作者0类别索引0- 10 . 00- 7 . 50- 5 . 00- 2 . 50Logits0图1.从头开始训练的两个网络的模型输出（logits）和Kullback-Leibler（KL）距离的比较。在CIFAR100-LT数据集上进行分析，不平衡因子（IF）为100。基于随机选择的一个示例，可视化logits，并基于整个测试集计算KL距离，然后计算并报告每个类别的平均结果。尽管所使用的两个网络具有相同的网络结构和训练设置，但它们的预测在尾部类别中存在较大差异。最佳查看颜色。0sis [ 47 , 61 ]，动作和手势识别 [ 39 , 65]。尽管深度技术和计算能力取得了进展，但巨大的成功也高度依赖于具有大致平衡分布的大型设计良好的数据集，例如ImageNet [ 12 ]，MS COCO [ 35 ]和Places [ 64]。这与真实世界的数据集明显不同，真实世界的数据集通常呈现长尾数据分布 [ 37 , 51]，其中少数头部类别占据大部分数据，而许多尾部类别只有很少的样本。在这种情况下，模型很容易被这些少数头部类别所主导，而许多其他尾部类别通常只能达到较低的准确率。毫无疑问，长尾特征挑战了深度视觉识别，并且极大地阻碍了深度模型的实际应用。69500在长尾视觉识别中，一些工作集中在设计类别再平衡策略[11, 17, 24, 44, 45, 51]和解耦学习[4,27]。最近的一些工作旨在通过使用多个专家来改进长尾学习[2, 33, 50, 53,58]。多专家算法遵循互补学习的直观思想，即不同的专家关注不同的方面，每个专家从在该领域中的专业化中受益。例如，LFME[53]提出了一个具有三个专家的网络，每个专家学习来自头部、中部和尾部类别的样本。然而，先前的多专家方法[2, 50,53]只强制每个专家在特定领域中学习知识，缺乏它们之间的合作。0我们的动机来自于一个简单的实验，如图1所示，不同的网络在学习过程中存在很大的差异，特别是在尾部类别上，即使它们具有相同的网络结构和相同的训练设置。这表明了学习过程中的巨大不确定性。减轻不确定性的一个可靠解决方案是通过多个专家的协同学习，即每个专家既可以是其他专家的老师，也可以是其他专家的学生，学习其他知识。基于此，我们提出了一种用于长尾视觉识别的NestedCollaborative Learning(NCL)方法。NCL包含两个主要的重要组成部分，即NestedIndividual Learning (NIL)和Nested Balanced OnlineDistillation(NBOD)，前者旨在增强每个网络的判别能力，后者在任意两个专家之间协同传递知识。NCL和NBOD都以嵌套方式执行，其中NCL或NBOD从全面的角度对所有类别进行监督学习或蒸馏，并且还从关注一些重要类别的局部角度进行学习。此外，我们提出了一种Hard Category Mining(HCM)方法，以选择困难类别作为重要类别，其中困难类别被定义为不是真实类别但具有高预测分数且容易导致错误分类的类别。不同角度的学习方式是嵌套的、相关的和互补的，有助于全面的表示学习。此外，受到自监督学习的启发，我们进一步为每个专家使用了一个额外的移动平均模型进行自监督学习，从而以无监督的方式增强特征学习。0在提出的NCL中，每个专家都与其他专家协同学习，允许任意两个专家之间的知识传递。NCL促使每个专家模型达到更好甚至可与集合模型相媲美的性能。因此，即使只使用单个专家，也可以胜任预测任务。我们的贡献可以总结如下：0• 我们提出了一种Nested Collaborative Learning(NCL)方法，可以同时协同学习多个专家，使每个专家模型能够从其他专家那里学习到额外的知识。0• 我们提出了一种Nested Individual Learning(NIL)和Nested Balanced Online Distillation(NBOD)方法，旨在从全面的角度对所有类别进行学习，并从关注困难类别的局部角度进行学习。0• 我们提出了一种Hard Category Mining(HCM)方法，大大减少了与困难负面类别的混淆。0•所提出的方法在包括CIFAR-10/100-LT、Places-LT、ImageNet-LT和iNaturalist2018在内的五个流行数据集上取得了显著的性能提升。02. 相关工作0长尾视觉识别。为了减轻长尾类别不平衡问题，近年来进行了许多研究[3, 36, 41, 50, 53, 55,63]。针对长尾视觉识别的现有方法可以大致分为三类：类别再平衡[1, 11, 17, 24, 42, 51]、多阶段训练[4,27]和多专家方法[2, 33, 50, 53,58]。类别再平衡旨在在训练过程中重新平衡每个类别的贡献，是一种经典且广泛使用的长尾学习方法。具体而言，类别再平衡包括数据重新采样[5, 27]和损失重新加权[34, 41,43,48]。类别再平衡提高了整体性能，但通常以牺牲头部类别的准确性为代价。多阶段训练方法将训练过程分为几个阶段。例如，Kang等人[27]将训练过程分解为表示学习和分类器学习。Li等人[31]提出了一种基于知识蒸馏的多阶段训练策略。此外，一些其他工作[38,57]通过模型logits的后处理来提高性能。然而，多阶段训练方法可能依赖启发式设计。最近，多专家框架引起了越来越多的关注，例如LFME[53]、BBN[63]、RIDE[50]、TADE[58]和ACE[2]。多专家方法确实提高了长尾学习的识别准确性，但这些方法仍然需要进一步探索。例如，大多数当前的多专家方法使用不同的模型从不同的角度学习知识，而它们之间的相互监督是不足的。此外，它们通常使用专家集合来产生预测结果，这导致了推理阶段复杂度的增加。知识蒸馏。知识蒸馏是一种常见的知识传递技术。早期的方法[22,40]通常采用离线学习策略，其中蒸馏遵循师生学习的方式。˜pj(xi; θk) =k(1)pj(xi; θk) =k(2)Ψki = TopHard{zkij|j ̸= yi} ∪ {zkiyi}(3)p∗(xi; θk) = {njexp(zkij)zkil∈Ψki nlexp(zkil)|zkij ∈ Ψki }(4)69510方案 [ 14 , 22]，将知识从大型教师模型转移到小型学生模型。然而，教师模型通常应该是一个复杂的高容量模型，训练过程可能繁琐耗时。近年来，知识蒸馏已经发展成为一种在线方式 [ 6 ,13 , 16 , 60]，在一阶段和端到端的训练方案中进行整个知识蒸馏。例如，在深度互学习 [ 60 ]中，任何一个模型都可以是学生，并可以从其他所有模型中蒸馏知识。郭等人 [ 16 ]提出使用软标签的集合来指导学习。朱等人 [ 30 ]提出了一种多分支架构，将每个分支视为学生，进一步降低计算成本。在线蒸馏是一种有效的协同学习多个模型的方式，并促进它们之间的知识传递。对比学习。许多对比方法 [7 , 8 ,015 , 18 ] 是基于实例区分任务构建的。例如，吴等人 [ 52 ]提出了一种噪声对比估计，通过存储表示的记忆库来比较实例。表示学习也被用于长尾分布 [ 26]。最近，动量对比（MoCo）[ 18 ]提出了通过移动平均编码器产生比较表示的方法。为了增强判别能力，对比学习通常将每个样本与许多负样本进行比较。SimCLR [ 7 ]通过使用大批量大小来实现这一点。后来，陈等人 [ 8 ]提出了一种改进的方法，名为MOCOv2，它在训练时不使用大批量大小，但取得了有希望的性能。考虑到MoCOv2的优点，我们的自监督也是基于这个结构构建的。03. 方法0提出的NCL旨在协同并行地学习多个专家，如图2所示。接下来，首先介绍预备知识，然后介绍难类别挖掘（HCM）、嵌套个体学习（NIL）、嵌套平衡在线蒸馏（NBOD）和自监督部分。最后，展示如何将它们聚合在一起的整体损失。03.1. 预备知识0我们将训练集表示为包含 n 个样本的 D = { x i , y i }，其中 x i 表示第 i 个图像样本，y i表示相应的标签。假设一共有 K 个专家被雇佣，第 k个专家模型的参数为 θ k 。给定图像 x i ，第 k个专家中类别 j 的预测概率计算如下：0公式 C l =1exp ( z k il )0其中 z k ij 是第 k 个专家模型的第 j 类输出，C是类别数。这是一种广泛使用的计算预测概率的方法，一些损失函数如交叉熵（CE）损失就是基于此计算的。然而，它没有考虑数据分布，不适用于长尾视觉识别，因为基于 ˜ p (x i ; θ k )学习的简单模型会被头部类别大量主导。因此，一些研究者[ 41 ] 提出以平衡的方式计算类别 j 的预测概率：0公式 C l =1 n l0其中 n j 是类别 j的样本总数。通过这种平衡的概率，Ren等人 [ 41 ]进一步提出了平衡的Softmax交叉熵（BSCE）损失，以减轻模型训练中的长尾类别不平衡问题。然而，BSCE损失仍然不足，训练中的不确定性仍然无法消除。03.2. 难类别挖掘0在表示学习中，提高性能的一种著名且有效的策略是困难样本挖掘（HEM）[21]。HEM在训练过程中选择困难样本，而舍弃容易样本。然而，直接将HEM应用于长尾视觉识别可能会扭曲数据分布，并使其在长尾学习中更加倾斜。与HEM不同，我们提出了一种更友好的方法，名为困难类别挖掘（HCM），专门选择困难类别进行训练，明确提高了区分来自困难类别的样本的能力。在HCM中，困难类别指的是不是真实类别但具有高预测得分的类别。因此，可以通过比较模型输出的值来选择困难类别。具体而言，我们总共有C个类别，并假设选择C hard个类别进行关注。对于样本x i和专家k，对应的包含所选类别输出的集合Ψ k i表示为：0其中TopHard表示选择Chard个具有最大值的样本。为了更好地适应长尾学习，我们以平衡的方式计算所选类别的概率，如下所示：03.3. 嵌套个体学习0在我们的NCL中，每个专家的个体监督学习也是一个重要组成部分，确保了encodermlpfcmomentumencoderscale ratioclass indexLallnil = −klog(pyi(xi; θk))(5)Lhardnil= −klog(p∗yi(xi; θk))(6)Lnil = Lallnil + Lhardnil(7)Lalldis =1K(K − 1)K�kK�q̸=kKL(p(xi; θk)||p(xi; θq)) (8)Lharddis=1K(K1)KK̸KL(p∗(xi; θk)||p∗(xi; θq))Ldis = Lalldis + Lharddis(10)69520困难类别关注0困难类别的概率0完整视图0部分视图0困难类别挖掘0原始概率0平衡尺度0Net10��0��0��0��0自监督嵌套平衡在线蒸馏0��0��0��0��0�� 0完整视图0部分视图0图2.我们提出的包含三个专家的NCL的示意图。NIL增强了单个专家的区分能力，NBOD允许多个专家之间的知识传递。NIL从完整视图和部分视图进行监督学习，分别关注所有类别和一些困难类别。同样，NBOD也从完整视图和部分视图进行知识蒸馏。对比损失是通过使用额外的动量编码器和MLP层来计算的，在评估中可以去除。NIL和NBOD中使用的概率根据数据分布进行平衡。0每个网络都可以实现强大的区分能力。为了全面学习，我们提出了一种嵌套个体学习（NIL）以嵌套方式进行监督。除了对所有类别进行全局和稳健的学习外，我们还强制网络关注由HCM选择的一些重要类别，从而增强模型的细致区分能力。对所有类别的监督是微不足道的，并且构建在BSCE损失上。由于我们的框架是基于多个专家构建的，因此对每个专家应用监督，并且所有专家的所有类别上的损失是每个专家损失的总和：0对于对困难类别的监督，也可以通过类似的方式获得。数学上，可以表示为：0在提出的NIL中，两种嵌套的监督方法一起使用，实现全面的学习，总损失如下所示：03.4. 嵌套平衡在线蒸馏0为了让每个模型从其他模型中协同学习，我们采用在线蒸馏来允许每个模型从其他模型中学习额外的知识。之前的方法[16,60]考虑了从所有类别的整体角度进行蒸馏，旨在捕捉全局和鲁棒的知识。与之前的方法不同，我们提出了0嵌套平衡在线蒸馏（NBOD）不仅在所有类别上进行蒸馏，还在由HCM挖掘的一些困难类别上进行蒸馏，这有助于网络捕捉细致的区分能力。根据之前的工作[16,60]，使用KullbackLeibler（KL）散度来进行知识蒸馏。所有类别的蒸馏可以表示为：0正如我们所看到的，蒸馏是在任意两个专家之间进行的。请注意，我们使用平衡分布而不是原始分布来计算KL距离，这旨在消除长尾设置下的分布偏差。这也是我们与其他蒸馏方法的区别之一。此外，所有专家都使用相同的困难类别进行蒸馏，我们随机选择一个专家作为锚点，为所有专家生成困难类别。类似地，困难类别的蒸馏也可以表示为：0（9）嵌套蒸馏同时在所有类别和困难类别上进行学习，表示为：03.5. 通过自监督进行特征增强0自监督学习旨在通过无监督的方式改进特征表示。继之前的研究69530在[8,18]的工作中，我们采用实例鉴别作为自监督的代理任务，其中每个图像被视为一个不同的类别。我们利用一个额外的临时平均模型来进行自监督学习，并且其参数根据基于动量的移动平均方案进行更新[8,18]，如图2所示。所采用的自监督也是我们NCL的一部分，它协同学习专家模型和其移动平均模型以捕捉更好的特征。以专家k的自监督为例。设v_k_i表示原始专家模型中第i个图像的归一化嵌入，而˜v_k_i表示临时平均模型中具有不同增强的副本图像的归一化嵌入。此外，还使用动态队列Q_k来收集历史特征。队列中的样本逐渐被当前批次中的样本替换，并且最旧批次中的样本被出队。假设队列Q_k的大小为N，N可以设置为远大于典型批次大小的值，这提供了丰富的负样本集，从而获得更好的特征表示。实例鉴别任务的目标是增加相同图像特征的相似性，同时减少两个不同图像特征的相似性。我们通过使用对比学习损失来实现这一目标，计算公式如下：0Lkcon = -log(exp(vkiT˜vki/τ)0exp(vkiT˜vki/τ) + �0˜vkj∈Qkexp(vkiT˜vkj/τ)0(11)其中τ是一个温度超参数。类似于公式5和公式6，所有专家的自监督损失可以表示为Lcon = �0kLkcon。03.6. 模型训练0我们提出的NCL的总损失由三部分组成：NIL的损失Lnil用于单个专家的学习，NBOD的损失Ldis用于多个专家之间的合作，以及自监督的损失Lcon。总损失L的公式如下：0L = Lnil + Lcon + λLdis (12)0其中λ表示平衡多个专家之间合作贡献的损失权重。对于Lnil和Lcon，它们在单个专家内发挥作用，考虑到通用性，我们将它们的权重都设置为1。04. 实验04.1. 数据集和协议0我们在五个广泛使用的数据集上进行实验，包括CIFAR10-LT [11]，CIFAR100-LT [11]，ImageNet-LT[37]，Places-LT [64]和iNaturalist 2018 [46]。0CIFAR10-LT和CIFAR100-LT[11]是从原始平衡的CIFAR数据集[29]中创建的。具体而言，数据集中的数据不平衡程度由不平衡因子（IF）控制，该因子定义为最频繁类别的数量除以最不频繁类别的数量。这两个数据集使用了不平衡因子100和50。ImageNet-LT[37]是根据长尾设置从流行的ImageNet数据集[12]中采样的，遵循幂律分布，幂值为α=6。ImageNet-LT包含来自1,000个类别的115.8K张图像。Places-LT是从大规模数据集Places[64]中创建的。该数据集包含来自365个类别的184.5K张图像。iNaturalist 2018[46]是用于长尾视觉识别的最大数据集。iNaturalist2018包含来自8,142个类别的437.5K张图像，它的不平衡因子为512。根据之前的工作[11,27]，使用top-1准确率进行评估。此外，对于iNaturalist2018数据集，我们按照[2,27]的方法将类别分为许多（具有超过100张图像）、中等（具有20�100张图像）和少量（少于20张图像）三个子集，并进一步报告每个子集的结果。04.2. 实现细节0对于CIFAR10/100-LT，我们采用ResNet-32[19]作为所有实验的主干网络和线性分类器，这是根据[4,59]的方法。我们使用ResNet-50 [19]，ResNeXt-50[54]作为ImageNet-LT的主干网络，使用ResNet-50作为iNaturalist2018的主干网络，使用预训练的ResNet-152作为Places-LT的主干网络，这是根据[10, 27,37]的方法。根据[57]的方法，这些模型使用余弦分类器。由于使用了自监督组件，我们使用与PaCo[10]相同的训练策略，即除了Places-LT上的模型外，所有模型都训练400个epoch，Places-LT上的模型训练30个epoch。此外，为了公平比较，根据[10]的方法，除了Places-LT外，所有实验中还使用了RandAugument[9]。RandAugument的影响将在第4.4节中详细讨论。这些模型在8个NVIDIA Tesla V100 GPU上进行训练。HCM中的β =Chard/C的值设置为0.3。在网络之间发挥作用的NestedBalanced Online Distillationloss的比率λ设置为0.6。β和λ的影响将在第4.4节中详细讨论。04.3. 与先前方法的比较0我们将提出的方法NCL与之前的最先进方法进行比较，如LWS [27]，ACE[2]等等。我们的NCL基于三个专家构建，报告了单个专家和多个专家集合的性能。除了NCL之外，我们还报告了使用BSCE损失的网络的基准结果进行比较。在CIFAR10/100-LT上的比较结果如表1所示，在ImageNet-LT上的比较结果如CB Focal loss [11]CVPR’1938.746.274.679.3LDAM+DRW [4]NeurIPS’1942.045.177.079.3LDAM+DAP [25]CVPR’2044.149.280.082.2BBN [63]CVPR’2039.447.079.882.2LFME [53]ECCV’2042.3–––CAM [59]AAAI’2147.851.780.083.6Logit Adj. [38]ICLR’2143.9–77.7–RIDE [50]ICLR’2149.1–––LDAM+M2m [28]CVPR’2143.5–79.1–MiSLAS [62]CVPR’2147.052.382.185.7LADE [23]CVPR’2145.450.5––Hybrid-SC [49]CVPR’2146.751.981.485.4DiVE [20]ICCV’2145.451.3––SSD [32]ICCV’2146.050.5––ACE [2]ICCV’2149.651.981.484.9PaCo [10]ICCV’2152.056.0––OLTR [37]CVPR’19––35.9BBN [63]CVPR’2048.349.3–NCM [27]ICLR’2044.347.336.4cRT [27]ICLR’2047.349.636.7τ-norm [27]ICLR’2046.749.437.9LWS [27]ICLR’2047.749.937.6BSCE [41]NeurIPS’20––38.7RIDE [50]ICLR’2155.456.8–DisAlign [57]CVPR’2152.9––DiVE [20]ICCV’2153.1––SSD [32]ICCV’21–56.0–ACE [2]ICCV’2154.756.6–PaCo [10]ICCV’2157.058.241.2ets.OLTR [37]CVPR’1959.064.164.963.9BBN [63]CVPR’2049.470.865.366.3DAP [25]CVPR’20–––67.6NCM [27]ICLR’20cRT [27]ICLR’2069.066.063.265.2τ-norm [27]ICLR’2065.665.365.965.6LWS [27]ICLR’2065.066.365.565.9LDAM+DRW [4]NeurIPS’19–––68.0Logit Adj. [38]ICLR’21–––66.4CAM [59]AAAI’21–––70.9RIDE [50]ICLR’2170.972.473.172.6SSD [32]ICCV’21ACE [2]ICCV’21–––72.9PaCo [10]ICCV’21–––73.269540方法参考 CIFAR100-LT CIFAR10-LT0BSCE（基准）- 50.6 55.0 84.0 85.8 我们的（单个）- 53.3 56.884.7 86.8 我们的（集成）- 54.2 58.2 85.5 87.30表1. CIFAR100-LT和CIFAR10-LT数据集的比较，IF为100和50。0方法参考 ImageNet-LT Places-LT0BSCE（基准）- 53.9 53.6 40.2 我们的（单个）- 57.4 58.441.5 我们的（集成）- 59.5 60.5 41.80表2. ImageNet-LT和Places-LT数据集的比较。0在表2中展示了在Places-LT数据集上的比较，在表3中展示了在iNaturalist2018数据集上的比较。我们提出的方法无论是使用单个专家还是使用所有专家的集成，在所有数据集上都达到了最先进的性能。仅使用单个专家进行评估时，我们的NCL在CIFAR10-LT、CIFAR100-LT、ImageNet-LT、Places-LT和iNaturalist2018上的准确率分别为84.7%（IF为100）、53.3%（IF为100）、57.4%（使用ResNet-50）、41.5%和74.2%。当进一步使用集成进行评估时，CIFAR10-LT、CIFAR100-LT、ImageNet-LT、Places-LT和iNaturalist2018的性能可以进一步提高到85.5%（IF0方法参考 iNaturalist 20180许多中等少量全部0BSCE（基准）- 67.5 72.0 71.5 71.6 我们的（单个）- 72.0 74.973.8 74.2 我们的（集成）- 72.7 75.6 74.5 74.90表3. 使用ResNet-50在iNaturalist 2018数据集上的比较。0在100个类别的CIFAR10-LT、CIFAR100-LT、ImageNet-LT、Places-LT和iNaturalist2018数据集上，我们的方法在只使用单个专家进行评估时的准确率分别为84.7%（IF为100）、53.3%（IF为100）、57.4%（使用ResNet-50）、41.5%和74.2%。当进一步使用多个专家进行评估时，CIFAR10-LT、CIFAR100-LT、ImageNet-LT、Places-LT和iNaturalist2018的性能可以进一步提高到85.5%（IF04.4. 组件分析0硬类别比例的影响。选择的硬类别比例定义为 β = C hard/C。在我们的NIL模型上进行的实验在β从0到1的范围内，如图3(a)所示。当将β设置为0.3时，获得了最高的性能。设置β为较小和较大的值带来的收益有限，因为对硬类别的探索不足和过度探索。损失权重的影响。为了搜索合适的λ值，我们在提出的NCL上进行了一系列λ的实验，如图3(b)所示。λ控制了多个专家在总损失中的知识蒸馏贡献。当λ=0.6时，获得了最佳性能，这表明在单个网络训练和专家之间的知识传递之间实现了平衡。不同专家数量的影响。如图4所示，进行了使用不同专家数量的实验。随着专家数量的增加，集成性能稳步提高，而仅使用单个专家时，其性能大大提高。012345675152535455560123456766676869707101234567505152535455560123456734353637383940CE41.8844.79BSCE45.8850.60BSCE+NCL47.9353.31BSCE+NCL†49.2254.4244.7950.60✓48.1851.24✓46.0551.42✓✓48.8152.64✓✓✓49.3453.19✓✓✓✓49.8953.31✓✓✓✓✓51.0454.42Table 5. Ablation studies on CIFAR100-LT dataset with an IFof 100. ’SS’ indicates self-supervision. ’BODall’ and ’BODhard’represent the balanced online distillation on all categories and onlyhard categories, respectively. NBOD means the setting when both’BODall’ and ’BODhard’ are employed. Experiments are con-ducted on the framework of containing three experts.69550图3.在CIFAR100-LT数据集上对比参数β和损失权重λ的分析，IF为100。0专家数量0单个集成0专家数量0较多0单个集成0专家数量0中等0单个集成0专家数量0少量0单个集成0图4.在CIFAR100-LT数据集上使用不同的专家数量进行比较，IF为100。我们报告了单个网络和集成的性能。具体而言，单个网络的性能是指所有专家的平均准确率，而集成性能是基于所有专家的平均logits计算的。0单个专家用于评估时，当仅使用少量专家网络时，其性能可以大大提高，例如三个专家。因此，在我们的多专家框架中，主要采用三个专家以在复杂性和性能之间取得平衡。单个专家与多专家的比较。我们的方法本质上是一个多专家框架，使用单个专家或多专家集成的比较是一个非常关注的问题。如图4所示，随着专家数量的增加，集成相对于单个专家的准确率也趋于上升。这证明了集成学习的优势。但对于我们提出的NCL的主要目标来说，三个专家的性能改进已经足够令人印象深刻。数据增强的影响。数据增强是提高性能的常用工具。例如，先前的工作使用Mixup [2, 56, 59,62]和RandAugment[9]来获得更丰富的特征表示。我们的方法遵循0方法不使用RandAug 使用RandAug0表4.使用RandAugment训练网络与不使用RandAugment训练网络的比较。在CIFAR100-LT数据集上进行实验，IF为100。†表示集成性能。0我们使用PaCo [10]进行实验，采用RandAugment[9]。如表4所示，使用RandAugment进行训练可以提高约3％至5％的性能。然而，我们的高性能并不完全依赖于RandAugment。当去除RandAugment时，我们的集合模型达到了惊人的49.22％的性能，与当前最先进的模型相当。对所有组件进行消融研究。在这个子部分中，我们对CIFAR100-LT数据集上的NCL进行了详细的消融研究，如表5所示。为了进行全面的分析，我们评估了包括自监督（'SS'）、NIL、NBOD和集合在内的提出的组件，这两个基线设置使用CE和BSCE损失。此外，为了进行更详细的分析，我们将NBOD分为两部分，即BOD all和BODhard。以BSCE设置为例，SS和NIL分别提高了0.82％和0.64％的性能。使用NBOD进一步将性能从51.24％提高到53.19％。当使用集合进行评估时，准确性进一步提高并达到最高水平。对于CE基线设置，SS、NIL、DBOD和集合也可以实现类似的改进。总的来说，由于标签分布的变化，BSCE损失可以比CE损失获得更好的性能。在两个基线设置上，所有组件的性能都稳步提高，这表明提出的NCL的有效性。0.00.20.81.005000005002000BSCEBSCE+NCL0.00.20.81.003006009001200BSCEBSCE+NCL0.00.20.81.00500050600BSCEBSCE+NCL0.00.20.81.00500050600BSCEBSCE+NCL020801000.000.050.100.150.200.250.300.3550515253545550515253545569560分数0频率0分数0频率0很多0分数0频率0中等0分数0频率0少数0类别索引00.40的KL距离0数据分布 CE BSCEBSCE+NCL0图5.（a）最困难的负类别的最大softmax概率分布。（b）测试集上两个模型输出概率的平均KL距离。在CIFAR100-LT上进行分析，IF为100。最佳观看效果为彩色。04.5.讨论和进一步分析0最困难的负类别的分数分布。深度模型通常会将目标样本与最困难的负类别混淆。在这里，我们将基线方法（'BSCE'）和我们的方法（'BSCE+NCL'）的分数分布可视化，如图5（a）所示。最困难的负类别的分数越高，产生错误识别的可能性就越大。我们提出的方法的分数主要集中在0-0.2的范围内，而基线模型的分数分布在整个区间内（包括大值的区间）。这表明我们的NCL可以显著减少与最困难的负类别的混淆。预/后协作学习的KL距离。如图5（b）所示，当使用我们的NCL训练网络时，它们之间的KL距离大大减小，这表明预测的不确定性得到了有效缓解。此外，KL距离比BSCE和CE更平衡，这表明协作学习对减少长尾偏差有帮助。不平衡概率的NBOD。如图6（a）所示，当去除NBOD中的平衡概率（表示为'NOD'）时，单个专家和集合的性能都下降了约1％，这表明在长尾学习中使用平衡概率进行蒸馏的重要性。离线蒸馏与NBOD的比较。为了进一步验证我们的NBOD的有效性，我们进行了离线蒸馏进行比较。离线蒸馏（表示为'NIL+OffDis'）首先使用NIL的三个教师网络进行单独训练，然后通过使用三个教师模型的平均输出来生成教师标签。比较结果如图6（b）所示。尽管NIL+OffDis通过离线蒸馏获得了一些改进，但其性能仍比NIL+NBOD差1.5％。这表明我们的协作学习的NBOD可以比离线蒸馏学习更多的知识。0单一集成0NODNBOD0NIL NIL+OffDis NIL+NBOD0图6.（a）使用NOD或NBOD进行蒸馏的比较。（b）使用离线蒸馏或我们的NBOD进行的比较。在CIFAR100-LT上进行分析，IF为100。05. 结论0在这项工作中，我们提出了一种嵌套协同学习（NCL）来协同学习多个专家。我们提出了两个核心组件，即NIL和NBOD，用于单个专家的个体学习和多个专家之间的知识传递。NIL和NBOD都考虑了从整体和局部角度学习的特征，以嵌套方式展示。此外，我们提出了一种HCM来全面捕捉难分类。大量实验证实了我们方法的优越性。0局限性和更广泛的影响。我们的NCL需要更多的GPU内存和计算能力来训练多个专家。但幸运的是，一个专家在推理中也足够实现有希望的性能。此外，所提出的方法提高了分类器的准确性和公平性，促进了视觉模型进一步实际应用。在某些滥用场景中，例如出于恶意目的识别少数群体，可能会产生负面影响。因此，需要注意确保使用长尾分类技术的目的的适当性。0致谢0本工作得到了国家重点研发计划（2020YFC2003901）、中国科学院外部合作重点项目（173211KYSB20200002）、国家自然科学基金项目（61876179和61961160704）、澳门科技发展基金项目（0070/2020/AMJ）和浙江实验室开放研究项目（2021KH0AB07）以及InnoHK计划的支持。69570参考文献0[1] Mateusz Buda，Atsuto Maki和Maciej AMazurowski。卷积神经网络中类别不平衡问题的系统研究。神经网络，2018年2月。0[2]蔡佳睿，王一舟和黄仁能。Ace：一次性解决长尾识别的盟友互补专家。在ICCV，2021年2月5日。0[3]曹东，朱翔宇，黄兴宇，郭建柱和雷震。领域平衡：长尾领域上的人脸识别。在CVPR，2020年2月。0[4] 曹凯迪，魏可欣，Adrien Gaidon，NikosArechiga和马腾宇。使用标签分布感知边界损失学习不平衡数据集。在NeurIPS，2019年2月5日。0[5] Nitesh V Chawla，Kevin W Bowyer，Lawrence O Hall和WPhilipKegelmeyer。Smote：合成少数类过采样技术。人工智能研究杂志，16：321-357，2002年2月。0[6]陈德芳，梅建平，王灿，冯艳和陈春。与多样化同伴进行在线知识蒸馏。在AAAI，2020年3月。0[7] Ting Chen，Simon Kornblith，MohammadNorouzi和GeoffreyHinton。对比学习视觉表示的简单框架。在ICML，2020年3月。0[8] 陈新磊，范浩琦，RossGirshick和何凯明。改进的动量对比学习基线。arXiv预印本arXiv:2003.04297，2020年3月5日。0[9] Ekin D Cubuk，Barret Zoph，

下载后可阅读完整内容，剩余1页未读，立即下载