混合网络:长尾图像分类中的对比学习优势

138 浏览量更新于2024-01-22 收藏 619KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1基于对比学习的混合网络用于长尾图像分类王鹏1韩凯2魏秀申3张磊4王磊11伍伦贡大学2布里斯托大学3南京理工大学4西北工业大学摘要学习有区别的图像表示在长尾图像分类中起着至关重要的作用，因为它可以减轻不平衡情况下的分类器学习。鉴于对比学习最近在表示学习中表现出的良好性能，在这项工作中，我们探索了有效的监督对比学习策略，并对其进行了调整，以从不平衡数据中学习更好的图像表示具体而言，我们提出了一种新的混合网络结构，由监督对比损失学习图像表示和交叉熵损失学习分类器组成，其中学习从特征学习逐步过渡到分类器学习，以体现更好的特征使更好的分类器的思想我们探索了特征学习的对比度损失的两种变体，它们的形式各不相同，但有一个共同的想法，即在归一化嵌入空间中将同一类的样本其中之一是最近提出的监督对比（SC）损失，它是在最先进的非监督对比损失之上设计的，通过合并来自同一类的阳性样本。另一种是典型的监督对比（PSC）学习策略，它解决了标准SC损失中的大量记忆消耗，从而在有限的记忆预算下显示出更多的希望。在三个长尾分类数据集上的大量实验表明了所提出的基于对比学习的混合网络在长尾分类中的优势1. 介绍在现实世界中，图像类通常呈现长尾分布[25]。虽然一些常见的类（头部类）可以有足够的图像样本，一些不常见或罕见的类别（尾部类）可能是由有限的样本不足。数据的不平衡性给无偏分类器的学习带来了很大的挑战。大多数现有的工作解决数据不平衡问题，图1.用于长尾图像分类的基于交叉熵（上）、标准监督对比（SC）（左下）和原型监督对比（PSC）（右下）损失的特征学习的图示交叉熵损失学习偏斜的特征，这可能导致有偏见的分类器。监督对比学习（底部两个）学习更多的类内紧凑和类间可分离特征，这使分类器学习变得容易在标准SC学习中，锚样本与来自同一类的阳性样本在PSC学习中，每个样本都被拉向其类的原型（用星号标记），并被推离其他类的原型。减轻尾类中的数据不足，以防止模型被头类支配。典型的方法包括数据重新采样[1，8，35，4，28]，损失重新加权[26，7，30，33]，边际修正[3]和数据扩充[19，6，29]。最近提出了一种新的工作路线，通过将表示学习和分类器学习解耦为两个阶段来实现长尾图像分类[15，37，36]。这种工作[15，37，36]的共同动机是图像特征学习和分类器学习可能有利于不同的数据采样策略，因此重点是为这两个任务确定合适的采样策略。具体来说，他们发现在交叉熵损失下，随机数据采样可以更有利于特征学习，而类平衡采样943944是分类器学习的更好选择。尽管达到了承诺的准确性，这些方法留下的问题，是否典型的交叉熵是一个理想的损失学习功能不平衡的数据不变。直觉，如图所1，从典型的交叉熵中学习到的特征分布可能是高度偏斜的，这可能导致有偏见的分类器[24，12]，这会损害长尾分类。在这项工作中，我们探索有效的对比学习策略，并定制它们来学习更好的图像表示，从不平衡的数据，以提高长尾图像分类。具体来说，我们提出了一种新的混合网络结构，由用于学习图像表示的对比损失和用于学习分类器的交叉熵损失组成为了体现更好的特征使更好的分类器的想法，我们遵循课程，逐步过渡到学习特征学习分类器学习。我们实现了监督对比学习策略的两种变体，如图1所示，它们的形式不同，但有一个共同的想法，即在归一化嵌入空间中将同一类的样本拉到一起，并将不同类的样本分开。通过这样做，期望获得较少偏斜的特征和因此较少偏差的分类器我们探索的第一个在不平衡场景中学习特征的对比学习是最近提出的监督对比（SC）学习[18]，它是从最先进的无监督对比学习[5]扩展而来的在无监督对比学习[5，9]之后，有两个独立的阶段用于特征学习和分类器学习，原始SC学习[18]首先使用SC损失学习特征，然后冻结特征以学习分类器。我们认为，在本文中，这样的两阶段学习可能不是一个最佳的选择，在完全超监督的情况下，这可能会损害的兼容性的功能和分类器。我们提出了一个混合框架来联合学习特征和分类器，并实证证明了我们的联合学习模式的优势。在SC学习中引入类内正样本的一个问题是它会导致额外的内存消耗。在SC学习[18]中，来自同一类的阳性距离与来自其他类的阴性距离形成对比，这导致内存消耗与阳性大小和阴性大小的乘积呈线性关系因此，在有限的内存预算下，需要缩小负数大小。这可能会损害从对比损失[5]中学习到的特征的质量，特别是在处理具有大量类的数据集时，例如，[11]第十一话为了解决上述来自SC损失的记忆瓶颈，我们进一步提出了一种原型监督对比（PSC）学习策略，该策略与标准SC学习具有相似的目标，但避免了明确的相同。积极的和消极的。在PSC学习中，我们为每个类学习一个原型，并迫使每个样本被拉向其类的原型，并被推离所有其他类的原型。从这个意义上说，PSC策略可以实现更灵活和高效的数据采样，类似于基于softmax的交叉熵。它在有限的内存预算下处理大规模数据集时具有此外，PSC损失还具有一些其他吸引人的特性，可以使不平衡分类受益，例如对数据采样不太敏感，以及通过每个类使用多个原型来捕获更精细的类内数据分布的潜力。在三个长尾图像分类数据集上的实验表明，所提出的基于对比学习的混合网络可以明显优于基于交叉熵的混合网络，并建立了新的最先进的长尾图像分类性能。这项工作的贡献可归纳如下：• 提出了一种新的混合网络结构用于长尾图像分类.该网络被设计成由一个用于特征学习以及用于分类器学习的交叉熵损失。这两个学习任务是按照一个课程来执行的，以体现更好的特征可以简化分类器学习的想法。• 我们探索有效的监督对比学习策略来学习更好的特征，以提高长尾分类性能提出了一种原型监督对比学习（PSC），以解决标准监督对比学习（SC）所带来的记忆瓶颈问题。• 我们揭示了监督对比学习可以更好地替代长尾分类中受益于更好的功能学习，我们的混合网络大大优于交叉熵为基础的同行。我们的代码可以在https：//k-han上公开获取。github.io/HybridLT.2. 相关工作我们的工作与长尾分类和对比学习密切相关2.1. 长尾图像分类长尾分类是机器学习中一个长期存在的研究问题，其关键是克服数据不平衡问题[21，16]。鉴于深度神经网络在平衡分类任务中取得的巨大成功，越来越多的注意力正在转向提出基于神经网络的长尾分类解决方案在这项工作中，我们主要集中在基于神经网络的945方法，大致可分为以下几数据重采样数据重采样是一种常用的策略，可以人为地平衡不平衡的数据。两种类型的重新采样技术是欠采样[1，28，8]和过采样[1，32，31]。欠采样丢弃头类中的部分数据，而过采样从尾类重复采样数据。研究表明，过采样可能导致尾类的过拟合[4，28]。欠采样可能会丢失关于头类的信息，但如果头类的每个样本都接近同一类的其他样本，则可能会产生良好的结果[28]。数据扩充如上所述，虽然过采样增加了从尾部类看到更多数据的机会，但它不会生成新信息，因此会导致过拟合。一种补救方法是使用强大的数据扩充来丰富尾类。现有的工作从不同的角度接近这一[29]中的工作使用生成模型为尾类生成新样本，作为现有实例的凸组合。另一种研究尝试将信息从头类转移到尾类。在[19]中，作者通过向头部样本添加可学习的噪声来在另一项工作[6]中，作者将图像的特征图分解为类通用特征和类特定特征，并通过组合来自头部图像的类通用特征和来自尾部图像的类特定特征来在[23]中，将类内角方差从头类转移，以扩大尾类的多样性。损失重新加权除上述基于数据的重新平衡策略外，另一系列研究建议通过修改损失函数来减轻数据不平衡的负面影响。损失重新加权是为不平衡分类定制损失函数的简单但有效的方法之一，其中基本思想是在损失函数中增加尾部样本的权重并降低头部样本的权重[17]。现有的解决方案的不同之处主要在于如何定义不同类别的权重。在类敏感交叉熵损失[14]中，分配给每个类的权重在类平衡损失[7]中，作者基于不同类的实际体积来确定重新加权系数，称为有效数。在工作[30]中，对训练示例的权重进行了优化，以最大限度地减少保留评估集的损失。边际修正结果表明，当数据集是可分离的时，损失重新加权可以减少[2]。一个直观的替代方案是将分隔符移到更接近主导类的位置[27]。在工作[3]中，作者提出将每类边缘集成到交叉熵损失中。边际与类别的先验概率成反比，因此可以在尾类别和其他类别之间强制执行更大的边际工作[33]实现下另一个动机是抑制每个尾样本的头样本所导致解耦学习解耦学习是最近的一系列针对不平衡分类的方法。为了确定不同因素对长尾识别能力的具体贡献，工作[15]将长尾分类分为两个独立的阶段：表示学习和分类器学习。他们利用交叉熵作为这两个阶段的损失函数，并得出结论，特征学习有利于随机数据采样和类平衡采样是一个更好的选择分类器学习。与此平行，工作[37]在经验上获得了类似的结论此外，在[37]中提出了一种双边分支网络，其中一个分支使用随机采样来学习头部数据，另一个分支使用尊重采样来强调尾部数据。这两项工作的一个共同点在于为支持长尾分类的不同学习任务选择适当的数据采样策略但这两项研究都局限于交叉熵损失。2.2. 对比学习最近，对比学习在无监督表示学习中显示出很大的希望[5，9]。其基本思想是学习一个隐藏的空间，其中通过对比不同图像之间的一致性，使同一图像的不同增强视图之间的一致性最大化。一些关键组件使对比度损失在学习有用的表示中取得成功，包括适当的数据扩充，表示和对比度损失之间的可学习非线性变换，以及负数据的大批量[5]。监督对比（SC）学习[18]是对比学习的扩展，通过合并标签信息来组成积极和消极的图像。在无监督特征学习之后，SC学习也采用两阶段学习方式，其中第一阶段通过使用对比损失学习特征，第二阶段使用交叉熵损失学习分类器。3. 主要途径在这一节中，我们首先介绍了基于对比学习的混合网络的框架，该框架被提出用于长尾分类。然后，我们详细介绍了两个监督的对比学习计划作为混合网络的一部分，用于图像表示学习。3.1. 一种混合的长尾分类框架图图2示出了用于长尾图像分类的所提出的混合框架的概述该网络由两个分支组成：一个用于图像表示学习的对比学习分支和一个用于分类器学习的交叉熵驱动分支。特征学习分支946我我我fe（·）`2LSCL（ BSC）嵌入α特征学习骨干fc（·）1 −αLCE（ BCE）线性投影Logits分类器学习SRα时代z图2.概述了所提出的基于对比学习的混合网络结构。该网络由一个基于监督对比学习（SCL）的特征学习分支和一个基于交叉熵（CE）损失的分类器学习分支组成在这两个分支之间共享一个主干来提取图像表示，之后采用结合了MLP2 -归一化的非线性MLP fe（·）来转换图像表示以用于对比度损失，并且在图像表示的顶部应用单个线性层fc（·）来预测分类对数。课程的设计是为了控制这两个分支的权重，即，α和1−α，在网络训练期间。目的是学习一个特征空间，该特征空间具有内部学习分支的性质，类紧性和类内分离性。具有多个样本的分类器{x+}={xj|yi=yj，ij}，从学习分支预期学习较少偏差的分类器相同的类和n eg在iv e样本{x−}={xj|yJ我}基于从同胞获得的区别特征，凌枝。为了实现更好的功能从其他类。特征学习分支表示为BSC={xi，{x+}，{x−}}。班级-我我分类器学习，从而导致更多的gener-alizable分类器，我们遵循课程[37]在训练阶段调整这两个分支的权重。具体地说，在训练开始时，特征学习起主导作用，然后分类器学习逐渐占主导地位的训练。骨干网，例如，ResNet [10]在这两个学习分支之间共享，以学习图像表示r∈ RDE 对于每个图像x. 一种投影头，fe（·）将图像表示r映射到向量表示r。方向z∈ RDS更适合于对比度损失。我们将这个投影头fe（·）实现为一个具有一个隐藏层的非线性这种投影模块被证明在提高其之前的层的表示质量方面很重要[5]。然后，对z应用102归一化，以便内积可以用作距离测量。为了避免符号的滥用，除非另有说明，否则我们使用z作为x的归一化表示来进行对比损失计算。然后，在上面应用有监督的对比损失LSCL用于特征学习的归一化表示。的sifier学习分支直接获取图像和标签对作为输入BCE={{xi，yi}}。混合网络的最终损失函数为：Lhybrid=α·LSCL（BSC）+（1−α）·LCE（BCE），（1）其中α是与历元数成反比的加权系数二、3.2. 有监督的对比度损失及其记忆监督对比（SC）损失[18]是一种扩展无监督对比损失（UC）[5]。SC损失和UC损失之间的关键区别在于锚图像的正样本和负样本的组成。在UC丢失中，正图像是锚图像的替代增强视图。在SC损失中，除了替代增强的对应物之外，阳性还包括来自同一类别的一些其他图像。在本文中，我们将锚xi的所有正像统一为{x+}={xj|yj=yi，ij}（我们假设相同图像的不同视图具有不同索引）。的定义对于xi的正和负，也适用于zi，因为{z+}分类器学习分支更简单，它应用单个−i将线性层fc（·）映射到图像表示r，以预测用于计算交叉熵损失L CE的按类别的logits s ∈ RDC。由于两者性质不同，和{zi}。假设小批量大小为N，则SC损失函数写为：中国损失函数、特征学习和分类器学习分支具有不同的数据采样策略。那个...LSCL=i=1LSCL（zi），（2）947我我JJ−1L（z）=Σ原木exp（zi·zj/τ），可以简单地扩展到每个类的多个原型SCL我|{z+}| z∈{ z+}zk，kiexp（zi·zk/τ）背后的基本原理是，一个类中的样本可能JI（三）哪里|联系我们|表示锚点zi的重复样本的数量，并且τ> 0是标量温度参数。与UC损耗[5]相比，SC损耗可以灵活地遵循多峰分布，这可以通过使用多个原型来更好地建模。多原型监督对比（MPSC）损失函数可以设计为：包括任意数量的阳性。优化了-1Mwi，kexp（zi·pk/τ）通过与阴性样品对比，在这些阳性样品之间达成一致。然而，在SC损失中使用类内阳性的后果是，它导致了记忆控制，LMPSC（zi）=Mk=1原木Cj=1，j/=yiCIMMm=1是的，exp（zi·pm/τ）（五）消耗与正尺寸和负尺寸的乘积成线性关系。例如，当一个不同的类内图像以及另一种观点被用作SC中的积极因素其中M是每个类的原型数，pi表示类j的第i个原型的表示，损失，内存消耗将增加一倍，并且wi，k（wi，k≥0，Mk=1 wi，k=1）表示亲和力同样大小的负面影响。这限制了在有限的GPU内存预算下应用SC损失一个解决方案是缩小底片的尺寸。但是，当处理具有大量类的数据集时，这可能是有问题的，因为小的负大小样本的负类的一小部分，这可能会损害学习表示的质量。3.3. 原型监督对比损失为了同时解决存储器瓶颈问题并最大限度地保留SC损失的特征学习特性，我们提出了一种原型监督对比（PSC）损失。在PSC损失中，我们的目标是通过学习每个类的原型来实现SC损失的类似目标，并迫使每个样本的不同增强视图接近其类的原型使用原型的好处是双重的。首先，它通过避免显式地对阳性和阴性进行采样来实现更灵活的数据采样。因此，我们可以灵活地采用长尾分类中现成的数据抽样策略，如随机抽样和类平衡抽样。第二，在PSC丢失的情况下提高了数据采样在PSC损失中，我们将每个样本与所有其他类的原型进行如果数据集有C个类，这基本上等价于负的大小C −1。这在处理具有大量类数据集时实际上是重要的，例如，[11]第十一话PSC损失函数为：zi和它的类的第k个原型之间的值，用于在更精细的水平上控制每个样品的亲和力。我们把MPSC损失的详细评估留给未来的工作。4. 实验在本节中，我们首先介绍了用于我们实验的三个长尾图像分类数据集然后，我们提出了一些关键的实现细节，我们的方法。之后，我们将我们提出的混合网络与最先进的长尾图像分类方法进行了比较。最后，一些烧蚀研究突出了我们的混合网络的一些重要性质。4.1. 数据集我们在三个长尾图像分类数据集上进行了实验其中两个，长尾CIFAR-10和长尾CIFAR-100，是通过重新采样从平衡的 CIFAR [20] 数据集第三个数据集iNaturalist 2018 [11]是一个大规模的图像数据集，其中图像类别呈现长尾分布。长尾 CIFAR-10 和 CIFAR-100 原始 CIFAR-10 和CIFAR-100数据集是平衡数据集。它们由50，000个训练图像和10，000个有效图像组成将32×32的图像分别分为10类和100类。在[7，3]之后，通过减少每个类的训练示例数量来创建长尾版本，但而验证集不变。不平衡比β用于表示最频繁和最不频繁类的样本量之间的比率，即，β=Nmax/Nmin。的L（z）= −logexp（zi·pyi/τ）、（四）样本量在不同的时间段内呈指数衰减PSC我Cj=1，jyiexp（zi·pj/τ）班与大多数现有工作类似[7，3，37]，我们在实验中使用10，50和100的不平衡比。其中pyi是类yi的原型表示，被归一化到RDS中的单位超球面，zi是xi的归一化表示。每个类扩展到多个原型在上一节中，我们学习了每个类的一个原型但是PSC损失可以948iNaturalist 2018iNaturalist 2018是一个大规模的真实世界物种分类数据集。它由8，142个物种组成，其中437，513个训练和24，424个验证图像. 数据集观察到不同物种类别的样本量严重不平衡我们使用官方的训练和验证分割进行实验。9494.2. 实现细节在本节中，我们分别介绍了长尾CIFAR和iNaturalist实验的一些关键实现细节。long-tailed的实现细节CIFAR对于长尾CIFAR-10和CIFAR-100，我们使用ResNet- 32 [10]作为骨干网络来提取图像表示。我们的混合网络有两个分支，它们有独立的输入数据，如图2所示。两个分支共享的基本数据增强集包括32×32的随机裁剪、水平翻转和随机灰度概率为0。二、在SC损失之后，我们还得到通过使用不同的数据增强图像的不同视图，在PSC损失中在我们的实验中，我们简单地使用有和没有颜色抖动作为两个不同的增强视图。对于基于SC和PSC的混合网络，我们使用512的批量大小分类器学习分支使用类平衡数据采样。我们使用SGD，动量为0。9和1×10−4的权重衰减作为优化器来训练混合网络. 网络被训练了200个epoch，学习率在第120和第160个时期衰减10倍。初始学习率为0。五、对于课程系数α，我们使用抛物线衰减w.r.t在长尾CIFAR数据集上的实验结果比较了所提出的混合网络和现有方法在长尾CIFAR数据集上的性能表1中比较的方法涵盖了各种类别的不平衡分类思想，包括损失重新加权[7]，边际修正[3]，数据扩充[19]，解耦[37]和其他一些新提出的思想[34，13]。从表中可以看出，我们的混合网络在几乎所有设置上都优于比较方法。在这些方法中，CE表示最简单的基线，它直接使用交叉熵在长尾数据集上训练网络。正如预期的那样，这种基线方法达到了最差的性能，这揭示了交叉熵在处理不平衡数据时的局限性。虽然可以通过使用针对长尾数据定制的高级损失函数来提高性能[3，7，22]，但这些方法忽略了特征学习和分类器学习的不同属性。BBN [37]通过解耦头部数据和尾部数据建模更进一步。但是BBN的几个因素损害了解耦学习的全部潜力：1）它统一了倒数第二层中具有不同属性的两个数据流的表示; 2）交叉-历元数[37]，即，α=1−（T/TMax）2，其中T熵损失对于两者3）测试阶段的最终预测是cal-based。表示当前历元数，Tmax表示最大epoch数对于基于SC的混合网络，方程中的温度τ（3）固定为0。1.一、对于基于PSC的混合网络，对于CIFAR-10，τ被设置为1，而对于CIFAR-10，τ被设置为0。CIFAR-100为1。iNaturalist 2018的实施细节对于iNaturalist 2018，在大多数现有工作之后，我们使用ResNet-50 [10]作为骨干网络。除了使用大小为224×224的随机裁剪外，数据扩充与长尾CIFAR数据集中使用的数据扩充为了适应两个NVIDIA 2080 Ti GPU，我们使用100个批量大小用于基于SC和PSC的混合网络。网络使用SGD进行了100个epoch的训练，动量为0.9，权重衰减为1×10−4。初始学习率为0的情况。05，其在历元60时衰减10倍，第80章.由于iNaturalist拥有大量的类的数量，这可能使分类器学习更加困难，我们通过使用线性衰减的加权因子α来为分类器学习分支分配更高的权重，即，α=1−T/T最大值温度τ设定为0。SC和PSC损失函数均为1。对于SC损失函数，每个锚点的正样本数量固定为2。4.3. 与最新技术水平方法的在本节中，我们将提出的混合网络（包括基于SC和PSC损失的网络）分别与长尾CIFAR和iNaturalist数据集上的现有长尾分类方法计算为来自具有相等权重的两个分支的两个预测函数的和，这与训练阶段不一致。我们的方法解决了这些限制，因为：1)我们的特征学习分支中的投影模块将图像表示调整到更适合对比度损失的空间; 2）我们使用不同的损失函数来学习特征和分类器，并得出结论监督对比度损失可以更好地替代交叉熵从不平衡数据中学习特征; 3）我们使用单个分类器学习函数来预测每个样本的类别标签在我们的方法中，基于SC的混合网络，也就是Hybrid-SC，比PSC对应物，也就是Hybrid-PSC表现得更好，但后者仍然表现得与比较方法相当或iNaturalist 2018上的实验结果与iNatural上的一些现有工作的实验比较- 2018年的情况见表2。再次，我们将我们的混合网络与各种方法进行比较。在这些比较的方法中，解耦[15]和BBN [37]与我们的建议关系最密切，它们都是基于解耦学习的思想。我们的方法比BBN的优势已经在上面进行了分析在iNaturalist上，Hybrid- PSC的表现优于BBN 1。百分之八分类器再训练（cRT）是我们在[15]中选择比较的一种性能良好的方法。它是一个两阶段的方法，其中第一阶段学习图像特征，第二阶段冻结特征以学习分类器。他们使用交叉熵作为损失函数，950表1.基于ResNet-32的长尾CIFAR数据集的前1准确率（%）（最佳和次佳结果以粗体标记数据集长尾CIFAR-10长尾CIFAR-100不平衡比10050101005010CE70.3674.8186.3938.3243.8555.71[22]第二十二话70.3876.7286.6638.4144.3255.78CB-Focal [7]74.5779.2787.1039.6045.1757.99CE-DRW [3]76.3479.9787.5641.5145.2958.12CE-DRS [3]75.6179.8187.3841.6145.4858.11LDAM-DRW [3]77.0381.0388.1642.0446.6258.71CB-DA [13]80.0082.2387.4044.0849.1658.00M2M [19]79.10–87.5043.50–57.60休闲模特[34]80.683.6088.5044.1050.3059.60BBN [37]79.8281.1888.3242.5647.0259.12Hybrid-SC（我们的）81.4085.3691.1246.7251.8763.05Hybrid-PSC（我们的）78.8283.8690.0644.9748.9362.37这两个阶段，但使用不同的数据采样策略。我们认为这种方法有两个局限性：1）两阶段学习策略损害了学习的特征和分类器之间的兼容性; 2）交叉熵损失不是从不平衡数据中学习图像特征的理想选择我们的混合网络通过使用基于课程的学习策略来解决第一个限制，以顺利地从特征学习到分类器学习。第二个限制也在BBN中观察到，这可以通过我们的混合网络来我们的Hybrid-PSC网络比去耦[15]的性能高出近3%。另一个有趣的观察结果是Hybrid-PSC比Hybrid-SC表现更好，这一结果与我们的预期一致。请注意，对于两个混合网络版本，我们使用相同的批量大小100进行对比损失。与iNaturalist数据集中的类别数量相比，该批次大小太小，iNaturalist数据集中的类别数量无法为SC损失提供足够的负样本来学习高质量特征[5]。PSC损失避免了这个问题，因为，如第二节所分析的。3.3，每个样品将与所有阴性原型进行对比，无论批量大小如何。因此，混合PSC具有较好的分类性能。一般来说，我们可以说，基于PSC的混合网络可以观察到的优势，在有限的GPU内存预算下处理具有大量类的不平衡数据集时，SC损失4.4. 消融研究和讨论在本节中，我们进行了一些消融研究来表征我们的混合网络。具体而言，我们研究了所提出的PSC损失是否对数据采样不太敏感，与交叉熵损失相比，在特征学习中使用PSC损失的优势，以及与两阶段学习策略相比，我们基于课程的联合训练的优势。表2.基于ResNet-50的iNaturalist 2018数据集的前1名准确率（%）。对于解耦[15]，报告了性能良好的分类器再训练（cRT），因为它与我们的方法密切相关默认情况下，这些方法最多训练100个epoch。括号中的数字表示通过训练200个epoch获得的精度(Best第二好的结果用粗体标记）。数据集iNaturalist 2018CE57.16CB-Focal [7]61.12CE-DRW [3]63.73CE-DRS [3]63.56LDAM-DRW [3]68.00CB-DA [13]67.55[6]第六话65.91分离[15]65.20（67.6）BBN [37]66.29（69.62）Hybrid-SC（我们的）66.74Hybrid-PSC（我们的）68.10（70.35）PSC损失对数据采样的敏感性在解耦学习工作中[15，37]，作者发现交叉熵损失在用于学习特征时对数据采样敏感。具体地说，他们发现随机采样在特征学习方面明显优于类平衡采样例如，在[15]中，与交叉熵损失下的随机采样相比，类平衡采样可能导致约5%的准确度下降。由于我们工作中的PSC损失具有与交叉熵损失相同的数据采样方式，我们在表3中验证了我们的PSC损失对数据采样的敏感性。从表中我们可以看到，我们的混合PSC网络通过使用随机采样和类平衡采样实现了相当的性能，这表明我们的PSC可以减轻过采样导致的过拟合问题（类平衡采样属于过采样）。我们推测有两个可能的因素951我我我我表3.PSC损失对数据采样的敏感性评估混合PSC与随机PSC和混合PSC与CB-PSC表示在基于PSC的混合网络中，我们分别使用随机数据采样和类平衡数据采样作为特征学习分支报告了长尾CIFAR-100的分类准确度（%数据集长尾CIFAR-10长尾CIFAR-100iNaturalist 2018不平衡比10050101005010-混合PSC与随机PSC78.8283.8690.0644.9148.9362.3768.10混合PSC与CB-PSC78.8482.8589.8544.2149.6661.9367.71表4.长尾分类中特征学习中监督对比损失优于交叉熵损失的优势评估。CE-CE表示特征学习和分类器学习都采用交叉熵损失，即，我们的监督对比损失被交叉熵损失代替。报告了长尾CIFAR-100的分类准确度（%数据集长尾CIFAR-100不平衡比1005010CE-CE41.4046.6859.14混合SPC44.9748.9362.37混合SC46.7251.8763.05有助于PSC损失对数据采样的不敏感性。首先，在PSC损失中，图像特征和原型都是2-归一化的，这打破了类别频率和特征范数之间的强相关性。其次，假设样本与其亲-totype是syi =zi·py/τ。F或带标签的样品xiyi∈{1，2，. . . ，C}，PSC损失的梯度LPSC（zi）W. r.tsyi是常数，梯度w. r.ta f inityto一个来自iv e类c∈{1，2，. . . ，C}yi，是表5.评估基于课程的联合培训相对于两阶段培训的优势两阶段SC表示我们在不同的阶段训练特征和分类器。混合SC w/o课程意味着我们在训练过程中对特征和分类器学习使用相等和固定的权重报告了长尾CIFAR-100的分类准确度（%数据集长尾CIFAR-100不平衡比1005010二级SC42.7346.7660.62混合-SCw/o课程（α= 0. 第五章）42.5847.4560.48混合SC46.7251.8763.05混合SPC44.9148.9362.37结果明显低于我们基于课程的训练，因为它损害了特征和分类器之间的兼容性。为了进一步突出课程的重要性，我们在等式中设置加权系数α （1）为0。五、然而，仍然获得了不令人满意的结果当使用该课程时，我们首先允许监督对比损失主导训练，以便充分（sc）/exp（sy）. 分母前-利用他们的能力来学习区分特征，iy∈{1，2，···，C}，yi=yii包含了syi的主导项，因此导致了promi-nent梯度正类的恒定梯度和负类的突出梯度有助于减轻过采样中的过拟合，并增强特征的类间可分性PSC损失是特征学习中交叉熵损失的更好替代品吗？在这项工作中，我们声称监督对比损失有望从不平衡特征中学习更好的为了验证这一点，我们用交叉熵损失代替了混合网络中的对比损失结果示于表4中。可以看出，当使用交叉熵来学习图像特征时，性能显著下降。两阶段学习与基于课程的联合学习在这项工作中，我们使用一个课程来顺利地将训练从特征学习过渡到分类器学习。为了证明这种学习策略的优势，我们首先选择原始的两阶段SC工作[18]作为我们的基线，它在第一阶段使用SC损失训练特征，然后在第二阶段固定特征来训练分类器从表5中我们可以看到，这两个阶段的培训计划，有利于后期的分类器学习5. 结论在这项工作中，我们通过提出一种新的混合网络来处理长尾图像分类，该网络由学习图像特征的监督对比损失和学习分类器的交叉熵损失组成为了体现更好的特征产生更好的分类器的思想，遵循课程来平滑地将训练从特征学习过渡到分类器学习。提出了一种新的原型监督对比度损失算法，用于从不平衡数据中学习特征，在有限的GPU内存预算下观察到优势。在三个长尾分类数据集上的实验表明，该方法不仅显著优于现有方法，而且还具有其他一些有利于非平衡分类的应用特性据我们所知，这是第一个探索如何在长尾图像分类中最大化监督对比学习价值的工作。我们将继续这一方向作为我们未来的工作，更深入的探索MPSC作为第一步。952引用[1] Mateusz Buda，Atsuto Maki，and Maciej Mazurowski.卷积神经网络中类不平衡问题的系统研究神经网络，2017年。第1、3条[2] 乔纳森·伯德和扎卡里·蔡斯·利普顿。深度学习中重要性权重的影响是什么 Kamalika Chaudhuri 和 RuslanSalakhutdinov，编辑，ICML，2019年。3[3] Kaidi Cao ， Colin Wei ， Adrien Gaidon ， NikosArechiga，and Tengyu Ma.使用标签分布感知的边际损失学习不平衡数据集。2019年在NeurIPS上发表。一、三、五、六、七[4] Nitesh Chawla、Kevin Bowyer、Lawrence Hall和W.凯格尔迈耶SMOTE：合成少数民族过采样技术。人工智能研究杂志，2002年。第1、3条[5] 陈婷，西蒙·科恩布里斯，穆罕默德·诺鲁兹，和杰夫·弗雷·辛顿.视觉表征对比学习的一个简单框架。2020年，《国际反洗钱法》。二、三、四、五、七[6] Peng Chu，Xiao Bian，Shaopeng Liu，and Haibin Ling.长尾数据的特征空间扩充在ECCV，2020年。一、三、七[7] Yin Cui，Menglin Jia，Tsung-Yi Lin，Yang Song，andSerge Belongie. 基于有效样本数的类平衡损失。在CVPR，2019年。一、三、五、六、七[8] 克里斯·德拉蒙德和罗伯特·霍尔特C4.5，类不平衡和成本敏感性：为什么欠采样胜过过采样。ICML关于从不平衡数据集学习的讲习班，2003年。第1、3条[9] 何开明、范浩琪、吴雨欣、谢赛宁、罗斯·格西克。用于无监督视觉表示学习的动量对比。在CVPR，2020年。二、三[10] 何开明，张翔宇，任少卿，孙健。用于图像识别的深度残差学习在CVPR，2016年。四、六[11] Grant Van Horn，Oisin Mac Aodha，Yang Song，YinCui，Chen Sun，Alex Shepard，Hartwig Adam，PietroPerona，and Serge Belongie.iNaturalist物种分类和检测数据集。在CVPR，2017年。第二、五条[12] Chen Huang，Yining Li，Chen Change Loy，and XiaoouTang.学习不平衡分类的深度表示。在CVPR，2016年。2[13] Muhammad Abdullah Jamal ， Matthew Brown ， Ming-Hsuan Yang，Liziang Wang，and Boqing Gong.从领域适应的角度重新思考长尾视觉识别的类平衡方法。在CVPR，2020年。六、七[14] 纳塔莉·雅普科维奇和沙朱·斯蒂芬阶级不平衡问题：一个系统的研究。智能数据分析，2002年。3[15] Bingyi Kang，Saining Xie，Marcus Rohrbach，ZhichengYan，Albert Gordo，Jiashi Feng，and Yannis Kalantidis.用于长尾识别的解耦表示和分类器。2020年，在ICLR。一、三、六、七[16] 格里高利·卡拉库拉斯和约翰·肖-泰勒。不平衡训练集的分类器优化。NIPS，1999年。2[17] S. H.汗，M。哈亚特Bennamoun，F. A. Sohel和R.托涅里深度特征表示的953不平衡的数据。 IEEE Transactions on NeuralNetworks and Learning Systems，2018。3[18] 普拉奈·科斯拉、彼得·泰特瓦克、王晨、亚伦·萨尔纳、田永龙、菲利普·伊索拉、亚伦·马希诺、刘策、迪利普 · 克里希南。有监督的对比学习 .NeurIPS，2020年。二、三、四、八[19] 金在亨，郑钟宪，申镇宇。M2M：通过大到小翻译的不平衡分类。在CVPR，2020年。一、三、六、七[20] A. Krizhevsky和G.辛顿从微小图像中学习多层特征。技术报告，2009年。5[21] 米罗斯拉夫·库巴特和斯坦·马特温。解决不平衡训练集的诅咒：单侧选择。ICML，1997年。2[22] Tsung-Yi Lin ， Priya Goyal ， Ross Girshick ，Kaiming He，and Piotr Dollar.用于密集目标检测的焦点损失。在ICCV，2017年。六、七[23] 刘嘉伦、孙一凡、韩楚楚、窦兆鹏、李文辉。长尾数据的深度表示学习在CVPR，2020年。3[24] Weiyang Liu ， Yandong Wen ， Zhiding Yu ， andMeng Yang.卷积神经网络的大余量softmax损失InICML，2016. 2[25] Ziwei Liu，Zhongqi Miao，Xiaohang Zhan，JiayunWang，Boqing Gong，and Stella X. Yu.开放世界中的大规模长尾识别。在CVPR，201

下载后可阅读完整内容，剩余1页未读，立即下载