长尾视觉识别的平衡对比学习

102 浏览量更新于2023-10-25 收藏 1.22MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

6908长尾视觉识别的平衡对比学习朱江刚1，2*，郑旺1，2*，陈晶晶1，2 <$，陈宜萍3，蒋玉刚1，21复旦大学计算机学院上海市智能信息处理重点实验室2上海市智能视觉计算3拉筹伯大学计算机科学与信息技术系{jgzhu20，zhengwang17，chengjingjing，ygj} @ fudan.edu.cn，phoebe. latrobe.edu.au摘要真实世界的数据通常遵循长尾分布，其中少数多数类别占据大部分数据，而大多数少数类别包含有限数量的样本。最小化交叉熵的分类模型很难表示和分类尾类。虽然学习无偏分类器的问题已经得到了很好的研究，表示不平衡数据的方法尚未得到充分的探索。在本文中，我们专注于不平衡数据的表示学习。近年来，超监督对比学习在平衡数据上显示出良好的性能。然而，通过我们的理论分析，我们发现，对于长尾数据，它无法形成一个规则的单纯形，这是一个理想的几何构型的表示学习。为了纠正SCL的优化行为，进一步提高长尾视觉识别的性能，我们提出了一种新的平衡对比学习（BCL）损失。与SCL相比，我们在BCL中有两个改进：类平均，平衡负类的梯度贡献;class-complete，允许所有类出现在每个mini-batch中。所提出的平衡对比学习（BCL）方法满足形成规则单纯形的条件，并辅助交叉熵的优化。配备BCL，所提出的两分支框架可以获得更强的特征表示，并在CIFAR-10-LT ， CIFAR-100-LT ， ImageNet-LT 和iNaturalist 2018等长尾基准数据集上实现具有竞争力的1. 介绍深度神经网络在一系列计算机视觉任务中取得了显着的成功，例如图像识别[4，12，25]，视频分析[37，49]，对象检测[35]，*表示平等贡献。†Jingjing-Chen是通讯作者。图1.平衡对比学习的例证。头类主导SCL的训练过程，并且压缩超球面上的尾类的表示空间（由）。BCL学习一个嵌入空间，它平等地对待所有类，并形成一个正则单纯形（用·表示）。这些成就在很大程度上归功于大规模数据集的可用性，如ImageNet [11]，其中每个类都有足够且等量的训练样本。然而，现实世界的数据集往往是不平衡的，其中许多类只有很少的样本，而很少的类有大量的样本。使用这种不平衡数据训练的深度模型通常在平衡测试数据上泛化能力很差，特别是对于罕见的类。在不平衡数据下提高识别性能对现代深度学习方法提出了巨大挑战。为了解决不平衡数据的学习问题，早期的方法主要集中在重新采样训练数据[1，2，14，33]或重新加权损失函数[9，21，45]以更多地关注稀有类。最近，出现了各种各样的方法。例如，Logit补偿方法[3，31，38]校准训练数据和测试数据之间的分布。[23]一个两阶段的训练方案，其中分类器是重新，6909在第二阶段保持平衡[44]中的工作有多个分布感知专家，用于响应不同类别频率的样本然而，对比学习方法以前很少探索，直到引入对比学习[8，22，42]。我们非常重视表示学习，因为它在本文中，我们专注于使用监督对比学习（SCL）[24]来辅助表示学习。在大规模分类问题上，监督对比损失比监督交叉熵损失取得了更好的性能。[16]中的工作详细解释了SCL在平衡数据集上表现出色的原因。尽管取得了巨大的成功，但最近的一些工作[8，22]表明，高频类支配SCL用于表示不平衡数据，这导致所有类的性能都不令人满意为了分析SCL在学习长尾数据表示时的优化行为，我们描述了当损失达到下界时训练实例表示具体而言，我们通过推导两个竞争动态来解耦损失的下限：如[ 16 ]中的吸引项和排斥项。我们发现长尾分布主要影响排斥项。在最小监督对比损失下，长尾数据类的表示不再具有正则单纯形结构。换句话说，当具有相同标签的所有实例折叠为点时，这些点彼此不等距。根据经验，规则的单纯形配置具有重要的好处，例如更好的泛化性能[32]。此外，它已被证明是平衡数据上SCL的目标几何配置[16]，因此形成规则的单纯形配置将有利于长尾数据上的识别[15]。受我们分析的启发，我们敦促不平衡数据上的模型学习形成一个规则的单纯形，并提出一种平衡对比学习（BCL）方法（如图所示）。1）。我们在BCL中有两个修改，将其与SCL区分开来。首先，类补引入类中心嵌入，即，原型，作为每个小批量中的组件实例。第二，类平均具有针对每个小批次平均的每个类的所有负值的梯度贡献。通过这两个改进，BCL保证了损失的总体下界此外，我们采用交叉熵损失和logit补偿来获得平衡分类器。Logit补偿可以有效缓解分类器学习中的漏尾类[3，20，31，34]。总的来说，我们提出了一个两分支框架来实现上述技术，即，具有BCL的对比学习分支和具有logit补偿交叉熵的分类分支。我们的主要贡献如下：• 我们提出了一个理论分析表明，监督对比学习形成了一个不希望的非对称几何配置长尾数据，由于压倒性的头类的数值优势• 基于我们的分析，我们将监督对比学习扩展到平衡对比学习，克服了不平衡问题，仍然是长尾数据的常规单纯形配置。• 提出的两分支框架结合了分类模块和平衡对比学习模块，在几个流行的长尾数据集上取得了有竞争力的结果2. 相关工作解决长尾问题的早期解决方案包括两个主要思想：重新采样和重新加权。重采样方法欠采样[1，14]高频类或过采样[1，2，33]低-频率等级重新加权方法[9，21，45]为每个类别或每个示例的不同训练样本分配不同的损失。BBN [51]和Decoupling [23]都表明，重新平衡方法对表征学习有害BBN动态地调整来自实例平衡采样分支和反向采样分支的特征而Decoupling提出了一种两阶段的学习策略，首先获得一个好的特征提取器，然后固定特征提取器并微调分类器。最近提出的logit补偿方法[3，23，31，38]基于类别频率的先验知识学习不同类别之间相对较大的裕度例如，logit adjustment [31]基于最优贝叶斯分类器推导出补偿值的一般形式。我们提出的框架同时改进了BCL的表示学习，并以端到端的方式通过logit补偿加强了分类器学习。监督对比学习对比学习（CL）通过聚合语义相似的样本同时排除语义不相似的样本，以成对的方式训练模型，已用于各种任务中的特征表示学习[17，43，46]。Simplified [5]和MoCo [18]是两种典型的自监督对比学习。SCL [24]利用标签信息进行全监督表示学习，从而实现最先进的图像分类性能。长尾识别的对比学习在长尾数据上训练，传统的对比学习可能会带来潜在的问题。SSP [48]通过自监督和半监督6910Y {}ZX → Z ∈Z →Yy| ·|SCL0其他）∈ ZN是NX∈≤⟨·⟩y对比学习Hybrid-SC [42]设计了一个双分支网络，使用监督对比学习分支来学习更好的表示，使用分类器分支来消除分类器对头部类的偏见。尽管我们的框架与Hybrid-SC共享类似的两个分支架构，但我们的框架与Hybrid-SC不同，因为我们在SCL分支中引入了BCL损失来处理多数类的支配问题。Hybrid-PSC [42]被提出来克服SCL的内存PaCo [8]通过引入一组类可学习中心来克服SCLKCL [22]采用两阶段学习范式，并在每个批次中对所有类使用相同数量的阳性。最近提出的TSC [28]是与我们最相关的工作，它促使类的特征更接近正则单形顶点上的目标特征。TSC中的目标是学习没有类语义，而我们的BCL使用类原型作为额外的样本。3. 方法3.1. 预赛在图像分类任务中，我们的目标是学习从输入空间到目标空间=[K]=1，2，.- 是的- 是的、K. 函数φ通常被实现为编码器f：Rh和线性分类器W：的组合。最终的分类精度在很大程度上取决于表示的质量。因此，我们的目标是学习一个好的编码器f，以改善长尾学习。此外，我们有以下定义以便于稍后的分析：监督对比损失。对于批次B中的代表zi的实例xi，监督对比损失具有以下表达式：(a)(b)（c）第（1）款图2.关于（a）平衡数据上的SCL、（b）长尾数据上的SCL和（c）平面中长尾数据上的BCL的表示每个类的类均值不同的颜色代表不同的-ent类。SCL如（b）中那样扩大高频类别之间的距离并且减小低频类别之间的距离，从而导致长尾数据的不对称几何配置内接于半径ρ >0的超球面的正则单形的顶点，当且仅当下列条件成立：(1) i∈[K](2) 当i∈[K]时，(3) d∈R：d=<其中h，K N与Kh+1，和表示内积运算。正则单形具有顶点等距的高度给定一个平衡的数据集，见图1所示。第2段（a）分段。3.2. 分析SCL的缺点。为了清楚地表明优化是-1μexp（zi·zp/τ）Li=−|B|− 1p∈By\{i} 日志k∈B<$\{i}exp（zi·zk/τ）（一）SCL对长尾数据的检验，我们主要关注由代表形成的几何构型的变化，每一个阶级的代表虽然每一个代表其中，By是B的子集，其包含类别y，我们进一步定义BC为By的补集。代表集合中的样本数。τ >0是控制对相似样本的容差的标量温度超参数，并且小的温度往往对相似样本的容差较小[41]。注意，我们在为了简单起见，遵循对比损失类似于[16]，我们还引入了类特定的批量损失：L（Z;Y，B，y）=.如果 |By|>1（2）类折叠到一个正则单纯形的顶点时，在平衡数据集上，监督对比损失达到最小，在长尾数据集上，SCL形成非对称结构，如图2所示。第2段（b）分段。在下文中，我们将对损失函数进行深入分析，以说明为什么几何配置会因不平衡数据而发生变化特别地，我们分析了损失的下限。由于直接计算整个长尾数据集的下界通常是棘手的，我们转而关注特定小批量的损失。定理1. 假设应用了标准化函数对于特征嵌入，令Z =（z1，. - 是的-是的，zN正则单纯形一组点Z1，. - 是的- 是的，<$K∈ Rh，带标号Y=（y1，. -是的-是的，yN）∈[K]N，其中Z ={z∈ Rh：<$z<$= 1}. 类特定的批处理-6911………Σy联系我们ΣD∈y|BC|我 K|−1|− 1我 J\{y} |BQ|k∈Bq我 K|−1 j ∈ B y \{ i}|− 1 j∈By\{i}我 J锚点样品批次样品exp（+*%j）exp（+*j）|*1+1|&k∈B$ {$$}exp（λ+λk）类原型1批次样品%类原型1补体平均图3. 左图：对比锚样本与其他样本。右图：对特定类应用类平均和类补。我们平均锚样本和批样本以及类原型之间的相似性请注意，蓝色的类不会出现在小批量中，因此锚点与其原型之间的相似性可以直接作为结果。明智的损失是有界的L SCL（Z;Y，B，y）≥log（（|B y |− 1）+i∈By|exp（1|exp(1z·z −1yk∈BCj∈By\{i}被不同的负面阶级所赞颂我们称此操作为类平均。头类负样本的梯度减小。下面，我们给出了执行类平均后的下界。定理2. 设Z，Y如定理1所定义，[K]表示出现在批处理中的类的集合。排斥项证据参见[16]中的引理S1。attractiontermx在执行类别-求平均值的范围为上述SCL损失的下限由[16]导出，其由排斥项和吸引项组成2）A = 0（1）B =0（|黄蓝|1）x exp（i∈By吸引项导致可变性崩溃[32]，培训的进展，以及所有的类内表示，1Σ|− 1 q ∈Y |−1 q∈Y1z·z−1z·z））他们的阶级最终会崩溃。吸引力项B仅涉及特定类别中的样本这意味着`repulsipouchopouchontermx`attractiontermx（4）同一个类应该尽可能接近。吸引项会导致类内特征折叠，而与类频率无关.而排斥项影响类间一致性，并由频率较高的类占主导地位，因此SCL中的特征不太可分离。我们指出，数据不平衡主要影响排斥项。显然，排斥项与小批量内出现的类的数据分布密切当数据集是长尾的时，我们采样的几乎每个小批次都是长尾的。这导致在排斥项中头部类别占优势，并使每个样本远离头部。然而，由于每个类中的样本数量不同，头类之间的距离将比其他头类大。此外，对于每个样本，来自负头类的Gra-1将比负尾类大得多。这不可避免地会导致损失更多地集中在优化封头类别上，并导致如图所示的不对称几何形状。第2段（b）分段。溶液我们用两个简单的想法修改监督对比损失，即，类平均和类补充。修改后的损失将导致长尾数据的规则的简单配置，正如我们将展示的那样。为了避免过度集中在头类上，一个直观的方法是平衡梯度，证据参见补充材料。因此，头类不再占主导地位的排斥术语。由于每个类别不是以相等的概率采样的，因此这仍然可能导致不稳定的优化并且不能形成规则的单纯形。为了解决这个问题，我们让所有的类出现在每个小批中，并将此操作命名为类补。下面，我们给出了执行类补后的总体下界定理3. 假设Z，Y如定理1中所定义，如果我们对每个B都有YB=Y，则总损失由下式给出：KLBCL（Z; Y）≥| D|log（1+（K − 1）exp（−K −1））（5）其中表示数据集。这里，忽略归一化项。回想一下，Z是具有标签Y的N点配置，等式（1）的等式当且仅当下列条件成立时，才能得到5。有ζ1，. . .，使得：(1) n∈[N]：zn=n(2) ζ1，.- 是的- 是的，ζK形成正则单形证据参见补充材料。注意，条件（1）暗示可变性崩溃，并且条件（2）展示了正则单纯形结构。当平衡对比损失达到其下限时，6912L∥ ∥y∈ ZΣΣ||LL1Σj∈YB将输出作为每个类的原型。通过应用类平均和类补充，k∈BjΣ模特对头等舱的偏爱注意，在实践中，我们在类平均之前执行类求补，图4.拟议框架概览。该框架由分类分支和平衡对比学习分支组成。v2和v3采用与v1不同的相同的增强方法。主干线由两个分支共享。分类器权重分别由MLP变换以用作原型。对于平衡对比损失，所有表示都是2-归一化的。每个负类对梯度的贡献相等。此外，BCL确保每个样本的损失是一致的，并且在达到其下限时是与类无关的，这意味着学习将不那么偏向于头类（图1）。第2段（c）分段）。3.3. 平衡对比学习类平均的关键思想是在一个小批中平均每个类的实例，这样每个类都有一个近似的优化贡献。直观地说，它减少了分母中头类的比例，强调了尾类的重要性。在第3.2节中，我们取方法[26，36，42]，其中每个样本被拉向它的类原型，并被推离其他样本。注意，zRh是内积的 2-正规化，因此z2=1。在实验部分对它们的性能进行了比较。下面，我们选择1进行优化。为了使所有类出现在每个小批量中，我们引入类中心表示，即：平衡对比学习的原型。现在我们有平衡对比损失的公式如下：1LBCL= −|B |×将损失表作为L进行分析。然而，还有其他的问题。exp（zi·zp）1exp（z·z）实现班级平均化的方法。在这里，我们给出三个损失表如下：p∈{By\{i}}<${cy}j∈Y |+1个|+1k∈Bj<${cj}Ik（九）1Σyexp（zi·zp）|BJ|我 K（六）其中cj是原型的索引。实际上，我们-L1=−|B |−1对数Σ1 EXP（z·z）形成分类器权重的非线性映射，并重新1Σyexp（zi·zp）j∈YB|BJ|（七）我 K下限是一个类独立常数，避免L2=−|B| − 1对数Σexp（1z·z）exp（zi·zcy）（八）如在Eq. 9，并在图中示出。3 .第三章。L3=−logexp（zi1分裂克21分类器1分类类别特定权重23ℓ2MLP2MLP2BCL损失… ℓ2ℓ2MLP1美元2美元k33对比学习CE损失日志p∈By\{i}k∈Bjp∈By\{i}6913LLL≥ LLj∈Y·zcj）框架拟议框架概述如下：示于图4.第一章它由两个主要部分组成：一个类-其中当正类是平均的。我们1和2的唯一区别是平均操作发生在不同的位置，选项。1在指数函数之外执行平均而2在指数函数内部具有平均值第由于-log和exp是凸函数，因此，用詹森不等式来表示3、采取在其他基于原型的对比学习中提出的形式归纳分支和对比学习分支。两分支被同时训练并且共享相同的fea，真提取器 BCL是一个统一的端到端模型，不同于传统的对比学习方法这是一个两阶段的训练策略。我们有不同两个分支的扩增方法三种不同视图总共生成，其中v1是用于分类任务v2和v3是6914LL×LL−对比学习任务。在[5，24]中的工作之后，我们为对比学习分支使用了对称架构。我们使用具有一个隐藏层的MLP来获得用于对比学习的表示zi，其中zi= W1σ（W2fi），σ是ReLU函数。而不是使用均值嵌入[36]或可学习参数[8，42]作为原型，我们的动机是线性分类器的权重与类折叠的这些单纯形顶点共线性[16，32]。具体来说，我们有一个类特定的权重w1，w2，. -是的-是的，wK作为原型zc1，zc2，. - 是的- 是的，z cK. 补充材料中给出了使用不同视图配置和不同形式原型的烧蚀。所有用于对比学习的表示都是2归一化的，以确保特征空间是一个单位超球面。对于长尾学习任务，由于数据的不平衡性，最后一个分类层的输出logit通常存在偏差。 Logit补偿旨在消除数据不平衡引起的偏差，并学习边界的校正[3，31，38]。补偿可以在训练或测试期间应用以前的工作[3，9，20，31，38]说明了在长尾视觉任务中logit补偿的可取性，它可以概括为以下形式方法Top-1 Acc.L151.9L250.2L3 51.0表1.不同类别平均法的消融研究所有模型使用相同的训练方案运行200个历元。LC SC补体平均前1 Acc.✓中国50.8中国52.4中国52.3中国52.0中国53.9表2. BCL主要成分的消融研究。LC和SC表示Logit补偿和监督对比损失。补集和平均分别代表类补集和所有模型运行400个历元。数据的不平衡。实验中使用的不平衡因子被设置为100、50和10。ImageNet-LT是在[ 30 ]中提出的，它是香草ImageNet的长尾版本，通过对遵循Pareto分布的子集进行采样，幂值α=0。六、它由115.8K的1000类图像组成，LLC（y，φ（x））= −αylogexp（φy（x）+δy）φexp（φ′（x）+δ′）（十）每类总共有1280到5个图像。iNaturalist 2018iNaturalist 2018 [40]是一个大规模的y yy′∈[Y]这里，αy是控制类别y的重要性的因子，δy是类别y的补偿，其值与类别频率有关我们定义αy=1，δy=logPy，如[31]所示，并在训练时执行logit补偿，其中Py表示标签y的类先验。最后，我们有以下培训损失L=λLLC+µLBCL（11）其中λ和μ分别是控制LC和BCL影响的超参数此外，对比分支仅旨在骨干学习期望的特征嵌入。4. 实验4.1. 数据集长尾CIFAR-10和CIFAR-100和CIFAR-100-LT 分别是CIFAR-10和CIFAR-100的子集。CIFAR-10和CIFAR-100都在[3，9，51]之后，我们使用相同的长尾版本进行公平比较。不平衡因子β由β=Nmax/Nmin定义，这反映了数据集包含来自8，142个类别的437.5K图像。它是长尾的性质，具有极不平衡的分布。除了长尾识别之外，该数据集还用于评估细粒度分类任务。4.2. 实现细节对于CIFAR-10-LT和CIFAR-100-LT，我们使用ResNet-32作为主干。与[8]相同，我们使用AutoAugment [6]和Cutout [13]作为分类分支的数据增强策略，并使用SimAugment [5]作为对比学习分支。为了控制LC和BCL的影响，λ设置为2.0，µ设置为0.6，温度τ设置为0.1。我们将批量大小设置为256，权重衰减设置为5e 4。MLP的隐藏层和输出层的维数分别设置为512和128我们运行BCL 200个epoch，学习率上升到0.15在前5个历元内衰减，并在历元160和180以0.1的步长衰减。在[8]之后，我们还运行了400个epoch的模型，其中学习率上升到在前10个历元内的步长为0.15，并且在历元360和380处以步长为 0.1 衰减我们使用一个 Nvidia GeForce1080Ti GPU训练上述模型。对于 ImageNet-LT ，我们使用 ResNet-50 [19] 和ResNeXt- 50- 32 x4 d [47]作为我们的主干。我们运行BCL 90 个epoch ，初始学习率为 0.1 ，权重衰减为5e−4。对于iNaturalist，我们使用ResNet-50作为我们的6915骨干6916†−LLLLLL∼方法CIFAR-100-LTCIFAR-10不均衡因数10050101005010[第四十八话]43.4347.1158.9177.8382.1388.53[29]第二十九话38.4144.3255.7870.3876.7286.66CB-Focal [10]39.6045.1757.9974.5779.2787.10BBN [51]42.5647.0259.1279.8281.1888.32休闲模特[39]44.1050.3059.6080.6083.6088.50LDAM-DRW [3]42.0446.6258.7177.0381.0388.16ResLT [7]48.2152.7162.0182.4085.1789.70[42]第四十二话46.7251.8763.0581.4085.3691.12[27]第二十七话48.0152.2761.2880.6684.3489.68BCL（我们的）51.9356.5964.8784.3287.2491.12表3.ResNet-32在CIFAR-100-LT和CIFAR-10-LT上的精度最高最佳结果以粗体标记表示从[42]借用的结果。我们报告了200个时代的结果。方法许多介质几所有200个纪元[23]第二十三话61.442.515.741.4[42]第四十二话---46.7[27]第二十七话---48.0DRO-LT [36]64.750.023.847.33个月落地签证收50美元[44]68.149.223.948.0BCL（我们的）67.253.132.951.9400个纪元[34]第34话---50.8帕科[8]---52.0BCL（我们的）69.753.835.553.9表4.ResNet-32在CIFAR-100-LT上的精度最高，不平衡因子为100。我们报告了200个纪元和400个纪元的结果。†和‡表示借用自[36]和[8]的结果并使用初始学习速率运行BCL 100个epoch，0.2 重量衰减是 1e4 。对于 ImageNet-LT 和 iNaturalist2018，我们使用余弦调度学习率，λ设置为1.0，µ设置为0.35。批大小设置为256。我们使用RandAug增强策略的分类分支，和SimAug的对比学习分支。不同增强策略的性能见补充材料。为了减少存储器消耗，对于两个数据集，MLP的输出层的维度被设置为1024。我们使用余弦分类器。所有模型都使用SGD优化器进行训练，动量设置为0.9。为了进行公平的比较，我们在ImageNet-LT上再现了ResNext-50的PaCo 180个epoch。4.3. 消融研究我们进行了几项消融研究，以表征拟议的BCL方法。所有实验均在具有100的不平衡因子的CIFAR-100上进行首先，我们比较了不同类平均实现的性能（即，L1、L2和L3）。1和2之间的主要区别是平均操作的执行顺序。对于3，我们使用我们工作中实现的原型，而不是同一个类的所有嵌入的平均值。如表1所示，1实现了最佳性能，这与我们之前的分析一致。令人惊讶的是，3比2实现了更好的性能，这可能归因于原型的良好表现特征。为了证明平衡对比损失的优越性，我们比较了表2中损失的主要组成部分的性能。我们使用交叉熵损失与logit补偿（LC）作为香草基线。SC表示将对比学习分支与常规监督对比损失相加的基线。类补和类平均是所提出的平衡对比损失的主要技术。我们表明，无论是使用类补充或类平均单独不能提高整体精度。相比之下，当两者都应用时，可以获得显著的性能提升，这表明两个组件都是实现更强性能的不可缺少的组件。4.4. 主要结果本文提出的BCL与其他现有方法在长尾CIFAR上的比较结果如表3所示。从表中可以看出，BCL始终优于其他方法。此外，BCL在具有大不平衡因子的长尾CIFAR数据集上实现了更好的性能。我们注意到BCL和Hybrid-SC之间的准确性差距随着数据不平衡程度的降低而降低这主要是由于当不平衡问题越严重时，传统的监督对比损失导致表示学习中更严重的偏差。此外，我们报告了三组类别的准确性，包括Many-shot （ >100 张图像）， Medium- shot （ 2 100 张图像），Few-shot（20张图像），在CIFAR- 100-LT上，不平衡因子为100。此外，对于A6917†方法ImagNet-LTiNaturalist 2018τ-范数[23]46.765.6cRT [23]49.665.2LWS [23]49.965.9BBN [51]-66.3[42]第四十二话-66.7[42]第四十二话-68.1[第四十八话]51.368.1KCL [22]51.568.6[50]第五十话52.969.5[44]第44话最后一句话54.471.4BCL（我们的）56.071.8表5. ResNet-50在ImageNet-LT和iNat- uralist 2018上的准确性排名第一。所有方法都训练了多达100个epoch。与[8]相比，我们报告了200和400个历元的精度。DRO-LT [36]也是一种对比学习方法，通过引入分布式鲁棒性扩展了原型对比如表4所示，BCL分别在200个训练时期和400个训练时期超过DRO-LT 4.6和PaCo 1.9值得一提的是ImageNet-LT表5和表6列出了ImageNet-LT上的结果。我们报告了多镜头组、中镜头组和少镜头组的总体Top-1准确度与Balanced Softmax [ 34 ]相比，Balanced Softmax[ 34 ]通过根据类别频率调整预测来提出logit补偿。BCL在所有组中的表现都明显优于Balanced Softmax，这证实了学习良好的表示可以提高整体性能。LWS [23]、τ-norm [23]和DisAlign [50]采用两阶段学习策略。这些方法侧重于在第二阶段对分类器进行微调，而不考虑表示学习阶段中隐含的偏差。PaCo [8]在监督对比学习中使用了一组参数中心这些中心被分配有更大的权重，其可以被视为分类器的权重。但是，BCL中使用的原型补充了每个类的示例，以确保所有类都出现在每个小批处理中。与PaCo相比，BCL实现了更好的总体准确率为57.1%，在头部和几个类上具有显著的准确率改进iNaturalist 2018表5显示了iNaturalist 2018上的实验结果。由于BCL是一种对比学习方法，它从更长的训练时间中受益更多。然而，为了进行公平的比较，我们报告了各种模型训练多达100个epoch的结果。Hybrid-SC [42]和Hybrid-PSC [42]是对比学习方法，由于潜在的学习能力，表6. ResNext-50在ImageNet-LT上的最佳精度。我们报告了90个和180个时期的结果。表示使用作者发布的代码重新生成的结果，两者都使用RandAug。在表征学习中产生的偏差。RIDE [44]从基于集成的方式训练模型。RIDE通过路由不同的专家来获得然而，这与我们通过训练足够的编码器和平衡的特征空间来提高长尾学习的动机不同。与基于集合的模型RIDE相比，BCL始终表现出更好的识别性能，并达到71.8%的整体准确率。5. 结论在这项工作中，我们从表征学习的角度研究了长尾识别问题。我们提供了深入的分析，以证明前监督对比学习形成了长尾数据的不希望的非对称几何配置为了解决不平衡的数据表示学习问题，我们开发了一个平衡的对比损失，使所有类都优化为一个规则的单纯形配置，产生一个平衡的特征空间。除了BCL，我们采用了一个分类分支与logit补偿，以解决有偏见的分类器。总体而言，我们提出了一个统一这两个分支的框架。我们对长尾CIFAR、ImageNet-LT和iNaturalist2018的长尾基准实验结果充分证明了BCL算法优于现有的长尾学习方法。6. 确认本工作得到了国家自然科学基金项目（#62072116）、上海市经济和信息化委员会项目（2020-GYHLW-01009）和上海市浦江项目（20 PJ1401900）的部分支持。方法许多介质几所有90个时期[29]第二十九话64.337.18.243.7τ-范数[23]59.146.930.749.4[34]第三十四话62.248.829.851.4LWS [23]60.247.230.349.9LADE [20]62.349.331.251.9休闲模特[39]62.748.831.651.8[50]第五十话62.752.131.453.4[44]第44话最后一句话---55.9BCL（我们的）67.253.936.556.7180个纪元LADE [20]65.148.933.453.0平衡Softmax†65.853.234.155.4[8]第十八话64.455.733.756.0BCL（我们的）67.954.236.657.16918引用[1] Mateusz Buda、Atsuto Maki和Maciej A Mazurowski。对卷积神经网络中类不平衡问题的系统研究。神经网络，106：249-259，2018。一、二[2] 乔纳森·伯德和扎卡里·利普顿。深度学习中重要性加权的效果是什么？国际机器学习会议，第872-881页。PMLR，2019年。一、二[3] Kaidi Cao ， Colin Wei ， Adrien Gaidon ， NikosArechiga，and Tengyu Ma.学习具有标签分布感知的边际损失的不平衡数据集。在第33届神经信息处理系统集，第1567-1578页，2019年。一、二、六、七[4] Jingjing Chen ， Bin Zhu ， Chong-Wah Ngo ， Tat-SengChua，and Yu-Gang Jiang.食品成分识别的多任务和区域深度学习研究。 IEEE Trans-actions on ImageProcessing，30：1514-1526，2020。1[5] 陈婷，西蒙·科恩布里斯，穆罕默德·诺鲁齐，和葛offrey Hinton.视觉表征对比学习的一个简单框架国际机器学习会议，第1597-1607页。PMLR，2020年。二、六[6] Ekin D Cubuk， Barret Zoph ，Dandelion Mane ，VijayVasude-van，and Quoc V Le.自动扩增：从数据中学习增强策略。在IEEE/CVF计算机视觉和模式识别会议论文集，第113-123页6[7] Jiequan Cui，Shu Liu，Zhuotao Tian，Zhisheng Zhong，and Jiaya Jia. Reslt：用于长尾识别的剩余学习。arXiv预印本arXiv：2101.10633，2021。7[8] Jiequan Cui，Zhisheng Zhong，Shu Liu，Bei Yu，andJiaya Jia.参数对比学习。IEEE/CVF计算机视觉国际会议论文集，第715-724页，2021年。二三六七八[9] Yin Cui，Menglin Jia，Tsung-Yi Lin，Yang Song，andSerge Belongie. 基于有效样本数的类平衡损耗。在IEEE/CVF计算机视觉和模式识别会议论文集，第9268-9277页，2019年。一、二、六[10] Yin Cui，Menglin Jia，Tsung-Yi Lin，Yang Song，andSerge Belongie. 基于有效样本数的类平衡损耗。在IEEE/CVF计算机视觉和模式识别会议论文集，第9268-9277页，2019年。7[11] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。2009年IEEE计算机视觉和模式识别会议，第248-255页。Ieee，2009年。1[12] Lixi Deng，Jingjing Chen，Qianru Sun，Xiangnan He，Sheng Tang，Zhaoyan Ming，Yongdong Zhang，and TatSeng Chua.基于上下文关系网络的混合菜肴识别在第27届ACM国际多媒体会议论文集，第112-120页，2019年。1[13] Terrance DeVries和Graham W Taylor。改进的卷积神经网络的正则化。 arXiv 预印本 arXiv ： 1708.04552 ，2017。6[14] 克里斯·德鲁农和罗伯特·霍尔特。等级不平衡和成本敏感性：为什么欠采样胜过过采样。 ICML-KDD 2003研讨会：Learning from Inbalanced Datasets，Volume 3，2003. 一、二[15] Cong Fang，Hangfeng He，Qi Long，and Weijie J Su.通过层剥离模型探索深度神经网络：少数民族在不平衡的训练中崩溃。美国国家科学院院刊，118（43），2021。2[16] Florian Graf，Christoph Hessels，Marc Niethammer，andRoland Kwitt.剖析监督式对比学习。国际机器学习会议，第3821-3830页。PMLR，2021年。二三四六[17] Tengda Han，Weidi Xie，and Andrew Zisserman.用于视频表示学习的自监督协同训练 Advances in NeuralInformation Processing Systems，33：56792[18] Kaiming He，Haoqi Fan，Yuxin Wu，Saining Xie，andRoss Girshick.用于无监督视觉表示学习的动量对比。在IEEE/CVF计算机视觉和模式识别会议论文集，第9729-9738页2[19] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页，2016中。6[20] Youngkyu Hong ， Seungju Han ， Kwanghee Choi ，Seokjun Seo，Beomsu Kim，and Buru Chang.用于长尾视觉识别的标签分布分解。在IEEE/CVF计算机视觉和模式识别会议论文集中，第6626-6636页，2021年。二、六、八[21] Chen Huang，Yining Li，Chen Change Loy，and XiaoouTang.学习不平衡分类的深度表示。在IEEE计算机视觉和模式识别集，第5375一、二[22] Bingyi Kang，Yu Li，Sa Xie，Zehuan Yuan，and JiashiFeng.探索用于表示学习的平衡特征空间。在学习代表国际会议，2020年。二、三、八[23] Bingyi Kang，Saining Xie，Marcus Roh

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

长尾视觉识别的平衡对比学习

transformer 大模型 长尾算法

SEO如何运用长尾关键词

如何用transformer做视觉检测

谈谈你对长尾分布的看法

长尾分类python实现

python的长尾分布函数库

长尾词seo排名优化

可以说明一下在银行资金等具体是如何平衡服务长尾客群的"智慧金融"与服务于"三农两小"的"普惠金融"吗？

以太网时延的长尾效应

长尾差分放大电路设计

对于目标值是连续数值的回归模型，目标值的分布极度不平衡，出现严重的长尾。怎么做可以实现目标值的分布上的平衡呢？要求：附上python实现代码

请阐述长尾理论的概念。

揭秘深度强化学习 第5章 卷积神经网络(cnn)

在语义分割方向上，数据存在什么难题？比如长尾分布问题，你还能举出三个例子吗？并详细说明。

阐述长尾式差分放大电路的工作原理

百度 tomcat 的长尾词有哪些

长尾式差分放大电路图multisim

请叙述和长尾分布类似的难题

长尾式差动放大电路中Auc为什么不会是负的

Tackling Long-tailed Relations and Uncommon Entities in Knowledge Graph Completion

最新资源

transformer 大模型长尾算法

揭秘深度强化学习第5章卷积神经网络(cnn)