目标监督对比学习改善长尾识别问题的方法

138 浏览量更新于2023-10-25 收藏 23.46MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

69180针对长尾识别的目标监督对比学习0Tianhong Li 1 , � Peng Cao 1 , � Yuan Yuan 1 Lijie Fan 1 Yuzhe Yang 10Rogerio Feris 2 Piotr Indyk 1 Dina Katabi 101 MIT CSAIL, 2 MIT-IBM Watson AI Lab0摘要0现实世界的数据通常呈现长尾分布，存在严重的类别不平衡，其中多数类别可以主导训练过程并改变少数类别的决策边界。最近，研究人员研究了目标监督对比学习在长尾识别中的潜力，并证明它能够提供强大的性能提升。在本文中，我们展示了虽然目标监督对比学习可以帮助提高性能，但过去的基准模型在不平衡数据分布带来的均匀性差的问题上存在问题。这种均匀性差表现为少数类别的样本在特征空间中具有较差的可分性。为了解决这个问题，我们提出了目标监督对比学习（TSC），它改善了超球面上特征分布的均匀性。TSC首先在超球面上生成一组均匀分布的目标，然后在训练过程中使不同类别的特征收敛到这些不同且均匀分布的目标。这迫使所有类别，包括少数类别，在特征空间中保持均匀分布，改善了类别边界，并在存在长尾数据的情况下提供更好的泛化能力。在多个数据集上的实验证明，TSC在长尾识别任务上实现了最先进的性能。01. 引言0现实世界的数据通常在类别上呈现长尾分布：少数类别包含许多实例（头部类别），而大多数类别只包含少数实例（尾部类别）。对于关键应用，如医学诊断、自动驾驶和公平性，数据本质上存在严重的不平衡，少数类别尤为重要（少数类别可以是患者或事故[41, 49,51]）。对于这类问题的兴趣已经激发了最近关于不平衡数据的研究。0� 表示平等贡献。0(a) KCL0(b) TSC（我们的方法）0▲ 类中心 ● 数据点0飞机猫狗0� = � : � : � � = �� : � : � � = �� : � : �0图1. (a) k-正对比学习 (KCL) 和 (b) TSC在CIFAR10的三个类别（飞机、猫、狗）上的测试数据特征分布，对于不同的训练数据不平衡比例 ρ。在高不平衡比例下，KCL学习到的类中心呈现出较差的均匀性，而TSC学习到的类中心仍然均匀分布，因此TSC取得了更好的性能（其中Acc指的是测试数据上的准确率）。0分类任务中，训练数据集存在不平衡或长尾分布，但测试数据集在类别之间分布均匀[4, 24, 46, 49,50]。长尾和不平衡的数据集对于分类任务构成了重大挑战，导致性能显著下降[1, 2, 8, 48, 52]。数据重采样[1, 2, 5,40]和损失重加权[3, 4, 9, 11, 25,26]等技术可以改善尾部类别的性能，但通常会损害头部类别[24]。最近，研究人员研究了目标监督对比学习在长尾识别中的潜力，并证明它能够提供强大的性能提升[23]。他们进一步提出了k-正对比学习（KCL），这是一种监督对比学习的变体，可以在长尾数据集上获得更好的性能。然而，虽然目标监督对比学习可能是有益的，但将对比损失（包括KCL损失）应用于不平衡数据可能导致均匀性差，从而影响性能。均匀性是一种理想的属性[46]；它指的是在理想情况下，监督对比学习应该收敛到一个嵌入空间中的均匀分布。69190其中不同的类别在超球面上均匀分布[19,46]。均匀性最大化了特征空间中类别之间的距离，即最大化了边界。因此，它提高了泛化能力。但是，当类别不平衡时，训练自然会更多地关注多数类别的损失，而较少关注少数类别的损失。因此，类别在特征空间中不再均匀分布。为了说明这个问题，我们考虑CIFAR-10中的三个类别：狗、猫和飞机。我们在这些数据上使用KCL模型[23]进行不同不平衡比例（ρ）的训练，为了视觉清晰起见，我们使用一个二维特征空间。如图1(a)所示，当类别平衡时（即ρ=1:1:1），三个类别的中心在KCL特征空间中均匀分布。相反，当不平衡比例较高时（例如ρ=100:1:1），训练实例较少的类别开始彼此重叠，导致决策边界不清晰且不可分，从而降低性能。这是因为不平衡的数据分布自然会更多地关注头部类别和尾部类别之间的均匀性损失，而较少关注两个尾部类别之间的均匀性损失，使得头部类别和尾部类别之间的距离比两个尾部类别之间的距离大得多。长尾数据越不平衡，特征空间的偏差越大，均匀性越差。有人可能尝试通过过采样尾部类别或重新加权损失函数来解决这个问题。然而，正如[24]所示，这些方法会过度拟合尾部类别，以牺牲头部类别的性能来改善尾部类别的性能，从而损害了学习特征的质量。因此，需要一种能够进行实例平衡采样同时仍能学习均匀特征空间的方法。在本文中，我们提出了针对长尾识别的目标监督对比学习（TSC）。为了避免特征空间被头部类别主导和偏倚，我们提前生成（即离线生成）类别中心的最佳位置。我们将这些均匀分布的点称为类别目标。然后，我们设计了一种在线匹配训练方案，该方案在对比训练的同时自适应地将每个类别的样本与目标之一进行匹配。如图1(b)所示，TSC学习到了一个类别平衡的特征空间，无论训练集的不平衡比例如何。需要注意的是，不能简单地将任何目标点与任何类别匹配。尽管目标在特征空间中均匀分布，但两个目标之间的距离可能差异很大。例如，如果图1中的类别数目为10而不是3，那么尽管目标在特征空间中均匀分布，但某些目标之间会更接近于其他目标。因此，我们的匹配训练方案必须确保语义上相近的类别（例如猫和狗）收敛到附近的目标，而语义上较远的类别收敛到相对较远的目标。我们在长尾基准数据集（包括CIFAR-10-LT、CIFAR-100-LT、ImageNet-LT和iNaturalist）上评估了TSC，并展示了它在所有数据集上改进了最先进的性能。总之，本文的贡献如下：0•它在实证上表明，当应用于长尾识别时，监督对比学习基线可能会受到均匀性差的影响，从而降低其性能。0•它引入了TSC，一种新颖的长尾识别框架，避免了特征空间被头部类别主导和偏倚。0•它在基准数据集上实现了SOTA的长尾识别性能，证明了所提方法的有效性。0•它进一步表明TSC在基准数据集上实现了SOTA的长尾识别性能，证明了所提方法的有效性。02. 相关工作0不平衡学习和长尾识别。现实世界的数据通常遵循长尾或不平衡的分布，这会使学习偏向于头部类别，并降低尾部类别的性能[49, 54]。传统方法主要集中在通过数据重采样[1, 2,5, 40]或在训练过程中调整不同类别的损失权重[3, 4, 9, 11,25,26]来设计类别重新平衡范式。然而，这些方法会以头部类别的性能为代价来改善尾部类别的性能[24]。研究人员还尝试通过使用不同数据分布的集成[46, 53,57]或使用自我监督引导的蒸馏标签生成模块来改善长尾识别[33]。集成和蒸馏方法与在单个模型上操作的方法是正交的，并且可以利用单模型方法的改进来提高性能。最近的研究[24, 51,57]表明，将表示学习与分类器学习解耦可以得到良好的特征，这促使我们在长尾识别中使用特征提取器的预训练。[50]的作者引入了一种自我监督的预训练初始化方法，以减轻不平衡数据引起的偏差。[23]的作者进一步表明，自我监督学习可以提高对数据不平衡的鲁棒性，并引入了k-positive对比学习（KCL）。我们的工作基于这一文献，并引入了一种处理数据不平衡的新方法，该方法使用预先计算的均匀分布的目标来引导训练过程，以实现更好的均匀性和改进的类别边界。对比学习。近年来，自我监督表示学习取得了稳定的进展[10, 12-15, 17, 22, 32, 33, 38, 39, 55, 56]。对比Lu({ti}Ci=1) = 1CC�i=1logC�j=1etTi ·tj/τ.(1)̸69200学习[6, 7, 16, 20, 21, 27, 30,45]在多个任务上取得了显著的成功[31, 37,47]。对比学习的核心思想是对齐正样本对并排斥负样本对。许多工作[19, 30, 42, 43,45]努力理解和解释其特性以及对下游任务的影响。特别是，[45]证明了对比学习在正样本对特征的对齐（接近度）和（归一化）特征在超球面上诱导分布的均匀性方面渐近优化。监督对比学习（SupCon）[27]将对比学习扩展到完全监督设置。它从属于同一类别的数据中选择正样本，并在嵌入空间中对齐它们，同时将来自不同类别的样本推开。通过使用对比损失和类别标签，SupCon在图像分类上超越了传统的监督交叉熵损失的性能。对比学习的大部分工作都集中在平衡数据上。然而，最近的研究人员将对比学习应用于不平衡和长尾分类，并展示了改进的性能[23, 50]。03. 方法0TSC是一种用于改善潜在特征分布均匀性的训练框架。它旨在学习表示，其中每个类别的中心在超球面上均匀分布，从而在类别之间获得清晰的决策边界。TSC在长尾识别任务上特别有效，因为对于基于监督对比损失的传统方法，训练实例较少的类别很容易与其他尾部类别合并，导致分类性能不佳。图2显示了TSC的概述。我们希望将类别中心的目标位置放置在超球面上，这些目标位置在训练之前预先计算并保持固定。在训练过程中，目标位置在线分配给类别，并设计了一种有针对性的监督对比损失，以鼓励每个类别的样本移动到分配的目标位置。03.1. 目标生成0首先，我们在特征空间中计算目标的最优位置。由于长尾识别中测试数据集在类别之间均匀分布，并且对比学习中的特征位于单位超球面Sd−1={u∈Rd:||u||=1}[6,21]上，理想的类别目标应在该超球面上均匀分布。注意，计算这些理想目标位置不需要访问数据，只需要知道类别数量和特征空间的维度。因此，类似于[45]中定义的均匀性损失，我们设计了C个类别的目标位置，{t�i}Ci=1，0生成均匀目标类目标分配0狗0猫0★ 目标 ▲ 类别中心 ● 数据点0平面0图2.TSC的示意图。首先在超球面上计算类别中心的最优目标。然后，在每次迭代中，将每个目标分配给最近的类别，并设计了一种有针对性的对比学习损失，以鼓励每个类别的样本移动到分配的目标位置。0作为最小化0直观上，我们希望超球面上的目标位置彼此尽可能远离。理想的位置将在超球面上完全均匀分布，形成一个正则单纯形的顶点（即�δ∈R，tTi∙tj=δ，�i，j，i≠j且�0i t i = 0 ) [ 190然而，当超球面的维度不够大时（例如，d < ( C − 1)），解析计算上述方程的最小值变得非常困难[ 19 ]。10因此，{ t � i } C i =1 是通过在 L u上进行梯度下降计算得到的，其中 t i被限制在超球面上。注意，在梯度下降后，L u的最小值将等于其解析最小值，当 d ≥ ( C − 1) 时。03.2. 匹配训练方案0类别-目标分配。一旦我们获得一组目标位置，我们需要为每个目标分配一个类别标签。一种方法是将类别标签随机分配给目标位置。然而，这将导致特征空间的语义非常差。这是因为一些目标位置可能在超球面上彼此靠近，而另一些目标位置则远离，特别是当类别数量很大时（例如，ImageNet和iNaturalist）。理想情况下，语义上相近的类别应该被分配给彼此靠近的目标位置。然而，准确量化两个类别之间的语义接近度是困难的。即使我们可以量化它，即存在一个明确定义的“语义距离”来衡量两个类别之间的距离，计算它也是计算上困难的（即，没有多项式时间算法）。0即使对于已经研究得很好的汤姆森问题，即在3D球面上确定最均匀（最小静电势能）的 N 个电子排列，其解仅在 N = { 1 , 2 , 3 , 4 , 5 , 6 , 12 }时已知。solution) to compute the optimal assignment that matchesclasses with target positions while keeping the semantic dis-tance between classes consistent with the euclidean distancebetween their targets.2{σ∗i }i = arg min{σi}i1C||tσi − ci||,(2)ivjvj||2 and Fi is the set of features fromLT SC = − 1N1vj+,klogevTi ·v+j /τ�vj∈ ˜Vi∪UevTi ·vj/τ+ λ logevTi ·c∗i /τ�vj∈ ˜Vi∪UevTi ·vj/τ�,(3)69210为了解决这个问题，我们设计了一种启发式算法，在保持特征空间的语义结构的同时找到一个良好的分配。我们不是预先计算分配，而是在训练过程中自适应地进行。具体来说，在训练过程的每次迭代之后，我们使用匈牙利算法[ 29]找到最小化目标位置与分配给它们的归一化类别中心之间距离的分配 { σ � i } C i =1，即：0C空格0其中 c i =0空格0|| 空格0类别 i。在实践中，由于一个批次可能只包含所有类别的一个子集，我们使用加权移动平均法来跟踪每个类别的中心。具体而言，在每次迭代中，我们计算批次中每个类别的新类别中心c ′ i，并通过 c i ← 0 . 9 ∙ c i + 0 . 1 ∙ c ′ i 更新记录的c i。如第5.2节所示，这种分配算法在保持特征空间的语义结构方面表现良好。目标有监督对比损失。为了利用分配的目标，我们设计了一种目标有监督对比损失 L TSC。给定一批数据样本{ ( x i , y i ) } N i =1，其中 y i ∈ [ C] 是 x i 的类别标签。将 v i 定义为 x i 在单位超球面 S d − 1上的特征，将 ˜ v i 定义为通过增强 x i 生成的特征，将 V i= { v n } N n =1 \{ v i } 定义为当前批次中除 v i之外的特征集合，将 V + i,k � V i 定义为包含从 { v j ∈ V i :y j = y i } 中均匀抽取的 k 个特征的 v i 的正样本集合。令 ˜V i = { ˜ v i } ∪ V i 和 ˜ V + i,k = { ˜ v i } ∪ V + i,k。则 LT SC 定义为：0N空格0空格1空格0空格0其中 U = { t � i } C i =1 是预先计算的目标集合，c � i = t � σ �yi 是相应类别的分配目标。02这个问题可以被看作是两个邻接矩阵之间的匹配问题。图同构问题[18]尚不知道是否可以在多项式时间内解决，可以将其归约到这个问题。0请注意，损失函数由两个部分组成。第一个部分是KCL[23]中使用的标准对比损失，而第二个部分是目标和批次中样本之间的对比损失。后者将样本更接近其类别的目标，并远离其他类别的目标。L T SC强制每个类别的投影与其分配的目标对齐，同时在超球面上均匀分布目标，因此对于长尾识别任务是有益的。04.实验0我们在多个长尾基准数据集上评估了TSC，并展示了其卓越的性能。04.1.实验设置0我们在基准数据集上进行了大量实验，如CIFAR-10-LT和CIFAR100-LT（MIT许可证），以及大规模长尾数据集，如ImageNet-LT（CC BY2.0许可证）[35]和iNaturalist（CC0，CC BY或CCBY-NC许可证）[44]。CIFAR10-LT和CIFAR-100-LT采用指数衰减的方式对类别进行采样。不平衡比例ρ定义为最频繁类别的样本数除以最不频繁类别的样本数。与之前的工作类似，我们使用ResNet-32作为主干网络[50]评估TSC在不平衡比例为10、50和100的情况下的性能。对于ImageNet-LT和iNaturalist，我们使用ResNet-50作为主干网络[23，24，46]评估TSC。根据[23，24]，我们使用两阶段训练策略在长尾识别数据集上实现TSC。在第一阶段，我们使用TSC损失训练表示编码器。在第二阶段，我们在学习到的表示之上训练线性分类器。对于CIFAR-10-LT和CIFAR-100-LT，线性分类器使用LDAM损失和类别重新加权进行训练。对于ImageNet-LT和iNaturalist，线性分类器使用CE损失和类别平衡采样进行训练。我们还经验性地发现，在早期训练中，最好先通过不分配目标并仅使用KCL损失来预热网络。因此，对于ImageNet-LT和iNaturalist，我们在总共的训练轮次的一半之后开始进行类别目标分配。根据KCL损失，我们使用k =6来计算TSC损失。我们使用与之前工作相同的数据增强方法，包括非对比学习基线。我们在附录中提供了我们方法实现的详细描述。所有结果都是在具有不同随机种子的3次试验中平均得到的。长尾识别主要有两种类型的工作：1）单模型训练方案设计，如新的采样策略[24]或新的损失函数[4，9，23]，以及2）对不同数据分布进行集成，将长尾数据重新组织成组，并训练一个模型CE70.474.886.438.343.955.7CB-CE [9]72.478.186.838.644.657.1Focal [34]70.476.786.738.444.355.8CB-Focal [9]74.679.387.139.645.258.0CE-DRW [4]75.178.986.440.544.756.2CE-DRS [4]74.578.686.340.444.556.1LDAM [4]73.476.887.039.645.056.9LDAM-DRW [4]77.080.988.242.046.258.7M2m-ERM [28]78.3-87.942.9-58.2M2m-LDAM [28]79.1-87.543.5-57.6KCL† [23]77.681.788.042.846.357.6del69220表1.ResNet-32在长尾CIFAR-10和CIFAR-100上的Top-1准确率（%）。TSC在过去的不平衡学习技术上持续改进，并取得了最佳性能。每个不平衡比例的先前SOTA结果都用灰色标记。我们报告了我们重新实现的KCL（†）在CIFAR上的准确率，因为他们在[23]中没有报告他们在CIFAR上的性能。0数据集 CIFAR-10-LT CIFAR-100-LT0不平衡比例（ρ）100 50 10 100 50 100TSC 79.7 82.9 88.7 43.8 47.4 59.00每个组的个体模型，并在多专家框架中组合这些模型。之前的工作[46]表明，这两种方法是正交的，可以结合在一起提高性能。我们的工作属于第一类工作。因此，我们首先将TSC与已建立的最先进的单模型基线进行比较，包括[4, 23, 24,28]，然后展示TSC与基于集成的模型的组合可以进一步提高其性能。此外，文献比较了不同数据集的不同基线[23, 46,50]。因此，对于每个数据集，我们与该数据集的典型和SOTA基线进行比较。04.2. 结果0CIFAR-10-LT和CIFAR-100-LT。表1比较了TSC与CIFAR-10-LT和CIFAR-100-LT上的最先进基线方法。它显示，与其他SOTA方法不同，TSC在这两个数据集的所有不平衡比率上都表现出一致的改进。这表明TSC可以很容易地推广到不同的不平衡比率和数据集，因为其设计不需要对数据集的不平衡比率有先验知识。ImageNet-LT。表2比较了TSC与ImageNet-LT数据集上的最先进基线方法。如表所示，TSC相对于基于交叉熵损失的基线方法取得了显著的改进。它比τ-norm高出5.7%，比cRT高出5.1%，比LWS高出4.7%。它还改善了KCL[23]在所有类别划分上的性能（对于许多类别划分提高了1.1%，对于中等类别划分提高了0.7%，对于很少类别划分提高了0.9%）。请注意，TSC不仅改善了少数类别的均匀性，还改善了整体的性能。0表2.TSC在ImageNet-LT上优于先前的最先进单模型方法。每个类别划分（许多、中等、很少、全部）的先前SOTA结果以灰色标记。请注意，[23]中报告的每个类别划分的KCL准确性与所有类别的报告准确性不匹配（61.8*0.385+49.4*0.479+30.9*0.136=51.658，无法四舍五入为51.5），这表明他们报告的结果可能有误。因此，我们还报告了我们重新实现的KCL的结果（用†表示），它在所有类别上的准确性与稍有不同，但在每个划分上略有不同。0方法许多中等很少所有0OLTR [35] 35.8 32.3 21.5 32.2 τ -norm [24]56.6 44.2 27.4 46.7 cRT [24] 58.8 44.0 26.147.3 LWS [24] 57.1 45.2 29.3 47.7 FCL [23]61.4 47.0 28.2 49.8 KCL [23] 61.8 49.4 30.951.5 KCL † 62.4 49.0 29.5 51.50TSC 63.5 49.7 30.4 52.40表3. TSC在具有挑战性的iNaturalist 2018[44]数据集上优于先前的最先进单模型方法，该数据集包含8142个类别。每个类别划分（许多、中等、很少、全部）的先前SOTA结果以灰色标记。0方法许多中等很少所有0CE 72.2 63.0 57.2 61.70CB-Focal - - - 61.1 OLTR [35] 59.0 64.1 64.9 63.9LDAM + DRW [4] - - - 64.6 cRT [24] 69.0 66.0 63.265.2 τ -norm [24] 65.6 65.3 65.9 65.6 LWS [24]65.0 66.3 65.5 65.9 KCL [23] - - - 68.60TSC 72.6 70.6 67.8 69.70整个特征空间的均匀性，如第5.1节所详述。这进一步证明了所提出的TSC损失在改善类别中心之间的均匀性和提供清晰的类别边界方面的有效性。iNaturalist数据集。表3比较了TSC与iNaturalist数据集上最先进的基线方法。TSC在所有类别划分上都取得了最佳性能，证明了其在解决现实世界中的长尾识别问题（如自然物种分类）方面的有效性。TSC和集成方法的组合：在之前的结果中，我们将TSC与已建立的最先进的单模型基线进行了比较。在这里，我们展示了TSC也可以与最先进的基于集成的方法RIDE[46]相结合，进一步提升其性能。要使用TSC和RIDE实现，我们只需用TSC替换RIDE中的原始第一阶段训练，并保持第二阶段不变。A = 1CC�i=11|Fi|2�vj,vk∈Fi||vj − vk||2.(4)U =1C(C − 1)C�i=1C�j=1,j̸=i||ci − cj||2,(5)A : 0.1683U : 1.4945 𝐔𝟏: 1.2037A : 0.1684U : 1.4945 𝐔𝟏: 1.0061(b)(a)vj ∈Fij||vFvj||2 .̸...69230表4.使用ResNet-50在ImageNet-LT上的Top-1准确率。TSC与最先进的基于集成的方法RIDE [46]的组合可以进一步提高性能。0方法多中少全0RIDE (2 专家) [46] 65.8 51.0 34.6 54.4 RIDE (3 专家) [46]66.2 51.7 34.9 54.9 RIDE (4 专家) [46] 66.2 52.3 36.555.40TSC+RIDE (2 专家) 68.4 51.3 36.4 55.9 TSC+RIDE (3专家) 69.1 51.7 36.7 56.3 TSC+RIDE (4 专家) 69.2 52.437.9 56.90路由训练不变。如表4所示，TSC和RIDE的组合在所有不同数量的专家上都观察到了一致的改进。这进一步证明了TSC在长尾识别任务上的有效性。05. 分析0我们对TSC进行了广泛的分析，以解释其相对于基线的优势。我们还进行了彻底的消融实验，以证明TSC流程中每个组件的有效性。05.1. 理解学习表示0在对比学习中，特征被规范化为落在一个超球面上[6,21]，损失函数直接优化特征空间中实例之间的距离。因此，我们可以使用特征空间中的距离来评估学习表示的质量。我们提出了几个指标来评估从长尾数据集中学习到的表示，并研究了为什么TSC在长尾识别任务上比过去的工作（如KCL）取得了更好的性能。类内对齐。对比损失的一个优化目标是最小化正样本之间的距离。类似于[45]，在监督对比学习设置下，我们将对齐性定义为同一类别样本之间的平均距离，其中 F i 是来自类别 i 的特征集合：0类间一致性。对比损失的另一个优化目标是最大化负样本之间的距离。因此，在监督对比学习设置下，我们将类间一致性定义为不同类别中心之间的平均距离：0图3.三个类别的示例特征分布，具有相同的类内对齐和类间一致性，但不同的最近邻域一致性 U 1。由于最近邻类别过于接近，(a)中绿色类别和橙色类别之间的决策边界不清晰。0其中 c i 是类别 i 的样本在超球面上的中心0球面： c i =0邻域一致性。尽管类内对齐和类间一致性是衡量学习表示质量的重要指标，但它们无法评估一个类与其邻居之间的接近程度。例如，如图3所示，尽管(a)和(b)都实现了相同的对齐和一致性，但是(b)在特征空间中显示出更好的邻域一致性和绿色类别与橙色类别之间更清晰的决策边界。由于我们真正关心的只是那些彼此之间距离过近的类别，因为它们之间的决策边界可能不清晰，我们将邻域一致性定义为每个类别的前k个最近类别中心的距离：0Uk = 1Ck0i = 1 minj1,∙∙∙,jk (0l = 1 || ci - cj l || 2 ) , (6)0其中 j1，∙∙∙，jk ≠ i 是不同的类别。0食肉动物0猫科动物0熊0猫0大猫0...家0猫...0美洲狮0冰熊...0图4. 两个类别之间的语义距离示意图。0合理性。为了更好地泛化，学习到的特征空间还应保持合理的语义结构，即语义上相近的类别69240在特征空间中，这两个类别也应该相近。因此，我们将合理性定义为每个类别与其前k个最近类别之间的语义距离。两个类别的语义距离使用WordNet层次结构[36]计算，该层次结构是一个包含所有ImageNet类别的叶节点的层次结构。两个类别的语义距离被定义为WordNet层次结构中两个叶节点之间的最短距离。例如，如图4所示，Cougar和Icebear之间的语义距离为6。0表5.TSC在ImageNet-LT上实现了比KCL更好的均匀性、邻域均匀性和合理性，同时保持几乎相同的对齐度。邻域均匀性和合理性的k值设置为10。↑表示越大越好，而↓表示越小越好。0度量方法多中等少全部0对齐度 ↓ KCL † 0.71 0.69 0.72 0.70 TSC 0.71 0.700.74 0.710均匀性 ↑ KCL † 1.33 1.32 1.30 1.32 TSC 1.38 1.381.37 1.380均匀性 ↑ 10 KCL † 0.94 0.89 0.87 0.91 TSC 1.021.02 1.05 1.020合理性 ↓ KCL † 7.35 7.25 7.42 7.31 TSC 7.22 7.136.94 7.140准确率 ↑ KCL † 62.4 49.0 29.5 51.5 TSC 63.5 49.730.4 52.40KCL vs. TSC.在表5中，我们比较了KCL和TSC在ImageNet-LT上的对齐度、均匀性、邻域均匀性和合理性。结果突出了TSC相对于KCL的几个优点：1）TSC在所有类别划分上实现了比KCL更好的均匀性、邻域均匀性和合理性，同时保持几乎相同的对齐度。2）尽管TSC的均匀性仅比KCL高0.06，但其邻域均匀性（最近的10个类别的平均均匀性）比KCL高0.17。此外，KCL在尾部类别上的邻域均匀性甚至更差，而TSC在所有类别上保持一致的邻域均匀性。这证明了TSC在使所有类别彼此远离方面的有效性，从而允许更清晰的类别决策边界。3）TSC在合理性方面比KCL表现更好，特别是在尾部类别上，表明学习到的特征空间不仅均匀而且语义上合理。可视化。通过可视化TSC和KCL学习到的特征，我们可以获得更多的见解。在图5中，我们以不平衡比率为100和d=2的CIFAR-10-LT上可视化了KCL和TSC学习到的特征。三角形表示类别中心。如图5(a)所示，KCL学习到的特征缺乏均匀性。几个类别对崩溃在一起，导致边界不清晰。我们还可以看到，当均匀性相当高时，...0(a) KCL (b) TSC0准确率：71.8%0准确率：76.5%0图5. (a) KCL和(b)TSC在不平衡比率为100的CIFAR-10-LT上的特征分布和准确率。在(a)中，猫和狗的类别中心崩溃在一起，马、鹿和青蛙的类别中心也崩溃在一起。0贫穷，特征空间的大部分区域都是空白的。另一方面，图5(b)显示，使用TSC学习的特征具有良好的均匀性和类别之间的清晰分离，因此实现了更好的分类性能。05.2.消融实验0表6. 在CIFAR-10-LT和CIFAR-100-LT上比较KCL、采用类平衡采样的KCL和TSC。0数据集CIFAR-10-LT CIFAR-100-LT0不平衡比率（ρ）100 50 10 100 50 100KCL † 77.6 81.7 88.0 42.8 46.3 57.6 CB-KCL 75.5 80.2 87.141.5 45.5 56.80TSC 79.7 82.9 88.7 43.8 47.4 59.00类平衡采样。由于KCL的均匀性较差，可以考虑使用类平衡采样来改善其均匀性。表6比较了采用类平衡采样的KCL和TSC。如表所示，类平衡采样在CIFAR-10和CIFAR-100上的性能甚至比标准KCL更差。这一现象也在[24]中得到了证明，作者表明在表示学习过程中，实例平衡采样在不同的采样策略中取得了最佳结果。TSC使用实例平衡采样，并使用预计算的目标实现良好的均匀性。平衡正样本的好处。[23]已经表明，以平衡的方式采样正样本（如KCL中所做的）比将同一类别的所有样本作为正样本（如FCL中所做的）要好。因此，TSC也基于采用了KCL损失函数，为每个数据点采样相同数量的正样本。然而，我们还注意到，与KCL相比，这种平衡的正样本采样策略对TSC的改进要小得多。如表7所示，69250表7.在ImageNet-LT上，平衡的正样本采样策略对TSC的改进小于对FCL的改进。0方法：许多中等少所有0FCL [23] 61.4 47.0 28.2 49.8 KCL [23] 61.849.4 30.9 51.5 TSC（FCL）62.7 49.2 30.151.8 TSC（KCL）63.5 49.7 30.4 52.40在KCL中，平衡的正样本采样策略比FCL提高了1.7％，而比TSC与FCL提高了0.7％。这可能是因为在一个平衡的特征空间中，每个类别内的对齐也是自然平衡的，因此不需要平衡的正样本采样策略，这进一步证明了平衡特征空间的重要性。0（a）随机分配（b）在线分配0准确率：72.9％0准确率：76.5％0图6.在CIFAR-10-LT上使用（a）随机类别分配和（b）在线分配的特征分布和准确率的比较，不平衡比率为100。0表8. 在ImageNet-LT上使用在线匹配算法的TSC和不使用的TSC。0方法：许多中等少所有R ↓0KCL † 62.4 49.0 29.5 51.5 7.31 TSC（随机分配）61.8 48.1 29.250.8 7.81 TSC（在线匹配）63.5 49.7 30.4 52.4 7.140在线匹配算法。在图6（a）中，我们展示了在CIFAR-10-LT上使用随机分配目标的TSC的性能，其中每个类别的目标在训练开始时随机分配，并在整个训练过程中保持不变。为了更好地可视化特征，输出的特征维度设置为2。如图所示，两种方法在训练数据上都实现了良好的均匀性。然而，图6（a）中的语义不合理，因为在特征空间中，语义上相似的类别并不相邻，例如鹿和马。在表8中也显示了类似的结果，我们比较了TSC在有和没有在线匹配算法的情况下的合理性。没有在线匹配算法的情况下，0线匹配算法，TSC的合理性明显比它差得多，导致泛化性能较差。0表9.在不同类别数目下，使用不同随机种子生成最佳目标时的L u。0＃类10 100 1000 81420seed = 0 14.286 14.286 14.287 14.297 seed =1 14.286 14.286 14.287 14.297 seed = 214.286 14.286 14.287 14.297 seed = 3 14.28614.286 14.287 14.297 seed = 4 14.286 14.28614.287 14.2970std 3.2e-6 6.1e-6 1.8e-6 3.0e-60目标生成的稳定性。我们流程的一个重要步骤是生成最佳目标。由于我们使用数值近似（SGD）生成最佳目标，生成的目标可以在不同的随机种子下实现 L u的不同最小值。这里我们展示了我们目标生成过程的稳定性。表9显示了使用不同随机种子的SGD实现的最终 L u。如表所示，不同的随机种子下，最终的 L u保持相当稳定，标准差可忽略不计。因此，最佳目标生成过程是稳定的。06. 结论和限制0在本文中，我们介绍了针对长尾识别的有针对性的监督对比学习（TSC）。我们通过实验证明，在不平衡数据中，传统的监督对比损失学习得到的特征导致了降低的均匀性和不清晰的类别边界，从而导致性能较差。通过在训练过程中为每个类别分配均匀分布的目标，TSC避免了这个问题，从而实现了更均匀和平衡的特征空间。在多个数据集上进行的大量实验证明，TSC在长尾识别的所有基准数据集上实现了最先进的单模型性能。尽管如此，TSC还有一些局限性。首先，TSC的最佳目标是使用随机梯度下降计算的。在最小化能量势函数上的超球面上的点的解析最优解仍然是一个开放问题（汤姆森问题）。尽管TSC使用了近似解，实证结果显示了一致且显著的性能提升。其次，TSC需要事先知道类别的数量才能计算目标；因此，它不适用于类别数量未知的问题。尽管存在这些限制，我们相信TSC为长尾识别提供了重要的进展，并提供了数据分布如何影响对比学习的关键属性的新见解。69260参考文献0[1] Shin Ando和Chun YuanHuang。用于分类不平衡数据的深度过采样框架。在机器学习和知识发现数据库的联合欧洲会议上，第770-785页。Springer，2017年。1，20[2] Mateusz Buda，Atsuto Maki和Maciej AMazurowski。卷积神经网络中类别不平衡问题的系统研究。神经网络，第106卷：249-259页，2018年。1，20[3] Jonathon Byrd和ZacharyLipton。深度学习中的重要性加权效果如何？在机器学习国际会议上，第872-881页。PMLR，2019年。1，20[4] Kaidi Cao，Colin Wei，Adrien Gaidon，NikosArechiga和TengyuMa。使用标签分布感知边际损失学习不平衡数据集。神经信息处理系统进展，第32卷：1567-1578页，2019年。1，2，4，50[5] Nitesh V Chawla，Kevin W Bowyer，Lawrence O Hall和WPhilipKegelmeyer。Smote：合成少数类过采样技术。人工智能研究杂志，第16卷：321-357页，2002年。1，20[6] Ting Chen，Simon Kornblith，MohammadNorouzi和GeoffreyHinton。对视觉表示进行对比学习的简单框架。在机器学习国际会议上，第1597-1607页。PMLR，2020年。3，60[7] Xinlei Chen和KaimingHe。

下载后可阅读完整内容，剩余1页未读，立即下载