长尾实例分割中的特征增强和采样适应方法（FASA）

23 浏览量更新于2023-10-13 收藏 12.64MB PDF 举报

特征增强

成本降低

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Yuhang Zang1 Chen Huang2 Chen Change Loy1�{zang0012, ccloy}@ntu.edu.sgchen-huang@apple.com34570FASA: 针对长尾实例分割的特征增强和采样适应01 S-Lab, 南洋理工大学 2 卡内基梅隆大学0摘要0最近的长尾实例分割方法在稀有对象类别上仍然面临训练数据不足的问题。我们提出了一种简单而有效的方法，即特征增强和采样适应（FASA），通过增加特征空间来解决稀有类别的数据稀缺问题。特征增强（FA）和特征采样组件都适应于实际的训练状态 -FA根据过去迭代中观察到的真实样本的特征均值和方差进行调整，并且我们以适应损失的方式对生成的虚拟特征进行采样，以避免过拟合。FASA不需要任何复杂的损失设计，并且消除了常常涉及大量成本和手动定义头/尾类别组的类间迁移学习的需求。我们展示了FASA是一种快速、通用的方法，可以轻松地插入标准或长尾分割框架中，具有一致的性能提升和很少的额外成本。FASA也适用于其他任务，如具有最先进性能的长尾分类。 1 201. 简介0越来越多的方法被提出来从长尾数据中学习视觉任务，如人脸识别[17]，图像分类[29]和实例分割[13]。我们专注于长尾实例分割问题，由于类别不平衡问题，这一问题尤为具有挑战性。最先进的方法[1, 4, 14,25]经常无法处理这个问题，并且在稀有对象类别上出现了大幅度的性能下降。图1展示了竞争性的Mask R-CNN[14]基线在高度不平衡的LVISv1.0数据集[13]上的困难。我们可以看到，在尾部大约有300个稀有类别，其正样本实例不超过100个。这样稀缺的训练数据导致大多数尾部类别的性能较差，其类别概率接近零。为了解决数据稀缺问题，一个直观的选择是过采样包含尾部类别对象的图像[13]。但是缺点是过采样的图像将同时包含更多的头部类别对象，因为图像内存在类别共现。因此，对于实例分割任务，与其在图像级别重新采样，不如在实例级别重新采样更可取。另一个选择是对考虑的对象进行数据增强，可以在图像空间（例如随机翻转）或特征空间（即特征增强，对对象的区域特征进行增强）。沿着这条线，许多方法通过增加稀有类别的图像/特征空间已经证明是有效的。特征增强方法已经在人脸识别[44,26]，人物再识别[26]和分类[20,6]中显示出了好处。然而，这些方法需要手动设计类别组，例如使用类别大小等启发式方法。而且它们通常涉及两个阶段的特征训练和特征迁移，这会增加额外的成本。特征增强在长尾实例分割任务中仍然很少被探索。在本文中，我们提出了一种高效而有效的方法，称为特征增强和采样适应（FASA）。FASA不需要任何复杂的迁移学习或损失设计[23, 34,41]。因此，FASA保持其简单性，具有极低的复杂性，同时在训练过程中保持高度适应性。在提出的方法中，我们为每个类别执行在线特征增强（FA）。FA模块使用从先前观察到的真实样本计算的分布先验生成类别特定的虚拟特征。这使得FA能够捕捉类别分布并适应不断变化的特征空间。对于稀有类别来说，增强的特征仍然可能有限。这是因为观察到的特征方差通常很小，训练样本很少。为了解决这个问题，我们调整每个类别的虚拟特征的采样密度。这样，我们合成的虚拟特征仍然存在于真实特征流形中，只是采样概率不同，以避免欠拟合或过拟合。我们在这里提出了一种自适应采样方法：当进行增强时，我们根据先前观察到的真实样本的特征均值和方差来调整采样概率。这允许我们在训练过程中动态地调整采样概率，以适应不断变化的特征空间。我们的方法在多个数据集上进行了实验，结果表明，与最先进的长尾实例分割方法相比，我们的方法在稀有类别上取得了显著的性能提升。我们还展示了我们的方法在长尾分类等其他任务上的适用性和性能。 1 201 GitHub: https://github.com/yuhangzang/FASA . 2 项目页面:https://www.mmlab-ntu.com/project/fasa/index.html .0{ zang0012, ccloy } @ntu.edu.sgchen-huang@apple.com03006009001200Sorted Category Index0101102103104Number of Instances020040060080010001200Sorted Category Index0.00.20.40.68Average Predicted Probability203040Training Time5101520APr+9.0%+5.9%+4.6%34580(a)0基线基线+FASA0(b)0基线基线+FASA0ResNet-500ResNet-1010ResNeXt-1010(c)0基线基线+FASA0图1：类别不平衡和Mask R-CNN [14]基线与LVIS v1.0数据集上的FASA比较。 (a)通过自适应特征增强和采样，我们的方法FASA在很大程度上减轻了不平衡问题，特别是对于罕见类别。 (b)比较FASA与MaskR-CNN基线在平均类别概率分数方面的预测结果。基线模型对罕见类别预测接近零分数。而使用FASA，罕见类别的分数显著提高，这有助于最终性能。 (c) FASA在罕见类别上对不同骨干模型的mask APr带来了一致的改进。这样的收益成本非常低（平均训练时间仅增加了�3%）。0增强的特征改善了相应类别在验证损失中的性能，特征采样概率增加，否则减少。这种基于损失优化的采样方法对于重新平衡模型的预测性能是有效的，参见图1(b)。值得注意的是，我们的完整FASA方法仅处理虚拟特征，因此它可以作为一个即插即用的模块应用于学习任何重新采样方案或损失函数（标准的或针对类别不平衡的）的现有方法。在LVISv1.0 [13]和COCO-LT[38]数据集上进行的综合实验表明，FASA作为一个通用组件可以为其他方法提供一致的改进。以LVIS数据集为例。FASA将Mask R-CNN [14]的罕见类别和整体类别的maskAP指标分别提高了9.0%和3.3%，将一个当代的损失设计[34]提高了10.3%和2.3%。此外，这些收益仅仅增加了�3%的训练时间，参见图1(c)。此外，FASA还可以推广到除了实例分割任务之外，也可以在长尾图像分类中实现最先进的性能。总结起来，本文的主要贡献是一种快速有效的长尾实例分割特征增强和采样方法。所提出的FASA可以与现有方法以即插即用的方式结合使用。它实现了一致的收益，并超越了更复杂设计的最先进方法。FASA在其他长尾任务上也具有很好的泛化能力。02. 相关工作0长尾分类。对于长尾分类任务，有许多广泛使用的方法，包括数据重新采样[3]和重新加权[2,7]。最近的研究[19,48]揭示了在解耦的训练阶段中使用不同的采样方案的有效性。0长尾实例分割中发现实例平衡采样对于第一阶段的特征学习很有用，随后是使用类别平衡采样进行分类器微调阶段。长尾实例分割。为了处理实例分割任务中的类别不平衡，最近的方法仍然严重依赖于数据重新采样[13,31,16,41]、重新加权[34,30,33,37,49,39,47]和解耦训练[23,38]的思想。对于重新采样，图像级别进行类别平衡采样[31]和重复因子采样（RFS）[13]。然而，图像级别的重新采样有时会加剧实例级别上的不平衡，因为实例在图像中共存。数据平衡回放[16]和NMS重新采样[41]属于实例级别重新采样的范畴。对于重新加权方案，Equalization loss v1 [34]和v2[33]是这样的代表性方法，它们重新加权了sigmoid损失。更近期的工作[23,41]试图将不平衡的类别划分为相对平衡的类别组，以实现稳健的学习。然而，类别分组过程依赖于类别大小或语义等静态启发式方法，这并不是最优的。Tang等人[35]研究了长尾设置中样本共存效应，并提出了去相关训练。Seesaw Loss[37]动态地重新平衡了正负样本的梯度，特别是对于罕见类别。令人惊讶的是，数据增强作为一种简单的技术，在长尾实例分割中几乎没有被研究过。在本文中，我们展示了通过智能的数据增强和特征空间的重新采样可以获得有竞争力的结果，同时具有直观的简单性和计算效率。此外，我们的方法与之前的工作是正交的，并且可以很容易地与它们结合以实现一致的改进。数据增强。为了避免过拟合和提高泛化能力，在网络训练过程中通常使用数据增强。在长尾识别的背景下，数据增强也可以用来补充代表性较低的罕见类别的有效训练数据，这有助于34590以重新平衡不平衡类别之间的性能。数据增强方法主要分为两大类：图像空间增强和特征空间增强（即特征增强）。常用的图像级增强方法包括随机图像翻转、缩放、旋转和裁剪。还提出了一些先进的方法，如Mixup [46]和Cutmix[45]。对于我们考虑的实例分割任务，像InstaBoost[11]和Ghiasi等人的复制粘贴技术[12]都被证明是有效的。最近的一些工作尝试使用GAN[28]或半监督学习方法[42]合成新的图像。与深度学习中已经建立起来的图像级数据增强技术相比，特征增强还没有得到足够的关注。另一方面，特征增强（FA）直接操作特征空间，因此它可以重塑稀有类别的决策边界。经典的FA基于SMOTE[3]类型的方法，插值相邻的特征点。最近的研究人员提出了Manifold Mixup [36]或MoEx[21]以获得更好的性能。ISDA[40]通过沿语义上有意义的方向平移CNN特征来增强数据样本。这些方法通常不直接应用于不平衡类别的区分，并且复杂度较高。一些最近的工作表明，特征增强有益于长尾任务，如人脸识别[44]、人物再识别[26]或长尾分类[6, 20, 27,22]。然而，我们观察到，当将这些方法应用于长尾实例分割数据集，如LVIS[13]时，这些方法存在局限性。由于实例分割任务的计算成本较高，一些方法[44, 20,6]依赖于两阶段的流程或具有大量历史特征的大内存[27]，导致时间和内存成本较高，因此效率较低。实例分割任务存在特殊的背景类别（没有类别锚点），使得依赖于基于边界的分类损失的方法[26]效果较差。此外，实例分割框架的小批量大小限制了依赖于挖掘混淆类别的方法[6]的性能。我们的方法专门设计用于长尾实例分割，不需要复杂的两阶段训练和相关成本。我们在实验中与它们进行了比较，详见第4.1节。03. 方法论0在本节中，我们介绍了提出的特征增强和采样适应（FASA）方法，该方法由两个组件组成：1）自适应特征增强（FA），用于生成虚拟特征以增强所有类别（尤其是稀有类别）的特征空间，2）自适应特征采样（FS），动态调整每个类别的虚拟特征的采样概率。为了更好地说明FASA如何适用于长尾数据，0对于实例分割，我们采用Mask R-CNN[14]框架作为基线，并展示了将FASA与分割基线相结合的示例。整体流程如图2所示。注意，FASA是一个独立的特征增强模块，不改变基线模块。因此，FASA作为一个即插即用的模块，可以与MaskR-CNN以外的更强大的基线相结合并提供便利。我们将在实验中展示这种灵活性。在MaskR-CNN框架下，为每个感兴趣区域（RoI）定义了标准的多任务损失：0L = L cls + L box + L mask . (1)0为简单起见，我们仅将FASA应用于分类分支，这是长尾数据中最脆弱的分支，如图1(b)所示。在补充材料中提供了更多讨论。也可以使用FASA增强其他分支。我们将这留给未来的工作，并期待进一步的改进。03.1. 自适应特征增强0MaskR-CNN最初是在由区域建议网络（RPN）生成的正样本区域建议的“真实”特征嵌入上进行训练的。对于每个类别，我们的目标是增强其可能稀缺的真实特征（例如，对于罕见的类别）。理想的FA组件应具有以下特性：1）生成多样化的虚拟特征以丰富相应类别的特征空间，2）生成的虚拟特征准确地捕捉类内变化，并且与真实流形不会偏离太多，从而阻碍学习，3）适应训练过程中不断演化的实际特征分布，4）高效。为此，我们维护一个在线高斯先验，该先验基于先前观察到的真实特征，满足上述要求。我们发现，即使实际特征不服从高斯分布，这样的先验也足够用于FA目的，通过生成最新和多样化的特征。具体而言，对于当前批次中的每个前景类别c，我们可以计算相应特征均值µtc ∈Rd和标准差σtc ∈Rd，它们共同定义了一个高斯特征分布。鉴于µtc和σtc的噪声特性，我们使用它们来连续更新更稳健的估计µc和σc，通过动量机制：0σc ← (1 − m) ∙ σc + m ∙ σtc，(2)0在所有实验中，将m设置为0.1。然后根据具有最新µc和σc的高斯先验，通过特征独立性假设生成类别特定的虚拟特征ˆxc，进行随机扰动：0ˆxc = µc + σc ⊙ ϵ，ϵ � N(0, Id) . (3)x , < 1x , > 1pc = sc ·� 1Nc�/C�c=1� 1Nc�,(4)34600(a) Mask R-CNN与FASA0输入0主干网络0和RPN0提议0RoIAlign0标准抽样分类损失框损失掩码损失0框0掩码0分类0FASA0(b) 自适应特征增强0每个群组聚类类别的验证损失0抽样概率0调整0抽样概率0(c) 自适应特征抽样0类别特征标准差0类别特定0特征均值0RoI特征0自适应0特征增强0减少0增加0虚拟特征类别高斯先验0自适应0特征抽样0图2：(a) MaskR-CNN与提出的FASA相结合的流程图，FASA是一个独立的模块，用于生成虚拟特征以增强分类分支在长尾数据上的性能。FASA在线维护类别特定的特征均值和方差，然后进行(b)自适应特征增强和(c)自适应特征抽样。0特征独立性假设使得FA变得高效，增强特征被视为独立同分布的随机变量。我们认为高斯的协方差矩阵是对角的，从而将复杂度从d²大大降低到d。这样生成的虚拟特征{ˆxc}将需要重新抽样（稍后详细介绍）。最后，重新抽样的{ˆxc}和真实特征{xc}（在任何基线方法中都有自己的抽样策略）被发送到计算Eq. (1)中的Lcls。03.2. 自适应特征抽样0为了明智地使用每个类别生成的虚拟特征，我们提出了一种自适应特征抽样（FS）方案，以有效地避免FA导致的欠拟合或过拟合。抽样过程以相对方式进行操作：如果虚拟特征改善了相应类别的性能，则它们的抽样概率增加，否则减少。这种相对调整虚拟特征抽样概率的方法适应了训练过程中FA的不断变化需求。我们可以想象，在某些训练阶段，FA对于罕见的类别可能是有用的，但其他训练阶段可能需要减少FA的数量以避免过拟合。相比之下，静态的预定义抽样分布将独立于训练动态，因此是次优的。参数化抽样公式。请注意，我们仍然需要一个初始的特征抽样分布，以便稍后进行调整。显然，我们可以从基于逆类别频率的良好初始化中受益，这样可以避免初始有偏的FA和昂贵的调整。我们选择根据逆类别频率简单地初始化抽样分布。它偏好具有更高抽样概率pc的罕见类别，并且在我们的类别不平衡设置中非常有用，对数据分布几乎没有任何假设。现在我们有一个预定义的偏斜抽样分布。然后我们动态地缩放0每类采样概率p c 如下：0其中s c 是每次需要估计的缩放因子，N c表示类别c的大小。自适应采样方案。回顾自适应采样概率p c背后的洞察力：如果FA确实提高了类别c的性能，那么我们应该生成更多的虚拟特征并增加p c ；如果我们观察到FA的性能更差，那么p c可能已经足够大，我们应该减小它以避免与增强特征过拟合。在实践中，我们使用乘法调整来每个epoch更新p c 。具体来说，我们将p c增加到min(1，p c ∙ α )，其中α = 1.1，并将p c 减小到max(0，p c ∙β )，其中β = 0.9。可以采用不同的性能指标来指导p c的调整。现有的自适应学习系统要么基于替代损失[32]，要么基于更理想的实际评估指标[18]。然而，对于大规模的实例分割任务，频繁评估大型数据集上的mAP等指标非常昂贵。因此，我们使用验证集上的分类损失L cls 来调整p c，以适应我们的大规模分割任务。对于验证集，我们采用重复因子采样（RFS）[13]方法来平衡类别分布并提供更有意义的损失。上述设置在我们的实验中表现得相当好。组内自适应。为了使我们的方法对不同情景更加稳健，我们需要解决长尾实例分割任务中的两个常见挑战。首先，每类损失可能在有限的评估数据上非常嘈杂，例如对于稀有类别。在这种情况下，损失和指标都不能作为可靠的性能指标。其次，评估数据可能根本无法获得所有类别。例如，LVIS数据集的验证集只有训练集中1203个类别中的871个。这使得无法在验证集上评估其他332个类别的损失。为了解决上述问题，我们提出将所有训练类别聚类成超级组。然后我们计算组内类别的平均验证损失，并一起调整它们的特征采样概率。换句话说，我们通过一个单一的缩放因子（α或β）根据组内损失的平均值来调整采样概率。通过这样做，当计算损失平均值时，那些缺少评估数据的类别可以安全地忽略，但它们的采样概率仍然可以与同一组内的其他类别一起更新。此外，组内更新的噪声较小，因为它是基于更大数据（来自多个类别）计算的损失平均值。对于聚类，我们不使用预定义的启发式方法，如类别大小或语义[23，41]，而是使用在线类别特征均值µ c 和标准差σ c。我们采用基于密度的[10]聚类算法，使用基于Fisher比的以下距离：FAFSAPAPrAPcAPf20.88.020.227.022.3 (+1.5) 12.7 (+5.7) 21.726.923.7 (+2.9) 17.8 (+9.8) 22.927.2metric cannot serve as reliable performance indicators. Sec-ond, the evaluation data may simply not be available for allclasses. For example, the validation set of LVIS dataset [13]only has 871 classes out of 1203 from training set. Thismakes it impossible to evaluate loss for the other 332 classeson validation set.To solve the aforementioned issues, we propose to clus-ter all training classes into super-groups. Then we computethe average validation loss of within-group classes, and ad-just their feature sampling probabilities together. In otherwords, we adjust the sampling probabilities by a single scal-ing factor (α or β) depending on the average of group-wiseloss. By doing so, those classes with missing evaluationdata can be safely ignored when computing the loss average,but their sampling probabilities can still be updated alongwith other classes within the same group. Moreover, thegroup-wise update is less noisy since it is based on the lossaverage computed on bigger data (from multiple classes).For clustering, rather than using predeﬁned heuristicslike class size or semantics as in [23, 41], we use the on-line class-wise feature mean µc and standard deviation σc.We adopt the density-based [10] clustering algorithm usingthe following distance based on Fisher’s ratio:dij = (µi − µj)2σ2i + σ2j.(5)20.88.020.227.034610表1：在LVISv1.0验证集上对提出的FASA方法进行消融研究。'FA'表示自适应特征增强，'FS'表示自适应特征采样。指标AP、AP r、AP c和APf分别表示整体、稀有、普通和频繁类组的掩码mAP。0生成的超级组比预定义的组（例如，稀有、普通和频繁类组）更具适应性和意义，并且有助于更好地进行组内特征重新采样。请参阅补充材料以查看一些语义相似类的超级组的可视化。04. 实验0数据集。我们的实验在两个数据集上进行：LVIS v1.0[13]（包含1203个类别）和COCO-LT[38]（包含80个类别）。它们都是为长尾实例分割设计的，具有高度类别不平衡的分布。我们选择LVISv1.0数据集而不是LVISv0.5，因为前者有更多的标记数据进行有意义的评估和比较。LVISv1.0数据集根据至少包含一个相应类别实例的图像数量定义了三个类别组：罕见[1, 10)，常见[10, 100)，和频繁[100, -)。0表2：将我们的FASA与1）基于插值的方法SMOTE [3]和MoEx[21]，2）基于复制粘贴的方法InstaBoost[11]，3）基于特征增强的方法Yin et al. [44]，Liu et al.[26]，Chu et al. [6]在LVISv1.0验证集上进行比较。基线（顶行）表示没有任何增强的MaskR-CNN [14]。0增强 AP AP r AP c AP f0SMOTE [3] 21.5 (+0.7) 10.2 (+2.2) 20.9 27.1 MoEx, CVPR'21 [21]21.2 (+0.4) 9.2 (+1.2) 20.6 27.1 InstaBoost, CVPR'19 [11] 21.4(+0.6) 10.3 (+2.3) 20.7 27.2 Yin et al., CVPR'19 [44] 21.6 (+0.8)11.1 (+3.1) 20.9 27.1 Liu et al., CVPR'20 [26] 21.0 (+0.2) 9.6(+1.6) 20.1 26.8 Chu et al., ECCV'20 [6] 21.4 (+0.6) 9.7 (+1.7)21.0 27.00FASA（我们的方法）23.7 (+2.9) 17.8 (+9.8) 22.9 27.20相应类别的一个实例。同样，COCO-LT数据集定义了四个类别组[1, 20)，[20, 400)，[400, 8000)，[8000,-)。我们使用标准的平均精度（mAP）作为评估指标。使用这个指标对不同的类别组进行评估可以很好地表征长尾类别的性能。根据[13]，我们将罕见、常见和频繁类别组的性能指标分别表示为AP r、AP c和APf。最近，Dave等人[8]提出mAP指标对跨类别排序的变化非常敏感，并引入了两个补充指标AP Fixed和APPool。我们还在补充材料中报告了FASA在AP Fixed和APPool指标下的性能。实施细节。我们的实现基于MMDetection[5]工具包。我们遵循与[13,34]相同的实验设置进行公平比较。其他细节请参阅补充材料。04.1. LVIS上的消融研究0我们首先在大规模LVIS数据集上进行消融研究。我们报告了验证性能以消除我们FASA方法的核心模块。FA和FS的有效性。表1验证了我们自适应模块在特征增强（FA）和特征采样（FS）方面的关键作用。基线（顶行）仅对真实特征执行重复因子采样[13]，而不使用任何FASA组件。我们的FA模块（第二行）显著提高了性能，无论是整体还是罕见类别。我们的自适应FS进一步提升了性能，尤其是在罕见类别组（AP m r 12.7% →17.8%），而其他组则具有竞争力。结果表明，FA和FS组件在提高训练性能方面的有效性。与其他增强方法的比较。为了进一步展示我们方法的简单性和有效性，我们与经典的SMOTE方法[3]、MoEx[21]、InstaBoost[11]和最先进的方法[26, 6, 44]进行比较34620表3：我们自适应特征采样策略与静态策略（在公式（4）中使用固定缩放因子sc）的比较。0采样方法 AP AP r AP c AP f0静态（s = 1）21.7 12.2 20.8 27.0 静态（s = 5）22.312.7 21.7 26.9 静态（s = 15）21.3 12.0 20.2 26.60自适应 23.7 17.8 22.9 27.20专门为长尾设置设计。由于[26, 6,44]仅报告了人脸识别和人物重新识别的结果，而没有公开的代码可用，我们重新实现了它们，并优化了它们在LVIS上的参数和性能（有关实现细节，请参见补充材料）。表2显示了我们的FASA与其他方法相比的有利结果。我们的收益在AP r和AP c方面尤为明显。由于SMOTE [3]、MoEx[21]和InstaBoost[11]不是直接针对长尾设置设计的，我们验证了我们的FASA在它们上面取得了有利的性能。对于更多相关的特征增强方法[6, 26,44]，我们观察到将它们转化为实例分割任务时存在一些局限性。Liu et al.[26]基于基于边界的人脸识别损失，如ArcFace[9]，它约束了每个实例与其类别锚点之间的边界。不幸的是，由于实例分割任务必须处理特殊的“背景”类别，没有明显的锚点，基于边界的损失在LVIS上表现不佳。相反，我们的方法不受损失函数形式的限制。至于Chu et al.[6]，性能受到实例分割任务的小批量大小的限制，这不保证选择前面混淆样本的能力。[6]和[44]都将特征传递从头到尾的类别。它们使用了一个两阶段的训练流程，需要一个预训练模型来提取特征。相比之下，我们提出的FA方法可以端到端地进行训练，比[6,44]快得多，并且只产生了一小部分额外的内存开销。自适应FS的分析。回顾公式（4），我们的类别特征采样概率通过自适应方式由缩放因子sc进行自适应调整。表3验证了我们的设计，显示静态采样策略的采样效果较差。具体而言，我们观察到sc = 5对AP r效果最好，但对于需要sc = 1的APf来说并不是最优的。另一方面，我们的自适应FS在线调整sc以有效地重新平衡各个类别的性能。图3（a）描述了训练过程中类别特征采样概率的变化。总体而言，罕见类别相比于常见和频繁类别具有较高的采样概率。罕见类别的采样概率通常在开始时增加以使用更多的虚拟特征，然后逐渐减少以避免过拟合。在收敛时，当学习率降低时，罕见类别的采样概率会增加，以帮助0与相应的分类器'微调'相比，常见和频繁类别的采样概率变化较小。图3(b)进一步显示了每个类别组内采样概率的动态变化。04.2. 在LVIS上与最先进的方法进行比较0在本节中，我们在LVISv1.0数据集上评估了完整的FASA方法与最先进的方法。我们考虑以下代表性方法：1）Repeat Factor Sampling(RFS)[13]是一种图像级数据重新采样技术。我们使用原始论文中提出的重复因子1e-3。2）均衡损失(EQL)[34]是一种损失重新加权方法，旨在忽略稀有类别的有害梯度。3）分类器重新训练(cRT)[19]首先使用随机采样进行特征表示学习，然后使用重复因子采样重新训练分类器。4）平衡组Softmax (BAGS)[23]首先进行类别分组，然后使得类别组之间的分类损失相对平衡。分组仅依赖于与训练动态和次优解无关的类别大小。5）Seesaw Loss[37]平衡不同类别的正样本和负样本的累积梯度比例。与Mask R-CNN基线进行比较。当这些方法与MaskR-CNN基线结合时，它们已经显示出了明显的改进。在这里，我们进行了更全面的比较，使用更强大的这些方法的版本，并在不同的训练计划下进行了实验。具体而言，我们尝试了默认的12和24个时期的计划[5]，以及解耦的两阶段训练计划[19,23]。在第一阶段，我们使用标准的随机数据采样和交叉熵损失训练模型12个时期。然后在第二阶段，我们使用先进的重新采样或重新加权方法（如RFS和BAGS）进行12个时期的微调。我们将这个计划称为'12+12'。我们通过插入我们的FASA模块并比较性能差异来与所有这些方法进行比较。表4总结了比较结果。具体而言，我们重复每个实验三次，使用不同的随机种子，并报告结果的平均值。当我们将我们的FASA与原始的MaskR-CNN结合时，我们观察到整体指标AP有巨大的3.3%的增益。我们的优势在稀有类别性能AP r上尤为明显，增益达到了9.0%。这验证了FASA在处理长尾任务方面的优越能力。我们还验证了FASA的好处在多次运行中保持一致。当与更强的方法（RFS/EQL/cRT/BAGS/Seesaw）或训练计划结合时，FASA仍然可以获得一致的整体AP改进，其中稀有类别的AP r改进占主导地位。这样的增益不会损害常见和0.20.40.60.81.0020040100012000.20.40.60.81.01.234630时期0概率0(a)0频繁的常见的稀有的0图3：训练过程中类别采样概率的可视化。 (a) 我们显示了稀有/常见/频繁类别组的平均采样概率。(b)类别组内每个类别的采样概率的变化行为。0表4：在LVIS v1.0验证数据集上，将最先进的方法与我们的FASA进行比较，包括使用和不使用FASA的情况。我们与MaskR-CNN基线、最先进的重新采样方法Repeat Factor Sampling (RFS) [13]、均衡损失(EQL) [34]、分类器重新训练(cRT)[19]、平衡组Softmax (BAGS) [23]和Seesaw Loss[37]进行比较。'Uniform'方法表示随机和均匀采样图像。这些方法是使用公开代码在不同的训练计划（24或12+12个时期）下进行训练的。为了公平比较，所有方法都使用ResNet-50 [15]作为骨干网络。0损失采样器 # 时期 FASA AP AP r AP c AP f0Softmax CE Uniform 24 � 19.3 1.2 17.4 29.3 � 22.6 (+3.3) 10.2 (+9.0) 21.6 29.20RFS，CVPR'19 [13] 24 � 22.8 12.9 21.6 28.3 � 24.1 (+1.3) 17.3 (+4.4) 22.9 28.50EQL，CVPR'20 [34] Uniform 24 � 22.1 5.1 22.4 29.3 � 24.4 (+2.3) 15.4 (+10.3) 23.5 29.40cRT，ICLR'20 [19] Uniform / RFS，CVPR'19 [13] 12+12 � 22.4 12.2 20.4 29.1 � 23.6 (+1.2) 15.1 (+2.9) 22.0 29.10BAGS' CVPR'20 [23] Uniform / RFS，CVPR'19 [13] 12+12 � 22.8 12.4 22.2 28.3 � 24.0 (+1.2) 15.2 (+2.8) 23.4 28.30Seesaw，CVPR'21 [37] RFS，CVPR'19 [13] 24 � 26.4 19.6 26.1 29.8 � 27.5 (+1.1) 21.0 (+1.4) 27.5 30.10频繁类别指标AP c和APf，其中FASA的表现更好或保持相当。长时间的训练计划和大型骨干网络。即使在使用大型骨干网络（ResNet 101[15]，ResNeXt 101-32-8d[43]）和先进的实例分割框架Cascade Mask R-CNN[1]的情况下，FASA仍然表现良好。如表5所示，FASA的好处在不同的设置下仍然存在。在验证集上，FASA大幅提高了MaskR-CNN基线（ResNet-101骨干网络）的性能。我们观察到整体AP和稀有类别APr分别提高了1.9%和5.9%。对于更强大的ResNeXt101骨干网络，我们观察到类似的趋势。FASA显著提高了稀有类别性能AP r 4.6%。对于级联Mask R-CNN [1]框架和Seesawloss[37]，FASA在稀有类别上提供了一致的性能提升，同时在常见类别和频繁类别上保持强大。分析分类器权重范数。正如[19，23]所讨论的，分类器的权重范数与不平衡学习性能相关，长尾数据中尾部类别的权重范数通常要小得多。图4可视化了使用和不使用FASA训练的分类器的权重范数。可以看出，FASA导致更平衡的权重范数分布，而交叉熵基线和Seesaw Loss[37]的权重范数分布存在不平衡的情况。这部分解释了为什么FASA极大地提高了这些方法的稀有类别性能。0排序的类别索引0权重范数0交叉熵 SeesawSeesaw + FASA0图4：交叉熵和Seesaw Loss[37]（使用和不使用FASA）的分类器权重范数比较。我们的FASA导致更加平衡的权重范数分布。0熵基线和Seesaw Loss[37]。这部分解释了为什么FASA极大地提高了这些方法的稀有类别性能。04.3. COCO-LT数据集上的评估0我们在COCO-LT[38]数据集上评估了FASA，以检验我们方法的泛化能力。为了公平比较，我们遵循了SimCal[38]的相同实验设置。与实现相比，有两个主要差异。34640表5：使用大型骨干网络（ResNet-101 [15]，ResNeXt-101-32x8d [43]）和先进的级联Mask R-CNN[1]框架与不使用FASA的最新方法进行比较。0方法损失采样器骨干网络 FASA AP AP r AP c AP f0Mask R-CNN，ICCV'17 [14] Softmax CE RFS，CVPR'19 [13] R101 � 24.4 13.2 24.7 30.3 � 26.3 (+1.9) 19.1 (+5.9) 25.4 30.60Mask R-CNN，ICCV'17 [14] Softmax CE RFS，CVPR'19 [13] X101 � 26.1 16.1 24.9 32.0 � 27.7 (+1.6) 20.7 (+4.6) 26.6 32.00级联Mask R-CNN，TPAMI'19 [1] Softmax CE RFS，CVPR'19 [13] R101 � 25.4 13.7 24.8 31.4 � 27.7 (+2.3) 19.8 (+5.9) 27.3 31.60级联Mask R-CNN，TPAMI'19 [1] Seesaw，CVPR'21 [37] RFS，CVPR'19 [13] R101 � 30.1 21.4 30.0 33.9 � 31.5 (+1.4) 24.1 (+2.7) 31.9 34.00表6：在COCO-LT [38] minival数据集上的结果。AP m和APb分别表示Mask mAP和Bbox mAP。AP m 1，AP m 2，AP m3，AP m4分别指的是[1，20)，[20，400)，[400，8000)，[8000，-)的训练实0方法 AP m AP m 1 AP m 2 AP m 3 AP m 4 AP b0Mask R-CNN 18

下载后可阅读完整内容，剩余1页未读，立即下载