弱监督检测的预训练方法

22 浏览量更新于2023-10-16 收藏 12.23MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Vignesh RamanathanFacebook AIvigneshr@fb.comRui WangFacebook AIruiw@fb.comDhruv MahajanFacebook AIdhruvm@fb.com28650PreDet：大规模弱监督预训练检测0摘要0最先进的目标检测方法通常依赖于预训练的分类模型以实现更好的性能和更快的收敛速度。我们假设分类预训练致力于实现平移不变性，因此忽略了问题的定位方面。我们提出了一种新的大规模预训练策略，其中所有图像都有噪声类标签，但没有边界框。在这种情况下，我们通过一个新的检测特定的预训练任务来增强标准的分类预训练。受基于噪声对比学习的自监督方法的启发，我们设计了一个任务，强制要求具有高重叠的边界框在图像的不同视图中具有相似的表示，而与不重叠的边界框不同。我们重新设计了FasterR-CNN模块以高效地执行此任务。我们的实验结果显示，在检测准确性和微调速度方面，相对于现有的弱监督和自监督预训练方法，我们取得了显著的改进。01. 引言0我们解决了大规模弱监督预训练检测的问题，假设图像具有噪声分类标签，但缺少定位（边界框）信息。几乎所有最先进的方法都使用预训练的分类模型，并对其进行微调以用于检测任务。微调主要带来了两个显著的好处：（a）提高了准确性和（b）加快了检测的训练速度。最近，已经有很多关于使用来自网络的噪声标签对分类模型进行大规模预训练的工作。然而，与分类任务相比，这些好处在检测或实例分割任务中更为显著。我们假设分类任务的预训练过程过于强调平移不变性，如图1所示。需要将具有相似内容但没有高重叠的图像不同裁剪之间的相似性。如图所示，这与检测任务相矛盾0分类预训练PreDet0不相似0图1.考虑左侧所示的边界框。在分类预训练中，模型应该学习使它们都具有相似表示以实现平移不变性。然而，对于需要具有小或没有重叠的边界框的检测任务来说，这是不可取的。这构成了我们预训练方法的核心，它使用一个预文本任务来强制模型区分不重叠的边界框。0检测目标可能导致特征表示不适合目标检测任务。理论上，可以通过从头开始在大规模数据集上预训练检测模型来处理这个问题。然而，由于在这个规模上为图像标注边界框需要巨大的工作量，这是不切实际的。相反，我们提出在标准分类预训练任务中补充一种更接近检测的新型自监督预训练任务。最近的自监督方法（如MoCo[18]）表明，最大化同一图像的两个视图（通过变换构建）之间的一致性，并将不同图像的一致性最小化，对于特征学习非常有效。这些任务通常需要进行字典查找，其中一个视图作为查询，而另一个视图是字典的一部分。在我们的方法中，我们将这个想法扩展到了检测领域。我们使用图像的一个视图中的边界框作为查询，从图像的另一个视图中检索到相同的边界框（或与之高度重叠的边界框）。我们将这个任务称为查询-框查找。这确保了具有足够高重叠的边界框彼此相似，而不重叠的边界框具有不同的表示。理想情况下，查询-框应该从图像中的所有边界框集合中检索出来。然而，这太过于28660由于数据量过大，无法处理。因此，我们将查找限制在一个较小但具有代表性的“提议”框集合中。这些提议应包括高质量的难负样本，以使检索任务有用。幸运的是，在FasterR-CNN的目标检测背景下，通过区域提议网络（RPN）已经解决了这个提议集合构建问题。在我们的方法中，我们将RPN调整为构建特定查询的提议。我们将其称为对比RPN（CRPN）。类似地，我们还调整了FasterR-CNN中的感兴趣区域（ROI-head）模块，以执行检索任务，并将其称为对比ROI-head（CROI-head）。这种设计的优点是使我们的模型架构与FasterR-CNN检测模型相似。我们将我们的方法称为PreDet。我们展示了在一个包含5,000万张带有噪声标签的图像数据集上预训练的PreDet相比现有方法提供了两个主要优势：更高的平均精度（AP）和更快的微调速度。当在MS-COCO上对ResNeXt-101-32x8d MaskR-CNN模型进行标准的90k次迭代微调时，与ImageNet预训练模型和自监督SEER[13]模型相比，从PreDet初始化可以获得3.4%和2.9%的APbox绝对改进。更令人印象深刻的是，仅对PreDet进行90k次迭代的微调也优于这些模型，当它们进行更长时间的微调（6倍至9倍）时，提高了1.3%。我们观察到在RetinaNet模型和其他检测数据集（LVIS-v1[17]和PASCALVOC[11]）上也获得了类似的增益。我们还进行了大量实验来了解模型容量和目标数据集大小的影响，并发现PreDet对于较大的模型和较小的目标数据集特别有影响。02. 相关工作0检测的预训练ImageNet的预训练为许多计算机视觉任务的成功做出了贡献。在过去几年中，有几项工作[2, 34, 23, 51, 63, 24, 32,36, 16,68]表明，在更大但更嘈杂的网络规模数据上进行预训练可以改善多个目标任务的性能。然而，这些工作主要针对分类，并且对于检测任务的改进有限，如[34]所示。还进行了广泛的分析[28, 19,49]，以了解这种预训练网络对检测的可转移性。特别是，[19, 12, 48,67]表明，从头开始训练的模型在性能上与ImageNet预训练模型相当。然而，它们需要显着更长的训练时间。另一方面，Object365[45]表明，在更大的检测数据集上对检测模型进行预训练可以提高检测性能。然而，为预训练数据集注释边界框需要巨大的工作量。另一项工作[25,64]探索了更有效地将预训练权重转移到检测任务的方法。BiT[24]表明，良好的权重归一化可以带来更好的转移性能。0为了更好地实现可转移性。这些方法与我们的方法相辅相成，可以与我们的方法结合使用，以获得更好的效果。学习检测和语义分割模型[9, 8, 53, 57, 21, 46,47]直接从大规模网络数据中以弱监督的方式进行训练也显示出一些潜力。然而，弱监督和完全监督方法之间的性能差距仍然很大。我们展示了通过一种新的检测特定的预训练方法更好地利用大规模网络数据，进一步提高完全监督检测模型的性能。自监督预训练已经进行了广泛的研究，用于无监督特征学习[1, 4, 41, 56, 3, 10,59]的分类任务。值得注意的是，基于对比学习的方法[5, 6,15, 35, 27]取得了巨大的进展。最近的方法，如MoCo[18,7]，Swav[5,13]和InfoMin[54]，即使对于检测任务也取得了比完全监督预训练更好的性能。InfoMin[54]展示了选择正确的数据增强策略来构建图像的不同视图的重要性，并且与我们的工作中引入的预训练任务相辅相成。相比之下，我们引入了一种更接近检测的自监督任务，并展示了将自监督学习与分类预训练相结合的好处。半监督学习和自训练半监督和自训练方法[50, 62, 22, 39, 29, 70, 60,61]是在特定目标数据集和提供的大规模数据集上联合训练模型，并且已经显示出对检测任务的好处。然而，它们需要提前了解目标任务和数据集，并且需要在组合数据集上进行更长时间的微调。这些方法可以与预训练相结合，以实现互补的好处，特别是对于较小的目标数据集，如[70]所示。03. 方法0与[34]类似，我们假设每个图像都附带有多个嘈杂的类别标签，例如标签。从高层次上看，我们的方法有两个损失组成部分：分类预训练损失L cls 和检测特定的自监督损失Ldet。我们将我们的方法称为PreDet。03.1. 分类预训练损失0我们从一个分类模型开始（如图2中的蓝色部分）。由于每个图像包含多个标签，我们使用多标签交叉熵损失[34]。我们使用带有特征金字塔网络（FPN）和每个金字塔级别上添加的分类头的CNN骨干。这些头部是相同的，具有共享参数。分类损失L cls 是所有金字塔级别上的损失的平均值。03.2. 添加检测自监督0仅使用分类损失进行预训练可能会使模型学习到相似的表示，用于不同的边界框。q1q2q1q2fq1fq2proposals for q1, q2q1q2featuresLinfo + Lcroi-regfq1fq2Lcrpnq1q2q1q2class-headLcls28670骨干ROI池化0骨干ROI池化0CRPN0CROI头0提案0图像（视图1）0图像（视图2）0嘈杂的类别0标签0图2.PreDet的预训练方法如图所示。模型同时看到了同一图像的两个视图以及每个视图的相同一组查询。蓝色模块对应于典型的仅分类预训练方法。CRPN和CROI模块（分别显示为绿色和黄色）添加了新的自监督损失，这些损失是检测特定的。0即使它们没有足够的重叠，考虑图像中的所有可能边界框进行查询框查找是不可取的。这对目标检测没有好处。因此，我们添加了一个自监督任务，强制模型学习它们的不同表示。给定一个图像I，我们首先构建一组查询Q，其中每个查询q只是由边界框坐标定义的局部区域。这些查询框不需要对应于图像中的实际对象或类别标签，只是从图像中的信息区域获取的补丁。在我们的工作中，我们使用一个无监督的提案生成方法（EdgeBox[69]）生成的边界框对它们进行采样。受对比学习方法[18]的启发，我们通过应用不同的随机变换构造了同一图像的两个不同视图。注意，这些变换还包括裁剪和缩放。因此，即使表示相同区域，查询q在不同视图中的边界框坐标也会不同。然后，我们将I的视图2通过骨干传递，并进行ROI池化[43]以构建查询q的特征向量fq。我们还将I的视图1通过骨干传递以获得图像特征图fI。视图1的骨干特征提取与Faster R-CNN [43,20]模型在区域提案网络（RPN）阶段之前完全相同。从两个不同视图构建查询特征和骨干特征使任务更加困难，从而学习更加有效。现在我们正式定义我们的查询框查找任务如下：0查询框查找：给定来自视图2的查询框f q的查询特征向量和来自视图1的骨干特征图fI，检索在图像的视图1中与q有高重叠的边界框。0考虑在视图1中的所有可能边界框来执行查询框查找是可取的。然而，这是不切实际的。0在图像中构建所有框的特征表示是非常耗时的。因此，我们采用了FasterR-CNN中提出的提案生成方法，首先从视图1中提取一部分“提案”框，并仅在此集合中进行查找。这些提案是通过一种变种的区域提案网络（RPN）获得的，该网络经过训练，可以选择视图1中与视图2中的查询框在视觉上相似的最可能的一组框。03.2.1对比区域建议网络（CRPN）0我们设计了一个类似于FasterR-CNN的区域建议网络（RPN），但用于生成输入查询的提议框，而不是对象。我们将这个模块称为对比RPN（CRPN），在图3中详细展示。CRPN的提议包括了查询框的潜在匹配以及不与查询框重叠的难例负样本。与FasterR-CNN中的RPN类似，我们考虑不同尺寸和长宽比的A个锚框，以每个锚点在特征图f I1上为中心。对于每个锚框和查询对，我们生成一个分类得分，指示锚框是否与查询匹配，即它与查询有高重叠。与FasterR-CNN不同，提议涵盖的是图像特定的查询，而不是所有图像共有的一组对象。因此，我们使用图像特定的输入查询特征fq（来自视图2）作为生成每个查询q的这些分类得分的附加上下文信息。为了实现这一点，我们首先从fI（如图3所示）中获取特征图f clsI。该特征图对于每个锚点的A个锚框都具有D维特征。为了生成查询特定的得分，我们还构建了A个特征向量f clsq，从查询特征f q中计算与锚框特征的点积。0在FPN的情况下，我们将为每个特征图和每个特征图单独设置锚点𝑓!"#$𝑓!𝑓!𝑓!%&'𝑓(𝑓("#$𝑓(%&'286801x1卷积01x1卷积0AD0组卷积0使用A组0带有A组的组卷积0“4A”组0H x W x D0H x W x 4AD0H x W x AD04AD0卷积权重0卷积权重0H x W x A0H x W x 4A0H x W = 锚点数A = 锚框数D =特征维度f q = 查询特征03x3卷积 +ReLu0分类0边界框回归0图3. CRPN接受维度为H × W × D的输入特征和查询特征fq，生成维度为H × W × A的查询得分和维度为H × W ×4A的回归坐标，将每个锚点上的A个锚框回归到查询。这对于所有Q个输入查询并行运行。0在f clsI中进行内积运算。这导致了每个锚点上查询q的A个得分。在我们的实现中，这个点积是通过A组的1×1组卷积同时计算的。详细信息请参考补充材料。CRPN还为每个{anchorbox,query}组合产生边界框回归值，将锚框回归到查询框（在视图1的坐标系中）。我们使用FasterR-CNN的回归参数化（[43]中的公式2）。我们遵循用于获取查询得分的相同设计，并为每个查询q在每个锚点生成4A个回归坐标（在图3的边界框回归部分显示）。CRPN损失：按照典型的RPN，我们也采样128个正样本和128个负样本锚框来训练CRPN。对于每个锚框，我们确定与之重叠最大的查询框（如果与所有查询框的重叠都为零，则选择随机查询框）。如果此重叠大于0.7，则将锚框标记为正样本；如果小于0.3，则将其标记为负样本。我们使用CRPN预测的{query, anchorbox}组合的得分作为锚框的分类得分，定义一个类似于FasterR-CNN的提议分类损失2。对于正样本，我们还使用模型预测的与锚框重叠最大的查询的回归坐标来训练RPN回归损失，类似于FasterR-CNN。我们将RPN分类和回归损失组合称为L crpn。02注意，一个正提议框可能与多个查询具有高重叠。在实践中，由于每个图像考虑的查询数量稀少以及对查询选择的EdgeBox提议应用了NMS，这种情况很少发生。0提议构建：对于每个锚框，我们选择CRPN在所有查询中预测的最大分数作为锚框的提议分数。我们还使用CRPN预测的回归坐标对应于最高分数的查询来回归锚框，得到提议边界框。我们根据提议分数选择前K个提议，然后进行非极大值抑制，选择一部分Knms提议框传递给下一个模块，该模块从这个集合中进行查询框查找。03.2.2对比兴趣区域（CROI）头部0我们修改了FasterR-CNN中的ROI头部，以检索与查询框具有高重叠的提议框，这些提议框是由CRPN返回的。我们将这个模块称为对比ROI头部（CROI头部）。来自CRPN选择的所有提议和查询特征的ROI池化特征被提供给CROI头部作为输入。提议特征和查询特征之间的相似性用于定义一个检索损失，只有当一个提议与查询框有高重叠时，才会强制具有高相似性。查询框查找：首先，将提议p的ROI池化特征通过一个MLP（类似于FasterR-CNN的盒子头）传递，得到特征bp。类似地，将查询特征fq通过相同的MLP传递，得到bq。通过FC层将bp和bq传递，并计算它们之间的余弦相似度，得到每个提议和查询对(p,q)对应的查询提议分数spq（图4）。预测的分数在InfoNCE[37]损失中使用，以确保与查询具有良好重叠的提议相对于不与之重叠的其他提议框具有更高的分数。为了实现这一点，我们首先构建一个Pneg的提议集合，该集合与图像中的所有查询的IoU重叠小于0.5。然后，对于每个查询q，我们采样一个IoU重叠大于0.5的正提议pq，并定义如下的InfoNCE损失：0Linfo = -10Q0qlogexp(s_p+qq/τ)0exp(s_p+qq/τ)+0p−∈Pnegexp(s_p−q/τ)，0其中τ是温度超参数[37]。注意，这个损失类似于自监督分类工作中定义的对比损失[18]，但应用于同一图像中的提议框。我们在所有实验中将τ设置为0.07。额外的回归损失：正提议p+q可能与查询q不完全重叠。受FasterR-CNN的启发，我们在CROI头部中添加了一个额外的组件，将提议回归到与其重叠的查询框（在视图1的坐标系中）。这有助于fqbpbqspq28690提议p的RoI池化特征0盒子头0盒子头0全连接层全连接层04个回归坐标01×D01×D01×D04×D0图4.CROI头部接收来自提议p的ROI池化特征和查询特征fq，产生提议的查询分数spq和回归坐标以将p回归到q的框。相同颜色的模块共享相同的参数。0模型在特征中融入了空间信息。每个提议p都需要回归到一个查询框q。我们使用查询特定的特征向量bq作为上下文信息，从提议特征bp生成回归坐标。我们使用全连接层将bq投影到4×D特征，将bp投影到1×D特征（图4）。这两个特征之间的点积提供了4个回归坐标。我们使用平滑的L1损失来衡量预测的回归坐标与视图1中查询的目标坐标之间的偏差。我们将所有Q个查询的平均损失称为Lcroi-reg。0总体检测损失：总体检测损失是CRPN和CROI模块的损失之和：0L det = L crpn + L info + L croi-reg. (1)03.3.训练0我们的模型经过端到端的训练，以最小化总损失，总损失是来自第3.1节的分类损失和检测损失（公式1）的总和。0L = L cls + L det. (2)0每个大小为N的训练批次包含N/2个不同图像的两个视图。ROI池化在与查询框大小相对应的适当FPN级别上进行。04.实现细节04.1.预训练0预训练数据集。我们从LVIS-v0.5[17]中定义的1230个对象类开始。我们扩展每个类别标签（例如：“dog”）以获得指向它的多个单词，并将它们转换为标签（例如：“#dogs”，“#canine”）。我们下载带有这些标签之一的公开可用图像，并使用与标签相关联的原始LVIS标签作为这些图像的类别标签。我们仅保留具有至少5000个唯一图像的对象类别，结果是略减少的1209个类别和49.93M个图像。0图像。我们将该数据集称为IG-50M。我们还展示了使用ImageNet-1k[44]进行预训练的结果。PreDet模型。我们使用detec-tron2 [58]和[58]中的默认FasterR-CNN超参数来实现我们的模型。我们使用与MoCo-v2[18]相同的增强方法构建不同的“视图”。然而，我们的模型输入具有更高的分辨率480×480。我们每个图像随机采样16个EdgeBoxes来构建查询，并将CROI-head中的P neg大小设置为512。我们使用1024个GPU在540k次迭代中训练PreDet模型，总共在128个GPU上训练了8.3天。我们使用初始学习率0.2，并在四个均匀步骤中将其降低0.1倍。04.2.微调0多年来，已经提出了各种模型[30，38，42，20，33，55，0已经提出了各种用于目标检测和实例分割的模型[65，66，52]。我们的预训练方法可以应用于所有这些模型。在这项工作中，我们选择了一种流行的两阶段模型（Mask R-CNN[20]）和一种流行的单阶段模型（RetinaNet[30]）来展示PreDet的好处。我们考虑以下数据集。0我们使用MS-COCO-2017[31]的训练和验证数据集进行微调和评估。我们还尝试了LVIS-v1[17]，它是MS-COCO的扩展，具有1203个类别。我们使用标准的1×、2×、3×、6×、9×学习率计划进行模型的微调，批量大小为16。所有模型都没有冻结任何层。我们使用网格搜索找到了来自PreDet和基线的预训练骨干网络的最佳学习率和衰减因子。有关详细信息，请参阅补充材料。我们注意到，对于使用PreDet、SEER和In-foMin等预训练模型的MaskR-CNN实例分割，掩膜头参数受益于更大的学习率。这是因为掩膜头具有多个卷积层，这些层与其他模块不同，是从头开始初始化的。我们进行了网格搜索，发现将学习率缩放4倍对所有方法效果最好。训练时，图像的最短边被随机调整为{640，672，704，736，768，800}之一，并进行随机裁剪和翻转增强。测试时，最短边被调整为800。PASCALVOC。PASCAL[11]数据集包含20个带有边界框注释的类别。我们使用PASCAL VOC-trainval07+12分割进行训练，并在PASCALVOC-test07分割上进行评估。我们将模型训练24k次迭代，批量大小为16，从学习率0.02开始，在第18k和第22k次迭代时将学习率降低0.1倍。评估。我们根据MS-COCO的定义，计算检测AP box和分割APmask的平均精度，平均IoU阈值从0.5到0.9。28700L cls L crpn L info L croi − reg AP box0� 44.60� � � 43.70� � � 46.30� � 45.90� � � � 47.10表1. 使用不同的损失组件从PreDet预训练的ResNeXt-101-32x8d+ FPN在MS-COCO上微调Mask R-CNN的结果。05. 实验0我们使用IG-50M作为默认的预训练数据集，使用ResNeXt-101-32x8d和FPN作为默认的骨干网络。05.1. PreDet设计选择0我们研究了PreDet模型中不同损失的重要性：分类损失（Lcls），CRPN损失（L cls）和CROI-head损失（L info，Lcroi-reg）。我们使用这些损失的不同组合对ResNeXt-101-32x8d进行预训练，然后在MS-COCO上进行1×的训练计划。表1显示了结果。请注意，启用L cls的第一行是指标准分类设置，但添加了FPN。此外，在训练没有CRPN损失的模型时，我们对每个查询框随机采样正负框来训练CROI-head。我们发现，没有分类损失，性能下降了3.4%（43.7 vs.47.1）。将CROI-head损失添加到该模型中可以提高性能1.7%（44.6 vs.46.3）。在CROI-head中，我们观察到回归损失贡献了0.4%（45.9 vs.46.3）。最后，CRPN的加入增加了额外的0.8%。这表明所有组件都很重要，通过使用所有损失进行训练可以获得最佳结果。05.2. 检测结果0我们报告了使用不同预训练方法初始化的模型的结果：（a）从头开始：没有任何预训练的从头开始训练，（b）cls-imagenet：在ImageNet上进行预训练，使用标准分类损失3，（c）cls-IG50M：仅在IG-50M上进行分类预训练，没有自监督检测损失4，（d）InfoMin：使用最近的自监督方法[54]进行预训练5，（e）SEER：使用自监督SWAV[5]方法在IG-1B数据集上通过SEER[13]进行预训练6，（f）PreDet-ImageNet：使用ImageNet进行预训练的PreDet模型，以及（g）PreDet-IG50M：使用IG-50M数据集进行预训练的PreDet模型。03我们尝试了224×224和480×480的输入分辨率，但没有注意到任何明显的差异；结果是基于224×224的分辨率报告的。4我们尝试了不同的超参数，但发现PreDet的值即使对于这个设置也是最优的。5 我们使用了项目网页上发布的模型。6 我们使用了作者提供的模型。05.2.1 MS-COCO数据集0Tab. 2 显示了在MS-COCO上对MaskR-CNN和RetinaNet进行微调的不同预训练方法的性能，使用了1×的训练计划。此外，我们还报告了每种方法的最佳微调计划以及该计划下的性能。更详细的结果请参见补充材料。MaskR-CNN使用ResNeXt-101-32x8d。对于1×的训练计划，我们注意到PreDet-ImageNet和PreDet-IG50M的性能优于其他方法。与第二好的方法InfoMin相比，PreDet-IG50M在AP box上的改进为2.3%（44.8 vs. 47.1），在AP mask上的改进为1.5%（40.2 vs.41.7%）。我们还观察到仅分类预训练模型（cls-IG50M和cls-ImageNet）的性能明显较低，与它们的PreDet对应模型相比。此外，虽然PreDet-ImageNet优于其他基线模型，但仍不及PreDet-IG50M（45.8 vs47.1）。这表明在更大的噪声数据集上进行预训练具有显著的优势。最后，从头开始训练的模型的性能不如其他方法。在所有计划中比较最佳性能，我们观察到PreDet-IG50M在AP box上优于从头开始训练的模型，第二好的方法，提高了1.3%（45.8 vs.47.1），在AP mask上提高了1.2%（40.7 vs.41.7）。更重要的是，所有其他方法都在3×或更高的计划中达到最佳性能，而PreDet在1×计划中达到最佳性能。因此，PreDet不仅实现了显著更好的性能，而且收敛速度更快。我们还比较了AP box 50和AP box 75的结果。07 数字在Tab. 3 中0对于具有最佳计划的MaskR-CNN的顶级方法。请注意，AP框75是相对于AP框50更严格的定位指标。我们观察到InfoMin相对于从头开始训练改进了AP框50，但AP框75下降。这表明自监督方法改进了图像级分类，有助于改善AP框50的粗略目标检测，但对于AP框75的精确定位没有改进。与从头开始训练的模型相比，PreDet-IG50M将AP框50和AP框75分别提高了2.6%和1.4%。在Tab.2中的RetinaNet模型中观察到显著的改进，仅使用1×计划训练的PreDet-IG50M将AP框提高了2.1%（43.0% vs.45.1%），超过了其他训练更长时间的基线模型。此外，所有方法都优于从头开始训练。使用其他骨干网络的MaskR-CNN。为了与其他作品中直接发布的结果进行比较，我们还训练了一个ResNet-50模型和一个更大的RegNet64[40] Mask R-CNN模型，并在Tab.4中显示结果。对于ResNet-50，我们与MoCo-07 AP框50，AP框75是在IoU阈值为0.50，0.75时的AP。We study the effect of PreDet as we vary the size of thetarget dataset during ﬁne-tuning. Similar to [19], we sample1k, 5k, 10k, 35k images at random from MS-COCO-traindataset to create smaller datasets. For each of them, we usegrid-search to choose the best learning rate schedule (de-tailed in the supp. document). We also use a larger training-time scale augmentation range of [512, 800] as per [19].We compare the APbox for ResNeXt-101-32x8d Mask R-CNN models initialized from scratch, ImageNet pre-trainedmodel and PreDet-IG50M in Tab. 7.We notice that the effect of pre-training is more pro-nounced when the dataset size is smaller. ImageNet pre-trained models outperform the from-scratch training whenthe dataset size is 10k or smaller. PreDet models outper-form all other models in every setting, with improvementranging from 4.8% (11.3% vs. 16.1%) at size 1k to 1.3%(45.8% vs. 47.1%) at size 118k. This demonstrates the im-portance of good pre-training in the low-shot settings.28710预训练0Mask R-CNN RetinaNet01×计划最佳计划 1×计划最佳计划0AP框 AP掩码计划 AP框 AP掩码 AP框计划 AP框0从头开始 33.9 31.0 9× 45.8 40.7 27.6 9× 40.7 cls-ImageNet 43.8 39.0 6× 44.9 39.9 41.4 1× 41.4 cls-IG50M44.4 39.4 3× 44.6 39.5 41.8 1× 41.8 InfoMin [54] 44.8 40.2 3× 45.6 40.5 43.0 1× 43.0 SEER-IG1B [13] 44.339.9 3× 45.1 40.1 40.3 6× 41.7 PreDet-ImageNet 45.8 40.8 1× 45.8 40.8 43.1 1× 43.1 PreDet-IG50M 47.141.7 1× 47.1 41.7 45.1 1× 45.10表2. 使用不同方法预训练的Mask R-CNN和RetinaNet在MS-COCO上的结果，使用ResNeXt-101-32x8d +FPN骨干网络进行微调。我们报告了所有方法的1×微调结果。我们还报告了每种方法的最佳微调计划及其在该计划下的性能。0预训练 AP框 AP框50 AP框750从头开始 45.8 65.6 50.2 InfoMin 45.6 65.9 49.9 PreDet-IG50M47.1 68.2 51.6 表3.在MS-COCO上从头开始、Infomin和PreDet-IG50M进行微调的Mask R-CNN的AP框，AP框50，AP框75。0与Tab. 2中的ResNeXt模型不同，我们使用更深的RoI-head（4个卷积层和1个全连接层）训练MaskR-CNN，以进行公平比较，与MoCo-v2和InfoMin的设置相同。即使对于较小的ResNet-50模型，我们的方法在1×计划中也显示出显著的改进。在同一表格中，我们还将SEER[13]模型与RegNet64进行了比较。与其他预训练方法相比，PreDet取得了更好的性能。请注意，SEER是在10亿张图像上进行预训练的，而PreDet的训练是在5000万张图像上进行的。由于RegNet64是一个非常高容量的模型，我们预计使用更大的数据集将进一步提高PreDet的性能。05.2.2 LVIS-v1数据集0Tab. 5显示了LVIS-v1数据集上AP框和AP掩码结果，平均值为3次运行。与MS-COCO相比，我们看到略微不同的趋势。所有模型相对于MS-COCO都更快地收敛。我们观察到使用SEER初始化的模型的最佳AP框结果（28.6）优于从头开始训练的模型（28.1）。此外，SEER的性能（28.2）优于InfoMin（27.3），这与COCO上InfoMin优于SEER的情况不同。然而，仅使用1×计划训练的PreDet-IG50M实现了最佳的AP框结果（30.1），超过了所有其他模型。这表明PreDet可以在不同的目标数据集上持续有效地迁移学习。AP掩码也观察到类似的趋势。05.2.3 PASCAL VOC数据集0Tab. 6显示了ResNeXt-101-32x8d模型的FasterR-CNN的AP框、AP框50和AP框75结果，平均值取自3次运行。我们的PreDet模型明显优于其他预训练方法。它将AP框提高了0相比于下一个最佳模型InfoMin（62.5%对58.6%），我们研究了PreDet在目标数据集大小变化时的影响。与[19]类似，我们从MS-COCO-train数据集中随机抽取1k、5k、10k、35k张图像创建较小的数据集。对于每个数据集，我们使用网格搜索选择最佳的学习率计划（详见补充文档）。我们还使用更大的训练时间尺度增强范围[512,800]，与[19]一致。我们在Tab. 7中比较了从头开始训练的ResNeXt-101-32x8d MaskR-CNN模型、ImageNet预训练模型和PreDet-IG50M的AP框。我们注意到，当数据集大小较小时，预训练的影响更加显著。当数据集大小为10k或更小时，ImageNet预训练模型优于从头开始训练。PreDet模型在每个设置中都优于其他模型，改进幅度从1k大小的4.8%（11.3%对16.1%）到118k大小的1.3%（45.8%对47.1%）。这证明了在低样本情况下良好的预训练的重要性。05.3. 微调数据集大小的影响05.4. 模型容量的影响0我们评估了我们的预训练方法对不同大小的骨干的影响。在图5（a）中，我们绘制了AP框0当使用1×计划对不同参数数量的ResNeXt模型在MS-COCO上微调MaskR-CNN时，我们观察到与ImageNet预训练相比，对于更高容量的模型（101-32x16d为3.6%）的改进要大于较小容量的模型（50-32x4d为2.3%）。这与先前的分类预训练研究结果一致。05.5. 分析PreDet的特征0我们假设分类预训练包含平移不变性，这导致图像中具有有限重叠的边界框具有41.661.745.337.658.740.445.967.850.941.065.344.0(a)(b)28720模型预训练方法计划AP框AP框50AP框75AP掩码AP掩码50AP掩码750ResNet-50 + FPN0cls-ImageNet0MoCo-v2 [ 18 ] 40.1 59.8 44.1 36.3 56.9 39.10InfoMin [ 54 ] 40.6 60.6 44.6 36.7 57.7 39.40PreDet-IG50M 42.1 62.5 46.0 37.4 59.1 39.90ResNet-50 + FPN0cls-ImageNet0MoCo-v2 [ 18 ] 41.7 61.6 45.6 37.6 58.7 40.50InfoMin [ 54 ] 42.5 62.7 46.8 38.4 59.7 41.40PreDet-IG50M 43.3 63.3 47.7 38.7 60.5 41.50RegNet-64 + FPN0cls-ImageNet0SEER [ 14 ] 48.1 70.5 52.9 43.2 67.6 46.40使用不同方法预训练的ResNet-50和RegNet64骨干的Mask R-CNN在MS-COCO上的结果。0预训练1×计划最佳0AP框AP掩码计划。AP框AP掩码0从头开始15.1 14.9 6×28.0 26.9 cls-ImageNet 24.5 24.3 3×25.624.8 cls-IG50M 24.0 23.7 3×25.6 24.7 InfoMin [ 54 ] 25.3 24.72×27.3 26.3 SEER-IG1B [ 13 ] 28.2 27.7 2×28.6 27.8PreDet-ImageNet 26.1 25.6 1×26.1 25.6 PreDet-IG50M 30.129.2 1×30.1 29.20Table 5. 使用不同预训练方法在LVIS-v1上使用ResNeXt-101-32x8d +FPN骨干的MaskR-CNN的结果。我们报告了每个模型的1×微调和最佳微调计划的结果。0预训练 AP框 AP框50 AP框750从头开始 36.4 62.4 36.8 cls-ImageNet 56.882.7 63.8 InfoMin [ 54 ] 58.6 83.1 66.0SEER-IG1B [ 13 ] 58.5 84.8 64.8PreDet-ImageNet 61.1 84.8 68 PreDet-IG50M62.5 85.6 69.80表6. 使用不同方法预训练的ResNeXt-101-32x8d +FPN在PASCAL VOC上的结果。我们在PASCAL VOC-test07上报告在PASCAL VOC- trainv

下载后可阅读完整内容，剩余1页未读，立即下载