DetCo：自我监督的对象检测方法

39 浏览量更新于2023-10-13 收藏 844KB PDF 举报

对比学习

实验结果

身份认证购VIP最低享 7 折!

30元优惠券

8392DetCo：用于对象检测的奚恩泽1*，丁建3*，王文海4，张晓航5，徐航2，孙培泽1，李振国2，罗平11香港大学2华为诺亚3武汉大学4南京大学5香港中文大学摘要我们提出了DetCo，一个简单而有效的自我监督的方法进行对象检测。无监督预训练方法最近已经被设计用于对象检测，但它们通常在图像分类方面是不足的，或者相反。与它们不同的是，DetCo在下游实例级密集预测任务上传输良好，同时保持有竞争力的图像级分类精度。其优点在于：（1）对中间表示的多层次监督，（2）全局图像和局部块之间的对比学习。这两个设计facil- itate歧视性和一致的全球和本地表示，在每个层次的特征金字塔，提高检测和分类，同时。在VOC、COCO、Cityscapes和ImageNet上的大量实验表明，DetCo不仅在一系列2D和3D实例级检测任务上优于例如，在ImageNet分类上，DetCo比InsLoc和DenseCL 高 6.9% 和 5.0% 的 top-1 准确率， InsLoc 和DenseCL是两个为对象检测而设计的当代作品。此外，在COCO检测上，DetCo比使用Mask R-CNN C4的SwAV好6.9 AP。值得注意的是，DetCo大大提升了Sparse R-CNN，一个最近的强检测器，从45.0 AP到46.5 AP（+1.5 AP），在 COCO上建立了一个新的SOTA。1. 介绍视觉表示的自监督学习是计算机视觉中的一个基本问题，促进了许多下游任务，如图像分类，对象检测和语义分割[23，35，43]。它旨在为下游任务提供在大规模未标记数据上预训练的模型。以前的方法侧重于设计不同的借口任务。其中最有前途的方向之一是对比学习[32]，它将一个im-*平等贡献分类和检测权衡696765636159575537.5 38 38.5 39 39.5 40COCO检测mAP图1. 分类和检测的传递精度。DetCo在分类和检测上实现了最佳性能折衷。例如，DetCo在COCO检测上优于其强基线MoCo v2 [5] 0.9 AP此外，DetCo是显着优于最近的工作，例如。DenseCL [39]，InsLoc [41]，PatchReID [8]在ImageNet分类上也具有优势。请注意，这三种方法是并行工作，专为物体检测而设计（用绿色标记）。黄色星号表示所需的方法应该在检测和分类方面都具有高性能。在特征图中，将图像分成多个视图，最小化来自同一图像的视图之间的距离，并且最大化来自不同图像的视图之间的距离。在过去的两年中，一些基于对比学习和在线聚类的方法，如。MoCo v1/v2 [19，5]，BYOL [18]和SwAV[3]在弥合无监督和全监督图像分类方法之间的性能差距方面取得了很大进展。然而，它们在目标检测上的传递能力并不令人满意.与我们的工作同时，最近DenseCL [39]，InsLoc [41]和PatchReID [8]也采用对比学习来设计检测友好的借口任务。尽管如此，这些方法仅在对象检测上传递良好，但牺牲了图像分类性能，如图1和表1所示。因此，设计一个能够协调实例级检测和图像处理+0.9 APDetCoMoCo v2+6.0%PatchReIDDenseCLMoCo v1InstLocInstDisImageNet Top-1精度8393方法地方ImageNet Cls.COCO Det.城市风景区Top-1Top-5地图Miou[19]第十九话CVPR'2060.6-38.575.3MoCo v2[5]arXiv67.5-38.975.7InstLoc[41]CVPR'2161.7-39.8-DenseCL[39]CVPR'2163.6 85.839.375.7PatchReID[8]arXiv63.8 85.639.676.6DetCo-68.688.539.876.5表1. 分类和检测权衡最近的检测友好的自我监督方法。与并发InstLoc[41]，DenseCL[39]和PatchReID[8]相比，DetCo在ImageNet分类上显著优于6.9%，5.0%和4.8%。此外，DetCo在密集预测任务上也与这些方法相当，实现了最佳权衡。分类.我们假设图像级分类和实例级检测之间没有不可逾越的鸿沟。直观地说，图像分类从单个高级特征图中识别全局实例，而对象检测从多级特征金字塔中识别局部实例从这个角度来看，期望构建实例表示，其（1）在特征金字塔的每个级别处是有区别的（2）对于全局图像和局部块（也称为滑动窗口）两者是一致的。然而，现有的无监督方法忽略了这两个方面。因此，检测和分类不能相互改进。在这项工作中，我们提出了DetCo，这是一个对比学习框架，有利于实例级检测任务，同时保持有竞争力的图像分类传输精度。DetCo包含（1）对来自骨干网的不同阶段的特征的多级监督。(2)全局图像和局部块之间的对比学习。具体而言，多级监管直接优化骨干网各阶段的特征，确保金字塔特征的每一级都具有很强的区分度。这种监督通过多尺度预测导致密集对象检测器的更好性能。全局和局部对比学习引导网络在图像级和块级学习一致的表示，既能保持每个局部块的高区分度，又能提升整个图像的表示，有利于目标检测和图像分类.DetCo在各种2D和3D实例级检测任务上实现了最先进的传输性能。VOC和COCO对象检测，语义分割和DensePose。而且DetCo在Im-ageNet分类和VOC SVM分类上的表现还是很有竞争力的。例如，如图1和表1所示，DetCo在分类和密集预测任务上改进了MoCov2 。 DetCo 在 ImageNet 上显著优于 DenseCL [39] ，InsLoc [41]和PatchReID [8]分类率分别为6.9%、5.0%和4.8%，在目标检测和语义分割方面稍好。请注意，DenseCL、InsLoc和PatchReID是三个并行的工作，它们被设计用于对象检测，但不用于安全分类。此外，DetCo将Sparse R-CNN [37]（这是一种没有q的最新端到端对象检测器）从具有ResNet-50主干的COCO数据集上的非常高的基线45.0 AP提升到46.5 AP（+1.5 AP），建立了一个新的最先进的检测结果。在3D任务中，DetCo在COCO DensePose上的所有指标上都优于ImageNet监督方法和MoCo v2，特别是在AP50上为+1.4。总的来说，这项工作的主要贡献折叠：• 我们介绍了一个简单而有效的自我监督的借口任务，名为DetCo，这是有益的实例级检测任务。DetCo可以利用大规模未标记数据，并为各种下游任务提供强大的预训练模型。• 得益于多级监督和全局图像与局部块之间的对比学习的设计，DetCo与当代自监督同行相比，成功地提高了目标检测的转移能力，而不牺牲图像分类。• 对PASCAL VOC [15]、COCO的广泛实验[28]和Cityscapes [6]表明，DetCo在转移到一系列2D和3D实例级检测任务时优于以前的最先进方法，例如对象检测、实例分割、人体姿态估计、DensePose以及语义分割。2. 相关工作现有的表示学习的无监督方法可以大致分为两类，生成式和判别式。生成方法[11，14，12，2]通常依赖于图像的自动编码[38，24，36]或对抗学习[17]，并直接在像素空间中操作。因此，它们中的大多数在计算上是昂贵的，并且图像生成所需的像素级细节对于学习高级表示可能不是在判别方法中[9，5]，自我监督对比学习[5，19，5，3，18]目前取得了最先进的性能，引起了研究者的广泛关注。与生成方法不同，对比学习通过拉取相同图像的不同视图的表示（即，不同视图的表示）来避免计算消耗的生成步骤。、正对）关闭，并且将来自不同图像的视图的表示（即，负对）分开。Chen等人[5]开发了一个简单的框架，称为Sim- CLR，用于视觉表征的对比学习。它通过在组合数据增强后对比图像来学习特征。之后，他等。[19]陈8394布罗ΣL（I，I，P，P）=w·（LqkqkiΣL$2#伊什编码器动量编码器ℒ全球图像局部小片$2&%#伊什P编号PK编码器动量编码器编码器动量编码器简体中文简体中文布罗布罗l(a) MoCo（b）DetCo（我们的）图2. DetCo与MoCo [19]的总体管线比较。（a）是MoCo的框架，其仅从全局视角考虑单个高级特征和学习对比。(b)是我们的DetCo，它通过多级监督学习表示，并添加两个额外的本地补丁集作为输入，从而在全局和局部视图中构建对比损失。注意，“等人[5]提出了MoCo和MoCo v2，使用移动平均网络（动量编码器）来维护从存储器库中提取的负对的一致表示。最近，SwAV [3]将在线聚类引入到对比学习中，而不需要计算成对比较。BYOL [18]通过迭代地引导网络的输出来避免使用负对，以作为增强表示的目标。此外，早期的方法依赖于各种借口任务来学习视觉表征。相对补丁预测[9，10]，彩色灰度图像[42，25]，图像修复[33]，图像拼图[31]，图像超分辨率[26]和几何变换[13，16]已被证明对表示学习有用。尽管如此，大多数上述方法是专门设计用于图像分类，而忽略对象检测。与我们的工作同时，最近DenseCL [39]，InsLoc [41]和PatchReID [8]设计预处理。3.1. DetCo框架DetCo是主要基于强基线MoCo v2设计的简单管道。它由一个骨干网、一系列MLP磁头和存储体组成。为简单起见，MLP头和存储体的设置与MoCo v2相同DetCo的整体架构如图2所示。具体来说，DetCo有两个简单而有效的设计，与MoCo v2不同。(1)多级监督以保持多个阶段的特征是有区别的。(2)全局和局部对比学习，以增强全局和局部特征表示。上述两种不同的设计使DetCo不仅成功地继承了MoCo v2在图像分类方面的优势，而且在实例级检测任务上也有更强的转移。DetCo的完整损失函数可以定义如下：4用于对象检测的文本任务。然而，它们在图像分类中的传递性能较差。我们的工作-ig参与i=1伊勒igl ），（1）cuses设计一个更好的借口任务，这不仅有利于实例级检测，但也保持了图像分类的强代表性。其中I表示全局图像，P表示局部补丁集。等式1是多阶段对比损失。在每一阶段中，存在三个交叉的局部和全局对比损失。我们将描述多级监管3. 方法4i=1 第3.2节中的wi·Li，全局和局部对比在本节中，我们首先简要介绍了整体架构-learning学习伊勒igl第3.3节。所提出的DetCo的结构如图2所示。然后，我们提出了多级监督的设计，保持在多个阶段的特征的歧视性。接下来，我们引入全局和局部对比学习来增强全局和局部表示。最后，我们提供了DetCo的实现细节。3.2. 多层次监督现代物体探测器预测不同层次的物体，例如 .RetinaNet和更快的R-CNN FPN。它们要求每一层的特征都保持很强的区分度。为了满足上述要求，我们对原始MoCo基线进行了简单而+L+L+L+L8395∈不QQ--∈--↔不--··↔↔+↔格卢格×××Q××QQQ2345Ki=0exp（q·ki/τ）容易地得到{k_g，k_g，k_g，k_g}=编码器k（Ik）。i=0时Σ具体来说，我们将一个图像馈送到标准的主干ResNet-50，它从不同的阶段输出特征，称为Res 2，Res 3，Res 4，Res 5。与仅使用Res5的MoCo不同，我们利用所有级别的特征来计算对比损失，确保主干的每个阶段都产生有区别的表示。给定图像IRH×W ×3，首先用从全局视图上的一组变换（称为g）中随机抽取的两个变换将其变换为图像的两个视图Iq和Ik。我们的目标是训练编码器q以及具有相同架构的编码器k，其中编码器k使用动量更新策略[19]来更新权重。编码器q包含主干和四个全局MLP头以从四个级别提取特征。 Wee将Iq馈送到主干bθ（·），其中参数θ提取特征f2，f3，f4，f5=b θ（Iq），其中fi表示来自第i阶段的特征。在获得多层次特征之后，我们附加四个全局MLP 头{mlp2 （ · ）， mlp3 （ · ）， mlp4 （ · ）， mlp5（·）}，其权重编码器，然后我们可以得到9个局部特征表示。在此基础上，我们将这些特征组合成一个MLP头的特征表示，并建立一个交叉的全局和局部对比学习。给定图像IRH× W ×3，先把它改造一下通过从局部变换集中选择的两个变换，将其分解为两个局部面片集Pq和Pk，称为l。有9个补丁p1，p2，…P9在每个局部补丁集中。我们将局部补丁集馈送到主干，并得到9个特征F p=f p1，f p2，.，在每个阶段Fp9。以阶段为例，我们为局部补丁构建MLP头部，表示为mlplocal（），其不与第3.2节中的mlpglobal（）共享权重。然后，Fp被级联并被馈送到局部补丁MLP头部以得到最终表示ql。同样地，我们可以使用相同的方法来得到kl。对比交叉损耗有两部分：的全局局部对比损失和局部局部对比损失。全局局部对比度损失可以写为：不共享。结果，我们得到了四个全局表示-tations {qg，qg，qg，qg}=编码器q（Iq）。同样，我们可以2345Lgl（Pq，Ik）=−logΣexp（ql·kg/τ）LG.（四）MoCo使用InfoNCE计算对比损失，用于-模拟为：类似地，局部局部对比度损失可以被公式化为：exp（qg ·kg/τ）llLgg（Iq，Ik）=−logΣ+、（2）我exp（q·k+/τ）i=0exp（ql·ki/τ）Kexp（qg·kg/τ）Lll（Pq，Pk）=−logΣK.（五）L其中τ是温度超参数[40]。我们扩展它涉及多级特征的多级对比损失，公式为：4损失=wi·Li（3）i=1其中w是损失重量，并且i指示当前阶段。受PSPNet[43]中的损失权重设置的启发，我们将浅层的损失权重设置为小于深层。此外，我们为每一层构建单独的存储体队列i。在附录中，我们提供了中间对比度损失的伪代码。3.3. 全局和局部对比学习现代对象检测器在局部区域（也称为滑动窗口）上重新使用分类器因此，它要求每个局部区域是有区别的，例如分类。为了满足上述要求，我们开发了全局和局部对比学习，以保持一致的立场表示的补丁集和整个图像。该策略利用图像级表示来增强实例级表示，反之亦然。详细地，我们首先使用拼图增强将输入图像变换成9个局部块，增强细节在第3.4节中示出。这些斑块通过通过学习全局图像和局部图像之间的表示calpatch，图像级和实例级相互改进。因此，无论是检测和分类性能提升。3.4. 实现细节我们使用OpenSelfSup1作为代码库。我们使用256的批量大小，每个实验使用8个Tesla V100 GPU。我们遵循MoCo v2的大多数超参数设置。对于数据增强，全局视图增强几乎与具有随机裁剪的MoCo v2 [5]相同，并且具有随机水平翻转、高斯模糊和与亮度、对比度、饱和度、色调和灰度相关的颜色抖动，重新调整大小为224 224。Rand-Augmentation[7]也用于全局视图。局部贴片增强遵循PIRL [30]。首先，一个随机区域裁剪至少60%的图像和大小调整为255 - 255，然后随机翻转，颜色抖动和模糊，共享相同的参数与全球增强。然后我们把图像分成3 3个网格，随机洗牌;每个网格是85 × 85。随机裁剪应用于每个片以得到64 × 64，以避免片之间的连续性。最后，我们得到9随机洗牌的补丁。为了公平比较，我们使用标准ResNet-50 [23]进行所有实验。除非其他1https://github.com/open-mmlab/OpenSelfSup8396SwAV-800ep××××≈ ××50指定，我们在ImageNet上预训练了200个epoch，以进行公平的比较。58.5584. 实验我们在一系列2D和3D密集预测任务上评估DetCo，例如。PASCAL VOC检测、COCO检测、实例分割、2D姿态估计、DensePose和Cityscapes实例和语义分割。我们看到DetCo优于现有的自监督和监督方法。57.55756.55655.5550 100 200 300 400 500 600 700 8004.1. 对象检测54监督-90 ep训练时期52实验设置。我们选择三个代表de-50导师：更快的R-CNN [35]， [22]第二十二话BYOL-200epSimplified-200epnaNet [27]，以及最近的一个强检测器：稀疏R-CNN[37]。Mask R-CNN是两阶段的，RetinaNet是一阶段检测器。稀疏R-CNN是一种没有NMS的端到端检测器，它也是COCO上最先进的高mAP。为了公平比较，我们的训练设置与MoCo [19]相同PASCAL VOC. 如表9和图3所示，MoCo v2是一个强大的基线，它已经超过了VOC检测中的其他无监督学习方法。然而，我们的DetCo在200个历元和800个历元上始终优于MoCo v2 。更重要的是，仅使用100个epoch预训练，DetCo就实现了与MoCo v2- 800 ep（800epoch预训练）几乎相同的性能。最后，DetCo-800 ep建立了新的最先进的，mAP为58.2，AP75为65.0，分别比改进的AP和AP75提高4.7和6.2。在更严格的AP 75上的改进比AP大得多，表明中间和斑块对比度有利于局部化。COCO与1和2时间表。表3示出了在1个时间表上的Mask RCNN [22]结果。对于R50-C4和R50-FPN主链，DetCo比MoCo v2基线高0.9和1.2AP对于R50-C4和R50-FPN，它还分别以1.6和1.2AP优于有监督的对应物。2计划的结果见附录。表7的列2-3示出了一级检测器RetinaNet的结果。DetCo预训练比监督方法和MoCo v2好1.0和1.2 AP。DetCo也是1.3高于AP50的MoCov2（1×计划）。COCO ，很少训练迭代。 COCO 在数据规模上比PASCAL VOC大得多。即使从头开始训练[20]也能得到令人满意的结果。为了验证无监督预训练的有效性，我们在极其严格的条件下进行了实验：仅训练具有12 k次迭代的检测器（1/7对90 k-1调度）。 12k次迭代使得检测器严重训练不足并且图3. 比较PASCAL VOC 07+12目标检测上的mAP。对于不同的预训练时期，我们看到DetCo始终优于MoCo v2[5]，与其他方法相比，MoCo v2是VOC的强有力竞争者。例如，与MoCov 2 - 800 ep相比，DetCo-100 ep已经实现了类似的mAP此外，DetCo-800 ep达到了最先进的水平，并优于其他同行。远未收敛，如表2和表7列所示1.在该设置下，对于掩码RCNN-C4，DetCo在APbb中超过MoCo v23.8AP，并且在所有度量中优于监督方法，这指示DetCo可以显著地加快训练收敛。对于Mask RCNN-FPN和RetinaNet，DetCo也具有优于MoCov2和监督对应物的显著优势。半监督学习的COCO 转移到小数据集更有实用价值。如[21]所示，当仅使用COCO的1%数据时，从头开始的训练的性能在mAP中无法赶上具有预训练初始化的训练。为了验证自监督学习在小规模数据集上的有效性，我们随机抽取了1%、2%、5%、10%的数据来微调RetinaNet。对于所有设置，我们用12k次迭代微调检测器以避免过拟合。其他设置与COCO1×和2×时间表相同具有1%、2%、5%、10%的RetinaNet的结果示于表8中。我们发现，在四个半监督设置，DetCo显着超过监督counn- terpart和MoCo v2强基线。例如，当使用10%数据时，DetCo优于监督方法2.3AP，MoCo v2优于监督方法1.9AP。这些结果示出DetCo预训练模型对于半监督对象检测也是有益Mask R-CNN的1%、2%、5%和10%数据的更多结果见附录。DetCo +最近高级检测器。在表4中，我们发现DetCo可以用1.5mAP改进稀疏R-CNN[37]DetCo-800epDetCo-400epDetCo-200epDetCo-100epMoCov2-800epMoCov2-400epMoCov2-200epDetCo-50epMoCov2-100epMoCo-200epPIRL-200epMoCov2-50epPASCAL VOC 07+12上的mAP839775表2. 对象检测和实例分割在COCO上进行了微调。所有方法都在ImageNet上预训练了200个epoch绿色表示增加，灰色表示减少。DetCo优于所有有监督和无监督的同行。方法面罩R-CNN R50-C4 COCO 90 k面罩R-CNN R50-FPN COCO 90kAPbbAPbb50APbb75AP标记AP标记50AP标记75APbbAPbb50APbb75AP标记AP标记50AP标记75随机初始化26.444.027.829.346.930.831.049.533.228.546.830.4监督38.258.241.233.354.735.238.959.642.735.456.538.1InsDis[40]37.7（-0.5）57.0（-1.2）40.9（-0.3）33.0（-0.3）54.1（-0.6）35.2（0.0）37.4（-1.5）57.6（-2.0）40.6（-2.1）34.1（-1.3） 54.6（-1.9）36.4（-1.7）PIRL[30]37.4（-0.8）56.5（-1.7）40.2（-1.0）32.7（-0.6）53.4（-1.3）34.7（-0.5）37.5（-1.4）57.6（-2.0）41.0（-1.7）34.0（-1.4） 54.6（-1.9）36.2（-1.9）SwAV[3]32.9（-5.3）54.3（-3.9）34.5（-6.7）29.5（-3.8）50.4（-4.3）30.4（-4.8）38.5（-0.4）60.4（+0.8）41.4（-1.3）35.4（0.0） 57.0（+0.5）37.7（-0.4）MOCO[19]38.5（+0.3）58.3（+0.1）41.6（+0.4）33.6（+0.3）54.8（+0.1）35.6（+0.4）38.5（-0.4）58.9（-0.7）42.0（-0.7）35.1（-0.3） 55.9（-0.6）37.7（-0.4）[5]第五届中国国际医疗器械展览会38.9（+0.7）58.4（+0.2）42.0（+0.8）34.2（+0.9）55.2（+0.5）36.5（+1.3）38.9（0.0）59.4（-0.2）42.4（-0.3）35.5（+0.1）56.5（0.0）38.1（0.0）DetCo39.8（+1.6）59.7（+1.5）43.0（+1.8）34.7（+1.4）56.3（+1.6）36.7（+1.5）40.1（+1.2）61.0（+1.4）43.9（+1.2）36.4（+1.0）58.0（+1.5）38.9（+0.8）表3. 对象检测和实例分割在COCO上进行了微调。所有方法都在ImageNet上预训练了200个epoch。DetCo优于所有有监督和无监督的同行。APAP50 AP75APsAPmAPl监督45.064.149.027.747.559.6DetCo46.565.750.830.849.559.7表4. DetCovs.在稀疏R-CNN上进行监督预训练。DetCo极大地改善了1.5mAP和3.1APs。表5. DetCo与其他方法在“密集姿势”任务中的比较。它在单目3D人体形状预测上也表现最好。和3.1AP。 Sparse R-CNN是最近一种性能强大的端到端检测器，DetCo可以进一步大幅提升Sparse R-CNN表6. DetCo与Cityscapes数据集上的监督和其他非监督方法。所有方法都在ImageNet上预训练了200个epoch。我们评估实例分割和语义分割任务。PASCAL VOC）。其次，DetCo在COCO 12k迭代方面也有很大的优势。实验结果表明，与其他无监督和有监督的方法相比，DetCo算法能够加快训练收敛速度。第三，即使有足够的数据（例如COCO），Detco依然显著提升了性能DetCovs.并发SSL方法。InsLoc[41]，DenseCL[39]和PatchReID[8]是最近为对象检测设计的作品。它们提高了目标检测的性能，但在很大程度上牺牲了图像分类的性能如表 1 所示， DetCo 在 ImageNet 分类上比InsLoc、DenseCL和PatchReID具有+6.9%、+5.0%和+4.8%的显著优势。此外，在COCO的检测上，DetCo也优于其他方法.讨论。我们比较了在不同数据集尺度和微调迭代下转移到对象检测首先，DetCo在很大程度上提高了监督方法在小数据集上的性能（例如，与其他无监督和有监督的计数器相比。最后，DetCo是友好的检测任务，同时它不牺牲分类相比，目前的SSL方法。4.2. 分割和姿态估计多人姿态估计。表 7 的最后一列显示了使用 MaskRCNN的COCO关键点检测结果。DetCo在所有度量上也优于其他方法，例如比监督对应物高1.4APkp和1.5APkp城市景观的分割。Cityscapes是一个用于城市街道自动驾驶的数据集。我们遵循MoCo来评估Mask RCNN和方法面罩R-CNN R50-C4 COCO 12 k面罩R-CNN R50-FPN COCO 12kAPbbAPbb50APbb75AP标记AP标记50AP标记75APbbAPbb50APbb75AP标记AP标记50AP标记75随机初始化7.916.46.97.614.87.210.720.79.910.319.39.6监督27.146.827.624.743.625.328.448.329.526.445.225.7InsDis[40]25.8（-1.3）43.2（-3.6）27.0（-0.6）23.7（-1.0）40.4（-3.2）24.5（-0.8）24.2（-4.2）41.5（-6.8）25.1（-4.4）22.8（-3.6） 38.9（-6.3）23.7（-2.0）PIRL[30]25.5（-1.6）42.6（-4.2）26.8（-0.8）23.2（-1.5）39.9（-3.7）23.9（-1.4）23.7（-4.7）40.4（-7.9）24.4（-5.1）22.1（-4.3） 37.9（-7.3）22.7（-3.0）SwAV[3]16.5（-10.6）35.2（-11.6）13.5（-14.1）16.1（-8.6）32.0（-11.6）14.6（-10.7）25.5（-2.9）46.2（-2.1）25.4（-4.1）24.8（-1.6） 43.5（-1.7）25.3（-0.4）MOCO[19]26.9（-0.2）44.5（-2.3）28.2（+0.6）24.6（-0.1）41.8（-1.8）25.6（+0.3）25.6（-2.8）43.4（-4.9）26.6（-2.9）23.9（-2.5） 40.8（-4.4）24.8（-0.9）方法实例分段语义段AP标记AP标记50Miou随机初始化25.451.165.3监督32.959.674.6InsDis [40]33.0（+0.1）60.1（+0.5）73.3（-1.3）PIRL [30]33.9（+1.0）61.7（+2.1）74.6（0.0）SwAV [3]33.9（+1.0）62.4（+2.8）73.0（-1.6）MOCO [19]32.3（-0.6）59.3（-0.3）75.3（+0.7）方法时代APdpAPdp50APdp75随机初始化监督-9040.850.878.686.337.352.6MOCO [19]MoCo v2 [5]20020049.6（-1.2）50.9（+0.1）85.9（-0.4）87.2（+0.9）50.5（-2.1）52.9（+0.3）8398Mask RCNN的实例分割。839950表7.COCO上微调的一级对象检测和关键点检测。所有方法都在ImageNet上预训练了200个epochDetCo优于所有有监督和无监督的同行。方法RetinaNet R50 COCO 1%数据RetinaNet R50 COCO 2%数据RetinaNet R50 COCO 5%数据RetinaNet R50 COCO 10%数据APAP50AP75APAP50AP75APAP50AP75APAP50AP75随机初始化1.43.51.02.55.62.03.67.43.03.77.53.2监督8.216.27.211.221.710.316.530.315.919.634.519.7MOCO[19]7.0（-1.2）13.5（-2.7）6.5（-0.7）10.3（-0.9）19.2（-2.5）9.7（-0.6）15.0（-1.5）27.0（-3.3）14.9（-1.0）18.2（-1.4）31.6（-2.9）18.4（-1.3）MoCo v2[5]8.4（+0.2）15.8（-0.4）8.0（+0.8）12.0（+0.8）21.8（+0.1）11.5（+1.2）16.8（+0.3）29.6（-0.7）16.8（+0.9）20.0（+0.4）34.3（-0.2）20.2（+0.5）DetCo9.9（+1.7）19.3（+3.1）9.1（+1.9）13.5（+2.3）25.1（+3.4）12.7（+2.4）18.7（+2.2）32.9（+2.6）18.7（+2.8）21.9（+2.3）37.6（+3.1）22.3（+2.6）表8. 半监督一级检测，对COCO 1%、2%、5%和10%数据进行微调。所有方法都在ImageNet上预训练了200个epoch。DetCo在所有指标中均显著优于监督/无监督对应方。方法时代APAP50AP75随机初始化受监督-9033.853.560.281.333.158.8InsDis [40]20055.2（+1.7）80.9（-0.4）61.2（+2.4）PIRL [30]20055.5（+2.0）81.0（-0.3）61.3（+2.5）SwAV [3]80056.1（+2.6）82.6（+1.3）62.7（+3.9）MOCO [19]20055.9（+2.4）81.5（+0.2）62.6（+3.8）[5]第五届中国国际医疗器械展览会20057.0（+3.5）82.4（+1.1）63.6（+4.8）[5]第五届中国国际医疗器械展览会80057.4（+3.9）82.5（+1.2）64.0（+5.2）DetCo10057.4（+3.9）82.5（+1.2）63.9（+5.1）20057.8（+4.3）82.6（+1.3）64.2（+5.4）80058.2（+4.7）82.7（+1.4）65.0（+6.2）表9. 使用Faster RCNN-C4在PASCAL VOC 07 +12上对目标检测进行了微调。DetCo-100 ep与之前的最先进技术不相上下，DetCo-800 ep实现了最佳性能。使用FCN-16进行语义分割[29]。结果示于表6中。尽管DetCo预训练的领域与COCO完全不同，但DetCo预训练仍然可以显著提高迁移性能。在实例分割上，DetCo在APmk上比监督对应物和MoCo v2高3.6和2.4。在语义分割方面，DetCo也比监督方法和MoCov2高1.9%和0.8%。密集姿势。从单个2D图像估计3D形状具有挑战性。它可以作为自监督学习方法的良好测试平台，因此我们在COCO DensePose [1]任务上评估了DetCo，并发现DetCo在该任务上也迁移良好。如表5中所示，DetCo在所有度量中显著优于ImageNet监督方法和MoCo v2，特别是在AP50上的+1.4。方法RetinaNet R50 12kRetinaNet R50 90kRetinaNet R50 180kKeypoint RCNN R50 180kAPAP50AP75APAP50AP75APAP50AP75APkpAPkp50APkp75随机初始化4.07.93.524.539.025.732.249.434.265.986.571.7监督24.340.725.137.456.539.738.958.541.565.886.971.9InsDis[40]19.0（-5.3）32.0（-8.7）19.6（-5.5）35.5（-1.9）54.1（-2.4）38.2（-1.5）38.0（-0.9）57.4（-1.1）40.5（-1.0）66.5（+0.7）87.1（+0.2）72.6（+0.7）PIRL[30]19.0（-5.3）31.7（-9.0）19.8（-5.3）35.7（-1.7）54.2（-2.3）38.4（-1.3）38.5（-0.4）57.6（-0.9）41.2（-0.3）66.5（+0.7）87.5（+0.6）72.1（+0.2）SwAV[3]19.7（-4.6）34.7（-6.0）19.5（-5.6）35.2（-2.2）54.9（-1.6）37.5（-2.2）38.6（-0.3）58.8（+0.3）41.1（-0.4）66.0（+0.2）86.9（0.0）71.5（-0.4）MOCO[19]20.2（-4.1）33.9（-6.8）20.8（-4.3）36.3（-1.1）55.0（-1.5）39.0（-0.7）38.7（-0.2）57.9（-0.6）41.5（0.0）66.8（+1.0）87.4（+0.5）72.5（+0.6）8400表10. ImageNet线性分类和VOC SVM分类的比较。尽管DetCo被设计用于检测，但其在分类任务上也是稳健的和有竞争力的，并且其显著超过MoCov2基线1.1%。4.3. 图像分类我们遵循标准设置：ImageNet线性分类和VOCSVM分类。对于ImageNet线性分类，训练历元为100，学习率为30，与MoCo相同。如表10所示，我们的DetCo在Top-1准确度方面也优于其强基线MoCov2+ 1.1%。它也是竞争力的VOC SVM分类精度相比，国家的最先进的counn-terparts。讨论虽然DetCo是专为对象检测，它的分类精度仍然具有竞争力。在Ima-geNet分类上，DetCo大大优于并发的DenseCL [39]、PatchReID [8]和InstLoc [41]，甚至超过MoCo v2基线[5] 1.1%。尽管SwAV不如最强分类方法，但DetCo表现出更好的检测准确性。总的来说，DetCo实现了最佳的分类-检测权衡。ImageNetVOC07Jigsaw [31]-44.6-64.5[第16话]-55.4-63.9InsDis [40]20056.5-76.6[44]第四十四话20058.8--PIRL [30]80063.6-81.1SimCLR [4]100069.3 89.0-BYOL [18]100074.3 91.6-SwAV [3]20072.7-87.6MOCO [19]20060.6-79.2[5]第五届中国国际医疗器械展览会20067.5-84.18401表11. 消融：多级监督（MLS）和全局和局部对比学习（GLC）。结果在ImageNet线性分类和PASCAL VOC07+12检测上进行评估。+MLS+GLCRes2Res3Res4Res5（一）××47.158.270.982.1（b）第（1）款✓×50.9↑67.1↑78.7↑81.8↓（c）第（1）款×✓47.8↑59.8↑75.0↑84.6↑（d）其他事项✓✓51.6↑69.7↑82.5↑84.3↑图像DetCo MoCo v2图4.DetCo和MoCov2生成

下载后可阅读完整内容，剩余1页未读，立即下载