没有合适的资源?快使用搜索试试~ 我知道了~
10086⇥⇥⇥⇥基于对比检测的高效视觉预训练Ol i vierJ. He´naf f SkandaKoppula Jean-BaptisteAlayracAaronvandenOord OriolVin yals JoaoCarreiraDeepMind,英国摘要自我监督预训练已被证明可以为迁移学习提供然而,这些性能增益是以大的计算成本来实现的,其中最先进的方法需要比监督预训练多一个数量级的计算。我们通过引入一种新的自监督目标,对比检测,任务表示与识别对象级功能跨增强来解决这个计算瓶颈。该目标可提取每幅图像的丰富学习信号,从而在各种下游任务上实现最先进的传输精度,同时需要高达10少训练特别是,我们最强的ImageNet预训练模型的性能与SEER相当,SEER是迄今为止最大的自监督系统之一,它使用了1000多个预训练数据。最后,我们的目标无缝地处理更复杂图像的预训练,例如COCO中的图像,缩小了从COCO到PASCAL的监督迁移学习的差距1. 介绍自从AlexNet在ImageNet上取得突破以来,来自大型标记数据集的迁移学习已成为计算机视觉中的主导范式[34,50]。虽然自监督学习的最新进展减轻了对预训练标签的依赖,但它们以巨大的计算成本做到了这一点,最先进的方法需要比监督预训练多一个数量级的计算[7,10,21]。然而,自监督学习的承诺是利用大量未标记的数据集,这使得其计算成本成为关键瓶颈。在这项工作中,我们的目标是减轻自我监督预训练的计算负担。为此,我们引入了对比检测,一个新的目标,最大限度地提高了对象级功能的相似性,在增强。这一目标的好处有三方面。首先,它从图像中的所有对象中提取单独的学习信号,丰富每个训练示例提供的信息,以便简单地获得自由对象级别的特征。图1. 使用DetCon进行高效的自我监督预训练。使用SimCLR[9]的自监督预训练仅在给定10次以上的训练迭代时才能与监督预训练的传输性能相匹配。我们提出的DetCon目标超越了这两个,同时需要比SimCLR少5的计算。传输性能是通过使用Mask-RCNN在COCO数据集上微调12个时期的表示来测量的。从中间特征阵列获得其次,它提供了一个更大和更多样化的负样本集来进行对比,这也加速了学习。最后,这个目标非常适合从具有许多对象的复杂场景中学习,这是一个对自监督方法具有挑战性的预训练领域。我们通过使用无监督分割算法识别图像中近似的基于对象的区域感知分组[32,41]-数据中的低级和中级规则(如颜色,方向和纹理)允许将场景近似解析为连接的表面或对象部分的想法-长期以来一直被认为是视觉的强大先验[22,40,56]。我们利用这些先验的分组本地特征向量accordingly,并分别应用我们的对比目标,每个对象级的功能。我们调查使用10087⇥几个无监督的,图像可计算的掩模[17,2],并发现我们的目标工作良好,尽管他们的不准确性。我们通过将其应用于ImageNet数据集并测量其在具有挑战性的任务(如COCO检测和实例分割,PASCAL和Cityscapes上的语义分割以及NYU深度估计)上的传输性能来与从最近的自监督目标(如SimCLR和BYOL[9,21])中获得的表示相比,我们的表示更准确,并且可以用更少的训练时间获得。我们还发现这种学习目标可以更好地处理更复杂场景的图像,弥补了COCO数据集的监督传输的差距。总之,我们做出以下贡献:1. 我们制定了一个新的对比目标,最大限度地提高了场景中所有对象的增强的相似性,其中对象区域由一个简单的,无监督的启发式提供。2. 我们发现这一目标可以减轻自监督迁移学习的计算负担,将与ImageNet的监督迁移学习相匹配所需的计算减少多达10。较长的训练时间表导致最先进的转移到COCO检测和实例分割,我们的最佳模型与最近的最先进的自我监督系统SEER [20],它在1000个更少的策划图像上进行训练。3. 当从复杂的场景数据集(如COCO)传输时,我们的方法通过从人类注释的分割中学习的监督模型来缩小差距。4. 最后,我们评估了现有的对比学习范式在高质量图像分割的存在下可以简化到什么程度,提出了问题,并为未来的工作开辟了道路。2. 相关工作将包含在一个任务和数据集中的知识转移到解决其他下游任务(即迁移学习)已经证明在一系列计算机视觉问题中非常成功[19,39]。虽然早期的工作集中在改进预训练架构[27,52]和数据[53],但最近的自我监督学习工作集中在预训练目标和任务的选择上。早期的自我监督预训练通常涉及图像恢复,包括去噪[60],修复[46],着色[66,36],自我运动预测[1]等[15,43,67]。更高层次的借口任务也被研究,如预测上下文[13],方向[18],空间布局[44],时间排序[42]和集群分配[5]。对比目标,最大化跨视图的表示的相似性,同时最小化其与分散负样本的相似性,最近获得了相当大的牵引力[23]。这些视图已被定义为本地和全球作物[29,4,57,28]或不同的输入渠道[54]。实例判别方法通过数据增强生成图像的全局随机视图,并使其相对于边缘采样的底片的相似性最大化[9,14,16,24,63],尽管最近对底片样本的需求提出了质疑[12 , 21] 。 虽 然 实 例 判 别 方 法 的 好 处 主 要 限 于 从ImageNet等简单数据集进行预训练,但基于聚类的预训练已被证明在利用大量未经策划的图像进行迁移学习方面非常成功[3,6,7,20,31]。虽然大多数工作都集中在学习整个图像表示,学习局部描述符的兴趣越来越大,这些描述符与下游任务(如检测和分割)更相关。此类工作的示例包括增加辅助损耗[51,55]、建筑部件[48]或两者[64]。虽然感知分组长期以来一直用于表示学习,通常依赖于视频中的相干运动[37,45,61],但它最近才与对比学习相结合[30,59,68]。与我们的工作最相关的是[59,68],它们也利用图像分割进行自监督学习,尽管两者与我们的不同之处在于它们学习专门用于语义分割的主干并采用不同的损失函数。虽然这些工作达到了令人印象深刻的无监督分割精度,但对于迁移学习任务(如COCO检测和实例分割),这两个报告都没有提高预训练效率,我们接下来将研究。3. 方法我们引入了一个新的对比目标,它最大限度地提高了代表同一对象的局部特征视图之间的相似性(图2)。为了隔离这些变化带来的好处,我们特意选择在可能的情况下重用现有对比学习框架的为了测试我们的方法的一般性,我们分别基于两个最近的自监督基线SimCLR [9] 和 BYOL [21] 导 出 两 个 变 体 DetConS 和DetConB我们采用这些方法的数据增强过程和网络架构,同时将我们提出的对比检测损失应用于每个方法。3.1. 对比检测框架数据扩充。每个图像被随机增强两次,从而产生两个图像:x,x0。DetConnS和DetConB采用SimCLR和BYOL,其大致由随机裁剪、翻转、模糊和逐点颜色变换组成我们请读者参阅附录A.1了解更多细节。在所有情况下,图像的大小调整为224 224像素分辨率。1008822⇥联系我们--联系我们X--⇥PDetCon目标掩蔽合并卷积特征编码器方程zm=g(hm)Rd。对于DetCon S,我们用相同的编码器f✓和投影网络g✓ 处理 两 个 视 图,其中✓是学习的参数。 F或DetConB,一个视图用f✓和g✓处理,另一个用f和g 处 理,其中是✓的指数移动平均值。第一视图进一步用预测网络q✓变换。在这里,我们再次在投影和预测网络的定义中分别重用DetConS和DetConB的SimCLR和BYOL的细节(见附录A.2)。总之,我们将每个vi_ w和mask表示为潜在项v_m和v_m_0,其中增强视图vm=g✓(hm),vm0对于DetConS和0=g✓(h0m0)vm=q✓◦g✓(hm),vm00=g(h0m0)训练图像和启发式掩码图2. 对比检测法。 我们用近似的图像可计算分割算法识别基于对象的区域(底部)。这些掩模通过两个随机数据增强和卷积特征提取器进行,在每个视图中创建特征向量组(中间)。然后,对比检测目标将池化特征对于DetConB。我们用温度超参数重新缩放所有潜伏期,使得它们的范数等于1/p,其中= 0。1.一、注意,对于下游任务,我们只保留特征e提取器f✓并丢弃网的所有其他部分工作(预测和投影头,以及任何指数移动平均线)。目的:造影剂检测。 设vm,vm 是表示在视图x,x。中的掩码m,m。对比损失函数矢量来自相同的掩模(跨视图),并将来自不同掩模和不同图像的特征分开(顶部)。`m,m0=-logexp(vexp(vm·vm00)·vm00) +nexp(vm·vn)(一)此外,我们为每个图像计算一组掩模,将图像分割成不同的组件。如第3.2节所述,这些掩模可以使用有效的、现成的、无监督的分割算法来计算。如果可用,也可以使用人类注释的分割。在任何情况下,我们使用与底层RGB图像相同的裁剪和调整大小来变换每个蒙版(表示为二进制图像),结果为- 与增强图像x、x 0对准的两组掩模m、m0(参见图2,增强图像)。架构 我们使用卷积特征提取器f来用隐藏向量的空间映射对每个图像进行编码:h=f(x)其中hRH WD 。在最终均值池化层之前,我们使用 标准ResNet-50编码器[27]的输出,使得hiddens形成2048维向量h[i,j]的7 × 7网格。对于与图像相关联的每个掩码m,我们计算掩码池隐藏向量定义预测任务:在观察了投影vm 之 后,学习在存在n个有效样本vn的情况下识别潜在的vm。我们包括来自不同的阴性样本-图像中的不同掩模和批次中的不同图像请注意,我们对这些掩码不做任何假设,允许负掩码与正掩码重叠这种损失的自然扩展将是联合采样对应于原始图像中相同区域的成对掩码m、m。,并且最大化表示它们的L=E(m,m0)M`m,m0.(二)我们对这个目标做了一些实际的修改。首先,为了便于批量计算,我们在每次迭代时从可变大小的掩码集合m和m0中随机采样一组16个(可能是冗余的)掩码。第二,我们密集地评估所有对之间的相似性。掩模和所有图像,使得每个图像贡献16hm=P1i,jmi,jMi、ji、jh[i,j],负样本到等式(1)中的集合vn,而不是单个样本。我们的目标是通过选择大致匹配不同在空间上将二进制掩模下采样到具有平均池化的7 × 7网格。然后,我们用两层MLP变换这些向量中的每一个,产生非线性投影。场景中的对象(第3.2节)。最后,我们屏蔽掉损失,仅最大化成对位置的相似性,允许我们处理其中一个位置中存在掩码的情况M10089⇥⇥--2XX原始图像空间启发式图像可计算:FH图像可计算:MCG人类注释图3. DetCon模型使用的遮罩示例。第1列:来自COCO训练集的随机图像。第2列:仅基于空间接近度的掩模。全局掩码(顶部)由SimCLR、MoCo和BYOL等方法隐式使用。第3列:从Felzenszwalb-Huttenlocher(FH,[17])获得的图像可计算掩模 算法,s=500。第4列:使用多尺度组合分组(MCG)推断的图像可计算掩模[2]。第5列:而不是另一个视图(参见图2)。总之,这些简单的修改将我们带到DetCon目标:L=1m,m0`m,m0(3)mm0其中二进制变量1m,m0指示掩模m,m0是否对应于相同的底层区域。优化. 在ImageNet上进行预训练时,我们分别采用SimCLR 和 BYOL 的 优 化 细 节 来 训 练 DetConS 和DetConB。在COCO上进行预训练时,我们对学习时间表进行了微小的更改,以减轻过拟合(参见附录A.3)。计算成本。自监督学习的计算需求主要是由于通过卷积主干的向前和向后传递。对于应用于224 224分辨率图像的典型ResNet-50架构,单个前向传递需要大约4B FLOPS。Sim- CLR和DetConS中的额外投影头需要额外的4 M FLOPS。由于我们通过投影头转发16个隐藏向量而不是1个,因此我们将for-ward通过的计算成本增加了67 M FLOPS,不到总数的2%。连同对比损失的增加的复杂性,DetConS的增加为5.3%,DetConB的增加为11.6%(见附录A.2)。最后,计算图像分割的成本可以忽略不计,因为它们可以计算一次并在整个训练过程中重复使用。因此,我们的方法相对于基线的复杂度的增加足够小,以使我们能够互换地称为3.2. 无监督掩码生成要产生所需的DetCon目标的掩模,我们研究了几个分割程序,从简单的空间- tial启发式算法,以图形为基础的算法从文献。空间启发法。最简单的分割我们consider组的位置的基础上,他们的空间接近。具体地,我们将图像划分成非重叠的正方形子区域的n n网格(图3,第2列)。请注意,当使用单个全局掩码(n=1)时,DetConS目标恢复为SimCLR。图像可计算掩模:FH。我们还考虑了Felzenszwalb-Huttenlocher算法[17],这是一种经典的分割程序,使用基于像素的亲和力迭代合并区域(图3,第3列)。我们使用s500、1000、1500,通过改变两个超参数(规模s和最小簇大小c)生成一组不同的掩码在COCO上训练时c=s,在ImageNet上训练时s=1000图像可计算掩模:MCG。多尺度组合分组[2]是一种更复杂的算法,其将超像素分组为许多重叠的对象提议区域[8],由中级分类器引导(图3,第4列)。对于每个图像,我们使用16个得分最高的MCG掩模。注意,这些掩模可以重叠的事实由我们的公式支持。人类注释面具。在整个这项工作中,我们考虑了使用上述无监督掩码所带来的好处。在最后一节中,我们问是否更高质量的掩码(由人类注释者提供;图3,第5列)可以改善我们的结果。10090⇥图4. 使用DetCon S进行高效的ImageNet预训练。我们使用SimCLR、DetCon S或ImageNet上的监督学习对网络进行了不同数量的epoch预训练,并对它们进行了微调,用于COCO检测和实例分割(12 epoch),PASCAL或Cityscapes上的语义分割,或NYU v2上的深度估计。 DetConS的性能优于SimCLR,预训练最多可减少10。预训练时期30010003001000300100030010001001000BYOL41.241.637.137.274.775.773.474.683.784.2DetConB42.042.737.838.275.677.375.177.085.186.3效率增益> 3> 33> 3> 3>10.表1。使用DetCon B进行高效的ImageNet预训练。 我们使用BYOL或DetConB在ImageNet上预训练网络,并对它们进行微调,以进行COCO检测和实例分割(12个epochs),PASCAL或Cityscapes上的语义分割,或深度估计。纽约大学第二版。DetConB的性能优于BYOL,预训练最多可减少10(颜色突出显示预训练效率的提高3.3. 评价方案在以无监督的方式训练了特征提取器之后,我们通过对 COCO 上 的 对 象 检 测 和 实 例 分 割 、 PASCAL 和Cityscapes上的分段分割以及NYU v2上的深度估计进行微调来评估表示的质量。对象检测和实例分割。我们使用预训练的网络来初始化配备有特征金字塔网络的Mask-RCNN [26[38]和交叉副本批处理规范[47]。我们采用Cloud TPU实现 1,并在不进行修改的情况下使用它。我们在COCOtrain2017 集 合 上 微 调 整 个 模 型 , 并 在val2017集合上报告边界框AP(APbb)和掩码AP(APmk)。我们使用两种标准培训计划:12个时期和24个时期[24]。语义分割在[24]之后,我们使用我们的网络来初始化全卷积网络的主干[39]。对于PASCAL,我们在火车aug2012集上微调45个历元,并在val2012集上报告平均交集(mIoU)。对于Cityscapes,我们对160个epoch的train fineset进行微调,并对val fineset进行评估深度估计。[21]我们在这里,用一个简单的例子来说明。1https://github.com/tensorflow/tpu/tree/master/型号/官方/检测在我们的特征提取器上从[35]中提取一个标准网络,并在NYU v2数据集上进行微调。我们报告的准确性低于1.25(pct 1.25)的错误的百分比。4. 实验我们的主要自监督学习实验使用FH掩码,因为正如我们将展示的那样,DetCon的性能优于简单的空间启发式算法,并接近MCG掩码的性能,同时快速且易于应用于大型数据集,如ImageNet,因为它们在scikit-image中可用[58]。4.1. 从ImageNet我们首先研究DetCon目标是否提高了ImageNet迁移学习的预训练效率。预 训 练 效 率 。 我 们 在 ImageNet 上 训 练 SimCLR 和DetConS模型100、200、500和1000个epoch,并将它们转移到多个数据集和任务中。在所有下游任务和预训练方案中,DetConS的表现明显优于SimCLR(图1和图4,蓝色和橙色曲线)。在COCO上进行微调时,SimCLR 预 训 练 的 1,000 个 epoch 所 提 供 的 性 能 仅 被DetCon S预训练的200个epoch所超过(即预训练效率提高5倍)。 当转移到其他下游任务时,我们发现了类似的结果:DetCon S使PAS的预训练效率提高了2倍。检测实例分割语义分割深度估计CocoCocoPASCAL城市景观纽约大学v210091⇥⇥⇥⇥⇥⇥微调1微调2方法APbb APmk APbb APmk表2. 与现有技术的比较:所有方法都在ImageNet上进行了预训练,然后在COCO上进行了12个epochs(1 schedule)或24个epochs(2schedule)的微调。CAL语义分割(图4,第2列),以及Cityscapes语义分割和NYU深度预测的10个增益。(图4,第3和第4列)。我们还评估了在ImageNet上训练的监督ResNet-50的传输性能(图1和4,红色曲线)。虽然有监督的预训练在小的计算预算下表现良好(例如,100个预训练时期),它很快就会饱和,这表明ImageNet标签只部分通知下游任务。Cityscapes语义分割和NYU深度预测强调了这一点,这代表了领域和任务的更大转变。从BYOL到DetConB。DetCon有多通用?我们通过将DetConB与BYOL框架进行比较来测试这一点我们采用基本框架细节(例如:数据增强、架构和操作图5.将DetCon缩放到更大的模型。 我们使用监督学习、SimCLR、BYOL或DetCon B在ImageNet 上预训练ResNet-50、ResNet-101、ResNet-152和ResNet-200特征提取器,并在COCO上对它们进行12个epoch的微调。消失在更大的模型中我们在ImageNet上训练SimCLR、BYOL和DetConB图5和表A.1显示,DetCon在该较高容量方案中继续优于其他方法。我们更进一步,训练了一个具有2宽度乘法器的ResNet-200 [33],包含250 M参数。令人惊讶的是,尽管仅在Ima-geNet上进行训练,但该模型虽然比较是不完美的(大规模数据必然更嘈杂),但它突出了单独从自我监督学习目标改进的潜力预训练数据参数APbb APmk没有修改,可能会将Det-目标处于不利地位。尽管如此,DetConB在预处理预算和下游任务中的表现优于BYOL特别地,DetConB在转移到COCO、PASCAL和Cityscapes检测和分割时在预训练效率方面产生3的增益,并且在转移到NYU深度预测时产生10的增益(表1)。与现有技术的比较。我们现在将自监督迁移学习中的其他作品进行比较,并使用完全训练的DetCon S和DetCon B模型进行比较。在这里,我们专注于转移到COCO,因为它被更广泛地研究。请注意,其他方法使用Mask-RCNN [62]的略有不同的实现,但是他们的监督ImageNet预训练和SimCLR的结果与我们自己的[55,64]相匹配,从而实现了公平的比较。表2显示DetCon优于所有其他监督和自监督迁移学习方法。扩展模型容量。自监督学习中的先前工作已被证明可以很好地扩展模型容量[14,33,9]。DetCon带来的收益监督[20] IN-1 M 250 M 45.9 41.0SEER [20]IG-1B小行星69348.543.2DetConBIN-1M250米48.943.0表3.与大规模迁移学习的比较所有方法都预训练骨干并使用Mask-RCNN转移到COCO检测和实例分割。SEER在10亿张Instagram图像上训练,而DetConS在ImageNet上训练(130万张图像)。SEER和监督基线使用最近的RegNet架构[49],而DetConS使用通用ResNet-200(2宽度)。尽管如此,DetCon预训练与大规模SEER预训练的性能相匹配。4.2. COCO的迁移学习接下来,我们研究DetCon目标处理具有多个对象的复杂场景的能力。为此,我们在COCO数据集上进行预训练,并与SimCLR进行比较。培训效率。我们为一系列时间表(324-5184个时期)训练SimCLR和DetConS我们发现监督39.635.641.637.6VADeR [48]39.235.6--MOCO [24]39.435.641.737.5SimCLR [9]39.735.841.637.4[11]第十一话40.136.341.737.6[55]第五十五话40.636.742.538.4PixPro [64]41.4---BYOL [21]41.637.242.438.0SwAV [7]41.637.8--DetConS41.837.442.938.1DetConB42.738.243.438.710092⇥⇥⇥DetConS在培训预算方面优于SimCLR(图6)。与之前一样,SimCLR达到最大精度的预训练时间减少了4。超越COCO的监督传输。我们还评估了在COCO上以监督方式训练的表示的传输性能。具体来说,我们使用长时间表(108个epochs,“9”时间表)训练Mask-RCNN与SimCLR不同,DetCon预训练超过了这个完全监督的基线的性能(图6)。图 6. 从 COCO 高 效 转移 。 我 们 使 用 SimCLR或DetConS在COCO上对不同数量的时期进行预训练表示,并通过微调45 个 时 期 将 其 转 移 到PASCAL语义分割。4.3. 消融和分析我们现在剖析DetCon目标的组件并评估每个组件的好处。为此,我们在COCO上进行预训练,因为它包含具有许多对象和相关地面真实掩模的复杂场景,使我们能够准确地测量分割它们的我们使用冻结特征分析来评估学习的表示,其中特征提取器保持固定,而我们也在COCO上训练Mask-RCNN的其他该受控设置类似于用于评估图像识别的自监督表示的质量的线性分类协议[13,15,45,66]什么是好的面具?DetCon目标可以与各种不同的图像分割一起使用,哪些图像分割可以获得最佳表示?我们首先考虑空间启发法,它将图像划分为2 2、5 5或图7.DetCon物镜中使用的掩模类型的影响。我们使用无监督掩码(蓝色)或地面真实COCO掩码(灰色)在COCO上训练DetCon模型。使用单个全局掩码(即“11”网格)等效于SimCLR(橙色)。我们通过测量每个地面真实掩码和最接近的预训练掩码之间的IoU,并对所有地面真实实例和图像(x轴)进行平均来我们使用冻结特征范例(y轴)评估每个模型对COCO检测的准确性对于预训练掩码和地面实况之间的重叠,DetCon执行得非常好-每个地面实况对象被一些掩码覆盖得越好,DetCon执行得越好。对比检测与对比识别。DetCon物镜如何受益于这些图像分割?我们评估其每个组件的影响如前所述,我们在DetCon目标中使用单个全局掩码时恢复SimCLR。作为完整性检查,我们验证了多次复制该掩模并在Det-Con目标中包括所得(相同)特征不会对表示的质量产生影响(表4,a行)。有趣的是,使用FH掩模但每个图像仅采样单个掩模略微降低了性能,大概是因为模型在每次迭代时仅从图像的一部分学习(表4,b行)。通过对对象区域进行密集采样,DetConS从整个图像中学习,同时还受益于不同的正样本和负样本集,从而提高了检测和分割精度(表4,最后一行)。模型掩码#latents APbb APmk10 10网格,11网格相当于使用Sim-CLR目标。我们发现下游性能随着更精细的网格而增加,5 5网格是最佳的(图7)。接下来,我们考虑图像可计算的FH和MCG掩模,这两者都优于空间启发式掩模,MCG掩模导致稍好的表示。有趣的是,代表性的质量-2但请注意,由于输出空间相对于分类的额外复杂性,Mask-RCNN包含几个SimCLR global 1 31.6 29.2(a)全球16 31.5 29.3(b)FH 1 31.2 28.8DetConSFH 1633.4 30.6表4. 消融:从SimCLR到DetConS。 我们在COCO上进行预训练,并在COCO上评估冻结特征的准确性。masks:指定隐 藏 向 量 是 全 局 合 并 , 还 是 在 单 个 FH 掩 码 内 合 并 。#latents:掩码的数量10093⇥⇥图8.最好分开-口罩模型全部阴性两个视图FHGT心理受益于更高的分辨率。我们在COCO上使用不 同 分 辨 率 下 的SimCLR和DetConS(带FH或GT掩模)。我们报告冻结功能的性能与固定的分辨率为1024 1024。4.4. 如果分割问题解决了呢?的DetCon目标函数导致快速转移学习,ING和强大的性能,尽管使用相当approxi-队友的分割掩模。在第4.3节中,我们发现了更高质量的分割(例如使用MCG计算的分割,或从人类注释者获得的分割),以提高表示质量。我们如何在给定更准确的分割的情况下改进学习目标?我们评估了这个问题,通过重新审视我们的设计选择的对比目标,当给定的地面真理面具从COCO数据集,而不是近似的FH面具。缩放图像分辨率。我们假设,更高的图像分辨率可能使网络能够从这些信息量更大的分割中获益更多。为了保存细粒度的信息,我们从每个掩模中采样局部特征,并使用Det- Con目标对其进行优化。我们预训练配备FH或地面实况(GT)掩码的SimCLR和DetConS模型,给定384 384或512 512分辨率图像。虽然具有FH掩模的DetCon仅适度受益,并且SimCLR的注意,这仅仅是由于改进的表示质量;用于下游评估的图像分辨率是主要的。对于所有型号,保持在1024 1024重新审视对比框架。最后,我们问,目前的对比学习范式,它利用大量的否定和预测的随机增强,仍然是最佳的背景下,DetCon目标与高质量的分割。是否需要大量阴性样本?不是高质量的面具。当阴性样本的总数除以128(通过仅从工作者内收集阴性)时,具有FH掩模的DetCon的性能下降(表5,a行),与其他对比学习框架一致[9,24]。相比之下,使用GT掩模的DetConS尽管有此限制但仍有所改善。是否需要在增强视图中对正对进行采样?不是高质量的面具。我们运行DetCon表5. 简化对比框架。我们使用近似FH掩码或更高质量的地面实况(GT)掩码在COCO上训练DetCon S模型,并在冻结特征设置中对其进行评估。“all neg”: “两观”:对比预测是跨增强进行的,而不是在视图内进行的。模型,同时为每个图像采样单个增强,并最大化该视图内基于掩模的特征的相似性。在这里,DetCon物镜在使用近似FH掩模时再次遭受这种障碍,但在高质量分割的情况下则不会(表5,b行)。怎么会这样呢?一种解释是,其他图像给了我们干净的负面例子,因为COCO中的图像描绘了不同的场景。然而,看起来来自相同图像的底片提供更强的学习信号(因为它们共享诸如照明、背景等的特征),只要它们是干净的,即,我们并没有将来自同一物体的特征推开。来自相同图像的阳性也至少与跨增强的那些一样好,如果它们再次是干净的,即,我们不是将来自不同对象的特征聚集在一起。5. 讨论我们提出了DetCon,一个简单但功能强大的自监督学习算法。通过利用低级线索将图像组织成对象和背景区域等实体我们的最佳模型在ImageNet上预训练的自监督方法中实现了最先进的性能,并与最近在更大的数据集上训练更大模型的最先进方法相匹配[20]。我们发现,DetCon的功能与所使用的遮罩与对象边界对齐的程度密切这似乎是直观的-DetCon目标只能杠杆年龄独立的学习信号从每个图像区域,如果他们包含不同的内容。类似地,所得到的负样本只有在它们代表不同对象时才是真正多样的这开启了令人兴奋的研究前景,共同发现对象和学习代表他们。鉴于DetCon表示在实例分割方面的性能有所改善,一个自然的问题是它们是否可以用于执行比预训练期间使用的更好的无监督分割。如果是这样的话,这些可能会被用来学习更好的表示,从而导致无监督场景理解的良性发展。DetConXX33.637.0(一)X32.238.5(b)第(1)款27.738.810094引用[1] Pulkit Agrawal、Joao Carreira和Jitendra Malik。学习通过移动来观察。在ICCV,2015年。二个[2] 巴勃罗·阿贝·拉伊兹、乔迪·蓬-图塞特、乔纳森·T·巴伦、费兰·马克斯和吉滕德拉·马利克.多尺度组合分组在Proceedings of the IEEE conference on computer visionand pattern recognition,第328-335页,2014年。二、四[3] Yuki M Asano , Christian Rupprecht , and AndreaVedaldi.通过同步聚类和表征学习的自我标记在2020年国际学习代表会议(ICLR)上。二个[4] Philip Bachman , R Devon Hjelm , and WilliamBuchwalter.通过最大化跨视图的互信息来学习表示神经信息处理系统进展,32:15535-15545,2019。二个[5] Mathilde Caron,Piotr Bojanowski,Armand Joulin,andMatthijs Douze.用于视觉特征的无监督学习的深度聚类。在欧洲计算机视觉会议,2018年9月。二个[6] 马蒂尔德·卡隆、彼得·博亚诺夫斯基、朱利安·麦拉尔和阿尔芒·儒林。在非策划数据上对图像特征进行无监督预训练。在IEEE/CVF国际计算机视觉会议,第2959二个[7] Mathilde Caron , Ishan Misra , Julien Mairal , PriyaGoyal,Piotr Bojanowski,and Armand Joulin.无监督学习 视 觉 特 征 对 比 聚 类 分 配 。 Advances in NeuralInformation Processing Systems,33:9912一、二、六[8] Joao Carreira和Cristian Sminchisescu Cpmc:使用约束参数最小切割的自动对象分割。IEEE Transactions onPattern Analysis and Machine Intelligence,34(7 ):1312-1328,2011. 四个[9] 陈婷,西蒙·科恩布里斯,穆罕默德·诺鲁齐,和葛offrey Hinton.视觉表征对比学习的一个简单框架国际机器学习会议,第1597-1607页。PMLR,2020年。一、二、六、八、十二、十三[10] Ting Chen , Simon Kornblith , Kevin Swersky ,Mohammad Norouzi,and Geoffrey E Hinton.大的自监督模型是强半监督学习器。神经信息处理系统进展,33:22243-22255,2020。一个[11] Xinlei Chen,Haoqi Fan,Ross Girshick,and KaimingHe.通过动量对比学习改进基线。arXiv预印本arXiv:2003.04297,2020。六个[12] Xinlei Chen,Kaiming He.探索简单的连体表示学习。在IEEE/CVF计 算 机 视 觉 和 模 式 识 别 会 议 论 文 集 , 第15750-15758页二个[13] Carl Doersch、Abhinav Gupta和Alexei A Efros。通过上下文预测的无监督视觉表示学习在IEEE InternationalConference on Computer Vision的Proceedings,第1422-1430页,2015年。二、七[14] Carl Doersch和Andrew Zisserman。多任务自监督视觉学习。在IEEE Inter-国家计算机视觉会议,第2051-2060页,2017年。二、六[15] Je f fDonahue,PhilippK raühenbuühl,和Tr ev或Darrell。对抗 性 特 征 学 习 。 2017 年 国 际 学 习 表 征 会 议(International Conference on Learning Representations,ICLR)二、七[16] Alexey Dosovitskiy , Jost Tobias Springenberg , MartinRied-miller,and Thomas Brox.用卷积神经网络进行判别式无监督特征学习。在NIPS,2014。二个[17] Pedro F Felzenszwalb和Daniel P Huttenlocher。高效的基于图的图像分割。国际计算机视觉杂志,59(2):167-181,2004。二、四[18] Spyros Gidaris,Praveer Singh和Nikos Komodakis。通过预测图像旋转的无监督表示学习。国际学习代表大会,2018。二个[19] Ross Girshick,Jeff Donahue,Trevor Darrell和JitendraMalik。丰富的特征层次结构,用于精确的对象检测和语 义 分 割 。 在 Proceedings of the IEEE conference oncomputer vision and pattern recognition,pages 580二个[20] PriyaGoyal,Mathilde Caron,Benjamin Lefaudeux,MinXu , Pengchao Wang , Vivek Pai , Mannat Singh ,Vitaliy Liptchinsky,Ishan Misra,Armand Joulin,et al.野外视觉特征的自我监督预训练。arXiv预印本arXiv:2103.01988,2021。二、六、八[21] Je a n-BastienGrill , FlorianStrub , FlorentAltch e´ ,CorentinTallec,Pierre Richemond,Elena Buchatskaya,Carl Doersch , Bernardo Avila Pires , Zhaohan Guo ,Mohammad Ghesh- laghi Azar,et al.引导你自己的潜意识自我监督学习的新方法。神经信息处理系统的进展,33,2020。一、二、五、六、十二、十三[22] JoseAGuerrero-Colo'n、EeroPSimoncelli和JavierPortilla。使
下载后可阅读完整内容,剩余1页未读,立即下载




















安全验证
文档复制为VIP权益,开通VIP直接复制
