没有合适的资源?快使用搜索试试~ 我知道了~
像素级一致性下的无监督视觉表征学习方法
116684增强你自己:探索无监督视觉表征学习的像素级一致性谢振达*13,林雨桐23,张征3,曹跃3,林志颖3,韩虎31清华大学2西安3微软亚洲研究院xzd18@mails.tsinghua.edu.cnyutonglin@stu.xjtu.edu.cn{zhez,yuecao,stevelin,hanhu}@ microsoft.com摘要无监督视觉表征学习的对比学习方法已经达到了显着的迁移性能水平。我们认为,对比学习的力量还没有完全释放出来,因为目前的方法只在实例级的借口任务上训练,导致表示对于需要密集像素预测的下游任务来说可能是次优的。在本文中,我们介绍了像素级的借口任务学习密集的特征表示。第一个任务直接在像素级应用对比学习。此外,我们提出了一个像素传播的一致性任务,产生更好的结果,甚至超过了国家的最先进的方法,由一个很大的利润。具体来说,当使用ResNet-50骨干网络转移到Pascal VOC对象检测(C4),COCO对象检测(FPN / C4)和Cityscapes语义分割时,它实现了此外,发现像素级借口任务不仅对于常规骨干网络而且对于用于密集下游任务的头部网络都是有效的预训练,并且是实例级对比方法的补充。这些结果证明了在像素级定义借口任务的强大潜力,并为无监督视觉表征学习提供了一条新的前进道路。代码可在https://github.com/zdaxie/PixPro.1. 介绍正如Yann LeCun所说:“如果智能是一块蛋糕,那么这块蛋糕的大部分就是无监督学习。这句话反映了他相信人类对世界的理解*同等贡献。这项工作是在谢振达和林雨桐在微软亚洲研究院实习时完成的。视图#1一致性视图#2图1.所提出的PixPro方法的说明,该方法基于用于像素级视觉表示学习的像素到传播一致性借口任务在该方法中,从图像中随机裁剪两个视图 对于其中之一,特征来自常规像素表示(如橙色十字所示)。另一个特征来自于通过传播相似像素(如浅绿色区域所示)的特征而构建的平滑像素表示(如绿点所示)。注意,类似像素的这种硬选择仅用于说明在实现中,同一视图上的所有像素都将有助于传播,每个像素的传播权重由其与中心像素的特征相似性确定。机器智能的研究越来越多地朝着这个方向发展,在无监督和自监督学习方面取得了实质性进展[34,18,25,8,30]。在计算机视觉中,最近的进步在很大程度上可以归因于使用一种称为实例判别的借口任务,该任务将训练集中的每个图像视为单个类,并旨在学习在所有类之间进行判别的特征表示。虽然自我监督学习已经被证明是非常成功的,但我们认为,116685未开发的潜力在当前方法中指导表征学习的自我监督是基于图像级比较的。因此,预先训练的表示可以很好地适合于图像级推断,诸如图像分类,但是可能缺乏需要像素级预测的下游任务所需的空间灵敏度,例如,目标检测和语义分割。如何在像素级执行自监督表示学习是一个迄今为止尚未探索的问题。在本文中,我们通过引入像素级借口任务来解决这个问题,用于自监督视觉表示学习。受最近的实例判别方法的启发,我们的第一次尝试是构建一个像素级的对比学习任务,其中图像中的每个像素被视为一个单独的类,目标是将图像中的每个像素与其他像素区分开来。从同一个像素的特征提取通过两个随机的图像作物包含的像素,这些特征被用来形成积极的训练对。另一方面,从不同像素获得的特征被视为负对。通过以这种自我监督的方式收集的训练数据,应用对比 损 失 来 学 习 表 示 。 我 们 将 这 种 方 法 称 为PixContrast。除了这种对比方法,我们提出了一种基于像素传播一致性的方法,其中通过两个非对称管道从同一像素提取特征来获得正对。第一条管道是一个标准的骨干网络与投影头。另一个有一个类似的形式,但建议的像素传播模块结束,它过滤像素的功能,通过传播类似的像素的功能,它引入了一定的平滑效果,而标准功能保持空间的这种方法与Pix- Contrast的对比方法的不同之处在于,它鼓励积极对之间的一致性,而不考虑消极对。虽然我们知道对比学习的表现会受到如何处理否定对的严重影响[18,8],但在这种基于一致性的 借 口 任 务 中 , 这 种 情 况 是 可 以 避 免 的 。 EM-pirically,我们发现,这种像素到传播的一致性方法,我们称之为PixPro,显着优于PixContrast方法在各种下游任务。除了学习良好的像素级表示,所提出的像素级借口任务被发现不仅对骨干网络而且对用于密集下游任务的头部网络进行预训练是有效的,与仅对骨干网络进行预训练和转移的实例级区分相反。这对于具有有限注释数据的下游任务特别有益,因为所有层都可以很好地初始化。此外,所提出的像素级方法是对现有实例级方法的补充,其中前者擅长学习spa,后者提供了更好的分类能力。这两种方法的组合利用了它们的优势,同时在预训练中保持计算效率,因为它们都可以共享数据加载器和骨干编码器。建议PixPro实现国家的最先进的传输性能的共同下游基准要求密集预测。具体而言,使用ResNet-50主干,使用Faster R-CNN检测器( C4版本)在 PascalVOC对象检测上获得60.2 AP,使用Mask R-CNN检测器在COCO对象检测上获得41.4/40.5(both FPN / C4版本,1×设置)和使用FCN方法的77.2mIoU Cityscapes语义分割这是2.6 AP,0.8 / 1.0 mAP和1.0 mIoU优于领先的无监督/监督方法。虽然过去对无监督表示学习的评估大多偏向于ImageNet上的线性分类,但我们主张将注意力转移到下游任务的性能上,这是无监督表示学习的主要目的,也是像素级方法的一个有前途的设置。2. 相关作品实例判别无监督视觉表征学习目前主要由实例判别的托词任务主导这一调查路线可以追溯到[14],经过多年的进展[34,29,21,38,1,35],MoCo [18]在广泛的下游任务中实现了优于监督方法的传输性能。在这个里程碑之后,相当多的注意力集中在这个方向上[8,30,3,17,5]。虽然后续工作使用ResNet-50骨干将ImageNet-1 K上的线性评估准确度(top-1)从约60% [18]快速提高到高于75% [5],但下游任务(如Pascal VOC和COCO上的对象检测)的改进微不足道。我们的工作不是使用实例级的借口任务,而是在像素级探索借口任务,用于无监督特征学习。我们专注于传输性能的下游任务,如对象检测和语义分割,这在以前的研究中得到了有限的考虑。我们表明,像素级表示学习可以超越现有的实例级方法的显着利润,展示了这一方向的潜力。使用单个图像的其他借口任务除了实例识别之外,还存在许多其他借口任务,包括上下文预测[13],灰度图像着色[36],拼图游戏解决[26],裂脑自动编码[37],旋转预测[16],学习116686pJpnpnJJeik聚类[4]和缺失部分预测[21,32,7]。对这些无监督特征学习任务的兴趣已经大大下降,因为它们的性能较差,架构或训练策略更复杂。在这些方法中,与我们最相关的方法是缺失部分预测[21,32,7],它受到自然语言处理中成功的借口任务的启发-计算来自两个特征图的所有像素对之间的差值。将距离归一化为特征图仓的对角线长度以考虑增强视图之间的比例差异,并且使用归一化距离来生成正对和负对,基于阈值T:.ing [12,2]。像我们的像素传播一致性技术一样,这些方法也在本地运行。但他们A(i,j)=1,如果dist(i,j)≤ T,0,如果dist(i,j)>T,(一)要么将图像分割成补丁[32,21],要么需要特殊的架构/训练策略才能良好地执行[21,7],而我们的方法直接对像素进行操作,对编码网络没有特殊要求。用我们的方法训练也很简单,没有什么铃声和口哨。更重要的是,我们的方法在重要的密集预测其中i和j是来自两个视图中的每一个的像素; dist(i,j)表示原始图像空间中像素i和j之间的归一化距离;并且阈值被设置为T= 0。七是违约。与实例级对比学习方法类似我们采用对比损失来进行表征学习:目标检测和语义分割任务。Σj∈i ecos(xi,x′)/τ3. 方法3.1. 像素级对比学习LPix(i)=−logej∈icos(xi,x′)/τ+n(x,x′)/τ,(2)k∈i现有的无监督表示学习方法都是以实例识别为前提的。在本节中,我们将展示实例识别的思想也可以应用于像素级别,用于学习视觉表示,这些视觉表示可以很好地推广到下游任务。我们采用流行的对比度损失来实例化像素级的判别任务,并将此方法称为PixContrast。与大多数实例级对比学习方法一样,PixContrast首先从同一图像中采样两个增强视图。这两个视图都被重新调整大小为固定分辨率(例如,224×224),并通过一个常规的编码器网络和一个动量引擎,编码器网络[18,9,17]来计算图像特征。编码器网络由主干网络和投影头网络组成,其中前者可以是任何图像神经网络(我们默认采用ResNet),后者由两个连续的1×1卷积层(分别为2048和256个输出通道)组成,中间有一个批归一化层和一个ReLU层,以产生一定空间分辨率的图像特征图,例如,七乘七。虽然先前的方法为每个增强视图计算单个图像特征向量,但PixCon trast计算可以应用像素级借口任务的特征图 学习的主干表示然后用于特征转移。该体系结构的图示如图2所示。像素对比度通过从两个视图计算的两个特征图,我们可以为表示学习构建像素对比度借口任务。首先将特征图中的每个像素扭曲到原始图像空间,然后将距离其中i是第一视图中的像素,其也位于第二视图中,第二视图中的像素集合;Xi和Xii是第二视图中的像素集合,相对于像素i分别被分配为正和负;Xi和X'是两个视图中的像素特征向量;并且τ是标量温度超参数,默认设置为0。3 .第三章。损失在位于两个视图的相交处的第一视图上的所有像素上平均类似地,还计算并平均第二视图上的像素j的对比度损失。最后的损失是小批量中所有图像对的平均值。正如后面的实验所示,这种将实例级对比学习直接扩展到像素级的方法在表征学习中表现良好。3.2. 像素与传播一致性学习表示的空间灵敏度和空间平滑度可能会影响需要密集预测的前者测量了区分空间上接近的像素的能力,这是在标签变化的边界区域进行准确预测所需的。后一个属性鼓励空间上接近的像素是相似的,这可以帮助预测属于同一标签的区域。在最后一小节中描述的PixContrast方法仅鼓励学习的表示是空间敏感的。在下文中,我们提出了一个新的像素级借口任务,它在表征学习中额外引入了空间平滑性这一新的借口任务涉及两个关键组成部分。第一个是像素传播模块,它通过将相似像素的特征传播到像素来过滤像素116687我视图#1主干+投影像素到传播模块(PPM)输入增强PixContrast Loss(公式视图#2势头主干+投影PixPro损失(公式图2. PixContrast和PixPro方法的架构。第二个组件是一个不对称的架构设计,其中一个分支产生一个定期的功能地图和其他分支采用像素传播模块。借口任务在不考虑负对的情况下寻求来自两个分支的特征之间的一致性一方面,由于规则分支,该设计在一定程度上保持了学习表示的空间敏感性另一方面,虽然已知对比学习的性能受到负对处理的严重影响[18,8],但非对称设计使表征学习仅依赖于正对之间的一致性,而无需面对仔细调整负对的问题[17]。我们将此文本前任务称为像素传播一致性(PPC),并在下文中描述这些主要组件。像素传播模块对于每个像素特征xi,像素传播模块通过传播来自同一图像内的所有像素xj的特征来计算其平滑变换yi,如下所示yi=<$j∈<$s(xi, xj)·g( xj),(3)CxHxWHWxCHWxHW相似度计算s(*,*)HWxC CxHW公司简介CxHxWtransformg(*)CxHxWCxHxW图3.像素传播模块(PPM)的图示文中给出了各计算模块的输入输出分辨率。鼓励来自不同编码器的特征是一致的:LPixPro=−cos(yi,x′)−cos(yj,x′),(5)J I其中s(·,·)是定义为s(xi, xj)=(max(cos( xi, xj),0))γ、(四)其中,i和j是根据等式中的分配规则来自两个增强视图的正像素对。(1);x′和yi是动量编码器其中γ是用于控制相似性函数的锐度的指数,并且由default设置为2;g(·)是可以由l个线性层实例化的变换函数具有批归一化和两个成功层之间的ReLU层。当l=0时,g(·)是恒等函数,并且等式(1)为:(3)将是一个非参数模块。根据经验,我们发现所有l={0,1,2}都表现良好,我们默认设置l= 1图3示出了所提出的像素传播模块。像素到传播一致性损失在非对称架构设计中,有两种不同的编码器:具有像素传播模块的常规编码器,该像素传播模块随后被应用以产生平滑特征,以及没有传播模块的动量编码器两个增强视图都通过两个编码器,和传播编码器。这种损失在每个图像的所有正对上平均,然后在小批量中的图像上进一步平均以驱动表示学习。与PixContrast的比较像素传播一致性(PPC)方法的整体架构如图2所示。与第3.1节中描述的PixContrast方法(见图2中的蓝色损失)相比,有两个不同之处:引入了像素传播模块(PPM),以及用一致性损失替换对比度损失。表2(c)和表3表明,这两种变化对特征转移性能至关重要。计算复杂度 建议的PixContrast和PixPro的方法采用相同的数据加载器和备份-116688骨架构的实例歧视为基础的表示学习方法。因此,预训练中的计算复杂度与对应的实例级方法(即BYOL[17])的计算复杂度相似:使用ResNet-50骨干架构的8.6G与8.2G FLOP,其中头和损耗贡献约0.4G FLOP开销。3.3. 将预培训与下游网络相以前的视觉特征预训练方法一般限于分类骨干。对于有监督的预训练,即通过ImageNet图像分类任务,标准做法是仅将预训练的最近的无监督预训练方法延续了这一做法。一个原因是预训练方法在实例级别上运行,使得它们与头部网络中下游任务所需的密集预测相比之下,像素级借口任务的细粒度空间推断更自然地与密集下游任务对齐。为了检验这一点,我们考虑了一种用于密集COCO检测的对象检测方法FCOS[31]FCOS [31]从P3(8×下采样)到P7(128×下采样)[22]应用特征金字塔网络(FPN),然后在ResNet骨干的输出特征图上应用两个单独的卷积头网络(所有金字塔级共享),以产生分类和回归。结果。我们从输入图像到头部的第三个3×3卷积层都采用相同的架构在FPN中,我们涉及从P3到P6的特征映射,由于分辨率太低而省略了P7具有共享权重的像素传播模块(PPM)和像素到传播第3.2节中描述的一致性(PPC)损失应用于每个金字塔级别。最后的损失首先在每个金字塔级上平均,然后在所有金字塔级上平均。如表5和表6所示,对FPN层和用于下游任务的头部网络进行预训练通常可以提高传输准确性。3.4. 结合实例对比所提出的像素级借口任务采用与最先进的实例级判别方法[18,17]中相同的数据加载器和编码器因此,我们的像素级方法可以方便地与实例级借口任务相结合,通过共享相同的数据加载器和骨干编码器,几乎没有预训练开销。具体来说,实例级prefect任务应用于res5阶段的输出,使用独立于像素级任务的投影头。在这里,我们用一个波普-最大的实例级方法,Simplified [8],具有与像素级借口任务对齐的动量编码器。在这种组合中,来自像素级和实例级借口任务的两个损失由乘法因子α(默认设置为1)平衡,如下所示:L= LPixPro+ αLinst.(六)一般来说,这两个任务是互补的:像素级的借口任务学习有利于空间推理的表征,而实例级的借口任务则有利于学习分类表征。表4显示,额外的实例级对比损失可以显着改善ImageNet-1 K线性评估,表明学习了更好的分类表示。可能是因为更好的分类能力,它在COCO上的FCOS [31]对象检测的下游任务上实现了显着提高的传输准确性(约1 mAP的改进)。4. 实验4.1. 培训前设置数据集我们采用广泛使用的ImageNet-1 K [11]数据集进行特征预训练,该数据集由128万张训练图像组成。架构以下最近无监督方法[18,17],我们采用ResNet-50 [20]模型作为我们的骨干网络。这两个分支使用不同的编码器,其中一个使用规则骨干网络和规则投影头,另一个使用具有规则骨干网络和投影头的参数的移动平均的动量网络。将提出的像素传播模块(PPM)应用于规则分支,并对基于P3-P6特征映射的FPN结构进行了实验测试。数据增强在预训练中,数据增强策略遵循[17],其中图像中的两个随机裁剪被独立采样,并通过随机水平翻转将大小调整为224×224,然后是颜色失真,高斯模糊和一个日光化操作。我们跳过没有重叠的裁剪对的损失计算,这些裁剪对只占所有裁剪对的一小部分。优化我们将训练长度从50到400 epoch不等,并在消融研究中使用100 epoch训练。在训练中采用具有余弦学习率调度器和1.0的基本学习率的LARS优化器,其中学习率与批量大小线性缩放为lr= lrbase× #bs/256。权重衰减设置为1 e-5。总批处理大小设置为1024,使用8个V100 GPU。为116689方法#. 时代Pascal VOC(R50-C4)AP AP50 AP75COCO(R50-FPN)mAP AP50 AP75COCO(R50-C4)mAP AP50 AP75城市景观(R50)Miou划痕监督-10033.853.560.281.333.158.832.839.751.059.535.343.326.438.244.058.227.841.265.374.6MOCO [18]20055.981.562.639.459.143.038.558.341.675.3Simplified [8]100056.381.962.539.859.543.638.458.341.675.8[9]第九话80057.682.764.440.460.144.339.559.042.676.2[30]第三十话20057.682.764.640.660.644.639.058.542.075.6[30]第三十话80057.582.564.040.460.444.338.858.241.775.6PixPro(我们的)10058.883.066.541.361.345.440.059.343.476.8PixPro(我们的)40060.283.867.741.461.645.440.559.844.077.2表1. 将所提出的像素级预训练方法PixPro与以前的监督/无监督预训练方法进行比较。对于Pascal VOC对象检测,所有方法都采用了更快的R-CNN(R50-C4)检测器。对于COCO对象检测,所有方法都采用1×设置的MaskR-CNN检测器(R50-FPN和R50-C4)对于Cityscapes语义分割,使用FCN方法PixPro预训练只涉及像素级的借口任务。对于Pascal VOC(R50-C4),COCO(R50-C4)和Cityscapes(R50),PixPro预训练采用R50的常规骨干网络,输出特征图为C5对于COCO(R50-FPN),采用P3-P6特征映射的FPN网络.请注意,InfoMin [30]仅报告其200 epoch模型的结果,因此我们使用更长的训练长度来重现它,其中观察到饱和。动量编码器,动量值从0.99开始,并按照[17]增加到1。在训练过程中启用同步批量归一化。4.2. 下游任务和设置我们评估了四个下游任务的特征传输性能:PascalVOC上的对象检测[15],COCO上的对象检测[23],Cityscapes上的语义分割[10]和COCO上的半监督对象检测[28]。在一些实验中,我们还报告了ImageNet-1 K[11]的线性评估性能以供参考。Pascal VOC对象检测我们严格遵循[18]中介绍的设置,即具有ResNet 50-C4主干的更快的R-CNN检测器[27],它使用conv 4特征映射来生成对象提案,并使用conv 5阶段进行提案分类和回归。在微调中,我们同步所有的批量归一化层并优化所有层。在测试中,我们在test2007 集 上 报 告 了 AP 、 AP50 和 AP75Detectron2[33]用作代码基础。COCO对象检测和实例分割我们分别采用ResNet 50-FPN和ResNet 50-C4 [19,22]主干的Mask R-CNN检测器。在opti-mization时,我们遵循1×设置,同步所有批次标准化层,并微调所有层[18]。我们采用Detectron 2 [33]作为这些实验的代码基础,iments.我们还考虑具有完全卷积架构的其他检测器,例如,FCOS [31].对于这些实验,我们遵循1×设置并使用mm检测代码库[6]。城市景观语义分割我们遵循MoCo的设置[18],其中使用基于FCN的结构[24]。FCN网络由一个ResNet-50后端组成,在扩张2和步幅1的conv5阶段具有3×3卷积层的骨,随后是256通道和扩张6的两个3×3卷积层。分类通过额外的1 ×1卷积层获得。半监督对象检测我们还在COCO上测试了用于对象检测的半监督学习。为此,从训练集中随机采样的一小部分(1%-10%)图像被分配标签并用于微调。将每种方法的五次随机试验的结果平均。ImageNet-1 K线性评估在这个任务中,我们修复了预训练的特征,只微调了一个额外的线性分类层,完全遵循MoCo的设置[18]。我们报告这些结果以供参考。4.3. 主要转移结果表1将所提出的方法与4个下游任务上的先前最先进的无监督预训练方法进行了我们的Pix-Pro在PascalVOC对象检测(R50-C4)、COCO对象检测(R50-FPN / R50-C4)和Cityscapes语义分割(R50)上实现了60.2 AP、41.4 / 40.5 mAP和77.2 mIoU。它比以前最好的非监督方法在Pascal VOC上的性能高2.6 AP,在COCO上的性能高0.8/1.0 mAP,在 Cityscapes上的性能高1.0 mIoU。116690方法PPM τPascal VOCCocoAP AP50 AP75 地图0.1 54.7 79.9 61.238.00.2 57.1 81.7 63.338.6PixContrast0.3 58.1 82.4 64.538.8C0.1 52.7 78.8 57.637.4C0.2 53.0 79.1 58.137.3C0.3 52.9 78.8 58.337.5Pixpro- 58.0 82.6 65.639.7C- 58.8 83.0 66.540.8表3.PixContrast和PixPro方法的比较所有实验均采用100epoch预训练。表2.超参数的烧蚀研究PixPro方法。带的表示默认值。4.4. 消融研究我们使用Pascal VOC(R50-C4)和COCO目标检测(R50-FPN)任务进行消融研究。 在一些实验中,包括FCOS检测器对COCO和半监督结果的结果。PixPro的超参数表2检查了PixPro对超参数的敏感性。对于每个超参数的消融,我们将所有其他超参数固定为以下默认值:C 5的特征图,距离阈值T= 0。7,锐度指数γ= 2,像素到传播模块中的转换层l= 1,训练长度为100个epoch。表2(a-b)使用C5和P3的特征图显示了消融距离阈值。对于两者,T= 0。7、表现良好。P3的结果更稳定,这要归功于它更大的分辨率.表2(c)消除了锐度指数γ,其中γ= 2示出了最佳结果。过于平滑或过于尖锐的相似性函数会损害传输性能。表2(d)以g(·)为单位消除了变换层的数量,其中l=1显示出比其他略好的性能注意,l= 0在像素传播模块(PPM)中没有可学习的参数,也执行相当好,而移除PPM模块会导致模型崩溃。PPM模块中的平滑操作引入了相对于其他正则分支的不对称性,从而避免了崩溃[17]。表2(e)消除了特征图的选择。 可以看出,使用P3和P4的更高分辨率特征图与使用C5的表现类似。使用所有P3-P6特征映射在COCO对象检测上显著提高了传递精度,但在Pascal VOC对象检测上不如其他方法。由于PascalVOC数据集使用ResNet-C4主干,而COCO数据集使用ResNet-FPN主干,因此该结果表明预训练和下游任务之间的一致架构可以提供更好的结果。表2(f)消除了培训时间的影响增加训练长度通常会导致更好的传输性能。我们的最大训练长度是400。与200 epoch训练相比,它在Pascal VOC上带来了0.7AP增益,而在COCO上几乎饱和。我们将在今后的工作中审查长期培训的结果PixPro和PixContrast的比较表3分析了PixContrast的传输 性 能 , 其 中 τ 不 同 , 且 有 / 没 有 像 素 传 播 模 块(PPM)。它还包括使用/不使用PPM的PixPro方法的结果。可以看出,虽然PixContrast方法实现了合理的传输性能,但是PixPro方法更好,具体地,在PascalVOC和COCO上分别比PixContrast包括像素传播模块(PPM)导致PixContrast方法的性能较差,这可能是过度平滑的原因。相比之下,对于PixPro,添加PPM在Pascal VOC上将传输性能提高了0.8 AP,在COCO上提高了1.1 mAP,并且避免了使用超参数τ注意,虽然直接删除PPM会导致模型崩溃,但我们添加了一个线性转换层来避免这种崩溃问题。还要注意的是,这种空间平滑性在表征学习中的好处也在表2(c)中得到了证明,其中过于平滑或过于尖锐的相似性函数会损害迁移性能。结合实例级对比方法表4消除了组合所提议的兴奋段落Pascal VOCCoco 兴奋段落Pascal VOCCocoAP AP50AP 70地图AP AP50AP 70地图(a)区阈值T使用C5(d)层数,g(·)T= 0。3558.3 82.1 65.839.5l=零58.6 82.9 65.439.4T= 0。7∗58.8 83.0 66.540.8l=1μ m58.8 83.066.540.8T= 1. 456.8 82.0 63.339.5L=258.9 83.166.340.3T= 2. 856.5 81.7 63.439.1L=358.3 82.5 65.040.1(b)区阈值T使用P3(e)输出分辨率T= 0。3558.1 83.0 64.740.8C5(72英尺)58.8 83.0 66.540.8T= 0。757.683.063.640.8P4(142)56.7 82.7 63.640.9T= 1. 456.8 82.7 63.140.6P3(282)57.683.063.640.8T= 2. 856.1 82.464.740.2P3-P655.8 82.5 62.141.3(c)锐度指数γ(f)培训时间116691Pixpro(像素)Simplified*(instance)VOC Coco ImageNetAP地图 top-1访问C58.840.855.1C53.440.565.4CC58.740.966.3表4. 结合像素级和实例级方法的传输性能。“Simplified *”表示Simplified的变体,其编码器与我们的像素级方法相同。所有实验均采用100 epoch预训练。+FPN +头部+实例COCO(FCOS)mAP AP50 AP7537.8 56.2 40.6C38.1 56.7 41.2CC38.6 57.3 41.5CCC39.8 58.4 42.7表5. FPN和头部预训练,使用FCOS检测器转移到COCO[31]。所有实验均采用100 epoch预训练。PixPro方法与实例级借口任务(Sim-任务 *)用于表示学习。由于共享数据加载器和编码器,该组合需要边际增加的计算。可以看出,额外的实例级借口任务可以显著提高ImageNet-1 K上的线性评估准确度,同时保持COCO(掩码R-CNN R50-FPN)和Pascal VOC上的我们还观察到在某些任务上1.2 mAP的显著传输改进,例如,COCO上的FCOS [31],见表5。头部网络预训练的效果表5消除了COCO对象检测上的头部网络预训练(或使用更类似于微调任务中的架构)。对于COCO对象检测,我们使用完全卷积的FCOS检测器。我们评估了一个额外的FPN架构,三个连续的卷积层的头网络的传输性能可以看出,更多的预训练层导致下游任务上更好的转移准确性。半监督对象检测结果表图6显示了在COCO上使用1%和10%的标记数据的半监督结果。测试Mask R-CNN(R50-FPN)检测器。我们最好的预训练模型的表现明显优于以前的实例级监督/无监督方法。增益为+3.9mAP,分别使用1%和10%训练数据的+2.3 mAP结果表明,在预训练和下游任务之间对齐网络的优势。包括表6. COCO上的半监督对象检测。100-我们的方法采用epoch预训练,其他方法使用训练时间最长的模型。预训练中的附加FPN层带来+0.9,+0.7 mAP 增益优于仅预训练普通骨干网络的方法(14.1和26.6 vs. 13.2和25.9)。在ImageNet-1 K预训练之后,我们还在COCO上添加了一个额外的预训练阶段,使用了120个epoch的像素级借口任务。当使用1%和10%的训练数据时,它分别导致ad-0.7 mAP增益和+0.2 mAP增益。直接在下游未标记数据上的附加预训练可以在只有稀缺的标记数据可用时有益于学习5. 结论本文探讨了使用像素级的借口任务学习密集的功能表示。我们首先在像素级直接应用对比学习,从而在需要密集预测的下游任务上实现合理的传输性能。我们还提出了一个像素到传播的一致性任务,它在表示学习过程中引入了某些平滑先验,并且不需要处理负样本。这种名为PixPro的方法在将学习到的表示转移到Pascal VOC(Faster R-CNN R50-C4)和COCO对象检测(mask R-CNN R50- FPN / R50-C4)的下游任务时,达到了60.2 AP和41.4 / 40.5 mAP的准确度,比以前最好的监督/无监督预训练方法高出2.6 AP和0.8 / 1.0mAP。这些结果证明了在像素级定义借口任务的强大潜力,并提出了一条新的无监督视觉表征学习的道路。作为一个通用的借口任务,学习更强的代表性的单一图像,所提出的方法也适用于视频和多模态信号的视觉表示学习。arch.+COCO预训练掩模R-CNN百分之十监督10.4 20.4MOCO [18]10.9 23.8[9]第九话10.9 23.9[30]第三十话10.6 24.5C5主链13.2 25.9FPN14.1 26.6116692引用[1] 菲利普·巴赫曼、R·德文·耶尔姆和威廉·布赫沃尔特。通过最大化跨视图的互信息来学习表示2[2] 汤姆湾Brown,Benjamin Mann,Nick Ryder,MelanieSub- biah , Jared Kaplan , Prafulla Dhariwal , ArvindNeelakan- tan,Pranav Shyam,Girish Sastry,AmandaAskell , Sand- hini Agarwal , Ariel Herbert-Voss ,Gretchen Krueger , Tom Henighan , Rewon Child ,Aditya Ramesh , Daniel M.Ziegler , Jeffrey Wu ,Clemens Winter,Christopher Hesse,Mark Chen,EricSigler,Mateusz Litwin,Scott Gray,Benjamin Chess,Jack Clark,Christopher Berner,Sam McCandlish,AlecRad- ford,Ilya Sutskever,and Dario Amodei.2020年,语言模型是少数学习者。3[3] 曹悦,谢振达,刘斌,林雨桐,张征,韩虎。用于非监督视觉特征学习的参数化实例分类。神经信息处理系统的进展,33,2020。2[4] 玛蒂尔德·卡隆,彼得·博亚诺夫斯基,阿曼德·朱林和马蒂亚斯·杜兹。深度聚类用于视觉特征的无监督学习。在欧洲计算机视觉会议论文集(ECCV),第132-149页,2018年。3[5] 玛蒂尔德·卡隆、伊尚·米斯拉、朱利安·麦拉尔、普里亚·戈亚尔、皮奥特·博亚诺夫斯基和阿曼德·儒林。通过对比聚类分配的视觉特征的无监督学习。Advances inNeural Information Processing Systems,33,2020。2[6] Kai Chen,Jiaqi Wang,Jiangmiao Pang,Yuhang Cao,Yu Xiong,Xiaoxiao Li,Shuyang Sun,Wansen Feng,Ziwei Liu,Jiarui Xu,et al. Mmdetection:Open mmlabdetection tool- box and benchmark.arXiv 预 印 本 arXiv:1906.07155,2019。6[7] Mark Chen ,Alec Radford ,Rewon Child,Jeff Wu 和Hee- woo Jun.从像素生成预训练。神经信息处理系统的进展,2020。3[8] 陈婷,西蒙·科恩布里斯,穆罕默德·诺鲁兹,和葛·奥弗里·辛顿.视觉表征对比学习的一个简单框架。ICML,2020年。一、二、四、五、六[9] Xinlei Chen,Haoqi Fan,Ross Girshick,and KaimingHe.通过动量对比学习改进基线。arXiv预印本arXiv:2003.04297,2020。三、六、八[10] Marius Cordts , Mohamed Omran , Sebastian Ramos ,Timo Rupfeld,Markus Enzweiler,Rodrigo Benenson,Uwe Franke,Stefan Roth,and Bernt Schiele.用于语义城市场景理解的cityscapes数据集。在CVPR中,第3213-3223页,2016年。6[11] 贾登、魏东、理查德·索彻、李力佳、李凯、李菲菲。Imagenet:一个大规模的分层图像数据库。见CVPR,第248-255页。2009年。第五、六条[12] Jacob Devlin , Ming-Wei Chang , Wendon Lee , andKristina Toutanova. Bert:为语言理解而进行的深度双向转换器的预训练。arXiv预印本arXiv:1810.04805,2018。3[13] Carl Doersch,Abhinav Gupta和Alexei A Efros。通过上下文预测的无监督视觉表示学习在ICCV,第1422-1430页,2015年。2116693[14] 阿列克谢·多索维茨基,约斯特·托拜厄斯·斯普林根贝格,马丁·里德米勒,托马斯·布罗克斯.用卷积神经网络进行判别式无监督特征学习。神经信息处理系统的进展,第766- 774页,2014年2[15] Mark Everingham 、 Luc Van Gool 、 Christopher KIWilliams 、 John Winn 和 Andrew Zisserman 。 pascalvisual object classes(pascal visual object classes)国际计算机视觉杂志,88(2):303-338,2010。6[16] 斯派罗·吉达里斯,普拉威尔·辛格,尼科斯·科莫达基斯。通过预
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功