没有合适的资源?快使用搜索试试~ 我知道了~
16061点-级区域对比度目标检测预训练Yutong Bai1,2* Xinlei Chen1 Alexander Kirillov1 Alan Yuille2 Alexander C. Berg11Facebook AI Research(FAIR)2约翰霍普金斯大学摘要在这项工作中,我们提出了点级区域对比度,这是一种用于对象检测任务的自监督预训练方法。这种方法是由两个关键因素在检测:定位和识别。虽然准确定位有利于在像素或点级别操作的模型,但正确识别通常依赖于对象的更整体的区域级别视图。在预训练中阐述这一观点,我们的方法通过直接从不同区域采样单个点对来执行对比学习与每个区域的聚合表示相比,我们的方法对输入区域质量的变化更具鲁棒性,并且进一步使我们能够通过训练期间的在线知识蒸馏来改进初始区域分配这两个优点是重要的,当处理不完善的地区遇到的无监督设置。实验表明,点级区域对比度改进了最先进的预训练方法,用于跨多个任务和数据集的对象检测和分割,并且我们提供了广泛的消融研究和可视化来帮助理解。将提供代码。1. 介绍非监督/自监督学习-在物体检测等重要任务中观察到有希望的信号[28]。例如,MoCo [20]通过简单地学习在ImageNet-1 K数据集[37]上区分图像作为整体实例[14],在有监督的预训练中显示了VOC [16从那时起,许多专注于图像内对比的文本前任务已经被专门设计用于对象检测作为下游传输任务[23,43,51]。虽然已经取得了稳步的进展,但最先进的检测器[1]仍然使用来自监督预训练的权重(例如,ImageNet-22 K上的分类[12])。无人监管的全部潜力*在FAIR实习期间完成的工作B2(2)B1A1 A2(A1 A2B1B2A1 A2B1B2(三)点水平图1.对于图像内对比学习,特征图的样本可以被聚合,然后在区域之间进行比较(1),在所有样本之间直接进行比较(2),或者仅在不同区域中的样本之间直接进行比较(3)。我们称之为(3)点级区域对比度,它允许在点级学习以帮助定位,并在区域级学习以帮助整体对象识别用于对象检测的预训练还有待实现。目标检测需要准确定位图像中的目标并正确识别其语义类别。这两个子任务紧密相连,并且在成功的检测器中经常相互加强[32]。例如,首先缩小候选对象位置的区域建议方法[2,41,54]使R-CNN[18]能够对丰富的区域级特征进行分类相反,今天从这个角度来看,我们假设为了学习一个有用的对象检测表示,还需要在预训练期间通过利用各种级别的信息来平衡识别和定位。场景中的对象识别通常发生在区域级别[18,35]。为了支持这一点,最好为每个区域维护一个概念上连贯的另一方面,为了更好的本地化,优选对比度区域一A1 A2B1 B2B16062在像素或“点级”[ 9,26 ]操作分割)是次优的(参见图1的示例)。据我们所知,这一领域的现有方法2)。在本文中,我们提出了一种自我监督的预训练方法,该方法在区域级别上进行概念对比,同时在点级别上进行操作。 从MoCo v2 [7]作为图像级基线开始,我们通过将每个图像划分为非重叠网格[ 23 ]来引入“区域”的概念将该网格上的矩形区域视为单独的实例,我们可以在现有的图像间识别任务之上定义图像内识别任务[14],并使用对比目标预训练表示与聚合特征进行对比学习的常见做法不同[6,20,23],我们直接在点水平上操作,从每个区域采样多个点,并在区域之间单独对比点对(见图1,右列)。在点水平上操作的优势是双重的,两者都涉及处理不完美的区域,因为没有地面实况。首先,这样的设计对于区域质量的变化可以更鲁棒,因为当区域没有很好地局部化时(例如,在图1中,两个感兴趣的区域可以意味着“狗和沙发的混合物”),而单个点仍然允许模型看到区别。其次,也许更重要的是,它可以使我们在训练过程中引导[19]潜在的更这是因为任何分割都可以被视为点亲和度的硬编码形式-对于同一区域内的点对为1通过将动量编码器视为从经验上讲,我们将我们的方法应用于标准的预训练数据集(ImageNet-1 K [12]和COCO训练集[28]),并将表示转移到多个下游数据集:VOC [16],COCO(用于对象检测和实例分割)和Cityscapes [10](se-mantic分割)。与使用图像级、点级或区域级对比学习的最先进的预训练方法相比,我们显示出了强大的结果此外,我们提供了广泛的消融研究,涵盖了设计中的不同方面,并定性地可视化通过知识蒸馏学习的点仿射。虽然我们还没有展示更大的模型,更长的训练时间表,更强的增强[17]以及更大的对象检测预训练数据的改进因此,我们相信,我们在预训练设计上的探索,可以更好地平衡识别和本地化,可以启发更多的工作在这个方向。2. 相关工作自我监督学习。监督学习/分类[22,37]一直是用于计算机视觉下游任务的预训练表示的主要方法最近,对比学习[6,15,20,24,39,46]已经成为一种有前途的替代方案,它可以在没有类别标签或其他形式的人类注释的情况下预训练视觉表示根据定义,自监督学习具有将预训练扩展到巨大模型和数十亿规模数据的潜力。作为一个示范,革命性的进展已经在自然语言处理等领域取得[3,13,34]通过缩放。对于计算机视觉来说,这样的时刻还没有发生。尽管如此,作为计算机视觉中的基本任务,对象检测是测试预训练表示的可转移性的必备基准[18]。对比学习。类似于将图像映射到类标签的监督学习,对比学习将图像映射到分离的向量嵌入,并吸引正嵌入对而消除负嵌入对。连接这两种学习类型的一个关键概念是实例识别[14],它将每个图像建模为自己的类。在此公式下,同一图像的两个增强被认为是正对,而不同的有趣的是,最近的研究表明,负对不需要学习有意义的表示[8,19],原因尚待理解。不加考虑,所有这些框架将每个图像视为单个实例并使用聚合(即,池化的)特征来计算嵌入。这种面向分类的设计在很大程度上忽略了图像的内部结构,这可能会限制它们在图像内执行密集搜索的对象检测中的应用[27,30,35]。点水平对比度。最近的许多工作[29,33,43,50,51]已经认识到了上述局限性,并将最初的思想从整体图像之间的对比特征扩展到点上的对比特征。已经探索了将点配对的不同方式。例如,[43]通过对潜在空间中所有点之间的相似性进行排名来选择正对; [51]通过空间接近度定义正对;[29]通过Sinkhorn-Knopp算法[11]将一组特征点与另一组特征点联合然而,我们认为,在任意点上直接对比特征过于重视局部化,因此错过了整个对象的更全局的视图,这可以导致更好的识别。16063×联系我们J联系我们区域一级的对比。与我们的论文最接近的是最新的工作路线,在区域层面上对比表示[23,36,44,47具体来说,通过外部输入[23,44,49]或滑动窗口[47]或仅随机采样[36,48]将图像划分为感兴趣区域受图像级对比学习的影响,大多数方法用单个聚合向量嵌入来表示每个区域,以进行损失计算和其他操作,我们认为-3. 方法在本节中,我们将详细介绍我们的方法:点级区域对比。为了奠定背景并介绍符号,我们首先回顾MoCo的制定[20]。3.1. 背景:动量对比顾名思义,MoCo [7,20]是一个对比学习框架[6,42],它有效地使用动量编码器来学习表示。MoCo将每个图像视为单个实例以区别于其他图像,在图像级运行(参见图2左上角)。图像级对比度。虽然用于实例识别的原始模型[14]实际上为数据集中的每个图像保留了一个专用的权重向量(在ImageNet-1 K [37]上,这意味着超过一百万个向量),但现代框架[6,46]将此任务制定为对比学习任务,只需在线计算每个图像的嵌入向量并节省内存。具体地,两个并行编码器fE和fM采用两个增强的视图(v和v′),并输出两个l2归一化嵌入z和z′。这里,表示通过如在nor中的梯度更新训练的基础编码器mal监督学习,并且fM表示通过基本编码器权重上的指数移动平均来保持更新的动量编码器。然后,通过对来自同一图像的视图强制相似性,并对来自不同图像的视图强制不相似性,执行图像级对比学习,使用常用的InfoNCE目标[42]:3.2. 点水平区域对比度如上所述,图像级对比度是面向分类的。接下来,我们讨论了我们在点级区域对比度方面的设计,这更适合于目标检测的任务地区区域是最先进的目标检测器中的关键概念[21,35]。通过感兴趣区域池,对象级识别(即,将对象分类到预定义的类别中)是由区域级特征驱动的与检测器训练不同,在自监督学习中无法访问地面实况对象注释。因此,我们简单地通过将每个图像划分为非重叠的n n网格来引入区域的概念[23]。我们把这个网格上的矩形区域作为单独的实例,这使得图像间的对比度和图像内的对比度,以联合执行对区域。现在,每个增强v与掩模配对,并且每个掩模表示在与v相同的几何变换下的对应区域,其与v共享分辨率。请注意,由于随机调整大小的裁剪[20],一些面具可以是空的 。 因 此 , 我 们 随 机 采 样 N=16 个 有 效 掩 码 mn(n1,. . .,N)(具有重复)作为对比区域,遵循[23]的设计。网格区域是空间启发式的最简单形式,即附近的像素可能属于同一对象[23]。更高级的区域[2,41],甚至是地面实况分割掩码(仅用于分析)[28]可以读取地插入我们的方法中以潜在地帮助性能,但这是以更多的计算成本,潜在的偏差风险[5]或人工注释成本为代价的。相反,我们专注于改进训练策略,并使用网格进行探索。积分级别。考虑到不完美的区域,我们的关键见解是在点级别上操作。直观地,通过对比区域进行预训练可以帮助学习足以区分对象作为整体实体的特征,但它们可能缺乏为对象的确切位置如果表示区域的特征在所有相关位置上聚合exp(z·z′/τ)(一)就像图像级对比度的练习一样。偏离-Lm=−logΩJ exp(z·z′/τ),由此,我们直接从每个点其中τ是温度,其他图像(和自身)由j表示。在MoCo中,其他图像来自动量库[46],与完整数据集相比,其大小通常要小得多重要的是要注意,为了计算嵌入向量z(和z′),通常在中间层中使用类似池化的操作来聚合来自2D图像中的所有空间位置的这是从监督学习的实践中继承来的,在监督学习中,标准的后向学习是一种学习方法。骨头(例如,ResNet-50 [22])分类任务之前的平均池特征。区域,以及各个区域没有pooling形式上,我们每个掩码mn采样P个点,并计算点级特征pi(i1,. . .,NP)进行对比学习。每个pi都有一个对应区域的指标ai。为了适应这一点,我们修改了编码器架构,使得空间维度是一直保持到输出。1最终的特征图通过插值被上采样到R×R的空间分辨率1在Simplified [6]之后的MoCo v2 [7]中引入了额外的投影MLP,我们将MLP转换为1×1卷积层。16064点亲和蒸馏视图2视图1动量编码器动量编码器编码器YK点Y我我“I k“”我K老师学生区域级对比点水平区域对比度×4ΣLL我 J…图像级对比度点水平对比度×15图2. 点水平区域对比度的图示(第3.2),这也使点亲和蒸馏(第3.2节)。3.3)。 左侧 我们展示了四种不同类型的对比学习方法,包括图像级、区域级、点级和我们的点级区域对比。在右边,我们展示了一对点的点亲和蒸馏。然后,我们的点级别,区域对比度损失被定义为:自监督学习的暹罗体系结构[81ΣLc=−exp(p·p′/τ)日志K像MoCo这样的方法提供了一种直接的引导方法、(二)打包并获得潜在更好区域。的势头哪里C ai=akjexp(pi·p′j/τ)编码器fM本身可以被看作是一个“老师”,作为判断fE的质量的标准[4]。从这个角度来看,j 在来 自同一 图像中的 区域的 点上循 环(帧内),或者在来自其他图像的点上循环(帧间)。C是损失的归一化因子,其取决于正点对的数目示例性情况(对于n=2和P=4),如图所示二、3.3. 点亲和蒸馏在点水平上操作使我们能够自举[53],而不受预定义区域的限制。这是因为根据Eq。(2)预定义区域重要的唯一地方是在指标A1中,其提供了从点到区域的硬当ai=ak时,意味着pi和pk来自同一区域的概率为1,否则为0。另一方面,InfoNCE损失[42](等式2)。(1))用于对比学习计算点亲和度作为自然副产品,我们定义为:我们可以将问题表述为知识蒸馏问题[25],并使用fM的输出来监督通过交叉熵损失涉及fE的点亲和度:La=−Ai'k'(τt)logAik'(τs),(4)i,k其中τt和τs分别是教师和学生的温度我们称之为“点亲和蒸馏”。还有其他可能的方法从动量编码器中提取点亲和力(见第二节)。4.5.2),我们选择了当前的设计权衡速度和准确性。另一方面,我们注意到池化操作默认不会将梯度反向传播到坐标(仅传播到特征)。因此,通过对比聚合的区域级特征[23,44,49]来变形区域以及训练是不那么直接的。3.4. 总损失函数exp(pi·p′k/τ)(三)Aik'(τ):=exp(p·p′/τ)。我们共同执行点级区域对比度学习(第二节)3.2)和点亲和蒸馏(第3.3)控制注意,Aik'(τ)是由两个索引i和k'控制的成对项,并且附加'指示参与的嵌入由动量编码器计算例如,Ai'k'(τ)表示两个嵌入都来自动量编码器f M。点亲和性提供了柔和、含蓄的从点到区域的分配,并且可以通过聚类(例如,k-均值)。从这个意义上说,它们可以提供关于哪些点对属于同一区域的更完整的平衡系数α:Lp =αL c+(1 − α)L a。(五)在这里,c提供了一个区域的初始化来进行对比,而a从数据中引导[19],正则化学习并将过度拟合到初始的不完美区域作为-bits。这就是这两个术语如何相互作用并相互受益-这是我J16065×方法时期数量APPascal VOCAP50AP75COCO检测AP AP50 AP75COCO分割AP AP50 AP75城市景观Miou划痕-33.860.233.126.4 44.027.829.346.930.865.3监督20054.281.659.838.2 58.241.233.354.735.273.7MOCO [20]20055.981.562.638.5 58.341.633.654.835.675.3SimCLR [6]100056.381.962.538.4 58.341.6---75.8MoCo v2 [7]80057.682.764.439.8 59.843.636.156.938.776.2[40]第四十话20057.682.764.639.0 58.542.0---75.6[第48话]20057.882.664.239.8 59.743.034.756.336.776.5InsLoc [52]80058.483.065.339.8 59.642.934.756.336.9-PixPro [51]20058.883.066.540.0 59.343.434.8--76.8[23]第二十三话200---40.5--36.4--76.5[第44话]20059.183.465.640.460.443.734.956.837.076.5我们20059.483.667.140.7 60.444.736.957.439.677.0表1. ImageNet-1 K预训练的主要结果。从左到右,我们显示了4个任务的传输性能:VOC(07+12)检测[16],COCO对象检测[28]; COCO实例分割和Cityscapes语义分割[10]。从上到下,我们将我们的方法与其他3种设置进行比较:i)没有预先训练(即,scratch); ii)利用监督学习或图像间对比学习的一般预训练; iii)利用附加的图像内对比度的面向对象检测的预训练。我们的点级区域对比度预训练在公平比较下显示了不同任务的一致改进。最后,我们的点级损失被添加到原始MoCo损失中以进行联合优化,由另一个因素β控制:L=βLp+(1−β)L m,(6)这不会导致骨干特征计算的额外开销。请注意,为了解释清楚,我们上面定义的所有损失项都集中在单个图像上,全部损失是在所有图像上平均的。4. 实验在本节中,我们进行实验。对于我们的主要结果,我们在ImageNet-1 K或COCO上进行预训练,并将学习到的表示转移到4个下游任务。然后,我们通过以下方式进行分析:1)使用VOC地面实况掩模用定量评估度量可视化所学习的点亲和度,2)当掩模质量退化时,提出点级表示是有效的并且比区域级表示更鲁棒的证据;以及3)在我们的方法中消除不同的点亲和度蒸馏策略。关于各种超参数的更多分析和更多可视化可以在附录中找到。4.1. 培训前详细信息我们要么在ImageNet-1 K [37]或COCO [28]上进行预训练,遵循标准设置[23,43]。ImageNet-1 K设置。仅使用来自训练分割的图像,这导致ImageNet-1 K的128万张图像。我们对模型进行了200个epoch的预训练。值得注意的是,我们在MoCo v2 [7]的无故障非对称版本上构建了我们的方法,该方法被证明可以使用对称损失[8]大致补偿预训练的性能,长度为一半COCO设置。仅使用来自训练分割(train2017)的图 像 , 这 导 致 COCO 的 118k 。 我 们 用 800 个 COCOepoch进行预训练,而不是ImageNet epoch。超参数和增强。我们使用4 × 4网格,每个视图采样N=16个有效掩码,如下[23]。每个区域采样P=16个点。特征图R的上采样分辨率被设置为64。我们使用0.07的教师温度τt和0.1的学生温度τs,其中30个时期作为不应用加热的预热阶段。损耗的平衡比设为α=0。5且β=0。7 .第一次会议。对于优化超参数(例如,学习率、批量大小等)我们遵循MoCo v2 [7]的增强配方。我们遵循Det- Con [23]中的相同策略,通过随机裁剪对区域对进行采样,并在视图不共享重叠区域时跳过点的损失计算,这在实践中很少发生。4.2. 下游任务我们评估了四个下游任务的特征传输性能:VOC上的对象检测[16],COCO上的对象检测和实例分割[28],以及Cityscapes上的语义分割[10]。VOC。PASCL VOC是用于评估对象检测的自监督预训练的默认数据集。我们遵循MoCo [20]中介绍的设置,即具有ResNet-50C4主干的Faster R-CNN检测器[35],它使用conv 4特征映射来生成对象提案,并使用conv 5阶段进行提案分类和边界框回归。在微调中,我们 跨 设 备 同 步 所 有 批 量 归 一 化 层 。 训 练 在trainval2007和trainval2012的组合集上执行。为了测试,我们在test2007集上报告AP、AP50和AP75。使用Detectron2 [45]。16066××××方法时期数量APPascal VOCAP50AP75COCO检测AP AP50 AP75COCO分割AP AP50 AP75城市景观Miou划痕-33.860.233.129.9 47.932.850.935.363.5MoCo v2 [7]BYOL [19]80080054.7-81.0-60.6-38.5 58.1 42.137.9 57.5 40.934.8-55.3-37.3-73.8-自EMD [29]PixPro [51]800800-56.5-81.4-62.738.5 58.3 41.639.0 58.9 43.0-35.4-56.2-38.1-75.2我们80057.182.163.839.8 59.6 43.735.956.938.675.9表2. COCO预培训的主要结果。与ImageNet-1 K相同,从左到右,我们展示了4个任务的性能:VOC(07+12)检测,COCO检测; COCO实例分割和Cityscapes语义分割。从上到下,我们比较了从无到有的培训和自我监督的预培训对于COCO预训练,我们的方法显示出显着的改进。可可在COCO上,我们研究了对象包围盒检测和实例分割。我们采用Mask R-CNN [21],ResNet-50C4作为骨干和头部。其他设置与VOC相同Detectron2再次使用。我们遵循标准1的时间表进行微调,这是COCO的90k次迭代。城市景观。在Cityscapes上,我们评估语义分割,这也是一项依赖于良好的本地化和识别的任务我们遵循之前的设置[20,51],其中使用基于FCN的结构[31]。分类是ob-通过额外的1×1卷积层来实现。4.3. 主要结果ImageNet-1 K预训练。选项卡. 1将我们的点级区域对比度与之前4个下游任务上的最先进的未监督预训练方法进行比较,这些任务都需要密集预测。我们比较了四类方法:1)从头开始训练,即。从随机初始化中学习网络; 2)ImageNet-1 K监督预训练; 3)一般自监督预 训 练 , 包 括 MoCo , MoCo v2 , Simplified 和InfoMin。这些都是在他们报告的时代; 4)任务特定的预培训,包括DetCo [48],PixPro [51],DenseCL [43]和DetCon [23]。我们报告了200 epoch预训练的数字。值得注意的是,我们采用了非对称网络结构[7],即.每个视图在每次迭代中仅使用一次。出于这个原因,我们将PixPro([43]中报告的100个epoch)和SoCo [44]表示为200个epoch,因为损失在那里是对称的。DetCon[23]使用通过现成算法获取的预定义分割掩码。并在相同的时期数下与之进行了比较。在VOC对象检测、COCO对象检测、COCO实例分割和Cityscapes语义分割的这种公平COCO预培训。选项卡. 2将我们的方法与COCO上最先进的无监督预训练方法进行了比较。我们评估了用于ImageNet-1 K预训练的相同4个下游任务的传输能力不同-从ImageNet-1 K的角度来看,COCO图像平均每个图像有更多的对象,因此我们的点级区域对比度在这种设置中可能更合理和有益4.4. 点仿射的为了提供一种更直观的方式来显示我们的方法的有效性,我们在图中将预训练后的点亲和度可视化。3 .第三章。这些图像是从ImageNet-1 K的验证集中随机选择的。我们遵循之前的实验设置,在ImageNet-1 K上预训练200个epoch。然后,我们将所有图像的大小调整为896 896,并将Res5的相应特征图从(28 28)插值到56 56以获得更高的分辨率。对于每幅图像,我们首先选取一个点(用红色圆圈表示),然后从该点的最后一层输出特征表示计算该点与同一图像中所有其他点的点亲和力(根据余弦相似性)。此外,我们还将其与来自MoCo v2的可视化和我们的方法的区域级对比度变体进行比较,以分析改进。区域级对比度变体使用具有网格区域的MoCo v2框架(与我们的相同)实现,VOC上的AP为58.2。在图3中,从上到下,我们显示了15个不同的示例组,它们(按行)表示5类拾取点:单个非刚性对象、单个刚性对象、多个对象、混沌背景中的对象和背景。在每组中,从左到右显示了我们的方法的点亲和力、区域水平对比度和MoCo v2基线。特征图上较亮的颜色表示更多相似点。观察。对于原始MoCo,其最终的全局池化操作直观地导致2D空间信息的损失,因为所有内容都被压缩到单个向量中用于表示。因此,当回溯时,显著区域通常只覆盖拾取点周围的某些紧密连接的小区域。对于区域级对比度基线,其显著区域可以扩展到更大的区域,但该区域非常模糊,难以分辨边界。对于对象(如第1-3行所示),尽管所有三种方法都显示出一定的定位能力,但我们的方法通常预测更清晰,更清晰的边界,表明更好的理解。16067图3. 点关联可视化。我们总共展示了15组示例。在每组中,我们从左到右显示了具有选定点(由红色圆圈表示)的原始图像;从该点到图像其余部分计算的三个亲和图,输出为i)我们的点级区域对比度; ii)区域级对比度; iii)MoCo v2(图像级对比度)。在从上到下的行中,我们显示了5类拾取点:i)单个非刚性对象,ii)单个刚性对象,iii)多个对象,iv)混沌背景中的对象和v)背景材料。亲和贴图中较亮的颜色表示更相似的点。最佳的颜色和放大。图4. 点关联(失败)。 我们为我们的方法提出了两种失败的情况:欠分割(左)和过分割(右)。对于每种类型,我们使用图3中相同的可视化技术显示3对图像。详情见正文随机监督图像-区域-我们15.322.933.133.852.0图5. 点亲和带或不带亲和蒸馏。在4组中的每一组中,我们显示(从左到右)原始图像,我们的点亲和蒸馏和我们的没有。可以看出,蒸馏损失在捕获对象边界中起关键作用,如4组示例中所示。物体的定位。第4行显示了混乱环境中的物体,即使用人眼也很难识别。除了前景物体,我们还测试了背景物体的能力(第5行)。有趣的是,即使对于背景,我们仍然可以将其与前景物体区分开来。故障案例。我们还在图4中给出了我们模型的一些失败案例。在左边,我们显示了欠分割,其中一个片段包含的对象比它应该包含的多表3. 量化指标来比较来自不同预训练方法的VOC可视化。我们的点级区域对比优于所有基线,从随机的,监督的预训练和自我监督的预训练。例如,在第一幅图像中,人和跑步机都与所选择的点具有较高的相似性相反,在右边,我们显示了过度分割,其中一个片段没有覆盖整个对象。例如,女人的脸与所选择的点具有较高的相似性,而衣服和假发具有较低的相似性-理想情况下我们相信这在我们的无监督设置中是合理的:没有对象类的定义,模型最多只能使用纹理或颜色等低级线索形成组;因此,它可能会错过对象的语义级分组。亲和蒸馏有助于本地化。我们在图5中可视化了我们的方法,有或没有点亲和蒸馏。我们发现蒸馏损失在捕获物体边界以更好地定位中起着关键作用。16068××××555754562 4 8 16 32 6453GT mask GT box 4×4 grid 2×2grid图6. 点水平vs.区域级特征。我们检查在ImageNet-1 K上进行预训练时需要多少点来匹配区域级表示。对于点级特征,沿水平轴的点数从2增加到64。预训练的表示已经可以匹配VOC AP中的区域级特征(蓝线),只有4个点。量化指标我们在VOCval2007上定量评估了不同预训练方法的可视化效果。对于每个地面实况对象,我们选取其中心点,并使用预训练模型计算从该点到图像其余部分的相似性,以生成分割掩码。我们选择一个阈值,以保持整个亲和力图的80%然后用Jaccard相似性对掩码进行基准测试,Jaccard相似性被定义为预测掩码和地面实况掩码之间的交集(IoU)。我 们 的 基 线 是 : 随 机 ( 无 预 训 练 ) , 监 督(ImageNet-1 K),MoCo v2(图像级)和区域级。结果总结见表。3 .第三章。正如预期的那样,点级别的区域对比度明显优于其他。4.5. 主要消融研究对于我们的主要消融分析,我们从第二节的点水平对比学习开始4.5.1,显示其有效性表示区域和鲁棒性较差的初始区域相比,基于区域的对应物。然后,我们讨论和比较可能的点亲和蒸馏策略。4.5.2.更多消融见附录。在本节中,我们在ImageNet-1 K上预训练了100个epoch,在COCO上预训练了400个COCO epoch。4.5.1积分级别vs. 区级我们首先设计实验来展示将点级操作引入区域级对比的动机和我们做了两个实验。首先是查看需要多少点来匹配池化的区域级特征。我们在ImageNet上预训练了100个epoch,没有点亲和度损失,以进行公平的比较,并报告了VOC对象检测传输的结果。如图6所示,我们发现每个区域只有4个点,其AP(56.6)已经优于区域级对比度(56.5)。有趣的是,更多的点级别特征继续有益于性能,甚至高达64个点,这表明池化的区域级别特征对于对象检测预训练不如点级别特征有效。图7. 区域质量vs.我们的点级区域对比度(红色)和区域级对比度之间的AP比较,具有在COCO上预训练的池化特征。沿水平轴区域质量退化:地面真值掩码、地面真值边界框、4 4网格和2 2网格。我们的方法始终是更好的,是更有弹性的区域质量的退化。其次,我们添加回点亲和度损失,并比较我们的完整方法对具有聚合区域级特征的对比学习的鲁棒性[23]。对于这个实验,我们在COCO上进行预训练,因为COCO是用地面实况对象框/掩码注释的。每个区域使用P=16个点,并且还使用VOC对象检测进行评价。在图7中,我们逐渐降低区域质量,从最高(地面实况掩模)到最低(2 2网格),中间有地面实况框和4 4网格。点级区域对比度不仅比区域级对比度表现得更好,而且随着区域质量从左到右退化,两者之间的差距也会增加。这证实了我们的方法对初始区域分配更鲁棒,并且可以与所有类型的区域一起工作。4.5.2点亲和蒸馏策略对于点亲和蒸馏,有三种可能的策略:1)Ai'k'作为老师(参见等式10)。(3)对于其定义),Aik'作为学生(默认); 2)Aik'作为老师,Aik作为学生; 3)Ai'k'作为老师,Aik作为学生,这需要使用动量编码器的额外向前传递。策略1)实现58.0 AP。切换到策略2)会使AP略微退化到57.6,而策略3)会产生与1)相同的AP,但需要额外的计算。因此,我们将1)设置为默认设置。5. 结论平衡识别和定位,我们引入了点级区域对比度,它通过直接从不同区域采样单个点对来执行自监督预训练。与其他对比公式相比,我们的方法可以学习图像间和图像内的区别,并且对不完美的无监督区域分配更具弹性。我们通过经验验证了我们的方法在多个设置上的有效性,并显示了与最先进的对象检测预训练方法相比的强大结果。我们希望我们的探索能为社会提供新的视角和启发区域级特征ReP5256.56.656.6557.357.957.56.55.555.254.954.9554.4.553.7AST53区域级对比度点级,区域对比度4.5APAP16069引用[1] 2021年Lvis挑战赛。https://www.lvisdataset的网站。 org/challenge_2021.访问时间 :2021-11-16。1[2] 巴勃罗·阿贝·拉伊兹、乔迪·蓬-图塞特、乔纳森·T·巴伦、费 兰·马克斯和吉滕德拉·马利克.多尺度组合分组CVPR,2014。第1、3条[3] Tom Brown , Benjamin Mann , Nick Ryder , MelanieSub- biah,Jared D Kaplan,Prafulla Dhariwal,ArvindNeelakan- tan,Pranav Shyam,Girish Sastry,AmandaAskell , Sand- hini Agarwal , Ariel Herbert-Voss ,Gretchen Krueger , Tom Henighan , Rewon Child ,Aditya Ramesh,Daniel Ziegler,Jeffrey Wu,ClemensWinter,Chris Hesse,Mark Chen,Eric Sigler,MateuszLitwin , Scott Gray , Benjamin Chess , Jack Clark ,Christopher Berner、Sam McCandlish、Alec Radford、Ilya Sutskever和Dario Amodei。语言模型是很少机会的学习者。在NeurIPS,2020年。2[4] MathildeCaron , HugoTouvron , IshanMisra , Herve'Je'gou , Julien Mairal , Piotr Bojanowski , and ArmandJoulin.自我监督视觉转换器中的新兴特性。ICCV,2021。二、四[5] Neelima Chavali,Harsh Agrawal,Aroma Mahendru和Dhruv Batra。目标提案评估协议是在CVPR,2016年。3[6] 陈婷,西蒙·科恩布里斯,穆罕默德·诺鲁齐,和葛offrey Hinton.视觉表征对比学习的一个简单框架。在ICML,2020。一、二、三、五[7] Xinlei Chen,Haoqi Fan,Ross Girshick,and KaimingHe.通过动量对比学习改进基线。arXiv预印本arXiv:2003.04297,2020。二三五六[8] Xinlei Chen,Kaiming He.探索简单的连体表示学习。在CVPR,2021年。二、四、五[9] Bowen Cheng,Omkar Parkhi,and Alexander Kirillov.点监 督 实 例 分 割 。 arXiv 预 印 本 arXiv : 2104.06404 ,2021。2[10] Marius Cordts , Mohamed Omran , Sebastian Ramos ,Timo Rehfeld,Markus Enzweiler,Rodrigo Benenson,Uwe Franke,Stefan Roth,and Bernt Schiele.用于语义城市场景理解的cityscapes数据集。在CVPR,第3213-3223页,2016年。二、五[11] 马可·库图里Sinkhorn距离:最佳运输的光速计算。NeurIPS,2013. 2[12] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi,and Li Fei-Fei. ImageNet:一个大规模的分层图像数据库。CVPR,2009。一、二[13] 雅各布·德夫林张明伟李肯顿和克里斯蒂娜·图塔诺娃。BERT:用于语言理解的深度双向变换器的预训练。CoRR,绝对值/1810.04805,2018年。2[14] Alexey Dosovitskiy , Jost Tobias Springenberg , MartinRied-miller,and Thomas Brox.使用卷积神经网络的判别式无监督特征学习。NeurIPS,2014。一、二、三[15] Debidatta Dwibedi,Yusuf Aytar,Jonathan Tompson,Pierre Sermanet,and Andrew Zisserman.在朋友们的帮助下:视觉表征的最近邻对比学习。arXiv预印本arXiv:2104.14548,2021。216070[16] Mark Everingham , Luc Van Gool , Christopher KIWilliams,John Winn,and Andrew Zisserman.PASCALVisual Object Classes ( VOC ) 挑 战 赛 。 IJCV , 88(2):303 一、二、五[17] Golnaz Ghiasi,Yin Cui,Aravind Srinivas,Rui Qian,Tsung- Yi Lin,Ekin D Cubuk,Quoc V Le,and BarretZoph.简单的复制粘贴是一种强大的数据增强方法,用于实例分割。在CVPR,2021年。2[18] Ross Girshick,Jeff Donahue,Trevor Darrell和JitendraMalik。丰富的特征层次结构,用于精确的对象检测和语义分割。CVPR,2014。一、二[19] Jean-BastienGrill , FlorianStrub , FlorentAltche' ,CorentinTallec,PierreRichemond,ElenaBuchatskaya , Carl Doersch , Bernardo Avila Pires ,Zhaohan Guo , Mohammad Ghesh- laghi Azar , et al.Bootstrap your ow
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 高清艺术文字图标资源,PNG和ICO格式免费下载
- mui框架HTML5应用界面组件使用示例教程
- Vue.js开发利器:chrome-vue-devtools插件解析
- 掌握ElectronBrowserJS:打造跨平台电子应用
- 前端导师教程:构建与部署社交证明页面
- Java多线程与线程安全在断点续传中的实现
- 免Root一键卸载安卓预装应用教程
- 易语言实现高级表格滚动条完美控制技巧
- 超声波测距尺的源码实现
- 数据可视化与交互:构建易用的数据界面
- 实现Discourse外聘回复自动标记的简易插件
- 链表的头插法与尾插法实现及长度计算
- Playwright与Typescript及Mocha集成:自动化UI测试实践指南
- 128x128像素线性工具图标下载集合
- 易语言安装包程序增强版:智能导入与重复库过滤
- 利用AJAX与Spotify API在Google地图中探索世界音乐排行榜
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功