暹罗表征学习中的对比视图优化方法

26 浏览量更新于2023-10-25 收藏 1.31MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

16031∼为暹罗表征学习打造更好的对比视图彭翔宇1*王凯1*郑珠2王莽3杨友1 <$1新加坡国立大学2清华大学3阿里巴巴集团{xiangyupeng，kai.wang，youy}@comp.nus.edu.sgzhengzhu@ieee.orgwangmang.alibaba-inc.com代码：https://github.com/xyupeng/ContrastiveCrop摘要最近的自监督对比学习方法极大地受益于旨在最小化正对之间的距离的连体结构对于高性能的连体表示学习，关键之一是设计好的对比对。大多数以前的作品只是简单地应用随机采样，使同一图像的不同作物，这忽略了语义信息，可能会降低视图的质量。在这项工作中，我们提出了对比作物，它可以有效地产生更好的作物暹罗表示学习。首先，在训练过程中，在一个完全无监督的方式提出了一个语义感知的目标定位策略。这指导我们生成对比视图，这可以避免大多数误报（即，对象vs. 背景）。（一）（c）第（1）款（b）第（1）款（d）其他事项此外，我们经验性地发现，具有相似外观的视图对于暹罗模型训练是微不足道的。因此，进一步设计了中心抑制抽样，以扩大作物的方差。值得注意的是，我们的方法仔细考虑了对比学习的积极对作为一个即插即用和框架不可知的模块，对比作物一贯提高Simplitude ， MoCo ， BYOL ， SimSiam0 。百分之四二、CIFAR-10的分类准确率为0%，CIFAR-100、Tiny ImageNet和STL-10。优异的结果在ImageNet-1 K上进行预训练时，也可以在下游检测和分割任务中实现。1. 介绍自监督学习（Self-supervised learning，SSL）因其能够利用大量未标记数据而受到计算机视觉界的广泛关注。作为作为SSL中的主流方法，对比学习在几个下游任务*同等贡献。†通讯作者。16032图 1. 我们提出对比作物的动机。 (a) 和（ c ）由典型的RandomCrop生成，而（b）和（d）是来自我们的方法的作物。我们解决了假阳性问题（对象与。通过定位对象并将裁剪中心限制在（b）中的边界框（黑色虚线框）内，来实现（a）中所示的裁剪（背景）。此外，我们扩大了作物的方差，(d)通过使它们远离中心，这避免了如（c）中所示的（例如，对象检测、分割和姿态估计[16，18，21，27，32]）。这种有希望的结果可以在很大程度上归因于Siamese结构，其通常应用于最先进的非监督方法，包括Simpletion [5]，MoCo [20]，BYOL [17]和SimSiam [8]。通常，连体结构从图像中获取两个增强视图作为输入，并最小化它们在嵌入空间中的距离。通过选择适当的视图，暹罗网络表现出学习通用视觉特征的强大能力[37]。对比学习的关键问题之一是积极选择的一些作品通过强数据增强产生不同的积极观点，如颜色失真，16033∼和拼图变换[4，37]。另一项工作[34]以无监督的方式应用混合物[48，49]来产生包含多个样本的正对此外，与数据增强不同，[50]在特征级别上通过转换创建尽管技术不同，但这些作品通常应用Ran- domCrop对图像的多个视图进行采样，并进一步使视图更加多样化。随机作物抽样作为一种基本的抽样方法，使所有的作物个体都能被等概率地选择然而，它没有考虑成对视图的语义信息，这有助于更有效和准确地学习更好的表示如图1a，当没有对象的先验（例如，规模和地点）。在嵌入空间中优化对象和背景之间的距离会误导表示的学习。此外，Fig.1c表示随机作物不能总是携带对象的足够的方差。这种具有大相似性的视图对于学习判别模型是微不足道的在本文中，我们提出了对比作物，旨在为连体表示学习制作更好的对比对。假阳性表明用于对比学习的更好的采样策略应该考虑图像的内容。据此，我们提出了一个语义感知的本地化方案，它作为选择作物和避免大多数误报的指导，如图所示。1b.此外，我们还提出了一种中心抑制抽样策略来处理具有较大相似性的平凡正对。图1d显示我们的作物更有可能覆盖物体的不同语义感知定位和中心抑制采样方案可以优雅地组合以生成用于对比学习的更好的作物。建议的对比作物考虑语义信息和保持大的差异时，使对。作为一种即插即用的方法，它可以很容易地应用到连体结构。更重要的是，我们的方法对对比框架是不可知的，不管是否使用负样本。在可以忽略不计的训练开销下，我们的策略可以持续地将Simclock，MoCo，BYOL，SimSiam提高0. 百分之四二、在CIFAR-10、CIFAR-100、Tiny ImageNet和STL-10上的分类准确率为0%。在ImageNet-1 K上进行预训练时，下游检测和分割任务也取得了优异的结果本文的主要贡献概括为：• 据我们所知，这是第一次研究对比学习中常用的随机裁剪 We propose Contrastive- Crop that iscustomized to generate better views for this task.• 在ContrastieCrop中，采用语义感知定位来避免大多数的误报，并采用中心定位，采用抑制抽样策略减少三重正对。• 对比作物始终优于随机作物与流行的对比方法在各种数据集上，显示其有效性和通用性的暹罗表示学习。2. 相关作品2.1. 对比学习对比学习的核心思想是在嵌入空间中将正对拉得更近，同时将负对推开这种方法在学习没有注释的视觉表示方面表现出很大的潜力[2，23，29，30，36、43、47]。最近，基于Siamese结构的对比方法在下游任务上取得了显着的性能[5，7，8，15，17，20，40，45，46]，其中一些甚至超过了监督模型。里程碑式的工作是SimCLR [5]，它为对比视觉表征学习提供了一个简单的框架。它显着提高了质量的学习表示与非线性变换头。另一个著名的作品是MoCo[20]，它使用了一种新的方法。存储大量的负样本，并使用动量平滑更新，以获得更好的一致性。还提出了在没有负样本的情况下学习有用表示的方法BYOL[17]训练一个在线网络来预测目标网络的输出，后者随着动量而缓慢更新。作者假设，在线网络的附加投影仪和动量编码器对于避免没有负样本的崩溃解决方案很重要。SimSiam [8]进一步探索了简单的Siamese网络，可以在没有负样本对，大批量和动量编码器的情况下学习有意义的表示。强调了止坡在防止塌方中的作用.除了框架设计，理论分析和实证研究也被提出来更好地理解对比学习的行为和性质[1，3，6，9，24，31，35，39，39，41，44，52]。2.2. 阳性选择对比学习的关键问题之一是正选择的设计。生成阳性对的直观方法是使用数据增强创建样本的不同视图。大多数SSL作品应用直接从监督学习中改编的数据增强管道[12，13，19，26，48，49]。Chen等人[5]综合研究了一系列数据变换的效果，发现随机裁剪和随机颜色失真构成的合成可以带来更好的性能。Tian等人[37]提出一个InfoMin原则，以捕捉相互之间信息的最佳点。16034∈∈· ··图2.在每个子图中从左到右示出了定位的训练动态我们将定位框初始化为整个图像，并使用最新的热图定期更新它。请注意，我们的目标不是获得精确的定位，而是通过找到感兴趣的对象来指导作物的生成。视图，并相应地使用其In-foMin Augmentation生成正对。与本文接近的工作是[33]，它也使用无监督显着图作为作物的约束，但作物仍然是随机抽样的。所有这些工作通常应用RandomCrop作为基本的采样方法来生成输入视图，我们发现这可能不是对比学习的最佳解决方案。[28]在制作裁剪时考虑对象-场景关系，但需要额外的对象建议算法。在这项工作中，我们提出了ContrastiveCrop，这是量身定制的，以创建更好的对比学习的积极意见，而不需要外部功能。3. 方法在本节中，我们将介绍用于连体表示学习的ContrastiveCrop。首先，我们简要回顾随机作物作为初步知识。然后，我们将语义感知定位和中心抑制采样描述为我们的对比作物的两个子模块。最后，为了更好的理解，进一步讨论了我们方法的有利性质.3.1. 初步RandomCrop是一种有效的数据增强方法，在监督学习和自监督学习（SSL）中得到了广泛的应用。在这里，我们以Pytorch1中的API为例简要回顾一下这项技术。给定图像I，我们首先从预定义的范围（例如，s[0. 二一0个字符]和r[3/4，4/3]）然后，可以通过s和r获得作物的高度和宽度。之后，在图像平面上随机选择裁剪的位置，只要整个裁剪位于图像内。RandomCrop的过程可以公式化为（x，y，h，w）=Rcrop（s，r，I），（1）其中Rcrop（，，）是返回表示作物的四元数（x，y，h，w）的随机采样函数我们1https://pytorch.org/vision/stable/transforms.html将I表示为输入图像，将（x，y）表示为裁剪中心的坐标，并且将（h，w）表示为裁剪的高度和宽度。通常，作物的尺度s和纵横比r被灵活地设置，使得可以制造不同尺寸的作物。原则上，RandomCrop允许选择所有单独的作物，因此可以提供样本的不同视图。然而，它执行等概率采样（即，以相同的概率对每个单个视图进行采样），这忽略了图像的语义信息。如图1a，当对象规模较小时，RandomCrop容易产生误报。在对比学习中，对于尺度不同的对象，RandomCrop由于缺乏对语义信息的考虑，不可避免地会产生误报。因此，优化图中的假阳性。3可能会误导良好表征的学习。因此，设计一种语义感知的农作物抽样策略对于连体表示学习至关重要.3.2. 语义感知本地化为了解决Ran- domCrop中内容理解较差的问题，我们设计了一个语义感知的本地化模块，可以以非监督的方式有效地减少误报。为了更好地研究连体网络中的特征学习过程，我们将在不同训练阶段生成的热图可视化（例如，第0、20、40、60、80期）。二、请注意，我们通过对通道维度上的最后一个卷积层的特征求和并将其归一化为[0，1]来导出热图。可视化有几个启示：1）暹罗表示学习框架能够捕获对象的位置，这可以用来指导更好的作物的产生; 2）热图可以粗略地指示对象，但是在早期阶段可能需要一些预热。基于上述分析，我们提出在训练过程中使用热图中的信息来定位对象。具体地，在训练的早期阶段应用RandomCrop以收集整个图像的语义信息。然后，我们应用一个指示函数从热图中获得对象B的边界框，16035∈RandomCropRandomCrop +语义感知本地化对比作物图3. RandomCrop、RandomCrop +语义感知本地化和我们的ContrastieCrop的可视化。我们在左侧显示了三种设置的采样分布和可操作区域，在右侧显示了相应的采样对由RandomCrop生成的配对包括几个完全错过对象的假阳性（标记在黄色框中）。将RandomCrop与语义感知定位一起使用可以减少误报，但会引入具有较大相似性的简单阳性对最后，我们的对比作物可以减少假阳性对，同时增加方差。可以写成，B=L（1[M> k]），（2）其中M表示热图，k[0，1]是激活的阈值，1是指示函数，L计算激活位置的矩形闭合。在获得边界框B之后，可以如下生成语义裁剪：（xs t e c，ystec，hstec，wstec）=Rcrop（s，r，B），（3）其中，xs t e c 、ystec、hstec、wstec、s、r和Rcrop的定义类似于等式（1）。1.一、考虑到可能存在的粗定位问题，我们通过只将作物中心约束在B内来扩大可操作区域。这也降低了潜在的负面影响。在训练和推断阶段分辨率差异的积极影响[38]。在训练阶段，边界框以规则的间隔逐渐更新，以利用模型学习的最新特征。请注意，我们的目标不是获得精确的定位，而是通过找到感兴趣的对象来指导作物的生成边界框的尺度由阈值参数k ∈[0，1]控制。一般一个较大的k导致小的盒子，并且将限制要制造的作物的多样性。然而，较小的k可能包括许多不相关的背景纹理，并且不足以找到对象。我们研究了不同阈值k在Sec.4.4我们根据经验发现，所提出的局部化模块对该参数不敏感，并且可以在宽范围的k内改善基线。最后，我们在图中展示了语义感知本地化的采样效果。3.第三章。与RandomCrop相比，可以发现当应用所提出的模块时，假阳性对显著减少。这提供了证据表明，在没有注释的情况下训练的自监督神经网络能够识别感兴趣的对象及其位置。通过这种方式，视图生成不再需要额外的区域建议或地面实况边界框[10，51]。3.3. 中心抑制采样语义感知定位方案提供了有用的指导以减少假阳性情况，但是由于较小的可操作区域而增加了接近外观对的概率。在本小节中，我们将介绍中心抑制采样，旨在解决这一困境。16036w=作物的s/r- --算法1用于Siamese表示学习的ContrastieCrop输入：图像I、裁剪比例s、裁剪比率r、激活阈值k、β分布参数α。h=s·r作物高度F= Forward（I）最后一层的特征M=Normalize（F）归一化后的热图B=L（1[M>k]）二、x=Bx0+（Bx1−Bx0）· u，u <$β（α，α）y=By0+（By1By0）v，vβ（α，α）从β分布中提取样本裁剪中心x和y输出：裁剪C=（x，y，h，w）0.6030.5990.5950.5910.5870.5832019年12月31日至2019年12月31日正相似性其主要思想是通过将作物分开来减少作物聚集在中心具体地说，我们采用β分布β（α，α），它有两个相同的参数α，这表明它是一个对称函数。通过这种方式，我们可以很容易地控制具有不同α的分布形状。由于目标是扩大作物的方差，我们设置α <1，这给了我们一个U形分布（即，在中心附近概率较低，在其它位置概率较大）。以这种方式，农作物更可能散布到可操作区域的边界线附近，并且可以在很大程度上避免大量重叠的情况。将中心抑制采样与语义感知定位相结合，我们最终可以将我们的ContrastieCrop公式化为图4.语义丰富度和正相似度之间的关系。点是通过改变α来获得的，每个点的得分是通过对大量的种植试验结果进行平均来计算的。与RandomCrop相比，我们的ContrastiveCrop在相同的相似度水平（垂直）下传递了更多的语义信息，而在相同的语义信息水平（水平）下产生了更少的相似正对。0.900.870.840.81（xs t e c，ystec，hstec，wstec）=Ccrop（s，r，B），（4）其中，Ccrop表示应用中心抑制分布的采样函数，B是与等式中相同的边界框。3 .第三章。请注意，beta分布的形状由参数α决定，并影响方差0.780.750.720 1000 2000 3000 4000 5000训练迭代作物。我们研究了不同α在Sec. 4.4，包括α>1，给出倒U形。我们的对比作物的效果如图所示3 .第三章。与RandomCrop方法相比，由于语义感知的定位，我们的方法可以显著减少误报对.同时，通过中心抑制方差的应用，在正对中引入了较大的我们展示了Al-出租1中的对比作物管道。整个模块对其他transformations是不可知的，并且可以很容易地集成到一般的对比学习框架中。3.4. 讨论为了更好地理解ContrativeCrop的行为，我们讨论了可能有助于其有效性的几个属性。我们首先调查语义信息和积极的相似性之间的关系。我们把班级成绩图5.训练中正对的相似性。较小的阳性相似性表示较硬的阳性样本，这可能会增强表征学习[50]。以RandomCrop为基线，只添加本地化会导致相似度稍大.我们的ContrastiveCrop结合了语义感知定位和中心抑制采样，有效地减少了阳性的相似性。作为分类语义信息的丰富性的指示符正对的相似度在潜在空间中计算为正表示之间的余弦相似度。类得分和相似性都是来自于大量种植试验的平均结果，一个标准的ResNet-50 [22]用ImageNet [14]标签训练。它们的关系如图所示。4.第一章可以发现，在相同的方差水平下，ContrastieCrop比RandomCrop传达了更多的语义信息，显示了RandomCrop对比作物=0.8=0.7=0.6=0.5=0.4随机作物对比作物RandomCrop+语义感知本地化语义丰富性正相似性16037方法CIFAR-10R-CropCIFAR-100R-Crop微型ImageNetR-CropSTL-10R-CropSimCLR [5]89.6390.0860.3061.9145.1946.2188.9589.53MOCO [20]86.7388.7856.1057.6547.0947.9889.1789.81BYOL [17]91.9692.5463.7564.6246.0847.2391.8492.42新加坡[8]90.9691.4864.7965.8243.0344.5489.3989.83表1.不同对比方法和数据集的线性分类结果。R-Crop和C-Crop分别表示RandomCrop和ContrastieCrop我们采用ResNet-18作为基础模型，并使用统一的训练设置重现所有方法，如第2节所述。四点二。语义感知本地化的有效性。此外，在相同的语义信息下，对比作物比随机作物实现更大的方差，这可以归因于中心抑制采样。我们进一步在图1中的训练过程中可视化正对的相似性。五、如图所示，仅向RandomCrop添加语义感知定位略微增加了相似性，因为定位将作物限制在较小的可操作区域中。我们的对比作物进一步纳入中心抑制采样，显示出比其他两个更小的积极相似性。这表明由ContrastieCrop采样的正对是更难的，这有助于学习更多的视图不变特征，如FT [50]中所建议的。然而，不同的FT，减少了积极的相似性，在特征空间中，我们直接采样更难的作物从原始数据，同时仔细考虑语义信息。4. 实验在本节中，我们使用流行的对比方法在各种数据集上进行了广泛的实验，以证明我们方法的有效性和通用性我们首先在第二节中介绍数据集和对比方法。4.1.秒4.2描述了实现细节。然后，我们评估我们的方法与常见的线性评估协议在第二节。四点三。消融实验的结果示于第12节中。4.4最后，第4.5呈现了下游对象检测和分割任务的传输性能。4.1. 数据集基线方法我们使用最先进的无监督对比方法在广泛的数据集上对我们的方法进行评估。数据集包括 CIFAR-10/CIAFR-100[25] ， Tiny ImageNet ， STL-10[11] 和ImageNet[14]。通常，这些数据集是为对象识别而构建的，并且图像包含对象的图标视图。基线对比方法包括Simplified [5]、MoCo V1 V2 [7，20]、BYOL [17]和SimSiam [8]。4.2. 实现细节我们的ContrastiveCrop旨在为对比学习提供更好的视图，这对自监督学习框架及其相关训练组件（如骨干网络，损失，优化器等）是不可知的。因此，我们在进行培训时严格保持相同的培训设置。通过进一步的超参数调整，可以预期更大的增益，这不是这项工作的重点。对于小数据集（即，CIFAR-10/100，Tiny ImageNet和STL-10），我们在所有实验中使用相同的训练设置。在预训练阶段，我们训练ResNet-18 [22] 500个epoch，批量大小为512，余弦退火学习率为0.5。线性分类器在第60和第80个时期被对于ImageNet上的实验，我们采用ResNet-50作为基础模型。MoCo V1 V2和SimSiam的预训练设置完全遵循其原始作品。我们用较小的批量大小512和余弦退火学习率0.05来复制Simplified。对于线性评估，我们对所有基线方法采用与[20对于我们的方法，我们设置k=0。1为激活阈值，α=0。六是抽样。本地化框以20%的频率更新（即，总共4次更新，除了最后一个epoch），这增加了可忽略的额外训练开销;RandomCrop在第一次更新之前应用以收集全局信息，如第2节所述。3.2.所有的实验都是在8个GPU上进行的我们使用SGD优化器，动量为0.9，权重衰减为10−4和0，分别用于预训练和线性评估4.3. 线性分类在本节中，我们将按照通用协议使用线性分类来验证我们的方法。我们冻结编码器的预训练权重，并在其上训练监督线性分类器。报告验证集上的前1个分类准确度结果。CIFAR-10/100、Tiny ImageNet和STL-10上的结果。我们在这些小数据集上的结果显示在Tab中。1.一、在所有实验的相同训练设置下，Con-16038∼65.06864.56664.063.563.062.562.00.000.05零点一0.150.20零点二五零点半K646260580.10.30.60.81.01.21.5(a) 准确度与 k（b）准确度与α图6.IN-200 w.r.t.的消融结果k和α。子图(a)比较了RandomCrop（黑色图）和RandomCrop +语义感知定位（蓝色图）。在子图（b）中，我们固定最佳k = 0。1用于本地化（蓝色图），并比较它用对比作物研究不同α.transtiveCrop持续改进基线方法至少0。百分之四结果表明，所提出的方法是通用的，不需要大量的参数调整。在训练过程中以20%的频率更新定位框（即，总共4次，除了最后一个纪元），表2.比较RandomCrop和我们的ContrastieCrop与IN-200和IN-1K上的线性分类结果模型预先训练了100个epoch，在一种方法中使用相同的训练设置进行公平比较。增长超过0。25、业绩开始迅速下滑。我们认为原因是更小的边界框戏剧性地减少了视图的方差，使得学习判别特征变得微不足道。增加了微不足道的训练开销。频段0%的百分比百分之十百分之二十百分之三十百分之五十Acc.（%）63.4364.4064.6164.4064.11ImageNet上的结果。ImageNet的结果分为两部分：1）标准ImageNet-1 K（IN-1 K），用于预训练。2)IN-200，它由200个随机类别的IN-1 K组成，用于烧蚀实验。如 Tab. 所示。 2. 在 IN-1 K 上，我们的方法比Simplified ， MoCo V1 ， MoCo V2 ， SimSiam 的RandomCrop方法的性能高0. 25%，1. 09%，0. 49%和0。分别为33%。在IN-200上看到更大的改进。与基线方法的一致增益显示了对比方法的有效性和通用性。4.4. 消融研究在消融研究中，我们分别研究了语义感知局部化模块和中心抑制采样。我们还研究了当它与不同的转换相结合时，对比作物的效果。我们用 MoCo V2 和ResNet-50进行了实验，并报告了IN-200上的线性分类结果。语义感知本地化。在我们的方法中，未监督的语义感知定位作为指导，使作物。我们研究了k的影响，它决定了本地化框的规模，k越大，框就越小。我们还与不使用本地化的RandomCrop（即，k=0）。实验结果如图所示。6a.可以发现，使用局部化框在0.05至0.2的范围内优于RandomCrop基线（黑色图）。这显示了在很大程度上消除假阳性的有效性。但是，作为K表3. 线性分类精度随定位框更新频率的变化而变化。RandomCrop在第一次更新之前应用。我们还研究了Tab中本地化框更新频率的影响3 .第三章。它表明在训练过程中只有一次更新（即，50%）可以优于随机裁剪基线（即，0%），具有不平凡的边际。更大的改进是在10%-30%的范围内，其中有更多的更新。这些结果表明，我们的方法可以很好地适用于不同的更新频率。中心抑制采样。本文采用β分布进行中心抑制抽样，从而可以用不同的α控制其方差。在这里，我们通过迭代多个α来研究不同方差的影响。结果示于图6b，k=0。一是本地化。当α<1时，我们的ContrastieCrop对比度优于具有局部化的RandomCrop，显示了中心抑制采样的效果我们还研究了比均匀分布具有更小方差的α>1（即，α=1）。当α>1时，观察到准确度下降。这表明，更好的对比度需要更大的作物方差。与其他转换的对比。为了进一步比较对比裁剪和随机裁剪的效果，我们研究了它们与其他图像变换的组合。在这里，我们选择了RandomCrop+语义感知定位RandomCrop对比作物RandomCrop+语义感知本地化精度精度方法Arch.时代IN-200Top-1IN-1KTop-1SimCLRR5010062.1461.60Simplified + OursR5010063.0861.85MoCo V1R5010064.5257.25MoCo V1 +我们的R5010065.8058.34MoCo V2R5010063.4364.40MoCo V2 +我们的R5010064.6164.89SimSiamR5010062.8965.6216039∼预训练IN-1KTop-1VOC检测AP AP50AP75COCO实例段。APmkAPmk50 75COCO检测APbbAPbbAPbb50 75随机初始化-33.860.233.129.346.930.826.444.027.8监督76.153.581.358.833.354.735.238.258.241.2[37]第三十七话70.157.682.764.634.155.236.339.058.542.0[20]第二十话60.655.981.562.633.654.835.638.558.341.6MoCoV1 +对比作物63.056.181.763.033.955.236.138.858.541.9表4.对PASCAL VOC检测和COCO检测以及实例分割的结果进行微调。所有模型都在ImageNet-1 K上预训练了200个epoch。在VOC上，训练集和评估集是trainval2007+2012和test2007，在COCO上是train2017和val2017。所有型号都经过微调，可在VOC上进行24K迭代，在COCO上进行90K迭代。MoCo V2 [7] ，包括 Flip ， ColorJitter ， Grayscale 和Blur。消融结果见表1。五、如果所有其他转换都被移除，ContrastieCrop为0。比RandomCrop高4%，这是其优越性的直接证据。此外，只有一个额外的转换，形成，对比作物优于随机作物0。百分之三0的情况。百分之八最大的差距1。2%，当所有的变换都被合并，这表明通过进一步的颜色变换，可以更大地利用ContrastieCrop的潜力此外，这些结果表明，我们的对比作物是兼容的和/或正交的其他转换。翻转颜色抖动+灰度模糊R裁剪C裁剪美国63.464.6✓50.450.9✓60.661.4✓44.945.245.545.9表 5. MoCo V2 中使用的其他转换的消融。我们结合ColorJitter和灰度作为一个单一的颜色变换。R-Crop和C-Crop分别表示RandomCrop和Contrastive- Crop结果来自在IN-200上预训练100个epoch的ResNet-504.5. 下游任务在本节中，我们测量我们的方法在对象检测和实例分割任务上的可移植性。在之前的工作[20，50]之后，我们在IN-1 K上预训练ResNet-50 200个epoch。对于下游任务，我们使用PASCAL VOC [16]和COCO [27]作为我们的基准，并且我们采用与MoCo的detec-tron 2代码库[ 42 ]相同的设置预训练模型的所有层都在目标数据集上进行端到端的微调。PASCAL VOC对象检测。在[20]之后，我们使用更快的R-CNN [32]，其主干为R50-C4[21]第21话侦查员我们对模型进行微调，trainval2007+2012在VOC测试2007上进行拆分和评估。结果见表1。4.第一章与MoCo V1基线相比，我们的方法实现了+0.2AP，+0.2AP50和+0.4AP75的一致改善。COCO对象检测/实例分割。用于检测和分割的模型是Mask R-CNN[21]具有R50-C4骨架。我们在train2017集合上微调了90K次迭代，并在val2017上进行了评估。如Tab.所示。4，所提出的对比作物在所有指标上都取得了优异的性能。5. 结论在这项工作中，我们提出了对比作物，这是旨在使更好的对比意见暹罗表示学习。对比作物采用语义感知的本地化，以避免大多数误报，并应用中心抑制采样，以减少琐碎的积极对。我们创新性地考虑语义信息时，转换一个样本，并彻底调查合适的对比学习的方差。通过与Simplified、MoCo、BYOL和SimSiam等先进对比方法的大量实验，证明了该方法的有效性和通用性。最后，鉴于积极设计在对比学习中的重要作用，我们希望本研究能对今后积极设计的研究有所启发。鸣谢。这项研究得到了新加坡国家研究基金会在其AI新加坡计划下的支持（AISG奖号：AISG2-PhD-2021-08-008）。我们感谢 Google TFRC 支持我们访问云TPU。我们感谢CSCS（瑞士国家超级计算中心）支持我们访问Piz Daint超级计算机。我们感谢TACC（德州先进计算中心）支持我们使用Longhorn超级计算机和Frontera超级计算机。我们感谢LuxProvide（卢森堡国家超级计算机HPC组织）支持我们访问MeluXina超级计算机。16040引用[1] Sanjeev Arora 、 Hrishikesh Khandeparkar 、 MikhailKhodak、Orestis Plevrakis和Nikunj Saunshi。对比无监督表示学习的理论arXiv预印本arXiv：1902.09229，2019。2[2] Philip Bachman ， R Devon Hjelm ， and WilliamBuchwalter.通过最大化跨视图的互信息来学习表示NeurIPS，2019。2[3] MathildeCaron ， HugoTouvron ， IshanMisra ， Herve'Je'gou ， Julien Mairal ， Piotr Bojanowski ， and ArmandJoulin.自我监督视觉转换器中的新兴特性。arXiv预印本arXiv：2104.14294，2021。2[4] 陈鹏光，刘舒，贾佳雅。 Jigsaw clustering forunsupervised visual representation learning. 在 CVPR ，2021年。2[5] 陈婷，西蒙·科恩布里斯，穆罕默德·诺鲁齐，和葛offrey Hinton.视觉表征对比学习的一个简单框架。在ICML，2020。一、二、六[6] 陈婷，罗凯文，李拉拉。对比损失的有趣特性arXiv预印本arXiv：2011.02803，2020。2[7] Xinlei Chen，Haoqi Fan，Ross Girshick，and KaimingHe.通过动量对比学习改进基线。arXiv预印本arXiv：2003.04297，2020。二、六、八[8] Xinlei Chen，Kaiming He.探索简单的连体表示学习。CVPR，2021年。一、二、六[9] Xinlei Chen，Saining Xie，and Kaiming He.训练自我监督视觉转换器之实证研究。 arXiv 预印本 arXiv ：2104.02057，2021。2[10] Ming-Ming Cheng，Ziming Zhang，Wen-Yan Lin，andPhilip Torr.Bing：在300fps下用于对象估计的二值化赋范梯度。CVPR，2014。4[11] Adam Coates，Andrew Ng，and Honglak Lee.无监督特征学习中单层网络的分析载于AISTATS，2011年。6[12] Ekin D Cubuk， Barret Zoph ，Dandelion Mane ，VijayVasude-van，and Quoc V Le.自动扩增：从数据中学习增强策略。arXiv预印本arXiv：1805.09501，2018。2[13] Ekin D Cubuk，Barret Zoph，Jonathon Shlens，and QuocV Le.随机扩增：实用的自动化数据扩充，减少搜索空间。在CVPR，2020年。2[14] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。CVPR，2009。五、六[15] Debidatta Dwibedi，Yusuf Aytar，Jonathan Tompson，Pierre Sermanet，and Andrew Zisserman.在朋友的帮助下：视觉表征的最近邻对比学习。arXiv预印本arXiv：2104.14548，2021。2[16] Mark Everingham ， Luc Van Gool ， Christopher KIWilliams，John Winn，and Andrew Zisserman.pascal视觉对象类（voc）的挑战。IJCV，2010年。1、8[17] Jean-BastienGrill ， FlorianStrub ， FlorentAltche' ，CorentinTallec，PierreHRichemond，ElenaBuchatskaya ， Carl Do- ersch ， Bernardo Avila Pires ，Zhaohan Daniel Guo，Moham- mad Gheshlaghi Azar，etal. Bootstrap your own latent：一16041自我监督学习的新方法。 arXiv 预印本 arXiv ：2006.07733，2020。一、二、六[18] Rı z aAlpGuüler，N a taliaN ev er ov a，andIasonasKokkinos.密度：野外密集的人体姿势估计。在CVPR，2018年。1[19] Ryuichiro Hataya ， Jan Zdenek ， Kazuki Yoshizoe 和Hideki Nakayama。更快的自动增强：使用反向传播学习增强策略。在ECCV，2020年。2[20] Kaiming He，Haoqi Fan，Yuxin Wu，Saining Xie，andRoss Girshick.用于无监督视觉表示学习的动量对比。在CVPR，2020年。一、二、六、八[21] KaimingHe ， GeorgiaGkioxari ， PiotrDolla'r ，andRossGir-shick.面具R-CNN。InICCV，2017. 1、8[22] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在CVPR，2016年。五、六[23] Oli vi erJHe´ naf f，Ara vindSriniv as，Jef fre yDeFauw，AliRazavi，Carl Doersch，SM Eslami，and Aaron vanden Oord.使用对比预测编码的数据高效图像识别。arXiv预印本arXiv：19

下载后可阅读完整内容，剩余1页未读，立即下载