基于同步动量矩的无监督视觉学习方法的论述总结

181 浏览量更新于2023-12-01 收藏 745KB PDF 举报

无监督学习

实验结果

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2255获取更多论文基于同步动量矩的无监督视觉表征学习庞波1、张一凡1、李耀义2、蔡佳2、卢策武11上海交通大学{pangbo，zhangyf sjtu，lucewu} @ sjtu.edu.cn华威科技有限公司公司{liyaoyi，caijiai1} @ huawei.com抽象的。在本文中，我们提出了一种真正的组级对比视觉表示学习方法，其在ImageNet上的线性评价性能超过了vanilla监督学习。两种主流的无监督学习方案是实例级对比框架和基于聚类的方案。前者采用极细粒度的实例级判别，由于存在漏报，其监督信号效率不虽然后者解决了这个问题，但它们通常会带来一些影响性能的限制。为了综合它们的优点，我们设计了SMoG方法。SMoG遵循对比学习的框架，但从实例到组替换对比单元，模仿基于聚类的方法。为了实现这一点，我们提出了动量分组方案，同步进行特征分组与表示学习。这样，SMoG解决了基于聚类的方法通常面临的监督信号滞后的问题，并减少了实例对比方法的误报。我们进行了详尽的实验，以表明SMoG在CNN和Transformer骨干上都能很好地工作。实验结果表明，SMoG已经超过了目前的SOTA无监督表示学习方法。此外，它的线性评价结果优于香草监督学习所获得的性能，该表示可以很好地转移到下游任务。1介绍在采用深度学习和数据驱动作为主流框架的时代[33]，学习表示的质量在很大程度上决定了大多数任务的模型性能[75]。长期以来，人们利用有监督的任务，采用大量的注释来训练模型并获得良好的表示。然而，这种简单有效的方案面临着昂贵且耗时的注释成本[2，17，18，57]以及由注释信息的偏差引起的非理想泛化性能[4，51]的问题。为了解决这些问题，人们广泛研究了非监督表示学习方法[58]，包括生成模型刘策武鲁为通讯作者。arXiv：2207.06167v1 [cs.CV] 2022年72+v：mala2255获取更多论文2B. Pang等人提供表达性潜在特征[30，55]和具有不同借口任务的自我监督方法[62，62，53，48]。然而，这些方法和监督方案之间仍然存在性能差距。近年来，非监督表示学习取得了很大的进步，基于SOTA对比学习[8，23，6，21]的非监督方法将性能差距缩小到3%以下。我们继续研究无监督表示学习，站在以前的对比和基于聚类的方法的肩膀上，最终，将无监督方法的性能推到香草监督方案的水平之上。传统的对比学习方法以实例判别为前提任务。这种细化分类法是将每一个样本作为一个类别进行判别.因此，它将引入许多假阴性对，导致低效的监督信号。另一个问题是，准确的实例判别需要对整个数据集进行成对比较。然而，有限的再-来源，大多数实现承诺采用com的子集，组实例使用较大的批量大小或内存库[23，67]，这进一步降低了学习的效率。以往的聚类方法都是将实例判别放宽为组判别来解决这些问题。集群的核心任务是如何将实例划分为组。他们尝试采用K-means聚类方法[5，71]或最优传输[3，6]方法来实现这一点，但由于它们引入的限制（分别为异步两阶段训练或局部均分），他们图1：组对比与实例对比学习与实例对比（红色部分）相比，组对比（蓝色部分）通过更高级别的语义学习表示，这可以减少已经学习的相似实例仍然被视为否定对（假否定）的机会分组过程后对比元素的显著减少也使全局对比更容易计算。彩色的实例或组表示正对，灰色的是负对。don’t在这里，我们将实例对比和基于聚类的方法的优点集成到新提出的遵循实例对比框架的SMoG方法中，并将其扩展到组级（见图1）。一个主要的设计是动量分组方案，允许梯度传播通过组同步进行的实例分组过程与表示学习。这是第一种直接在组而不是实例上应用对比的方法，因为没有梯度可以通过组fea传播。+v：mala2255获取更多论文基于SMoG 3的无监督视觉表示学习SMOG克服了以往聚类方法的不足，避免了实例对比中的假阴性，消除了以往聚类方法的局限性该方法简单有效。我们在几个标准的自我监督基准和多个下游任务上对其进行评估。特别是，在线性协议下，它在ImageNet上使用标准ResNet-50实现了76.4%的top-1准确率[25]，首次超过了vanilla监督级性能！大量的实验表明，SMoG的工作鲁棒性，我们观察到一致的SOTA性能下的线性（+0.8%），半监督分类（+2%），检测和分割任务。此外，SMoG在CNN和Transformer主干上都能很好地2相关工作2.1手工制作Pretext任务采用托词任务提供训练监督信号是一种有效的无监督表示学习方法.到目前为止，研究良好的借口任务包括拼图求解[48，49]，着色[62，32，73]，去噪[62]，修补[53]，超分辨率[34]和补丁位置预测[13，14]。此外，对于具有时间维度的视频视觉输入，顺序相关的预文本任务被证明是有用的，例如排序帧[19，46，66]，运动估计[1，29，61，39]和进一步的帧估计[43，44，56，63，64]。由于这些任务的特殊性，学习到的表征往往带有一定的偏差，导致下游任务的性能相对有限。2.2实例判别法目前主流的对比学习方法[23，8，21，6，74，37，47，20，59，52]通过实例判别来学习表示，该实例判别将训练集中的每个图像（像素）视为其自己的类别。该方案在下游任务上实现了最先进的性能。它由In-foNCE[50，8，22]或其变体提供的共同训练方向是最大化互信息[50，27]，这需要大量的负对来获得良好的性能[8]。采用较大的批处理大小是一种简单的方法，但它会消耗大量资源。为了解决这个问题，MoCo[23]和[67]提出利用存储器结构。一些最新的设计[21，9，7]通过不对称连体结构或归一化技术在没有负样本的情况下进行对比最近的工作[37]提出了具有希尔伯特-施密特独立准则的自监督学习，这产生了对InfoNCE的新理解而ESTIC[47]通过因果框架下的不变性正则化器提高NNNN[15]采用数据集中最近的邻居作为阳性。UniGrad[59]通过梯度分析提供了统一的对比公式。实例区分，作为一个过度的细粒度分类设置，意味着一些问题，如假阴性对[76]。+v：mala2255获取更多论文我exp（sim（fθ（xa），f<$η（xj））/τ）4 B号文件。Pang等人2.3群体判别法我们的工作遵循群体歧视计划。DeepClustering[5]采用K-means聚类方法来获取组并从中学习特征以迭代的方式。然而，两步训练方案（聚类，学习）导致监督信号延迟，不利于有效的表示学习。ODC[71]和CoKe[54]缩短了两步循环周期，但没有解决延迟问题。SeLa[3]和SwAV[6]将分组问题视为伪标签，并将其作为最优运输任务来解决。但是，为了避免退化，他们增加了均分约束，降低了分组的有效性。我们的工作站在这些工作的肩膀上，解决了上述问题，并最终首次达到了香草监督学习的水平3方法现有的SOTA方法一般采用实例对比学习，采用双流连体网络结构，以InfoNCE或其变体作为损失函数进行对比。这是一个杰出的和强大的结构，已被许多模型证明然而，存在两个潜在的问题：1）在问题设置方面，实例区分过于细粒度，学习到的表示在一定程度上与依赖于高层语义的下游任务相悖，因为对于高层语义，实例级对比引入了许多假否定对，损害了表示学习的质量。2)在技术实践方面，基于InfoNCE的对比学习需要大量的负对来提高理论性能的上界[8，23]，这对计算资源提出了挑战或需要特定的模型设计。为了解决上述两个问题，以前的工作[6，5，65]提出了基于聚类的方法：采用组作为否定，以减少假否定和否定对的总数然而，这些方法引入了一些限制，并失去了对比方法的优点：始终更新的优化信号和完全不受限制的特征分布。为了综合对比学习和聚类方法的优点，提出以组为单位进行对比，设计了第一个组级对比学习算法同步动量矩（SMoG），继承和发展了现有的对比学习技术，将无监督方法的性能提升到了有监督的水平。3.1小组水平对比学习通常，给定数据集X ={x1，x2，. xn}和具有参数集θ的视觉模型fθ，该视觉模型将每个实例映射到向量表示fθ（x），实例对比学习框架的流水线可以表示为：exp（sim（fθ（xa），f<$η（xb）/τ）Li=−logΩi i，（1）xa，xj∈Y<$X我XJ+v：mala2255获取更多论文====我我我我我我 J基于SMoG 5的无监督视觉表示学习其中sim（u，v）通常被实例化为归一化内积，fη只是fθ或fθ的变体，例如其动量更新版本或版本没有最后几层（预测器）。xa和xb是两个不同的增广我我X的观点I.理论上，xj应该来自训练集X，但实际上考虑到计算复杂性，通常从小得多的子集Y=X中选择Xj。为了将这个框架扩展到组级别，我们需要首先定义并生成一定数量的具有组特征g的组，将每个实例附加到某个组，允许梯度通过组传播，并在训练过程中同步更新它们：ca，{g} ← fθ（xa）|（g），其中组分配函数是组分配函数，它接受实例和组特征，生成实例的对应组c a，并更新组{ g }。因此，ci=gk意味着实例xi依附于群k。有了组级特征，我们可以推导出组级对比学习框架：exp（sim（ca，cb）/τ）Li=−logΩexp（sim（ca，g）/τ），（2）其中G是群特征的集合。由于组的数量是某个小值，我们可以对所有组对进行全局组对比下一节将详细介绍群特征的获取算法.在这里，我们强调，除了在没有额外限制的情况下很好地表达一组相似实例之外，合格的实例还需要确保每个组特征ci与实例特征fθ（xi），因为梯度需要通过ci反向传播到fθ（xi）以训练参数，这意味着ci组要素实例要素聚集力图2：左侧部分示出了由等式2描述的组对比目标。2. 随着训练的进行，初步形成的有意义的表征有很大的机会使xa可以替换最近的fθ（xi）bi参与对比。这是与以前基于聚类的方法的核心区别，因为通过聚类获得的组特征不能反向传播和xi属于同一组。在这种情况下，聚集力（绿色箭头）不能使它们靠近。因此，我们将其修改为Eq中的版本3在右边的部分说明，在那里对比学习所需的推力和拉力总是可以发挥作用。梯度和直接对比的组特征不能训练网络。直观地说，新设计的组对比学习方法旨在直接调整组特征的分布，并且由于梯度可以通过组特征传播到实例特征，因此该算法可以梯度地gj∈G+v：mala2255获取更多论文我我我我我θ我J我我第6 B. Pang等人中文（简体）��中文（简体）��a网络得到表示b我们的SMoGc传统的对比方法图3：我们的SMoG与常规对比法。与典型的对比学习方法一样，SMoG通过一种连体结构从同一幅图像的两个增强视图中获取实例特征SMoG在组级别工作，而不是直接与实例功能相具体来说，它动态地将已经看到的实例分组，将新实例分配与表示学习同步，组特征被新实例以动量方式更新。黄色虚线显示了反向传播路径，我们可以看到组特征也可以反向传播梯度。学习实例表示法。然而，不幸的是，它在训练过程的后半部分存在缺陷。随着有意义表征的逐渐形成，ca和cb趋于同一群体特征。这将使我我监督信号不能收集类似实例并使它们更接近（参见图2）。为了解决这个问题，考虑到ca是一组fθ（x）的组合，我们将组对比学习损失改为：exp（sim（fθ（xa），cb）/τ）Li=−logΩexp（sim（f（xa），g）/τ）.（三）当ca=cb时，3可以被看作是2的将完整损失分成几个批次，类似于SGD和GD。当ca=cb时，我我当量3仍然可以收集实例，这解决了问题。这个公式看起来类似于以前的基于聚类的方法，但请记住，我们仍然进行组对比，而不是以前的方法所做的实例分类，因为组特征ci和gj可以传播梯度，因此与fθ（xa）在对比中具有相同的地位，并直接指导学习方向。3.2同步动量矩SMoG对比学习框架图。三场演出。生成xa和势头��መ中文（简体）组拉瓜��中文（简体）��更新组1势头��መ对比联系我们将组指定Momentum更新gj∈G+v：mala2255获取更多论文我电子邮件--无监督视觉表示学习（SMoG 7）xb通过两组不同的增广ta，tb，并通过一个连体网络得到它们的特征。根据MoCo [23]，我们采用动量网络：f<$η<$α<$f<$η +（1 − α）<$fθ，其中α是动量比，这里fθ表示也存在于f<$η中的层。到目前为止，SMoG与典型的对比学习方法是一致的。通过增加组赋值函数，我们可以得到完整的SMoG方法。生成组特征如上一节所述，组级对比通过组特征优化实例特征。因此，群特征必须代表最近的实例特征才能传播梯度，即ci需要与fθ（xi）同步更新，并由可微函数计算由于计算代价的原因，直接采用传统的全局聚类算法作为聚类算法，在每次迭代中同步更新ci和fθ（xi）是不可行的因此，我们简单地将其修改为动量分组方案，通过与表征学习同步的迭代算法生成ci在训练开始之前，我们初始化l组特征g1，.，gk，，gl随机地或使用诸如k均值的聚类方法。然后在训练过程中，我们通过以下方式更新gk并在每次迭代中获得cici= argmingk（sim（fθ（xi），gk））gk←β<$gk+（1−β）<$meanct=gkfθ（xt），（四）其中β是动量比，xt来自一个小批量，我们省略了归一化。重要的是，这种机制不会引入额外的限制。动量分组方案将每个实例分配到最近的组，并以动量方式迭代更新组特征。通过这种方式，组特征总是实例视觉特征的最新代表，更重要的是，对于每次迭代，采用更新的gk进行对比，梯度可以通过gk反向传播，fθ（xi）.这是与以前基于聚类的方法的主要区别。动量分组方案确保组特征gk始终表示最新学习的实例表示。然而，由于该算法是基于一个局部子集的实例（一批）的迭代更新，在早期的训练阶段，它可能是不稳定的。组的规模可能是不平衡的，或者所有的实例都崩溃成几个组。为了解决这个问题，我们定期对缓存的相对较大的特征集应用额外的分组过程，以重新定位组。分组之间会有很长的间隔，这些间隔很轻，很快，因此，开销可以忽略不计。3.3与以前的聚类方法比较群体歧视不是第一个提出的概念。以前的基于聚类的方法DeepClustering[5]和SwAV[6]也进行了它，就损失函数而言，这三种主要区别在于+v：mala2255获取更多论文×第8 B段。Pang等人群的生成方法和利用方法。我们的SMoG目标在像Eq这样的群体之间进行对比。2场演出。这对于以前的基于聚类的方法是不可能的，因为它们的组特征必须分离出来，并且不能将梯度反向传播到参数。因此，它们不对比组，而是将实例分类到组中。为了实现组对比，我们提出了动量分组方案，它允许我们直接对比组和传播梯度。虽然我们将最终损失修改为Eq。3为了提高性能，我们的SMoG仍然是一个组级对比算法，因为组特征直接指导优化方向。这就是为什么我们称我们的方法为“分组对比”而不是“聚类”来区分它们。SMoG进行组间对比，而不是基于聚类对实例进行分类。3.4实现细节增大。我们采用BYOL[21]中使用的非对称增强方法，其中Siamese网络的两个流有两个增强方案。这两种方案采用相同的颜色抖动，但其中一种方案一个是更强的高斯模糊，另一个是更强的日晒。由于我们采用的对比损失也是不对称的（实例和组特征之间的对比），因此不会将暹罗网络的两个流分配给一个固定的增加方案，而是以一种交替的方式采用其中之一。通过这种方式，两个流可以在相同的分布下生成实例特征，从而可以将它们映射到相同的组特征集。SMoG设置。像许多以前的作品[21，10，68]一样，fθ和fη都有一个背骨和一个投影头。并且fη具有堆叠在投影头上的额外预测头。采用主干的输出作为学习表示。这两种头部都是两层MLP，其隐藏层后面是BatchNorm [28] 和激活函数（ ResNet 的 ReLU 和 SwinTransformer 的 GELU[26][40]）。投影头的输出层也具有BN。隐藏层的维度是2048，而输出层，CNN是128，而Transformer是256。暹罗在实验中，我们将所有实例分成3 k个组，并使用K-means算法初始化组特征g。动量比β分组的线性时间表从1.0到0.99。为了避免崩溃，每300次迭代对过去300次迭代的高速缓存特征进行K均值分组特征，并且fθη与fθ的参数同步重置。训练前的细节。我们在ImageNet数据集上预训练模型[12]。对于CNN主干，我们使用LARS[69]优化器进行训练，具有4096个小批量64 GPU（采用ResNet50时）。基本学习率被设置为lr=0。3 batchsize/ 256，首先是10个epoch预热，然后是余弦调度器。重量衰减和温度τ分别设为10−6和0.1。对于基于Transformer的主干，我们采用Adamw优化器[42]。基本学习率和权重衰减分别为5e−4×batchsize/2048和0.05。其他设置+v：mala2255获取更多论文××†无监督视觉表示学习（SMoG 9）和CNN的骨干网是一样的为了有效的训练，我们还采用了多作物训练方案[6，7]，其中有两个大视图（224 224）和4个小视图（96 96）。当采用多作物时，随机作物的规模为[0.2，1.0]和[0.05，0.2]。4实验我们首先在具有CNN和Trans-former主干的Ima-geNet上的标准基准上评估SMoG。然后，我们比较了几个下游任务的性能，并给出了详细的消融研究。4.1线性评价根据标准基准[23，8，21，6，7，10，68]，我们首先评估了ResNet-50[25]和Swin Trans-former Tiny[40]的表示，这些表示通过线性协议使用所提出的SMoG进行训练：对冻结特征进行线性分类。ResNet-50上的结果显示在Tab.1，我们可以看到，由于引入的限制，先前的基于组的方法与实例对比方法相比没有优势（约-2%的top-1准确度）。而所提出的SMoG将基于组的方法的最佳性能提高了2.3%的top-1准确率，并在所有无监督表示方法中达到了SOTA性能。更重要的是，表1：ImageNet上的线性协议结果。使用ResNet50。表示模型采用多作物训练策略。“acc”是指准确性。模型epoch batchsize top1 acc top5 acc监督100ep25676.192.7实例对比法[74]第74话[23]第二十三话[9]第九话InfoMin 8月[60]800MOCoV3[10]400MoCoV3 800[21]第二十一话BYOL 800[70]第70话[47]第四十七话SSL-HSIC[37]1000256 69.6-256 71.1 90.1256 71.3-256 73.0 91.14096 73.1-4096 73.8-4096 73.2-4096 74.3 91.62048 73.2 91.04096 74.8 92.24096 74.8 92.2分组法DeepCluster 400 256 52.2-ODC[71] 400 256 57.6-[36]200 256 67.6-深潜器V2 400 4096 70.2-SwAV 400 4096 70.1-[54]2019年12月24日雾霾400204873.691.3雾霾800409674.591.9多作物SwAV† 400 4096 74.6-SwAV† 800 4096 75.3-DC-v2 <$800 4096 75.2-DINO†[7] 800 4096 75.3-[59]2016年12月19日[15]1000 4096 75.6 92.4SMoG†400409676.493.1在采用多作物训练策略[6，7]后，ResNet-50的无监督表示首次超过ImageNet上的我们采用Swin-Transformer来评估SMoG在Transformer骨干上的性能结果显示在Tab中。2. 对于双视图设置，大多数基于Transformer的主干比具有类似参数的CNN表现更差。但是变形金刚从多视角训练中受益更多我们持有+v：mala2255获取更多论文L†10 B. Pang等人认为自注意是一个全局算子，需要更多的数据来训练。因此，更强的增强导致更好的性能。与DINO（+2%）、MoCo（+2%）、EsViT（ +4% ）和 MOBY （ -0.5%）。请注意，为了公平比较，我们报告了仅使用 V 的EsViT的性能。在多作物设置中，SMoG在没有混合[72]增强的情况下实现了监督性能。由于mixup需要标签，因此它并不直接适用于无监督设置。表2：ImageNet上的线性协议结果。采用多作物栽培策略。吞吐量（im/s）是在NVIDIA V100 GPU上计算的，每帧128个样本。我们报告的性能没有混淆和标准的监督方法。模型主干吞吐量参数top1访问监督监督SwinTDeiT-S/168081007282177.8/ 81.377.5/ 79.8摩拜DeiT-S/1610072172.8摩拜SwinT8082875.0MoCoV3DeiT-S/1610072172.5MoCoV3ViT-B/163128576.7迪诺DeiT-S/1610072172.5迪诺†[35]第三十五话DeiT-S/16SwinT1007808212877.070.5EsViT†SwinT8082877.0雾霾SwinT8082874.5SMoG†SwinT8082877.7这种比较揭示了对比学习的一个里程碑式的进步。大型架构选项卡。3显示了具有较大宽度的ResNet-50的几个变体的结果[31]。有监督方法和以前的无监督框架的性能增加了类似的趋势。值得注意的是，在以前的作品[8，21]中，随着结构的增大，它们与监督学习的差距减小，但遗憾的是，我们没有观察到越来越多的监督学习。表3：ImageNet上具有较大主链的线性协议结果。我们在更广泛的ResNet上进行实验预训练细节与ResNet-50×1相同。模型主干参数top1 acc top5 acc监督Res50 （x2）18877.893.8Res50 （x4）37578.994.5BYOLRes50 （x2）18877.493.6Res50 （x4）37578.694.2SwAVRes50 （x2）18877.3-Res50 （x4）37577.9-雾霾Res50 （x2）18878.093.9Res50 （x4）37579.094.4SMOG的优势超过了监督的优势。在图4中，我们证明了在CNN和Transformer上，SMoG与vanilla监督方法相当4.2半监督微调评估接下来，我们通过半监督微调ImageNet训练数据子集上的无监督表示来评估所提出的SMoG。我们遵循[8]中采用的协议，我们采用的ImageNet的1%和10%标记分割是[8]中提供的固定分割。+v：mala2255获取更多论文×××无监督视觉表示学习（SMoG 11）监督的SMoGBYOL7978777675747320 80320参数数量（M）图4：ImageNet上的ResNet线性评估与监督训练的比较。我们可以看到，对于不同的模型大小，我们的SMoG实现了相当的性能与监督的方法。如Tab中所示。 4，在ResNet-50 1 上， SMoG 在1%和10%设置下始终优于所有以前的方法，2. 此外，我们还对全ImageNet上的无监督表示进行了微调.通过SMoG预训练，ResNet-50在标准训练配方下实现了78.3%的top-1准确率，超过直接监督学习 2.2% 。同样，ResNet-50 2也比直接监督训练高出2.4%。表4：ImageNet上的半监督结果。方法前1位接入（%）百分之一百分之十百分之一百前5名访问（%）百分之一百分之十百分之一百resnet-50×1resnet-50×2监督SimplifiedBYOL- -七十七点八58.571.7-62.273.5-93.883.091.2-84.191.7-雾霾63.6 74.4 80.2 85.6 92.4 95.24.3转移到其他Vision任务我们进一步将使用建议的SMoG学习的 ResNet-50的无监督表示转移到几个下游任务，即语义分割，对象检测和实例分割。我们首先在 Cityscapes[11]和VOC- 2012[16]语义分割任务上评估SMoG。为了公平比较-表5：语义分割任务的迁移学习结果。我们对VOC2012和Cityscapes数据集的表示进行了微调。分割模型是使用ResNet-50的FCN。模型城市景观mIoU mAccVOC-2012mIoU mAcc监督73.83 82.56 73.59 83.74MoCoV274.30 83.37 70.86 80.37SwAV74.80 83.01 74.97 84.27BYOL74.90 83.73 74.76 84.37雾霾76.03 83.97 76.22 85.01儿子，我们将所有方法与FCN的相同训练配方对齐[41]。结果监督SwinTSMoGSwinTSwAV x4SWAVx2护理x2Simplifiedx4SwAV遗迹Simplesx2MoCo-v3ImageNet Top-1精度监督25.4 56.4 76.1 48.4 80.4 92.9SimCLR48.3 65.6 76.0 75.5 87.8 93.1BYOL53.2 68.8 77.7 78.4 89.0 93.9SwAV53.9 70.2-78.5 89.9-巴洛双胞胎 55.0 69.7-79.2 89.3-SSL-HSIC52.1 67.9 77.2 77.7 88.6 93.6NNN56.4 69.8-80.7 89.3-雾霾58.0 71.2 78.3 81.6 90.5 94.2+v：mala2255获取更多论文Σ−∗12 B. Pang等人平均准确度和平均IoU见表1。5，我们可以看到，几乎所有的无监督表示都优于传统的监督表示，这表明在这个下游任务中，无监督表示已经是一个更好的选择。同样，SMoG在Cityscapes（+1.1 mIoU）和VOC-2012（+1.4 mIoU）数据集上的表现优于原始然后，我们在COCO[38]数据集上评估对象检测和实例分割任务。类似地，所有无监督表示都使用Mask-RCNN [24]的相同微调配方进行传输。我们在Tab中提供AP结果。6. 与语义分割相同，在这两个下游任务上，我们的无监督预训练表示优于有监督表示。尽管如此，SMoG仍然改进了当前的SOTA结果，在对象检测上+0.7 AP，在实例分割上+1.1 AP。4.4消融研究我们提供对SMoG关键成分的采用ResNet-50。网络训练100个时期，没有多作物。在线性方案下评价代表性表6：对象检测和实例分割任务的迁移学习结果。我们采用COCO作为微调数据集。带有ResNet-50-FPN的Mask RCNN是检测和分割模型。我们报告AP指标。为了评估分组质量，在图5中，我们提供了组熵的密度分布。所有三种组区分方法（我们的 SMoG 、SwAV 和 DeepClus-teringv2）都有3 k个组。为每个组的熵是ipilog（pi），其中pi是该组中属于类别i（数据注释）较低的熵意味着一个群具有更单一的语义，并且更有意义。因此，具有低熵的组越多指示分组质量越高。从图5，我们可以看到SMoG比两个基线多出两倍的低熵组，证明了它的优越性。群特征的动量比β从图7a中可以看出，β的线性递减时间表比固定时间表好得多。这是因为我们的动量分组方案在每次迭代中只使用一小部分特征（一批）更新组特征，并且在训练开始时，特征分布变化剧烈，小β将导致不稳定的组。因此，我们在开始时需要一个大的β来解决问题，线性调度是一个简单的解决方案。在采用线性下降的时间表后，我们的SMoG对β的最终值不敏感，我们采用0.99作为CNN和Transformer上所有实验的默认值方法COCO detAP bbAP bbAPbb50 75COCO实例段。APAPAP50 75随机初始化31.049.533.228.546.830.4监督38.959.642.735.456.538.1InsDis[67]37.457.640.634.154.636.4[45]第四十五话38.557.641.234.054.636.2MoCoV239.459.943.035.856.938.4SwAV38.560.441.435.457.037.7DC-v2[6]38.360.341.335.456.738.0BYOL39.459.943.035.856.838.5巴洛双胞胎39.258.742.634.355.436.5+v：mala2255获取更多论文无监督视觉表示学习（SMoG 13）0.60.40.20.002 4 6群的熵图5：每组的熵SMoG产生具有低得多的熵的组，其在高级语义方面代表更好的分组质量。避免崩溃仍然，因为组特征更新过程无法访问全局特征分布，所以在训练期间存在崩溃的可能性。因此，我们采用周期性聚类（pd）技巧来避免这种情况。Tab的前两行。7B证明了它的必要性。我们可以看到，它成功地使骨干学习有用的表示，但性能不够好。我们认为这是因为组特征总是基于仅由fθ生成的实例特征来生成和更新，从而导致不对齐从fn的特征。因此，我们也用fθ的参数重置fθη，每个集群。集成的PD与Fη复位导致理想的性能。令人惊讶的是，我们发现只有在没有聚类的情况下重置fη也可以避免崩溃。我们认为，fη特征分布的突然变化也有助于避免网络逐渐陷入退化。表7：SMoG消融研究。我们采用ResNet50作为骨干，在ImageNet上训练无监督算法100个epoch，没有多作物训练策略。我们报告线性评价结果（Top-1准确度）。(a) 动量比β。线性递减调度的性能较好.计划Top1访问固定0.99β65.91.0β→0.9β1.0β→0.99β1.0β→0.999β67.067.267.1(c)组数。3K对于SMoG来说已经足够了。(b) 应对崩溃的技巧。定期聚类是必要的。技巧Top1访问无0.1+ 周期聚类（PD）53.7+resetfnpodically53.4+pdresetfnperiodically67.2(d)你好动量更新更好地平衡了分组和学习。#组Top1访问方法Top1访问30065.2随机选择30.2100067.0采用最新42.1300067.2平均更新65.81000067.2动量更新67.2DCv2SwAVSMoG密度+v：mala2255获取更多论文±∼←∗−14B. Pang等人选项卡中的组数。7c，我们评估了线性协议下SMoG中使用的组数的影响结果表明，SMoG对群数不敏感。即使我们在很大的范围内（1k 30k）进行调优，性能也保持在稳定的水平（0.2），只要有足够的组（300组太少，性能不好）。这与SwAV的结论一致[6]。由于动量分组算法需要节点间的通信来同步所有节点之间的组特征，因此组的增加增加了动量分组算法的计算时间消耗因此，我们采用3K作为所有实验的默认设置。用于更新选项卡中的组要素的方法。7d，我们评估不同的运营商更新组功能。我们在这里考虑4个操作：1）随机选择（RS）：随机选择一组最新的实例特征，并采用它们作为组特征。2)采用latest（AL）：gk←mean ct= gkfθ（xt）。3）平均更新（AU）：gkgk+（1/n）（meanct=gkfθ（xt）gk），其中n是属于组k的实例的总数，包括当前迭代中的实例4)动量更新（MU）：Eq. 四、RS作为随机基线，其AL也没有很好地执行，这意味着本地分组方法将不会为表示学习提供有效的训练信号。AU遵循顺序k-means算法，并取得了比较好的性能。但与我们的MU相比，它不是与表征学习一起进行分组的最佳选择。特别设计的MU赋予新特征更多的权重，更适合于组级对比学习。5结论我们将最近流行的对比学习扩展到组级别，并将线性协议下的无监督表示性能提升到有监督级别。SMoG将表征学习和分组过程同步进行我们希望新设计的组级对比学习将有助于社区进一步发展视觉无监督方法。鸣谢本工作得到了国家重点研发计划（2021 ZD 0110700）、上海市科技重大专项（2021 SHZDZX 0102）、上海启智研究所、上海市科技创新中心（018-RGZN-02046）的支持。+v：mala2255获取更多论文无监督视觉表示学习（SMoG 15）引用1. Agrawal，P.，Carreira，J.，Malik，J.：学习通过移动来观察。 In：ICCV. pp.372. 浅野，Y.M.，Patrick，M.，Rupprecht，C.，Vedaldi，A.：通过多模式自我监督从头开始标记未标记的视频。arXiv预印本arXiv：2006.13662（2020）3. 浅野，Y.M.，Rupprecht，C.，Vedaldi，A.：通过同时聚类和表示学习的自标记arXiv预印本arXiv：1911.05371（2019）4. 本-大卫，S.，Blitzer，J.，克拉默，K.，Pereira，F.，等：域自适应的表示分析。NeurIPS19，137（2007）5. Caron，M.，Bojanowski，P.，Joulin，A.，Douze，M.：深度聚类用于视觉特征的无监督学习。In：ECCV. pp. 1326. Caron，M.，米斯拉岛，Mairal，J.，Goyal，P.，Bojanowski，P.，Joulin，A.：通过对比聚类分配的视觉特征的无监督学习。arXiv预印本arXiv：2006.09882（2020）7. Caro n，M.， Touvron，H.，米斯拉岛， J'egou，H.，Mairal，J.， Bo janowski，P.，Joulin，A.：自我监督视觉转换器的新兴特性。arXiv预印本arXiv：2104.14294（2021）8. 陈，T.，Kornblith，S.，Norouzi，M.，Hinton，G.：视觉表征对比学习的一个In：ICML.pp. 1597-1607年。PMLR（2020）9. 陈旭，他，K.：探索简单的连体表征学习。在：CVPR。pp. 1575010. 陈旭，Xie，S.，他，K.：训练自我监督视觉转换者之实证研究。ArXiv电子打印页。ArXiv11. Cordts，M.，Omran，M.，Ramos，S.，T.B.菲尔德，Enzweiler，M.，贝嫩森河弗兰克，美国，Roth，S.，Schiele，B.：用于语义城市场景理解的cityscapes数据集。在：CVPR。pp. 321312. 邓，J.，Dong，W.，Socher河，Li，L.J.，Li，K.，李菲菲：Imagenet：一个大规模的分层图像数据库。在：CVPR。pp. 248-255. IEEE（2009年）13. Doersch，C.，Gupta，A.，Efros，A.A.：通过上下文预测的无监督视觉表示学习。In：ICCV. pp. 142214. Doersch，C.，Zisserman，A.：多任务自监督视觉学习。In：ICCV. pp. 205115. Dwibedi，D.，Aytar，Y.，Tompson，J.，Sermanet，P.，Zisserman，A.：在朋友们的帮助下：视觉表征的最近邻对比学习。arXiv预印本arXiv：2104.14548（2021）16. Everingham，M.，凡古尔湖，威廉姆斯，C.K.，Winn，J.，Zisserman，A.：pascal visual object classes（pascal visual object classes）IJCV88（2），30317. Fabbri ， M. ， Lanzi ， F. ， Cald

下载后可阅读完整内容，剩余1页未读，立即下载