Fast-MoCo：基于组合补丁的对比学习提速自监督学习

145 浏览量更新于2023-11-30 收藏 19.36MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Yuanzheng Ci1, Chen Lin2, Lei Bai3⋆, and Wanli Ouyang3,1arXiv:2207.08220v2 [cs.CV] 19 Jul 20220Fast-MoCo：利用组合补丁提升基于动量的对比学习01悉尼大学，商汤计算机视觉组{yuanzheng.ci,wanli.ouyang}@sydney.edu.au 2 牛津大学chen.lin@eng.ox.ac.uk 3上海人工智能实验室bailei@pjlab.org.cn0摘要。对比学习的自监督学习方法近年来取得了巨大的成功。然而，自监督学习需要非常长的训练时期（例如，MoCov3需要800个时期）才能取得有希望的结果，这对于普通学术界来说是不可接受的，也阻碍了该主题的发展。本文重新审视了基于动量的对比学习框架，并确定了两个增强视图只生成一个正样本对的低效性。我们提出了Fast-MoCo，这是一个利用组合补丁从两个增强视图构建多个正样本对的新框架，它提供了丰富的监督信号，可以在可忽略的额外计算成本下显著加速。Fast-MoCo在100个时期的训练中实现了73.5%的线性评估准确性，与使用800个时期训练的MoCov3（ResNet-50骨干）相似。额外的训练（200个时期）进一步将结果提高到75.1%，与最先进的方法相当。对几个下游任务的实验证实了Fast-MoCo的有效性。†0关键词：自监督学习，对比学习01 引言0自监督学习对于从自然语言处理（NLP）[10,2]到计算机视觉[6]的一些最显著的成就至关重要。特别是，对比学习的最新进展在自监督学习基准测试中取得了最先进的结果[15, 9,29]。对比学习通过将正样本的嵌入吸引得更近，同时鼓励负样本相互之间的距离更远来执行实例区分预训练任务。一些方法选择使用动量编码器[18]、预测器[15]和“stop-grad”[8]等工具使样本对不对称，以提供更多的架构设计灵活性[15, 13]。0� 通讯作者 † 代码和预训练模型可在 https://github.com/orashi/Fast-MoCo 上获取0+v:mala2255获取更多论文2Y. Ci et al.100 2004008001000Epochs68707274Top-1 AccuracyFast-MoCoMoCo v3MoCo v2BYOLNNCLR0线性评估准确性 vs 预训练时期0~8倍少的时期0（a）0组合0划分0编码0对比0损失0编码0动量0更新0目标0样本0（b）0图1：（a）：在ImageNet上与最先进方法的比较。所有方法都使用ResNet-50编码器，并以Top-1线性评估准确性进行衡量。（b）：Fast-MoCo的概述，包括Split-Encode-Combine流程。0在过去的两年中，自监督学习领域取得了巨大的进展，但这些工作的一个主要问题是获得有希望的性能需要非常长的训练步骤（例如，通常需要800个时期，甚至某些方法需要1000个时期[9, 15, 33,11]），这使得许多学者难以或甚至无法为这个领域做出贡献。高训练成本也在处理大规模工业数据集时带来挑战[1,17]。为了加速训练，我们发现了最近动量对比学习方法[18, 7,15]的一个局限性，即“两图一对”策略。在这个策略中，两个图像（或同一图像的两个增强视图）分别输入深度模型，然后在[18, 7, 9,11]中作为一对用于对比学习。尽管通常采用对称损失设计来提高样本效率，但我们认为“两图一对”机制是次优的。为了解决这个问题，我们提出了组合补丁，一种用于有效生成任意组合的局部补丁特征嵌入的新机制。在这个策略中，一个图像对可以用于为对比学习生成多个正样本对。因此，与现有工作中的“两图一对”机制相比，我们的组合补丁实现了“两图多对”机制。使用这个“两图多对”机制进行对比学习时，我们的Fast-MoCo方法在MoCov3（“两图一对”机制）的基础上进行了100个时期的训练，使用ResNet50时可以达到与使用800个时期训练的MoCo v3相当的准确性，如图1（a）所示。0为了实现两图多对的机制，本文提出了划分-编码-组合再对比的流程，如图1(b)所示。具体而言，我们在数据准备阶段将输入划分为多个无重叠的局部块，并通过深度模型分别对局部块进行编码，然后在计算对比之前将多个块的编码特征进行组合。0+v:mala2255获取更多论文0Fast-MoCo：提升基于动量的对比学习30对比损失。我们验证了划分和组合阶段的各种策略和超参数，并在不同设置下进行了详细分析。我们使用ResNet-50骨干网络在ImageNet上评估了我们的方法。在线性评估设置下，我们的方法仅通过100个SSL预训练时期就达到了73.5%的准确率，这比原始MoCo快8倍，达到了可比较的性能。更长的训练（400个时期）将性能从73.5%提升到75.5%。我们还在半监督学习、目标检测和实例分割中测试了学习到的嵌入。我们的方法在这两种设置中表现优于先前的方法，这表明我们的方法学习到的嵌入是通用且可迁移的。02 相关工作02.1 基于块的表示学习0各种自监督学习方法[25, 26, 21, 13, 5, 27, 1,17]操作图像块。将块纳入的一种常见方式是将它们分别进行编码[25, 26, 21,13]，而JigsawClustering[5]则同时对多个块进行编码：独立增强块并拼接成新的图像进行编码，然后将编码特征在空间上分离以获得每个块的嵌入。无论哪种方式，编码嵌入都可以用于解决拼图难题[25, 5]、对比预测[26, 21, 5]或词袋重建[13]。另一方面，Contextencoder[27]使用随机遮罩对图像进行编码，然后通过解码器学习重建缺失部分。使用ViT编码器，BEiT[1]和MAE[17]将图像分割为一个块的网格，并遮罩掉其中的一些块，其余块被收集并转发以获得编码嵌入。然后，它们被优化以在特征级别[1]或像素级别[17]重建缺失的块。然而，这些方法没有从组合块构建多个样本对，因此与我们的划分-编码-组合流程不同。02.2 对比学习0对比学习方法[16, 6,3]因其简单性和性能而受到广泛关注。它们通过促进实例区分来检索有用的表示，其中正样本是通过对同一图像应用不同的数据增强而生成的，而具有相同空间尺寸。SwAV[3]和NNCLR[11]通过将目标嵌入替换为学习到的聚类中心和邻域嵌入，进一步扩大了正样本对之间的语义差距。由于[16, 6, 3,11]中的方法不是基于动量的学习，我们的方法不旨在改进它们。此外，我们提出的划分-编码-组合方案在它们中没有进行研究。基于动量的对比学习方法采用了一条非对称的前向路径。在线路径中，将输入图像输入编码器。目标路径中，将另一个输入图像输入到缓慢移动的动量0+v:mala2255获取更多论文3MethodIn this Section, we ﬁrst give preliminaries about MoCo, which is adopted as ourbaseline. Then, we introduce the design of combinatorial patches, which boostboth the learning process and performance. Finally, we discuss how the proposedapproach will aﬀect the performance and computation.3.1Preliminaries about MoCoMoCo is a highly recognized framework for self-supervised learning, which hasthree versions, i.e., MoCo [18], MoCo v2 [7], and MoCo v3 [9], which graduallyincorporate some of the best practice in the area. Speciﬁcally, MoCo v3 pipelinehas two branches, i.e., an online branch and a target branch. The online branchconsists of an encoder f (e.g., ResNet50), a projector g, follow by a predictorq. The target branch only contains the encoder and projector with the samestructure as in the online branch and its parameters are updated through anexponential moving average process as follows:θft ← αθft + (1 − α)θfo ,θgt ← αθgt + (1 − α)θgo,(1)where θfo and θgo are parameters for encoder and projector in the online branch,θft and θgt are parameters for encoder and projector in the target branch. Thisasymmetric architecture design and the use of moving average for target branchparameters updating have been shown to help the model avoid collapse [15].Given an image x, two diﬀerent views are generated through two diﬀerentaugmentations a and a′, which are then forward to the encoders in the online andtarget branches respectively to retrieve the encoded embeddings as a positive pair(vao, va′t ). These embeddings are then projected to vectors zao = q(g(vao; θgo); θqo)and za′t = g(va′t ; θgt ). Finally, the loss function for this pair (zao, za′t ) is formulatedby InfoNCE [26] as follows:Lctr(zao, za′t ) = −logexp(zao · za′t /τ)�z∈za′texp(zao · z/τ),(2)where za′tdenotes the set of target representations for all images in the batch.Note that vectors z, zao, and za′tare l2 normalized before computing the loss.Besides, for every sample image x, this loss is symmetrized as:Lx = 12(Lctr(zao, za′t ) + Lctr(za′o , zat )).(3)+v:mala2255获取更多论文04 Y. Ci et al.0编码器[18, 7,9]。这两个路径的两个编码样本形成了一个对比学习的配对，这在许多场景中已被证明是有效的[13, 15,4]。然而，这些工作采用了两图一对的机制。相比之下，我们的Fast-MoCo采用了两图多对的机制。在几乎相同的训练成本下，Fast-MoCo在一个小批次中生成更多的样本对以提高效率。Fast-MoCo: Boost Momentum-based Contrastive Learning5DivideMomentum updateCombineGrad.encoder ��encoder ��CombineTarget BranchOnline BranchMomentum update��1��2��6ContrastiveLoss��1��2��3��4Fig. 2: Overview of Fast-MoCo framework. It consists of four steps: 1) Dividestep, where the input image in the online branch is divided into multiple patches;2) Encode step, which the encoder f encodes the features of the patches sepa-rately; 3) Combine step, which combines the encoded features (at the last layerof the neural network); 4) the combined features are fed into projector g, pre-dictor q, and contrastive loss for contrastive learning. Compared with MoCo,we add the Divide step and Combine Step in the online branch, with details inSection 3.2. The target branch is the same as MoCo.3.2Fast-MoCoIn this section, we introduce Fast-MoCo, a simple method that can greatly im-prove the training eﬃciency of self-supervised learning with negligible extra cost.An overview of Fast-MoCo is shown in Fig.2. With MoCo v3 as the baseline,Fast-MoCo only makes three modiﬁcations, 1) add a Divide step to divide animage into multiple patches before sending the patches to the encoder ‡ of theonline branch, 2) insert a Combine step (e.g., Combine) immediately behindthe encoder to combine patches, and 3) a slightly modiﬁed deﬁnition of positiveand negative pairs corresponding to the divide and combine operations. In thefollowing, we illustrate the Divide step, Combine step, and the modiﬁed lossfunction in detail.Divide Step. For the online branch, instead of directly feed the given theaugmented image xa into the encoder, we ﬁrst divide it into a m × m grid ofpatches {xp|p ∈ {1, . . . , m2}} as shown in Fig.2, with p denotes the set of patchindex {p}. The inﬂuence of m in will be analyzed in Section 5.4.Combine Step. Instead of directly using the encoded embedding of eachpatch individually for further step, we combine multiple (less than m2) patchembeddings vp to form combined embeddings c before sending them to furtherstep, i.e., the projector.To form a combined embedding, we take a subset of n indices from thepatch index set p, noted as pn(⊆ p), and collect their corresponding featuresvpn = {vp|p ∈ pn}. While there could be diverse options to combine multipleembeddings (e.g., concatenate, sum), we empirically found that simply averag-0‡ 在本文中，我们仅探索了ResNet50作为编码器，而将ViT版本的MoCov3的评估作为我们未来的工作。0+v:mala2255获取更多论文6Y. Ci et al.0选择的特征进行组合在合理的范围内工作得很好，并且计算效率高。因此，在Combine步骤中，我们通过以下方式生成组合嵌入：0c = 10n0p ∈ p n v p 。 (4)0为了提高样本利用效率，我们对补丁嵌入进行了所有可能的n组合进行监督，得到组合嵌入集合c = {ci | i ∈ {1, ..., C n m2}}，其中C n m = m！0n !( m − n )!。通过等式4中的平均操作，我们可以以可忽略的额外成本生成许多样本，并确保样本和目标之间有足够的信息差，因为组合的补丁嵌入仅覆盖图像信息的一部分。在Combine步骤之后，在线分支的投影器和预测器以顺序方式将每个组合嵌入c转换为向量zco。另一方面，目标分支以与基本的MoCov3相同的方式将另一个输入视图映射到zat'。然后，它们进行L2归一化并用于计算对比损失。损失函数。与MoCov3一样，我们仍然使用对比损失（等式2）来优化编码器、投影器和预测器。与MoCov3相比，Fast-MoCo不包含任何额外的要学习的参数，唯一的区别是存在多个（C n m2）组合的补丁嵌入zco，而不是一个图像嵌入zao对应于目标分支图像嵌入zat'。我们通过对组合的补丁嵌入zco和目标图像嵌入zt之间的C n m2个正样本对的对比损失进行平均来直接调整原始损失函数。类似地，负样本对在组合的补丁嵌入和目标分支中的其他图像的嵌入之间定义。03.3 讨论0在本节中，我们将对为什么Fast-MoCo可以提高训练效率进行一些直观的分析，这将在第4节中通过实证结果进一步证明。使Fast-MoCo收敛更快的主要组件是利用一组组合的补丁嵌入，这显著增加了正样本对的数量。以m = 2和n =2为例，Fast-MoCo将在线分支中的输入图像分为四个补丁，然后将它们的四个嵌入组合成六个，每个嵌入代表两个补丁，直接将正样本对的数量扩展了MoCov3的六倍。因此，与MoCov3相比，Fast-MoCo在每次迭代中可以获得更多的监督信号，从而以更少的迭代次数实现有希望的性能。与此同时，Fast-MoCo中引入的操作，即将图像分割为补丁并对几个补丁的表示求平均，非常简单，只需要可忽略的额外计算量。主要的计算成本是在线分支中的投影器和预测器的额外前向传播引入的。然而，它们只涉及基本的线性变换，与主干网络相比，成本很小。因此，Fast-MoCo的总额外开销占MoCo的7%的额外训练时间。0+v:mala2255获取更多论文0Fast-MoCo: 提升基于动量的对比学习的效率 70v3（在16个V100 GPU上进行100个epoch，耗时38.5小时，相比之下，MoCov3在相同设置下耗时36小时）。此外，由于组合的补丁嵌入仅包含整个图像中的部分信息，将部分组合的补丁与包含整个图像信息的目标视图拉近的挑战要比拉近原始图像对更具挑战性，并且隐含地增加了网络结构的不对称性，这已经被证明有利于增加特征表示的丰富性并提高自监督学习的性能[15，11，22]。由于这些优点，Fast-MoCo可以在较小的额外计算成本下实现高样本利用效率，并因此在更少的训练时间内获得有希望的性能。下面的第5.2节和第5.4节的实验结果将验证这些分析。04 实验结果04.1 实施细节0骨干编码器f是一个ResNet-50 [20]网络，不包括分类层。按照SimSiam [8]和MoCo v3[9]的方法，投影器g和预测器h被实现为MLP，其详细配置与[8]相同。对于自监督预训练，我们使用批量大小为512的SGD优化器，动量为0.9，权重衰减为1e-4。学习率从0.1按照余弦衰减计划到0，其中有一个从0.025开始的热身时期。我们使用与SimSiam[8]相同的增强配置（见补充材料）。04.2 结果0ImageNet线性评估。根据[6, 8,15]，我们使用线性分类器对从自监督预训练中获得的冻结嵌入进行评估。分类器使用LARS优化器[32]进行微调，配置与SimSiam[8]相同，除了学习率我们设置为lr =0.8。我们在表1中与现有方法进行比较，我们的Fast-MoCo在仅进行400个时期的训练后达到了75.5%的线性评估结果，这显示了我们的Fast-MoCo相对于所有使用两个增强视图进行监督的方法的明显改进。考虑到相同数量的训练时期，我们的结果也超过了SwAV [3]和DINO[4]，即使包括使用多裁剪[3]。请注意，我们的新设计与多裁剪[3]无关（详见第5.3节），也与SwAV、DINO和NNCLR中的新设计无关。半监督学习。按照[6]中的半监督学习设置，我们使用400个时期预训练的模型进行1%和10%的数据分割微调。结果如表2所示。我们的方法在不使用多裁剪的情况下优于所有比较方法，并与使用多裁剪的SwAV相当。迁移学习。表3显示了将学习到的模型转移到检测和分割任务时的有效性实验结果。对于PASCAL-VOC [12]上的目标检测，我们使用Faster R-CNN[28]在trainval07+12数据集上对权重进行微调。0+v:mala2255获取更多论文8Y. Ci et al.0方法 100个时期 200个时期 400个时期 800个时期 1000个时期0SimCLR [6] 64.8 67.0 68.3 69.1 - MoCo v2 [7] - 67.5 - 71.1 - BYOL [15] 66.5 70.6 73.2- 74.3 SwAV [3] - - 70.1 - - BarlowTwins [33] - - - - 73.2 SimSiam [8] 68.1 70.0 70.871.3 - MoCo v3 [9] - - - 73.8 - NNCLR [11] 69.4 70.7 74.2 74.9 75.4 OBoW [13] - 73.8- - - Fast-MoCo 73.5 75.1 75.5 - -0SwAV [3]（使用多裁剪）72.1 73.9 - 75.3 - DINO [4]（使用多裁剪）- - - 75.3 - NNCLR[11]（使用多裁剪）- - - 75.6 -0表1：使用ResNet-50的ImageNet-1k线性评估结果，包括现有方法和我们的Fast-MoCo。最佳结果以粗体显示。Fast-MoCo只需100个时期即可达到与MoCov3相似的性能。当训练200个时期时，Fast-MoCo的性能优于训练800个时期的MoCov3，并且与最先进的方法相当（Fast-MoCo未使用多裁剪以进行公平比较）。0框架，我们在trainval07+12数据集上微调了所有权重，并在test07数据集上进行了评估。对于COCO [23]上的目标检测和实例分割，我们使用Mask R-CNN[19]对权重进行微调，并在train集上报告结果，val集上进行评估。表3中的结果显示，我们的Fast-MoCo在定位任务中与最先进的方法相当或更好。05 分析05.1 相同或不同的增强视图0最近的研究[6,15]表明，对比方法对增强特别是空间变换非常敏感[6]。与传统设置不同，即在Eq.（5）中具有不同的增强视图（在Fast-MoCo的100个时期训练的ImageNet上为73.5%），如果Eq.（5）中的正嵌入对来自相同的增强视图，即a' =a，则我们观察到准确性严重下降（48.5%）。当使用相同的增强视图时，补丁中包含的有害非语义信息将暴露给其对比目标，这导致准确性显著下降。这些结果表明对比学习使用适当的目标的重要性。05.2 补丁编码方法的比较0除了我们提出的Fast-MoCo流程外，还有一些其他的选择[25, 26, 21, 13, 5, 27, 1,17]属于与我们的Fast-相同的类别0+v:mala2255获取更多论文0Fast-MoCo：提升基于动量的对比学习90方法 1% 10%0Top-1 Top-5 Top-1 Top-50有监督 25.4 48.4 56.4 80.40InstDisc [31] - 39.2 - 77.4 PIRL [24] - 57.2 - 83.8 SimCLR [6]48.3 75.5 65.6 87.8 BYOL [15] 53.2 78.4 68.8 89.0 BarlowTwins [33] 55.0 79.2 69.7 89.3 NNCLR [11] 56.4 80.7 69.889.3 Fast-MoCo 56.5 81.1 70.3 89.40SwAV [3]（带多裁剪） 53.9 78.5 70.2 89.90表2：使用ResNet-50骨干在ImageNet-1K上的半监督学习结果。我们报告使用1％和10％标记数据微调的Top-1和Top-5准确性。详细配置请参见补充材料。0方法 VOC det COCO det COCO seg0全部AP AP 50 AP 75 全部AP bb AP bb 50 AP bb 75 全部AP mk AP mk 50 AP mk 750有监督 53.5 81.3 58.8 38.2 58.2 41.2 33.3 54.7 35.20MoCo V2 [7] 57.4 82.5 64.0 39.3 58.9 42.5 34.4 55.8 36.5 SimSiam [8] 57 82.4 63.7 39.259.3 42.1 34.4 56.0 36.7 Barlow Twins [33] 56.8 82.6 63.4 39.2 59.0 42.5 34.3 56.0 36.5Fast-MoCo 57.7 82.7 64.4 39.5 59.2 42.6 34.6 55.9 36.90SwAV [3]（带多裁剪） 56.1 82.6 62.7 38.4 58.6 41.3 33.8 55.2 35.90表3：VOC和COCO目标检测（det）和实例分割（seg）结果。我们使用ResNet50和C4骨干变体[14]报告平均精度（AP）测量的结果。对于VOC数据集，我们在trainval07+12上进行训练，并通过运行三次试验并报告平均结果来在test07上进行评估。0MoCo不应用两图像一对机制。在本节中，我们对这些变体进行了详细比较。样本-编码-组合。比较的设置包括无法从划分为224×224视图的情况下生成补丁的情况。除了Fast-MoCo基线外，我们设置了一个样本-编码-组合（SEC）配置进行公平比较。在SEC配置中，我们用随机和独立采样的补丁替换Fast-MoCo中的“划分”步骤。与从两个224×224视图划分的2×4个补丁不同，对于SEC，我们有八个独立采样的补丁：{xp | p ∈{1, ..., 8}}和两个224×224目标{xat,xa't}。由于SEC的xp不是从目标视图xt划分的。所有八个xp的嵌入可以相互组合以获得组合嵌入c，我们的组合数量从2C24 = 12增加到0+v:mala2255获取更多论文010 Y. Ci et al.0方法 Top-1 样本数量0仅编码 4 68.90样本-组合-编码 4 71.2 分割-组合-编码 471.80蒙太奇-编码-划分- 28 70.4组合-样本-编码-组合 28 72.9 Fast-MoCo 1273.50(a)补丁编码方法的比较。结果基于ImageNet线性评估，所有模型都预训练了100个时期。0情况多裁剪组合 Top-10MoCo v3 - - 70.3 (i) - 73.1 (ii) - 73.5(iii) - - 74.20(b)与多裁剪的关系。'Comb.'表示使用组合补丁。结果是在ImageNet上进行线性评估，所有模型都预训练了100个时期。0表40C28 = 28。SEC的损失函数如下所示：0L x = 102C280c ∈ c (Lctr(zc, zat) + Lctr(zc, za't)), (5)0它获得了72.8%，在表4(a)的所有变体中排名第二。仅编码。一种广泛采用的编码补丁的方法是将它们分别编码[25,26,21,13]，这不包括我们Fast-MoCo中的“Divide”步骤或“Combine”步骤，如图2所示。为了公平比较，用于编码的补丁应包含与两个112×112的补丁组合的大致相同数量的信息，因此我们将补丁的空间尺寸设置为158×158。这样做的话，我们就不能通过将224×224的图像分割来检索这些补丁，因此它们是通过增强独立生成的，如第4.1节所述。我们为每个图像x生成四个158×158的补丁{xp}和两个224×224的目标{x a t，x a ′ t}，我们有：0L x = 10z p ∈ z p ( L ctr ( z p , z a t ) + L ctr ( z p , z a ′ t )) , (6)0其中，z target表示小批量中的目标向量，zp表示从图像x中采样的四个补丁的特征。如表4(a)所示，仅编码的结果为68.9%。Divide(Sample)-Combine-Encode。Fast-MoCo将小的分割补丁独立编码，并在嵌入级别上进行组合；也可以将它们在图像级别上组合，补丁放置在原始位置，从而保留补丁之间的相对位置信息。请注意，如果拼接的图像不是矩形形状，则对于CNN编码器来说，冗余的计算成本将难以避免。在Divide步骤中，我们将一个224×224的图像垂直和水平分割，得到四个112×112的补丁。0+v:mala2255获取更多论文0Fast-MoCo: 提升基于动量的对比学习 110在Divide-Combine-Encode的Combine步骤中，两个112×112的补丁被拼接成112×224或224×112的图像级别。Divide步骤、Encode步骤和损失与Fast-MoCo相同。如表4(a)所示，与仅编码的四个158×158正方形裁剪相比，这些具有较少局部边界特征的矩形裁剪具有+2.9的增益。Divide-Combine-Encode也可以看作是将我们Fast-MoCo流程的Combine步骤放在编码步骤之前。与Fast-MoCo流程相比，1）Fast-MoCoDivide-Combine-Encode流程在相同的计算成本下生成更少的目标-样本对，2）不包括足够困难的目标-样本对（在第5.4节中进行更多讨论）。对于表4(a)中的Sample-Combine-Encode，我们独立生成112×112的矩形补丁，并发现其相比仅编码的补丁有+2.3的增益。Sample-Combine-Encode的性能不如Divide-Combine-Encode，因为Divide-Combine-Encode中的分割补丁没有重叠，这最大化了组合补丁的多样性，但Sample-Combine-Encode无法保证不重叠的补丁。Montage-Encode-Divide-Combine。JigClu[5]提出了一种使用拼贴图像的补丁编码技术。给定一个批次的K个图像，从每个图像中生成四个具有不同增强的补丁，从而得到一个包含4K个补丁的小批量。然后，通过从4K个补丁的小批量中随机选择（不重复选择）四个补丁，生成K个大小为224×224的拼贴图像。编码器在平均池化之前添加了一个额外的步骤，将K个拼贴特征图划分回4K个补丁特征，以获得它们的编码嵌入。我们用这种Montage-Encode-Divide方法替换了我们的Divide-Encode步骤，形成了一个Montage-Encode-Divide-Combine流程。表4(a)中的这种方法的结果表明，它不如相对简单的Fast-MoCo方法好。分析总的来说，我们的Fast-MoCo在稳定的边缘上优于其他变体。仅编码基准达到了68.9%。如果我们在编码机制之前合并输入，性能提高到了71.2%和71.8%，分别对应于通过随机裁剪和分割获得的输入。如果我们在编码输入之后合并嵌入，性能提高到了72.9%(通过随机裁剪)和73.5%(Fast-MoCo)。Montage策略达到了70.4%。我们发现，Sample（随机裁剪）的性能始终不如Divide，而编码之后的组合始终优于编码之前，在我们的实验中。基于这些结果，我们发现非重叠补丁（Divide）和编码之后的组合是最佳实践。05.3 与多裁剪的关系0多裁剪是SwAV[3]中提出的一种技术。除了两个224×224的裁剪外，多裁剪还额外添加了六个96×96的补丁作为样本，以便编码器训练具有多个分辨率和难样本的样本。然而，额外的样本也需要更多的计算。虽然Fast-MoCo和多裁剪都使用小补丁作为输入，但Fast-MoCo没有使用多个分辨率的样本进行训练。除了表4（b）中的（iii）之外，本文报告的Fast-MoCo的结果都是没有多裁剪的。然而，如表4（b）中的（ii）所示，没有多裁剪的Fast-MoCo比带有多裁剪的MoCov3好0.4。带有多裁剪的Fast-MoCo（详见补充材料），即表4（b）中的（iii），进一步改善了Fast-MoCo的结果，提高了0.7，这表明我们的贡献与多裁剪是正交的。0+v:mala2255获取更多论文12Y. Ci et al.input123finalStage6970717273Top-1n=2n=4Fast-MoCo0.20.40.60.81.0n/m265707512343456789102x2划分的组合阶段0（a）0Top-10Fast-MoCo组合-m×m划分01x12x23x30（b）0图3：（a）：当选择不同的ResNet阶段（X轴）来组合n=2个划分的补丁或n=4个划分的补丁时，ImageNet线性评估准确率（Y轴）。（b）：当组合m×m（1×1、2×2、3×3）划分的补丁时，Imag

下载后可阅读完整内容，剩余1页未读，立即下载