没有合适的资源?快使用搜索试试~ 我知道了~
Fast-MoCo: 基于动量的对比学习利用组合补丁提升自监督学习加速效果
0Fast-MoCo:利用组合补丁提升基于动量的对比学习0Yuanzheng Ci 1, Chen Lin 2, Lei Bai 3 �, and Wanli Ouyang 3, 101悉尼大学,商汤计算机视觉组{yuanzheng.ci,wanli.ouyang}@sydney.edu.au 2 牛津大学chen.lin@eng.ox.ac.uk 3上海人工智能实验室bailei@pjlab.org.cn0摘要。对比学习的自监督学习方法近年来取得了巨大的成功。然而,自监督学习需要非常长的训练时期(例如,MoCov3需要800个时期)才能取得有希望的结果,这对于普通学术界来说是不可接受的,也阻碍了这个主题的发展。本文重新审视了基于动量的对比学习框架,并确定了两个增强视图只生成一个正样本对的低效性。我们提出了Fast-MoCo,这是一个利用组合补丁从两个增强视图构建多个正样本对的新框架,它提供了丰富的监督信号,带来了显著的加速,而额外的计算成本可以忽略不计。Fast-MoCo在100个时期的训练中实现了73.5%的线性评估准确性,与使用800个时期训练的MoCov3(ResNet-50骨干)相似。额外的训练(200个时期)进一步提高了结果,达到了75.1%,与最先进的方法相当。在几个下游任务上的实验证实了Fast-MoCo的有效性。†0关键词:自监督学习,对比学习01 引言0自监督学习对于自然语言处理(NLP)[10,2]到计算机视觉[6]中的一些最显著的成就至关重要。特别是,对比学习的最新进展在自监督学习基准测试中取得了最先进的结果[15, 9,29]。对比学习通过将正样本的嵌入吸引得更近,同时鼓励负样本之间的距离更远来执行实例区分预训练任务。一些方法选择使用工具(如动量编码器[18]、预测器[15]和stop-grad[8])使样本对不对称,以提供更多的架构设计灵活性[15, 13]。0� 通讯作者 † 代码和预训练模型可在https://github.com/orashi/Fast-MoCo获取0arXiv:2207.08220v2[cs.CV]19Jul20220+v:mala2255获取更多论文100 2004008001000Epochs68707274Top-1 AccuracyFast-MoCoMoCo v3MoCo v2BYOLNNCLR02 Y. Ci等0线性评估准确性与预训练时期的对比0~8倍少的时期0(a)0组合0划分0编码0对比0损失0编码0动量0更新0目标0样本0(b)0图1:(a):在ImageNet上与最先进方法的比较。所有方法都使用ResNet-50编码器,并使用Top-1线性评估准确性进行测量。(b):Fast-MoCo的概述,包括拆分-编码-组合流程。0在过去的两年中,自监督学习领域取得了巨大的进展,但这些工作的一个主要问题是为了获得有希望的性能需要非常长的训练步骤(例如,通常需要800个时期,甚至对于某些方法需要1000个时期[9, 15, 33,11]),这使得许多学者难以或甚至无法为这个领域做出贡献。高昂的训练成本也给处理大规模工业数据集[1,17]带来了挑战。为了加速训练,我们发现了最近基于动量的对比学习方法[18, 7,15]的一个局限性,即“两图一对”策略。在这个策略中,两个图像(或同一图像的两个增强视图)分别输入深度模型,然后在[18, 7, 9,11]中作为一对用于对比学习。尽管通常采用对称损失设计来提高样本效率,但我们认为“两图一对”机制是次优的。为了解决这个问题,我们提出了组合补丁,一种用于有效生成任意组合局部补丁的新机制。在这个策略中,一个图像对可以用于生成多个对比学习的正样本对。因此,与现有工作中的“两图一对”机制相比,我们的组合补丁实现了“两图多对”机制。使用这个“两图多对”机制进行对比学习时,我们的Fast-MoCo方法在MoCov3(“两图一对”机制)的基础上使用100个时期进行训练,ResNet50可以达到与使用800个时期训练的MoCo v3相当的准确性,如图1(a)所示。0为了实现两图多对的机制,本文提出了划分-编码-组合再对比的流程,如图1(b)所示。具体而言,我们在数据准备阶段将输入划分为多个无重叠的局部补丁,并通过深度模型分别对局部补丁进行编码,然后在计算对比之前将多个补丁的编码特征组合起来。0+v:mala2255获取更多论文0Fast-MoCo:提升基于动量的对比学习30对比损失。我们验证了划分和组合阶段的各种策略和超参数,并在不同设置下进行了详细分析。我们使用ResNet-50骨干网在ImageNet上评估了我们的方法。在线性评估设置下,我们的方法仅通过100个SSL预训练时期就达到了73.5%的准确率,这比原始的MoCo快8倍,而性能相当。更长的训练(400个时期)将性能从73.5%提升到75.5%。我们还在半监督学习、目标检测和实例分割中测试了学习到的嵌入。我们的方法在两种设置下都优于先前的方法,这表明我们的方法学习到的嵌入是通用且可迁移的。02 相关工作02.1 基于补丁的表示学习0各种自监督学习方法[25, 26, 21, 13, 5, 27, 1,17]操作图像补丁。将补丁合并到图像中的一种常见方法是分别对它们进行编码[25, 26,21, 13],而JigsawClustering[5]同时对多个补丁进行编码:补丁独立增强并拼接成一个新的图像进行编码,然后将编码特征在空间上分离以获取每个补丁的嵌入。无论哪种方式,编码嵌入都可以用于解决拼图难题[25, 5]、对比预测[26, 21,5]或词袋重建[13]。另一方面,上下文编码器[27]使用随机遮罩对图像进行编码,然后通过解码器学习重建缺失部分。使用ViT编码器,BEiT[1]和MAE[17]将图像分割成一个补丁网格,并遮罩掉其中的一些补丁,其余补丁被收集并转发以获取编码嵌入。然后,它们被优化以在特征级别[1]或像素级别[17]重建缺失的补丁。然而,这些方法没有从组合补丁中构建多对样本,因此与我们的划分-编码-组合流程不同。02.2 对比学习0对比学习方法[16, 6,3]因其简单性和性能而受到广泛关注。它们通过促进实例区分来检索有用的表示,其中正样本是通过对同一图像应用不同的数据增强而生成的,而具有相同空间大小。SwAV[3]和NNCLR[11]通过将目标嵌入替换为学习到的聚类中心和邻域嵌入来进一步扩大正样本对之间的语义差距。由于[16, 6, 3,11]中的方法不是基于动量的学习,我们的方法不旨在改进它们。此外,我们提出的划分-编码-组合方案在它们中没有进行研究。基于动量的对比学习方法采用了一种非对称的前向路径。在线路径中,将输入图像输入编码器。目标路径中,将另一个输入图像输入到缓慢移动的动量0+v:mala2255获取更多论文3MethodIn this Section, we first give preliminaries about MoCo, which is adopted as ourbaseline. Then, we introduce the design of combinatorial patches, which boostboth the learning process and performance. Finally, we discuss how the proposedapproach will affect the performance and computation.3.1Preliminaries about MoCoMoCo is a highly recognized framework for self-supervised learning, which hasthree versions, i.e., MoCo [18], MoCo v2 [7], and MoCo v3 [9], which graduallyincorporate some of the best practice in the area. Specifically, MoCo v3 pipelinehas two branches, i.e., an online branch and a target branch. The online branchconsists of an encoder f (e.g., ResNet50), a projector g, follow by a predictorq. The target branch only contains the encoder and projector with the samestructure as in the online branch and its parameters are updated through anexponential moving average process as follows:θft ← αθft + (1 − α)θfo ,θgt ← αθgt + (1 − α)θgo,(1)where θfo and θgo are parameters for encoder and projector in the online branch,θft and θgt are parameters for encoder and projector in the target branch. Thisasymmetric architecture design and the use of moving average for target branchparameters updating have been shown to help the model avoid collapse [15].Given an image x, two different views are generated through two differentaugmentations a and a′, which are then forward to the encoders in the online andtarget branches respectively to retrieve the encoded embeddings as a positive pair(vao, va′t ). These embeddings are then projected to vectors zao = q(g(vao; θgo); θqo)and za′t = g(va′t ; θgt ). Finally, the loss function for this pair (zao, za′t ) is formulatedby InfoNCE [26] as follows:Lctr(zao, za′t ) = −logexp(zao · za′t /τ)�z∈za′texp(zao · z/τ),(2)where za′tdenotes the set of target representations for all images in the batch.Note that vectors z, zao, and za′tare l2 normalized before computing the loss.Besides, for every sample image x, this loss is symmetrized as:Lx = 12(Lctr(zao, za′t ) + Lctr(za′o , zat )).(3)+v:mala2255获取更多论文04 Y. Ci et al.0编码器[18, 7,9]。这两个路径的两个编码样本形成了对比学习的一对,这在许多场景中已被证明是有效的[13, 15,4]。然而,这些工作采用了两图一对的机制。相比之下,我们的Fast-MoCo采用了两图多对的机制。在几乎相同的训练成本下,Fast-MoCo在一个小批次中生成更多的样本对以提高效率。Fast-MoCo: Boost Momentum-based Contrastive Learning5DivideMomentum updateCombineGrad.encoder ������������������������������������������������encoder ������������CombineTarget BranchOnline BranchMomentum update������������1������������2������������6ContrastiveLoss������������1������������2������������3������������4Fig. 2: Overview of Fast-MoCo framework. It consists of four steps: 1) Dividestep, where the input image in the online branch is divided into multiple patches;2) Encode step, which the encoder f encodes the features of the patches sepa-rately; 3) Combine step, which combines the encoded features (at the last layerof the neural network); 4) the combined features are fed into projector g, pre-dictor q, and contrastive loss for contrastive learning. Compared with MoCo,we add the Divide step and Combine Step in the online branch, with details inSection 3.2. The target branch is the same as MoCo.3.2Fast-MoCoIn this section, we introduce Fast-MoCo, a simple method that can greatly im-prove the training efficiency of self-supervised learning with negligible extra cost.An overview of Fast-MoCo is shown in Fig.2. With MoCo v3 as the baseline,Fast-MoCo only makes three modifications, 1) add a Divide step to divide animage into multiple patches before sending the patches to the encoder ‡ of theonline branch, 2) insert a Combine step (e.g., Combine) immediately behindthe encoder to combine patches, and 3) a slightly modified definition of positiveand negative pairs corresponding to the divide and combine operations. In thefollowing, we illustrate the Divide step, Combine step, and the modified lossfunction in detail.Divide Step. For the online branch, instead of directly feed the given theaugmented image xa into the encoder, we first divide it into a m × m grid ofpatches {xp|p ∈ {1, . . . , m2}} as shown in Fig.2, with p denotes the set of patchindex {p}. The influence of m in will be analyzed in Section 5.4.Combine Step. Instead of directly using the encoded embedding of eachpatch individually for further step, we combine multiple (less than m2) patchembeddings vp to form combined embeddings c before sending them to furtherstep, i.e., the projector.To form a combined embedding, we take a subset of n indices from thepatch index set p, noted as pn(⊆ p), and collect their corresponding featuresvpn = {vp|p ∈ pn}. While there could be diverse options to combine multipleembeddings (e.g., concatenate, sum), we empirically found that simply averag-0‡ 在本文中,我们仅探索了ResNet50作为编码器,而将ViT版本的MoCov3的评估作为我们的未来工作。0+v:mala2255获取更多论文6Y. Ci et al.0选择的特征进行组合的方法效果良好且计算效率高。因此,在Combine步骤中,我们通过以下方式生成组合嵌入:0c = 10n0p ∈ p n v p 。 (4)0为了提高样本利用效率,我们对补丁嵌入进行了所有可能的n组合,得到组合嵌入集合c = {ci | i ∈ {1, ..., C n m 2}},其中C n m =m !0n !( m − n )!。通过等式4中的平均操作,我们可以以可忽略的额外成本生成许多样本,并确保样本和目标之间有足够的信息差,因为组合的补丁嵌入只覆盖了图像信息的一部分。在Combine步骤之后,在线分支中的投影器和预测器以顺序的方式将每个组合嵌入c转换为向量zco。另一方面,目标分支以与基本的MoCov3相同的方式将另一个输入视图映射到zat'。然后,它们进行L2归一化并用于计算对比损失。损失函数。与MoCov3一样,我们仍然使用对比损失(等式2)来优化编码器、投影器和预测器。与MoCov3相比,Fast-MoCo不包括任何额外的要学习的参数,唯一的区别是有多个(C n m2)组合的补丁嵌入zco,而不是一个与目标分支图像嵌入zat'相对应的图像嵌入zao。我们通过对组合的补丁嵌入zco和目标图像嵌入zt之间的C n m2个正样本对的对比损失进行平均来直接适应原始损失函数。类似地,负样本对在组合的补丁嵌入和目标分支中的其他图像的嵌入之间定义。03.3 讨论0在本节中,我们将对为什么Fast-MoCo可以提高训练效率进行一些直观的分析,这将在第4节中通过实证结果进一步证明。使Fast-MoCo收敛更快的主要组成部分是利用一组组合的补丁嵌入,这显著增加了正样本对的数量。以m = 2和n =2为例,Fast-MoCo将在线分支中的输入图像分成四个补丁,然后将它们的四个嵌入组合成六个,每个嵌入代表两个补丁,直接将正样本对的数量扩展了MoCov3的六倍。因此,与MoCov3相比,Fast-MoCo在每次迭代中可以获得更多的监督信号,从而以更少的迭代次数实现有希望的性能。与此同时,Fast-MoCo中引入的操作,即将图像分成补丁并对几个补丁的表示求平均,非常简单,只需要可忽略的额外计算。主要的计算成本是由在线分支中的投影器和预测器的额外前向传播引入的。然而,它们只涉及基本的线性变换,与主干网络相比,几乎不会增加太多计算成本。因此,Fast-MoCo的总开销相比MoCo增加了7%的训练时间0+v:mala2255获取更多论文0Fast-MoCo: 提升基于动量的对比学习 70v3(在16个V100 GPU上进行100个epoch,耗时38.5小时,相比之下,MoCov3在相同设置下耗时36小时)。此外,由于组合的补丁嵌入只包含整个图像中的部分信息,将部分组合的补丁与包含整个图像信息的目标视图拉近的挑战要大于拉近原始图像对,并隐含地增加了网络结构的不对称性,这已经被证明有助于增加特征表示的丰富性并提高自监督学习性能[15,11,22]。由于这些优点,Fast-MoCo可以以较小的额外计算成本实现高样本利用效率,从而在更少的训练时间内获得有希望的性能。下面的第5.2节和第5.4节的实验结果将验证这些分析。04 实验结果04.1 实施细节0骨干编码器f是一个ResNet-50 [20]网络,不包括分类层。根据SimSiam [8]和MoCo v3[9],投影器g和预测器h都是MLP,其详细配置与[8]相同。对于自监督预训练,我们使用批量大小为512的SGD优化器,动量为0.9,权重衰减为1e-4。学习率从0.1按余弦衰减到0,其中有一个从0.025开始的热身epoch。我们使用与SimSiam[8]相同的增强配置(见补充材料)。04.2 结果0ImageNet线性评估。根据[6, 8,15],我们使用在自监督预训练中获得的冻结嵌入进行线性分类器的评估。分类器使用LARS优化器[32]进行微调,配置与SimSiam[8]相同,除了学习率我们设置为lr =0.8。我们在表1中与现有方法进行比较,我们的Fast-MoCo在仅训练400个epoch的情况下达到了75.5%的线性评估结果,这显示了我们的Fast-MoCo相对于所有使用两个增强视图进行监督的方法的明显改进。当考虑相同数量的训练epoch时,我们的结果也超过了SwAV [3]和DINO[4],即使包括多裁剪[3]的使用。请注意,我们的新设计与多裁剪[3](详见第5.3节)以及SwAV、DINO和NNCLR中的新设计是正交的。半监督学习。按照[6]中的半监督学习设置,我们使用400个epoch预训练的模型进行1%和10%的数据分割进行微调。结果如表2所示。我们的方法在不使用多裁剪的情况下优于所有比较方法,并与使用多裁剪的SwAV相当。迁移学习。表3显示了将学习到的模型应用于检测和分割任务时的实验结果。对于PASCAL-VOC [12]上的目标检测,我们使用Faster R-CNN[28]在trainval07+12数据集上对权重进行微调,并在test07数据集上报告结果。表3中的结果显示,我们的Fast-MoCo在定位任务中与或优于现有技术。0+v:mala2255获取更多论文8Y. Ci et al.0方法 100个epoch 200个epoch 400个epoch 800个epoch 1000个epoch0SimCLR [6] 64.8 67.0 68.3 69.1 - MoCo v2 [7] - 67.5 - 71.1 - BYOL [15] 66.5 70.6 73.2- 74.3 SwAV [3] - - 70.1 - - BarlowTwins [33] - - - - 73.2 SimSiam [8] 68.1 70.0 70.871.3 - MoCo v3 [9] - - - 73.8 - NNCLR [11] 69.4 70.7 74.2 74.9 75.4 OBoW [13] - 73.8- - - Fast-MoCo 73.5 75.1 75.5 - -0SwAV [3](使用多裁剪) 72.1 73.9 - 75.3 - DINO [4](使用多裁剪) - - - 75.3 -NNCLR [11](使用多裁剪) - - - 75.6 -0表1:使用ResNet-50的ImageNet-1k线性评估结果,包括现有方法和我们的Fast-MoCo。最佳结果以粗体显示。Fast-MoCo只需100个epoch即可达到与MoCov3相似的性能。当训练200个epoch时,Fast-MoCo的性能优于训练800个epoch的MoCo v3,并且与最先进的方法相当(为了公平比较,Fast-MoCo未使用多裁剪)。0框架中,我们将所有权重都在trainval07+12数据集上进行微调,并在test07数据集上进行评估。对于COCO [23]上的目标检测和实例分割,我们使用Mask R-CNN[19]对权重进行微调,并在train数据集上报告结果。表3中的结果显示,我们的Fast-MoCo在定位任务中与或优于现有技术。05 分析05.1 相同或不同的增强视图0最近的研究[6,15]表明,对比学习方法对数据增强非常敏感,尤其是对空间变换[6]敏感。与常规设置不同,如果Eq.(5)中的正样本嵌入对来自相同的增强视图,即a' =a,我们观察到准确率严重下降(48.5%),例如在Fast-MoCo的100个epoch训练中在ImageNet上的准确率为73.5%。当使用相同的增强视图时,补丁中包含的有害非语义信息会暴露给其对比目标,这会导致准确率显著下降。这些结果表明,使用适当的对比学习目标非常重要。05.2 补丁编码方法的比较0除了我们提出的Fast-MoCo流程外,还有一些其他的选择[25, 26, 21, 13, 5, 27, 1,17]属于与我们的Fast-相同的类别0+v:mala2255获取更多论文0Fast-MoCo:增强基于动量的对比学习90方法 1% 10%0Top-1 Top-5 Top-1 Top-50有监督 25.4 48.4 56.4 80.40InstDisc [31] - 39.2 - 77.4 PIRL [24] - 57.2 - 83.8 SimCLR [6]48.3 75.5 65.6 87.8 BYOL [15] 53.2 78.4 68.8 89.0 BarlowTwins [33] 55.0 79.2 69.7 89.3 NNCLR [11] 56.4 80.7 69.889.3 Fast-MoCo 56.5 81.1 70.3 89.40SwAV [3](带多裁剪) 53.9 78.5 70.2 89.90表2:在ImageNet-1K上的半监督学习结果,使用ResNet-50骨干。我们报告使用1%和10%标记数据微调的Top-1和Top-5准确性。详细配置请参见补充材料。0方法 VOC det COCO det COCO seg0全部AP 50 AP 75 bb全部AP bb50 AP bb75 mk全部AP mk50 AP mk750有监督 53.5 81.3 58.8 38.2 58.2 41.2 33.3 54.7 35.20MoCo V2 [7] 57.4 82.5 64.0 39.3 58.9 42.5 34.4 55.8 36.5 SimSiam [8] 57 82.4 63.7 39.259.3 42.1 34.4 56.0 36.7 Barlow Twins [33] 56.8 82.6 63.4 39.2 59.0 42.5 34.3 56.0 36.5Fast-MoCo 57.7 82.7 64.4 39.5 59.2 42.6 34.6 55.9 36.90SwAV [3](带多裁剪) 56.1 82.6 62.7 38.4 58.6 41.3 33.8 55.2 35.90表3:VOC和COCO目标检测(det)和实例分割(seg)结果。我们使用ResNet50和C4骨干变体[14]来测量平均精度(AP)的结果。对于VOC数据集,我们在trainval07+12上进行训练,并在test07上运行三次试验并报告平均结果。0MoCo不应用两图像一对机制。在本节中,我们对这些变体进行了详细比较。样本-编码-合并。比较的设置包括无法从划分的224×224视图生成补丁的情况。除了Fast-MoCo基线外,我们设置了一个样本-编码-合并(SEC)配置进行公平比较。在SEC配置中,我们用随机和独立采样的补丁替换Fast-MoCo中的“划分”步骤。与从两个224×224视图划分的2×4个补丁不同,对于SEC,我们有八个独立采样的补丁:{xp | p ∈{1,...,8}}和两个224×224目标{xat,xa't}。由于SEC的xp不是从目标视图xt划分的。所有八个xp的嵌入可以相互组合以获得组合嵌入c,我们的组合数量从2C24 = 12增加到0+v:mala2255获取更多论文010 Y. Ci et al.0方法 Top-1 样本数量0仅编码 4 68.90样本-合并-编码 4 71.2 划分-合并-编码 471.80蒙太奇-编码-划分- 28 70.4合并样本-编码-合并 28 72.9 Fast-MoCo 1273.50(a)补丁编码方法的比较。结果基于ImageNet线性评估,所有模型都进行了100个时期的预训练。0情况多裁剪 组合Top-10MoCo v3 - - 70.3 (i) - 73.1 (ii) - 73.5(iii) - - 74.20(b)与多裁剪的关系。'Comb.'表示使用组合补丁。结果是在ImageNet上进行线性评估,所有模型都进行了100个时期的预训练。0表40C28 = 28。SEC的损失函数如下所示:0L x = 102C280c ∈ c (Lctr(zc, zat) + Lctr(zc, za't)), (5)0它获得了72.8%,在表4(a)中的所有变体中排名第二。仅编码是一种广泛采用的编码补丁的方式,它们分别进行编码[25, 26, 21,13],与我们的Fast-MoCo中的“划分”步骤或“合并”步骤无关,如图2所示。为了公平比较,用于编码的补丁应包含与两个112×112的补丁组合相同数量的信息,因此我们将补丁的空间尺寸设置为158×158。这样做的话,我们就不能通过划分我们用于对比目标的224×224的图像来检索这些补丁,因此它们是通过增强独立生成的,如第4.1节所述。我们为每个图像x生成四个158×158的补丁{x p}和两个224×224的目标{x a t, x a ′t},我们有:0L x = 10z p ∈ z p ( L ctr ( z p , z a t ) + L ctr ( z p , z a ′ t )) , (6)0其中,z target表示小批量中的目标向量,zp表示从图像x中采样的四个补丁的特征。如表4(a)所示,仅编码的结果为68.9%。划分(采样)-合并-编码。Fast-MoCo将小划分的补丁独立地进行编码,并在嵌入级别上进行合并;也可以将它们在图像级别上合并,补丁放置在它们的原始位置,从而保留补丁之间的相对位置信息。需要注意的是,如果拼接的图像不是矩形形状,则对于CNN编码器来说,冗余的计算成本将很难避免。在划分步骤中,我们将一个224×224的图像垂直和水平划分为四个112×112的补丁。0+v:mala2255获取更多论文5.3Relationship with Multi-CropMulti-crop is a technique proposed in SwAV [3]. In addition to two 224 × 224crops, multi-crop additionally adds six 96 × 96 patches as samples so that theencoder is trained with samples that have multiple resolutions and hard sam-ples. However, the additional samples also needs more computation. While bothFast-MoCo and mulit-crop use small patches as their input, Fast-MoCo is nottrained with samples of multiple resolutions. Except the (iii) in Table 4(b), all+v:mala2255获取更多论文0Fast-MoCo:提升基于动量的对比学习 110在划分-合并-编码的合并步骤中,两个112×112的补丁被拼接成112×224或224×112的图像。划分步骤、编码步骤和损失与Fast-MoCo相同。如表4(a)所示,与仅编码的四个158×158正方形裁剪相比,这些具有较少局部边界特征的矩形裁剪具有+2.9的增益。划分-合并-编码也可以看作是将我们的Fast-MoCo流程的合并步骤放在编码步骤之前。与Fast-MoCo流程相比,1)划分-合并-编码流程在相同的计算成本下生成更少的目标-样本对,2)不包括足够困难的目标-样本对(在第5.4节中进行更多讨论)。对于表4(a)中的采样-合并-编码,我们独立生成112×112的矩形补丁,并发现它比仅编码的补丁有+2.3的增益。采样-合并-编码的性能不如划分-合并-编码,因为划分-合并-编码中的划分补丁没有重叠,这最大化了组合补丁的多样性,但采样-合并-编码不能保证不重叠的补丁。Montage-Encode-Divide-Combine。JigClu[5]提出了一种使用拼接图像的补丁编码技术。给定一个K个图像的批次,从每个图像中生成四个具有不同增强的补丁,从4K个补丁的小批量中随机选择(不重复)四个补丁,生成K个大小为224×224的拼接图像。编码器在平均池化之前添加了一个额外的步骤,将K个拼接特征图划分回4K个补丁特征,以获得它们的编码嵌入。我们用这种Montage-Encode-Divide方法替换了我们的划分-编码步骤,形成了一个Montage-Encode-Divide-Combine流程。表4(a)中的这种方法的结果表明,它不如相对简单的Fast-MoCo方法好。分析总的来说,我们的Fast-MoCo在稳定的边缘上优于其他变体。仅编码基准达到了68.9%。如果我们在编码机制之前合并输入,性能提高到了71.2%和71.8%,分别对应于通过随机裁剪和划分获得的输入。如果我们在编码输入之后合并嵌入,性能提高到了72.9%(通过随机裁剪)和73.5%(Fast-MoCo)。Montage策略达到了70.4%。我们发现,采样(随机裁剪)的性能始终不如划分,编码之后的合并始终优于编码之前,在我们的实验中。基于这些结果,我们发现非重叠的补丁(划分)和编码之后的合并是最佳实践。12Y. Ci et al.input123finalStage6970717273Top-1Combine Stage for 2x2 splitsn=2n=4Fast-MoCo(a)0.20.40.60.81.0n/m2657075Top-11234345678912Fast-MoCo Combinations - m x m split1x12x23x3(b)Fig. 3: (a): ImageNet linear evaluation accuracy (Y-axis) when different ResNetstages
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM动力电池数据管理系统源码及数据库详解
- R语言桑基图绘制与SCI图输入文件代码分析
- Linux下Sakagari Hurricane翻译工作:cpktools的使用教程
- prettybench: 让 Go 基准测试结果更易读
- Python官方文档查询库,提升开发效率与时间节约
- 基于Django的Python就业系统毕设源码
- 高并发下的SpringBoot与Nginx+Redis会话共享解决方案
- 构建问答游戏:Node.js与Express.js实战教程
- MATLAB在旅行商问题中的应用与优化方法研究
- OMAPL138 DSP平台UPP接口编程实践
- 杰克逊维尔非营利地基工程的VMS项目介绍
- 宠物猫企业网站模板PHP源码下载
- 52简易计算器源码解析与下载指南
- 探索Node.js v6.2.1 - 事件驱动的高性能Web服务器环境
- 找回WinSCP密码的神器:winscppasswd工具介绍
- xctools:解析Xcode命令行工具输出的Ruby库
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功