没有合适的资源?快使用搜索试试~ 我知道了~
重新思考对比学习中的增强模块:扩展视图学习分层增广不变性
1665010.80.60.40.2重新思考对比学习中的增强模块:用扩展视图学习分层增广不变性张凯生马*清华大学zhangjb21@mails.tsinghua.edu.cnkaisheng@mail.tsinghua.edu.cn摘要在对比学习中,利用数据扩充模块将给定的数据示例转换为两个视图,这被认为是必不可少的和不可替代的。然而,多个数据增强的预定组成带来两个缺点。首先,人工选择的增强类型给模型带来了特定的表征不变性,这些不变性对不同的下游任务有不同程度的正负影响。在训练过程中平等对待每种类型的增强,使模型学习各种下游任务的非最佳表示,并限制Flex提前选择增强类型。其次,经典对比学习方法中使用的强数据扩充在某些情况下可能会带来太多的不变性,并且可能会丢失对某些下游任务至关重要的细粒度信息本文提出了一种通用的方法来缓解这两个问题,考虑我们首先建议根据每个数据增广的重要性在模型的不同深度学习不同的增广不变性,而不是在主干中均匀地学习代表性不变性然后,我们建议使用增强嵌入来扩展对比度内容,以减少强数据增强的误导基于几个基线方法的实验表明,我们学习更好的表示为各种基准分类,检测和分割下游任务。1. 介绍对比学习已被证明能够在没有人类注释的情况下学习有意义的视觉表示[4,10]。原有的方法是将同一个例子转换成的两个视图看作正对,将批或存储体中的其他例子看作负对,*通讯作者。(b)第(1)款图1.增强类型的影响(a)ImageNet中数据增强具有积极影响的类别的比例(b)一个花的例子,其中颜色不变性有负面影响,旋转不变性有正面影响。对于ImageNet中的大多数类别,结论是相反的。[30]然后用对比损失训练模型许多技术以前被认为在这个过程中很重要,例如强数据增强[3],负样本的选择[14,34],动量更新编码器[10,11]以及训练细节,如大批量和长训练时期[3]。然而,最近的工作证明,有用的视觉表示可以在没有负对,参数的动量更新或大批量的情况下学习[4,10,39]。对比学习中最不可缺少的过程是数据扩充模块。对比学习的基本原理是通过使网络学习对一组数据增强不变性来学习代表不变性[29]。以往的工作表明,多种类型的数据扩充的组合对于对比学习是至关重要的[3]。在广泛的实验之后确定一组特定的增强,以在大规模数据集上实现最佳结果(例如,ImageNet)。在大多数最近的作品中[1,11,16,26,33],数据增强管道包括随机裁剪和缩放、水平翻转、颜色抖动、转换为灰度和高斯模糊。然而,这种预先确定的、人为选择的加固类型和加固强度,也带来了相应的问题:在增强类型方面,在选择特定的10.80.60.40.20.920.770.620.560.4100增强类型(一)类别比例16651视图1视图2(a)(b)第(1)款视图1在无监督对比学习中被提出。本文提出了一种通用的方法来解决这两个增强相关的问题,考虑首先,我们提出不同地对待不同的数据增强,并学习通过计算编码器不同深度处的多个对比损失,我们使基本增强不变性更广泛地分布,并且使一些通常不重要的不变性限于更深层。通过限制影响范围图2.增强强度的影响。(a)对齐两个裁剪视图会引入误导性的空间信息。(b) 对齐两个颜色增强视图会丢失花的细粒度颜色信息类型,当前的对比学习方法平等地对待每一个增量,并且所有的代表性不变性均匀地分布在主干中。然而,根据以前的工作,一些增强是对比学习的基础[3,10],如裁剪和颜色抖动,而其他则不太重要甚至有害,如模糊和旋转。图1(a)显示了ImageNet中数据增强具有积极影响的类别比例。此外,每个数据增强可能对下游任务具有不同的影响。如图1(b)所示,使用颜色抖动可能有助于ImageNet中的大多数类别,但会损害花朵的表示学习,而添加旋转则会带来相反的效果。因此,简单地去除一个增强(例如,旋转),并且如在经典的增强流水线中那样保持另一个假定了不变性的隐含知识不加区别地学习编码器中的增强不变性使得其在预先选择增强类型方面不太灵活,并且可能导致各种下游任务的非最佳表示。In terms of the augmentation strength, SimCLR [3]shows that contrastive learning benefits from strong dataaugmentations. InfoMin原则[29]还认为,弱增强给两个增强视图之间的互信息带来了太多的噪声,这导致下游任务的泛化能力然而,使用强增强学习的表示有时可能会给骨干带来不必要的不变性,并丢失一些下游任务所必需的细粒度信息。如图2所示,将两个裁剪视图投影到特征空间中的相同位置会学习误导性的空间信息,并带来太多的不变性。并且将两个颜色增强的视图投影到相同的位置会丢失细粒度的类别信息[6](例如,牵牛花(Morning Glory)虽然经典的方法通过在编码器之后添加投影头来隐式地缓解这个问题,但是没有显式的方法在不削弱其强度的情况下,我们证明了添加在经典增强集中没有使用的特定类型的数据增强可以同时提高在两个大规模数据集上的性能ImageNet,COCO)和细 粒 度 数 据 集 ( 例 如 , VGG Flowers , iNaturelist-2019)。其次,我们建议使用增强嵌入来扩展对比度内容。通过使用输入变换来增强原始标签,监督学习中的标签增强[18]方法放松了特定的变换不变约束,并防止了变换相关信息的丢失。受此启发,我们将每个视图视为另一个视图的编码的增强信息有助于减少不必要的不变性,并弥补一些丢失的细粒度信息。用于嵌入增强参数的小网络与编码器同时训练,并且在推理期间被丢弃。我们的分析表明,增强嵌入学习有用的信息,具体的增强和受益的表示学习在各种基准。我们将我们的方法应用于几个基线对比学习架构,并评估各种分类,检测和分割基准的表示。我们的研究结果表明,所提出的方法consistently提高性能相比,基线的各种下游任务。2. 相关工作2.1. 对比学习对比学习的目的是使用对比对从未标记的数据中学习可推广和可转移的表示。经典方法为每个数据样本构建正对和负对,并使用infoNCE损失优化模型[30]。阴性样品的选择MoCo [11]引入了一个动态存储库来记录负样本的嵌入。AdCo [14]通过对抗训练学习一组负样本。其他作品提出将数据与原型表征进行对比,试图找到更合适的负样本进行对比学习-视图216652∼ing [2,19].除了负样本之外,Simplified [3]表明大批量和长训练时间对于对比学习也至关重要。除了上述经典的训练框架,BYOL [10]引入了一个缓慢移动的平均网络,并表明对比学习可以在不使用任何负样本的情况下有效。通过引入停止梯度,SimSiam [4]表明简单的暹罗网络可以学习有意义的表示,即使没有负对,大批量或动量编码器。Barlow Twins [39]进一步提出了一个新的对比学习目标,而不使用停止梯度,这也带来了可比的结果。最近,一些理论工作试图理解这些新方法如何成功地避免表征崩溃[15,27]。尽管对比学习框架已经大大简化,但在大多数工作中,产生具有多种类型的数据增强的对比对仍然被认为是至关重要和不可或缺的对比学习的本质是学习表示中的多个增强不变性,以便这些表示可以成功地用于各种下游任务。2.2. 对比学习对比学习中的增强模块将给定的数据样本转换为两个相关的视图。Sim-2010 [3]首先表明,多个数据增强的组合对于产生有效的表示是至关重要的,其中随机裁剪和颜色抖动的组合尤为突出。本文还进行了详细的实验,以证实无监督对比学习受益于强大的数据增强,并确定了一组在通用数据集上产生最佳结果的增强。BYOL [10]提出了一种新的架构,该架构对图像增强的选择更加鲁棒。在移除一些增强功能时,它的性能受到的影响比Simplified小得多。然而,简单地在BYOL中移动一种类型的增强仍然会导致精度下降5%~25%。随着数据扩充的必要性被充分肯定,许多工作都在探索什么样的数据扩充可以在对比学习中产生更好的SwAV [2]提出了一种新的“多作物”增强策略,该策略混合了不同分辨率的视图。CsMl [37]应用CutMix[38]增强来生成具有交叉样本和多级表示的视图。此外,InfoMin [29]认为,最佳增强策略应该在保持任务相关信息的同时减少视图之间的互信息。由于这种“最优”增强策略与下游任务密切相关,因此In-foMin提出以半监督的方式学习这种最优策略。尽管这种方法在完全无监督的框架中效果不佳,但它启发我们思考是否使用预先确定的如在大多数先前的工作中一样,数据扩充在某些下游任务上具有一些缺点。MaskCo [42]中也提出了类似的想法,认为实例判别预训练任务中的隐式语义一致性假设可能会损害无约束数据集上下游任务的性能在扩充方面,预定的数据扩充假设在下游任务中可能不总是需要的特定表示不变性。LooC [36]通过使用多头网络隐式地削弱了这种假设。尽管如此,LOOC的主干仍然具有相同的表示不变性。相反,我们通过考虑在对比学习中对比“在哪里”和“什么”来减少预先确定的增强类型和增强强度3. 方法我们首先回顾了3.1节中一般对比学习框架中的三个不可或缺的组成部分:增强模块、连体结构和对比损失。然后,我们在第3.2节中说明了整体架构,并表明所提出的方法可以与适合一般对比学习框架的任何方法相结合。接下来,我们将分别在第3.3节和第3.4节中详细介绍所提出的处理增强类型和增强强度问题的3.1. 通用对比学习框架我们首先简要回顾了一般框架中的三个组成部分。首先,数据扩充模块将给定的数据实例随机转换为两个视图。这两个相关的视图然后被馈送到主干,并用于计算对比损失。在大多数以前的作品中广泛使用的多 个 数 据 增 强 的 组 成 包 括 随 机 裁 剪 和 缩 放 、 hor-izmartineflapping、颜色抖动、转换为灰度和高斯模糊。其次,两个基于神经网络的编码器形成从两个视图提取表示向量的连体结构。注意,两个编码器可以共享它们的权重[4,39],或者可以是具有相同结构的两个单独的网络[11,22,31]。编码器可以通过反向传播或基于动量的参数移动平均来优化[10]。第三,对比损失被用来定义对比预测任务。在以前的工作中已经提出了几种对比损失,例如使用负样本或原型[2,19]计算的InfoNCE [30],两个正视图特征之间的负余弦相似性[4],以及视图的互相关矩阵和单位矩阵之间的相似性[39]。这些目标函数的核心是缩小特征空间中两个视图之间的距离。16653~~~ResBlocksResBlocksResBlocksResBlocks[,,][“,”、]1~ 412341 23、1~4ℎℎ′对比损失损失′、1~4′1′2′3′ 1′2′34′‘~’′ResBlocks1~4ResBlocksResBlocksResBlocks∼--我图像特征网络数据流投影头(a) 增强模块(b)连体结构(c)对比损失图3.对一般对比学习框架中三个组成部分的改进。(a)增强模块:我们用加一策略生成多对视图,并利用一个小网络嵌入增强参数。(b)连体结构:我们根据深度将骨干分为几个阶段。在不同阶段提取以不同颜色示出的多对视图特征(c)对比损失:我们引入多个对比损失在不同阶段使用多对视图功能。视图特征在投影头之前用相应的增强嵌入来扩展扩展的功能,然后可以用来计算对比损失,在许多以前的作品。3.2. 我们的方法我们的方法概述如图3所示。我们介绍了对比学习框架的三个改进。首先,我们不是将数据样本转换为一对视图,而是使用add-one策略生成多个增强模块,并将图像转换为多对视图,如图3(a)所示。“增加一个”意味着每个增强模块比前一个模块多一个增强类型。一个小的网络被用来嵌入特定的增强参数,用于后续的改进。第二,根据深度将连体结构分为几个阶段,如图3(b)所示。随后,多对视图特征将在不同阶段被显示,并用于计算多个对比损失,这些对比损失通过这两个改进,可以在编码器中学习分层增广不变性。三是通过将不同的不变性应用于编码器的不同深度来计算增强不变性具体地说,我们采取了一个加一策略的基础上的重要性,每一个增强类型,以产生多个增强模块。因此,每个增强模块比前一个模块多一个增强类型,并且最后一个模块包含如在经典流水线中的所有类型的增强在本文中,我们根据深度将骨干分为四个阶段,如以前的工作[40,41]。在大多数以前的作品中,我们将完整的增强流水线公式化为T=Composet0,t1,t2,t3,t4,其中t0包含基本增强,t1,t4各自表示一种类型的增强。 因此,由加一策略生成的四个增强模块T1、T2、T3、T4可以公式化为:T1=合成{t0,t1},使用增强嵌入扩展视图特征,同时保持原始损失函数不变,如图3(c)所示。通过这样做,视图信息与增强信息组合。注意这些T2=合成{t0,t1,t2},T3 =合成{t0,t1,t2,t3},T4=合成{t0,t1,t2,t3,t4}。(一)三种改进可以与当前的对比学习框架。 我们接下来介绍-有了这些模块,我们增加了给定的数据sam-将x分解为八个维:vi=Ti(x),v′=T′(x),i=我我在3.3节中介绍了前两个改进,1,2,3,4,其中Ti和T′有相同的增长第3.4节的改进。3.3. 分层增广不变性为了缓解第1节中讨论的增强类型的问题,我们建议学习层次结构,类型,但它们是两个随机实例。这样,我们得到了四对视图。对齐每对视图特征带来了增强不变性的特定组合。有了这些对的意见,我们建议计算多tiple对比损失在不同深度的编码器。166544我∼我我我我八月,我Σ4优化每个损失函数为编码器的子部分带来特定的我们在ResNet主干的每个阶段结束时引入对比具体来说,我们在浅层阶段添加几个卷积层,以获得与最后一个阶段输出相同形状的特征这些额外的层还有助于解决梯度竞争问题[25]并提取更有意义的视觉表示。然后由编码器的四个子部分分别提取四对视图特征,其可以被公式化为:ei=gi(fi(vi));e′=g′(fi(v′)),i=1,2,3,4,(2)其中fi表示主链的四个阶段,g i表示额外的卷积层。我们不向最后一级添加任何层,因此g4和g′ 可以被实例化为身份函数。与大多数对比学习工作一样,我们使用几个基于MLP的投影头hi将每个视图特征映射到应用对比损失的空间zi=hi(ei);z′=hi(e′).(三)在自监督学习中没有类别标签,并且在大多数情况下,增强参数是连续的浮点数。因此,我们建议将每个视图视为另一个视图的“标签”,并通过一个小网络嵌入增强参数。通过这种方式,我们可以扩展每个视图特征及其增强嵌入,以适当地去除不必要的不变性。在实践中,我们利用线性层faug将每个增强的参数嵌入到向量中。以颜色抖动为例,我们首先得到亮度、对比度、饱和度和色调四个因素为[b,c,s,h]。我们连接这些标量,并使用输入大小为4的线性层嵌入它们:e aug=f aug([b,c,s,h]).然后我们将视图特征和增强嵌入连接起来,然后将它们馈送到投影头。因此等式(3)变为:zi=hi([ei,eau g,i]);z′=hi([e′,e′ ]).(五)以往的作品猜想投影头的直观理解:由对比损失,亲,我我因此,总损失函数如下公式化,其中L对比度可以是对比度损失中的任何一个:Li=L<$ras t(zi,z′),Lo verall=Li.(四)i=1以这种方式,增强t0和t1的不变性分布最广,而t4的不变性仅限于编码器的最深级在本文中,我们将t0实例化为随机裁剪和随机缩放,因为ImageNet图像的大小不同,裁剪被认为是对比学习最基本的增强。t1t4在以下四个增强中被选择为经典流水线,而没有重复:水平翻转、颜色抖动、转换为灰度和高斯模糊。与我们的直觉和动机一致,实证研究发现,根据每个增强的重要性实例化ti会带来最佳结果,如第5.1节所示。3.4. 基于增广嵌入的特征扩展以前的一些工作将自我监督任务作为辅助训练,以提高监督学习的性能[18]。这些工作利用“标签增广”来消除自监督任务带来的不必要的不变性。它们使用用于相应图像的增强参数来增强类别标签y。更具体地,分类器应该联合预测原始标签和由增强参数(例如,0 °、90°、180°和270°的旋转度)。喷射头去除可能对下游任务有用的信息,例如对象的颜色[3]。因此,可以在骨干f中保持更多有用的信息。提出的特征扩展过程,投影头应同时考虑特征和颜色相关的信息,以满足对比学习的目标。换句话说,我们明确地帮助投影头完成去除颜色相关信息的工作。因此,有用的信息更适当地存储在主干f中。本文还尝试嵌入裁剪参数,并将裁剪嵌入与颜色增强嵌入相结合.对于随机裁剪,我们得到表示裁剪框的位置、高度和宽度[ x,y,h,w ]的四个参数不同增强嵌入的详细比较见5.3节。4. 实验4.1. 实验设置数据集。我们对无监督预训练的大部分研究都是使用ImageNet ILSVRC-2012数据集完成的[5]。消融的额外 预 训 练 实 验 使 用 ImageNet 的 子 集 , 100-categoryImageNet(IN- 100)完成。这个子集的分割遵循CMC[28],它包含100个类的大约125K图像。分类任务的线性评估是在ImageNet和其他一些数据集上进行的,以测量传输能力,如下所示。Caltech-UCSD Birds 2011(CUB-200)数据集[32],200种鸟类的细粒度分类VGG Flowers(Flowers-102)[23],a16655模型法模型法∼×表1.线性评价下的前1和前5准确度(%)所有模型都使用在ImageNet上预训练的ResNet-50编码器ImageNet CUB-200 Flower-102 iNat-2019 Car-196顶-1顶-5顶-1顶-5顶-1顶-5顶-1顶-5顶-1顶-5顶-5ResNet 50SimSiam [11] 69.9 89.338.8 68.2 89.9 97.4 32.1 58.4 50.5 76.7表2.线性评价下的前1和前5准确度(%)所有模型都使用在ImageNet-100上预训练的ResNet-34编码器ImageNet-100 CUB-200 Flower-102 iNat-2019 Car-196顶1顶5顶1顶5顶 1顶5顶1顶5顶1顶5顶5顶1顶5顶1顶5顶5顶1顶5顶1顶5顶1顶5顶1顶5顶1顶5顶5顶1顶5顶1顶5顶5顶1顶5顶5顶1顶5顶5顶1顶5顶5顶1顶5顶5顶5顶1顶5顶5顶1顶5顶5顶5顶1顶5顶5顶1顶5顶5顶5顶1顶5顶5顶1顶5顶5顶5顶5顶5包含102种花卉类别的细粒度数据集。iNat-2019数据集(iNat-2019)[13]是一个包含268,243张图像的大规模数据集,其中包含1010种天然植物和动物。斯坦福汽车数据集(Car- 196)[17],一个细粒度的数据集,包含196类汽车的16,185张我们在两个著名的基准测试中测量了转移到其他任务的能力,包括用于对象检测的VOC2007 [7]和用于对象检测和实例分割的COCO[20]实作详细数据。为了学习分层增广不变性,我们将骨干分为四个阶段,并在每个下采样层之前提取特征图。数据增强 t1t4的主要实验是颜色抖动,转换为灰度,模糊环,水平翻转,分别。第5.1节讨论了这些增强类型的选择策略。为了在不同阶段产生视图特征,我们在浅阶段添加了几个额外的卷积层(前三个阶段的卷积层数量分别为3,2,1),这些卷积层在推理期间被丢弃。基于MLP的投影头具有与许多先前作品相同的结构,其具有三个全连接层。请注意,我们还添加了三个投影头来投影浅阶段的视图特征。为了嵌入增强参数,我们使用线性层,然后是BN和ReLU,将参数投影到ImageNet预训练实验的512维向量中。这个小的网络在推断期间也被丢弃。在主要的实验中,我们扩展的视图功能与增强嵌入在所有阶段,包含相应的增强不变性。无监督预训练。我们在1000类ImageNet训练集上预训练ResNet- 50主干遵循经典的协议。我们还使用相同的超参数设置在100类ImageNet上预训练ResNet-34骨干,用于消融研究。具体来说,在SimSiam之后,我们使用SGD优化器对所有模型进行了200个epoch的 我们使用lr的学习率BatchSize/ 256(线性缩放[8]),带基数lr=0。05.学习率具有余弦衰减时间表[3,21]。权重衰减为0。0001,SGD动量为0.9。批量为256。为了公平和直接的比较,我们对每个基线和我们的方法使用相同的设置,并且只对上述基线应用三项线性评估、检测和分割。我们遵循线性评估协议[9],其中预训练模型是固定的,只有额外的线性分类层被微调。对于检测和分割任务,我们在目标数据集中端到端地微调预训练模型Faster R-CNN检测器[24]用于VOC,Mask R-CNN检测器[12]用于COCO,两者都具有在Detectron 2 [35]中实现的ResNet 50-C4主干。更多细节可在附录中找到。4.2. 结果首先,我们展示了分类任务中的线性评估结果,其中模型在ImageNet上进行了预训练在表1中,我们使用在ImageNet-1000上预训练的ResNet-50的主干将我们的方法与相应的基线进行了比较。报告了几个基准测试的前1名和前5名精度。我们的方法显著提高了各种分类下游任务的性能,特别是在细粒度数据集上,可能是因为细粒度数据集的表示对数据增强更敏感。例如颜色SimSiam +我们70.189.542.272.092.398.438.165.351.977.0[39]第三十九话67.087.633.862.989.197.231.958.137.264.3BT + Ours67.187.935.865.191.297.836.063.638.464.7SimSiam +我们67.190.533.964.283.694.523.244.520.742.7[10]第十届全国政协委员66.589.130.059.476.692.317.837.620.542.6BYOL + Ours69.391.333.664.083.294.124.447.521.943.8[39]第三十九话67.389.827.555.176.491.717.137.215.534.1BT + Ours69.191.729.458.582.194.923.345.017.036.216656}{∼∼5075表3.将学习结果转移到检测和分割上。所有模型都使用在ImageNet上预训练的ResNet-50编码器。表4.将随机旋转添加到增强管道对准确度(%)的影响Rotation-i(i = 1,2,3,4)表示从第i阶段开始将旋转不变性添加到模型中。方法VOC 07 det COCO det COCO instance segAP50 APAP75AP50 APAP75APAP新加坡[11]72.345.849.455.036.038.651.831.933.9SimSiam +我们72.046.650.956.937.6四十七53.533.135.2英国电信[39]71.245.649.459.640.043.056.135.137.2BT + Ours71.746.049.760.040.2四十三点五56.735.137.6信息对于区分Flower-102中的花卉和iNaturalist-2019中的自然物种更为重要。我们还比较了我们的方法与更多的基线和不同的模型架构,其结果如表2所示。在这里,我们使用在ImageNet-100上预训练的ResNet-34的主干。与基线模型相比,该方法仍能显著提高精度,反映了该方法的稳定性和通用性。接下来,我们评估我们的表示为对象检测和实例分割的对于VOC 07检测,我们在trainval2007上进行微调,并使用标准AP50、AP、AP75度量在test2007上报告结果。对于COCO检测和分割,我们在COCO 2017train上进行微调,并在COCO 2017 val上报告结果表3显示,我们的方法提高了两个任务的准确性,表明我们的方法提高了分类任务之外的表示的泛化能力上面,我们报告了表示学习的结果,使用类对比学习方法中的数据扩充的确切组成。接下来,我们展示了通过限制数据增强的影响范围,添加在经典增强管道中未使用的特定类型的数据增强(例如,旋转)可以同时提高大规模数据集和细粒度数据集的性能。我们假设经典的对比学习方法引入旋转数据增强将导致严重的性能下降,因为他们平等地对待每个数据增强。相反,我们将旋转不变性限制在模型的更深层,而不会削弱其增强强度。根据Simplified [3],旋转增强以0°、90°、180°、270°之一随机旋转图像,概率为0.5表4显示了我们的方法与SimSiam基线在有和没有旋转增强的情况下的比较结果。首先,通过将旋转不变性限制在最深阶段,我们的方法在有或没有旋转增强的情况下优于SimSiam [11其次,与我们的方法相比,没有旋转,增加旋转增强提高了细粒度数据集,如CUB-200和Flower-102的性能。此外,在我们的方法中添加旋转增强对通用数据集带来了显着较小的负面影响(例如,Im-ageNet)比基线。 我们还比较了方法ImageNet-100 CUB-200花-102新加坡[11]63.929.176.1SimSiam +我们67.133.983.6SimSiam [11] +旋转61.328.476.4我们的+轮换-466.234.184.7我们的+轮换-160.931.884.2我们的+轮换-262.032.084.7我们的+轮换-364.332.984.0表5.增强类型不同排列方式(C:颜色抖动; G:转换为灰度;B:模糊; F:翻转)ImageNet-100 CUB-200 Top-1Top-5 Top-1Top-5[G、 B、F、 C]64.588.032.963.6[B、 F、C、 G]65.489.333.564.0[F、 C、G、 B]66.390.033.263.8[C、 G、B、 F]67.190.533.964.2从模型的不同阶段开始添加旋转不变性,如表4中的最后三行所示。对于我们的方法,rotation-i意味着从第i阶段开始将旋转不变性添加到模型中。这些结果表明,扩大模型中旋转不变性的分布对表征学习是有害的,这符合我们的直觉和动机。5. 讨论在本节中,我们将详细分析我们的方法,并解释为什么我们的每一项改进都是有效的。5.1. 为什么分层增强有效?我们假设数据扩充对下游任务有不同程度的积极和消极影响,在训练过程中应该区别对待。因此,我们建议使基本的增强不变性在编码器中更广泛地分布,并将一些无关紧要的不变性限制到更深的层,即学习分层增强不变性。为了验证这一假设,我们改变了公式1中t1t4的选择,并比较了ImageNet和CUB-200上的线性评估结果。表5显示了增强的四种排列模式的结果,其中C/G/B/F分别表示颜色抖动、转换为灰度、模糊和翻转。结果表明,根据每个增强的重要性实例化t1t4带来了最好的结果,这证实了我们的假设。此外,我们还将该方法与另外两种基-布置16657✓×✓∼∼表6.两个设计基线的准确度(%)比较方法ImageNet-100 CUB-200表8.包埋类型的消融研究(根据/%)。嵌入数据集表9.两个模块的消融研究/%)。这里八月 八月,Acc.前1前5前1前5× ×63.9×等级类型(我们的)67.1 90.5 33.9 64.2×66.267.1表7.使用不同表征预测培训期间应用的转换的借口任务的准确度(%)。随机猜测的准确率为10%。任务表示八月嵌入准确度(%)e ×25.0✓66.9 32.9✓66.734.0在Simplified [3]中,ficult任务比原始任务更复杂。表7显示,使用特征扩展训练的e包含更多关于所应用的转换的信息,而其他表示丢失了这些信息。颜色h(e)12.1e5.3.消融研究在本节中,我们使用在ImageNet-100上预训练的模型对分类任务行,即表6中的“均匀”和“分级强度”。对于然而,在不同的阶段,增广不变性是一致的,这意味着T1t4和t1的t4等式1中的增量。 对于我们使所有类型的不变性分布在模型的各个阶段,但增强强度在较深的阶段比较浅的阶段更强。培训详情见附录。结果表明,我们的方法优于两个基线。结果表明,只采用多目标是不够的,加一策略是有效的。此外,简单地削弱浅层阶段的增强强度并不起作用,因为对比学习受益于强数据增强。5.2. 为什么功能扩展与增强嵌入工程?先前的工作[3]表明投影头h可以隐式地去除可能对下游任务有用的信息。因此,等式3中投影头h之前的特征e保持了更多有用的信息,并且是下游任务的更好表示我们扩展每个视图特征e及其增强嵌入。Thismodification explicitly promotes the projection head h toremove useful augmentation-related information inducedby the contrastive loss.因此,更多的信息可以形成和保持在e。为了验证这一假设,在Simplified [3]之后,我们进行了实验,使用h(e)或e训练(有或没有特征扩展)来学习预测训练期间应用的变换。具体地说,我们均匀地划分颜色抖动增强分为十类,根据其强度。然后,我们采取视图特征并预测应用于它们的增强强度的相对距离,这是一个更困难的方法。由于随机裁剪和颜色抖动是对比学习的基本增强,我们还尝试嵌入裁剪参数,并将它们与第3.4节中介绍的颜色增强嵌入相结合。表8示出了嵌入裁剪参数也导致与基线相比的准确度提高,但是不如嵌入颜色参数有效。将裁剪嵌入与颜色嵌入相结合在不同的基准上具有不稳定的这可能是因为我们在训练过程中简单地串联了两种类型的嵌入通道,这可以在未来的工作中改进。表9所示的消融研究结果进一步证明了我们方法中两个建议模块的有效性,其中aug.”表示在第3.3节和“8月”中引入的分层增强不变性。emb.”表示使用第3.4节中介绍的增广嵌入的特征扩展。6. 结论在本文中,我们考虑的缺点的增强模块的类型和强度。我们首先提出不同地对待每个增强,并学习骨干中的层次不变性,使其在事先选择增强类型时更加灵活。然后,我们建议扩展视图功能与相应的增强嵌入,这有助于保持有用的细粒度信息的视图功能。所提出的方法可以结合任何对比学习方法的一般框架。对几个分类、检测和分割下游任务的实验表明,所提出的方法导致了一致和显著的准确性提高。我们还进行了分析和消融实验,以探索我们的方法中每个组件的有效性。我们的方法的一些局限性包括在附录中。✓×均匀64.088.829.358.9颜色 作物 IN-100 幼崽等级强度63.688.227.156.4××66.267.131.933.916658引用[1] 盖伊·布克钦,伊莱·施瓦茨,凯特·萨延科,奥里·沙哈尔,罗杰·埃里奥·施密特·费里斯,拉贾·吉里斯和列昂尼德·卡林斯。使用粗标签的细粒度角度对比学习2021IEEE/CVF计算机视觉和模式识别会议(CVPR),第8726-8736页,2021年。1[2] Mathilde Caron , Ishan Misra , Julien Mairal , PriyaGoyal,Piotr Bojanowski,and Armand Joulin.无监督学习视觉特征对比聚类分配。2020. 3[3] 陈婷、西蒙·科恩布里斯、穆罕默德·诺鲁齐和葛offrey E.辛顿视觉表征对比学习的一个简单框架。ArXiv,abs/2002.05709,2020。一二三五六七八[4] Xinlei Chen,Kaiming He.探索简单的连体表示学习。在CVPR,2021年。第1、3条[5] 邓佳,董伟,理查德·索彻,李丽佳,K.李和李飞飞。Imagenet:一个大规模的分层图像数据库。CVPR,2009。5[6] Linus Ericsson,Henry Gouk,and Timothy M.医院自我监督模型的转换效果如何2021IEEE/CVF计算机视觉和模式识别会议(CVPR),第5410-5419页,2021年。2[7] 放 大图 片 作 者: Mark Everingham , Luc Van Gool,Christopher K. I.约翰·威廉姆斯温恩和安德鲁·齐瑟曼。pascal视觉对象类(voc)的挑战。International Journalof Computer Vision,88:303-338,2009。6[8] PriyaGoyal , PiotrDolla´r , RossB.Girshick ,PieterNoord-huis, Lukasz Wesolowski , Aapo Kyrola ,Andrew Tulloch,Yangqing Jia,and Kaiming He.准确的大 小 批 量 sgd : 1 小 时 内 训 练 imagenet 。 ArXiv ,abs/1706.02677,2017年。6[9] Priya Goyal,Dhruv Kumar Mahajan,Abhinav Gupta,and Ishan Misra.自监督视觉表征学习的缩放和基准测试。2019 IEEE/CVF计算机视觉国际会议(ICCV),第6390-6399页,2019年。6[10] Jean-Bastien Grill , Florian Strub , Florent Altch'e ,CorentinTallec , PierreH.Richemond , ElenaBuchatskaya , Carl Do-ersch , BernardoA'vilaPires ,ZhaohanDanielGuo,Mo-hammad Gheshlaghi Azar,BilalPiot,Koray Kavukcuoglu,R e' miMunos,andMichalValk o. BootstrapYourOw-N-Tent:A New Approach to Self-Supervised Learning ( Bootstrap Your Ow-N- Tent : ANew Approach to Self-Supervised Learning)NeurIPS,abs/2006.07733,2020。一、二、三、六[11] Kaiming He,Haoqi Fan,Yuxin Wu,Saying Xie,andRoss B.娘娘腔。无监督视觉表征学习的动量对比。2020 IEEE/CVF 计 算 机 视 觉 和 模 式 识 别 会 议(CVPR),第9726-9735页一二三六七[12] Kai m ingHe , Geo r giaGkioxari , PiotrDol la'r ,andRossB. 娘娘腔。面具R-CNN。IEEE Transactions onPattern Analysis and Machine Intelligence , 42 : 386-397,2020。6[13] Grant Van Horn、Oisin Mac Aodha、Yang Song、YinCui、Chen Sun、Alexander Shepard、Hartwig Adam、Pietro Perona和Serge J.贝隆吉非自然物种分类和检测数据集。2018 IEEE/CVF会议16659计算机视觉和模式识别,第8769- 8778页,2018年。6[14] 胡钱江、小王、胡伟、祁国军。Adco:对抗对比,用于有效学习来自自我训练的消极对手的无监督表示。2021年。一、二[15] 天宇华,王文晓,薛子慧,王越,任素成,韩昭。自监督学习中的特征去相关研究。2019 IEEE/CVF国际计算机视觉会议(ICCV),2021。3[16] 姜子玉,陈天龙,Bobak J。M
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 李兴华Java基础教程:从入门到精通
- U盘与硬盘启动安装教程:从菜鸟到专家
- C++面试宝典:动态内存管理与继承解析
- C++ STL源码深度解析:专家级剖析与关键技术
- C/C++调用DOS命令实战指南
- 神经网络补偿的多传感器航迹融合技术
- GIS中的大地坐标系与椭球体解析
- 海思Hi3515 H.264编解码处理器用户手册
- Oracle基础练习题与解答
- 谷歌地球3D建筑筛选新流程详解
- CFO与CIO携手:数据管理与企业增值的战略
- Eclipse IDE基础教程:从入门到精通
- Shell脚本专家宝典:全面学习与资源指南
- Tomcat安装指南:附带JDK配置步骤
- NA3003A电子水准仪数据格式解析与转换研究
- 自动化专业英语词汇精华:必备术语集锦
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功