没有合适的资源?快使用搜索试试~ 我知道了~
2809反思自我监督对比学习中的旋转:自适应正或负数据增强宫合敦之1庆余1井上大贵2入江吾2相泽清晴1东京大学2NTT日本{miyai,yu,aizawa} @ hal.t.u-tokyo.ac.jpdaiki-ikami@go.tuat.ac.jpgoirie@ieee.org摘要在对比学习中,旋转经常被列为数据增强的候选者我们认为,这是因为旋转的图像总是被视为积极或消极的。图像的语义可以是旋转不变的或旋转变化的,因此旋转的图像是被视为正的还是负的应该基于图像的内容来确定。因此,我们提出了一种新的增强策略--自适应正负数据增强(PNDA),其中原始图像和旋转后的图像在语义上接近时为正对,在语义上不同时为负对到现有方法积极数据增强(PDA)现有方法负数据增强(NDA)提案方法自适应阳性或阴性数据增强(PNDA)吸引0°旋转90°旋转击退0°旋转90°旋转击退0°旋转90°旋转0°旋转0°旋转0°旋转吸引击退吸引90°旋转90°旋转90°旋转为了实现PNDA,我们首先以非监督的方式在逐图像的基础上确定旋转是正还是负。然后,我们将PNDA应用到对比学习框架中。实验表明,PNDA提高了对比学习的性能。代码可在https://github.com/AtsuMiyai/rethinking_rotation上获得。1. 介绍最近,自监督学习[24,13,16,4,15]在表示学习中表现出显着的结果。自监督学习和监督学习之间的差距已经通过对比学习弥合[16,4,14,6,1,2]。对于自监督对比学习,数据增强是最重要的技术之一[29]。对比学习的一种常见方法是通过一些增强来创造积极因素,并鼓励它们更接近。由于这种增强策略创建了正样本,我们将其称为正数据增强(PDA)。此外,一些方法[27,28,12]使用增强来创建否定并鼓励将其推开。这种增强策略被称为负数据增强(NDA)。在此期间,曾尝试将其用于...图1:先前和拟议增强策略的比较。上部:PDA将所有旋转的图像视为阳性,并鼓励将它们拉近。中期:NDA将所有旋转图像视为底片,并鼓励将其推开。下:我们提出的PNDA考虑了图像的语义,并将每个图像的旋转注意,但几乎没有改进。尽管旋转在各个领域都很有用,Chen et al.[4] 报道,旋转PDA降低了自监督对比学习的表示能力,因为旋转在很大程度上影响图像语义。从那时起,旋转被视为对自监督对比学习有害。我们认为,这是因为以前的方法试图将旋转视为正或负,而不考虑每个图像的语义。为了解决这个问题,充分利用旋转,重要的是要考虑旋转是否影响每一幅图像的语义。将自然图像分为两类:具有模糊方向的旋转不可知图像(RAI)和具有清晰方向的非旋转不可知图像(non-RAI)。在RAI中,对象可以具有各种取向。将旋转PDA应用于RAI,2810鼓励它们被拉得更近,图像将获得对旋转鲁棒的嵌入特征。另一方面,在非RAI中,对象的取向是有限的。通过将旋转PDA应用于非RAI并鼓励它们被拉得更近,图像将丢失方向信息并且可能得到不期望的特征。对于非RAI,优选地将旋转视为负的以保持取向信息。基于这一观察,在这项研究中,我们引入了一种新的增强策略,称为自适应正负数据增强(PNDA)。在图1中,我们展示了PDA、NDA和PNDA的概述。虽然PDA和NDA不考虑每个图像的语义,但我们提出的PNDA考虑每个图像的语义,并且如果原始图像和旋转后的图像具有相同的语义,则将旋转视为正,如果它们的语义不同,则将旋转视为负为了实现PNDA,我们提取旋转被视为阳性的RAI。然而,没有方法来确定图像是RAI还是非RAI。因此,我们还解决了一个新的任务,采样RAI,并提出了一个基于熵的方法。该采样方法针对RAI和非RAI之间旋转预测难度的差异我们评估旋转PNDA与对比学习框架,如MoCo v2和Simplified。作为几个实验的结果,我们表明,所提出的旋转PNDA提高了对比学习的性能,而旋转PDA和NDA可能会降低它。本文的贡献总结如下:• 我们提出了一种新的增强策略,称为PNDA,认为图像的语义和对待旋转作为更好的一个积极或消极的每幅图像。• 我们提出了一个新的任务,旋转采样旋转不可知的图像被视为积极的。• 我们将旋转PNDA与对比学习框架相结合,发现旋转PNDA提高了对比学习的性能。2. 相关工作2.1. 对比学习对比学习已经成为自监督学习中最有效的方法之一[16,4,14,6,2]。一种流行的对比学习方法,如MoCo [16]和Simplified [4],是创建同一图像的两个视图,并在排斥不同图像的同时吸引它们。许多研究探讨了MoCo和Simpletion的积极或等方法BYOL [14]或SimSiam [6]仅使用阳性,但最近的研究[12,30]表明,通过将阴性纳入这些方法可以学习更好的表示。对于对比学习,积极和消极的使用对于学习更好的表示很重要。2.2. 对比学习的数据扩充对比学习的增强策略主要有两种:正数据增强(PDA)和负数据增强(NDA)。2.2.1积极数据增强(PDA)对比学习方法通过增强来创造积极因素,并使它们更接近。 例如,Chen et等人[4]提出了数据增强的组合,例如灰度、随机调整大小的裁剪、颜色抖动和高斯模糊,以使模型对这些增强具有鲁棒性。另一方面,他们报告说,在这些增强中添加旋转会降低性能。然而,他们使用旋转PDA,而没有考虑RAI和非RAI之间语义内容2.2.2负数据增强(NDA)已经提出了几种方法,通过对图像应用特定变换来创建负Sinha等人。 [27]研究了几种增强,包括Cutmix[33]和Mixup [34],它们通常在监督学习中用作正向,是否可以用作表示学习的NDA。然而,他们并不认为轮换NDA是有效的。 Tack等人[28]声明旋转NDA对于无监督的分布外检测是有效的,但他们也没有声明旋转NDA对于表示学习是有效的。这些方法[3,28,27]将变换后的图像视为负数,而不考虑每个图像的语义。2.3. 旋转不变性旋转不变性是视觉表示的许多良好和充分研究的特性之一,并且许多示例方法将旋转不变性特征并入特征学习框架。对于监督学习,G-CNN [7]和WarpedConvolutions [18]在学习旋转不变特征方面表现出对于自监督学习,Feng等人。 [11]致力于旋转特征学习,它学习一种表示,将旋转相关和不相关的部分解耦。然而,以前的工作分离旋转相关和不相关的部分implantations作为网络的内部信息,并没有明确提取RAI。在这里,我们解决了一个新的任务,采样RAI。2811i=1|S|Σ0否则。Σ. L−−(p)=SB{} S∈SΣ在本文中,我们提出了一种新的增强策略,称为PNDA,考虑图像的语义和旋转视为积极的RAI和消极的非RAI。为了实现PNDA,我们还解决了RAI采样的新任务。我们证明了轮换所有图像。我们训练模型来预测应用哪个变换S作为预处理,对于给定的一批样本=xiB,我们应用。 该步骤中的目标函数如下。具有对比学习框架的PNDA,L=1Σ−Slog(p(x)),B={S(x)}B.RAI和非RAI。CRSBS∈SxS∈BSS Sii=1(一)3. 旋转无关的图像采样为了实现PNDA,我们首先需要提取旋转被视为正的RAI图2、给出了提取RAI的设置。我们有RAI和非RAI的数据,我们的目标是以无监督的方式提取RAI。在本节中,我们提出了我们的新的基于熵的方法采样RAI。首先,我们在第3.1节中说明该方法的总体概念然后,在第3.2节中,我们详细介绍了p(xS)表示输入x S的多维softmax类概率。我们在这一步为β1epochs训练模型。3.2.2步骤2.我们提出了一个分离损失来区分RAI和非RAI。具体来说,我们首先定义以下两种损失。在第3.3节中,我们解释了推断的过程,莱斯=1BΣLes(p(xS))的情况下,使用过程。 最后,我们解释了调谐3.4节中的超参数3.1. 整体概念S∈SxS∈BSLes(p)=.−|H(p)− ρ|(一)|H(p)− ρ|> m),(二)这种采样方法着重于RAI和非RAI之间旋转预测难度的差异。对于RAI,原始和勒什科尔斯勒什科尔斯=1BLcrs(p(xS)),S∈SxS∈BScrs(p(xS))(H(p)ρm),0否则。(三)旋转的图像是相似的,因此该模型很难预测应用了哪种旋转。因此,旋转当量(2)是由[26]提出的熵分离损失H(p)是p的熵。 1.log(|S|),因为log(|S|)预测器另另一方面,对于非RAI,原始是H(p)的最大值。 M2是保证金,并且旋转的图像是不同的,因此该模型可以容易地预测应用哪种旋转。因此,对于非RAI,旋转预测器的输出的熵应该小。因此,我们可以通过旋转预测器的熵来分离RAI和非RAI我们在图3中展示了我们的方法的概述。G是特征生成器网络,并且F是旋转预测器网络。我们的想法是训练旋转预测器F来学习RAI和非RAI之间的边界。关键是仅使用非RAI来更新旋转预测器F,并且创建可以正确地预测旋转预测器F的旋转预测器。只有非RAI的旋转。3.2. 训练过程从前面3.1节的讨论中,我们提出了一个由以下两个步骤组成的训练过程,如图所示。3.第三章。3.2.1Step1.在第一步,我们在过拟合之前用所有样本训练初始模型。我们将变换集定义为所有图像旋转90度的倍数,即,im-年龄旋转0、90、180和270度。也就是说,我们表示S:={S0,S90,S180,S270}。 我们将S应用于一组2812β2aration.这种损失使得RAI的熵更大,并促使旋转预测器对RAI的旋转进行错误分类,并且使得非RAI的熵更小,并促使旋转预测器更自信地预测非RAI的旋转。方程中的损失(3)使模型能够仅使用非RAI进行学习对于超参数λ,最终目标如下。Lcrs+λLe s。(四)我们在这一步为β2epochs训练模型。式中的λ(4) 与历元数成比例:λ = λ′epoch,其中λ′是常数。3.3. 推理在推理时,我们将具有四种不同旋转的图像作为输入,并计算输出的平均熵作为表示旋转预测难度的分数。我们将得分大于ρ+m的图像视为RAI,将其他图像视为非RAI。我们把旋转视为积极的RAI和消极的非RAI。3.4. 调整超参数调整超参数λ′和m的方法集中在步骤1和步骤2之后的旋转分类精度2813i=1i=1−我 pzn∈Ni我·联系我们设置采样旋转不可知图像(RAI)RAI或非RAI图2:RAI采样的设置。我们有一组RAI和非RAI图像。我们的目标是以无监督的方式提取RAI。培训步骤2:用非RAI更新F和G使用非RAI进行更新推理计算每个图像的分数并确定RAI与否分享输出熵$0°旋转GF90°旋转GF1.11.2评分平均1.0RAI180°旋转GF270°旋转GF0.90.8(1.0>“+$)图3:建议的采样方法中的训练步骤和推理步骤概述。G是特征提取器,F是旋转预测器。在训练过程中,在步骤1,我们在过拟合之前使用所有样本初始化网络。在步骤2,我们只使用非RAI更新网络,并在非RAI和RAI之间建立边界在推理时,我们通过对4个旋转图像的F的输出的熵进行平均来计算分数Step2. 在步骤1中,我们在定义过InfoNCE损失之前训练旋转预测器,如下所示:拟合 在步骤2中,我们用非线性函数训练旋转预测器。RAI和分离RAI和非RAI的熵很大程度上Li并提取RAI旋转预报精度InfoNCEexp(zi<$zp/τ)=−logexp(z<$z/τ)+exp(z<$z、/τ)(五)步骤2之后的观测预测值应该与步骤1之后的观测预测值几乎相同,因为非RAI和RAI的数量在步骤1和步骤2之间没有变化。我们调整了超参数λ′和m,使得步骤2之后的旋转预测的准确度与步骤1之后的旋转预测的准确度相同。4. PNDA对比学习在本节中,我们将解释如何将PNDA应用于对比学习框架[4,5]。我们首先描述对比学习(即,InfoNCE损失)的情况下的歧视。接下来,我们介绍我们的方法,将PNDA应用到对比学习。4.1. 对比学习InfoNCE损失(即对比损失)通常用于实例判别问题[4,16]。给定编码器网络f和图像x,我们表示网络的输出,其中τ是温度参数。Simplified[4]和MoCo v2 [5]使用随机增强aug()创建同一图像xi,xi+的两个视图。对于小y,x∈i=aug(xi)和x∈i+=aug(xi). 这两个视图被馈送通过编码器f以获得嵌入zi=f(xi)和zi+=f(xi+)。 它们促使zi和zi+被拉得更近。 也就是说,当xi是锚图像时,锚样本是xi+。对于负样本,MoCov2使用大字典作为负样本的队列。Simplified随机采样一小批M个示例,并将增广的e个示例X和X+配对。对于小y,X=xiM和X+=xi+M. 小批量大小为2M。 对于阴性样本,Simplified使用小批量中除阳性样本以外的其他2(M1)个扩增样本。4.2. PNDA对比学习旋转PNDA将旋转图像视为RAI的阳性图像和非RAI的阴性图像我们定义了一组位置-f=f(x)我们使用zi作为样本的嵌入正样本Pir和负样本Nir,其中包含xi,并使用zp作为其正样本xp的嵌入。我们使用zn∈Ni作为负样本的嵌入的锚的旋转图像xi.为了处理多个正对,我们使用监督对比损失[20]。前...公司非RAI小熵(%−m)减少GF熵分离增加大熵(>%+m)RaiLCR$n2814Ri=1−−××|Pi|z∈Pi <$NiLMPNDA的倾向性InfoNCE损失定义如下:PNDA我-1Σ对数Σexp(zi<$zp/τ)′R(六).为了给出更详细的解释,我们定义Rot(x,θ)是将图像x旋转θ度的图像。关于MoCo v2和Simplified的Pir和Nir的详细说明如下:4.2.1MoCo v2的PNDA。对于MoCo v2,我们参考[12] ,其将基于补丁的NDA 并 入 MoCo v2 。我 们 将 [12] 扩 展 为 旋 转PNDA。PNDA的锚点图像集与vanillaMoCov2相同。对于RAI,我们将Pir设置为xi+、Rot(xi+,90)、Rot(xi+,180)和Rot(xi+,270),对于非RAI,设置为xi+。对于RAI,我们将Nir设置为vanilla MoCo v2的阴性样本,并且对于非RAI,将Nir设置为vanilla MoCo v2的阴性样本,Rot(xR1+,90)、Rot(xR1+,180)和Rot(xR1+,270)。4.2.2Simplified的PNDA据我们所知,没有方法将NDA应用于Simplies进行表示学习。我们优先考虑批量处理,这是必要的机械-Simplanism 的,和易于实施。像vanillaSimplified 一样,我们创建X+和X+。另外,我们从{90,180,270}中随机选取不同的D-灰色θ1和θ2年龄为X<$θ1和X<$θ2。对于小y,X<$θ1 ={Rot(xi,θ1)}、Xθ ={Rot(x∈i+,θ2)}M. 小批量的结果是(a) CIFAR-100(b)Tiny ImageNet图4:使用分裂训练和分裂验证数据的旋转分类的训练和验证精度曲线。我们使用过拟合到β1之前的历元。5.2. 旋转无关的图像采样5.2.1实施详情。我们使用ResNet-18 [17]作为特征编码器。特别是,对于CIFAR-100,我们使用[4]使用的扩展ResNet他们将第一个卷积层替换为具有64个输出通道的卷积层,步长为1,内核大小为3,填充大小为3。他们从编码器中删除了第一个最大池,并在编码器的末端添加了一个非线性投影头。在本研究中,我们将其称为ResNet*,以将其与ResNet区分开来。为了设置β1,我们需要在过拟合所有训练数据之前知道历元,因为自监督学习方法使用所有训练数据。然而,由于缺乏验证数据,要知道所有训练数据过拟合之前的准确时期是不可能的为了2i=1联系我们为了知道过拟合之前的近似历元,我们4米 像香草Simplified一样,我们使用X和X作为锚点图像. 对于RAI,我们将Pir设置为xi+,Rot(xi,θ1)和Rot(xi+,θ2),对于非RAI,我们将P i r设置为x i+。设Nir为另一个4(M 1)用于RAI的小批量内的增强示例和用于非RAI的小批量内的其他4M 2增强示例,包括锚x1的旋转图像。请注意,虽然小批量大小增加,但小批量中图像的多样性不会改变,因为我们通过旋转来增加数据。5. 实验5.1. 数据集我们使用CIFAR-100 [21]和Tiny ImageNet [22],它们用于自我监督设置[36,10,31,25]。CIFAR-100包含50,000张训练图像和10,000张测试图像,这些 图 像 在 100 个 不 同 的 类 中 缩 小 到 32 32 。 TinyImageNet包含100,000个训练图像和10,000个测试图像,这些图像在200个不同的类中缩小到64 64,这些图像是从ImageNet的原始1,000个类中提取的[8]。将所有训练数据的80%视为分裂训练数据,将所有训练数据的其余20%视为分裂验证数据,并在使用分裂训练数据进行过拟合之前调查历元。我们将β1设置为分裂训练数据过拟合之前的时期,这与所有训练数据在图4中,我们显示了旋转分类的分裂训练和分裂验证数据的训练和验证精度曲线我们将两个数据集的β1我们将CIFAR-100的β2根据第3.4节,我们将CIFAR-100的λ′设置为0.20,Tiny ImageNet的λ ′设置为0.10,两个数据集的m我们使用亚当优化器,CIFAR-100的学习率为0.001,随机梯度下降(SGD)的动量为0.9,Tiny ImageNet的学习率为0.1。我们使用余弦衰减方案[23]。在所有实验中,我们使用64个批量进行训练我们进行了3次运行,并选择了与第3.4节中的标准最匹配的模型我们在单个Nvidia V100 GPU上进行了训练。rexp(zi<$z′/τ)zp∈Pir=28155 +65 +6CIFAR-100 Tiny ImageNet图5:我们的采样框架在CIFAR-100和Tiny ImageNet上提取的RAI示例。表1:通过我们的采样框架提取的RAI数量-在CIFAR-100和Tiny ImageNet数据集#RAI #图像RAI比率(%)CIFAR-1006,22950,00012.4Tiny ImageNet30,711100,00030.7步骤1之后步骤2之后(a) CIFAR-100步骤1之后步骤2之后(b) 微型ImageNet图6:在CIFAR-100和Tiny ImageNet上执行第1步和第2步后,使用模型获得的分数直方图。如3.3节所述,分数表示预测图像旋转的难度。这些结果表明,步骤2之后的模型确保了非RAI和RAI之间的分离,而步骤1之后的模型混淆了非RAI和RAI。5.2.2旋转不可知图像采样的结果。在图5中,我们展示了我们的采样框架在CIFAR-100和Tiny ImageNet上提取的RAI示例。这一结果表明,我们的采样框架可以提取RAI大致正确。表1显示了CIFAR-100和Tiny ImageNet上的RAI数量。CIFAR-100和 Tiny ImageNet分别有12%和31%的图像被提取为RAI。图6显示了CIFAR-100和Tiny ImageNet上第1步和第2步后模型输出的得分直方图如第3.3节所述,分数表示旋转预测的难度。虽然两种模型的旋转预测精度几乎相同,但分数的分布步骤2后的模型使RAI和非RAI之间的得分差异更大,增强了分离,而步骤1后的模型混淆了非RAI和RAI。请注意,表1中的数字是由我们的采样框架提取的RAI的数量没有RAI和非RAI的地面真理,因此RAI的确切数量是未知的。5.3. PNDA对比学习5.3.1比较方法。我们主要使用MoCo v2 [5]和Simplified [4]作为对比学习框架。除了这些基线之外,我们还将旋转PDA和旋转NDA应用于这些框架。旋转PDA将所有样本视为RAI,并将旋转图像视为阳性。旋转NDA将所有样本视为非RAI,并将旋转图像视为底片。5.3.2评价方案。根据以前的工作[16,4],我们通过对冻结特征进行线性分类来验证我们的方法,遵循通用协议。在无监督预训练之后,我们冻结特征并训练一个有监督的线性分类器(一个全连接层,后面是softmax)。我们在ResNet的全局平均池化特征上训练这个分类器。我们报告top-1分类精度。5.3.3实施详情。我们使用ResNet-18和ResNet-50 [17]作为编码器,以与现有文献[16,4]保持一致特别是对于CIFAR-100,我们使用ResNet*。我们在CIFAR-100上训练了300个epoch,在Tiny Ima-geNet上训练了200个epoch。我们在单个Nvidia V100 GPU上进行了训练。更详细的解释可以在补充材料中找到5.3.4对比学习的PNDA结果表2、3显示了MoCo v2和Simpletion的旋转PDA、NDA和PNDA结果。我们发现旋转PDA在所有实验中降低了性能Rotation NDA的性能优于MoCo v2和Simplified2816百分之十百分之四%20(我们的)百分之三十表2:MoCo v2和Simplified在CIFAR-100上的旋转PDA、NDA、PNDA的前1线性分类精度分数是3次试验的平均值。RP表示正旋转图像的比率。这些结果表明,PDA和NDA可能会降低性能,但旋转PNDA提高对比学习的性能。RP(%)没有一-+ PDA100+NDA0+ PNDA(我们的)12MoCo v2 [5]ResNet-18*ResNet-5062.74±0.3767.51±0.0857.18±0.27↓5.5663.36±0.12↓4.1562.75±0.2967.28±0.3263.18± 0.22↑0.4468.20± 0.23↑0.69SimCLR [4]ResNet-18*ResNet-50*62.71±0.3865.90±0.1761.12±0.18↓1.5964.46±0.09↓1.4461.73±0.2364.67±0.0163.42± 0.04↑0.7166.55± 0.12↑0.65表3:在Tiny ImageNet上,MoCo v2和Simplified的旋转PDA、NDA、PNDA的前1名线性分类精度分数是3次试验的平均值RP表示正旋转图像的比率这些结果表明,PDA和NDA可能会降低性能,但旋转PNDA提高对比学习的性能。RP(%)没有一-+ PDA100+NDA0+ PNDA(我们的)31MoCo v2 [5]ResNet-18ResNet-50ResNet-1834.33±0.2338.88±0.4045.06±0.2830.76±0.08↓3.5735.06±0.61↓3.8241.42±0.20↓3.6434.60±0.1638.94±0.5145.29±0.2035.78± 0.30↑1.4539.93± 0.47↑1.0546.35± 0.10↑1.29SimCLR [4]ResNet-18ResNet-5035.91±0.2240.10±0.3035.74±0.18↓0.1740.00±0.20↓0.1036.59±0.1441.07±0.1337.17± 0.15↑1.2641.48± 0.24↑1.386463.56362.56261.56160.537.437.23736.836.636.436.23635.835.6百分之二十12%(ours)百分之三十百分之五0 20 40RP(%)60 80 100(a) CIFAR-1000 20 40 60 80 100RP(%)(b) 微型ImageNet在所有的实验中,PNDA方法,虽然PNDA只处理旋转为积极的几个图像(12%的CIFAR- 100和31%的TinyImageNet)和消极的其他图像.5.4. 消融研究正旋转图像的比率 我们研究了正旋转图像的比例的影响。0 5 20 30CIFAR-100 上 的 100% 图 像 和 Tiny ImageNet 上 的 0 、10、20、40和100%图像按分数降序被视为正旋转图像。然后,我们使用由我们的采样框架提取的RAI(CIFAR-100为12%,Tiny ImageNet为31%)并比较准确度。图7显示了我们使用ResNet18* 进行Simplified实验的结果。实验结果表明,我们的抽样框架提取的RAI的数量接近最佳。这个结果也证明了我们在3.4节中调整采样方法的超参数的有效性。图7:正旋转图像在CIFAR-100和Tiny ImageNet上。结果表明,我们的采样方法可以提取大约正确的RAI图像的数量。在某些情况下,但它们之间的差异并不大。然而,我们的建议PNDA优于所有COM-PNDA各要素的作用。我们调查了PNDA每个元素的 有 效 性 。 表 4 显 示 了 MoCo v2 与 ResNet 18 * 在CIFAR-100上的比较结果。结果表明,将RAI旋转图像作为正像处理和将非RAI旋转图像作为负像处理的过程都有助于PNDA的高性能。这一结果表明了对RAI和非RAI图像分别进行处理的必要性。Acc.(%)Acc.(%)2817BYOL表4:PNDA的每个元素的消融我们在CIFAR-10上使用MoCo v2和ResNet 18 *方法RAI阳性非RAI阴性累积(%)MoCo v2--62.74+阳性✓-62.92+阳性或阴性(PNDA)✓✓63.18表5:BYOL的旋转PDA、NDA、PNDA的前1线性分类精度在CIFAR-100上对3次试验的得分取平均值RP(%)没有一-+ PDA100+NDA0+ PNDA(我们的)12BYOL [14]ResNet-18*60.81±0.1657.11±0.23↓3.7060.51±0.4761.68± 0.47↑0.875.5. BYOL的PNDA我们的PNDA可以应用于对比学习框架,而没有诸如BYOL的负面影响[14]。方法,如BYOL [14],不依赖于否定。BYOL最小化它们在正之间的负余弦相似性。对于第4.1节中的嵌入特征zi和zp,BYOL的损失定义如下:Li=zi− zp。(七)对于BYOL,我们参考[12],其将基于补丁的NDA并入BYOL。我们将[12]推广到旋转PN D A. 我们定义旋转后的采样集合Pir′,以及旋转的n个g样本Nir′,其是锚xi的旋转图像。PNDA的扩展BYOL损失定义如下:PNDA年龄旋转,但我们不能考虑一些问题,例如背景依赖性[32]或图像中多个对象的情况[8]。大规模数据集(如Ima-geNet [8])存在这些问题,需要更准确的采样方法。通过开发更精确的采样方法,PNDA的性能仍然可以得到改善。解决这些问题是未来的挑战。6.2. 端扩展据我们所知,这项工作是第一次尝试,以确定是否是旋转不变或旋转变量的图像。我们的方法可以推广到许多基于旋转的方法,而不限于对比学习。此外,在这项工作中,我们专注于旋转。此外,在各种情况下都存在增广不变性问题。Li=1z−zIp拉克斯α-z′ −Σ∥z−z∥,除旋转外的其他增强。 因此,它是intrigu-考虑将我们的PNDA推广到其他国家,|Pir′|Ipzp′∈Pir′|Nir′| zn∈Nir′n(八)增强其中α是控制锚图像和负旋转图像的表示之间的相似性的惩罚的参数我们将α设为0.05。对于RAI,我们将Pir′设置为Rot(xi+,90),Rot(xi+,180)和Rot(xi+,270 ), 对于非RAI,Rot(xi +,270)表示没有图像。 设Nir′ 对于RAI,Rot(xi+,90)、Rot(xi+,180)和Rot(xi+,270)。表5显示BYOL的结果。我们发现我们建议PNDA提高性能。6. 讨论6.1. 限制我们建议的PNDA的性能取决于RAI采样结果。在上一节中,我们展示了PNDA提高了对比学习的性能。然而,抽样结果可以改进。我们通过关注预测即时性的困难来解释RAI-7. 结论在本文中,我们提出了一种新的增强策略,称为自适应正或负数据增强(PNDA),它将旋转视为考虑到每个图像的语义的正或负中的较好的一个。为了实现PNDA,我们解决了一个新的任务,用于采样旋转不可知的图像,旋转被视为积极的。我们的实验表明,旋转PNDA提高了对比学习的性能。PNDA可能会增加旋转以外的增强精度,这在以前被认为是无效的。我们认为这一观点将促进今后的工作。确认这 项 工 作 得 到 了 日 本 JST JPMJCR 22U4 和 JSPSKAKENHI 20J22372的部分支持2818引用[1] Mathilde Caron , Ishan Misra , Julien Mairal , PriyaGoyal,Piotr Bojanowski,and Armand Joulin.通过对比聚类分配的视觉特征的无监督学习。在NeurIPS,2020年。[2] MathildeCaron , HugoTouvron , IshanMisra , Herve'Je'gou , Julien Mairal , Piotr Bojanowski , and ArmandJoulin.自我监督视觉转换器中的新兴特性。ICCV,2021。[3] Chengwei Chen,Yuan Xie,Shaohui Lin,Ruizhi Qiao,Jian Zhou,Xin Tan,Yi Zhang,and Lizhuang Ma.通过对比学习和负数据扩充进行新颖性检测在IJCAI,2021年。[4] 陈婷,西蒙·科恩布里斯,穆罕默德·诺鲁齐,和葛offrey Hinton.视觉表征对比学习的一个简单框架。在ICML,2020。[5] Xinlei Chen,Haoqi Fan,Ross Girshick,and KaimingHe.通过动量对比学习改进基线。arXiv预印本arXiv:2003.04297,2020。[6] Xinlei Chen,Kaiming He.探索简单的连体表示学习。在CVPR,2021年。[7] 塔可·科恩和麦克斯·威林群等变卷积网络。InICML,2016.[8] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi,and Li Fei-Fei. Imagenet:一个大规模的分层图像数据库。CVPR,2009。[9] Debidatta Dwibedi,Yusuf Aytar,Jonathan Tompson,Pierre Sermanet,and Andrew Zisserman.在朋友的帮助下:视觉表征的最近邻对比学习。ICCV,2021。[10] AleksandrErmolov 、 AliaksandrSiarohin 、 EnverSangineto 和 Nicu Sebe 。 自 监 督 表 示 学 习 的 白 化 在ICML,2021。[11] 风泽宇,常旭,大成涛。通过旋转特征解耦的自监督表示学习。在CVPR,2019年。[12] Songwei Ge , Shlok Mishra , Chun-Liang Li , HaohanWang,and David Jacobs.使用语义减少的负样本的鲁棒对比学习在NeurIPS,2021年。[13] Spyros Gidaris,Praveer Singh和Nikos Komodakis。通过预测图像旋转的无监督表示学习。在ICLR,2018年。[14] Jean-BastienGrill , FlorianStrub , FlorentAltche´ ,CorentinTallec,PierreH.Richemond,ElenaBuchatskaya , Carl Doersch , Bernardo Avila Pires ,Zhaohan Daniel Guo , Moham-madGheshlaghiAzar ,BilalPiot,KorayKa vukcuoglu,Re´miMunos,and MichalValko.Bootstrap Your Own Latent:A New Approach toSelf-Supervised Learning(引导你自己的潜意识:一种在NeurIPS,2020年。[15] Kaiming He,Xinlei Chen,Saining Xie,Yanghao Li,Piotr Doll a'r,andRossGirshick. Masked自动编码器是可扩展的视觉学习器。arXiv预印本arXiv:2111.06377,2021。[16] Kaiming He,Haoqi Fan,Yuxin Wu,Saining Xie,andRoss Girshick.用于无监督视觉表示学习的动量对比。在CVPR,2020年。[17] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在CVPR,2016年。2819[18] Joao F Henriques和Andrea Vedaldi。 扭曲的卷积:有效的空间变换不变性。ICML,2017。[19] 放大图片创作者:John R. Walter,Michael Maire,andMaryam Khademi.用假阴性消除增强对比自监督学习。arXiv预印本arXiv:2011.11765,2020。[20] Prannay Khosla,Piotr Teterwak,Chen Wang,AaronSarna , YonglongTian , PhillipIsola , AaronMaschinot, Ce Liu ,and Dilip Krishnan. 监督对比学习。在NeurIPS,2020年。[21] 亚历克斯·克里热夫斯基从微小的图像中学习多层特征。技术报告,2009年。[22] 雅乐、玄阳。微型图像网视觉识别挑战。2015年。[23] 伊利亚·罗希洛夫和弗兰克·哈特。Sgdr:带热重启的随机梯度下降。在ICLR,2017。[24] Mehdi Noroozi和Paolo Favaro。通过解决拼图游戏进行视觉表示的无监督学习。在ECCV,2016年。[25] 野泽健人和佐藤一成在实例判别式自监督表示学习中理解负样本在NeurIPS,2021年。[26] Kuniaki Saito,Donghyun Kim,Stan Sclaroff,and KateSaenko.通过自我监督实现通用域适应。在NeurIPS,2020年。[27] Abhishek Sinha,Kumar Ayush,Jiaming Song,BurakUzkent,Hongxia Jin,and Stefano Ermon.负面数据增强。ICLR,2021年。[28] Jihoon Tack , Sangwoo Mo , Jongheon Jeong , andJinwoo Shin. CSI:通过对分布移位实例的对比学习进行新颖性检测。在NeurIPS,2020年。[29] Yonglong Tian , Chen Sun , Ben Poole , DilipKrishnan,Cordelia Schmid,and Phillip Isola.对比学习的好观点是什么?在NeurIPS,2020年。[30] 王广润,王科泽,王广聪,Philip H.S.Torr和LiangLin 。 解 决 自 监 督 表 示 学 习 的 低 效 问 题 。 ICCV ,2021。[31] Yifei Wang,Zhengyang Geng,Feng Jiang,ChumingLi,Yisen Wang,Jiansheng Yang,and Zhouchen Lin.用于多视图表示学习的残差
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功