没有合适的资源?快使用搜索试试~ 我知道了~
自我监督学习中的预文本不变表示
6707预文本不变表示Ishan Misra Laurens van der MaatenFacebook AI Research摘要从图像的自我监督学习的目标是通过不需要语义注释的借口任务来构建语义上有意义的图像表示。 许多托辞任务导致与图像变换协变的表示。我们认为,相反,语义表示应该是不变的下,这样的转换。具体来说 , 我 们 开 发 了 Pretext- Invariant RepresentationLearning(PIRL,发音为“pearl我们将PIRL用于一个常用的借口任务,包括解决拼图游戏。我们发现,PIRL大大提高了语义质量的学习图像表示。我们的方法设置了一个新的国家的最先进的自我监督学习从图像上的几个流行的基准自我监督学习。尽管是无监督的,但PIRL在学习图像表示以进行对象检测方面优于有监督的预训练。总之,我们的研究结果证明了具有良好不变性的自监督表示1. 介绍现代图像识别系统从大量的图像和相应的语义注释中学习图像表示。这些注释可以以类标签[66]、主题标签[46]、绑定框[16,43]等的形式提供。预定义的语义注释对于视觉概念的长尾[75]的比例很差,这阻碍了图像识别的进一步改进。自监督学习试图通过从像素本身学习图像表示来解决这些限制,而不依赖于预定义的语义注释。通常,这是通过一个借口任务来完成的,该任务将变换应用于输入图像,并要求学习者从变换后的图像预测变换的属性(见图1)。使用的图像变换的示例包括旋转[20]、仿射变换[33,57,65,85]和拼图变换[54]。由于托辞任务涉及预测图像预文本图像变换我变换tItPretext-Invariant Representation Learning(PIRL) 自我监督学习的许多任务[20,54,85]涉及变换图像I,计算变换图像的表示,并从该表示预测变换t的属性。因此,表示必须与变换t协变,并且可能不包含太多语义信息。相反,PIRL学习对变换t不变的表示,并保留语义信息。变换,它鼓励构造与变换协变的图像尽管这种协方差对于诸如预测3D对应性的任务是有益的[33,57,65],但是对于大多数语义识别任务是不期望的。表示在图像变换下应该是不变的,以便用于图像识别[14,31],因为变换不会改变视觉语义。事实上,不变性是设计“好”特征的核心原则之一出于这一观察,我们提出了一种学习不变表示而不是协变表示的方法代替预测图像变换的属性,预文本不变表示学习(PIRL)构造与相同图像的变换版本的表示相似并且与其他图像的表示不同的我们调整了PIRL在来自ImageNet(图2)和来自未经策划的图像数据(表4)的自监督学习有趣的是,PIRL在学习适合于对象检测的图像表示方面甚至优于有监督的预训练(表1补充材料)。前文本不变表示学习我ItConvNetConvNet表示表示鼓励类似标准前文本学习ItConvNet表示预测t的性质67082. 相关工作在特征中建模不变性是计算机视觉中经过数十年研究的一个概念[48],并且在手工设计的特征(如SIFT[45],HOG [8]和Con-vNets [37,40,69]的学习表示)实际上有用的表示被设计为对“讨厌的”因素不变,通过在训练期间使用数据增强[37]在我们的工作中,我们建议利用不变性自我监督的我们学习特征表示,而不考虑相应的(图像条件)标签分布。先前工作已经研究了从小的中间表示重建图像,使用稀疏编码[58]、对抗训练[12,13,50]、自动编码器[49,63,76]或其概率版本[67]。最近,人们的兴趣已经转移到指定文本前任务[10],这些任务需要对更有限的集合进行建模数据分布的特性。对于视频数据,这些借口任务通过对视频帧[1,18,34,41,51,79,83]进行排序、跟踪[62,77]或使用交叉模态信号,如音频[2,3,19,36,60,61]。我们的工作重点是基于图像的借口任务。先前的借口任务包括图像着色[9,30,38,39,86,87]、方向预测[20]、仿射变换预测[85]、预测上下文图像块[10]、重新排序图像块[5,21,53,54,56]、对视觉基元计数[55]或它们的组合[11]。这些借口任务通常涉及预测图像变换的一些低级属性,其使得最终表示与图像变换协变。相比之下,我们的工作学习的图像表示是不变的图像变换,而不是协变。PIRL与通过对比学习学习不变图像表示的方法有关[15,29,68,77,81],聚类[6,7,56,78]或最大化相互信息[4,29,31]。PIRL最类似于学习在标准数据增强下不变的表示的方法[4,14,29,31,81,82]。PIRL学习表示,是不变的数据增强和借口图像变换。与我们的工作类似,最近的方法也专注于不变性[47]或解耦借口任务[17]来学习表征。PIRL可以被看作是对数据扩充集的扩展,包括先前的借口任务,并提供了一种新的方法来结合借口任务与对比学习。7570656055504525 50 100 200 400 670参数数量(百万)图2:使用线性模型的ImageNet分类。ImageNet验证数据上的单作物top-1准确度,作为生成表示的模型中参数数量的函数(“A”表示AlexNet)。Pretext-Invariant Representation Learning(PIRL)在此设置中设置了一个新的最先进的技术(红色标记),并使用了更小的模型(ResNet-50)。更多详情请参见第4.2节。3. Pretext-InvariantRepresentationLearning(Pretext-InvariantRepresentationLearning)我们的工作重点是自我监督学习的借口任务,其中一个已知的图像变换应用于输入图像。例如,先前的工 作 使 用 拼 图 作 为 一 个 借 口 任 务 , 通 过 预 测 的perturbed输入图像的排列这就要求学习者构造一个与扰动协变的表示。对于最近研究的一系列其他借口任务也是如此[10,20,51,85]。在这项工作中,我们采用现有的拼图借口任务的方式,鼓励图像表示是不变的图像补丁扰动。虽然我们在本文中专注于拼图借口任务,但我们的方法适用于涉及图像变换的任何借口任务(见5.3节)。3.1. 方法概述假设 我们 是 给定 一个 图像 数据集, D={11,. . .,我|D|},其中In∈RH×W×3,以及一组图像变换T. 集合T可以包含变换,例如图像[54]中的补丁的重新洗牌,图像ro。tations [20]等。我们的目标是训练一个卷积网络,φθ(·),参数θ构造图像表示vI=φθ(I),它对图像变换t∈ T是不变的。我们采用经验风险最小化方法来学习网络参数θ。具体来说,我们训练通过最小化经验风险来优化网络:最后,PIRL也与使用con-mix的方法有关[24]在预测学习[25,26,28,59,70,73]中的传递损失[24]。这些先前的方法预测数据的缺失部分, 视频中的未来帧[25,59],或操作inv(θ;D)=EtΣ1|D|ΣI∈DΣL(vI,vIt)、(1)多个视图[73]。与这些方法相反,PIRL学习不变性,而不是预测丢失的数据。其中p(T)是T中的变换上的某个分布,并且It表示在应用变换之后的图像I监督PIRL-c2xAMDIMPIRLMocoPIRL-ens。CPC-巨大A:监督BigBiGANNPID腐中共拼图DeepCluster前1精度6709我我我我ItNCEIItt=t(I)。函数L(·,·)是度量两个图像表示之间的相似性的损失这种损失的最小化鼓励网络φθ(·)产生相同的图像表示至于它的变换对应物It,即。,以代表-变换t下的方位不变我们将我们的损失函数与损失[10,20,51,54,85]进行了对比,这些损失通过最小化来学习图像表示vI=φθ(I),这些图像表示与图像变换t∈ TΣEt(θ;D)=EtEt(T)ΣΣ Lco(vI,z(t))、(二)图3:PIRL概述。Pretext-Invariant Representation Learning(PIRL)的目标是构建对图像不变性的图像表示图像变换t∈ T。PIRL鼓励代表|D|I∈D其中z是度量变换t的某些性质的函数。这样的损失鼓励网络工作φθ(·)学习包含关于变换t的信息的图像表示,从而鼓励它维护语义上不相关的信息。损失函数 我们使用对比度损失函数L(·,·)[24]来实现Vmin(·)。具体地说,我们定义了一个匹配分数s(·,·),它衡量了两个图像表示的相似性,并在噪声条件下使用这个匹配分数。transative estimator [23]. 在 我 们 的 噪 声 对 比 估 计 器(NCE)中,每个通过计算来自其他图像的特征来获得负样本,I′i=I。噪声对比估计器将(I,It)源自数据分布的二进制事件的概率建模为:图像I和其变换的对应物It相似。它通过最小化对比损失来实现这一点(见3.1节)。 在[81]之后,PIRL使用负样本的存储库M用于对比学习。 内存库包含数据集中所有图像的表示的移动平均值,mI∈ M(见3.2节)。在小批量SGD优化器中,很难在不将批处理增加到不可行的大尺寸的情况下获得大量否定结果。为了解决这个问题,我们遵循[81]并使用“缓存”功能的内存库存储器组M包含数据集D中的每个图像I的特征表示mI。表示m I是在先前时期中计算的特征表示f(vI)的指数移动平均。这使我们能够在公式4中,用负样本的存储体表示mI′替换负样本f(v′),而不必增加训练批次的大小。 我们强调,代表-exp.Σs(vI,vIt)τ存储在存储体中的所有数据都被计算,在原始图像上,I,没有变换t。这h(vI,vIt)=exp. s(vI,v)τ+的|DN|D|D|.(三)设计决策取得了较好的效果。最终损失函数。等式4中损失的潜在问题是,它没有比较不-在此,DN NND是一组N个负样本,从数据集D均匀随机抽取,τ是温度参数r,并且 s(·,·)是表示之间的余弦相似性在实践中,我们在计算得分s(·,·)之前将不同的“头”应用于特征。具体地说,我们将头f(·)应用于I的特征(vI),将头g(·)应用于It的特征(vIt);见图3和3.3节。NCE金额减少以下损失:变换图像I和I′。我们通过使用两个NCE损失函数的卷积x组合来解决这个问题。I,It=λL(m,g(v))+(1−λ)LNCE(mI,f(vI)).(五)这里,第一项简单地是等式4的损失,但是使用存储器表示mI和mI′ 而不是f(vI)和f(v′)。第二项做两件事:LNCE. I,It=−log [h(f(v),g(v))](4)I It(1) 它鼓励表示f(vI)类似于它的存储器表示mI,从而抑制Pa。Σ-日志Σ1−h.ΣΣg(vt),f(vI′).参数更新;(2)鼓励陈述f(v)和f(v′)是不同的。第一次和第二次-I′∈DNII这种损失促使图像I的表示与其变换后的对应图像It的表示相似,而It的表示与其他图像I′的表示不同。3.2. 使用阴性样本先前的工作已经发现,在公式4的NCE损失中使用大量负值是很重要的[59,81]。我f(vI)θ我Res异种类似I0Itg(v)我ItItRes5类似I0θ异种M内存条16710第二项使用mI′代替公式4中的f(v′)。在公式5中设置λ = 0会导致[81]中使用的损失。我们在第5节中研究了λ对学习表征的影响。3.3. 实现细节尽管PIRL可以与涉及图像变换的任何借口任务一起使用,但本文中我们关注的是Jigsaw预文本任务[54]为了证明PIRL是6711更普遍适用的是,我们还试验了旋转借口任务[20]以及5.3节中的两种任务的组合。下面,我们将描述PIRL与Jigsaw借口任务的实现细节。卷积网络我们在实验中使用ResNet-50(R-50)网络架构[27]。 该网络用于计算I和It的图像表示。这些表示通过对来自网络的特征e进行函数f(·)或g(·)来获得。具体来说,我们计算I的表示,f(vI),通过提取RES 5特征、平均池化和线性投影来获得128维表示。为了计算变换图像It的表示g(vIt),我们严格遵循[21,54]。我们:(1)提取从图像I中提取九个补丁,(2)通过从ResNet-50的res5层提取激活并对激活进行平均池来分别计算每个补丁的图像表示,(3)应用线性投影以获得128维补丁表示,以及(4)以随机顺序连接补丁表示并对结果应用第二线性投影以获得最终补丁表示。128维图像表示,g(v It)。我们设计g(vIt)的动机是希望尽可能接近[20,21,54]的协变前提任务。这允许在协变方法和我们的不变方法之间进行苹果对苹果的比较超参数。我们按照[81]中的描述实现内存库,并对内存库使用相同的超参数。具体来说,我们将等式3中的温度设为τ = 0。07,并使用0的权重。5来计算存储器组中的指数移动平均值除非另有说明,我们使用λ = 0。在等式5中。4. 实验遵循自我监督学习的常见做法[21,87],我们评估了PIRL在迁移学习实验中的性能。我们在各种数据集上进行实验,重点是对象检测和图像分类任务。 我们的经验评估涵盖:(1)学习设置,其中卷积网络的参数在转移期间被微调,从而评估使用自监督学习获得的网络“初始化”,以及(2)学习设置,其中网络的参数在转移学习期间被固定,从而使用网络作为特征提取器。基线。一个重要的基线是[21]的Jigsaw ResNet-50模型,因为它实现了我们的PIRL方法与Jigsaw借口任务的协变对应。我们还比较了PIRL和其他一些自我监督的方法.一个重要的比较是NPID [81]。NPID是PIRL的特殊情况:在公式5中设置λ=0会导致NPID的损失函数我们发现可以通过以下方式改进NPID的原始实现:方法网络AP50AP 75A75监督转轴-5052.681.157.4=0.0[21]第二十一话转轴-5048.975.152.9-4.5[第21话]转轴-5046.372.549.3-8.1NPID++[81]转轴-5052.379.156.9-0.5PIRL(我们的)转轴-5054.080.759.7+2.3MOCO [26]转轴-5055.2†81.4†61.2†表1:使用Faster R-CNN在VOC 07 +12 tranaval上进行对象检测。在使用ImageNet上的自监督学习预训练的ResNet-50骨干微调Faster R-CNN模型(BatchNorm固定)后,在VOC 07测试集上检测AP。给出了 有 监 督 的 ImageNet 预 训 练 的 结 果 以 供 参 考 。 使 用 †finetunesBatchNorm的方法。PIRL在没有额外的预训练数据或网络架构变化的情况下显著优于有监督的预训练。VOC 07的其他结果在补充中。使用更多的负样本和训练更多的时期(见第5节)。我们将NPID的改进版本称为NPID++。PIRL和NPID++之间的比较允许我们研究PIRL旨在实现的前文不变性的效果,即。在等式5中使用λ>0的效果。预训练数据。 为了便于与先前的工作,我们使用1。来自ImageNet的2800万张图像[66]trainsplit(不带标签)来预训练我们的模型。培训详情。我们使用小批量SGD使用余弦学习率衰减[44]方案训练我们的模型,初始学习率为1。2×10−1,最终学习率为1。2×10−4。我 们 使 用 1 , 024 张 图 像 的 批 量 大 小 和 公 式 3 中 的N=32,000个负样本来训练800个epoch的模型。我们不使用数据增强快速自动扩充[42]等方法,因为它们是监督学习方法的结果。我们提供了补充材料中使用的所有超参数设置的完整概述迁移学习。先前的工作表明,迁移学习中使用的超参数可以在评估预训练表示方面发挥重要作用[21,35,87]。为了便于与以前的工作进行公平的比较,我们密切关注[21,87]中描述的迁移学习设置。4.1. 对象检测根据先前的工作[21,81],我们使用VOC07+12训练值分割在Pascal VOC数据集[16我们使用更快的R-CNN[64] C4对象检测模型,该模型在Detectron 2 [80]中实现,具有ResNet-50(R-50)主干。我们使用PIRL对ResNet-50进行预训练,以初始化检测模型,然后在VOC训练数据上对其进行微调我们使用与[21]相同的训练时间表对VOC进行微调,并遵循[21,80]以在微调期间保持BatchNorm我们根据APall、AP50和AP75来评估对象检测性能[43]。我们的检测实验的结果在6712表1.结果证明了PIRL的强大性能:在所有三个AP测量方面,它优于所有其他的自我监督学习。与Jigsaw借口任务的预训练相比,PIRL实现了AP提高5分。这些结果强调了学习不变(而不是协变)图像表示的重要性。PIRL也优于NPID++,这证明了学习借口不变性的好处。有趣的是,PIRL甚至在更保守的APall和AP75指标方面优于有监督的ImageNet预训练模型。类似于并发工作[26],我们发现自监督学习器可以在对象检测方面优于监督预训练。我们强调PIRL使用相同的骨干模型,相同数量的微调时期和完全相同的预训练数据(但没有标签)实现了这一结果。该结果是对先前自监督方法的实质性改进,尽管使用了更大规模的训练数据[21]或更大的骨干模型[28],但与完全监督基线在补充材料中,我们表明,当在小得多的VOC07训练集上进行这表明PIRL学习的图像表示适合于样本有效的监督学习。4.2. 基于线性模型的接下来,我们通过在固定的图像表示上训练线性分类器来评估图像表示的质量。我们遵循[ 21 ]的评估设置,并在四个图像分类数据集上测量这些分类器的性能 : ImageNet [66] , VOC07 [16] , Places205 [88] 和iNaturalist 2018 [74]。这些数据集涉及不同的任务,如对象分类,场景识别和细粒度识别.在[21]之后,我们评估了从预训练网络的所有中间层中提取的表示,并在表2中报告了表现最好的层的图像分类结果。ImageNet结果。 ImageNet上的结果突出了学习不变特征的好处:PIRL提高了超过15%的识别精度相比,其covari-蚂蚁对应,拼图。PIRL在所有使用单个ResNet-50模型的自监督学习器中实现了最高的单作物前1通过比较PIRL与NPID,进一步突出了借口不变性的好处我们重新实施的NPID(称为NPID++)大大优于[81]中报告的结果。具体来说,NPID++实现了59%的单作物top-1准确率,这高于或等同于使用单个ResNet-50 的 现 有 工 作 。 然 而 , PIRL 大 大 优 于NPID++。我们注意到,PIRL在这种情况下也优于并发工作[26]类似于先前的方法,PIRL的性能im-方法参数传输数据集ImageNet VOC07 学生寮205iNat。ResNet-50使用[21]监督25.6M75.987.551.545.4彩色化[21]25.6M39.655.637.5–[第20话]25.6M48.963.941.423.0NPID++[81]25.6M59.076.646.432.4MOCO [26]25.6M60.6–––[21]第二十一话25.6M45.764.541.221.3PIRL(我们的)25.6M63.681.149.834.1不同的体系结构或评估设置NPID [81]25.6M54.0–45.5–BigBiGAN [13]25.6M56.6–––AET [85]61M40.6–37.1–DeepCluster [6]61M39.8–37.5–腐[35]第三十五届61M54.0–45.5–洛杉矶[89]25.6M60.2†–50.2†–CMC [73]51M64.1–––CPC [59]44.5M48.7–––CPC-v2 [28]305M61.0–––[13]第十三话86M61.3–––AMDIM [4]670M68.1–55.1–表2:使用线性模型的图像分类。使用[21]的设置对四个数据集进行图像分类。我们在由自监督学习器获得的图像表示上训练线性分类器,这些学习器在ImageNet上进行了预训练(没有标签)。我们报告的perfor-曼斯为每种方法的最佳性能层。我们在VOC07数据集上测量平均精度(mAP),并在所有其他数据集上测量前1精度。我们获得了PIRL、NPID++、Rotation的数值;其他数字则取自有关文件。使用10种作物评估来测量具有†的每个数据集上表现最好的自监督学习器是粗体的。证明了网络的规模。例如,CMC [73]使用两个ResNet-50模型的组合,并训练线性分类器更长时间以获得64。1%的准确度。我们进行了一个实验,在这个实验中,我们对PIRL做了同样的事情,并获得了65的top-1准确度。7%;见在图2中为了将PIRL与更大的模型进行比较,我们还进行了实验,在实验中我们将ResNet-50中的通道数量加倍[35,84];参见图2中的PIRL-c2 x达到了67的top-1精度。4%,这接近AMDIM [4]使用具有6×更多参数的模型获得的准确度总之,图2中的结果表明,PIRL在模型准确性和大小之间的权衡方面优于ImageNet上所有先前的自监督学习器。事实上,PIRL甚至优于大多数使用更大模型的自监督学习器[28,59]。其他数据集的结果。表2中其他图像分类数据集的结果与ImageNet上的结果一致:PIRL大大优于其协变对应物(Jigsaw)。PIRL的性能在Places205上的完全监督表示的2%以内,并且将VOC07上的[21]之前的最佳结果提高了16个AP点以上。在具有挑战性的iNaturalist数据集上,它有超过8000个类,我们获得了收益6713方法数据集传输数据集ImageNetVOC07学生寮205iNat。[21]第二十一话YFCC 1M–六十四点零42.1–DeepCluster [6,7]YFCC 1M34.1六十三点九35.4–PIRL(我们的)YFCC 1M57.8七十八点八51.029.7[21]第二十一话YFCC100M48.3七十一点零44.8–DeeperCluster [7]YFCC100M45.6七十三点零42.1–表3:ImageNet上的半监督学习ImageNet自监督模型验证集上的单作物前5名准确性,这些模型在ImageNet训练数据的1%和10%上进行微调,遵循[81]。除Jigsaw、NPID++和PIRL外,所有数字均来自相应的论文。最佳性能是粗体。表4:在未经策划的YFCC图像上进行预训练。 使用各种图像表示的线性图像分类器针对四个图像分类任务的前1精度或mAP(对于VOC 07)。所有的数字(除了PIRL的数字)都来自相应的论文。Deep(er)Cluster使用VGG-16而不是ResNet-50。每个数据集上的最佳性能以粗体显示。上图:通过在随机选择的100万张图像的子集上训练ResNet-50模型获得的表示。底部:从大约1亿张YFCC图像中学习的表示。0.6前1名的准确度比之前的最佳结果高出11%[20]。我们观察到NPID++基线在这三个数据集上表现良好,但PIRL 始 终 优 于 NPID ++ 基 线 。 事 实 上 , PIRL 在VOC07,Places205和iNaturalist数据集的学习环境中为自我监督表示设置了一个新的最先进的技术。0.40.200.0电话:+86-0512 - 8888888传真:+86-0512 - 8888888单位范数表示之间的l24.3. 半监督图像分类我们按照[28,81,84]的实验设置在ImageNet上进行半监督图像分类实验。具体来说,我们随机选择1%和10%的ImageNet训练数据(带标签)。我们按照[81]的程序在这些训练数据子集上微调表3报告了ImageNet验证集上所得模型的前5名结果进一步突出了PIRL学习的图像表示的质量:仅对1%(1013,000)的标记图像进行微调,就可以获得前5名的准确性,百分之五十七。PIRL的性能至少与S4 L一样好[84],并且[22]这两种方法都是具体的,用于半监督学习。与早期的结果一致,PIRL也优于Jigsaw和NPID++。4.4. 在未经策划的图像数据大多数表示学习方法对预训练期间使用的数据分布敏感[21,32,46,71]。为了研究数据分布的变化对PIRL的影响,我们在来自未标记YFCC数据集的未策划图像上预训练模型[72]。在[7,21]之后,我们从YFCC中的1亿张图像中随机选择了100万张图像的子集(YFCC-1 M)。我们使用与ImageNet预训练相同的过程在YFCC-1 M上预训练PIRL ResNet-50网络。我们使用第4.2节中的设置进行评估,并在固定的图像表示上训练线性分类器。表4报告了所得到的类的前1精度,图4:PIRL表示的不变性。单位范数图像表示f(vI)/f(vI)2与变换图像的单位范数表示g(vIt)/g(vIt)2之间的l 2距离分布。显示了PIRL和Jigsaw表示的距离分布。筛选器与先前的结果一致,PIRL优于竞争自我监督学习 器 。 事 实 上 , PIRL 甚 至 超 过 了 Jigsaw 和DeeperCluster模型,这些模型是在来自相同分布的100倍以上的数据上训练的。比较ImageNet上的预训练(表2)和YFCC-1 M ( 表 4 ) 导 致 一 组 混 合 观 察 结 果 。 在ImageNet分类上,ImageNet上的预训练(没有标签)然而,与先前的工作[21,32]一致,YFCC-1 M上的预训练导致Places 205数据集上图像分类的更好表示5. 分析为了更好地理解PIRL的性质,我们进行了一系列实验。为了使训练这些实验所需的大量模型变得可行,我们训练了我们在本节中研究的模型,与第4节相比,使用更少的epoch(400)和更少的negative(N=4,096)。因此,我们得到较低的绝对性能。除此之外,我们没有改变实验设置或任何其他超参数。在本节中,我们使用第4.2节中的评估设置,该设置在固定的图像表示上训练线性分类器来衡量图像表示的质量。PIRL[19]第十九话比例样本方法数据分数→骨干百分之一百分之十Top-5精度随机初始化[81]转轴-5022.059.0NPID [81]转轴-50三十九点二77.4[21]第二十一话转轴-50四十五点三79.3NPID++[81]转轴-50五十二点六81.5VAT + Ent Min.[22,52]R-50v2四十七点零83.467145.1. 分析PIRL表示PIRL学习不变表示吗PIRL被设计为学习对图像变换t∈ T不变性的表示。我们分析了学习的表示是否真的具有所需的不变特性。具体来说,我们将表示规范化为具有单位范数,并计算l2距离,图像的(归一化)表示f(vI),以及其变换版本的(归一化)表示g(vIt)。我们对所有变换t∈ T和一个大的图像集重复这一过程 我们绘制这样得到在图4中。该图示出,对于PIRL,图像表示和该图像的变换版本的表示通常是相似的。这表明PIRL已经学会了对变换不变的表示。相比之下,Jigsaw表示之间的距离具有更大的均值和方差,这表明Jigsaw表示与所应用的图像变换协变。哪一层产生最好的表示?所有先前的实验都使用PIRL表示,从 res5层中提取的Jigsaw表示和从res4层中提取的Jigsaw表示(更适合Jigsaw)。图5研究了卷积网络早期层的表示质量。该图显示,Jigsaw表示的质量从conv1层到res4层得到改善,但它们的质量在res5层中急剧下降。我们推测这是因为网络最后一层的res5表示与图像变换t协变,并且不鼓励包含语义信息。相反,PIRL表示对图像变换是不变的,这使得它们能够专注于建模语义信息。因此,从PIRL训练的网络的res5层提取最佳图像表示。多任务拼图和NPID++。 到 进一步 根据PIRL,我们实现了一个多任务基线,类似于[17],它不学习Jigsaw任务的不变性。该基线使用两个单独的损失函数-NPID [81],它学习数据增强的不变性,以及Jigsaw分类,它学习预测应用于输入的Jigsaw置换。 该基线的表现与NPID++相似或更差(ImageNet上的传输性能在0.2%以内),表明Jigsaw的学习不变性对于更好的表示非常重要。5.2. 分析PIRL损失函数在PIRL损失函数中λ的作用是什么公式5中的PIRL损失函数包含超参数,在两个NCE损失之间进行权衡的参数λ 所有先前的实验均在λ = 0的情况下进行。五、NPID(++)[81]是PIRL的一种特殊情况,其中λ=0,有效地去除了605040302010conv1 res2 res3 res4res5层图5:每层PIRL表示的质量。训练线性模型以预测ImageNet类的最佳准确性,这些模型基于从使用PIRL和Jigsaw训练的ResNet-50中的各个层提取的表示6560550.25 0.5 0.75 1公式5中损失项的相对权重()图6:改变折衷参数λ的影响。 线性分类器的前1准确度,训练用于从PIRL表示中预测ImageNet类,作为方程5中超参数λ的函数。8075706560100 2,000 10,000 362880贴片排列数图7:T中不同补丁排列数量的影响。在VOC07数据集上训练的线性图像分类模型在mAP方面 模型由PIRL和Jigsaw初始化,改变图像变换的数量T,从1到9! ≈ 3。6×105。从损失中提取前文不变性项。在λ=1时,网络在训练时不比较未变换的图像,并且对存储体m1的更新不被抑制。我们研究了λ对PIRL表示质量的影响与之前一样,在图6中,我们通过在固定的ImageNet表示上操作的线性分类器的前1精度来衡量表示质量。PIRL的性能对λ的设置很敏感,当λ = 0时,PIRL的性能最好。五、图像变换次数的影响。两者都在PIRL中GenetIma[19]第十九话地图前1精度前1精度PIRL[19]第十九话6715646362612,000 4,000 8,000 16,000 32,000 64,000等式4中的负数N的数量图8:改变底片数量的效果。 线性分类器的前1精度,用于使用PIRL表示执行ImageNet分类,作为负样本数量N的函数。和Jigsaw,通过改变包括在图像变换集合T中的九个图像块的排列数量,可以改变任务的复杂性。Jigsaw上的先前工作表明,增加可能的补丁排列的数量会导致更好的性能[21,54]。然而,最大值|不|因为输出层中可学习参数的数量随数量线性增长,在解决拼图任务的训练模型中的补丁排列。这个问题不适用于PIRL,因为它从不输出补丁排列,因此具有固定数量的模型参数。 因此,PIRL可以使用所有九!≈3。T.我们研究了PIRL和Jigsaw的质量作为T中包含的补丁排列数的函数。为了便于与[21]进行比较,我们根据第4.2节中的设置,使用VOC 07数据集测量线性模型的图像分类性能的质量。的结果如图7所示,并表明PIRL在T的所有基数上都优于Jigsaw。PIRL特别受益于能够使用非常大量的图像变换(即,,大|不|)在训练中。阴性样本数量的影响。我们研究了负样本数N对学习图像表示的质量的影响。我们测量线性ImageNet分类器在PIRL产生的固定表示上的准确性,作为预训练中使用的N值的函数。结果示于图8中。他们认为,增加底片数量往往对PIRL构建的图像表示的质量产生积极影响5.3. 将PIRL推广到其他Pretext任务虽然我们在Jigsaw的背景下研究了PIRL,在本文中,PIRL可以用于任何图像变换集合T。我们进行了一项实验,使用旋转前文本任务评估PIRL的性能[20]。我们定义T包含图像旋转,使用PIRLPIRL(Jigsaw;我们的)25.6M62.279.848.531.2PIRL(旋转+拼图;我们的)25.6M63.180.349.733.6表5:使用PIRL与不同的借口任务(的组合)。 在PIRL图像表示上训练的线性图像分类器的前1精度/ mAP。上图:与旋转借口任务结合使用的PIRL的性能[20]。底部:使用多个借口任务的组合的PIRL的性能。{0,90,180,270},并根据线性模型的图像分类精度来衡量表示质量这些实验的结果示于表5(顶部)中。与早期的结果一致,使用PIRL(旋转)训练的模型优于使用[20]的旋转预文本任务训练的模型。从学习旋转不变表示获得的性能增益是显著的,e.G. ImageNet上的top-1准确率提高了11%。我们还注意到PIRL(旋转)优于NPID++(见表2)。在第二组实验中,我们将来自Jigsaw和Rotation任务的文本前图像变换合并到图像变换组中,T。具体地说,我们首先通过应用旋转来获得It,然后执行-一个Jigsaw变换。这些实验的结果示于表5(底部)中。结果表明,结合图像变换从多个预文本的任务,可以进一步提高图像表示。6. 讨论和结论我们研究了预文本不变表示学习(PIRL),用于学习对自监督借口任务中应用的图像变换不变的表示PIRL背后的基本原理是图像变换的不变性在表示中保持语义信息。我们在图像分类和对象检测中的自监督学习的多个基准上获得了最先进的结果PIRL甚至在对象检测方面优于有监督的ImageNet预训练。在本文中,我们使用PIRL与Jigsaw和旋转图像变换。在未来的工作中,我们的目标是扩展到更丰富的转换集。我们还计划研究PIRL与基于聚类的方法的组合[6,7]。像PIRL一样,这些方法使用图像间统计,但它们以不同的方式这样做。这两种方法的组合可能会导致更好的图像表示。致谢:我们感谢Rob Fergus、Yann LeCun和Andrea Vedaldi的鼓励和反馈;感谢Aaron Adcock、Naman Goyal、Priya Goyal和Myle Ott对代码开发的帮助; RohitGirdhar和Ross Girshick对手稿的反馈; Yuxin Wu和Kaiming He对Detectron 2的帮助。ImageNet前1精度方法Params传输数据集ImageNet VOC07学生寮205iNat。[第20话]25.6M48.963.941.423.0PIRL(轮换制;我们的)25.6M60.277.147.631.2PIRL的设计-+11.3+13.2+6.2+8.26716引用[1] Unaiza Ahsan , Rishi Madhok , and Irfan Essa. Videojigsaw:用于视频动作识别的时空上下文的无监督学习。在WACV,2019年。[2] Relja Arandjelovic和Andrew Zisserman。看,听和学习. InICCV,2017.[3] Relja Arandjelovic和Andrew Zisserman。会发出声音的物体。在ECCV,2018。[4] PhilipBachman , RDevonHjelm , andWilliamBuchwalter.通过最大化跨视图的互信息来学习表示arXiv预印本arXiv:1906.00910,2019。[5] Fabio M Carlucci,Antonio巴拉·卡普托和塔蒂亚娜·托马西。解决拼图游戏的领域泛化。在CVPR,2019年。[6] 玛蒂尔德·卡隆 彼得·波亚诺夫斯基 阿曼德·朱兰,还有Matthijs Douze用于视觉特征的无监督学习的深度聚类。在ECCV,2018。[7] Mathilde Caron,Piotr Bojanowski,Julien Mairal,andAr-还有裘琳。在非策划数据上对图像特征进行无监督预训练。在ICCV,2019年。[8] Navneet Dalal和Bill Triggs。 定向梯度直方图用于人体检测的成分。在CVPR,2005年。[9] Aditya Deshpande,Jason
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- AA4MM开源软件:多建模与模拟耦合工具介绍
- Swagger实时生成器的探索与应用
- Swagger UI:Trunkit API 文档生成与交互指南
- 粉红色留言表单网页模板,简洁美观的HTML模板下载
- OWIN中间件集成BioID OAuth 2.0客户端指南
- 响应式黑色博客CSS模板及前端源码介绍
- Eclipse下使用AVR Dragon调试Arduino Uno ATmega328P项目
- UrlPerf-开源:简明性能测试器
- ConEmuPack 190623:Windows下的Linux Terminator式分屏工具
- 安卓系统工具:易语言开发的卸载预装软件工具更新
- Node.js 示例库:概念证明、测试与演示
- Wi-Fi红外发射器:NodeMCU版Alexa控制与实时反馈
- 易语言实现高效大文件字符串替换方法
- MATLAB光学仿真分析:波的干涉现象深入研究
- stdError中间件:简化服务器错误处理的工具
- Ruby环境下的Dynamiq客户端使用指南
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功