没有合适的资源?快使用搜索试试~ 我知道了~
14755对比视觉表征学习何时起作用?Elijah Cole1Xuan Yang2Kimberly Wilber2Oisin Mac Aodha3,4Serge Belongie51加州理工2谷歌3爱丁堡大学4艾伦图灵研究所5哥本哈根大学摘要最近的自监督表示学习技术在很大程度上缩小了ImageNet分类上的监督和无监督学习之间的差距。虽然ImageNet上预训练的细节现在已经得到了很好的理解,但该领域仍然缺乏广泛接受的最佳实践来在其他数据集上复制这种成功作为这个方向的第一步,我们在四个不同的大规模数据集上研究了对比自监督学习。通过透视数据量、数据域、数据质量和任务粒度的镜头,我们为成功的自监督学习的必要条件提供了新的见解。我们的主要发现包括以下观察结果:(i)超过500k图像的额外预训练数据的好处是适度的,(ii)添加来自另一个域的预训练图像不会导致更一般的表示,(iii)损坏的预训练图像对监督和自我监督的预训练有不同的影响,以及(iv)对比学习在细粒度视觉分类任务上远远落后于监督学习。1. 介绍自监督学习(SSL)技术现在可以产生与许多下游任务的完全监督网络生成的表示竞争的视觉表示[18]。这是计算机视觉的一个重要里程碑,因为在训练时消除对大量标签的需求有可能扩大我们的能力,以解决目前超级视觉太难或成本太高而无法获得的领域的挑战然而,除了一些有限的例外,绝大多数当前最先进的方法都是在ImageNet等标准数据集上开发和评估的[40]。因此,我们没有很好地了解这些方法在应用于其他数据集时的效果如何在什么条件下,自我监督的对比表征学习方法产生“好”的视觉表征? 对于计算机视觉研究人员来说,这是一个重要的问题,因为它增加了我们对SSL的理解,并突出了新方法的机会。这是1.数据集大小2. 域域A下游任务3. 质量4. 任务粒度源数据集粗粒度下游任务下游任务细粒度下游任务图1. 在ImageNet之外的领域成功进行自我监督预训练需要什么条件?我们研究了自监督和监督训练数据集大小、下游域、图像质量以及下游分类任务的复杂性对于资源有限的领域专家来说,这也是一个重要的问题,他们可能对将SSL应用于现实世界的问题感兴趣。考虑到这些目标,我们试图回答以下问题:(i) 数据量的影响是什么?我们需要多少未标记的图像进行预训练,什么时候值得获得更多?我们需要多少标记数据用于线性分类器训练或下游任务的端到端微调?在哪些制度下,自我监督的功能可以与从完全监督中学习到的功能相媲美?(ii) 预训练域的影响是什么?在一个领域训练的自我监督表征如何转移到另一个领域?我们能通过组合数据集来学习更一般的表示吗?不同的预训练数据集会导致互补的表示吗?(iii) 数据质量的影响是什么?自监督方法对训练时间图像损坏(如分辨率降低、压缩伪影或噪声)的鲁棒性如何?对损坏的图像进行预训练是否会导致未损坏图像的下游性能较差?(iv) 任务粒度的影响是什么SSL是否14756导致仅对“简单”分类任务有效的特征我们通过对四个不同的大规模视觉数据集进行广泛的定量评估来解决上述问题(见图1)。我们提出了一些有趣的观察结果和建议,包括:对于ImageNet规模的数据集,将未标记的训练数据量减少一半(从1 M到500 k图像)只会使下游分类性能降低1-2%(图2)。在许多情况下,这种权衡是合理的,允许更快和更便宜的预训练。这也表明,当前的自监督方法与标准架构相结合,可能无法利用非常大的预训练集。从与测试域相同的域的图像中学习的自监督表示比从不同域学习的自监督表示有效得多(表1)。在我们当前的数据集上进行自我监督训练可能不足以学习容易推广到许多上下文的表示(i)在预训练之前组合数据集(表2)或(ii)组合从不同数据集学习的自监督特征(表3)都不会导致显著的性能改善。在自我监督技术能够从大型和多样化的数据集中学习高度概括的表示之前,可能需要更多的工作在损坏的图像上进行预训练对监督学习和自监督学习的影响非常不同(图4)。例如,自监督表示对图像分辨率非常敏感。目前的自监督方法学习表示,可以很容易地消除像ImageNet中的粗粒度视觉概念的歧义。然而,随着概念的粒度变得更细,自我监督的性能进一步落后于监督基线(图5)。对比度损失可能导致粗粒度特征,其不足以用于细粒度任务。2. 相关工作用于可视化表示的SSL。早期的自我监督表示学习方法通常集中在解决手工设计的然而,最近的工作已经探索了基于对比学习的方法,其中借口任务是区分增强输入图像的匹配和非匹配对[28,36,48]。原型示例是Simplified [8,9],其被训练为使用交叉熵损失来识别匹配图像。对比SSL框架的其他变体包括使用动量编码器提供大量的负对(MoCo)[11,25],自适应缩放MoCo(EqCo)中的余量[62],以及对比聚类分配而不是增强对(SwAV)[6]。完全超越对比损失,一些论文在“学习排名”框架(S2R2)[ 52 ]中重新设计了这个[4]研究了否定词在对比学习中的作用,尽管我们注意到BYOL和SimSiam明确避免使用否定词。在这项工作中,我们的重点是自我监督的视觉分类。我们不探索替代设置,例如监督对比学习[31],非视觉领域的对比学习,如语言[39]或音频[41],或其他旨在减少表征学习的注释负担的方法,例如大规模弱监督[34]。SSL超越ImageNet ImageNet分类长期以来一直被视为SSL的黄金标准基准任务,在过去几年中,ImageNet上的监督和自监督性能之间的差距已经稳步缩小[6,8,24,25]。现在越来越多的人期望SSL应该减少我们在具有挑战性和多样化的领域中对人工监督的依赖,这些领域可能不像ImageNet所代表的传统对象分类设置。许多论文研究了在ImageNet上预训练的自监督表示在下游任务上的表现如何,如细粒度物种分类[56],语义分割[5],场景理解[24]和实例分割[25]。最近,研究人员开始研究在ImageNet以外的数据集上进行预训练时对比学习的有效性。在遥感的情况下,数据的独特属性激发了特定领域对比学习技术的发展[2,30]。在医学领域,图像往往与ImageNet非常不同,已经证明,与ImageNet上的预训练相比,特定领域图像上的对比预训练会带来显著的收益[9,43]。[32]比较了从五个不同数据集学习到的表示,并表明在大多数情况下,最佳表现表示来自对类似数据集的预训练到下游任务。在细粒度数据的情况下,[51]发现,与ImageNet上的预训练相比,对动物和植物图像进行对比预训练并没有导致下游鸟类分类的优异性能。这些明显相互矛盾的观察结果可以通过预训练和下游数据分布之间的关系来解释,我们在实验中对此进行了研究。[60]和[50]在几个不同的数据集上进行了预训练,并表明对下游检测和分割性能的影响非常小,除非使用合成数据进行预训练[60]。·····14757[47]在非常大的数据集上进行了预训练(JFT-300 M[44]和YFCC 100 M [46]),但在标准制度下没有观察到ImageNet预训练的改进我们通过在几个大型数据集上对SSL进行受控的、相似的比较来建立上述分析这使我们能够从SSL性能的一般模式中分离出特定于网络的因素,并对成功预训练的必要条件提供新的见解。SSL的分析许多著作探讨了与SSL成功的条件有关的问题。[42]表明,当感兴趣的下游概念在语义上与预训练集不太相似时,自监督表示比监督表示更好地泛化。[18]表明,ImageNet上的对比预训练在与自然图像中的对象识别相关的下游任务上表现良好,同时将不同领域的预训练更一般的研究留给未来的工作。虽然这些工作表明ImageNet上的SSL是有效的,但我们的实验表明,当前的SSL方法在非ImageNet域上的表现可能比监督基线差得多,例如细粒度分类。现有的工作还调查了SSL的其他方面例如[38]检查了学习到的不变性,[10]表明容易学习的特征可以抑制对更多区分特征的学习,[8,50,60]探索了不同图像增强的影响,[10,50]比较了单一与多对象图像,[8,23]改变了骨干模型的容量。与我们的工作最相关的是改变预训练数据集中数据量的研究,例如。[32、50、57、60]。我们通过对未标记和标记数据集的大小的影响进行更详细的评估来扩展这种分析,并调查数据质量,数据域和任务粒度的作用。3. 方法数据集。我们在四个完整的大规模数据集上进行了实验 : ImageNet [15] , iNat21 [50] , Places365 [61] 和GLC20 [13]。总的来说,这些数据集涵盖了许多重要的视觉属性,包括:策展图像与“野外”图像,细粒度类别与粗粒度类别,以及以对象为中心的图像与场景。每个数据集至少有一百万张图像,这使我们能够与传统的ImageNet集进行公平的比较ImageNet(130万张图像,1k个类)和Places365(180万张图像,365个类)是标准的计算机视觉数据集,所以我们不会详细描述它们。对于ImageNet,我们使用完整ImageNet-21k数据集的经典ILSVRC 2012子集。对于Places 365,我们使用官方版本“Places 365-Standard(小图片)”,其中所有图片的大小都调整为256 x256。iNat21(270万张图像,10k个类别)包含植物和动物物种的图像,GLC20(100万张图像,16个类别)由遥感图像组成。由于两者都是最近的数据集,我们讨论在补充材料中。固定大小的子集。对于一些实验,我们通过创建每个数据集的子采样版本来控制数据集大小我们只进行一次这种选择,图像是随机选择的。我们使用父数据集的名称,后跟括号中的图像数量来引用这些数据集,例如。ImageNet(500k).请注意,不断增加大小的子集 是 嵌 套 的 , 因 此 例 如 ImageNet ( 500k ) 包 括ImageNet(250k)中的所有图像。这些子集在实验中也是静态的,例如。ImageNet(500k)总是指同一组500k图像。在图2和图3的前提下,我们使用完整的数据集进行任何类型的监督训练(即线性评估,精细调整或从头开始的监督训练)。我们总是报告给定数据集的相同测试集的结果,而不管使用的是什么训练子集培训详情。本文中的所有实验都基于ResNet-50 [26]主干,这是对比学习文献[6,8,25]中的标准。我们主要在Simplified [8]上进行实验,Simplified是一种简单而流行的对比学习方法,包含最先进的自监督算法的所有构建我们遵循标准协议,首先单独进行自我监督训练,然后使用线性分类器或端到端微调来评估学习到的特征。除非另有说明,否则我们对所有方法和数据集使用基于[8虽然这可能不会导致最大性能,但它可能代表这些方法在实践中的使用方式-我们还考虑了图3中的MoCo[25]和BYOL [24]。补充材料中提供了完整的培训4. 实验我们现在描述我们的实验,在这些实验中,我们研究了数据量、数据域、数据质量和任务粒度对对比学习成功的影响。4.1. 数据量首先,我们考虑需要多少数据来学习使用SSL的“好”表示的问题。数据量有两个重要的概念:(i)用于预训练的未标记图像的数量和(ii)用于随后训练分类器的标记图像的由于标签是昂贵的,我们希望学习表示,以及推广尽可能少的标记图像。虽然未标记的图像获取成本低,但由于预训练时间与预训练集的大小成正比,因此它们仍然会产生成本。要了解SSL何时具有成本效益,我们需要了解性能如何依赖于这两个数据量概念。14758∼∼为了研究这个问题,我们使用不同数量的未标记图像预训练Simplified然后使用不同数量的标记图像来评估每个预训练的在图2中,我们呈现了iNat21(左列)、ImageNet(中列)和Places365(右列)的这些结果我们还包括从头开始监督训练的结果(黑色)。我们在顶行中显示线性评估结果,在底行中显示相应的微调结果。图中的每条曲线对应于不同的预训练表示。沿着曲线的点对应于用于训练线性分类器或微调网络的不同量的监督超过50万张预训练图像几乎没有什么好处。500 k(蓝色)和1 M(橙色)预训练图像曲线之间的差距通常小于1-2%(前1精度)这意味着,对于一个拥有100万张图像的数据集如果2-4%的top-1精度下降是可以接受的,那么预训练集的大小可以减少四倍(从1 M到250k)。然而,对于每个数据集,50 k(粉红色)预训练图像和250 k(绿色)预训练图像之间的差异是巨大的,通常超过10%的top-1准确度。我们的结论是,在我们到达ImageNet大小的预训练集之前,Simplified似乎饱和了这与监督学习文献中的观察结果一致,尽管需要更多的图像才能达到饱和[34]。当监督有限时,自我监督预训练可以是一个很好的初始化器。在图2的下一行中,我们看到当只有10k或50k标记的图像可用时,微调Simplified表示明显优于从头开 始 训 练 。 当 监 督 充 足 时 , 微 调 的SimpleRepresentations实现了与从头开始的监督训练类似的性能。有趣的是,将其与监督设置的结果进行比较,该结果表明,最初在失真(即增强)图像上训练的网络在随后使用未失真图像训练时无法恢复[1]。对于某些数据集,自监督表示可以接近完全监督的性能,但只能通过使用大量的标记图像。 SSL的最终目标是在不需要大量标记数据的情况下匹配监督性能假设我们将图2中黑色曲线上的最右边的点视为“良好”监督性能的代表。然后,在线性和微调的情况下,Simplified(在1M图像上预训练)和例如,“良好”的监督性能与使用Simplified(1M)上的50k标记图像训练的分类器之间的差距耳(和微调)的情况下。虽然SSL在大量监督可用时工作良好,但需要进一步创新以提高自监督表示在低到中等监督制度中的效用。iNat21是一个有价值的SSL基准测试。图2示出在高监督制度下,iNat 21的监督和自我监督性能之间存在惊人的差距(30%在图3中,我们看到其他SSL方法也有类似的限制。较新的BYOL性能优于MoCo 和Simplified,但仍存在相当大的差距(25%)。高监督绩效表明任务是可能的,但自我监督绩效仍然很低。iNat21似乎揭示了SSL在ImageNet中不明显的挑战,我们相信它是未来SSL研究的有价值的基准。4.2. Data Domain在上一节中,我们观察到增加预训练集的大小会导致收益迅速递减。在本节中,我们考虑一个不同的设计选择:我们应该使用什么样的图像进行预训练?由于大多数对比学习论文只在ImageNet上进行预训练,所以这个问题并没有受到太多的关注。我们采取了一个初始的一步,通过研究来自不同领域的四个预训练集的Simplified表示的属性来找到答案。我 们 在 iNat21 ( 1M ) , ImageNet ( 1M ) ,Places365(1M)和GLC20(1M)上训练SimCLR。通过保持预训练集大小不变,我们的目标是隔离不同视觉域的影响。我们在表1中呈现了每个表示的域内和跨域线性评估结果。在表2中,我们考虑了预训练对池化数据集的影响,即通过将现有数据集合并在一起构建的新图像集合。最后,在表3中,我们研究了不同的融合表示,它们是通过连接不同特征提取器的输出而形成的。预训练域很重要。在表1中,我们可以看到域内预训练(对角条目)始终优于跨域预训练(非对角条目)。差距可能会大得惊人,例如,与最好的跨域预训练(ImageNet)相比,域内预训练在iNat21上提供了12%的提升。人们可能会期望像ImageNet这样的视觉多样性数据集会比像GLC20这样的同质数据集产生更好的自监督表示(即使在GLC20上进行评估时),但这不是我们观察到的。表 1 的 非 对 角 线 条 目 显 示 , 在 ImageNet 上 训 练Simplified会导致最佳的跨域性能,而GLC20会导致最差的跨域性能。由于预训练协议和数据集大小保持不变,我们认为图像集本身的特征是我们观察到的差异的原因。的强大跨域性能14759∼(a) 线性评价(b) 微调图2. Simplified需要多少数据?线性评估结果(顶行)和微调结果(底行)作为用于预训练的未标记图像数量和用于下游监督训练的标记图像数量的函数。“监督”曲线(黑色)对应于在不同数量的标记图像上从头开始训练。这对于每列中的顶部和底部图是相同的。大多数SSL论文都专注于即使使用106个标记的图像进行线性分类器训练,Simplified在iNat21上的表现也远不如监督学习,这表明iNat21可能是未来比ImageNet更有用的SSL基准。预训练iNat21ImageNetPlaces365公司简介iNat 21(1M)Simplified0.4930.5190.4160.707ImageNet(1M)模拟0.3730.6440.4860.716Places365(1M)模拟0.2920.4910.5010.693GLC20(1M)Simplified0.1870.3720.3290.769监督(所有图像)0.7910.7410.5390.826图3. Simplified与其他自我监督方法相比如何?Simpletion、MoCo和BYOL的iNat 21线性评价结果。所有方法都在1000个epoch的1M图像上进行了预训练,并遵循相同的线性评估协议。最近的BYOL表现比其他人更好,但仍然有很大的差距监督性能。在ImageNet上预训练的Simplified可能是由于语义相似性-这是有意义的,因为ImageNet中的类与iNat 21(an-imals)和Places 365(scenes)中的类类似这也解释了GLC20的弱性能,因为遥感图像是表1. 预训练域重要吗?来自不同百万图像数据集的表示的线性评估结果。我们使用完整的训练集来训练线性分类器。“监督”行中的结果我们报告了GLC 20的MAP和其他数据集的top-1准确度。在所有情况下,域内预训练优于跨域预训练。在每一列中,我们突出显示最佳和次佳结果。与其他数据集不同。添加跨域预训练数据不一定会导致更一般的表示。我们已经看到,不同领域的预训练会导致具有显著不同能力的表示 这就引出了一个自然的问题:如果我们将数据集组合起来,然后学习一个表示,会发生什么?表 2 给 出 了 在 不 同 “ 合 并 ” 数 据 集 上 预 训 练 的Simplified的线性评估结果。在每行中,来自数据集A的n个图像和来自数据集B的m个图像被混洗在一起,以产生大小为n+m的预训练集。例如,表2第一行中的预训练数据集14760ImageNet iNat21 Dim.ImageNet iNat21表2. 数据集池的效果。来自池化数据集的自监督表示的线性评估结果,其中两个或多个数据集被混洗在一起。我们使用完整的训练集来训练线性分类器。“In-Domain”结果对应于在列顶部命名的数据集的子集上进行的预训练。池化数据集增加了预训练集的大小和多样性,但我们发现,相对于可比的域内预训练,性能有所下降由250k iNat21图像和250k ImageNet图像混合在一起组成。如果我们将“In-Domain(500 k)”行与表2的前三行中的(大小相等的)池化数据集进行比较类似地,“域内(1M)”行击败了1M图像合并数据集(由来自四个数据集的与相同大小的更同质的预训练集相比,更多样化的池化预训练集总是导致更差的性能。表2还允许我们说明是否值得添加来自不同域的预训练数据(而不是像我们到目前为止讨论的那样,将一些域内数据交换为来自不同域的一些数据 似乎添加来自不同领域的预训练数据通常会损害性能。相比之下,图2显示了增加域内预训练数据的数量可以持续提高性能。我们假设,这种乏善可陈的原因是不同的图像更容易区分,这使得对比借口任务更容易。如果对比任务太容易,表征的质量就会受到影响[4,10]。虽然需要更多的调查,但增加预训练数据多样性可能会损害性能的事实表明,在为SSL创建预训练集时应该考虑“多样性自我监督的表示可能在很大程度上是冗余的。从表1中可以清楚地看出,在不同数据集上进行预训练会导致表 示 方 法 的 显 著 差 异 。 例 如 , iNat21 Simplified 在iNat21 上 击 败 了 ImageNet Simplified ( +12.4% ) ,ImageNet Simplified 在 ImageNet 上 击 败 了 iNat21Simplified(+12.7%)。这些代表学习互补的信息,还是他们只是捕捉相同的信息,以不同的程度?表3. 表示融合的效果。ImageNet和iNat21上监督和自监督表示的不同组合的线性评估结果。我们使用完整的训练集来训练线性分类器为了比较,本表中的域内监督结果(ImageNetSup.在ImageNet和iNat21 Sup上进行了评估。在iNat 21上评估)是针对在从完全超视学习的表示上训练的线性分类器。“暗淡。”是表征维度。在每一列中,我们突出显示最佳和次佳结果。为了探索这个问题,我们将来自不同预训练网络的特征在表3中,我们给出了ImageNet和iNat21上融合表示 的 线 性 评 估 结 果 。 ImageNet Simplayer 和 iNat 21Simplayer的组合比ImageNet Simplayer在ImageNet上单独使用更差(-0.6%),但比iNat 21 Simplayer在iNat21上单独使用更好(+1.4%)。这些影响相对较小,ImageNet Simplified 和 iNat21 Simplified 之 间 的 差异>12%。这表明两种自我监督的代表在很大程度上是多余的。当结合监督和自我监督表示时,效果更大。对于iNat21,添加ImageNet Sup. (i.e.在iNat21 Simplified之上的ImageNet监督功能)显著提高了性能(+4.7%)。添加iNat 21 Sup.ImageNet Simplified实际上会降低性能(-4.2%)。这些结果与数据集语义即使对于SSL也很重要的假设是一致的。由于ImageNet在语义上比iNat21更广泛(ImageNet有动物类,但也有许多其他东西),因此从ImageNet(监督或自监督)学习的特征应该对iNat 21更有帮助。4.3. 数据质量我们已经看到,预训练数据的特征可以对自监督表示的质量产生重大影响。在本节中,我们通过研究预训练的影响来深入探讨这个问题。在人工退化的图像上。这有两个目的。首先,这是一个实际问题,因为存在图像质量问题普遍存在的许多设置,例如:医学成像[45]或相机陷阱数据[3]。其次,它可以帮助我们理解SSL的健壮性。要创建损坏的数据集,我们应用特定的图像预训练评价250k250k--0.4440.5970.467-250k250k-0.3340.5960.490250k-250k-0.4280.5310.483250k250k250k250k0.4100.5740.482域名内(250k)0.4510.6080.485域名内(500k)0.4770.6290.499域名内(1M)0.4930.6440.501模拟-20480.6470.380- Simplified20480.5200.506辅助核算-20480.7110.434- 你好20480.4900.769辅助核算辅助核算40960.7120.772西梅什40960.6410.520Simplified Sup.-40960.7200.472- SimpleSup40960.5270.772Simplified Sup.40960.6050.769辅助核算SimCLR40960.7170.55314761图4. 预训练图像损坏的效果是什么?ImageNet上的线性评估准确性下降,原因是对ImageNet训练集的损坏版本进行了预训练。零点对应于在未损坏的图像上进行预训练(监督或Simplified),然后进行线性评估。“监督”和“模拟”有不同的零点。所有线性分类器都使用完整的未损坏的ImageNet训练集进行训练。损坏数据集中的每个图像。这是一个一次性的离线预处理步骤,因此每个图像仅实现一次具有随机组件的损坏。给定一个损坏的数据集,我们然后像正常一样进行预训练。在线性评估期间,我们使用原始的干净图像进行训练和测试,即损坏的图像仅用于预训练。在图4中,我们呈现了一组简单但多样的腐败在ImageNet上的线性评估结果。零点对应于在未损坏的图像上进行预训练,我们测量在损坏的图像上进行预训练时性能下降的程度。“盐和胡椒”损坏是在每个通道中独立应用于每个像素的盐和胡椒噪声,概率为0.01。“JPEG”损坏是JPEG压缩,质量级别非常低,为10。对于“调整大小”,我们调整每个图像的大小,使短边为256像素,同时保持纵横比。这降低了用于训练的作物的分辨率。对于我们的下采样损坏,我们遵循调整大小操作,下采样2x或4x,然后上采样相同的因子。这使图像大小和每个对象占据的图像的分数保持恒定,但降低了分辨率。实施细节和示例见补充资料。图像分辨率对SSL至关重要。“Downsample (2x)” and“Downsample (4x)” are by far the most damaging cor-ruptions for SimCLR, reducing accuracy by around 由于Simplified已经涉及极端裁剪,我们可能会期望对图像分辨率的变化具有更强的鲁棒性。这一发现可以部分解释为在线性分类器训练期间难以推广到更高分辨率的图像[49]。然而,监督预训练面临着同样的挑战,但下采样的效果要小得多。这表明性能下降是由于Simplified学习的功能存在SSL对高频噪声相对稳健“JPEG”和“椒盐”都给图像添加了高频噪声&。对于Simplified来说,这些损坏的影响要比下采样损坏的影响小得多。一种可能的解释是,下采样破坏了纹理信息,这是已知的卷积神经网络特别重要的信号[19,29]。对于有监督的预训练,损坏的排名非常不同,4.4. 任务粒度我们已经看到,预训练数据集的属性对于确定自监督表示的效用非常重要。但是,有没有一些下游任务是自我监督表示特别适合或不适合的?我们认为细粒度的分类,并表明分类性能取决于任务的复杂性,即如何罚款或粗糙的标签。虽然有正式的方法来测量数据集粒度[14],但我们凭直觉认为iNat21比ImageNet更细粒度,ImageNet比Places365更细粒度。在 图 5 中 , 我 们 使 用 标 签 层 次 结 构 ( 可 用 于ImageNet,iNat21和Places365)来明确研究性能如何取决于标签粒度。我们将我们执行(i)线性分类器训练(对于Simplified)和(ii)从头开始的端到端训练(对于我们不会在每个粒度级别上重新训练。关于这一过程的完整说明见补充材料。SSL和监督学习之间的性能差距随着任务粒度变得更细而增长。我们从图5中的iNat21结果开始。监督模型和Simplified 预训练 模型在标签 层次结构的 粗层次(“王国”)上的表现类似。随着任务粒度的增加,这两个模型的性能都会变差,但Simplified模型的性能下降得更快(这表明Simplified可能无法像监督预训练那样有效地捕获我们还观察到ImageNet和Places 365的监督/自我监督差距越来越大。该间隙的大小似乎跟踪数据集粒度,因为iNat21(最细粒度)具有最大间隙,而Places365(最细粒度)具有最小间隙。监督学习在iNat 21上实现了高性能,而SSL落后的事实表明,iNat21可能是SSL研究下一阶段的有价值的扩增是否具有破坏性?最先进的设备14762图5. 性能如何取决于标签粒度?iNat21、ImageNet和Places365在不同级别的标签粒度下的线性评估。每幅图都将从头开始的监督学习与在域内Simplified上训练的线性分类器进行了比较。两者都使用完整的训练集进行训练。我们绘制了top-1准确度与标签粒度的关系图,当我们从左向右移动时,标签粒度更细。x轴上的数字是标签层次结构的给定级别上的类计数我们不会在更粗的粒度级别上重新训练,我们只是改变了评估标签集。补充材料中给出了层级的定义传统学习技术是为ImageNet设计的,因此默认的增强策略可能对其他数据集调整得不好[56]。例如,如果颜色是物种分类的关键细粒度特征,则Simplified使用的这是否可以解释iNat21 Simploy在细粒度类中表现出的性能快速下降请注意,图5中ImageNet Simplayer也有类似的细粒度性能下降,但不那么极端。由于ImageNet调优的增强对ImageNet可能没有破坏性,因此这似乎不太可能完全解释我们的观察结果。对比学习是否存在粗粒度偏差?我们假设对比度损失倾向于基于整体视觉相似性对图像进行聚类直觉是,细粒度的特征往往是微妙的,而微妙的特征不太可能对区分对比借口任务中的图像对非常有用。如果我们的假设是正确的,那么不同聚类器之间的边界将不会与细粒度类之间的边界很好地对齐在对粗粒度的类进行评估时,这种影响可能会被忽略,但在更细粒度的任务中会变得要完全理解SSL中的这种“粒度差距”,需要进行额外的分析5. 结论我们已经提出了一套全面的实验来解决这个问题的几个方面:什么时候对比视觉表征学习起作用? 在第4.1节中,我们发现在遇到严重的收益递减之前,我们需要少于500k的预训练图像。然而,即使是最好的自监督表示仍然比没有数十万个标记图像用于分类器训练的峰值监督性能差得多。在第4.2节中,我们发现在来自不同领域的1M图像上进行自我监督预训练会产生表示它们具有非常不同的功能,并且组合不同数据集的简单方法不会带来很大的收益。在第4.3节中,我们展示了图像分辨率对于对比学习至关重要,更广泛地说,一些图像损坏会将自监督表示降低到不可用的程度,而其他图像几乎没有影响。最后,在4.4节中,我们发现监督预训练在细粒度分类方面保留了大量优势这些实验强调了需要进一步研究以改进当前SSL算法的几个领域,其中大部分在传统评估协议中并不明显,即ImageNet上的top-1准确性。局限性。我们主要使用一个自我监督的方法进行实验。我们专注于Simplified,因为它反映了最先进的对比学习方法的本质,而不会引入额外的架构复杂性。虽然我们的MoCo和BYOL实验与Simplified没有太大区别,但重要的是要验证我们在其他自监督方法上的结果。探索替代的主干架构[7,17]也很有趣,尽管在控制训练设置后,ResNet-50仍然与新的架构[54,55]竞争。我们只研究分类任务,因此还需要额外的工作来理解这些结果如何转化为分割[53]或检测[27,63]。最后,我们只考虑大约ImageNet规模的数据集。我们相信这是大多数用例最实用的设置,但对于更大的数据集和模型,某些模式可能会有所不同[21,22]。鸣谢。我们感谢Mason McGill提供的详细反馈,感谢Grant Van Horn 、 Christine Kaeser-Chen 、 Yin Cui 、Sergey Ioffe、Pietro Perona和Perona实验室的其他成员进行的富有洞察力的讨论。这项工作得到了加州理工学院Resnick可持续发展研究所、NSF研究生研究奖学金 ( 资 助 号 DGE1745301 ) 和 人 工 智 能 先 锋 中 心(DNRF资助号P1)的支持。14763引用[1] Alessandro Ruple,Matteo Rovere,and Stefano Soatto.深度神经网络的关键学习期。2019年,在ICLR。4[2] Kumar Ayush ,Burak Uzkent,Chenlin Meng,KumarTan- may,Marshall Burke,David Lobell,and StefanoErmon.地理感知自我监督学习。ICCV,2021。2[3] 莎拉·比瑞格兰特·范·霍恩和皮特罗·佩罗纳在未知领域的认知。在ECCV,2018。6[4] Tiffany Tianhui Cai , Jonathan Frankle , David JSchwab,and Ari S Morcos.在对比实例辨别中,所有否定词是否都是平等的?arXiv:2010.06682,2020。二、六[5] Yue Cao,Zhenda Xie,Bin Liu,Yutong Lin,ZhengZhang,and Han Hu.用于非监督视觉特征学习的参数化实例分类。在NeurIPS,2020年。2[6] Mathilde Caron , Ishan Misra , Julien Mairal , PriyaGoyal,Piotr Bojanowski,and Armand Joulin.通过对比聚类分配的视觉特征的无监督学习。在NeurIPS,2020年。二、三[7] MathildeCaron , HugoTouvron , IshanMisra , Herve'Je'gou , Julien Mairal , Piotr Bojanowski , and ArmandJoulin.自我监督视觉转换器中的新兴特性。ICCV,2021。8[8] 陈婷,西蒙·科恩布里斯,穆罕默德·诺鲁齐,和葛offrey Hinton.视觉表征对比学习的一个简单框架。在ICML,2020。二、三[9] Ting Chen , Simon Kornblith , Kevin Swersky ,Mohammad Norouzi,and Geoffrey Hinton.大型自监督模型是强半监督学习器。在NeurIPS,2020年。2[10] 陈婷 ,罗 凯文 ,李 拉拉 。对比 损失 的有 趣特 性在NeurIPS,2021年。三、六[11] Xinlei Chen,Haoqi Fan,Ross Girshick,and KaimingHe.通过动量对比学习改进基线。arXiv:2003.04297,2020。2[12] Xinlei Chen,Kaiming He.探索简单的连体表示学习。在CVPR,2021年。2[13] Elijah Cole 、 Benjamin Deneu 、 Titouan Lorieul 、Maximilien Servajean、Christophe Botella、Dan Morris、Nebojsa Jojic、Pierre Bonnet和Alexis Joly。Geolifeclef2020数据集。arXiv:2004.04192,2020。3[14] Yin Cui,Zeqi Gu,Dhruv Mahajan,Laurens Van DerMaaten,Serge Belongie,and Ser-Nam Lim.测量数据集的相似性。arXiv:1912.10154,2019。7[15] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi,and Li Fei-Fei. Imagenet:一个大规模的分层图像数据库。CVPR,2009。3[16] Carl Doersch、Abhinav Gupta和Alexei A Efros。通过上下文预测的无监督视觉表示学习在ICCV,2015年。2[17] AlexeyDosovitskiy,LucasBeyer,AlexanderKolesnikov,Dirk Weissenborn,Xiaohua Zhai,ThomasUnterthiner , Mostafa Dehghani , Matthias Minderer ,Georg Heigold,Syl- vain Gelly,et al. An image is worth16x16 words:Trans- formers for image recognition at scale.ICLR,2021年。81476
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功