没有合适的资源?快使用搜索试试~ 我知道了~
9629视觉表征学习中的概念概括Mert Bulent Sariyildiz1,2, Yannis Kalantidis1 Diane Larlus1KarteekAlahari21 NAVER LABS Europe2 Inria*图1:概念泛化(CoG)基准的概述。(a)来自ImageNet-21 K数据集[11](IN-21 K)的五个概念的示例,通过增加语义距离(减少Lin相似性[34])对ImageNet-1 K(IN-1 K)数据集[47]概念“Tiger cat”进行排名(b)我们根据IN-21 K的21 K个概念到IN-1 K的1000个概念的语义距离对IN-21 K的21 K个概念进行排序我们将与IN-1 K的语义距离增加的五个IN-1 K大小的数据集称为概念泛化级别,表示为L1/2/3/4/5。(c)建议的ImageNet CoG基准使用在IN-1 K上训练的模型作为特征提取器,并通过学习线性分类器来评估其概念泛化能力,以适应越来越具有挑战性的未知概念的每个级别。摘要测量概念泛化,即,在一组(见过的)视觉概念上训练的模型可以被利用来识别一组新的(看不见的)概念的程度是评估视觉表示的流行方式,特别是在自监督学习框架中。尽管如此,用于这种评估的看不见的概念的选择通常是任意的,并且独立于用于训练表示的可见概念,因此忽略了两者之间的任何语义关系在本文中,我们认为可见和不可见概念之间的语义关系会影响泛化性能,并提出ImageNet-CoG,1是ImageNet-21 K(IN-21 K)数据集上的一个新基准,可以以原则性的方式测量概念泛化。我们的基准利用来自WordNet的专家知识,以便定义一系列看不见的IN-21 K概念集,这些概念集在语义上与ImageNet-1 K(IN-1 K)子集(一个无处不在的训练集)越来越远。这使我们能够对在IN-1 K上学习的视觉表示进行基准测试。我们进行了一项大规模的研究,包括31个卷积和基于变换的模型,并展示了不同的架构,监督水平,正则化技术和使用网络数据的影响概念泛化性能。*UGA,Inria,CNRS,Grenoble INP,LJK,38000Grenoble,France1https://europe.naverlabs.com/cog-benchmark96301. 介绍已经有越来越多的努力通过迁移学习来解决对深度模型中手动注释的大规模数据的需求,即,通过将在资源丰富的数据集和任务上学习的表示先前的工作已经通过各种方式实现了这一点,例如,模仿低数据机制中的知识转移[60],以自我[22]或弱监督[37]的方式利用未标记的数据。用于转移学习的所学习的视觉表示的质量通常通过检查它们是否对转移学习有用来确定,即,推广到广泛的下游视觉任务。因此,必须量化这种泛化,它有几个方面,例如泛化到不同的输入分布(例如,从合成图像到自然图像),到新任务(例如,从图像分类到对象检测),或不同的语义概念(例如,跨越不同的对象类别或场景标签)。尽管前两个方面最近受到了很多关注[18,20],但我们观察到,最后一个方面需要更有原则的正如[12,67]所指出的,两个任务之间知识转移的有效性然而,评估这种相关性并不简单,因为概念的语义范围可能取决于任务本身。在实践中,模型会考虑涵盖广泛概念的下游任务的详尽列表[7,29],以测试其迁移学习能力。以前讨论这个问题的尝试仅限于直觉[67,75]。我们仍然知之甚少的语义之间的关系,在训练过程中看到的视觉表示和那些在他们的评价(看到和看不见的概念,分别)的影响。在本文中,我们研究了存在于大型,流行和广泛本体中的概念的视觉表示的泛化能力,WordNet [41]的子集用于构建ImageNet-21 K [11](IN-21 K),同时保持所有其他泛化方面固定。从一组可见的概念开始,来自流行的ImageNet-1 K [47](IN-1 K)数据集的概念,我们利用基于专家制作的这个本体的语义相似性度量来测量IN-1 K和每个看不见的概念之间的语义距离IN-21 K中的任何概念,但不在IN-1 K中)。我们排名看不见的概念相对于他们的距离IN-1 K和定义一个序列的五个,IN-1 K大小的概念概括的水平,每个组成的一组不同的看不见的概念与语义距离增加看到的。这导致了一个由5000个概念组成的大规模基准测试,我们将其称为ImageNet概念G泛化基准测试,简称ImageNetCoG。基准构建过程如图所示。1.一、给定在IN-1 K上训练的模型,ImageNet CoG的评估协议包括两个阶段:它首先提取IN-1 K和五个概念生成级别的图像的特征,然后使用每个概念的变化量的样本来学习每个级别的各个分类器。通过将我们的基准测试的可见概念集定义为IN-1 K类,我们能够评估在IN-1 K上训练的模型因此,我们使用公开的预训练模型,并在概念泛化的棱镜下分析了大量流行的模型。我们的贡献如下。• 我们提出了一种系统的方法来研究概念泛化,通过定义一组可见的概念,以及语义上越来越远离可见概念的不可见概念集。• 我们设计了一个大规模的基准测试系统ImageNet-CoG,它体现了这种系统化的方法。它旨在评估在IN-1 K上预先训练的模型,并从IN-21 K数据集的其余部分中提取看不见的概念我们测量概念泛化性能的五个,IN-1 K大小的水平,通过学习分类器与一些或所有的训练图像从看不见的概念。• 我们在ImageNet CoG上进行了一项大规模的研究,对31种最先进的视觉表示学习方法进行了基准测试,并分析了不同的架构,监督水平,正则化技术和其他网络数据如何影响概念泛化性能,揭示了一些有趣的见解。2. 相关工作泛化已经在不同的视角下进行了研究,例如正则化[52]和增强[69]技术,与人类认知的联系[16],或开发定量指标以更好地理解它,例如,通过损失函数[31]或复杂性度量[42]。在计算机视觉的背景下也探索了泛化的几个维度,例如,对相同概念的不同视觉分布的泛化(域适应)[10],或跨任务的泛化[71]。跨概念的泛化是零射击[51]和少数射击[60]学习的关键部分我们研究这个特定的维度,概念泛化,其目标是转移知识的一组看到的概念,新遇到的看不见的概念,尽可能有效地。与现有的工作不同,我们采取了一个系统的方法,通过考虑的语义相似性之间的可见和不可见的概念时,测量概念泛化。走向概念空间的结构严格评估概念概括的首要要求之一是构建概念空间,以分析在预训练和迁移阶段存在的概念的影响。然而,以前的工作很少讨论的部分-9631拆分的典型选择(所见与看不见)的数据,和随机抽样的概念仍然是最常见的方法[21,24,30,63]。一些方法利用了专家设计的关系。例如,WordNet图[41]有助于在[15,67]中构建数据集分割,并且特定于领域的本体用于测试跨领域的泛化[20,61]。然而,这些分裂是基于启发式的,而不是建立在概念之间的语义关系的原则性机制,因为我们在本文中。迁移学习评估。当涉及到评估视觉表示的质量时,金标准是通过解决许多数据集上的分类,检测,分割和检索等不同任务来对模型进行基准测试[4,7,13,18,22,29,73]。最常用的数据集是IN-1 K [47],Places [76],SUN [64],Pascal-VOC [14],MS-COCO [35]。然而,这样的选择通常是独立于用于训练视觉表示的数据集而做出的,忽略了它们的语义关系。总之,在评估视觉表征的质量时,忽视了预训练和迁移任务之间的为了解决这个问题,我们提出了一个考虑到这种关系的受控评估协议3. 我们的ImageNet CoG基准迁移学习性能对预训练和目标数据集中的概念之间的语义相似性高度敏感[12,67]。研究这种关系需要仔细构建评估协议:i)控制模型在训练期间已经暴露于哪些概念(可见概念),以及ii)这些可见概念与针对转移任务考虑的那些概念(不可见概念)之间的语义距离。如前所述,目前的评估协议在处理这些方面严重不足。为了填补这一空白,我们提出了ImageNet概念泛化(CoG)-一个由多个图像集组成的基准测试,一个用于预训练,其他几个用于转移,以受控的方式策划,以测量视觉表示到看不见的概念集的转移学习性能,这些概念的语义与训练期间看到的概念越来越远在设计这个基准测试时,我们考虑了几个重要的要点。首先,为了专门关注概念泛化,我们需要为泛化的这个特定方面量身定制一个受控的设置。换句话说,我们需要确保预训练和转移数据集之间的唯一变化是概念集。特别地,我们需要输入图像分布(自然理念的它可以用专家知识手动定义,例如,WordNet[41] , 或 者 例 如 通 过 语 言 模 型 自 动 构 建 , 例 如 ,word2vec [40].第三,预训练和目标数据集的选择至关重要。我们需要这些数据集具有不同的对象级图像[2],并且尽可能地减少偏差,例如,[39]第39话方便地,IN-21 K数据集满足所有这些要求。因此,我们选择它作为我们基准的图像和概念的来源。IN-21K包含14,197,122个精选图像,涵盖21,841个概念,所有这些都进一步映射到WordNet本体的同义词集,我们使用这些同义词集来衡量语义相似性。在本节的其余部分中,我们首先定义可见和不可见概念的不相交集合,然后提出我们的方法来构建用于评估概念泛化的不同级别,并描述评估协议。3.1. 可见概念我们做出了一个自然的选择,并使用无处不在的IN-1 K数据集[47]中的1000个类作为我们所看到的概念的集合。IN-1 K是IN-21 K的一个子集[11]。它由1.28M图像组成,并已被用作评估新型计算机视觉架构[23,50,53,58],正则化技术[49,59,69,74]以及自我和半监督模型[5,8,19,22,65]。选择IN-1 K作为所见的类进一步提供了几个优势。未来的贡献,按照标准的做法,可以在IN-1 K上训练他们的模型,然后简单地评估我们的基准与他们的预训练模型的泛化。它还使我们能够使用公开可用的模型(如第2节所示)对IN-1 K上学习的开箱即用的4).3.2. 选择符合条件的不可见概念我们从2011年秋季版本的IN-21 K开始。[11] dataset2由于我们对训练过程中看不到的概念感兴趣,我们明确删除了IN-1 K的1000个我们还删除了WordNet [41]层次结构中这1000个概念的祖先例如,概念“猫”被丢弃,因为它的最近表明,IN-21 K类别的子集可能在下游计算机视觉应用中表现出不期望的行为[66]。因此,我们丢弃“人”子树下的所有概念。此外,我们选择放弃一小部分可能具有 攻击性的概念(详见补充材料)。我们遵循IN-1 K [47],只保留至少有782个概念的概念。图像)和注释过程(其可以确定图像的统计[57])以保持恒定。其次,为了确定两个概念之间的语义相似性,我们需要一个辅助知识库,该辅助知识库可以提供视觉概念之间的语义相关性的概念。2请注意,最近发布的2021年冬季ImageNet版本与2011年秋季版本共享了我们基准测试中选择的所有未见过概念的相同图像集。我们建议读者参考补充资料,以进一步讨论最近的2021年冬季版本以及IN-1 K的更新模糊版本9632C−语料库中的概念。图1显示了IN-21 K中的五个概念的例子,这些概念通过降低Lin与IN-1 K概念“Tiger cat”的相似性来排序。第1(a)段。我们扩展上述公式以将来自IN-1 K、IN-1 K的一组可见概念与任何不可见概念c之间的不对称相似性定义为来自IN-1 K的任何概念与c之间的最大相似性:L1L2L3L4L5simIN-1K(c)=maxc~∈CIN-1K(simLi n(c,c~))。(二)图2:概念泛化水平。我们对所有5146个符合条件的IN-21 K未见过的概念关于它们与IN-1 K的相似性使用等式2进行排名。(2)并将排名列表分成5组,每组1000个概念。 每个组定义一个概念泛化级别,每个级别由L1/2/3/4/5表示。灰色阴影区域对应于被忽略的概念。图像,确保相对平衡的基准。最后,我们丢弃的概念,所有到目前为止,合格的概念定义的WordNet子图中的叶节点。形式上,对于未知概念集合中的任何c1和c2,如果c1是c2的父概念,则丢弃c1。这些要求将符合条件的不可见IN-21 K概念集减少到5146个类别。3.3. 概念概括水平我们的下一步是定义一个序列的看不见的概念集,每一个减少的语义相似性看到的概念在IN-1 K。我们将其中的每一个称为概念泛化级别。它们允许我们在受控环境中测量考虑越来越困难的迁移学习场景。回想一下,IN-21 K是建立在单词本体WordNet之上的,其中不同的概念或同义词集根据语言学家起草的语义关系进行链接。这使得能够使用现有的语义相似性测量[3],其利用WordNet的图形结构来捕获概念对的语义相关性在先前的工作[12,46]之后,我们使用Lin相似性[34]来定义概念到概念的相似性。两个概念c1和c2之间的Lin相似性由下式给出:在设计我们的基准测试时,我们在选择Lin相似性之前考虑了不同的语义相似性度量。我们探索了WordNet图上定义的其他度量[38],例如基于路径的Wu-Palmer[62]和基于信息内容的Jiang-Conrath [25]。我们还考虑了基于标题的Word2Vec表示[40]和概念的文本描述的语义相似性我们用这些替代措施进行的实验导致了与第2节中所述类似的观察结果。4为林相似性。我们建议好奇的读者参考补充材料,以获得其中一些措施的其他结果。随着相似性度量的定义,我们现在的目标是将所有符合条件的看不见的概念分组到多个评估集,这在泛化方面越来越具有挑战性为了确保这一点,我们希望包含在每个连续集的概念我们实现这一点,首先排名所 有 看不 见 的 概念 , 就 其相 似 性IN-1 K使 用 Eq 。(二)、然后,我们将排名列表分成连续概念组,如图所示。2;每个组对应于一个概念概括级别。我们设计的关卡与IN-1 K [47]相当,因此每个关卡选择1000个概念。有5146个合格的看不见的概念,我们填充五组。为了增加多样性,我们利用了排名列表的整个跨度,并最终在级别之间产生小的差距(更多细节请参见补充材料我们将五个概念泛化水平表示为L1/2/3/4/5。与[47]类似,我们进一步将每个概念的最大训练图像数量限制为1300。这使得每一级的训练图像总数达到110万张,接近于128万张的SIM(c,c)=2×IC( LCS(c1,c2)),(1)IN-1 K的图像林1 2IC(c1)+ IC(c2)3.4. 评价方案其中LCS表示WordNet图中两个概念的最低公共包含者,并且IC(c)=logp(c)是在特定语料库中遇到概念c的实例的概率为p(c)(in我们的情况是WordNet的子图,包括所有IN-21 K概念及其父概念,直到WordNet的根节点:“实体”)。在[44,45]之后,我们将p(c)定义为在c下存在的概念的数量除以我们现在呈现用于ImageNet-CoG的协议,并总结第2节中呈现的不同实验的度量。4.第一章基准测试包括两个阶段。首先是特征提取阶段,在IN-1 K上训练的模型用于提取特征,然后是在每个级别上独立进行的评估阶段灰框中显示了基准的概述。9633ImageNet-CoG基准测试概述必要条件:在IN-1 K上预训练的模型以L1/2/3/4/5阶段1:特征提取使用该模型提取所有图像集的图像特征第2阶段:评价对于可见概念(IN-1 K)和未见概念的每个级别(L1/2/3/4/5),分别:• 使用所有训练数据<我的模型对可见和不可见概念之间的语义距离有多大的弹性?>• 使用N∈{1,2,4,. . . ,128}每个概念的样本。<我的模型适应新概念的速度有多快>3.4.1阶段1:特征提取我们的协议基于这样的假设,即良好的视觉表示应该以最小的努力推广到新的任务而不需要微调主链。因此,我们的基准测试仅使用预训练的骨干作为特征提取器,并将表示与评估解耦。具体地,我们假设在IN-1 K的训练集上学习的模型我们使用这个模型作为编码器来提取IN-1 K和所有五个级别L1/2/3/4/5的图像的特征。我们从各个模型的分类器之前的层中提取特征,最近的发现[27]表明残余连接可以防止骨干过度拟合预训练任务。 我们2-归一化特征并离线提取它们:在学习后续分类器时不应用数据扩充。3.4.2第2阶段:评价我们使用所有可用的训练图像学习每个级别的线性逻辑回归分类器。由于每个级别的数据集都被设计为大约与IN-1 K一样大,因此我们也使用相同的协议在IN-1K上学习线性分类器;这使我们能够比较可见和不可见概念的性能。我们还评估了模型在学习看不见的概念时如何有效地适应,即他们需要多少样本来这样做,通过执行少镜头概念分类。3.4.3指标和实施细节我们报告所有实验的前1精度。在IN-1 K和每个级别上,绝对准确度数字是可比较的,因为所有级别共享相同数量的概念,并且具有大约100%的训练集。同样的尺寸。然而,我们主要绘制相对于基线模型的准确度,原因有两个:(i)它使曲线图更清晰并且差异更容易掌握,(ii)每个水平的性能范围略有不同,因此它有助于更好地可视化趋势。为了创建训练/测试分割,我们随机选择50个样本作为每个概念的测试集,并使用剩余的样本(至少732个,最多1300个)作为训练集。我们使用部分训练数据来优化每个水平的逻辑回归的超参数;详见第二节。4.第一章我们使用Optuna [1]来优化每个模型和每个级别的学习率和权重衰减超参数;我们使用20%的训练集作为验证集,以找到最佳配置,然后使用com-完整的训练集。我们仅报告测试集的结果。我们用不同的种子重复超参数选择5次,并报告最终得分的平均值;在所有图中还显示了标准偏差。4. 基于ImageNet CoG的现在,我们提出了我们的大规模实验研究,分析了不同的基于CNN和基于变换器的视觉表示模型在我们的基准测试中的表现,遵循上一节定义的评估协议。为了清楚起见,我们只强调了我们实验的一个子集,并在补充材料中提供了其他结果4.1. 模型我们选择了31个模型进行基准测试,并在Tab中列出了完整的列表1.一、为了便于比较和讨论,我们将模型分为以下四类。架构我们考虑了几种架构,包括基于CNN的(a-VGG19 [50],a-Inception-v3 [53],ResNet 50,a-ResNet 152[23]),基于变换器的(a-DeiT- S [58],a-DeiT-S-蒸馏,a-DeiT-B-蒸馏,a-T2 T-ViT- t-14 [68])和神经架构 搜 索 ( a-NAT-M4 [36] , a-EfficientNet-B1 [54] , a-EfficientNet-B4 [68])。54])具有不同复杂性的骨干。我们将该类别中的模型分为两组,这取决于它们的参数数量是否与ResNet 50(红色)或不(橙色)相当;如果它们与ResNet 50相当,则它们也可以直接与以下类别中的所有模型进行比较自我监督。以自监督方式训练的ResNet 50大小的模型(蓝色)包括对比(s-SimCLR- v2 [7,8],s-MoCo-v2[9 , 22] , s-InfoMin [56] , s-MoCHi [ 26] , s-MoCHi[27],s-MoCHis-BYOL [19])、基于聚类的(s-SwAV [5]、s-OBoW[17]、s-DINO[6])、特征去相关(s-BarlowTwins[72])和蒸馏(s-CompReSS[28])模型。正规化。在训练阶段应用标签规则化技术(紫色)的ResNet 50大小的模型包括蒸馏(r-MEAL-v2 [49]),标签增强(r-MixUp [74],r-Manifold-MixUp [59],r-CutMix [69])9634Torchvision软件包中的基线模型(23.5M)ResNet50参考型号:ResNet50 [23]架构:具有不同主干的模型自我监督:在此框架中训练的ResNet50模型正规化:带有额外正则化的ResNet50模型网站数据的使用:使用附加数据的ResNet50模型4.2. 结果我们测量图像分类性能IN-1 K和每一个的概念概括级别L1/2/3/4/5的ImageNet-CoG的上述31个模型,使用不同数量的图像每个概念。这些实验允许我们研究(i)当我们语义地远离所见概念时分类性能如何变化(第12节)。4.2.1),以及(ii)模型能够多快地适应看不见的概念(第4.2.1节)。4.2.2)。我们建议读者参考SEC。3.4我们的协议和指标选择的理由4.2.1对未知概念我们报告了使用图中的所有训练数据学习的线性分类器的性能。3.第三章。在图3(a)中,我们报告了所有模型和水平的top-1准确度,而图3(a)报告了所有模型和水平的top-1准确度。图3(b)-(e)显示了4个模型类别中相对于基线ResNet 50的性能。我们的主要意见如下。*很难概括到语义上遥远的概念。所有模型的绝对性能单调下降,增加,因为我们远离语义IN-1 K。这意味着迁移学习在从L1到L5的水平上变得越来越具有挑战性,即,当我们试图区分表1:在ImageNet-CoG上评估的模型列表。和r-ReLabel[70])和对抗鲁棒性(r-Adv- Robust [48])模型。网站数据的使用。使用带有噪声标签的额外网络数据预训练的模型以绿色进行颜色编码。这包括学生-教师模型d-Semi-Sup [65]和d-Semi-Weakly-Sup [65],它们首先在YFCC-100 M [55](IN-1 K的100倍)和IG-1B [37](1000倍)上进行预训练然后在IN-1 K上进行微调我们还考虑了在具有文本注释 的 WebImageText ( 400 x ) 上 预 训 练 的 跨 模 态 d-CLIP[43],以及在WebVision-V1 [33](2x)上预训练的噪声容忍标签预测模型d-MoPro由于目前尚不清楚YFCC-100 M、IG-1B、WebImageText或WebVision- V1是否包含我们在关卡中选择的未见过概念的图像,因此该类别中的模型无法直接进行比较。对于所有这些方法,我们使用由相应作者提供的公开可用的模型除了使用网络数据类别中的模型之外,所有模型都我们还为所有基于ResNet的模型使用了作者 发 布 的 最 好 的 ResNet- 50 主 干 。 我 们 使 用 vanillaResNet50(torchvision包中提供的版本)作为参考点,这使得跨类别比较更容易。为了清楚起见,我们在模型名称前面加上这些概念与训练中的概念相去甚远。* 自监督模型擅长概念泛化。许多最近的自监督模型( s-DINO , s-SwAV , s-BYOL , s-OBoW 和 s-SimCLR-v2)在所有级别上都优于ResNet 50。总的来说,我们看到ResNet50和自监督模型之间的性能差距逐渐向后者倾斜(图1)。第3(b)段)。令人惊讶的是,从图。3(a)我们还看到,用s-DINO训练的ResNet 50在所有类别和模型大小上与L5上表现最好的模型竞争。这表明模型学习的增强不变性可以很好地转移到看不见的概念的图像上。* 视觉转换器过度拟合更多的可见概念(对于参数与ResNet50一样多的模型)。总体上,研究的最佳表现模型是a-DeiT-B-distilled,一种大型视觉Transformer。然而,对于与ResNet 50相同数量的参数,我们看到视觉变换器如a-DeiT-S和a-T2 T-ViT-t-14在IN-1 K上表现出的大增益对于看不见的概念实际上是丢失的(图11中的红线)。3(e))。事实上,两者在L5上的表现都比ResNet50略差。* 使用噪声网络数据大大提高了概念概括。弱监督模型d-Semi-Sup,d-Semi- Weakly-Sup和d-CLIP预训练的数据比IN-1 K多大约100倍,1000倍和400倍,在所有级别上都表现 出比ResNet 50更好的性能 (图1)。3(d))。然而,值得重申的是,由于他们的数据集是基于网络的,并且比IN-1 K大得多,我们不能自信地声称我们的水平中的概念在训练期间确实是不可见的。因此,该模型类别的结果应为模型注释(可选# param. /额外数据量)a-T2T-ViT-t-14[68]a-DeiT-S [58]a-DeiT-S-蒸馏[58][53]第五十三话视觉Transformer(21.1M)Visual Transformer(21.7M)Distilleda-DeiT-S(21.7M)CNN with inception modules(25.1M)a-NAT-M4 [36][54]第54话[54]第54话a-DeiT-B-蒸馏[58][23]第二十三话神经架构搜索模型(7.6M)神经架构搜索模型(6.5M)神经架构搜索模型(17.5M)更大版本的a-DeiT-S-distilled(86.1M)更大版本的ResNet 50(58.1M)在WebImageText上训练(400×)IG-1B(1000×)预训练,IN-1 K在YFCC-100 M(100×)上预训练,在IN-1 K在WebVision-V1上进行培训(102 ×)d-MoPro [32][65]第六十五话d-半弱Sup [65][43]第四十三话s-SimCLR-v2 [7,8]在线实例判别(ID)s-MoCo-v2 [9,22]带动量编码器和存储体的IDs-BYOL [19]带动量编码器S-MoCHi [26]带负对挖掘的[56]第五十六话ID与仔细的正对选择S-OBoW [17]在线视觉词袋预测s-SwAV [5]在线聚类S-DINO [6]在线聚类[72]第七十二话使用正对的[28]第二十八话从SimCLR-v1 [7]中提取(使用ResNet 50 x4)[74]第七十四话标签关联数据扩充[59]第59话标签关联数据扩充[69]第六十九话标签关联数据扩充r-重新标签[70]在IN-1 K的“多标签”版本上接受培训[48]第四十八话对抗鲁棒模型[49]第四十九话蒸馏ResNet509635--ResNetTransformerNAS其他自我监督Web数据正则化◆■ResNet50(23.5M)a-ResNet152(58.1M)▲a-T2T-ViT-t-14(21.1M)► a-DeiT-S(21.7M)蒸馏水-DeiT-S(21.7M)▼a-DeiT-B-蒸馏(86.1M)a-Inception-v3(25.1M)a-EfficientNet-B1(6.5M)a-EfficientNet-B4(17.5M)◆ a-NAT-M4(7.6M)◆ a-VGG19(139.6M)■ s-DINO▲s-SwAV► s-BarlowTwinss-OBoW▼s-BYOLSimCLR-v2MoCo-V2中文(简体)◆ s-CompReSS◆ s-信息最小值■ d-半Sup▲d-半弱Sup► d-MoProd-夹子■ r-重新标记▲r-CutMix► r-混合r-流形-混合▼r-Adv-Robustr-餐-v2858075706560555045IN-1KL1L 2L 3L 4 L(a) 跨概念泛化级别的50−5IN-1KL 1L 2L 3L 4L 5(b) ResNet 50-自我监督50−5IN-1KL 1L 2L 3L 4L 5(d)ResNet 50- Web数据50−5IN-1KL 1L 2L 3L 4L 5(c) ResNet 50-正则化50−5IN-1KL 1L 2L 3L 4L 5(e)骨干架构图3:ImageNet-CoG上的线性分类。表1中列出的所有31个型号的前1精度。1在IN-1 K和每个水平L1/2/3/4/5上训练逻辑回归分类器后。(a)所有级别的绝对顶级精度。(b)-(e)相对于所有模型的基线ResNet 50的准确性,分为第2节中列出的四个模型类别4.1.我是持保留态度的。* 模型蒸馏通常提高概念概括性能。 我们看到,蒸馏的监督模型r-MEAL-v2和a-DeiT-S-蒸馏在所有水平上都一致地优于其未蒸馏的对应模型(图1A和1B)。3(c)和(e))。然而,这些增益逐渐减少,并且对于L5,超过基线的性能增益很小.同样值得注意的是,对抗性训练(r-Adv-Robust)似乎不会损害概念泛化。* 神经结构搜索(NAS)模型似乎预示着概念泛化。我们 评 估 的 所 有 NAS 模 型 ( a-EfficientNet-B1 、 a-EfficientNet-B4和a-NAT-M4)在所有水平上都表现出超过基线ResNet 50的稳定增益(图10)3(e)),显示出良好的概念泛化能力。其中,为迁移学习量身定制的NAS模型-NAT-M4仅具有7.6M参数,在包括 IN-1 K在内的所有级别上都实现了特别令人印象深刻的性能。* 标签相关的增强技术恶化的概念泛化性能。虽然像r-MixUp、r-Manifold-MixUp、r-ReLabel和r-CutMix这样的方法在IN-1 K上表现出比ResNet 50更强的性能增益,也就是说,在训练中看到的概念,图。3(c)表明,这样的收益不转移时,推广到看不见的。他们似乎过拟合更多的看到的概念。* 对于概念泛化,总体上表现最好的模型是什么? 从图3(a)我们看到使用额外数据的更好和更大的架构和模型在L3-L5的顶部。然而,令人印象深刻的是,s-DINO是一种对比自监督模型,是顶级方法之一,在最具挑战性的水平上超过了绝大多数模型4.2.2模型适应未知概念的速度有多快?我们现在研究少镜头分类,即,训练线性分类器,每个概念具有N=2、4、8、16、32、64、128个样本。为了清楚起见,我们选择了模型的一个子集,并在图1中。4给出了它们在L1、L3和L5上的性能。补充材料中给出了所有模型和水平的完整结果集。我们讨论最有趣的观察图。4下面。* 基于转换器的模型是强大的少镜头学习器。基于变压器的模型表现出一致的增益,前1精度相对于ResNet50的准确度相对于ResNet50的准确度9636--≤≤ResNetTransformerNAS其他自我监督Web数据正则化◆ ResNet50► a-DeiT-S蒸馏水-DeiT-S-蒸馏a-EfficientNet-B4■ s-DINOd-夹子▲r-CutMixr-餐-v27065605550454035302 4 8 16 3264128所有每个概念的训练样本数(即,N)(a) L150−52 4 8 16 3264128所有(d)L160555045403530252 4 8 16 3264128所有(b) L350−52 4 8 16 3264128所有(e)L35550454035302520152 4 8 16 3264128所有(c)L550−52 4 8 16 3264128所有(f)L5图4:ImageNet-CoG上的少镜头线性分类。表1中列出的模型子集的前1位精度。1,在使用N=2、4、8、16、32、64、128个训练样本/概念在L1、L3、L5上训练逻辑回归分类器之后还示出了使用所有样品时的性能以供参考。(a)-(c):绝对top-1准确度。(d)-(f)相对于基线ResNet 50的准确度所有31个模型和水平的完整结果集在补充材料中。当N128时,所有级别上的ResNet50。 尽管当使用L5上的所有可用图像时,变压器的性能增益会减少,它们在N128的ResNet 50上表现出一致的3-4%的准确度增益(图1)。4(f))。* 模型蒸馏与神经结构搜索(NAS)在低数据状态下也表现出一致的增益。基于NAS的a-EfficientNet-B4模型在所有N的所有水平上都表现出比ResNet 50更高的性能。这同样代表蒸馏的r-MEAL-v2和a-DeiT-S-蒸馏物,其对于所有N和所有水平也始终优于* 更大的模型和额外的网络数据有助于少量学习。这是从扩展的一组图中观察到的(见补充材料)。更大的模型在低数据状态下具有一致的收益。这同样适用于具有额外Web数据的模型。此外,当我们讨论语义上不同的概念时,a-NAT-M4优于所有其他方法,它甚至挑战了更大的a-DeiT-B-distilled模型。5. 结论在本文中,我们通过我们新的ImageNet-CoG基准的镜头它被设计与IN-1 K预训练模型一起使用我们评估了一组不同的31种方法,代表了视觉表征学习的最新进展。我们的广泛分析表明,自监督学习产生的表示比具有相同数量参数的任何监督模型都我们看到,当前基于变压器的模型似乎过拟合所看到的概念,不像神经架构-基于搜索的模型。后者优于其他几个监督学习模型,参数少得多。我们还研究了模型通过学习每个类只有几张图像的分类器来适应看不见的概念的速度有多快。在这种情况下,我们验证了视觉变压器是强大的少数拍摄学习者,并显示蒸馏和神经架构搜索方法如何实现一致的收益,即使在低数据制度。我们设想ImageNet-CoG是一个易于使用的评估套件,以受控和原则性的方式研究泛化的最重要方面之一。鸣谢。这项工作得到了MIAI@Grenoble Alpes(ANR-19-P3 IA-0003)和ANR资助AVENUE(ANR-18-CE 23-0011)的部分支持。前1精度相对于ResNet50前1精度9637引用[1] Takuya Akiba、Shotaro Sano、Toshihiko Yanase、TakeruOhta和Masanori Koyama。Optuna:下一代超级参数优化框架。InProc. ICKDDM,2019. 5[2] 塔玛拉·伯格和亚历山大·伯格寻找标志性的图像。在Proc. CVPRW,2009年。3[3] Alexander Budanitsky和Graeme Hirst。基于wordnet的词汇语义相关性度量的评估。CL,32(1),2006. 4[4] 马蒂尔德·卡隆、彼得·博亚诺夫斯基、朱利安·麦拉尔和阿尔芒·儒林。非策展数据上图像特征的无监督预训练。InProc. ICCV,2019. 3[5] Mathilde Caron , Ishan Misra , Julien Mairal , PriyaGoyal,Piotr Bojanowski,and Armand Joulin.无监督学习视觉特征对比聚类分配。 在proc神经IPS,2020年。三五六[6] MathildeCaron,HugoTouvron,IshanMisra,Herve'Je'gou , Julien Mairal , Piotr Bojanowski , andArmand Joulin.自我监督视觉转换器中的新兴特性。arXiv预印本arXiv:2104.14294,2021。五、六[7] 陈婷,西蒙·科恩布里斯,穆罕默德·诺鲁齐和杰夫·弗雷·辛顿.视觉表征对比学习的一个简单框架。InProc.ICML,2020. 二三五六[8] Ting Chen , Simon Kornblith , Kevin Swersky ,Mohammad Norouzi,and Geoffrey Hinton.大型自监督模型是强半监督学习器。 在proc 神经IPS,2020年。三五六[9] Xinlei Chen,Haoqi Fan,Ross Girshick,and KaimingHe. 改 进 的 动 量 对 比 学 习 基 线 arXiv 预 印 本 arXiv :2003.04297,2020。五、六[10] Gabriela Csurka编辑计算机视觉应用中的领域自适应。计算机视觉与模式识别进展Springer,2017. 2[11] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi,and Li Fei-Fei.Imagenet:一个大规模的分层图像数据库。在Proc
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM动力电池数据管理系统源码及数据库详解
- R语言桑基图绘制与SCI图输入文件代码分析
- Linux下Sakagari Hurricane翻译工作:cpktools的使用教程
- prettybench: 让 Go 基准测试结果更易读
- Python官方文档查询库,提升开发效率与时间节约
- 基于Django的Python就业系统毕设源码
- 高并发下的SpringBoot与Nginx+Redis会话共享解决方案
- 构建问答游戏:Node.js与Express.js实战教程
- MATLAB在旅行商问题中的应用与优化方法研究
- OMAPL138 DSP平台UPP接口编程实践
- 杰克逊维尔非营利地基工程的VMS项目介绍
- 宠物猫企业网站模板PHP源码下载
- 52简易计算器源码解析与下载指南
- 探索Node.js v6.2.1 - 事件驱动的高性能Web服务器环境
- 找回WinSCP密码的神器:winscppasswd工具介绍
- xctools:解析Xcode命令行工具输出的Ruby库
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功