没有合适的资源?快使用搜索试试~ 我知道了~
874Grafit:使用粗糙标签HugoTouvron1,2Ale xandreSablayrolles1MatthijsDouze1MatthieuCord2Herve'Je'gou11Facebook AI Research2索邦大学摘要本文解决了学习比训练标签提供的更好的表示的问题。这使得细粒度的类别检索的图像在一个集合,lection注释与粗糙的标签。我们的网络是通过最近邻分类器目标学习的,并且受到自监督学习的启发,实例丢失。通过联合利用粗标签和底层的细粒度潜在空间,它显着提高了类别级检索方法的准确性我们的策略优于所有竞争的方法,重新检索或分类图像在一个更细的粒度比在训练时可用。它还提高了将学习任务转移到细粒度数据集的准确性。1. 介绍图像分类现在达到了满足许多应用需求的性能[27,37,54]。然而,在实践中,训练时可用的数据集和标签不一定与后续应用中所需的数据集和标签相对应[17]。训练时间概念的粒度可能不足以满足细粒度的下游任务。这鼓励了提供更精确表示的专门的分类器的发展。细粒度的分类数据集[29]已被开发用于特定领域,例如区分不同的植物[13]或鸟类[59]。收集具有细粒度标签的足够大的集合本身是困难的,因为它需要找到足够的稀有类的图像,并且精确地注释它们需要具有领域内专业知识的领域专家这一点可以通过Open Images构建注释协议[38]得到证明,该协议指出:出于这个原因,他们求助于计算机辅助注释,因为辅助算法有引入偏见的风险。为了避免这个问题,本文提出了一种策略,以获得强大的分类和图像检索性能。在训练时只使用粗糙标签来处理精细概念我们的工作利用了两种直觉。首先,为了改进图像标签提供的粒度,我们需要利用另一种为此,我们建立在最近的作品[3,62]的基础上,这些作品利用两个损失来解决图像分类和实例识别,利用同一实例的多个数据增强提供的第二个直觉是,即使在更细的粒度下分类时,也最好显式地推断粗糙的标签。为此,我们提出了一个简单的方法,利用粗分类器和图像嵌入,以提高细粒度的类别级检索。这种策略优于现有的工作,即在训练时利用粗糙的标签,但在检索更细粒度的概念时并不显式地依赖它们[61]。通过这些方式,我们的方法将数据收集过程从前面讨论的严格的细粒度分类为了验证我们的策略,我们调查了两个具有挑战性的用例:即时分类。对于这项任务,细粒度标签仅在测试时可用,并且我们使用非参数kNN分类器[61]进行动态分类,I.E.而不需要对细粒度标签进行训练。分类级检索。给定一个用粗标签注释的图像集合,如产品目录,我们的目标是根据它们与集合外的新查询图像的细粒度语义相似性对这些图像进行排名,如图1所示。我们认为,这个新任务比动态分类设置更好更现实总之,在这种从粗到精的表示学习的背景下,我们的论文做出了以下贡献:• 我们提出了Grafit,一种学习图像表示的方法灵感来自最近的自我-监督BYOL [25]实例学习方法,我们875粗精查询图片排名1排名2排名3排名4排名5排名6排名7排名8排名9排名10n.农村扁蚜拟扁尾蚜n.农村扁蚜n.农村扁蚜拟扁尾蚜n.农村扁蚜拟扁尾蚜拟扁尾蚜拟扁尾蚜n.农村扁蚜红腹扁拟扁尾蚜拟扁尾蚜Ursus红腹扁拟扁尾蚜拟扁尾蚜拟扁尾蚜拟扁尾蚜n.农村扁蚜拟扁尾蚜红腹扁拟扁尾蚜n.农村扁蚜拟扁尾蚜图1:类别级检索根据图像与查询的语义相似性对图像进行排序我们的Grafit方法虽然在训练时只使用无监督学习是这项任务的一个特殊情况,其中粗糙标签集被简化为一个单件。图片来源:[1]。仔细设计一个联合学习方案,该方案集成了基于实例和粗标签的分类损失。对于后者,我们采用了knn策略,但在训练时和测试时都采用了专门的过程来管理内存• 我们提出了两个原始用例来深入评估粗训练的细粒度测试评估,Grafit表现出出色的性能。例如,我们将ImageNet上的动态分类的前1名准确率提高了+16.3%这一改善仍是+9.5%相对湿度我们自己的更强的基线,否则一切都是平等的。Grafit还改进了迁移学习:我们的实验表明,我们的表示在更细的粒度上更好地区分。本文的组织结构如下。在回顾了第2节中的相关工作之后,我们在第3节中提出了我们的方法。第4节将我们的方法与各种数据集上的基线进行比较,并提出了广泛的消融。第五节是论文的结论。在补充材料中,Ap-pennsylvania A总结了两个实验,展示了实例级损失如何改善粒度,超过了普通交叉熵损失所学到的附录B用更详细的结果补充了我们的实验第4节。附录C提供了与不同级别的训练/测试粒度相关的可视化结果。2. 相关工作图像分类中的标签粒度。在计算机视觉中,粒度的概念是几个任务的基础,例如细粒度[13,29]或分层图像分类[18,60,65]。一些作者考虑了粒度的形式定义,例如参见Cui等人[15]。在我们的论文中,我们只考虑相对于其中每个粗类被划分为一组更细粒度的类。在一些关于分层图像分类的工作中[19,26,45,49],粗注释可用于所有训练图像,但只有训练图像的子集以细粒度标记。在本文中,我们考虑的情况下,没有罚款标签在所有的培训时间。Train-Test粒度差异。一些作品consider的情况下,测试时的标签比那些在训练时,每个罚款标签属于一个粗糙的标签。这个任务的方法是基于聚类[61]或迁移学习[33]。Huh等人[33]提出了这样一个问题:为了评估这一点,他们将1000个ImageNet类视为精细类,并将它们分为127个具有WordNet层次结构的粗糙类。Wu等人。[61]评估了CIFAR- 100 [36]的20个粗略类别,并将ImageNet细分为127个类别。他们评估了他们的方法,可扩展的邻域成分分析(SNCA),其中kNN分类器应用于从粗标签训练的网络中提取的特征。请注意,这项工作偏离了对象/类别发现的流行框架[11,21,32,57,58],这是完全无监督的。在我们的工作中,我们主要比较在训练时考虑粗糙标签的少数作品,因此SNCA [61]是我们的基线之一。我们采用他们的粗标签定义和评估过程中的飞行分类。类和实例的统一嵌入。类似于Wu et al.[61],几种距离度量学习(DML)方法,如磁铁损失[44]或ProxyNCA[40,51],共同考虑了类内和类间的变化性。Ambystoma皮尔古斯基线Grafit876这提高了迁移学习的性能,并在某些情况下有利于更精细的分层概念的出现。Berman等人提出了Multigrain[3],它只是向分类目标添加了一个三重损失,将同一图像的不同数据增强放在一起。最近的半监督学习[4,5,48,62,66,69]依赖于监督和自监督损失来从未标记的数据中获取信息。例如Xie et al.[62]类似于多颗粒,除了Kullback-Leibler发散取代了三重态损失。在不同的数据增强下匹配相同图像的嵌入是当前自监督学习工作的主要信号,我们现在讨论。无监督和自我监督学习。在非监督和自监督方法[9,10,22,25,34,56]中,模型是在未标记的数据上训练的。每个图像实例被认为是一个不同的类,该方法的目的是使嵌入的不同的数据增强的同一实例比其他图像更相似为了处理比标签提供的更精细的语义级别BYOL只需要成对的正元素(没有负元素),更具体地说是同一图像的不同增强。一个理想的结果是,这限制了矛盾的信号,图2:我们的方法在训练时间的说明。接收梯度的convnet主干是fθ,用于将目标网络fθ更新为移动平均值。邻居的数据库是通过平均嵌入在每个小批量与相应的嵌入在数据库中更新。可学习参数由向量θ表示。在BYOL中,我们将“目标网络”f θ定义不是学习的,而是计算为<$τ<$+(1−τ)θ,目标衰减率τ∈[0,1]。实 例 丢 失 。 每 个 图 像 x 通 过 T 个 数 据 增 强(t1,. . . ,tT)。表示cos余弦相似性和gθ(x)=Pθ(fθ(x)),实例损失为:在分类目标上。ΣLinst(x)= −cos.qθ<$gθ(ti(x)),g<$(tj(x))<$、迁移学习。迁移学习数据集[7,35,41]通常是细粒度的,并依赖于特征提取器预先,1≤i j≤TT(T−1)(一)在另一组课程上训练。 然而,精美的标签不是预训练标签的子集,因此我们认为迁移学习是我们从粗到精任务的推广。最好在与目标类似的域上进行预训练[16],例如,如果最终目标是区分鸟类物种,那么在iNaturalist [29]上进行预训练比在ImageNet上进行预训练更好。预训练粒度的影响在先前的工作中讨论[15,67]。在第4.6节中,我们研究了Grafit预训练在细粒度迁移学习数据集上的3. Grafit:适合更精细的粒度图2描述了我们在训练时的方法。在本节中,我们将讨论不同的组件和培训实例丢失允许网络在实例级别进行区分,这是比类级别更细的粒度我们在附录A中给出了更多关于这种损失的见解kNN损失。使用softmax的参数分类器产生的表示不会自然地推广到新的类别[61],并且不适用于kNN分类。因此,受邻域分量分析的启发[23,39,47],Wu etal.[61]提出损失函数直接优化kNN评估,我们采用并表示为Lknn。 设xi是具有粗标号yi的训练图像,σ是温度超参数。对于每个图像xi,我们选择xj(j=i)作为其邻居,概率为pi,j,计算如下:损失然后,我们详细介绍了我们如何产生类别级别的排名,以及我们如何执行动态分类。pi,jexp.Σcos(gθ(xi),gθ(xj))/σ,(2)Σ3.1. 训练程序:Grafit和Grafit FC我们首先介绍一个受BYOL启发的实例丢失[25],它有利于细粒度识别。格拉菲其中pi,j被归一化,使得损失的定义为:ΣLknn(xi,yi)= −logj=ipi,j=1。的pi,j.(三)模型包括一个主干网络fθ,我们向其添加两个多层感知器(MLP):一个在Grafit FC变体中,Pθ是线性的,以便与Wu等人[61]的投影仪进行更直接的公平比较的实例识别kNN分类器877j,yj=yi,j i我们在Pθ投影后进行了归一化。关于LKnn用公式3给所有班级打分。8782嵌入的记忆。 kNN方法的局限性之一是它需要使用训练集的所有特征为了避免重新计算训练集的所有嵌入,我们使用存储器M ={m1,. . . ,mi,. . . }中。它更新如下:当训练集中的图像xi在当前小批量中,我们将其嵌入mi更新为:mi← 1(mi+ gθ(xi))。为了限制所需的存储空间,我们在投影特征的空间上应用Lknn损失,这允许我们存储更小的存储空间。因此需要较少的内存。例如,对于ImageNet,我们必须存储120万张训练图像。如果不使用ResNet-50架构对fθ进行投影,则模型大小为2048 ×1。但在空间上的投影为size 256内存大小为256×1。2M是什么×8小。综合损失。我们的方法总结见图2。对于具有标签y的图像x,在训练时间的总损失为:Ltot(x)=Lknn(gθ(x),y)+Linst(x).(四)附录B的经验表明,不同的加权损失不会带来太大的差异。在测试时调整架构。训练参数包括模型权重(fθ,Pθ)和与Linst(fθ,Pθ和qθ)相关的参数,如前所述。在测试时,我们移除Linst分支,仅保留fθPθ。为了对所有的人都有一致的表示训练图像与最终的权重,我们重新计算mi=gθ(xi),并将其存储在M中。3.2. 类别级检索对于给定的测试图像x',任务是根据语义相关性对训练集合中的所有图像进行排序在我们的由粗到精的情况下,如果搜索结果与查询具有相同的精细标签,则认为它是正确的请注意,在这种情况下,我们依赖于这样一个事实,即我们搜索的集合是训练集,因此与集合相关联的粗略标签是已知的。在第4节中,我们通过实验证明,在从粗到细的上下文中,Cumarcond条件排名:Oracle。如果我们假设查询测试图像的粗糙标签是已知的(由预言机给出),那么我们可以设置pc(x′,y)=1y=y′,其中y′是测试图像x′的粗糙类。这归结为系统地将具有与测试图像相同的粗糙类别的图像放在排名的第一位。在实验上,这显示了测试标签预测对分数的影响,并提供了条件排名策略性能的上限。在实践中,它也与用户提供这种粗略标记的场景相关,例如通过从界面选择它。3.3. 即时分类在动态分类中,kNN分类器这种非参数分类不需要任何训练或微调。作为一个侧记,这个灵活的分类器可以处理不断变化的数据集的设置,包括动态添加新的类,尽管这样的设置超出了本文的范围。对于测试图像x,我们计算嵌入gθ(x),并将其与存储在M中的训练图像嵌入进行比较。我们选择k个嵌入,最大化与查询的余弦相似性,(x1,...,xk),具有标签(y1,...,yk)。与Wu et al.[61]与此同时,等式3中,我们应用指数递减的Neigh-Weighting加权来计算x属于类别y的概率,克基于余弦的排名。对图像进行排序的标准策略是计算gθ(x′),并对所有pkN N(x,y)<$exp(cos(gθ(x),gθ(xj))/σ). (六)j=1,yj =yΣ集合中的图像xi通过它们的余弦相似性对查询的scorecos(gθ(xi),gθ(x′))(gθ(xi)在M中预先计算)。第4节的实验表明,我们将概率标准化,4. 实验ypkNN(x,y)=1。Grafit嵌入的训练方式已经提高了用这种方法排名。以粗略预测为条件的排名。设x′为测试图像,x为具有粗糙类别y的训练图像。令pc(x,y)是图像x根据我们的分类器具有粗糙标签y的概率我们的条件得分Rankcond是嵌入相似性和粗略分类之间的折衷,其精神在于等式4中的损失我们考虑评估场景,其中以比训练标签提供的粒度更细的粒度进行学习是有益的前两个任务是从粗到精的任务(类别级检索和动态分类),我们在训练时测量网络在没有看到精细标签的情况下区分它们的能力。第三个协议是香草转移学习,我们从Imagenet转移到细粒度数据集。ωcond(x′,x)= cos(gθ(x′),gθ(x))+log. pc(x′,y)8791 −pc(x′,y) .4.1. 数据集和评价指标我们根据公共基准进行评估,(5)统计数据详见表1。880表1:用于不同任务的数据集。这四个顶级数据集提供了两个或更多级别的粒度,我们将它们用于所有从粗到细的任务。下面三个是用于评估迁移学习的细粒度数据集数据集训练规模测试规模#classesCIFAR-100 [36] 50,000 10,00020/100ImageNet [46] 1,281,167 50,000 127/1000iNaturalist 2018 [30] 437,513 24,426 6/.. . 8,142人iNaturalist 2019 [31] 265,240 3,003 6/.. . 1 010人鲜花-102 [41] 2,040 6,149 102斯坦福汽车[35] 8,144 8,041 196食品101 [7] 75,750 25,250 101CIFAR-100 [36]有100个类,分为20个粗概念,每个粗概念有5个细类。比如粗级大型食肉动物包括细级熊、豹、狮、虎和狼.在所有的实验中,我们使用粗糙的概念来训练我们的模型,并使用细粒度的标签来评估训练好的ImageNet [46]类遵循WordNet [20]层次结构。我们使用Huh等人[33]定义的127个粗略标签,以便与他们的方法进行直接比较。iNaturalist-2018提供了从最一般到最具体的7个粒度级别,遵循生物分类法:王国(6个类),门(25个类),类(57个类),秩序(272个类),家庭(1,118个类),属(4,401个类)和物种(8,142个类)。我们认为,sider对(粗,细)粒度水平在我们的实验。iNaturalist-2019与iNaturalist-2018类似,类别和图像更少,并得出类似的结论。Flowers-102、StanfordCars和Food 101是细粒度的基准,没有提供粗标签。因此,我们可以将它们用于迁移学习任务。评价指标。对于类别级检索,我们报告了平均精度(mAP),就像检索任务通常做的那样[2,42]。对于动态分类,我们报告前1的准确性。4.2. 基线我们使用现有的基线并引入更强的基线:WuHuh等人[33]评估了在127个ImageNet粗类上训练的网络如何在1000个精细标签上传输。1他们用精细的标签微调线性分类器。我们没有在本文的主体中考虑这项任务,但请参考附录B.2:我们的方法在这种情况下也提供了显着的改进。表 2 : 从 粗 到 细 : 与 ResNet 50 架 构 的 类 别 级 检 索(mAP,%)和kNN分类(top-1,%)的最新技术水平比较。 我们将Grafit与[61]这是最先进的技术,也是我们更强大的基线。我们突出显示使用更多参数的方法(32.9M vs 123.5M),详细信息请参见表5。方法CIFAR-100 ImageNet-1kkNN mAPkNN mAP基线,Wu等人[第六十一届]54.248.1SNCA,Wu等人[第六十一届]62.352.8基线(我们的)71.842.554.722.7企业简介72.523.059.512.7SNCA+72.235.955.4三十一点八格拉菲特足球俱乐部75.655.069.144.4Grafit77.755.769.1四十二点九我们的主要基线:我们学习一个具有交叉熵损失的网络,并使用模型主干产生的KNN2归一化嵌入执行检索或kNN分类。我们指出,由于我们从最近的作品中借鉴了强大的优化策略[28,50],这个基线本身在几个设置中优于所有已发布的结果,例如我们的ResNet-50基线没有额外的训练数据,在ImageNet上优于在YFCC100 M上预先训练的ResNet-50 [66](参见附录B中的表12进行比较)。SNCA。Wu等人。[61]提出了SNCA,一种使用kNN损失优化的模型。在我们的实现中,当训练监督损失Lknn时,我们将线性算子Pθ添加到网络干线fθ。SNCA+。我们改进SNCA与我们更强的优化过程。检索或kNN评估使用来自MLP的特征而不是简单的线性投影仪,这意味着其参数数量与Grafit相当(并且大于Grafit FC)。智能健身+。 与SNCA相同,我们改进了Cluster-用我 们 的 训 练 过 程 拟 合 [67] , 并 交 叉 验 证 聚 类 数(Imagenet为15000,CIFAR-100为1500)。因此,我们提高了它的性能,并有一个公平的比较,一切都是平等的,否则。4.3. 实验细节建筑。大多数实验都使用ResNet-50架构[27]进行,除了第4.6节,我们还使用RegNet [43]和ResNeXt [64]。培训设置。我们的训练过程借鉴了技巧包[28]:我们使用带有Nesterov动量和余弦学习率衰减的SGD。我们跟随Goyal et881Grafit基线SNCA+企业简介rFit+克吕斯特eGrafit基线SNCA+25690表3:不同seman-95的iNaturalist-2018上的kNN评价抽搐水平。符号“0”表示无监督情况(唯一的60类)。 根据5085表2.40803075207065107060805060403040202010表 4 : iNaturalist- 2018 上 不 同 语 义 水 平 的 类 别 检 索 评 价(mAP,%)。我们根据表2与最佳基线进行比较。火车→↓Test / #classes→王国6门25第五十七类第272号命令家庭1118属4,401物种8,142SNCA+王国97.683.375.959.256.054.955.0动物门59.891.779.449.135.032.332.2类41.373.189.949.228.123.623.0秩序9.0924.935.777.935.318.015.0家庭2.246.4311.235.768.429.121.7属0.392.475.0318.136.660.546.0物种0.191.863.8012.826.446.054.9Grafit王国98.688.379.760.858.055.955.5动物门67.897.282.150.938.934.233.0类50.174.995.451.232.325.924.1秩序17.730.742.788.342.321.116.2家庭8.7013.218.043.983.134.824.2属6.789.7213.529.046.977.253.9物种6.459.0212.123.635.655.470.0al.“s [24]学习率幅度的建议:lr =0。1×批量。数据增强包 括 随 机 调 整 大 小 的 裁 剪 , RandAugment [14] 和Erasing [70]。我们训练了600个epoch,使用分辨率为224×224 像 素 的 1024 张 图 像 ( 除 了 CIFAR-100 :32×32)。我们将温度σ设为0。在我们所有的实验中,owing Wu et al. [61].附录B.1给出了更多细节。对于动态分类任务,在k∈ {10,15,20,25,30}中交叉验证唯一超参数k。4.4. 由粗到精的实验CIFAR和ImageNet实验。表2比较了Grafit从粗略到精细任务的结果与第4.2节中的基线。在CIFAR-100上,Grafit的top-1准确率超过其他方法+5.5%在ImageNet上,相对于其他方法的增益为+13.7%。Grafit在类别级检索方面也优于其他方法,在CIFAR上为13.2%,在ImageNet上为11.1%表2显示Grafit不仅提供了更好的动态分类(如通过kNN度量评估的),而且排名列表与查询更相关(mAP的结果)。图3:iNaturalist-2018 [30]上的评价,左:train=测试粒度右:最细粒度 测试(物种)。我 们比较了我们的 方法Grafit,SNCA+,QuantiterFit+和Basel-line. 顶部:动态kNN分类(前1精度);底部:类别级检索(mAP)。从 粗 到 细 , 具 有 不 同 的 分 类 等 级 。 我 们 通 过 在iNaturalist- 2018的每个注释级别上训练一个模型,并使用kNN分类(表3)和检索(表4)在所有级别上进行评估,来展示Grafit的各种粗粒度级别。图3展示了两种最有趣的情况下的检索和kNN分类结果:当训练和测试粒度相同时(左),以及在训练时粒度不同的最精细测试级别(物种)上(右)。在左侧,所有方法的准确性随着粒度的增加而降低:这是随着任务从粗分类移动到细分类而预期的,因为更难以在大量类别之间进行区分我们观察到,与其他方法相比,Grafit的性能下降的类别级检索减少在右图中,所有方法的准确性随着注释水平的增加而增加(保持物种的评估Grafit在这方面也很突出优于其他方法。我们在补充材料(附录B.3)中报告了Grafit的综合结果和iNaturalist-2019 2018第4.2节的基线。视觉化。图1显示了使用Grafit执行类别级检索任务的可视化结果。基线和Grafit的所有结果都具有正确的粗糙标签,但我们的方法在更细的粒度上更好。在附录C中,我们展示了当训练时的粒度级别更粗时,改进更加明显。图4显示了潜在的Grafit基线SNCA+企业简介格拉菲基地t线SNCA +火车→↓Test / #classes→∅1王国6门25第五十七第272号家庭1118属4,401物种8,142企业简介王国70.994.795.095.395.696.296.396.1动物门48.887.490.390.791.192.692.692.2类40.480.283.885.786.788.888.888.2秩序17.154.559.061.470.873.974.372.3家庭5.638.342.144.454.363.064.261.9属0.926.729.531.540.149.453.951.7物种0.321.823.725.232.740.344.743.4Grafit王国95.598.198.298.298.298.298.498.3动物门90.094.196.696.796.896.796.996.7类82.287.590.994.594.994.995.095.0秩序54.061.766.972.787.187.587.687.3家庭33.742.148.755.170.981.882.482.1属20.527.033.539.554.264.675.675.5物种15.920.425.530.842.751.261.967.7882Train granularity:FamilyTrain granularity:Genus图4:t-SNE表示来自Paridae家族图 像 的 特 征 , 重 点 是Escherichiophus属(蓝色)。当使用粒度Family训练时,所有描绘的点都具有相同的粗糙标签,而粒度Genus意味着网络已经看到7个不同的标签。在视觉上,Grafit提供了比基线更好的图像分离w.r.t. 两个最高级别Paridae:红冠蝠属黑冠蝠蓝冠鱼马鲛属西蒂帕鲁斯与基线和Grafit相关联的空间,用于与iNaturalist-2018的子层次结构相关联的图像。4.5. 消融研究损失,建筑选择和条件。表5给出了对CIFAR-100和ImageNet-1 k的研究,其中我们消除了我们方法的几个组件。一个很大的改进源于实例损失时,它补充监督kNN损失。这是在更细的颗粒上进行区分的关键。类别级检索显著受益于我们的方法,在最好的情况下从22.7%上升到44.4%。粗调也对性能有一致的可测量影响,在各种设置中产生约3健全性检查:使用粗标签与细标签进行训练。Ta-表6比较了当使用粗标签与细标签进行训练时几种方法的性能差距。Grafit相对于Imagenet上的竞争方法的性能改进是相当可观的:通过微调,具有粗糙标签的Grafit几乎与精细标签的基线相当。对于动态分类,具有粗糙标签的Grafit达到69。Imagenet上的1%性能,显著下降-使用细粒度标签设置来增加间隙kNN分类性能为79。百分之三这与我们之前在第4.4节中对iNaturalist-2018的观察一致。总的来说,在这种情况下,Grafit提供了一些轻微但系统性的改善。Grafit采用ResNet- 50架构,图像分辨率为224×224像素,在Im上使用kNN分类器达到79.6%的ageNet,这是与经典的交叉熵为该架构发布的结果。有关比较(表12)和Imagenet上的更多结果,请参见附录B。4.6. 将学习转移到细粒度数据集我们现在评估Grafit在细粒度数据集上的迁移学习(见表2),使用ImageNet预训练。设置. 我们使用ImageNet预训练的权重初始化网络主干并微调模型。对于我们的方法,网络主干fθ保持固定,投影Pθ被丢弃。对于所有方法,我们在240个历元期间进行微调,余弦学习率计划从0.01开始,批量为512张图像(详见附录B.4)。Grafit基线883表5:CIFAR-100和具有ResNet 50架构的ImageNet上的消融研究。我们报告了即时分类(kNN分类器,前1名准确率,%)和类别级检索(mAP,%)的结果。突出显示了与本文讨论的主要基线和方法相对应的行:我们的基线和改进的SNCA+为灰色和红色,我们的两个变种Grafit-FC和Grafit蓝色。最后一行是Grafit通过完美的粗分类获得表7:不同预训练方法的迁移学习性能比较。所有方法都使用在Imagenet上预训练的ResNet-50训练程序是相同的(除了重新-[67]第67话我们报告了分辨率为224×224的单中心作物评估的前1精度(%)。其他结构的其他结果见附录B.4的表15表6:我们在ImageNet上比较了粗到细和细到细的上下文与mAP(%),kNN(top-1,%)和微调(FT)与精细标签(top-1,%)。表8:使用预训练的ImageNet-1 k模型进行迁移学习的最新技术水平。我们报告的前1位精度(%)与一个单一的中心作物 。 对 于 Grafit , 我 们 使 用 39 M 参 数 的 RegNetY- 8.0GF[43],分辨率为384×384像素,比高效NetB7推理。像素方法列车粗调(with ResNet50)mAP kNN FT列车罚款mAP kNN FT分类器我们使用两种类型的分类器进行实验:标准线性分类器(FC)和多层感知器(MLP),该多层感知器由两个线性层组成,由批量归一化和ReLU激活分开。我们引入这个MLP是因为在训练过程中,Grafit和SNCA+都使用了MLP投影仪,因此它们的特征空间不会被学习为线性可分的。相反,基线是用与线性分类器相关联的交叉熵损失来任务我们对五种经典的迁移学习标 记 . 请 注 意 , 这 种 架 构 比 其 他 文 章 中 使 用 的EfficientNet-B7和ResNet-152要快得多,并且我们在大多数设置中使用较低的分辨率。在表8中,我们考虑了在ImageNet上预训练的模型,并在细粒度目标数据集上进行了微调。在每种情况下,我们报告的结果与Grafit(与MLP的投影机Pθ)和Grafit FC。更多详细结果见附录B表16。总之,Grafit建立了最新的技术水平。我们指出,我们在所有数据集上使用了一致的训练方案,并且使用了比竞争方法更有效的单一架构。数据集:Oxford Flowers-102 [41],Stanford Cars [35],Food 101 [7],iNaturalist 2018 [30] 2019 [31]。表1总结了与每个数据集相关的一些统计数据。结果表7比较了在Im-ageNet上预训练的ResNet-50与Grafit,SNCA+,MatterFit [67]以及我们在五个迁移学习基准上的基线。我们的方法优于所有方法。该表还显示了SNCA+相对强劲的表现。表8比较了Grafit与RegNetY-8.0GF [43]架构与最新技术水平,在相同的工作台上-5. 结论本文介绍了一个学习神经网络的过程,该过程提供了比注释提供的粒度更细的粒度。它提高了粗注释集合中细粒度类别检索的性能。对于动态kNN分类,Grafit显著减少了与使用精细标签训练的网络的差距。它还转化为更好的迁移学习到细粒度数据集,通过更高效的网络超越当前的最新技术水平。损失knn头粗CIFAR100ImageNet数据集花-102斯坦福汽车Food 101iNaturalist 2018iNaturalist 201996.290.088.968.473.796.298.297.689.4 92.592.788.9 88.889.588.749.7 67.5 69.269.868.573.8 74.5 75.9基线最佳报告结果(%)数据集花-102斯坦福汽车Food 101iNaturalist 2018iNaturalist 2019现有技术[50]第五十话[50]第五十话[50]第五十话ResNet-152 [12]–Grafit#Params Res Top-1Top-164M 600 98.899.164M 60094.7 94.764M 600 93.093.760男224 69.181.2–企业简介[第六十企业简介SNCA+Grafit格拉菲特足球俱乐部LCE Lknn Linst 项目Pθcond.KNN 地图KNN 地图#参数✓✓ ✓✓✓ ✓✓FC✓中国足球俱乐部澳门足球会七十一点八42.5五十四点七22.723.5M71.843.154.724.423.5M54.314.341.73.4723.5M76.951.065.026.023.5M70.039.757.830.723.8M75.653.669.141.723.8M七十五点六55.069.144.423.8MMLP七十二点二35.9五十五点四31.832.9M✓MLP✓72.241.455.432.932.9M✓MLP77.752.969.139.432.9M中国MLP✓七十七点七55.769.142.932.9M基线22.754.778.151.578.079.3SNCA+31.855.477.972.079.177.4格拉菲特足球俱乐部44.469.178.372.479.278.5Grafit42.969.177.971.279.678.0884引用[1] 作者:图1图像的版权来自inaturalist-2018,从上到下,从 左 到 右 , 用 于 研 究 工 作 的 说 明 。 Diana-TerryHibbitts:CC BY-NC 4.0,Ronald Werson:CC BY-NC-ND 4.0 , Greg Lasley : CC BY-NC 4.0 , RobinAgarwal : CC BY-NC 4.0 , Stefano Tito : CC BY-NC4.0,MarionZ?ller :CCB Y-NC4.0,Ste f anoTito:CCBY-NC 4.0 , Ronald Werson : CC BY-NC-ND 4.0 ,Ronald Werson:CC BY-NC-ND 4.0,Donna Pomeroy:CC BY-NC 4.0 , Chris van Swaay : CC BY-NC 4.0 ,Donna Pomeroy:CC BY-NC 4.0,Giuseppe Cagnetta:CC BY-NC 4.0 , Chris van Swaay : CC BY-NC 4.0 ,martinswarren :CC BY-NC 4.0,Donna Pomeroy:CCBY-NC 4.0,Robin Agarwal:CC BY-NC 4.0,Fernandode Juana:CC BY-NC 4.0,Giuseppe Cagnetta:CC BY-NC 4.0,Ronald Werson:CC BY-NC-ND 4.0,MarionZoüller : CCB Y-NC4.0 , martins w arren : CCBY-NC4.0 , Ronald Werson : CC BY-NC-ND 4.0 , DonnaPomeroy:CC BY-NC 4.0,Donna Pomeroy:CC BY-NC4.0,MarionZoüller :CCB Y-NC4.0,martins w arren:CCBY-NC4.0,注=访问日期:2020-06-10。[2] Artem Babenko、Anton Slesarev、Alexander Chigorin和Victor S.Lempitsky。图像检索的神经代码arXiv预印本arXiv:1404.1777,2014年。[12] P. Chu,Xiao Bian,Shaopeng Liu,and Haibin Ling.长尾 数 据 的 特 征 空 间 扩 充 。 arXiv 预 印 本 arXiv :2008.03673,2020。[13] Tan Kiat Chuan,Liu Yulong,Ambrose Barbara,TuligMelissa , and Belongie Serge.Herbarium Challenge 2019数据集arXiv预印本arXiv:1906.05372,2019。[14] Ekin D. Cubuk,Barret Zoph,Jonathy Shlens,and QuocV. Le. Randaugment:实用的自动数据扩充,减少搜索空间。arXiv预印本arXiv:1909.13719,2019。[15] Yin Cui,Zeqi Gu,Dhruv Kumar Mahajan,Laurens vander Maaten,Serge J. Belongie,an
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM动力电池数据管理系统源码及数据库详解
- R语言桑基图绘制与SCI图输入文件代码分析
- Linux下Sakagari Hurricane翻译工作:cpktools的使用教程
- prettybench: 让 Go 基准测试结果更易读
- Python官方文档查询库,提升开发效率与时间节约
- 基于Django的Python就业系统毕设源码
- 高并发下的SpringBoot与Nginx+Redis会话共享解决方案
- 构建问答游戏:Node.js与Express.js实战教程
- MATLAB在旅行商问题中的应用与优化方法研究
- OMAPL138 DSP平台UPP接口编程实践
- 杰克逊维尔非营利地基工程的VMS项目介绍
- 宠物猫企业网站模板PHP源码下载
- 52简易计算器源码解析与下载指南
- 探索Node.js v6.2.1 - 事件驱动的高性能Web服务器环境
- 找回WinSCP密码的神器:winscppasswd工具介绍
- xctools:解析Xcode命令行工具输出的Ruby库
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功