没有合适的资源?快使用搜索试试~ 我知道了~
10583(c)组合空间关注积极因素:生物多样性监测的自我监督学习GabrielJ.Brostow1,2Kate E.琼斯1OisinMacAodha31伦敦大学学院2Niantic3爱丁堡大学www.github.com/omipan/camera_traps_self_supervised摘要我们解决的问题,学习自我监督的代表,从未标记的图像集合。与现有的方法,试图通过最大化每个输入图像的增强版本之间的相似性或通过推测性地挑选负样本来学习有用的功能不同,我们还利用了使用静态监控相机捕获的图像集合为了实现这一点,我们利用现成的上下文数据,编码信息,如输入图像之间的空间和时间关系。我们能够通过首先在训练时识别高概率的正对,即,学习对于下游监督分类令人惊讶地有效的表示。这些图像可能描绘相同的视觉概念。对于全球生物多样性监测的关键任务我们提出了四个不同的相机陷阱图像集合的结果,在三个不同的家庭的自监督学习方法,并表明,仔细的图像选择在训练时的结果优越的性能相比,现有的基线,如传统的自监督训练和迁移学习。1. 介绍在训练时不需要明确的语义监督的情况下学习视觉数据的可转移表示是计算机视觉中的一个重要且开放的问题。这方面的最新进展令人印象深刻,导致自监督方法能够学习接近的特征,在某些情况下甚至超越了在一系列下游任务中完全监督的对应物[22,17]。由于不能访问任何语义监督(例如离散类别标签(在图像分类的情况下),当前最佳执行的自监督方法通常使用积极的图像增强策略来在训练期间生成输入图像的不同“视图”[ 57,26,10,23,11 ]。的(a) 图像空间(b)上下文空间图1. (a)传统的自监督方法能够在图像嵌入空间中使视觉上相似的示例更接近。(b)通常存在丰富的上下文信息(例如,在何处以及何时捕获图像进行编码),这也可以传达相似性。(c)通过结合两个信号的互补性质,我们可以提高最终嵌入空间的质量。训练时间目标则包括在特征空间中将同一图像的这些不同使用这些手动设计的图像增强策略来生成合理的图像变化的能力则将在自监督学习(SSL)的进一步发展中表现为限制因素。当前最先进的自监督方法主要是使用最初为监督学习构建的图像集合来设计的,例如[15、62]。这需要探索不同的增强策略以在训练期间引入外观变化。然而,要使用的更自然的信号是利用在时间和空间上接近的图像观察很可能包含相同对象实例的事实。这种形式的自然变化已用于从视频[43,38,39]或空间分布图像集合[28,3]的自我监督学习更一般地,除了其他线索之外,可以想到不仅可以访问训练时间的图像集合,而且还可以访问与每个图像被捕获的时间和地点有关的潜在丰富的上下文信息。10584我们在本文中解决的中心问题是如何在自监督学习过程中利用这些上下文信息来选择更有用和更多样的图像对。目的是为自监督算法提供我们评估了几种不同的方法,并显示,也许令人惊讶的是,图像的选择有更多的性能比基本的自我监督算法的影响。我们的分析适用于任何试图最大化同一视觉概念的两个“视图”之间的相似性的自监督方法我们把我们的评估集中在使用相机陷阱捕获的图像集合上-也称为“野生相机”或“跟踪相机”。这些类型的图像通常用于生物多样性监测[58,35,6,48,7,21]。与计算机视觉社区通常使用的更传统的图像数据集不同,相机陷阱图像表现出一些有趣的特性,使它们特别适合于评估自监督学习:(i)相机陷阱图像不是由人类直接捕获的,而是基于附近动物的接近度自动触发相机。这克服了在ImageNet [ 15 ]或iNaturalist[52,51]等数据集中普遍存在的它们还包含其他挑战,例如由于遮挡而导致的对象的部分描绘,显著的场景照明变化以及强对象和位置相关性[6];(ii)图像通常在短时间突发中捕获,并且以一天中的时间,一年中的时间和位置的形式提供丰富的上下文数据该信息可以提供关于在给定位置可能存在什么动物物种的有用线索;(iii)保守估计是,全球部署了数万个始终活跃的相机[46],这使得生态学家和保护生物学家需要进行大量繁琐的工作来手动注释传入的图像或校正由自动生成的分类器预测所产生的错误。来自自监督学习的信息丰富的图像特征可以显著减少这种手动工作,并且有可能成为帮助可扩展的全球生物多样性监测的关键任务的重要工具我们做出以下三项贡献:1. 我们在四个具有挑战性的相机陷阱数据集上探索了自监督学习的好处。我们观察到,与广泛采用的迁移学习基线相比,自监督特征在下游分类方面平均更有效。2. 我们表明,在自监督训练过程中如何选择来自这些数据集的图像对学习特征的质量有更大的影响,而不是选择所使用的底层自监督训练损失。3. 虽然负图像对在自监督学习中的作用受到了极大的关注,但我们发现,目前的方法对训练过程中错误选择的正图像对具有惊人的鲁棒性。这为未来自监督方法的设计提供了重要的见解2. 相关工作2.1. 自我监督学习从视觉数据中进行自监督学习(SSL)的目标是学习一个可以提取语义上有意义的图像表示的函数,而无需在训练时进行任何语义注释。直到最近,视觉领域SSL研究的主要焦点集中在设计代理任务上,当在训练时解决这些任务时,将为下游迁移学习带来有用的功能。方法的示例包括视觉解谜[34]、图像着色[60,61]、图像修复[37]和图像旋转预测[20],仅举几例。最近出现了基于对比的方法的兴奋[25,24,36]。对比方法不需要复杂的代理任务,而是通过在特征空间中将正图像对彼此靠近,同时将负图像对彼此远离来学习特征。给定语义信息[42,30],可以基于对象类别标签或某种其他形式的语义监督来定义正对和负对。但是,对于SSL,此信息不可用。因此,当前最常见的解决方案是使用随机变换[16]人为地增强图像具体地,正对是相同图像的不同增强版本,而负对是任何两个不同图像的增强版本。假设是所选择的增强空间保留语义内容,同时引入特征提取器将通过不变性学习容忍的噪声。基于对比度的方法需要负片图像对,并且已经提出了各种策略来确保有用的负片(即,负片)被用于图像的处理。硬负片)在训练期间被选择。 确保选择挑战性否定的常见策略包括非参数存储库[57,63]、动量编码器[26]、辅助模态[50]、局部区域而不是全图像推理[36,4]、在线学习数据原型[9]或简单地使用大批量进行训练[10]。这个领域的工作正在快速增长,请参阅[41]的概述。传统的基于对比的方法所做的典型假设之一是,在构建否定10585∈X配对的问题是,来自同一批次或来自非参数存储器的随机采样图像不描绘相同的语义内容。然而,在实践中,这个假设经常被违反,并且因此在训练期间导致大量的假阴性对。最近的研究[14]已经通过报告在存在Oracle的情况下的性能增益(即,GroundTruth)负标签,并提出了一种无监督负采样技术,其通过校正引入的误差来部分地改善性能。另一项研究[40]也观察到了SSL期间硬负片的重要性,并引入了一种用户可控的硬负片采样方法,该方法在均匀采样的基线上有所改进。[29]表明,有效的SSL需要硬否定,并提出了一种受[59]启发的无监督特征空间混合方法,以生成具有挑战性的训练示例。考虑到与有效负样本选择相关联的上述障碍,最近已经尝试在SSL期间放弃对负图像对的需要。一组方法涉及在训练期间使用额外的基于正预测的网络[23]或层[11]。这些方法与对比方法竞争,并且具有不需要大批量的额外益处,鉴于这种对负像的依赖性降低,我们将注意力转向正像对的作用。我们表明,也许并不奇怪,有一个大的性能差距之间的标准SSL方法和oracle基线(即。给定地面真值标签)。通过利用上下文信息,我们可以选择与标准增强相比表现出更多视觉多样性的正对,从而改善下游性能。2.2. 上下文感知分类虽然存在显著的例外,但在大多数情况下,计算机视觉社区主要集中在使用基准图像数据集,这些基准图像数据集缺乏图像本身及其任务特定的监督注释之外的附加数据,例如,图像数据集。[15,32]。与从网络上抓取的图像相反,在野外获取的图像通常带有有价值的元数据,对图像的拍摄地点和时间以及其他潜在有价值的线索进行编码。我们广泛地将这种自由的弱监督称为上下文数据。在许多情况下,特定的视觉概念只能通过知道图像在哪里被捕获来消除歧义。例如,在物种识别的情况下,一些类别可能仅在图像位置在测试时间已知时才被正确分类。现有的监督工作已经探索了通过非参数密度估计来使用这种地理背景来对对象类别的空间分布进行建模[8]。其他人使用具有集成地理编码层的深度网络[49,13],或对对象进行推理的因子分解模型潜在特征空间中的空间分布[33]。前面提到的方法都是有监督的,但是地理上的接近也被成功地用作SSL的信号。在从航空图像进行表示学习的情况下,最近的分析[3,28]假设地理上靠近的位置与更远的位置相比,其潜在特征应该更相似,并表明这会导致更好的图像特征。另一种形式的容易获得的上下文信息是时间线索。对于短暂的时间变化(例如视频中的邻近帧),观察到的原始像素数据可能在帧与帧之间变化很大,但通常可以合理地假设观察到的潜在内容变化更慢[55]。附近帧包含相同对象实例的假设先前已通过在测试时间合并来自附近时间步长的预测而在相机陷阱图像中成功地利用[6]。长距离时间推理也是监督视频分析的常见组成部分[56,18],但如果没有监督,利用此信息更具挑战性最近,结合空间(在图像空间中)和时间推理被证明对于静态相机陷阱中的对象检测问题是有效的[7]。 通过利用对象(即人或动物)可能在同一位置随时间表现出类似的行为,所提出的基于注意力的机制能够使用该信号来改善在测试时间的检测性能,其中没有监督可用。然而,以边界框和地面实况类别标签的形式进行的监督仍然存在。在训练时间要求。已经针对视频中的SSL提出了几种方法,包括将学习问题作为预测任务,例如预测未来事件[45],预测运动和外观统计[53],预测序列顺序[19,31],以及对比学习[39]。虽然我们使用的相机陷阱数据集与视频数据集相关,因为它们还包含一些时间信息,但帧不是随时间均匀采样的,而是相机是场景中基于相机的事件。在这项工作中,我们评估不同的机制,选择积极的图像对在SSL。我们还提出了一种基于上下文的图像选择方法,用于在训练时选择高概率的正对,以学习更有效的自监督视觉特征。为了实现这一点,我们利用空间和时间的背景下,在一个unsupervised的方式。3. 方法在自监督视觉表示学习中,我们假设我们有一组图像x i在训练时间,但是不能访问任何相关联的地面实况监督,例如对象类别标签。我们的目标是学习一个特征提取器f的参数,这样当我们应用10586̸我我∈B源图像背景积极因素标准对上下文对相似性图2. 概述我们的方法。常规SSL通常生成输入源图像的增强对。然后将其传递给模型(右侧)。相反,我们主张基于它们的上下文相似性(例如,在空间或时间上),产生更多变化的和有用的图像对,其产生更多信息的视觉表示。在图像xi上的网络,我们获得了一个可用于下游任务的特征向量。或者,我们也可能希望以端到端的方式微调特征提取器,并在假设这将比随机初始化参数更好的初始化的情况下进行额外的在图像的情况下,特征提取器f可以被参数化为深度卷积神经网络,例如[27]第二十七话为了克服训练时缺乏监督的问题,许多最近的方法依赖于基于增强的SSL的变体,试图从原始图像数据中学习表达特征具体地,标准流水线涉及获取源图像X1并对图像执行两组合成增强(例如,裁剪、翻转、颜色抖动等) 以创建源图像(x~i,x~p)的两个备选“视图”。 参见[10]的代表性增强。我们将这两个图像称为正增广对。增强的目标是引入视觉多样性,同时理想地保留源图像中包含的底层语义信息。 在自监督训练期间,学习算法尝试将正图像对在特征空间中彼此靠近。直觉是,我们想要学习一个特征提取器f,它将包含相同视觉概念的图像投影到特征空间中的相似区域。稍后,我们描述了用于选择不同的阳性对的不同方法。我们的管道概述如图2所示。3.1. 自我监督损失彼此远离这里,“负”对是从两个不同的图像(x ~ i,x~ n)得到的对,其中i = n。 在基于三元组的学习语言中,我们希望锚z i和正z p之间的距离小于锚和负zn之间的距离。三重态损失定义为LT= max(D(zi,zp)-D(zi,zn)+m,0),(1)其中m是表示期望的损耗裕度的标量,并且D(. )是适当的距离函数,例如欧氏距离或负余弦相似度。三重态损失需要正电子对,关键是需要负电子对。对于SSL,我们可以通过图像增强生成正对虽然不常用于SSL,后来我们表明,三重态损失是令人惊讶的有效相比,最近的方法。SimCLR[10]。基于相关方法[44,57],SimCLR的核心是使用归一化的基于温度的softmax交叉熵损失。与三重态损失一样,目的是最小化正对距离,同时最大化负对距离。然而,与三重损失不同的是,在三重损失中,我们为每个正对选择一个负对,在这里我们选择一组负对。与维护包含整个训练集的嵌入的内存库以从[57]中选择否定的方法不同,SimCLR只是使用大的训练批次并从同一批次中对每个源实例的 的在[10]中使用的一组项目B上的损失定义为在这里,我们概述了SSL的三种主要方法作为我们实验评估的基础。每种方法的共同之处在于它们都采用要素的输出L S= −log。Σexp(−D(zi,zp)/τ)1[nΣ,(2)提取器f,并将其通过投影网络g,从而得到较低维嵌入向量zi=g(f(x~i))。这种投影网络通常表示为完全连接的多层神经网络[10]。三重[54,42]。传统的基于三元组的余量损失旨在推动正嵌入对(zi,zip)彼此靠近,同时也推动负嵌入对(zi,zin)彼此靠近。其中τ是用于控制距离的尺度的温度参数,并且1[ni]确保嵌入向量不与其自身进行比较重要的是,这里源-正对也是分母中的和的一部分,以确保损失被正确地归一化,即p.SimSiam[11]. SimSiam 是 一 种 非 对 比 的 自 我 监 督 方法,在前两种损失上进行了创新n∈Bi]exp(−D(zi,zn)/τ)10587我Σ̸̸我∼p我J通过在训练期间消除对负对的需要。这是一个重要的简化,因为如前所述,为SSL选择适当的阴性样本具有挑战性。[11]引入了一个额外的全连接网络h,称为预测网络。该网络的目标是预测输入对中另一图像的嵌入向量。为了避免在没有负面示例的情况下崩溃到退化解决方案,SimSiam在预测网络中应用瓶颈结构和停止梯度操作[23],以防止信息通过输入对中给定图像的投影和特征网络回流在训练过程中,目标是使用以下对称损失最大化嵌入向量zi和预测h(zp)序列阳性。给定顺序输入数据,例如视频或帧突发,一种策略是基于它们在时间上的接近度来选择正对。在这里,如果图像来自相同的位置,并且彼此在指定的帧数或时间单位内,则我们将图像选择为成对。我们还确保可以选择源图像本身。与常规的基于图像的增强相比,这具有引入更自然的视觉多样性的优点。这种方法的缺点是,当决定什么构成潜在的正对时,必须致力于帧的数量或时间单位基于上下文的选择。在许多真实世界数据集(例如,相机陷阱)中,可以存在广告中可用的额外信息LM= 12D(h(zi),sg(zp))+1D(h(z p),sg(zi)).(三)2添加到原始图像。我们可以假设每个图像xi与K维上下文向量ci相关联。 这这里,sg表示停止梯度的应用。尽管不需要任何负像对,但SimSiam与对比方法相比仍具有竞争力,即使使用更适度的批量[11]。3.2. 选择正图像对由三个先前的自我监督方法共享的一个共同点是,它们各自需要积极的自我监督。训练期间的年龄对,即(x,x)。 如果只看图像,向量可以包括信息,诸如图像的地理位置、日期、一天中的时间、图像的像素坐标(即,它可以从较大的图像中裁剪)等。代替必须为这些不同维度中的每一个指定阈值,更简单的方法是定义对i和j之间的距离度量,”。ΣKk=1Dc(ci,cj)=,(ck-ck)2.(四)如何创造这些积极的选择是有限的,对.然而,当额外的信息,如时间或地点是可用的,这打开了大门,以替代当在训练时间为源图像i选择一个正对时,我们简单地在所有对上选择训练对的方法。图像增强。使用的标准方法prj=exp(−Dc(ci,cj)/τc).(五)许多SSL方法只在无序的图像列上训练。INn=1 exp(−Dc(ci,cn)/τc)选择是通过在训练期间随机地增强源图像来创建正图像对,即, (x<$i,x<$p),其中i = p。注意,我们还将这些增强应用于以下选择机制中的每一个,即使图像对是不同的,即 当i = pOracle Positive Selection。 如果分类标签可用-能够,可以使用它们来选择正图像对[30]。这里,我们假设我们的输入图像集合由成对的(xi,yi)组成,其中yi是图像xi的对应类别标签。对于每个图像X1,Xp选自属于相同类别的图像集合,即y i=y p。这代表了一种理想化的设置,对于缺少这种监督的实际SSL是不实际的。然而,它提供了有用的见解,并给我们一个性能的上限对于也需要负对的方法,也可以使用类似的过程[14]来选择它们,即yi=yn。我们的重点是积极的形象的作用,因此,我们选择负对在所有情况下使用随机抽样。稍后,我们探索这种oracle正选择机制的变体,其中我们引入噪声,以便以一定的概率λ,我们有意地选择p来自a不同类别,即y i=y p.这里,N是未标记训练集中的图像数量,包括i和j,τc是另一个温度超参数。然后,为了为每个i选择正项p,我们从由向量pri参数化的分类分布中采样,即p分类(pri)。结果,在上下文空间中接近的项目将具有被选择为正对的更高请注意,我们也有可能采样与源相同的图像,即p=1。当我们对源图像的每个视图执行随机增强时,在p=i的情况下,这导致基于标准图像增强的选择机制。4. 实验4.1. 数据集我们在下面的四个代表性相机陷阱数据集和补充中的一个卫星数据集[12]相机陷阱数据集表现出互补的属性,例如:在多个国家与一个地区收集,或在较长(数年)与较短(数月)时间段内收集。相机陷阱图像包含了许多困难,使得自动识别特别困难10588×挑战[6]。而其他基准数据集包含一些有用的上下文数据,这些数据与图像拍摄的时间和地点有关,例如,[49,52,51],它们不明确地包含从相同位置随时间捕获的图像序列。我们假设图像被手动裁剪在感兴趣的对象周围,因为我们关心的是分类问题,而不是检测问题。在地面实况边界框不可用的情况下,高精度检测器是可用的,专门针对相机陷阱图像进行调整[5] 。 下 面 的 图 像 计 数 是 指 裁 剪 的 图 像 。 除 快 照Serengeti外,所有数据集的测试拆分均根据[6]中的方案生成。这被设计为评估跨新相机陷阱站点的泛化行为。 每个数据集由一组位置组成(即,照相机陷阱部署),具有来自每个位置的多个图像。有些位置在训练集和测试集之间共享,有些位置仅存在于测试集中。加州理工学院相机陷阱(CCT20)[6]。CCT20包含来自美国西南部20个不同地点的图像。总的来说,数据集包括15个物种,如兔子,浣熊,郊狼,山猫等。测试集中有10个不同的摄像机陷阱位置,其中10个在训练和测试之间共享,导致训练、验证和测试中有12,617、3,436和32,050个图像。岛屿保护相机陷阱(ICCT)[2]。ICCT由跨越六个国家的七个不同岛屿拍摄的图像组成。由于数据集的全球分布,它包含不同的生态系统,如热带,干旱和温带。共有116个地点,观察了56个地点进行培训。我们保留了12个在训练位置至少出现100次的物种,在训练、验证和测试中得到11,378、1,684和41,527张图像。塞伦盖蒂快照(塞伦盖蒂)[47].这包括位于坦萨尼亚塞伦盖蒂国家公园周围的相机,在多个季节收集。我们使用包括边界框注释的子集。 我们使用作者提供的训练和测试分割,并保留最多1,000个完整图像(即而不是作物),保持至少有100个外观的物种。这导致39个物种,32,702个训练和8,492个测试裁剪图像,来自179个训练和45个测试位置。与其他数据集相比,训练和测试位置不重叠。马赛马拉相机陷阱(MMCT)。我们的最终数据集是我们自己正在进行的收集工作的固定子集,我们将提供。MMCT包含来自肯尼亚马赛马拉176个地点的图像,马赛马拉主要是一个开放的热带草原,以其丰富的野生动物而闻名鉴于该研究旨在研究人类对环境的影响,它它包含20种哺乳动物,从角马,大象,到长颈鹿,包括许多受威胁的物种。总的来说有来自85个位置的10,243个训练图像,以及3,306个验证图像和31,841个测试图像。4.2. 实现细节对于所有实验,我们使用ResNet18 [27]作为我们的特 征 提 取 器 , 并 为 投 影 仪 g 添 加 两 层 MLP 。 对 于SimSiam,我们使用额外的MLP用于预测器h。由于我们的输入图像已经在感兴趣的对象周围进行了裁剪,因此我们使用大小为112 112的图像进行训练。在自我监督训练期间,我们使用一组转换来增强图像,类似于SimCLR [10]中使用的转换。与现有的SSL方法从随机初始化的权重开始训练不同,我们从ImageNet预训练的权重开始,再训练200个epoch,批量大小为256.随机初始化的结果可在补充材料中获得。一个小的贡献是表明SSL在这个制度中仍然有效。对于每个单独的相机陷阱图像,我们构造对应的上下文向量c。虽然许多不同的上下文变量是可能的,但现在我们将自己限制在那些编码时间和位置的变量上。我们使用包裹坐标编码日期和时间,如[33]中所示对于许多相机陷阱数据集,每个相机的GPS坐标通常是保密的,因为存在的一些动物可能濒临灭绝。为了克服这个问题,我们使用一个独热编码来表示部署ID。为了评估不同SSL方法的有效性,我们使用标准线性评估协议[60,36,10]。具体来说,在自监督训练之后,我们只保留骨干特征提取器f,并使用它来计算训练和测试图像的特征。然后,我们使用这些特征训练线性分类器,并在低到高的数据范围内评估性能。通过使用1%、10%或100%的可用训练标签。不像标准的计算机视觉数据集,例如[15],相机陷阱数据集往往是严重不平衡的,使得这在标签很少时是一项特别具有挑战性的任务。附加的实现细节,超参数和实验可以在我们的补充材料中找到。4.3. 结果Oracle Positive Selection。我们首先验证我们的假设,SSL相机陷阱数据可以受益于看到,ING自然变化的积极对相比,标准的图像增强。我们考虑一个理想化的场景,其中oracle在自监督训练期间可以访问地面真实物种标签然后,我们使用第3.1节中概述的oracle选择策略对正对进行采样。在图3中,我们观察到标准SimCLR和SimCLR的oracle变体(“Oracle +ve”)之间的显著差距在真实的物种标签上更具体地,对于MMCT,前一个准确度差异的范围为〜 9%。10589MMCTOracle +ve(90%噪声)Oracle +ve(75%噪声)Oracle +ve(50%噪声)Oracle +ve(25%噪声)Oracle +ve(10%噪声)∼ ∼≁90(一)8070605040长颈鹿908070605040百分之十百分百图3.使用SimCLR的Oracle正对选择我们观察到,SimCLR是令人惊讶的强大的标签噪音在oracle的积极的选择设置。只有当噪声量为90%时,性能才会显著恶化。1%、10%和100%是指SSL后用于评价的监督标签比例。和28%,而对于CCT 20,在不同的下游监管量中,在6%和15%之间。值得注意的是,oracle选择机制可以从整个训练集(即,训练集)中选择对。从不同的位置和不同的时间点)。我们还包括一个oracle基线,它只能从同一个相机陷阱部署中选择阳性对(即相同的物理位置,但是时间可以变化多达几个月)。+ve(相同位置)”也明显优于standard Simplified。这些结果是令人鼓舞的,因为它提供了证据表明,基于来自相同部署的上下文(例如,[7])可能会导致进一步的性能改进。对Oracle噪声的鲁棒性。前一节中的甲骨文积极基线是一个不合理的强大和不现实的基线。我们还评估的情况下,有噪声与积极的对选择。具体地,在图3中,“Oracle +ve(X%噪声)”指示X%的时间,oracle犯错误,将来自不同类的两个图像配对,即y i=y p。也许令人惊讶的是,我们在两个数据集上都观察到,SimCLR对该错误非常鲁棒,至少直到噪声百分比变得非常大,例如。百分之九十显然,能够选择表现出视觉多样性的图像对是有好处的,这是不可能单独通过图像增强来创建这促使我们通过基于上下文的挖掘来选择积极选择的影响。在图5中,我们呈现了跨四个不同相机陷阱数据集、三种SSL方法和三种正对选择方法的一组广泛的实验。第一个观察结果是,与几乎所有设置中的标准ImageNet初始化特征相比,标准SSL导致下游线性分类的更好表示(图4. 在这里,我们显示了128维嵌入空间中测试集的前五个最 近邻 居 (即 投 影仪 的 输出 ) 从( a) MMCT和 ( b )CCT20,用于三个SimCLR变体。我们看到,“标准”Sim-CLR的最近邻居显示有限的视觉多样性。无法获得的我们的绿色和红色轮廓分别对应于相似和不同的类邻居。初始化”)。第二个观察结果是,在几乎所有情况下,使用更“自然”的阳性训练在许多情况下,该性能差异可以是>5%的最高精度。我们的“上下文肯定”方法始终排名第一或第二(不包括端到端监督训练,其被提供以供参考)。我们推测,可以通过使用更丰富的上下文信息来实现进一步的收益。图4显示了从不同模型中检索到的最近邻居的示例我们可以看到,自我监督算法的影响。图5中的一个重要观察结果是,与实际使用的自监督方法相比,选择正选择机制对下游分类准确性的影响更大。事实上,我们表明,即使是传统的三重丢失与任何类型的上下文信息相结合时,结果更好的性能相比,最近的最先进的方法,如Simplanar或SimSiam,当他们只使用标准的图像增强。这表明,对于像相机陷阱这样的“野外”数据集,应额外注意用于正图像对选择的替代方法。图3中的自监督方法和oracle基线之间仍然存在很大的性能差距,这进一步推动了这一点。此外,我们观察到,在三种自 监 督 方 法 之 间 , 考 虑 到 所 提 出 的 正 对 选 择 ,Simplayer平均表现略好。公司(土狼准确度%准确度%OracleOracle上下文标准标准上下文1059090CCT208070605090MMCT8070605085ICCT8075706560星6055504540百分之一百分之十百分之一百1% 10% 100%551%百分之十百分百351%百分之十百分百90908565808080607555707070506060654550506040百分之一百分之十百分之一百1% 10% 100%551%百分之十百分百351%百分之十百分百909085658080806075557070705060606545505060401% 10%100%1% 10%100%551% 10%100351% 10% 100%完全监督的ImageNet Init标准序列阳性上下文阳性图5. 四个不同相机陷阱数据集(列)和三个不同SSL算法(行)的前一分类准确度。每条线表示用于在自监督训练期间选择正图像对的不同机制。通过评估在不同量的监督(即,监督)上训练的线性分类器1、10或100%)。误差条表示SSL的三次重复的平均准确度和标准偏差作为参考,我们还包括完全监督的基线,经过端到端训练,每个x轴上都显示了标签的比例。我们看到SSL方法在几乎所有情况下都显著优于ImageNet衍生特征。此外,使用自然阳性(序列阳性或上下文阳性)总是比单独的标准图像增强(标准)更好,并且比SSL方法的选择具有更大的影响。讨论和限制。与ImageNet [15]或iNaturalist [52,51]等数据集相比,用于我们评估的数据集的类要少得多然而,我们认为,它们实际上更能代表世界各地生物多样性研究人员每月生成的数千个中等规模数据集我们还假设我们的图像是围绕感兴趣的目标裁剪的。虽然相机陷阱数据集可能非常大,但大多数图像通常是空的。预训练的对象检测器[5]可以用于将图像过滤到仅这些感兴趣的框(即,动物)。我们在补充材料中使用预训练的检测器呈现结果。目前,我们的基于上下文的采样方法假设所有上下文维度的权重相等。考虑到我们已经示出了上下文信息对于自监督学习的有效性,自然的问题是我们如何进一步提高性能。通过学习的上下文权重。如果没有监督,这是一个具有挑战性的问题,我们留给未来的工作。5. 结论我们已经探索了在相机陷阱数据集中的自监督学习问题。 我们发现,这些类型的图像集合是自监督学习中基准测试进展的有价值的测试平台,因为它们是视觉中常用的标准基准的补充。事实上,来自充分探索的标准基准的传统智慧并不直接转移到这些类型的图像,因为我们观察到,在训练期间如何选择图像可能比特定的自监督算法具有更大的影响。我们认为,对这种设置的进一步探索将导致对“野外”收集数据集的自监督学习潜力的更好理解,重要的是,将直接受益于鸣谢。MMCT图像是作为由WWF-UK资助的生物群落健康项目的一部分收集的。感谢Holly Pringle、EmilyMadsen、Alex Rabeau和Georgia Cronshaw对MMCT数据的注释。SimCLRSimSiam三重10591引用[1] 生物群落健康项目网 址 : //www.biomehealthproject.com/网站。8[2] 岛屿保护相机陷阱。http://lila.science/datasets/island-conservation-camera-traps. 6[3] Kumar Ayush ,Burak Uzkent,Chenlin Meng,KumarTan- may,Marshall Burke,David Lobell,and StefanoErmon.地理感知自我监督学习。arXiv预印本arXiv:2011.09980,2020。第1、3条[4] Philip Bachman , R Devon Hjelm , and WilliamBuchwalter.通过最大化跨视图的互信息来学习表示NeurIPS,2019。2[5] Sara Beery,Dan Morris,and Siyu Yang. 用于相机陷阱图 像 审 查 的 高 效 流 水 线 。 arXiv 预 印 本 arXiv :1907.06772,2019。六、八[6] 莎拉·比瑞格兰特·范·霍恩和皮特罗·佩罗纳在未知领域的认知。在ECCV,2018。二、三、六[7] Sara Beery、Guanhang Wu、Vivek Rathod、Ronny Votel和Jonathan Huang。上下文r-cnn:用于每相机对象检测的长期时间上下文在CVPR,2020年。二、三、七[8] Thomas Berg,Jiongxin Liu,Seung Woo Lee,MichelleL Alexander,David W Jacobs,and Peter N Belhumeur.鸟快照:对鸟类进行大规模的细粒度视觉分类CVPR,2014。3[9] Mathilde Caron , Ishan Misra , Julien Mairal , PriyaGoyal,Piotr Bojanowski,and Armand Joulin.通过对比聚类分配的视觉特征的无监督学习。在NeurIPS,2020年。2[10] 陈婷,西蒙·科恩布里斯,穆罕默德·诺鲁齐,和葛offrey Hinton.视觉表征对比学习的一个简单框架。在ICML,2020。一、二、四、六[11] Xinlei Chen,Kaiming He.探索简单的连体表示学习。在CVPR,2021年。一、二、三、四、五[12] 戈登·克里斯蒂,尼尔·芬德利,詹姆斯·威尔逊和瑞安·慕克吉。世界功能地图。在CVPR,2018年。5[13] Grace Chu , Brian Potetz , Weijun Wang , AndrewHoward , Yang Song , Fernando Brucher , ThomasLeung,and Hartwig Adam.用于细粒度识别的地理感知网络。在ICCV研讨会,2019年。3[14] Ching-Yao Chuang,Joshua Robinson,Lin Yen-Chen,Antonio Torralba,and Stefanie Jegelka. 去偏见对比学习。在NeurIPS,2020年。三、五[15] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi,and Li Fei-Fei. Imagenet:一个大规模的分层图像数据库。CVPR,2009。一二三六八[16] Alexey Dosovitskiy , Jost Tobias Springenberg , MartinRied-miller,and Thomas Brox.使用卷积神经网络的判别式无监督特征学习。NeurIPS,2014。2[17] LinusEricsson , HenryGouk , andTimothyMHospedales.自我监督模型的转换效果如何?在CVPR,2021年。1[18] Christoph Feichtenhofer , Haoqi Fan , Jitendra Malik ,and Kaiming He.用于视频识别的慢速网络。在ICCV,2019年。310592[19] Basura Fernando,Hakan Bilen,Efstratios Gavves,andStephen Gould.自监督视频表示学习与奇一网络。在CVPR,2017年。3[20] Spyros Gidaris,Praveer Singh和Nikos Komodakis。通过 预 测 图 像 旋 转 的 无 监 督 表 示 学 习 。 arXiv :1803.07728,2018。2[21] Paul Glover-Kapfer,Carolina A Soto-Navarro和Oliver RWearn。相机捕获3.0版:当前的限制和未来的发展重点遥感生态与保护,2019年。2[22] Priya Goyal、Dhruv Mahajan、Abhinav Gupta和IshanMisra。缩放和基准自我监督的视觉表示学习。在ICCV,2019年。1[23] Jean-B astienGrill , FlorianStrub , FlorentAltch e´ ,CorentinTallec,PierreHRichemond,ElenaBuchatskaya,Carl Do- ersch,Bernardo Avila Pires,Zhaohan Daniel Guo,Moham- mad Gheshlaghi Azar,etal. Bootstrap你自己的潜在:一种自我监督学习的新方法。在NeurIPS,2020年。一、三、五[24] 我的迈克尔·古特曼和阿波·海弗亚里宁。噪声对比度估计:非归一化统计模型的新估计原理AISTATS,2010年。2[25] Raia Hadsell,Sumit Chopra,and Yann LeCun.通过学习一个不变映射来降低维数. CVPR,2006。2[26] Kaiming He,Haoqi Fan,Yuxin Wu,Saining Xie,andRoss Girshick.用于无监督视觉表示学习的动量对比。在CVPR,2020年。一、二[27] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在CVPR,2016年。四、六[28] Neal Jean , Sherrie
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- AA4MM开源软件:多建模与模拟耦合工具介绍
- Swagger实时生成器的探索与应用
- Swagger UI:Trunkit API 文档生成与交互指南
- 粉红色留言表单网页模板,简洁美观的HTML模板下载
- OWIN中间件集成BioID OAuth 2.0客户端指南
- 响应式黑色博客CSS模板及前端源码介绍
- Eclipse下使用AVR Dragon调试Arduino Uno ATmega328P项目
- UrlPerf-开源:简明性能测试器
- ConEmuPack 190623:Windows下的Linux Terminator式分屏工具
- 安卓系统工具:易语言开发的卸载预装软件工具更新
- Node.js 示例库:概念证明、测试与演示
- Wi-Fi红外发射器:NodeMCU版Alexa控制与实时反馈
- 易语言实现高效大文件字符串替换方法
- MATLAB光学仿真分析:波的干涉现象深入研究
- stdError中间件:简化服务器错误处理的工具
- Ruby环境下的Dynamiq客户端使用指南
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功