基于时空先验的细粒度图像分类模型

112 浏览量更新于2023-10-13 收藏 1.28MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

9596用于细粒度图像分类的Oisin Mac Aodha Elijah Cole Pietro Peronawww.vision.caltech.edu/~macaodha/projects/geopriors摘要单独的外观信息通常不足以在细粒度视觉类别之间进行准确区分。人类专家利用额外的线索，例如在何处和何时拍摄给定的图像，以告知他们的最终决定。该上下文信息在许多在线图像集合中是容易获得的，但是仅专注于基于图像内容进行预测的现有图像分类器未充分利用。我们提出了一个有效的时空先验，即当以地理位置和时间为条件时，估计给定对象类别在该位置发生的概率。我们的先验是从仅存在的观测数据中训练的，并联合建模对象类别，其时空分布和摄影师偏见。在多个具有挑战性的图像分类数据集上进行的实验表明，将我们的先验知识与图像分类器的预测相结合，最终分类性能得到了很大的提高。1. 介绍将对象正确地分类到不同的细粒度视觉类别中是一个具有挑战性的问题。与通用对象识别相反，它可能需要对区分视觉上相似的类别所必需的细微特征的知识然而，在无法访问可能不存在于图像中的附加信息的情况下，许多类别可能在视觉上无法区分。例如，图2中的两种蟾蜍。1在外观上相似，但倾向于在欧洲非常不同的位置发现。知道给定图像是在哪里拍摄的可以为它可能包含的如今，大多数在线捕获和共享的图像还附带了额外的元数据，这些元数据以拍摄地点、拍摄时间和拍摄者的形式出现。这些信息不仅提供了帮助解决图像分类的模糊情况的可能性，而且还可以使我们能够生成不同对象可能被观察到的位置和时间的预测图1：在没有额外上下文的情况下，区分两种视觉上相似的猫科动物，如欧洲蟾蜍（左）和多刺蟾蜍（右）可能具有挑战性。为了解决这个问题，我们提出了一个时空的前编码的地方，以及何时，一个给定的类别可能会发生。对于已知的测试位置，我们的先验预测每个类别存在的可能性。较暗的颜色指示更可能包含感兴趣对象的使用位置信息来提高分类性能的现有工作要么将输入数据离散化为时空体积[5]，在推理时将整个训练集存储在存储器中[64]，要么联合训练深度图像分类器以及相应的位置信息[55]。离散化或存储原始训练数据的方法在内存方面不能很好地扩展，并且联合训练具有位置信息的图像分类器需要在测试时存在位置信息 - 这可能并不总是如此。我们从物种分布建模（SDM）[20]中获得灵感，并对可以与任何图像分类器的预测相结合的单独的地理先验进行建模。然而，与许多SDM方法不同的是，这些方法假设它们在训练时可以访问存在和不存在信息（例如，在训练时可以访问存在和不存在信息）。[56])，我们做一个更一般的假设，即只有存在信息是可用的。我们知道在哪里观察到了类别，但是没有关于在哪里没有发现它们的明确数据在这项工作中，我们做出了以下贡献：（1）一个有效的时空先验，联合建模的位置，一年中的时间，摄影师，和多个不同的对象类别的存在之间的关系。(2)一种新颖的仅存在训练损失来捕捉这些关系-9597船舶（3）实验表明，将图像分类器的概率预测与我们的先验知识相结合，显著提高了在具有挑战性的细粒度图像数据集上的测试时间性能。2. 相关工作在这里，我们讨论的工作相关的时空模型，编码的一组离散对象类别的位置。我们不解决探索位置信息的其他用途的方法，例如仅在给定原始像素的情况下推断图像拍摄的位置[29，60]，或者使用位置来消除图像定位的视觉相似位置的方法[59，68]。细粒度图像分类正确地确定多个可能的细粒度类别中的哪一个存在于图像中需要理解微妙的视觉特征与对应的图像级类别标签之间的关系。[61、35、66、58]。现有的方法已经研究了零件的建模[41，71，9，70，32]，高阶特征交互，事件[40，23]，注意力机制[65，72，62]，嘈杂的网络数据[37]，新的训练损失[14]和成对类别信息[17]。正交这些作品，我们提出了一个时空之前，可以结合任何图像分类器的概率预测，以提高最终的分类性能。位置和分类少数方法已经探索了使用位置信息来改进测试时的图像分类。Berg等人[5]提出了一种时空先验，当结合图像分类器的输出时，提高了鸟类分类的准确性。他们的方法将位置和时间离散成时空立方体，并使用自适应核密度估计器来独立地表示每个物种的分布。同样在预测不同生物物种的存在的上下文中，Wittich等.[64]评估了不同的基于最近邻的查找策略，用于从地理标记观测的训练集检索最相关的实例这些方法在它们的分类要求方面是低效的，因为它们需要存储整个训练集或其离散化版本。公民科学数据的现有存储库（例如[53，2，1]）可以包含大约数千万个观察结果，使得它们对于在移动设备上存储和检索而言过大。选择正确的离散化具有挑战性[48]，并且不正确的选择会显著影响最终性能[38，46]。我们的方法的一个关键好处是不需要离散化。Tang等人[55]探索了不同的特征编码，用于将位置信息直接纳入深度神经网络。网络在训练时间这包括原始位置特征（即，经度和纬度）、通过人口普查收集的人口统计信息、用户提供的散列标签、以及地理地图特征（例如，土地使用估算）。他们的方法的缺点是，它假设在测试时存在位置信息，并且可以针对给定的测试位置计算所有所需的特征。此外，它们不能使用不具有关联图像的位置信息。如果收集到新的位置数据，他们还需要重新训练整个模型。相反，我们提出了一个有效的时空先验，共同model- els的空间分布的多个对象类别，可以独立于图像分类器进行训练与我们的工作平行，[13]通过探索将位置信息集成到深度图像分类器中的不同方法建立在[55]的时空分布模型我们的目标是估计一组对象类别的时空分布。与此相关，有丰富的文献探索模型，用于估计生物标本在地理空间和时间上的分布这被称为物种分布建模或环境生态位建模。一般来说，这些方法可以分为两组，使用存在-不存在数据的方法和使用仅存在数据的方法[28]。在给定位置进行存在-不存在观察要求来自预定义的感兴趣集合的每个物种对于该采样事件被确认为存在或不存在。在实践中，这种数据的收集是繁重的，因为它需要大量的调查工作来确认一个物种是不存在的，具有高度的确定性[43]。然而，一旦收集了这些数据，它就可以与标准的监督分类方法相结合，例如逻辑回归[28]，概率回归[52]，高斯过程[26]，决策树[20]和神经网络[67，49，45]等[18，47]。存在-不存在数据也与传统的多标签学习兼容[34，8，69，12，63]。最近，深度模型已被应用于该问题，以便联合建模不同物种[27，11，22，56，7]和人类的抽样偏差[10]。相比之下，仅存在（即，偶然的）观察可以记录在感兴趣的对象出现的任何地方-而不需要验证任何缺席虽然只存在数据可能更容易收集，但缺乏缺席信息使其更难以建模。这种限制通常以三种不同方式之一处理。第一种方法是生成“伪否定”，然后应用上述存在-不存在方法之一。由于没有真正的负面信息可用，这些方法随机地对一组位置进行采样，并假设这些位置是缺席的，例如，在一个或多个位置处。[19，50，3]。第二种常用的ap-9598我我方法是直接在仅存在数据上训练高度正则化的模型。通过拟合最大熵分布[51]或低秩模型[21]，迫使模型解释已观察到的数据，并在其他地方不确定。最后，也是与我们的工作最相关的，还有一些方法使用了额外的信息，例如特定物种的可探测性和摄影师[44，24]。与时空分布建模的许多经典方法不同，在这项工作中，我们联合学习每个类别图像I（经度，纬度，时间）位置上下文x分类器位置编码器f（）P（y|x）P（y|I）∝P（y|I、X）对象嵌入O感兴趣的是使用神经网络来摊销计算。与以前的深层分布模型（如[27，11，56]，我们不需要存在-不存在数据或附加的环境特征作为输入。相反，我们利用存在于在线图像存储库中的结构，例如公民科学家收集的结构，来共同建模对象、它们的位置和摄影师的偏见。3. 方法在这里，我们概述了我们的时空先验，它模拟了一组对象类别和摄影师的地理和时间分布。在训练过程中，我们假设我们可以访问一组元组D={（Ii，xi，yi，pi）|i=1，…N}，其中Ii是图像，yi∈ {1，.，C}是对应的类标签，xi=[loni，lati，timei]表示拍摄图像的位置（经度和纬度）和时间，并且pi是对应的类标签。个人，即摄影师，他捕捉到了这张照片。请注意，位置不需要与图像一起捕获。D可以从不相关的图像和位置数据集组装，只要两者包含相同的类别。在测试时，给定一个图像以及它在何时何地图2：推理时间。我们的目标是估计对象类别y存在于输入图像I中。在测试时，我们使用额外的时空信息x的形式，在哪里和什么时候拍摄的图像。在测试时，我们不假设我们具有捕获图像的个体P的任何知识。在这项工作中，我们把注意力集中在表示P（y|X）。为P（y|1）我们可以使用任何判别模型产生概率输出例如，卷积神经网络。在场-缺席损失由于我们独立于图像分类器对时空先验进行建模，因此我们的训练数据现在具有D={（ xi， yi，pi）|i=1，…N}个。在理想的情况下，我们会有完整的信息，包括在哪里和何时观察到一个给定的类别存在并观察到不存在例如，如[11，56]。那么不是yi∈1，...，C，每个时空位置xi将与二进制多标签向量相关联。tor yi=[yi，…其中每个条目yc∈ {0，1} indi-我我我我们的目标是估计它包含的类别，即，P（y|I，X）。一种方法是如[55]中那样对联合分布P（I，x）建模，但这需要在测试时始终提供位置信息相反地，受[5]的启发，我们可以将位置信息合并为判断是否已经观察到类别c存在于xi处。该公式导致标准的多标签学习问题，使我们能够通过求解来估计时空模型的贝叶斯时空先验。如果我们假设I和x在给定y的条件下是独立的，则ΣN ΣCMaxyclog（y（c）+（1−yc）log（1−y（c），（4）P（I，x |y）P（y）我我我θi=1c =1P（y|I，x）=P（I，x）（一）其中我们定义y∈c=P（yc|xi）且P被参数化P（I）P（x）P（y|I）P（y| x）=（二）的θ。然而，如前所述，存在-不存在获取信息既困难又耗时P（I，x）P（y）在现实世界中。P（y）|I）P（y|x）、（3）其中我们假设一致先验P（y）=1/C，其中y∈{1。. . ，C}。实际上，图像可能包含与类别标签无关的位置信息（例如，背景），但我们假设该因式分解是有效的。通过以这种方式分解分布，我们可以表示图像分类器，9599我仅存在损失在这项工作中，我们探索更具挑战性的仅存在设置，其中每个时空位置xi与单个标签yi∈{1，，C}指示哪个类别看到了血淋淋的。本质上，我们有一个标签向量yiP（y|和时空先验P（y|x），分别。注意其中只有一个肯定条目，即，yc=1表示9600我一些C，其余的条目是未知的。在这种情况下，Eqn。4可以写成ΣN在共享嵌入空间中，如果y可能出现在位置x，则位置x和对象y的嵌入之间的内积较大。最后，s（）是一个按条目的sigmoid操作，以确保结果Maxθi=1log（y（ci）+Ai，（5）预测值在[0，1]范围内。其中Ai表示第i个训练示例的代理缺失项，并且ci是对应的观察类别。现在的问题是如何选择Ai。表示Ai的一种常见方法是通过从一些参数分布随机采样缺失数据来生成例如，可以设置Ai=l〇 g（1-P（yi|ri））。（六）其中 ri 是随机选择的时空位置， [lon （ ri ）， lat（ri）]<$Unif（S2）和时间（ ri ）<$Unif（ [0，1]）。隐含的假设是每个类别（无论是人造的还是自然发生的）都出现在S2×[0，1]的一个相对小的子集中，因此类别出现在随机选择的位置r ∈ S2×[0，1]的概率也很小。如果这个假设成立，这些伪否定可能是有效的。替代方法是替代地在其他类别的存在数据出现的位置和时间上对缺席进行采样。在这种情况下，我们将根据方程i设置Ai。6，但是从正出现位置采样负位置，即， ri Unif（{x1，. . . ，XN}）。这使训练偏向于包含有效数据的区域3.1. 我们的方法在本节中，我们概述如何建模和训练我们的时空先验P（y|X）。位置和对象嵌入在许多上下文中，不同的对象在给定的时空位置处不独立地出现。知道对象A存在可以提供关于对象B在相同地点和时间存在或不存在的类似地，不同的时空位置不是独立的，并且可以共享共性。我们利用这种结构来编码低维嵌入的对象和时空位置。从[11]中得到启发，我们将我们的时空先验建模为P（y|x）∝s（f（x）O）.这里，f：R3-RD是将时空位置X映射到D维嵌入向量的多层全连接神经网络O∈RD×C表示一个对象嵌入矩阵，其中每一列是一个不同的范畴。的乘积f（x）0产生C维向量，其中每个元素表示时空位置x对于类别y具有的亲和度。直觉是我们在表示时空位置和对象类别摄影师嵌入在在线图像收集中，我们经常可以在训练时访问以捕获图像的摄影师p∈ P的形式的附加信息。要了解此信息为何有价值，请考虑以下示例。假设摄影师p访问位置X并且没有报告对象y。如果p从未拍摄过像y这样的对象的图像，那么这个非报告给我们的信息很少。然而，如果p具有报告类似于对象y的类别的历史，则这构成y实际上可能在该位置不存在的弱证据因此，我们可以以不同的方式解释相同的仅存在信息，这取决于提供它的个体。为了捕捉摄影师的偏见，我们将照片嵌入到与对象和位置相同的共享嵌入空间中。这是通过学习一个摄像机嵌入矩阵P∈ RD×| P|在训练时间。像不同的对象类别，摄影师可能有它们具有针对特定位置和时间的相似性，并且与其他摄影师共享它们的时空模式的相似性。这使我们能够表示摄影者对给定位置P（p）的偏好|x）∝s（f（x）P），以及摄影师对给定对象类别P（y）的亲和力|p）∝s（OTP）. 经过培训，摄影师...试验时不需要垫层P，见图。二、关节嵌入损失我们在训练时的目标是估计参数集θ=[θf，O，P]，其中θf表示位置嵌入网络f（）的权重，O是类别嵌入矩阵，P是摄影师嵌入矩阵。我们从约束开始，我们的模型应该是保守的，即如果已经在训练集中的时空位置X处观察到类别y，则s（f（x）0：，y）应该接近1，否则它应该接近0。这里，O：，y表示O的第y列。我们依赖于位置嵌入函数f（）来在存在位置之间进行插值。这是保守的，因为它假设如果一个物体没有被观察到，它就不存在。这是非常强的假设，但是它使得时空先验能够在对来自图像分类器的不正确预测进行降权时是积极的我们的第一个损失鼓励模型预测在训练集中观察到的对象的存在，并在没有观察到的情况下降低其可能性9601：：被观察到：L〇loc（x，r，0，y）=λlog（s（f（x）0：，y））+ΣClog（1−s（f（x）O：，i））+i=1i/=yΣClog（1− s（f（r）O：，i））.i=1（七）在BirdSnap数据集之前，使用的图像和位置我们使用原始图像URL从Web中选择图像和位置数据。尽管数据集由北美常见物种的图像组成，但当我们重新收集图像和位置时，我们发现原始图像来自世界各地，40%的图像错过了位置。像[5]一样，我们还模拟了BirdSnap [5]和另一个细粒度鸟类数据集NABirds [57]的位置元数据，通过将每个图像与一个物种ob相关联。λ是用于对正观测器进行加权的超参数vations，并且r是均匀随机的时空数据点。接下来，我们希望摄影师p和位置x之间的亲和力在p出现在x处时高，否则低：[53]第五十三话我们的火车位置和照片是从eBird 2015中取样的，测试集是从2016年开始的。BirdSnap和NABIrds包含来自500和555种不同北美鸟类的图像。最后，我们还在YFCC 100 M-GEO 100上进行了实验[55]。（YFCC）。YFCC包含100个日常物品类别Lploc（x，r，P，p）= log（s（f（x）P：，p））+log（1− s（f（r）P：，p））.（八）具有相关联的位置，但是没有提供日期或摄影师信息。[55]中使用的训练和测试分割不可用，因此我们创建了一个新的。不像我们假设一个摄影师对猫的亲和力很低-除非他们以前观察过：Lpo（O，P，y，p）=λlog（s（OTP：，p））+在其他数据集中，YFCC中的许多对象类别在地理上不是不同的。‘band’, ‘ford’, or4.2.实现细节ΣCi=1i/=ylog（1− s（f（OTP：，p））.（九）我们的位置编码器f（）是一个完全连接的神经网络，由一个输入层和多个剩余层[30]和最终输出嵌入层。我们共同训练位置编码器，以及photogra-最后，为了估计先验的参数，我们最大化通过在训练集中的每个数据点上迭代，L=L〇loc+Lploc+ Lp〇，（10）。4. 实验我们通过在具有位置和时间信息的几个图像分类数据集我们选择图像分类是因为对于其他领域（例如物种分布建模）获得关于感兴趣的类别的真实时空分布的精确的地面实况信息是具有挑战性的4.1. 数据集虽然位置元数据很容易用于在线图像收集，但许多流行的图像分类数据集不包含此信息，例如。[61、57、16、39]。一些数据集存在位置信息，但仅用于图像的子集，例如，[25]第20段。然而，包含不同种类的植物和动物的图像的数据集可提供位置、时间和摄影师信息。为此，我们对iNaturalist 2017和2018（iNat2017和iNat 2018）物种分类数据集进行了实验，这些数据集包含公民科学家收集和注释的它们分别有5，089和8，142个类别。而[5]评价了他们的位置9602pher和对象嵌入使用Adam [36]进行30个epoch，批量大小为1024，使用dropout防止过度拟合。共享嵌入空间的维数设置为D=256。当对正面实例进行加权时在训练期间，我们将λ设置为类别的数量到为了抵消许多数据集的严重不平衡性质，我们限制每个时期每个类别的数据点的最大数量。我们将数据点的最大数量设置为100，并且对于每个时期，我们为每个类别随机选择不同的子集唯一的例外是对于YFCC，其中限制数据会损害性能。我们的网络架构的详细信息在补充材料中。除了特别指出的地方，在测试时，我们的模型接受三个输入-经度、纬度和年份，指定感兴趣的图像是在何时何地捕获的。对于这三个输入特征x，我们探索了不同的方法用于一项观察，12月31日应该会导致一个类似于1月1日捕获的嵌入。同样，我们希望地理坐标环绕地球。为了实现这一点，对于x的每个输入维度l，我们执行映射[sin（πxl），cos（πxl）]，从而对于每个维度产生两个数字在这里，我们假设输入的每个维度都已归一化到范围xl∈[−1，1]。对于图像分类器P（y|I）我们微调一个单独的InceptionV 3 [54]每个数据集的网络开始-使用ImageNet初始化图像的权重[16]9603YFCCBirdSnapBirdSnap†NABIrds†iNat2017iNat2018P（y| x）-先前类型测试测试测试测试Val试验Pu测试压力Val试验Pu测试压力无先验（即制服）50.1570.0770.0776.0863.2764.1663.6360.2050.1750.33最近邻（num）51.7870.8277.7679.9965.3466.0465.6168.7054.5454.58最近邻（空间）51.2171.5777.9880.7965.8567.0266.4167.5553.6753.81离散网格51.0671.0977.1979.5865.4966.6266.0767.2753.1353.16自适应核函数[5]51.4771.5778.6581.1164.8665.8365.5965.2353.1753.21Tang等人[55个]50.4370.1672.3377.3466.1567.0866.5365.6154.1254.25我们没有约会50.7071.6678.6581.1569.3470.6270.1872.4157.6857.84我们的满了-71.8479.5881.5069.6070.8370.5172.6858.4458.59表1：分类准确度。组合图像分类预测P（y）之后的结果|I）具有不同的时空先验P（y|X）。所有结果都是前1名的准确度，其中分类器预测是从InceptionV3 [54]网络中提取的，在每个相应的数据集上进行†表示使用eBird数据集[53]中的模拟位置，日期和摄影师。基线算法不使用日期信息。Top1前3名前5名iNat2017 -InceptionV3 299× 299无先验（即制服）63.2779.8284.51我们的无包装编码69.4884.4388.15我们没有摄影师69.3983.9787.71我们没有约会69.3484.1687.89我们的满了69.6084.4188.07iNat2018-InceptionV3299×299无先验（即制服）60.2077.9083.29我们的无包装编码72.1287.0090.52我们没有摄影师72.8487.3090.75我们没有约会72.4187.1990.60我们的满了72.6887.2690.79iNat2018-InceptionV3520×520无先验（即制服）66.1883.3288.04我们的无包装编码77.0990.6893.54我们没有摄影师77.6490.8293.52我们没有约会77.4190.8093.58我们的满了77.4990.8593.57表2：消融。在iNat2017和iNat2018 [58]验证集上，我们先验的不同变体的分类准确性。在iNat 2018的情况下，当将我们的先验知识与更强大的图像分类器相结合时，我们仍然观察到改进-参见行分辨率为299×299（除非另有说明）。4.3. 定量评价在表1中，我们评估了我们的时空先验通过将其与几个基线进行比较来提高图像分类性能的程度。我们发现，在基于最近邻的基线的输出之前添加一个uni-form可以提高它们的性能。这在测试位置附近不存在来自训练集的对象的情况下增加了鲁棒性。缺乏这种统一的先验解释了[55]中基于最近邻的方法的差结果。为了与Tanget al. [55]我们联合训练线性层以嵌入原始位置信息，以及输出层以将位置嵌入与来自图像分类器的最后线性层的特征组合。图像分类器的其余权重不被更新。对于每个基线al-我们选择它们的超参数（例如邻居的数量）。当位置信息在测试时不可用时，我们假设类别上的先验是一致的。我们的模型在所有数据集上的表现与基线相当，甚至更好。我们的方法的优点是，它是在测试时的计算效率，并不需要在训练过程中的图像分类器的功能。与基于最近邻的方法相比，它只需要通过紧凑的全连接神经网络进行前向传递。此外，它还捕捉结构信息，如对象和摄影师的偏见。值得注意的一个失败案例是YFCC [55]的结果。我们观察到，所有方法的执行类似于不使用位置信息（无先验）。这可以通过数据集中存在的对象类别中的时空结构的相对缺乏来解释。同样，这与[55]中的发现一致，其中作者不得不使用额外的功能来提高性能。4.3.1消融研究在表 2 中，我们比较了我们的模型在 iNat2017 和iNat2018上的不同变体的性能[58]。同样，在所有度量中，与基线均匀先验相比，性能有很大的提高。在某些情况下，我们甚至观察到，当我们明确建模摄影师偏见时，表现会有额外的提升。用较大的输入图像训练细粒度图像分类器可以显著提高分类性能[15]。我们观察到，我们的时空先验的好处仍然是显而易见的，即使当我们使用一个更强大的分类器，已经训练了更长的时间与更大的图像。当我们使用更宽松的评估指标来评估性能时，准确性也会有所提高，即：前5名与前1名的准确性。这是重要的，因为它突出了对于某些数据集，时空先验提供的性能提升与底层图像分类器的改进正交9604(a) 位置嵌入（b）摄影师位置亲和性图3：空间预测。（a）在iNat2018上训练的模型在地球上每个位置的嵌入[58]。我们观察到，嵌入似乎捕获了与气候区相关的信息，尽管没有经过任何气候数据的训练(b)估计的摄影师位置偏好的对数图。较暗的颜色表示更多的摄影师在这些位置捕获了图像我们可以看到，有一个很大的偏向北美，欧洲和新西兰。估计了所有照片中每个输入位置的fixtail拉弗斯岛ps（f（x）P：，p）. 我们只显示pho的结果图第四章：对象嵌入t-SNE[第四十二届]情节对于来自iNat2018的所有8，142个类别的学习嵌入O[58]。对象嵌入空间中的位置对特定地理区域的类别偏好进行编码我们观察到，具有类似的时空分布的类别往往是接近的。4.4. 定性评价我们的模型捕捉对象之间的关系，位置，阳离子和摄影师。在图3（a）中，我们可以看到在iNat2018 [58]上训练的模型的每个输入位置的结果嵌入。通过将嵌入函数f（）应用于每个位置，我们可以生成其D维嵌入向量。然后，我们使用ICA [33]将嵌入式特征投影也许正如预期的那样，在所得到的图像中存在低频结构，即附近的位置倾向于支持相似的对象。我们的方法的一个优点是，我们不限于一个固定的离散化。因此，我们可以为任何位置和时间生成嵌入在图4中，我们将学习对象嵌入O可视化。具有相似时空分布的对象倾向于产生相似的嵌入向量。与其他工作不同，我们的先验还模拟了摄影师和地点之间的关系，以及摄影师和对象类别之间的关系。在图3（b）中，我们绘制了提供至少100个观察结果的记录员iNat2018 [58]训练集，得到634个个体。图5我们显示了一组摄影师的每个对象类别的估计亲和力，即 P（y|p）∝s（OTP）.我们观察到，嵌入捕捉到的相似性，在对象的亲和力举行不同的摄影师。最后，在图 6 我们使用我们的先验来生成来自iNat2018的几个不同物种的时空预测[58]。每幅图像都是通过查询地球表面某一天的每个位置生成的年，以生成P（y=y*|x）感兴趣的类别。在实践中，我们评估每个时间点的1000×2000个空间位置（例如，月的第一天）。这步骤是非常有效的，因为我们可以为每个位置预先计算f（x），而与感兴趣的类别无关同样，为了可视化，我们屏蔽了海洋上的预测4.5. 限制我们受限于所提供的位置数据的质量，例如：它可能是不准确的或被故意混淆的。我们还对摄影师对单个物体类别的亲和力做出了强烈的假设在现实中，这些相互作用可能是复杂的，即.一旦摄影师捕捉到特定类别的图像，他们就不太可能在不久的将来拍摄相同对象的图像。我们使用的公民科学数据类型也存在已知的空间偏差[4，10]。然而，这可能不是一个主要问题，因为我们可以假设测试地点和日期的分布也有类似的偏差。我们目前只在培训期间使用地点，时间和摄影师ID。在实践中，诸如环境变量的广告数据可能是特定对象类别的有价值的信号[6]。5. 结论我们引入了一个时空之前，以帮助disam- biguate细粒度的类别，从而提高测试时间的图像分类性能。除了帮助图像分类，我们的模型还自然地捕获巨螺鳃鱼刺角狭吻鱼金蛛n.蓝凤蝶9605C一B摄影师嵌入摄影师A摄影师B摄影师C图5：摄影师对象关联。在左侧，我们看到iNat 2018 [58]的摄影师嵌入P的右边的三个图描绘了在来自图1的类别嵌入上可视化的三个不同摄影师（A、B和C）的预测亲和力。4.更明亮的颜色表示对给定类别的更高亲和力。我们观察到，在摄影师嵌入空间P中接近的个体（例如，A和B）具有相似的类别亲和性，与那些远离的（例如C）的范围内。图6：时空预测。使用我们在iNat2018上训练的完整模型预测三个不同时间点的几个对象类别的分布[58]。较暗的颜色指示预测将找到类别的位置。在前两行中，我们观察到我们的模型捕获了季节性迁移行为。在最下面一行，我们的模型正确地预测了西方蜜蜂可以在几个不同的大陆上找到值得注意的是，结果受到iNat2018数据集中地理采样偏差的影响。位置和物体、物体和物体、摄影师和物体以及摄影师和位置之间的关系重要的是，我们的先验在测试时是有效的，无论是在模型大小和推理速度方面，并扩展到大量的类别。致谢这项工作得到了谷歌重点研究奖和美国国家科学基金会研究生奖学金（批准号：DGE1745301）。我们感谢Grant Van Horn和Serge Belongie的有益讨论，以及NVIDIA和AWS的善意捐赠。9606引用[1] GBIF -www.gbif.org。2019年。[2] iNaturalist -www.inaturalist.org。2019年。[3] MorganeBarbet-Massin，Fre'de'ricJiguet，CecileHeleneAlbert，and Wilfried Thuiller.为物种分布模型选择伪缺失：如何，在哪里，有多少？生态学与进化方法，2012年。[4] JanBeck ， MarianneBo¨ller ， AndreasErhardt ， andWolfgangSchwanghart.GBIF数据库中的空间偏差及其对模拟物种地理分布的生态信息学，2014年。[5] Thomas Berg，Jiongxin Liu，Seung Woo Lee，MichelleL Alexander，David W Jacobs，and Peter N Belhumeur.鸟快照：对鸟类进行大规模的细粒度视觉分类CVPR，2014。[6] ChristopheBotella 、 Pi erreBonnet 、 Franc oisMunoz 、Pascal Monestiez 和 Alexis Joly 。 GeoLifeCLEF 2018 概述：基于位置的物种推荐。2018年。[7] Christophe Botella 、 Alexis Joly 、 Pierre Bonnet 、PascalMon-estiez和Fran coisMunoz。物种分布建模的深度学习方法环境生物多样性信息学的多媒体工具和应用。2018.[8] 马修河Boutell，Jiebo Luo，Xipeng Shen，and Christo-pher M. 布朗学习多标签场景分类。 PatternRecognition，2004.[9] Steve Branson，Grant Van Horn，Serge Belongie，andPietro Perona.使用姿势归一化深度卷积网络进行鸟类分类。InBMVC，2014.[10] Di Chen和Carla P Gomes.通过端到端转变学习减少偏差：应用于公民科学。在AAAI，2019年。[11] Di Chen，Yexiang Xue，Shuo Chen，Daniel Fink，andCarla Gomes.深度多物种嵌入。在IJCAI，2017。[12] 陈耀南和林轩天。用于多标签分类的特征感知标签空间降维。InNeurIPS，2012.[13] Grace Chu ， Brian Potetz ， Weijun Wang ， AndrewHoward ， Yang Song ， Fernando Brucher ， ThomasLeung，and Hartwig Adam.用于细粒度识别的地理感知网络。arXiv，2019年。[14] Yin Cui，Menglin Jia，Tsung-Yi Lin，Yang Song，andSerge Belongie. 基于有效样本数的类平衡损耗。在CVPR，2019年。[15] Yin Cui，Yang Song，Chen Sun，Andrew Howard，andSerge Belongie.大规模细粒度分类和特定领域迁移学习。在CVPR，2018年。[16] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。CVPR，2009。[17] Abhimanyu Dubey 、 Otkrist Gupta 、 Pei Guo 、 RameshRaskar、Ryan Farrell和Nikhil Naik。细粒度视觉分类的成对混淆。在ECCV，2018。[18] Jane Elith和Catherine H.格雷姆是吗他们怎么样为什么会有不同呢？寻找物种分布模型不同表现的原因。Ecography，2009.9607[19] Robin Engler，Antoine Guisan，and Luca Rechsteiner.一种改进的珍稀濒危物种分布预测方法应用生态学杂志，2004年。[20] Daniel Fink，Wesley M Hochachka，Benjamin Zucker-berg ， David W Winkler ， Ben Shaby ， M ArthurMunson ， Giles Hooker ， Mirek Riedewald ， DanielSheldon，and Steve Kelling.大规模调查数据的时空探索模型。生态应用，2010年。[21] 威廉·费西安和拉胡尔·马祖姆德灵活的低秩统计建模，包含缺失数据和辅助信息。统计科学，2018。[22] Simone Franceschini 、 Emanuele Gandola 、 MarcoMartinoli、Lorenzo Tancioni和Michele Scardi。级联神经网络-提高鱼类预测精度：生物信息的作用。科学报告，2018。[23] 杨高、奥斯卡·贝博姆、张宁和特雷弗·达雷尔。紧凑的双线性池。在CVPR，2016年。[24] Georgia E Garrard、Michael A McCarthy、Nicholas SGWilliams、Sarah A Bekessy和Brendan A Wintle。利用物种特征的可检测性的一般模型。生态学与进化方法，2013年。[25] 她的父亲皮埃尔·邦纳和艾克西斯·乔利。开放世界中的植物识别在 CLEF ： Conference and Labs of theEvaluation Forum，2016。[26] Nick Golding和Bethan V.钱包快速和灵活的生物物种分布建模使用高斯过程。生态学与进化方法，2016年。[27] David J.哈里斯用联合物种分布模型生成真实的组合生态学与进化方法，2015年。[28] Trevor Hastie和Will Fithian从仅在场数据推断;正在进行的争论。Ecography，2013.[29] James Hays和Alexei A Efros。IM2GPS：从单个图像估计地理信息。CVPR，2008。[30] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在CVPR，2016年。[31] 特洛伊·M黑格尔Cushman，Jeffrey Evans，and FalkHuettmann.物种分布统计建模的最新技术水平。在空间复杂性，信息学和野生动物保护。2010年。[32] 黄绍利、徐哲、陶大成、张雅。用于细粒度视觉分类的部分堆叠CNN。在CVPR，2016年。[33] AapoHyv ¨rinen和ErkkiOja。独立成分分析：算法与应用。神经网络，2000年。[34] 茱莉亚·琼斯杰弗里·米勒马特·怀特用于多物种分布建模的多标记InICML，2011.[35] Aditya Khosla ， Nityananda Jayadevaprakash ， Bangpeng Yao，and Fei-Fei Li.用于细粒度图像分类的新数据集：斯坦福的狗。2011年，CVPR关于细粒度视觉分类的研讨会[36] Diederik P Kingma和Jimmy Ba。Ad

下载后可阅读完整内容，剩余1页未读，立即下载