野外动物视觉识别数据集及其分析

142 浏览量更新于2023-10-13 收藏 1.73MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

在Terra IncognitaSara Beery，Grant Van Horn，Pietro Perona加州理工{sbeery，gvanhorn，perona} @ caltech.edu抽象。期望检测和分类算法推广到不熟悉的环境，但是用于定量地研究这种现象的合适的基准还不可用。我们提出了一个数据集，旨在衡量识别泛化到新的环境。我们的数据集中的图像是从部署用于监测动物种群的20个相机陷阱中收集的相机陷阱被固定在一个位置，因此背景在图像之间变化很小;捕获是自动触发的，因此不存在人为偏差。挑战是在少数几个地点学习识别，并将动物检测和分类推广到没有训练数据的新地点。在我们的实验中，最先进的算法在训练它们的相同位置进行测试时表现出优异的性能。然而，我们发现，推广到新的位置是穷人，尤其是1用于分类系统。关键词：识别，迁移学习，领域适应，上下文，数据集，基准。1介绍自动视觉识别算法最近在野外生物学[1-3]和医学[4，5]中的视觉分类任务在过去的10年中，对设计[6，7]、模型[8]和开发大型注释数据集[9，10]的组合已经取得了巨大的事实上，2017年可能会被铭记为自动视觉分类超越人类表现的一年。然而，众所周知，当前的学习算法的数据效率明显低于人类[11]，迁移学习是困难的[12]，并且，有时，视觉算法在数据集上不能很好地推广[13，14]（图13）。①的人。这些观察结果表明，当前的算法主要依赖于机械的模式识别，而不是从可以很好地推广到新情况的传统算法[ 15]中提取。为了取得进展，我们需要支持对泛化进行仔细分析的数据集，剖析检测和分类中的挑战：照明、视点、形状、照相机的颜色和风格的变化、颜色/背景的变化。他回顾了这一点：对新环境的概括，包括背景和整体照明条件。1数据集可在https://beerys.github.io/CaltechCameraTraps/上获得2S. Beery，G.Van Horn，和P.Perona(A) 奶牛：0.99，牧场：0.99，牧草：0.99，无人：0.98，哺乳动物：0.98(B) 无人：0.99，水：0.98，沙滩：0.97，户外：0.97，海滨：0.97(C) 无人：0.97，哺乳动物：0.96，水：0.94，海滩：0.94，两个：0.94Fig. 1.识别算法对新环境的泛化能力较差。牛不知道也不知道。G. 一个特定的场景被检测到并分类为正确的（A），而在不常见的环境（海滩、波浪和船）中的奶牛未被检测到（B）或分类不佳（C）。显示了由ClarifAI.com产生的前五个标签和置信度将视觉识别推广到新环境的能力至关重要的应用包括监视、安全、环境监测、辅助生活、家庭自动化、自动化探索（例如，将漫游者发送到其他星球）。通过相机陷阱进行环境监测是一个典型的应用。相机陷阱是放置在野外的热激活或运动激活相机，用于监测和调查动物种群和行为。相机陷阱已经变得便宜，因此对于给定的研究，通常会部署数百个相机陷阱，从而生成大量图像。图像中动物的自动检测和分类是必要的。挑战是从来自几个试点位置的数据训练动物检测器和分类器，使得这些检测器和分类器将推广到新的位置。相机陷阱数据针对包括照明的环境进行控制（相机是静态的，并且照明根据时间和天气条件系统地改变），并且消除摄影师偏差（相机自动激活）。相机陷阱对计算机视觉社区来说并不陌生[16-27，2]。我们的工作是第一个确定相机陷阱作为一个独特的机会，研究泛化，我们提供了第一个研究泛化到新的环境在这个受控的环境中。我们在这里作出三项贡献：（a）用于研究跨位置的视觉泛化的新颖的、注释良好的数据集，（b）作为真实算法的基准标记，以及（c）作为满足现有技术的水平的线性实验。我们的目标是通过引入一个新的数据集和实验协议来补充视觉社区用于检测和分类的当前数据集[9，10，28，29]，该数据集和实验协议可用于系统地评估算法对新环境的泛化行为。在这项工作中，我们对当前最先进的检测和分类管道进行了基准测试，发现有很大的改进空间在Terra Incognita中识别32相关工作2.1数据集ImageNet [9]，MS-COCO [10]，PascalVOC [28]和Open Images [29]数据集通常用于基准分类和检测算法。这些数据集中的图像由不同的人在不同的位置收集，这使得算法能够对摄影师风格和不相关的背景杂波进行平均。然而，如图所示。1，上下文可能有很强的偏见。人类摄影师偏向于光线充足，聚焦良好的图像，其中主体位于框架的中心[30，31]。此外，每个类的图像数量是平衡的，与现实世界中发生的情况不同[11]。诸如 iNaturalist 数据集 [1] 、 CUB200 [32] 、 Oxford Flowers [33] 、LeafSnap [34]和NABIrds700 [35]等自然世界数据集专注于细粒度物种分类和检测。这些数据集中的大多数图像都是由人类在相对良好的光照条件下拍摄的，尽管iNaturalist确实包含人类选择的相机陷阱图像。这些数据集中的许多数据集呈现出真实世界的长尾分布，但在所有情况下，位置和视角都存在大量的多样性。快照塞伦盖蒂数据集[21]是一个大型的，多年的相机陷阱数据集，收集了非洲稀树草原一个小区域的225个位置它是迄今为止收集的但是，它还不适合于受控实验。该数据集是从相机陷阱中收集的，相机陷阱针对每个运动触发器以3个序列发射，并且基于时间阈值为图像组提供物种注释这意味着有时为多达10个帧提供单个物种注释，而实际上动物仅存在于这些帧中的几个帧中（未提供边界框）。并非所有的相机陷阱项目都以类似的方式构造，许多相机在每个触发器上拍摄较短的序列甚至单个图像为了找到一个解决方案，适用于新的位置，而不管相机陷阱参数，重要的是要有信息，哪些图像在一批做或不包含动物。在我们的数据集中，我们在每个实例的基础上提供注释，为帧中的每个动物提供边界框和相关2.2检测由于相机陷阱是静态的，所以检测图像中的动物可以被认为是变化检测或前景检测问题。检测变化和/或前景对比视频背景是一个很好的研究问题[36]，[37]。这些方法中的许多依赖于构建定期更新的良好背景模型，并且因此在低帧速率下快速降级[38]和[39]考虑空间图像中的低帧速率变化检测，但是在这些情况下，每个位置通常只有非常少的示例。4S. Beery，G.Van Horn，和P.Perona一些相机陷阱在被触发时收集短视频，而不是帧序列。[20，23，22]示出了相机陷阱视频上的前景检测结果。来自大多数相机陷阱的数据以每秒1帧的帧速率在每次触发时获取帧序列。该数据可以被认为是“视频”，尽管具有低的、可变的格式。先前已经考虑了用于相机陷阱图像序列中的背景减除和前景分割的Staticalmehods[16]演示了一个图形切割的方法，使用背景建模和前景对象的显着性，以分割前地在相机陷阱序列。[24]创建背景模型并执行基于超像素的比较以确定运动区域。[25]使用应用于昼夜序列的基于多层RPCA的方法。[26]使用几种统计背景建模方法作为附加信号来改进和加速深度检测。这些方法依赖于在每个触发器处的帧序列来创建适当的背景模型，这并不总是可用的。这些方法都没有在其训练集之外的位置上证明结果。2.3分类一些研究解决了相机陷阱图像的分类。[18]显示了将松鼠与莫哈韦沙漠的陆龟[17]显示了在约10帧的预存图像序列时的分类结果。他们不考虑检测问题，而是手动从帧中裁剪动物并平衡数据集，从而产生了18个物种的总共7，196张图像，每个图像至少有100个示例。[19]是第一个采用深度网络方法进行相机陷阱分类的人，使用来自eMammal的数据[40]。他们首先使用[16]中描述的背景减除方法进行检测，然后对裁剪的检测区域进行分类，在20个常见物种上获得38.31%的top-1准确率。[27]显示了快照塞伦盖蒂和巴拿马丛林数据的分类结果[2]使用快照塞伦盖蒂数据集上的分类模型集合显示94.9%的以前的作品都没有在看不见的测试位置上显示结果。2.4泛化和领域适应泛化到一个新的位置是域适应的一个实例，其中每个位置表示一个域，该域具有自己的统计属性（如类型）植物群和动物群、物种频率、人为或其他杂乱、天气、相机类型和相机取向。已经提出了许多方法用于分类中的域适应[41]。[42]提出了一种无监督域自适应方法，通过最大化域分类损失，同时最小化目标类分类损失。我们将此方法推广到我们数据集的多域，但没有看到任何基线的改进。[43]证明了用于细粒度分类的类似方法的结果在Terra Incognita中识别5使用多任务设置，其中自适应是从干净的Web图像到真实世界的图像，[44]研究了开放集域自适应。已经提出了一些方法，用于分类之外的域适应[45-[48Raj等人例如，[53]展示了一种基于子空间的检测方法，用于从PASCAL到COCO的域3加州理工学院相机陷阱数据集加州理工学院相机陷阱（CCT）数据集包含来自140个相机位置的243，187张图像，这些图像来自USGS和NPS提供的数据。我们在本文中的目标是专门针对检测和分类的泛化问题。为此，我们从美国西南部随机选择了20个摄像头位置进行详细研究。通过限制地理区域，在各个位置看到的植物群和动物群保持一致。目前的任务不是处理全新的区域或物种，而是能够在不同的相机背景下识别相同区域中的相同物种的动物在未来，我们计划将这项工作扩展到识别新区域中的相同物种，以及识别从未见过的物种的开集问题。来自不同位置的数据的示例可以在图1中看到。二、相机陷阱是运动或热触发的相机，其被放置在生物学家感兴趣的位置，以便监测和研究动物种群和行为。当相机被触发时，以大约每秒一帧的速度拍摄一系列图像。我们的数据集包含长度为1- 5的序列。摄像机很容易因风或从地面升起的热量而导致错误触发如果在序列发射时动物移出相机的视场，则也可能发生空帧。每个月，生物学家都会回到相机那里更换电池和存储卡。在收集完数据后，专家们手动对相机陷阱数据进行分类，对物种进行分类，并删除空帧。手工分类和标记图像所需的时间严重限制了数据规模和研究生产力。我们已经获得并进一步策划了这些数据的一部分，以分析最先进的分类器和检测器的泛化行为。本文中的数据集，我们称之为Caltech Camera Traps-20（CCT-20），由20个位置的57，868张图像组成，每个图像都标记有15个类别之一（或标记为empty）。 Classare eeeithersinglespees（e. G.见图4用于跨位置的类和图像的分布我们不过滤陷阱收集的图像流，而是这是人类生物学家目前筛选的相同数据因此6S. Beery，G.Van Horn，和P.Perona数据在每个位置的图像数量、每个位置的物种分布以及物种总体分布方面是不平衡的（见图11）。4）.3.1检测和标记挑战图像中的动物即使对于人类来说，检测和分类也可能具有挑战性。我们已经确定，有六个主要的滋扰因素固有的相机陷阱的数据，可以复合在对方。这些挑战的详细分析可以在图中看到3.第三章。当图像太难自己分类时，生物学家通常会参考同一序列中更容易的图像，然后通过在序列帧之间翻转来跟踪运动，以便为每个帧生成标签（例如，图像）。该动物是否仍然存在或已离开图像平面？）.我们在我们的实验中，通过报告在帧级和序列级的性能来说明这一点。考虑帧级性能使我们能够调查当前模型在非常困难的情况下的限制。3.2注释我们在Amazon Mechanical Turk上收集了边界框注释，为每个图像从至少三个到最多十个mturker中获取注释，以确保冗余性和准确性。工作人员被要求为每张图像绘制一个特定类型动物的所有实例的框，由生物学家给序列的标签决定我们使用Branson等人的众包方法。[54]从我们的集体注释中确定地面实况框，并根据需要迭代收集额外的注释。我们发现边界框精度根据注释器而变化，并确定对于此数据，IoU的PascalVOC度量 ≥0 。5 适合于检测实验（与 COCO IoU平均度量相反）。3.3数据拆分：顺式和反式我们的目标是探索泛化到新的（即。未经训练）的位置。因此，我们比较了检测和分类算法的性能，当它们在训练它们的相同位置与新位置进行测试时。为了简洁起见，我们将在训练期间看到的位置称为顺式位置，将在训练期间没有看到的位置称为反式位置。从我们的20个位置池中，我们随机选择了9个位置用作trans-location测试数据，并随机选择了一个位置用作trans-location验证数据。从剩余的10个位置，我们使用奇数天拍摄的图像作为顺式位置测试数据。从偶数天采集的数据中，我们随机选择5%用作顺式位置验证数据。剩余的数据用于训练，约束条件是训练集和验证集不共享相同的图像序列。这为我们提供了来自顺式位置的13，553个训练图像、3，484个验证图像和15，827个测试图像，以及1，725个val和23，275个测试图像。在Terra Incognita中识别7图二. 三个不同地点的相机捕捉图像。每行是不同的位置和不同的相机类型。前两个摄像头使用IR，而第三排使用白色闪光灯。前两列是山猫，后两列是郊狼。(1) 照明（2）模糊（3）ROI大小(4)遮挡（5）伪装（6）透视图3.第三章。常见的数据挑战：（1）照明：动物并不总是突出的。(2) 运动模糊：夜间照明不佳。(3)感兴趣区域（ROI）的大小：动物可以很小或远离相机。(4)闭塞：例如我的意思是我的意思是（5）比较法：在一个比较法中，比较法是比较可靠的。(6)视角：动物可以靠近相机，导致身体的部分视图。8S. Beery，G.Van Horn，和P.Perona800060004000浣熊兔子土狼山猫猫空松鼠狗车鸟奇数天火车顺式-验证顺式检验转换-确认20000位置ID臭鼬啮齿动物鹿獾狐狸甚至几天位置ID跨测试见图4。（左）每个位置的注释数量，超过16个类。图例中的类的顺序总体上是从最多到最少的示例。该物种在每个位置的分布是长尾的，并且每个位置具有不同的和独特的分布。（Right）Visualizatioofdatasplits. “C i s”指的是在训练期间看到的来自本地化的数据，而“t ra n s”指的是在训练期间没有看到的新本地化数据。从trans-locations测试图像。数据分割可以在图1中可视化。4.我们选择按天交错cis训练和测试数据，因为我们发现使用单个日期来分割数据会导致额外的泛化挑战，因为植被和动物物种在不同季节的分布会发生变化。通过交错，我们减少了噪音，并提供了一个干净的实验比较结果的顺式和反式位置。4实验当前最先进的用于分类和检测的计算机视觉模型被设计为在分布与训练分布匹配的测试数据上工作良好。然而，在我们的实验中，我们明确地评估了不同测试分布上的在这种情况下，通常的做法是采用提前停车[55]作为防止列车分布过度装配的一种手段因此，对于所有的分类和检测实验，我们监测顺式和反式位置验证集的性能。在每个实验中，我们保存两个模型，一个我们期望在trans-location测试集上具有最佳性能（即，泛化的模型），另一个我们期望在cis-location测试集上具有最佳性能（即，在火车分布上表现良好的模型）。4.1分类我们在两种不同的设置中探索分类器的泛化：完整的图像和裁剪的边界框。对于每种设置，我们还探讨了使用和忽略序列信息的影响。序列信息以两种不同的方式利用：（1）最有信心如果来自分组在一起的所有帧的最有信心的预测是数量的图像384610043338812011561781050712551130281084090884312061108115335190381251304602840781007105在Terra Incognita中识别9正确，或者（2）如果任何帧被正确分类，则Oracle认为序列被正确分类。注意，（2）是序列信息的更乐观的使用对于所有分类实验，我们使用在ImageNet上预训练的Inception-v3 [56]我们采用随机裁剪（包含至少65%的区域），水平翻转和颜色失真作为数据增强。表1.实验中的分类前1错误对于这些实验，移除空图像顺式位置跨地点误差增加序列信息图片框图片框图片框没有一19.06 8.1441.04 19.56115% 140%最有信心17.7 7.0634.53 15.7795% 123%Oracle14.92 5.5228.69 12.0692% 118%完整图像。我们在完整图像上训练分类器，考虑所有15个类以及空图像（总共16个类）。在顺式位置测试集上，我们实现了20的前1错误。83%，前1名误差为41。08%，其中顺式至反式错误增加97%为了研究是否需要分类器来检测和分类动物增加了训练位置背景上的过拟合，我们删除了空图像并仅使用15个动物类重新训练分类器。性能保持在几乎相同的水平，前1名的错误为19。06%和41。顺式和反式位置分别为04%。利用序列信息有助于降低总体误差（实现14. 92%，28。69%），但即使在最乐观的oracle设置中，在顺式和反式位置上评估之间的误差仍然增加了92%。完整结果见表1。边界框。我们在裁剪的边界框上训练分类器，排除所有空图像（因为在这些情况下没有边界框不使用序列信息，我们实现了顺式位置top-1误差为8。14%，易位前1位误差为19。百分之五十六。虽然与图像级分类相比，总体误差已经降低，但顺式位置和反式位置之间的误差增加仍然高达140%。序列信息进一步改善了分类结果（实现了5. 52%和12。06%的顺式和反式位置分别），并略有减少的泛化误差，使误差增加下降到118%，在最乐观的设置。完整结果见表1。调查每个位置的图像数量、训练位置的数量和验证位置的选择的影响的附加实验可以在补充材料中看到。10S. Beery，G.Van Horn，和P.Perona分析图5提供了我们的实验结果的高水平总结。也就是说，顺式和反式位置之间存在泛化差距裁剪的框有助于提高整体性能（将蓝线垂直向下移动到红线），但差距仍然存在。在最好的情况下（红色虚线：裁剪的框和乐观地利用序列），我们看到顺式和反式位置之间的错误增加了92%（具有相同数量的训练示例），并且训练示例增加了20倍以具有相同的错误率。人们可能会想，这种泛化差距是否是由于两种位置类型之间的类分布的巨大变化但是图图7示出了位置之间的类的总体分布是相似的，并且因此可能不考虑性能损失。4.2检测我们使用Tensorflow Object Detection代码库[57]中的Faster-RCNN实现作为我们的检测模型。我们研究了使用两种不同主干的Faster-RCNN模型的性能， ResNet-101 [58] 和具有 atrous 卷积的 Inception- ResNet-v2[57]。类似于我们的分类实验，我们使用两种方法分析使用序列信息的效果：（1）最有信心，如果所有帧中最有信心的检测具有IoU≥ 0，则我们认为序列被正确标记。5与其匹配的地面实况框;（2）Oracle中，如果任意一个矩阵的most_t_c_n_t 5个带大箱子的箱子。注意，方法（2）比方法（1）更乐观我们的检测模型在COCO [10]上进行了预训练，图像大小调整为最大尺寸为1024，最小尺寸为600;每个实验都使用动量为0.9的SGD和固定的学习率计划。从0开始。我们在90k步和120k步处将学习速率衰减10倍我们使用批量大小为1，并采用水平翻转进行数据增强。为了评估，如果检测到的盒子的IoU ≥ 0，则我们认为该盒子是正确的。5、一个真实的盒子我们的实验结果可见于表2和图9中。我们发现，这两个骨干架构执行相似。在不考虑序列信息的情况下，模型在顺式位置上实现了〜77%的mAP，在反式位置上实现了〜71%的mAP使用最可信的度量添加序列信息改善了结果，使顺式和反式位置的性能达到约85%的相似值最后，使用oracle度量将两个位置的mAP带入90年代。两种检测器在帧和序列水平上的精确度-召回率曲线可以在图1中看到。9.第九条。分析当不使用序列时，我们的检测实验中的泛化误差显著低于我们在分类实验中观察到的泛化误差（检测的误差增加30%，分类的误差增加115%）。当使用序列信息时，用于检测的泛化误差减小到仅〜5%。在Terra Incognita中识别11图五.分类错误与特定类别的训练示例的数量。误差计算为1-AUC（精确度-召回率曲线下通过每个场景中每个类的error-vs-n.examples点的最佳拟合线（为清楚起见省略了点），平均r2= 0.261。在数据顶部的线拟合的示例可以在图中看到。7.第一次会议。正如预期的那样，误差随着训练示例的数量而减少。这对于顺式位置和反式位置上的图像分类（蓝色）和边界框分类（红色）都是正确的。然而，易位显示出显著更高的错误率。为了在边界框上以5.33%的错误率或在顺式位置的图像上以18%的错误率进行操作，我们需要500个训练示例，而我们需要10，000个训练示例来实现相同的错误率，数据增加了20倍。见图6。序列级跨分类失效病例：（基于边界框裁剪的分类）在第一序列中，网络努力区分“catch”和“bobcatch”，在所有具有0.82的平均置信度的序列中正确地预测“catch”。在第二序列中，网络努力对第一个数据集中的不熟悉的数据进行分类，并且在置信度为0.84的情况下以最快的速度进行分类在这种情况下，几乎没有额外的序列信息可用，因为下一帧只包含模糊的尾部，而最后一帧是空的18%的误5.33%误差18%的误5.33%误差500样品10，000个样本12S. Beery，G.Van Horn，和P.Perona104103102101100福克斯每个类别獾鹿啮齿动物臭鼬鸟狗松鼠汽车猫山猫郊狼兔浣熊100101102103104负鼠顺式位置100101102103104帧级Bbox性能：顺式位置类特定点最佳拟合线100101102103104每个类的见图7。（左）两个测试集的物种分布。（右）用于生成图中的曲线的线拟合的示例。5定性地，我们发现错误通常可以归因于使帧困难的我们看到图中描述的所有6个滋扰因素的示例3导致检测失败。当这些干扰因素存在于序列的所有帧中时，或者当序列仅包含含有动物的单个挑战性帧时，发生在序列级的剩余错误序列级检测失败的示例可以在图1中看到8. 帧级别的泛化差距意味着我们的模型能够更好地处理训练期间看到的位置处的干扰因素。我们的实验表明，当我们使用序列信息时，有一个小的泛化差距。然而，整体性能尚未饱和，并且当前最先进的检测器在高召回值下没有实现高精度（召回= 95%时的1%精度因此，虽然我们对结果感到鼓舞，但仍有改进的余地当我们单独考虑框架时，我们看到泛化间隙再次出现。诚然，这是一个困难的情况，因为不清楚没有序列信息的人的表现会是什么。然而，我们知道在这些帧中可以检测到物体，这个数据集将挑战下一代检测模型，以准确定位这些困难的情况。表2.在实验中在IoU=0.5下检测mAP顺式位置跨地点误差增加序列信息ResNet InceptionResNet InceptionResNet Inception没有一77.10 77.5771.3730% 27.6%最有信心84.78 86.2284.09 85.444.5% 5.6%Oracle94.95 95.0492.13 93.0939.3%跨地点误差在Terra Incognita中识别130见图8。序列水平的跨检测失败案例：红色表示最高置信度检测，蓝色表示地面实况。在所有情况下，检测的置信度低于0.2。前两个序列具有小的ROI，在第一个序列中具有挑战性的照明，在第二个序列中具有伪装的鸟类。在第三帧中，负鼠的光照很差，只能在第一帧中看到。1.00.80.60.40.20.0见图9。在IoU为0.5时，按帧和按序列，使用基于置信度的方法确定哪个帧应该代表序列的Faster-RCNN精确度IoU = 0.5IoU = 0.51.00.80.60.4顺式位置（按帧）顺式位置（按序列）反式位置（按帧）按序列的0.2顺式位置（按帧）顺式位置（按序列）反式位置（按帧）按序列的0.00.20.40.60.81.0.00.00.20.40.60.81.0召回召回精度精度14S. Beery，G.Van Horn，和P.Perona5结论新的图像统计的推广问题是在视觉识别的中心舞台许多指标表明，目前的系统数据效率低下，不能很好地推广到新的情况。目前的系统本质上是美化的模式匹配机器，而不是智能的视觉学习器。许多问题领域面临着泛化挑战，其中测试条件与训练期间所看到的可能存在很大差异。自动驾驶汽车在新的城市中导航，漫游者探索新的星球，安装在新建筑物中的安全摄像头，以及安装在新家庭中的辅助技术，都是良好的泛化对于系统有用至关重要的例子。然而，最流行的检测和分类基准数据集[9，10，28，29]是在与训练分布相同的测试分布上评估模型。显然，模型在来自与训练集相同分布的数据上表现良好是很重要的然而，我们认为，重要的是要表征这些模型的泛化行为时，测试分布偏离的火车分布。目前的数据集不允许研究人员量化其模型的泛化行为。我们贡献了一个新的数据集和评估协议，专门用于分析分类和检测模型的泛化行为。我们的实验表明，有显着的改进空间的国家的最先进的分类模型的generalization。检测有助于提高整体分类精度，我们发现，虽然检测器更好地推广到新的位置，有空间来提高他们的精度在高召回率。相机陷阱提供了一个独特的实验设置，使我们能够探索模型的泛化，同时控制许多讨厌的因素。我们目前的数据集已经揭示了分类和检测模型的有趣行为。我们还可以通过在数据量和评估指标方面扩展数据集来了解更多信息我们计划通过添加来自美国西南部和新地区的其他位置来扩展此数据集。剧烈的景观和植被变化将使我们能够在更具挑战性的环境中研究泛化。罕见和新颖的事件通常是最重要和最具挑战性的检测和分类，虽然我们的数据集已经具有这些属性，但我们计划定义实验协议和数据分割，用于基准测试低拍摄性能以及检测和/或分类训练期间未看到的物种的开集问题6确认我们要感谢USGS和NPS提供的数据。这项工作得到了NSFGRFP GrantNo. 1745301，这些观点是作者的观点，不一定反映NSF的观点。计算时间由AWS Research Grant提供。在Terra Incognita中识别15引用1. Van Horn，G. Mac Aodha，O.，Song，Y.，Shepard，A.，亚当H Perona，P.，Be- longie，S.：自然主义者挑战2017数据集。arXiv预印本arXiv：1707.06642（2017）2. Norouzzadeh，M.S.，Nguyen，A.，Kosmala，M.，Swanson，A.，帕克角Clune，J.：使用深度学习自动识别相机陷阱图像中的野生动物。arXiv预印本arXiv：1703.05830（2017）3. van Horn，G.，Barry，J.，Belongie，S.，Perona，P.： Merlin Bird ID智能手机应用程序（http：//merlin.allaboutbirds.org/download/）。4. Esteva，A.，库普雷尔湾诺沃亚，R.A.，Ko，J.，斯威特S.M. Blau，H.M.，Thrun，S.：皮肤科医生级别的皮肤癌分类与深度神经网络。自然542（7639）（2017）1155. 波普林河Varadarajan，A.V.，布鲁默，K. Liu，Y.，麦康奈尔医学博士科罗拉多州科拉多彭湖韦伯斯特，D.R.：通过深度学习从视网膜眼底照片预测心血管风险因素。Nature Biomedical Engineering（2018）16. 福岛，K.，Miyake，S.：Neocognitron：视觉模式识别机制的自组织神经网络模型。在：竞争与合作在网络中。S.P.R.G.（1982）2677. LeCun，Y.，博图湖Bengio，Y.，Haffner，P.：基于梯度的学习应用于D〇C〇m_n_t_cog_n。IEEE86（11）（1998）2278- 2324的出版物8. S cha ll er ， R. R. ： More s l a w ： p a s t ， p re s n t 和 f t u re 。IEEEspectrum34（ 6）（ 1997） 529. Deng，J.，Dong，W.，索赫尔河Li，L.J.，Li，K.，李菲菲：ImageNet：一个大规模层次化图像数据库。在：CVPR09中。（二零零九年）10. 林，T. 是的，我是M Belongie，S.，嗨，J.， Perona，P.， Ramanan，D. ，Dolla'r，P.，Zitnick，C.L.：微软coco：上下文中的公用对象。In：Europeanconferenceoncomputervision，Springer（2014）740-75511. Van Horn，G. Perona，P.：魔鬼在尾巴里：野外细颗粒分类。arXiv预印本arXiv：1709.01450（2017）12. 潘 S.J. Yang ， Q. ：迁移学习研究综述。 IEEE Transactions on knowl-edgeandd atae ngine ringg22（10）（20 10）134513. Torralba，A.，Efros，A.A.：无偏倚地看数据集偏倚。在：ComputerVision andPattern Reg nit i t ion （ CVP R）， 2011IEEEConfere nceo n，IEEE（2011）152114. 我们听着P 我们相信M Perona，P. 一种用于进行半监督分类器评估和重新校准的方法。在： Computer Vision andPatternRegnit i tion （ CVPR ），2013IEEEConferenceon，IEEE（2013）3262- 3269中15. Murphy，G.：概念书。麻省理工学院出版社（2004）16. Ren，X.，汉TX他，Z.：在高度动态场景中的集成视频对象剪切。在：计算机视觉和模式识别（CVPR），2013年IEEE会议，IEEE（2013）194717. Yu，X.，王杰，凯斯河Jansen，P.A.，王，T.，黄T：相机陷阱图像中动物物种的自动 EURASIP Journal on Image and Video Processing 2013（1）（2013）5218. Wilber，M.J.，Scheirer，W.J.，Leitner，P. Heflin，B.，Zott，J.，Reinke，D.，Delaney，D.K.，Boult，T.E.：莫哈韦沙漠中的动物识别：野外生物学家的视觉工具。在：计算机视觉应用（WACV），2013 IEEE研讨会，IEEE（2013）20619. Chen，G.，汉TX他，Z.，凯斯河Forrester，T.：基于深度卷积神经网络的物种识别在野生动物监测中的应用 In ： Image Processing （ ICIP），2014IEEEInternatalinC〇nference〇n，IEEE（2014）85816S. Beery，G.Van Horn，和P.Perona20. Lin，K.H.，Khorrami，P.王杰，Hasegawa-Johnson，M.，Huang，T.S.：使用显著性的高度动态场景中的前地目标检测。 In ： ImagePro-cessing（ICIP），2014IEE EInternationalConferencen，IEEE（2014）112521. Swanson，A.，Kosmala，M.，林托特角辛普森河Smith，A. Packer，C.：塞伦盖蒂平原，非洲热带草原40种哺乳动物的高频注释相机陷阱图像。科学数据2（2015）15002622. 张志，汉TX他，Z.：用于高度杂乱视频中动物分割的耦合集成图切割和对象验证。In：ImageProcessing（ICIP），2015IEEEInternationalConferenceon，IEEE（2015）283023. 张志，他，Z.，曹，G.，曹W：使用时空对象区域建议和补丁验证从高度杂乱的自然场景中检测动物 IEEETra nsactio nso nMultime dia18（10）（2016）207924. Miguel，A.，Beery，S.，Flores，E.，Klemesrud湖Bayrakcismith，R.：在相机陷阱图像中寻找运动区域。In：Image Processing（ICIP），2016IEEEInternatio nalCo nfere nceo n，IEEE（2016）133425. Giraldo-Zuluaga，J.H.，Salazar，A. Gomez，A.，Diaz-Pulido，A.：基于多层鲁棒主成分分析的陷阱图像分割TheVisualComputer（2017）126. Yousif，H.，Yuan，J.，凯斯河他，Z.：使用联合背景建模和深度学习分类从高度杂乱的相机陷阱图像中快速检测人类动物。In：Circuits andSystems（ISCAS），2017 IEEE International Symposium，IEEE（2017）127. 维拉， A.G. Salazar ， A. Vargas ， F. ： Towards automatic wild animalmonitoring：Identification of animal species in camera-trap images using verydeep convolu-tionalneuranetworks. 生态学文献41（2017）2428. Everingham，M.凡古尔湖威廉姆斯，C.K.，Winn，J.，齐瑟曼，A.：pascal视觉对象类（voc）的挑战。国际计算机学报88（2）（2010）30329. 克拉辛岛Duerig，T.，Alldrin，N.，法拉利，V。，Abu-El-Haija，S.，Kuznetsova ， A. ， Rom ， H. ， Uijlings ， J. ， Popov ， S. ， Veit ， A. ，Belongie，S.，Gomes，V. Gupta，A.，孙角，澳-地Chechik，G.，Cai，D.，冯志，Narayanan，D.Murphy，K.：Openimages：用于大规模多标签和多类别图像分类的公共数据集。数据集可从https://github.com/openimages获得（2017）30. Ponce，J.，Berg，T.L.，Everingham，M.福赛斯地方检察官Hebert，M.，Lazebnik，S.，Marszalek，M.，施密德角拉塞尔，不列颠哥伦比亚省，Torralba，A.，等：对象识别中的数据集问题。在：向类别级对象识别。03 The Dog（2006）31. 西班牙，M. Perona，P.：一些对象比其他对象更平等：衡量和预测重要性。In：European Conference on Computer Vision（ECCV），Springer（2008）52332. Wah，C.，Branson，S.，Welinder，P. Perona，P.，Belongie，S.：加州理工学院-ucsd鸟类-200-2011数据集。（2011年）33. 尼尔斯贝克法医齐瑟曼，A.：花分类的视觉词汇表。IEEE计算机视觉和模式识别会议论文集。第2卷。（2006）144734. Kumar ， N. ， Belhu

下载后可阅读完整内容，剩余1页未读，立即下载