长期时间一致性改善摄像头目标检测的方法

179 浏览量更新于2023-10-25 收藏 14.76MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1130750Context R-CNN：用于每个摄像头目标检测的长期时间背景0Sara Beery* †，Guanhang Wu†，Vivek Rathod†，Ronny Votel†，Jonathan Huang†0加利福尼亚理工学院* Google †0摘要0在静态监控摄像头中，有用的上下文信息可以远远超出典型视频理解模型可能看到的几秒钟：受试者可能在多天内表现出相似的行为，背景物体保持静止。由于功耗和存储限制，采样频率很低，通常不超过每秒一帧，有时由于使用了运动触发器而不规则。为了在这种情况下表现良好，模型必须对不规则的采样率具有鲁棒性。在本文中，我们提出了一种利用来自新摄像头的未标记帧的时间背景来提高该摄像头性能的方法。具体而言，我们提出了一种基于注意力的方法，允许我们的模型ContextR-CNN在每个摄像头上构建的长期记忆库中进行索引，并从其他帧中聚合上下文特征，以提高当前帧上的目标检测性能。我们将ContextR-CNN应用于两种情况：（1）使用相机陷阱进行物种检测，以及（2）在交通摄像头中进行车辆检测，结果显示在这两种情况下，ContextR-CNN相对于强基准模型具有性能提升。此外，我们还表明增加上下文时间范围可以获得更好的结果。当应用于来自Snapshot Serengeti数据集的相机陷阱数据时，ContextR-CNN在具有长达一个月图像的上下文的情况下，相对于单帧基准模型提高了17.9％的mAP，并且相对于基于3D卷积的基准模型S3D提高了11.2％的mAP。01. 引言我们致力于改进被动监控摄像头中的识别能力，这些摄像头是静态的，并且在长时间范围内收集稀疏数据。1被动监控部署是无处不在的，并为计算机视觉提供了独特的挑战，但也提供了可以用于提高准确性的独特机会。例如，根据触发机制和摄像机位置的不同，任何给定摄像机位置的照片数量可能没有任何感兴趣的对象（对于某些生态学相机陷阱数据集，高达75％）[30]。此外，由于静态被动监视图像中的图像01 模型和代码将在网上发布。0图1：长期时间一致性的视觉相似性。在静态摄像机中，存在着比移动摄像机数据中更多的长期时间一致性。上述每种情况中的图像是在不同的天拍摄的，但看起来非常相似。0由于摄像机是自动拍摄的（没有人类摄影师），无法保证感兴趣的对象会居中、聚焦、光线良好或具有适当的比例尺。我们将这些挑战分为三类，每一类都可能导致单帧检测网络的失败：0•部分观察到的感兴趣对象。对象可能非常靠近摄像机，并且由于帧的边缘而被遮挡，由于伪装而在环境中部分隐藏，或者离摄像机很远。•图像质量差。对象的光线不足、模糊或被雪或雾等天气条件遮挡。•背景干扰物。当移动到新的摄像机位置时，可能存在引人注目的背景物体，导致重复的误报。0这些案例即使对人类来说也往往很困难。另一方面，被动监控问题领域中的某些方面给我们带来了希望——例如，受试者在多天内往往表现出相似的行为，背景物体保持静止，这表明提供来自同一摄像头的附加帧的时间背景将是有益的。事实上，我们预期观看被动监控录像的人类经常会倒回去以获得更好的观察困难看到的物体的视角。130760(a) 物体移出画面。0(b) 物体高度遮挡。0(c) 物体远离相机。0(d) 物体光线不足。0(e)背景干扰物。图2：静态监测相机挑战。没有人类摄影师拍摄的图像没有质量保证；我们突出显示导致单帧系统错误的挑战（左侧），并由我们的模型修正（右侧）。单帧错误检测结果以红色表示，由我们的模型修正的检测结果以绿色表示，两个模型都正确检测到的目标以蓝色表示。0单帧模型漏检的并由我们的方法进行修正的检测结果以绿色表示，两个模型都正确检测到的目标以蓝色表示。请注意，在相机陷阱中，由于动物物种的群体行为，图像内部的上下文信息非常强大。0这些观察结果构成了我们模型的直观基础，该模型可以学习如何找到并使用来自同一相机的其他潜在更容易的示例来帮助改善检测性能（参见图2）。此外，与大多数现实世界的数据[41]一样，交通摄像头和相机陷阱数据都具有长尾类别分布。通过为其他示例提供稀有类别的上下文信息，我们改善了性能。0在长尾和常见类别上提高性能。具体而言，我们提出了一种检测架构ContextR-CNN，它在静态相机内执行检测的同时学习可微分索引到长期记忆库中。该架构具有灵活性，即使在上述低帧率和变化帧率的场景中也适用。从高层次上看，我们的方法可以被看作是一个非参数估计方法（如最近邻）在一个高功率参数化函数（FasterR-CNN）之上。当训练和测试位置相差很大时，人们可能不会期望参数化方法很好地泛化[6]，而ContextR-CNN能够利用测试样本的无标签“邻域”来改善泛化能力。0我们专注于两个静态相机领域：0•相机陷阱是生物学家用来研究动物物种出现、种群和行为的远程静态监测相机。定量监测生物多样性可以帮助我们了解物种衰退与污染、开发利用、城市化、全球变暖和政策之间的联系。 •交通摄像头是用于监测道路和交叉口以分析交通模式并确保城市安全的静态监测相机。0在这两个领域中，单个相机位置内的上下文信号很强，我们允许网络确定哪些先前的图像与当前帧相关，而不考虑它们在时间序列中的距离。这在静态相机中非常重要，因为物体会表现出周期性的习惯性行为，导致它们在几天甚至几周后出现。例如，一只动物可能每天早晚都会沿着同一条小径去水源，或者一辆公交车沿着固定路线定期返回。0总结我们的主要贡献：0• 我们提出了ContextR-CNN，它利用时间上下文来改善目标检测，无论帧率或采样不规则性如何。它可以被看作是一种通过整合无标签图像来提高对新相机的泛化能力的方法。 •我们在强大的单帧基线上取得了重大改进；在常用的相机陷阱数据集上，我们将0.5 IoU的mAP提高了17.9%。 •我们展示了ContextR-CNN能够利用长达一个月的时间上下文，这比之前的方法显著多。02. 相关工作单帧目标检测。受到COCO [24]和Open Images[21]等流行基准的推动，目前已经有许多单帧目标检测的方法被提出。130770近年来，单帧目标检测取得了许多进展。这些检测架构包括基于锚点的模型，既有单阶段模型（如SSD[26]、RetinaNet [23]、Yolo [31,32]），也有两阶段模型（如Fast/Faster R-CNN [14, 18,33]、R-FCN[10]），还有最近的无锚点模型（如CornerNet[22]、CenterNet [55]、FCOS[40]）。目标检测方法在COCO或Imagenet风格的图像上取得了很大的改进，但这些收益并不总是适用于具有挑战性的真实世界数据（见图2）。视频目标检测。单帧架构是视频检测和时空动作定位架构的基础，后者通过整合其他帧的上下文线索来处理视频数据中出现的更具体的挑战，包括运动模糊、遮挡和罕见的姿势。领先的方法使用像素级光流（或类似光流的概念）来聚合特征[7,56-58]，或使用相关性[13]来密集关联当前时间步的特征与相邻时间步的特征。其他论文则探索了使用3D卷积（如I3D、S3D）[8, 28, 47]或循环网络[20,25]来提取更好的时间特征。最后，许多作品对视频特定的后处理进行“平滑”，包括管道平滑[15]或SeqNMS[16]。基于对象级注意力的时间聚合方法。上述大多数视频检测方法不适用于我们的目标设置，即稀疏、不规则的帧率。例如，基于光流的方法、3D卷积和LSTM通常假设稠密、规则的时间采样。而像LSTM这样的模型理论上可以依赖视频中的所有过去帧，但它们的有效时间感受野通常要小得多。为了解决循环网络的这个局限性，自然语言处理领域引入了基于注意力的架构，以利用句子中的长距离依赖关系[3,12, 42]。视觉领域也采用了基于注意力的架构[27, 37,38]，利用更长期的时间上下文。在同样的思路下，与我们的工作最相关的是最近的一些工作[11, 36, 45,46]，它们依赖于非局部注意力机制来在时间上聚合对象级别的信息。例如，吴等人[45]将非局部注意力[44]应用于人体检测，以从预先计算的特征库中累积上下文信息（使用冻结的预训练特征提取器）。这些特征库将网络的时间范围扩展到每个方向上的60秒，从而在时空动作定位上取得了良好的结果。我们同样使用了一个冻结的特征提取器，可以创建极长期的记忆库，利用静态相机的空间一致性和被拍摄对象的习惯性行为（长达一个月）。然而，吴等人使用了一个03D卷积神经网络（I3D）用于短期特征，但由于低、不规则的帧率，不适合我们的设置。相反，我们使用单帧模型来处理当前帧，这更类似于[11, 36,46]，他们提出了这个想法的变体，用于在ImagenetVid数据集上实现视频目标检测并取得了强大的结果。与这三篇论文不同的是，我们的模型还使用了额外的专用短期注意机制，我们在实验中证明其有效性。独特的是，我们的方法还允许将负例加入到记忆中，这使得模型能够学习忽略由于静止而导致的空帧中显著的误报；我们发现我们的网络能够在没有监督的情况下学习背景类别（例如岩石、灌木）。更一般地说，我们的论文进一步证明了在对象级别上在时间上聚合信息的这种基于注意力的方法对于在视频理解中增加更多上下文非常有效。事实上，我们认为它在我们的稀疏不规则帧样本和静态摄像头的设置中尤其有用。虽然一些竞争基线模型（如3D卷积和基于光流的技术）在ImagenetVid上的表现几乎与这些基于注意力的模型一样好，但是这些基线模型并不适合我们的设置。因此，我们从之前的非注意力方法到我们的注意力方法中看到了更大的性能提升。相机陷阱和其他视觉监控系统。图像分类和目标检测越来越多地被用作减少相机陷阱数据中动物物种分类和计数的繁重任务的工具[4-6, 29, 30, 34, 43, 49, 50,53]。检测已经被证明可以极大地提高这些模型对新相机位置的泛化能力[6]。[6, 30,49]还表明，时间信息是有用的。然而，以前的方法不能报告每个图像的物种识别（而是在突发级别上识别类别），不能处理包含多个物种的图像突发，并且不能提供每个图像的定位信息和物种计数，这些对生物学家来说都很重要。此外，交通摄像头、安全摄像头和山区通行证上的天气摄像头经常是静止的，并且用于长时间尺度上的地点监控。对于交通摄像头，之前的工作侧重于人群计数（例如，计算每个图像中的车辆或人数）[2, 9, 35, 52,54]。一些最近的工作研究了在交通摄像头数据集中使用时间信息[48,51]，但这些方法只关注短期时间范围，并且没有利用长期上下文。0130780（b）单个注意力块。图3：ContextR-CNN架构。（a）模型的高级架构，短期和长期注意力按顺序使用。短期和长期注意力是模块化的，系统可以同时使用其中一个或两个。（b）我们看到注意力块的详细实现，其中n是RPN为关键帧提出的边界框数量，m是比较特征的数量。对于短期注意力，m是窗口中所有帧的所有建议框的总数，如（a）中的Mshort所示。对于长期注意力，m是长期的特征数量。0与当前剪辑相关的长期记忆库M。有关构建该记忆库的详细信息，请参见第3.1节。0我们提出的方法ContextR-CNN基于上下文帧构建了一个“记忆库”，并修改了检测模型以使预测依赖于该记忆库。在本节中，我们讨论（1）检测架构的选择原理，（2）如何表示上下文帧，以及（3）如何将这些上下文帧特征融入模型以改进当前帧的预测。由于我们稀疏、不规则的输入帧率，典型的时间架构（如3D卷积神经网络和循环神经网络）不适用，因为帧之间缺乏时间一致性（帧之间存在显著变化）。相反，我们在单帧检测模型的基础上构建了ContextR-CNN。此外，基于我们的直觉，移动物体表现出周期性行为并倾向于出现在相似的位置，我们希望通过在上下文帧中的实例级特征上进行条件预测来提高我们的预测能力。因此，我们选择FasterR-CNN架构[33]作为基础检测模型，因为该模型仍然是一种高度竞争的元架构，并且提供了明确的选择来提取实例级特征。我们的方法可以轻松适用于任何两阶段检测框架。简要回顾一下，FasterR-CNN分为两个阶段。首先，图像通过第一阶段的区域建议网络（RPN），该网络在运行非最大值抑制后返回一组类别不可知的边界框建议。然后，这些边界框建议被传递到第二阶段，该阶段通过ROIAlign操作[17,19]提取实例级特征，然后进行分类和边界框细化。在ContextR-CNN中，第一阶段的边界框建议被路由到两个基于注意力的模块中，这些模块（可微分地）索引到记忆库，使模型能够根据上下文进行预测。0为了在FasterR-CNN的第二阶段中提供局部和全局的时间上下文，我们使用基于注意力的模块来合并来自上下文帧（由同一摄像机看到）的特征。这些基于注意力的模块返回一个上下文感知的特征向量，然后按照普通的方式将其传递到FasterR-CNN的第二阶段。在下一节（3.1）中，我们将讨论如何使用内存库来表示上下文帧的特征，并详细介绍我们对注意力模块的设计。请参见图3以了解我们的流程图。03.1.从上下文特征构建内存库0长期记忆库（Mlong）。给定我们想要检测对象的关键帧it，我们在预定义的时间范围it-k：it+k内迭代同一摄像机的所有帧，对每个帧运行一个冻结的预训练检测器。我们从对应于检测结果的特征向量中构建我们的长期记忆库（Mlong）。鉴于硬件内存的限制，决定存储在内存库中的内容是一个关键的设计选择。我们使用三种策略来确保我们的内存库可以被存储。0•我们获取RPN中裁剪提案后的实例级特征张量，并仅保存每个这样的张量的空间池化表示，该表示与日期时间和框位置的时空编码连接在一起（产生每个框的嵌入向量）。0•我们通过限制我们存储特征的提案数量来策划 -我们考虑多种策略来决定保存到我们的内存库中的特征的哪些和多少，有关更多详细信息，请参见第5.2节。130790图4：可视化注意力。在每个示例中，关键帧以较大的比例显示，显示了Context R-CNN的检测、类别和得分。0红色。我们考虑一个一个月的时间范围，并显示具有最高注意权重的图像和框（以绿色显示）。模型关注相同类别的对象，并且可以在每个示例下方的时间线中看到注意力的分布。疣猪对小径的习惯性使用导致有用的上下文在一个月内分散，而静止的瞪羚导致最有用的上下文来自同一天。长期注意模块是自适应的，选择从时间范围内最有用的帧中聚合信息。0•我们依赖于一个预训练的单帧FasterR-CNN，使用Resnet-101骨干作为冻结的特征提取器（因此在反向传播过程中不需要考虑）。在实验中，我们考虑了仅在COCO上预训练的提取器，或者在每个数据集的训练集上进行微调的提取器。我们发现COCO特征可以有效使用，但最佳性能来自于经过微调的提取器（参见表1（c））。0通过使用这些策略和我们稀疏的帧率，我们能够构建内存库，容纳多达8500个上下文特征 -在我们的数据集中，这足以表示一个月的相机上下文。短期记忆（Mshort）。在我们的实验中，我们展示了包括一个单独的机制，用于将附近帧的短期上下文特征与关键帧一起使用，使用相同的经过训练的第一阶段特征提取器。这与我们上面的长期记忆不同，我们在较长的时间范围内使用冻结的特征提取器构建。与长期记忆不同，我们不会策划短期特征：对于较小的窗口大小，可以将所有框提案的特征保存在内存中。我们将当前帧周围的所有帧内的裁剪实例级特征的堆叠张量进行全局池化（通常≤5帧），并在空间维度（宽度和高度）上进行全局池化。这将产生一个形状为（＃每帧的提案＊＃帧）×（特征深度）的矩阵，其中每个框提案包含一个嵌入向量（我们称之为短期记忆M short ），然后传递到短期注意块中。03.2. 注意力模块架构0我们定义了一个注意力块[42]，它根据输入特征聚合上下文特征，具体如下（见图3）：设A为当前帧的输入特征张量（在我们的设置中，其形状为[n×7×7×2048]，其中n是由FasterR-CNN的第一阶段发出的候选框的数量）。我们首先在特征的宽度和高度维度上对A进行空间池化，得到形状为[n×2048]的Apool。设B为上下文特征矩阵，其形状为[m×d0]。我们设置B = M short或Mlong。我们将k(∙; θ)定义为键函数，q(∙; θ)定义为查询函数，v(∙; θ)定义为值函数，f(∙;θ)定义为最终的投影函数，将我们返回到正确的输出特征长度以添加回输入特征。我们使用不同的θ（θ long或θshort）来进行长期或短期的注意力。在我们的实验中，k、q、v和f都是全连接层，输出维度为2048。我们使用标准的点积注意力计算注意力权重w：0或θshort）用于长期或短期的注意力。在我们的实验中，k、q、v和f都是全连接层，输出维度为2048。我们使用标准的点积注意力计算注意力权重w：0w = Softmax � (k(A pool; θ) ∙ q(B; θ)) / (T√0d) � , (1)0其中T >0是softmax温度，w是形状为[n×m]的注意力权重，d是特征深度（2048）。然后，我们通过对上下文特征进行投影加权求和来构建每个框的上下文特征F context：0F context = f(w ∙ v(B; θ); θ), (2)0其中Fcontext在我们的设置中的形状为[n×2048]。最后，我们将F context作为每个特征通道的偏置添加回原始输入特征A。1308004.数据我们的模型适用于变量、低帧率的真实世界静态摄像头系统，并在两个这样的领域进行测试：相机陷阱和交通摄像头。由于摄像头是静态的，我们将每个数据集分成不同的摄像头位置进行训练和测试，以确保我们的模型不会过拟合到验证集[6]。相机陷阱。相机陷阱通常被编程为在每次运动触发后捕获1-10帧图像（以1fps拍摄），这导致数据具有可变的低帧率。在本文中，我们在Snapshot Serengeti（SS）[39]和Caltech CameraTraps（CCT）[6]数据集上测试我们的系统，每个数据集都有人工标注的一部分数据的边界框。我们通过将来自Microsoft AI for Earth MegaDetector[5]的类别不可知的检测到的边界框与我们的训练位置上的图像级物种标签配对，增加了用于训练的边界框标记图像的数量。SS有10个公开可用的数据季节。我们使用第1-6季，包含225个摄像头，320万张图像和48个类别。CCT包含140个摄像头，24.3万张图像和18个类别。这两个数据集都有大量的错误运动触发，SS为75%，CCT为50%，因此许多图像中不包含动物。我们使用[1]中提出的位置划分数据，并在每个数据集的验证位置上评估具有人工标注边界框的图像（SS为45个位置的64K张图像，CCT为40个位置的62K张图像）。交通摄像头。CityCam数据集[52]包含10种车辆类别，约60K帧和90万个注释对象。它覆盖了一个高交通密度城市中市区交叉口和公园道路的17个摄像头，并且数据的“片段”会在一天内多次采样，跨越数月和数年。数据具有多样性，包括白天和夜晚、雨天和雪天、高交通密度和低交通密度。我们在训练中使用13个摄像头位置和4个摄像头进行测试，两个集合中都包括公园道路和市区位置。05.实验我们使用已建立的目标检测指标对所有模型进行评估，包括平均精度均值（mAP）和平均召回率（AR）在0.5IoU下。我们将结果与三个数据集的（可比较的）单帧基准进行比较。我们主要在一个数据集SnapshotSerengeti上进行实验，研究短期和长期注意力、特征提取器、长期时间范围和Mlong的逐帧采样策略的影响。我们进一步探索了在CityCam中每帧添加多个特征的可能性。5.1. 主要结果0Context R-CNN在Snapshot Serengeti（SS）和CaltechCamera Traps（CCT）数据集上明显优于单帧FasterRCNN与Resnet-101基准模型。0SS CCT CC0模型 mAP AR mAP AR mAP AR0单帧 37.9 46.5 56.8 53.8 38.1 28.20Context R-CNN 55.9 58.3 76.3 62.3 42.6 30.20（a）跨数据集结果0SS mAP AR0一分钟 50.3 51.40一小时 52.1 52.50一天 52.5 52.90一周 54.1 53.20一个月 55.6 57.50（b）时间范围0SS mAP AR0每帧一个框 55.6 57.50COCO特征 50.3 55.80仅正样本框 53.9 56.20子采样一半 52.5 56.10子采样四分之一 50.8 55.00（c）选择内存0SS mAP AR0单帧 37.9 46.50多数投票 37.8 46.40ST Spatial 39.6 36.00S3D 44.7 46.00SF Attn 44.9 50.20ST Attn 46.4 55.30LT Attn 55.6 57.50ST+LT Attn 55.9 58.30（d）模型比较0CC mAP AR0单帧 38.1 28.20前1个框 40.5 29.30前8个框 42.6 30.20（e）将框添加到M长期0表1：结果。所有结果基于具有Resnet 101骨干的FasterR-CNN。我们考虑了Snapshot Serengeti（SS），Caltech CameraTraps（CCT）和CityCam（CC）数据集。所有mAP值都使用0.5的IoU阈值，并且AR报告的是前一个预测（AR@1）。0数据集，并且在CityCam（CC）交通摄像头数据上也显示出有希望的改进（见表1（a））。对于所有实验，除非另有说明，我们使用经过微调的数据集特定特征提取器用于存储器库。我们在CCT上的mAP@0.5IoU绝对改进为19.5%，在SS上为17.9%，在CC上为4.5%。召回率也有所提高，CC上的AR@1提高了2%，SS上提高了11.8%，CCT上提高了8.5%。对于SS，我们还与几个具有短期时间信息访问权限的基准进行了比较（表1（d））。我们的结果如下：0• 我们首先考虑简单的多数投票（Maj.Vote），即在窗口内的高置信度单帧检测结果上进行多数投票，发现相对于单帧基准模型并没有改进。•我们尝试利用相机的静态性质，通过对关键帧的RPN框分类器特征与相同框位置周围帧的裁剪RPN特征进行时序距离加权平均（STSpatial），发现相对于单帧基准模型有1.9%的mAP提升。• S3D[47]，一种流行的视频目标检测模型，相对于单帧模型有6.8%的mAP提升，尽管它是为一致采样的高帧率视频设计的。•由于相机陷阱中的动物通常以群体形式出现，跨目标的图像内上下文是有价值的。一种直观的130810图5：每个类别的性能。我们的性能改进在各个类别上都是一致的：我们将SS每个物种的mAP从单帧模型可视化到我们最好的长期和短期存储模型。0基准是将短期注意力上下文窗口（M短期）限制在当前帧（SFAttn）上。这样可以消除时间上下文，显示我们通过以非局部方式在框提议之间明确共享信息所获得的改进程度。我们发现，通过添加这个非局部注意力模块，相对于普通的单帧模型，我们可以获得7%的mAP提升。•当我们将短期上下文窗口增加到三帧，即关键帧加上两个相邻帧（STAttn），我们看到额外的1.5%的mAP提升。•如果我们只考虑长期注意力，时间范围为一个月（LTAttn），相对于短期注意力，我们看到9.2%的mAP提升。• 将这两个注意力模块结合到一个单一模型中（ST+LTAttn），我们看到最高的性能为55.9%的mAP，并且在不平衡数据集中的所有类别中都有改进，如图5所示。05.2. 改变时间范围（表1（b））0我们通过增加Mlong的时间范围来消融我们的长期仅关注实验，并发现随着时间范围的增加，性能也会提高。即使只在内存中存储一分钟的表示，我们也看到与单帧模型相比有很大的性能提升。这是由于采样策略，每个运动触发器都捕获到高度相关的图像突发事件。长期注意力块可以自适应地确定如何聚合这些信息，并且在单个突发事件的图像之间有很多有用的上下文。然而，有些相机只在触发时拍摄一张图片；在这种情况下，长期上下文变得更加重要。ContextR-CNN对于训练和改善性能的数据具有适应性，不仅具有可变帧率，还具有不同的采样策略（时间间隔，运动触发器，热触发器和每次触发的1-10张图像突发事件），这是我们系统的一个有价值的属性。在图7中，我们使用0.01的注意力权重阈值探索了每个图像的最高得分框与其最接近的特征之间的时间差异。我们可以看到每周的白天/黑夜周期性。0（a）小时0（b）日0（d）月图6：随时间的关注。我们将注意力权重阈值设为0.01，并绘制最高得分对象与关注帧之间的时间差的直方图，以获得不同的长期时间范围。请注意，y轴是对数刻度。每个直方图的中央峰值显示了附近帧的值，但注意力覆盖了整个时间范围。0提供了以下信息：即如果给定一个月的上下文，ContextR-CNN将使用它。当使用一个长达一周或一个月的内存库时，还可以观察到强烈的白天/黑夜周期性。0和长达一个月的图表，显示注意力集中在同一时间捕获的对象上。随着时间范围的增加，注意力模块的时间多样性增加，我们看到ContextR-CNN关注的是时间范围内可用的内容，倾向于更多地关注时间上附近的图像（见图4中的示例）。05.3. 构建M long 的上下文特征。0特征提取器（表1（c））。对于SnapshotSerengeti，我们考虑了在COCO上训练的特征提取器和在COCO上训练后在SS训练集上进行微调的特征提取器。我们发现，虽然来自SS训练集的一个月的上下文对于SS调整的特征提取器的mAP比仅在COCO上训练的特征提取器高5.3％，但我们使用从未见过相机陷阱图像的内存特征能够比单帧模型提高12.4％的性能。子采样内存（表1（c））。我们通过减小存储在内存库中的表示的步幅来进一步消融我们的长期记忆，同时保持一个月的时间范围。如果我们使用步幅为2，即将内存库进行一半的子采样，我们会看到mAP下降3.1％，置信度为0.5。如果我们将步幅增加到4，我们会看到额外的1.7％下降。如果我们不增加步幅，而是通过仅采用正例进行子采样（使用一个oracle来确定哪些图像包含动物，以进行实验），我们发现性能仍然下降（下面会详细探讨）。保留空图像的表示。在我们的静态相机场景中，我们选择将特征添加到我们的130820图7：空图像上的误报。当添加特征时，0从空图像到内存库，与没有负样本表示的相同模型相比，我们在所有置信度阈值上减少了误报。请注意，y轴是对数刻度。单帧模型的高置信度误报比任何上下文模型都少，但是当给定正负上下文时，Context R-CNN能够0通过分析ContextR-CNN在标记为“空”的图像上的100个最高置信度的检测结果，我们发现有97个图像中注释员错过了动物。0从所有帧中构建长期记忆库，包括空帧和非空帧。这个决策的直觉是静态摄像机画面中存在着显著的背景物体，这些物体随时间不变，可以被单帧架构重复和错误地检测到。我们假设来自冻结特征提取器的特征在视觉上具有代表性，因此足以表示前景和背景。通过保存高度显著的背景物体的表示，我们希望使模型能够在没有监督的情况下学习每个摄像头的显著背景类别和位置，并在检测输出中抑制这些物体。在图7中，我们可以看到添加空表示可以减少在所有置信度阈值下的误报数量，相比只有正表示的模型。我们调查了ContextR-CNN的100个最高置信度的“误报”，发现其中几乎所有的（97/100）都是模型正确地发现和分类的动物，而人工注释员却错过了。Snapshot Serengeti数据集报告其标签中有5%的噪声[39]，查看ContextR-CNN在标记为“空”的图像上的高置信度预测在直观上是捕捉这些缺失标签的好方法。其中一些确实具有挑战性，动物很难被发现，注释错误是不幸但合理的。大多数确实只是标签噪声，动物的存在是显而易见的，这表明我们的性能改进估计可能是保守的。保留每个图像的多个表示（表1（e））。在SnapshotSerengeti中，非空图像平均每个图像有1.6个对象和1.01个类别，而75%的图像是空的。大多数图像只包含一个对象，而少数图像中有大群同一物种的动物。鉴于这一点，只选择得分最高的检测结果添加到内存中是有意义的，因为该对象很可能代表图像中的其他对象（例如，从一幅有斑马群的图像中只保留一个斑马示例）。然而，在CityCam中，平均每帧有14个对象和4个类别，只有0.3%的帧是空的。在这种情况下，将额外的对象存储在内存中是直观上有用的，以确保内存库能够代表摄像机位置。我们研究了从得分最高的1个和8个检测中添加特征，并发现每帧选择8个对象可以获得最佳性能（见表1（e））。我们方法的一个逻辑扩展是根据置信度和多样性来选择要存储的对象。失败模式。这种基于相似性的注意力方法的一个潜在失败案例是产生幻觉。如果测试位置的一张图像包含一个非常强烈被错误分类的物体，那么这个错误可能会对该摄像机的其他检测结果产生负面影响。例如，在探索SnapshotSerengeti数据集上的置信度高的“误报”时（几乎都是被人工注释员错过的真实检测结果），ContextR-CNN错误地检测到的动物的3/100张图像都是同一棵树，高度自信地预测为长颈鹿。075%的图像是空的。大多数图像只包含一个对象，而少数图像中有大群同一物种的动物。在这种情况下，选择只有最高得分的检测结果添加到内存中是有意义的，因为该对象很可能代表图像中的其他对象（例如，从一幅有斑马群的图像中只保留一个斑马示例）。然而，在CityCam中，平均每帧有14个对象和4个类别，只有0.3%的帧是空的。在这种情况下，将额外的对象存储在内存中是直观上有用的，以确保内存库能够代表摄像机位置。我们研究了从得分最高的1个和8个检测中添加特征，并发现每帧选择8个对象可以获得最佳性能（见表1（e））。我们方法的一个逻辑扩展是根据置信度和多样性来选择要存储的对象。失败模式。这种基于相似性的注意力方法的一个潜在失败案例是产生幻觉。如果测试位置的一张图像包含一个非常强烈被错误分类的物体，那么这个错误可能会对该摄像机的其他检测结果产生负面影响。例如，在探索SnapshotSerengeti数据集上的置信度高的“误报”时（几乎都是被人工注释员错过的真实检测结果），ContextR-CNN错误地检测到的动物的3/100张图像都是同一棵树，高度自信地预测为长颈鹿。06. 结论和未来工作在这项工作中，我们提出了一种利用每个摄像头的时间上下文（长达一个月）的模型，远远超出了以前方法的时间范围，并且表明在静态摄像机设置中，基于注意力的时间上下文特别有益。我们的方法ContextR-CNN在静态摄像机领域是通用的，在相机陷阱和交通摄像机数据上提高了检测性能，超过了单帧基线。此外，ContextR-CNN对被动监测采样策略具有适应性和鲁棒性，这些策略提供了低、不规则帧率的数据流。从我们的结果可以看出，存储在内存中的信息内容和数量对于准确性和域特定性都非常重要。我们计划在未来详细探讨这一点，并希望开发出针对准确性和大小进行优化的多样化内存库的方法，以减少训练和推理时的计算和存储开销，同时保持性能提升。 7.致谢我们要感谢Pietro Perona、David Ross、ZhichaoLu、Ting Yu、Tanya Birch和Wildlife Insights团队、JoeMarino以及OisinMacAodha对我们宝贵的见解。本工作得到了NSFGRFPGrant No.1745301的支持，观点仅代表作者自己，不一定反映NSF的观点。130830参考文献0[1] Lila.science. http://lila.science/ . 访问日期：2019-10-22。60[2] Carlos Arteta，Victor Lempitsky和Andrew Zisserman.在野外计数. 页码483-498，2016年。30[3] Dzmitry Bahdanau，Kyunghyun Cho和Yoshua Bengio.通过联合学习对齐和翻译的神经机器翻译.arXiv预印本arXiv:1409.0473，2014年。30[4] Sara Beery，Yang Liu，Dan Morris，Jim Piavis，AshishKapoor，Markus Meister和Pietro Perona.合成示例改善罕见类别的泛化能力.arXiv预印本arXiv:1904.05916，2019年。30[5] Sara Beery和Dan Morris.用于自动化新的相机陷阱项目中物种识别的高效流程.生物多样性信息科学和标准，3:e37222，2019年。3，60[6] Sara Beery，Grant Van Horn和Pietro Perona.在未知领域中的识别.在欧洲计算机视觉会议(ECCV)的论文集中，页码456-473，2018年。2，3，60[7] Gedas Bertasius，Lorenzo Torresani和Jianbo Shi.带有时空采样网络的视频目标检测.在欧洲计算机视觉会议(ECCV)的论文集中，页码331-346，2018年。30[8] Joao Carreira和Andrew Zisserman. Quovadis，动作识别？一种新模型和Kinetics数据集.在计算机视觉和模式识别的IEEE会议论文集中，页码6299-6308，2017年。30[9] Antoni B Chan，Zhang-Sheng John Liang和Nuno Vas-concelos. 隐私保护的人群监控：无需人群模型或跟踪的人数统计.页码1-7，2008年。30[10] Jifeng Dai，Yi Li，Kaiming He和Jian Sun.R-fcn：基于区域的全卷积网络的目标检测.在神经信息处理系统的进展中，页码379-387，2016年。30[11] Hanming Deng，Yang Hua，Tao Song，ZongpuZhang，Zhen- gui Xue，Ruhui Ma，Neil Robertson和HaibingGuan. 用于视频目标检测的对象引导的外部存储网络.在计算机视觉的IEEE国际会议论文集中，页码6678-6687，2019年。30[12] Jacob Devlin，Ming-Wei Chang，Kenton Lee和KristinaToutanova. Bert：用于语言理解的深度双向变压器的预训练.arXiv预印本arXiv:1810.04805，2018年。30[13] Christoph Feichtenhofer，Axel Pinz和Andrew Zisserman.检测到跟踪和跟踪到检测.在计算机视觉的IEEE国际会议论文集中，页码3038-3046，2017年。30[14] Ross Girshick. 快速R-CNN.在计算机视觉的IEEE国际会议论文集中，页码1440-1448，2015年。30[15] Georgia Gkioxari和Jitendra Malik. 寻找动作管.在计算机视觉和模式识别的IEEE会议论文集中，页码759-768，2015年。30[16] Wei Han，Pooya Khorrami，Tom Le Paine，Prajit Ramachan-dran，Mohammad Babaeizadeh，Honghui Shi，Jianan Li，0Shuicheng Yan和Thomas S Huang. Seq-nms用于视频目标检测.arXiv预印本arXiv:1602.08465，2016年。30[17] Kaiming He，Georgia Gkioxari，Piotr Doll´ar和Ross Gir-shick. Mask R-CNN.在计算机视觉的IEEE国际会议论文集中，页码2961-2969，2017年。40[18] Kaiming He, Xiangyu Zhang, Shaoqing Ren, a

下载后可阅读完整内容，剩余1页未读，立即下载