基于时空采样网络的视频目标检测

194 浏览量更新于2023-10-13 收藏 2.03MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

基于时空采样网络的视频目标检测Gedas Bertasius1，Lorenzo Torresani2，and JianboShi11宾夕法尼亚大学，2达特茅斯学院抽象。我们提出了一个时空采样网络（STSN），使用可变形卷积跨时间的视频中的对象检测。我们的STSN执行对象检测的视频帧，通过学习，荷兰国际集团从相邻帧的空间采样功能这自然地使得该方法对于各个帧中的遮挡或运动模糊是鲁棒的。我们的框架不需要额外的监督，因为它优化采样位置直接相对于对象检测性能。我们的STSN在ImageNet VID数据集上的表现优于最先进的技术，与现有的视频对象检测方法相比，它使用了更简单的设计，并且不需要光流数据进行训练。1介绍近年来，深度卷积网络在许多计算机视觉任务[1 -8]中取得了显着的成果，包括图像中的对象检测[9-19]。然而，由于运动模糊、视频散焦、不寻常的姿势或对象遮挡，直接将这些图像级模型应用于视频中的对象检测是困难的尽管存在这些挑战，但自然地假设视频对象检测器应该比静止图像检测器更强大，因为视频包含关于相同对象实例的更丰富的信息（例如，视频对象检测器的视频对象检测器的视频对象检测其以不同姿势和从不同视点出现）。因此，关键的挑战是设计一个模型，有效地利用视频中的时间信息。先前的工作[20-23]已经提出通过各种后处理步骤来利用视频中的这种时间信息，这些后处理步骤旨在使对象检测跨时间一致。然而，由于时间相干性在第二阶段，通常这些方法不能被端到端地训练。为了克服这一限制，最近的工作[24]引入了一种基于流的聚合网络，该网络是可训练的端到端。它利用光流来寻找跨时间的对应，然后聚合跨时间对应的特征，以平滑相邻帧上的对象检测。然而，这种新模型的一个缺点是，除了执行对象检测之外，它还需要预测运动。由于以下原因，这是不利的：1）设计有效的流网络架构并非是微不足道的，2）训练这样的模型需要大量的流数据，这可能是难以获得的并且是昂贵的，3）将流网络和检测网络集成到单个模型中可能是具有挑战性的，这是由于诸如不同的损失函数、针对每个网络的不同训练过程等因素。2G.贝尔塔修斯湖Torresani，J.石图1：与视频中的对象检测相关联的常见挑战的图示。这些包括视频散焦、运动模糊、遮挡和不寻常的姿势。边界框表示在这些示例中我们想要检测的对象。为了解决这些缺点，在这项工作中，我们引入了一个简单而有效的时空采样网络（STSN），它使用跨空间和时间的可变形卷积[25]来利用时间信息进行视频中的对象检测。我们的STSN学习从附近的视频帧中空间采样有用的特征点，使得给定视频帧中的对象检测精度最大化。为了实现这一点，我们在一个用边界框标记的大量视频帧上训练我们的STSN端到端我们表明，与ImageNet VID数据集[26]上的最新技术相比，这导致了更好的准确性，而不需要复杂的流网络设计，也不需要在大量流数据上训练2相关工作2.1图像中的目标检测现代目标检测器[9最早的深度CNN对象检测系统之一是R-CNN [14]，其涉及两阶段流水线，其中在第一阶段提取对象提议，然后使用CNN对每个提议进行分类为了减少计算负担，[9]和[13]中的方法利用了ROI池，这导致了更有效的学习。此外，为了统一整个对象检测管道，Faster R-CNN [12]用另一个网络取代了各种区域建议方法，使整个系统可端到端训练。在这项工作之后，几种方法[18，19]将Faster R-CNN扩展到实时运行的系统中，性能略有降低。此外，最近的工作[17]引入了位置敏感的ROI池，与现有的对象检测系统相比，其显著提高了检测效率最后，最近的两种方法， Mask R-CNN [10] 和Deformable CNN [25]，进一步改进了而Mask-RCNN使用一个额外的分支来预测查尔恩京容易查尔恩京容易O遮挡运动模糊视频散焦异常位置基于时空采样网络的视频目标检测3对于每个感兴趣区域的掩模，可变形CNN采用可变形卷积，其允许网络在输入上区别性地调节其接收场，并且还更鲁棒地对对象的变形进行建模。虽然上述方法在图像上工作良好，但是它们未被设计为利用视频中的时间关系。相反，我们的时空采样网络（STSN）是专门为视频对象检测任务而设计的与在空间域中使用可变形卷积的标准可变形CNN [25]不同，我们的STSN学习在不同的视频帧中对特征进行时间采样，从而提高了视频对象检测的准确性。2.2视频中的目标检测直到ImageNet VID挑战的引入[26]，视频对象检测还没有大规模的基准测试因此，我们可以将我们的工作与之进行比较的方法很少T-CNN[20，21]使用视频对象检测流水线，该流水线涉及首先预测光流，然后根据流传播图像级预测，最后使用跟踪算法来选择时间一致的高置信度检测。Seq-NMS [22]从相邻帧的重叠边界框检测构建时间图，然后使用动态编程来选择具有最高总体检测分数的边界框序列。Lee等人的工作[23]将视频对象检测任务视为多对象跟踪问题。最后，Feichtenhofer等人的方法。[27]提出了一种ConvNet架构，它联合解决了检测和跟踪问题，然后应用Viterbi算法将检测与时间联系起来。与我们的工作最相似的方法是Zhu等人的方法。[24]，他提出了一种端到端的可训练网络，该网络联合估计光流并检测视频中的对象。这是通过使用预测的光流来对准来自相邻帧的特征来实现的。然后将聚合的特征作为输入馈送到检测网络。我们的方法优于使用光流CNN的方法，例如Zhu等人的方法[24]第10段。首先，我们注意到预训练的光流CNN并不总是推广到新的数据集，这可能会阻碍视频对象检测性能。相比之下，我们的方法有一个可学习的时空采样模块，该模块是从对象检测标签中有区别地训练的，因此，它不会受到这个问题的影响此外，我们的STSN可以在单阶段端到端进行视频对象检测训练相比之下，依赖于光流的方法需要额外的阶段来训练光流CNN，这使得训练过程更加繁琐和冗长。例如，我们注意到，从头开始训练FGFA[24]的光流CNN大约需要四天时间相比之下，我们的STSN仅在4天内完成了单阶段最后，我们指出，我们的STSN也产生了增益-虽然温和-在视频对象检测精度。4G.贝尔塔修斯湖Torresani，J.石3背景：可变形卷积在描述我们的方法之前，我们首先回顾了关于可变形卷积的一些背景信息[25]，这是我们STSN的关键组件之一让我们首先注意到，标准2D卷积由两个步骤组成：1）对均匀间隔的网格R上的位置进行采样，以及2）使用权重w对采样值进行加权求和。例如，如果我们考虑具有3× 3内核的标准2D卷积，并且膨胀因子为1，则网格R被定义为R={（−1，−1），（−1，0），. . . ，（0，1），（1，1）}。在标准2D卷积下，为了计算输出特征图y中像素位置p0处的新值，我们将对输入特征图x执行以下操作：y（p0）= Σpn∈Rw（pn）·x（p0+pn），（1）相反，在可变形 2D 卷积中，网格 R 用数据调节偏移{Δpn|n=1，. . . ，N}，其中N=|R|. 然后，可以将可变形卷积计算为：y（p0）= Σpn∈Rw（pn）·x（p0+pn+∆pn）（2）由于偏移Δ pn通常是分数，因此使用双线性插值来实现上述操作。注意，通过将单独的卷积层应用于包含特征图X的激活张量来获得偏移。这产生具有与输入特征图相同的空间分辨率的偏移图此外，注意，偏移跨给定激活张量的在训练期间，可变形卷积核和偏移核的权重通过经由双线性插值算子传播梯度来联合学习我们建议读者参考引入可变形卷积的原始工作[25]以获得更多细节。4时空采样网络我们的目标是设计一个网络架构，将时间信息的视频对象检测。让我们用It表示视频中时间t处的帧。让我们考虑图1中描绘的场景之一，例如，模糊的设置包含处于不寻常姿态的对象，或者可能是遮挡。但让我们假设附近帧It+k包括清晰可见且处于相对标准姿态的相同对象。如果我们只能访问It，那么准确的对象检测将是非常具有挑战性的。然而，利用来自It+k的信息可实现帧It中的更稳健检测。因此，该设置中的主要挑战是结合来自支持帧It+k的对象级信息，以用于参考帧It中的改进的对象检测准确度。注意在我们的基于时空采样网络的视频目标检测5支撑架（时间t+k）地图图2：我们的时空采样机制，我们使用视频对象检测。给定检测特定视频帧中的对象的任务（即，参考帧），我们的目标是合并来自同一视频的邻近帧的信息支撑框架）。首先，我们通过骨干卷积网络（CNN）从两帧中提取特征。接下来，我们连接来自参考帧和支持帧的特征，并将它们馈送通过多个可变形卷积层。这些层中的最后一层产生用于从支撑框架采样信息特征的偏移我们的时空采样方案使我们能够产生准确的检测，即使在参考帧中的对象出现模糊或闭塞。系统中，依次将视频中的每一帧视为参考帧，以便在视频的每一帧中产生对象检测。此外，在实践中，通过将K个先前帧和K个后续帧作为支持帧，我们使用2K个支持帧用于参考帧中的检测，即，{I t−K，I t−（K−1），. . .，I t−1，I t+1，. . .，I t+（K−1），I t+K}。然而，为了便于解释，我们通过考虑单个支撑框架It+k来介绍我们的STSN。为了有效地集成时间信息，我们需要两件事：1）来自图像级网络的强大对象级特征，以及2）从参考帧的支持帧中采样有用对象级特征的能力。我们通过采用最先进的骨干网络来实现前者对于后者，我们设计了一个时空采样方案，我们在下面描述我们的STSN可以总结为四个步骤。首先，骨干卷积网络为每个视频帧单独计算对象级特征然后，将时空采样块应用于对象级特征图，以便从以输入参考帧为条件的附近帧中采样相关特征。接下来，使用每像素加权求和将来自每个视频帧的采样特征在最后，将特征张量作为输入提供给采样特征参考帧（时间t）ConcatDef. Conv.Def. Conv.偏移偏移6G.贝尔塔修斯湖Torresani，J.石t，t+kt，t+k在一些实施例中，对象检测网络被配置为生成针对给定参考帧的最终对象检测结果我们注意到，我们的框架将这些概念上不同的四个步骤集成到一个单一的架构中，我们对它进行端到端的训练。主干架构。我们的骨干网络应用于视频的每一帧。作为骨干网络，我们使用基于ResNet-101 [5]架构的可变形CNN [25]，这是目前性能最好的对象检测系统与[25]类似，我们的骨干网络采用6个可变形卷积层。我们还注意到，即使我们使用可变形CNN架构，我们的系统也可以轻松地集成其他架构，因此它可以从静止图像对象检测的未来改进中受益时空特征采样。我们的主要贡献是时空采样机制的设计，它无缝集成在一个给定的视频时间信息。作为第一步，我们馈送参考系It，并且支持框架It+k通过我们的图像级骨干网络，分别产生特征张量ft和ft+k。注意，ft，ft+k∈Rc×h×w，其中c、h和w是通道数、激活张量的高度和宽度。然后将特征张量ft，和ft+k连接成一个新的特征张量ft，t+k∈R2c×h×w. 注意，这个张量ft，t+k现在的通道数是我们初始张量的两倍，并且它现在包含来自参考框架和支持框架的对象级信息。接下来，我们使用张量ft，t+k来预测（x，y）位置偏移，然后将其用于对支持张量ft+k进行采样。采样机制使用可变形卷积层来实现，该可变形卷积层将1）预测的偏移和2）支持张量ft+k作为其输入，然后输出新采样的特征张量gt，t+k，其可以用于参考帧中的对象检测。我们使用下标t，t+k来表示重采样的张量，因为尽管g是通过对支持张量进行重采样而获得的，但是偏移计算使用参考帧和支持帧两者。我们的时空采样方案的详细说明如图2所示。在实践中，我们的时空采样块具有4个可变形卷积层（图2中仅示出了2个这意味着最初预测的偏移量o（1）并且首先将级联的时间特征f，t，t+k用作（一）输入到可变形卷积层，可变形卷积层输出新的特征图gt，t+k。接下来，我们使用g（1）来预测偏移量o（2），以及新的特征图g（2）. 这t，t+kt，t+k（四）t，t+k继续2层以上，直到我们获得偏移量t，t+k，其然后用于从支持特征图ft+k中采样点。最后采样特征图g（4）通过另一个可变形卷积层获得，该可变形卷积层（四）将偏移量t，t+k和原始支持特征图ft+k作为输入。我们提出的时空采样机制学习，支持帧中的对象级特征对参考帧中的对象检测是有用的。从概念上讲，它取代了[24]中使用的光流，以建立与可学习模块的时间对应关系，该可学习模块从对象检测标签中进行区分性训练。在我们的实验部分，我们表明，这样的采样方案，使我们能够提高视频对象检测性能超过基于时空采样网络的视频目标检测7不不不t，t+kt，t+kt，t+k静态图像基线和基于流的方法朱等人。[24]没有在光流数据上训练我们的模型。功能聚合。时空采样过程被应用于所选范围中的所有支持帧。注意，这包括一种特殊情况，当参考框架被视为其自身的支撑框架时，其可以被视为一个或多个参考框架。产生g（4），其是仅从参考帧计算的特征张量t，t（四）c（4）×h×w得到的特征张量具有以下形式：gt，t+k∈R。这些特征张量被聚合成参考帧的输出特征张量gagg∈Rc（4）×h×w该张量捕获来自参考帧、其K个先前帧及其K个后续帧的信息。像素p处的帧t的输出张量值gagg（p）被计算为加权求和：gagg（p）= ΣKk=−Kwt，t+k（p）g（4）（p）（3）受[24]中提出的强结果的启发，我们使用他们提出的特征聚合方法，其中权重w指示每个支持帧对参考帧的重要性。为了计算权重w，我们附加一个3层子网络S（x）到特征g（4）然后计算他们的中间值特征表示S（g（4）））. 然后，我们通过应用参考帧和支撑帧中每个对应特征点之间的余弦相似度的指数函数：.S（g（4））（p）·S（g（4））（p）Σw（p）=expt，tt，t+k（四）t，t+k|S（g（4））（p）||S (g(4))(p)|t，tt，t+k最后，所有的weightsw都被馈送到sofΣtmaxlay er，以确保weights在每个像素位置P处总和为1（即，Kk=−K w t，t+k（p）= 1 p）.agg物体检测。最后，聚合特征张量gt用作输入到检测网络，其输出最终边界框预测及其对象类别概率。我们将在下一节中描述与检测网络相关的更多细节以及其他实现细节。4.1实现细节对于我们的实验，我们使用MXNet [28]库。下面我们提供与我们的STSN架构以及我们的训练和推理过程相关的详细信息。架构对于我们的骨干网络，我们采用了基于ResNet-101 [5]架构的最先进的可变形CNN [25]。我们的时空采样块由四个3× 3可变形卷积层组成，每个卷积层具有1024个输出通道。此外，它还具有四个3× 3卷积层，预测（x，y）偏移。为了实现预测特征聚合权重的子网络S（x），我们使用1×1、3× 3和1× 1卷积8G.贝尔塔修斯湖Torresani，J.石不分别具有512、512和2048个输出通道的层。我们的检测网络是基于可变形R-FCN设计[17，29，25]实现的当将聚合特征gagg馈送到检测网络时，我们将其1024个通道分成两部分，并将第一个和最后512个通道分别馈送到RPN和R-FCN子网络。对于RPN，我们为每个图像使用9个锚点此外，对于R-FCN，我们使用7× 7组的可变形位置敏感ROI池。训练我们的整个STSN模型是完全可区分的，因此是端到端可训练的。在训练期间，我们将所有输入图像调整为600像素的较短边，并使用T= 3帧来训练我们的模型（即，K= 1）。更具体地，我们随机地在参考帧之前和之后采样一个支撑帧我们观察到，在训练中使用更多的支撑框架并不会导致更高的准确性。对于我们的训练过程的其余部分，我们遵循[24]中概述的方案具体来说，我们分两个阶段训练模型首先，我们使用与Imagenet VID数据集重叠的30个对象类的注释在Imagenet DET数据集上预训练完整请注意，Imagenet DET数据集仅包含图像，因此，在这种情况下，我们无法对有意义的支持因此，在图像的情况下，我们使用参考帧作为我们的支持帧。然后，整个模型在4个Tesla K40 GPU上进行120K次迭代训练，每个GPU保存一个minibatch。学习率设置为0。001和0。0001分别用于前80K和后40K迭代。之后，我们在Imagenet VID数据集上对整个模型进行了60K次迭代，学习率为0。001和0。0001分别用于前40K和后20K次注意，在训练的第二阶段中，我们在参考帧的某个邻域内随机地对支持帧进行采样（如上所述）。推理。在推理过程中，我们使用T=27，这意味着我们考虑K=13个支撑框架，在参考框架之前和之后。为了避免GPU内存问题，我们首先从每个图像的主干网络中提取特征，然后将这些特征缓存在内存中。事后，我们将所有这些特征馈送到我们的时空采样块中。最后，使用阈值为0的标准NMS。3来细化检测。为了处理视频中的第一和最后K=13帧-需要对视频开始和结束之外的相邻帧进行采样的两种边界情况，我们用第一帧的K个副本填充视频的开始，并且用最后一帧的K个5实验结果在本节中，我们评估了我们在ImageNet VID [26]数据集上进行视频对象检测的方法，该数据集分别具有3，862和555个训练和测试视频剪辑。每个视频都用边界框注释。每个视频的帧以25- 30 fps的速度提取。该数据集包含30个对象类别，它们是ImageNet DET数据集中200个类别的子集。基于时空采样网络的视频目标检测9我托兹D T [27]我们的SSNFGFA [24] 我们的STSND T+[27]我们的STSN+没有FlowNet？✓-✗✓✓✓不使用流量数据？✓-✗✓✓✓没有时间后处理？✓-✓✓✗✗mAP@0.575.876.078.878.979.880.4表1：我们使用ImageNet VID [26]数据集将我们的STSN与最先进的FGFA [24]和DT [27]方法进行比较。请注意，SSN指的是我们的静态基线，它是通过仅使用参考帧生成输出（没有时间信息）而获得的。还要注意，DT+和STSN+是指在CNN输出之上应用时间后处理的DT和STSN基线。基于这些结果，我们首先指出，与FGFA不同，我们的STSN不依赖于外部光流数据，并且仍然产生更高的mAP（78。九比七十八。（八）。此外，当不使用时间后处理时，我们的STSN与DT基线相比产生优异的性能&（78. 九比七十五。（八）。最后，我们证明，如果我们在我们的STSN预测之上使用简单的Seq-NMS [22]时间后处理方案，我们可以进一步改进我们的结果并优于所有其他基线。5.1定量结果为了评估我们的方法的有效性，我们将其与几个相关基线进行比较，主要是两种最先进的方法FGFA [24]和DT [27]。首先，为了验证使用来自视频的时间信息是有益的，我们包括我们的模型（SSN）的静态图像级变体，其仅使用参考帧来进行预测。此外，我们还希望表明，我们的时空采样方案与[24]中的光流网络一样有效为此，我们用时空采样机制替换了[24]中的光流网络架构的其余部分和训练细节对于两个基线保持相同。这样的实验设计使我们能够直接比较我们的时空采样方案和FGFA的光流网络的有效性[24]。最后，我们证明了我们的方法在两种情况下比DT [27]方法表现更好：1）当我们仅使用CNN级输出进行视频对象检测时，以及2）当我们允许在CNN输出之上应用Seq-NMS等时间后处理技术时。我们注意到，在表1中，DT [27]和STSN是指CNN级基线，而DT + [27]和STSN+表示这些相同的方法，但具有时间后处理（即，时间后处理）。Seq-NMS [22]、基于对象管的链接[27]等）应用于CNN输出之上我们在表1中列出了我们的结果，其中我们根据几个标准评估了每种方法。在表1的第一行中，我们列出了给定方法是否需要将单独的流网络集成到其训练/预测流水线中。理想情况下，我们希望消除这一步骤，因为光流预测需要设计高度复杂的流网络架构。我们还列出了给定方法是否需要对外部光流数据进行预训练，我们希望避免这种情况，因为它使整个训练管道的成本更高。此外，我们列出了给定方法是否使用任何外部时态后处理。10G.贝尔塔修斯湖Torresani，J.石重量大小0.1790.09578.50.09780.08577.50.080.075770.0776.50.0657602 6 10 14 18 22 2630支撑架数量0.06-10-8-6-4-2 0 2 4 6 8 10相对于参考坐标系的时间增量图图3：说明我们的一些烧蚀实验的图左：我们绘制mAP作为STSN使用的支持帧数量的函数从该图中，我们注意到，随着我们使用更多的支持帧，视频对象检测精度提高。右：为了理解每个支撑框架的贡献，我们绘制了不同k值的平均权重大小wt，t+k（p）。这里，p表示对象中心处的点。从该图中，我们观察到最大的权重与参考系附近的支撑系相关联然而，注意，甚至更远离参考帧（例如，k= 9）的支持帧对最终对象检测预测的贡献相当大。处理步骤，我们希望消除这些步骤，因为它们通常会使训练/预测管道不相交且更复杂。最后，我们根据标准的平均平均精度（mAP）指标在交集超过联合（IoU）阈值为0评估每种方法。5.根据表1中的结果，我们得出以下结论。首先，我们注意到我们的STSN比最先进的FGFA方法产生更好的定量结果（78. 九比七十八。（八）。我们承认，我们的准确性提高超过FGFA是适度的。然而，我们指出，我们的STSN在一个更具挑战性的设置比FGFA。与FGFA不同，我们的STSN不使用任何光流监控。相反，它被直接训练用于视频对象检测。STSN在没有直接光流监督的情况下学习时间对应关系，并且仍然优于FGFA，这一事实令人印象深刻。这样的结果还示出了关于最终视频对象检测任务目标的有区别的端到端训练的益处。接下来，我们将STSN与DT基线进行比较[27]。我们注意到，与FGFA [24]基线不同，在STSN和DT之间进行直接比较要困难得多尽管我们的STSN旨在产生强大的时空特征，但DT [27]的方法更多地针对跨时间平滑最终边界框预测。因此，我们认为这两种方法是互补的，并且可以将它们集成在一起，以生成两种方法的模型：时间平滑特征以及时间平滑边界框预测。我们还注意到，我们的STSN和D T [27]使用略有不同的架构（都基于ResNet-101）。地图基于时空采样网络的视频目标检测11首先，我们在当没有时间后处理（即，时间后处理）时的设置中比较STSN和DT。 Seq-NMS [22]，对象-管链接[27]等），并显示我们的STSN&以相当大的幅度优于DT基线（78. 九比七十五。（八）。这些结果表明，我们的STSN是能够学习强大的时空特征，并产生坚实的视频对象检测结果，即使没有时间后处理算法，链接边界框检测随着时间的推移。之后，我们展示了集成简单的时间后处理算法Seq-NMS [22]进一步改进了我们的STSN的结果。这样的方案允许我们优于&DT+基线（80. 四比七十九。8），其使用类似的基于维特比的时间后处理方案。5.2消融研究支撑框架的最佳数量在图3的左侧子图中，我们还说明了支持帧的数量如何影响视频对象检测精度。我们注意到，随着我们添加更多的支撑框架，性能不断提高，然后在T=27时达到平台增加时间步幅。我们还研究了如何的时间跨度k，在这里我们采样的支持帧，影响STSN的性能。我们报告，时间跨度k= 2和k= 4，产生mAP得分为79。0和77。9，分别。因此，k=2产生了比我们的原始的稍微改进。78岁9 mAP评分。然而，将k增大到较大值会降低精度。特征聚合权重分析。为了分析每个支持帧对最终对象检测的贡献有多大，我们针对不同的k值可视化平均权重幅度w t，t+k（p）。该可视化呈现在图3的右侧子图中。我们注意到，在这种情况下，权重幅值对应于位于对象中心的点p。从这个图中，我们可以得出结论，最大的贡献来自参考系附近的支撑系（k=−1，0， 1）。然而，应注意，甚至更远离参考帧的支撑帧（例如，k=-9，9）具有非零权重，并且对最终的对象检测预测有相当大的贡献。5.3定性结果为了理解我们的STSN如何利用来自给定视频的时间信息，我们在图4中可视化由STSN采样块预测的平均偏移。STSN使用这些偏移来决定来自支持帧的哪个对象级信息应当用于检测参考帧中的对象。参考帧中的绿色正方形描述了一个像素，我们要计算其卷积输出。支持帧中的红色方块表示平均偏移，其用于确定来自支持帧的哪些特征点应当被采样。黄色箭头表示对象在参考框架和支撑框架之间的运动。注意尽管参考帧和支持帧之间的相对较大的运动，我们的STSN从支持帧的中心附近的特征进行采样。12G.贝尔塔修斯湖Torresani，J.石框架长度（t）支撑架（t+9）框架长度（t）支撑架（t+9）图4：我们的时空采样方案的图示（放大以获得更好的视图）。绿色方块表示参考系中的一个点，我们希望以计算新的卷积输出。红色方块表示我们的STSN在支持框架中预测的对应点。黄色箭头示出了估计的对象运动。虽然我们的模型是针对对象检测而不是跟踪或运动估计进行有区别地训练的，但我们的STSN学会了在与同一对象几乎完全一致的位置从支持帧中进行采样。这允许我们的方法执行准确的对象检测，即使在参考帧中的对象是模糊的或遮挡。对象，这正是我们想要的。这种时空采样允许我们检测对象，即使它们在参考帧中看起来模糊或被遮挡。此外，根据图4中的结果，我们观察到，即使没有明确的光流监督，我们的STSN也能准确地捕获对象的运动，这是我们模型的另一个吸引人的特性。事实上，在图5中，我们展示了使用我们的STSN来跟踪给定视频中的对象的几个示例。从图5中，我们观察到，尽管每个序列中的运动相对较大，但我们的STSN准确地对每个支持帧中的对象周围的特征进行采样。这样的结果表明，我们可能能够使用我们的采样机制的歧视性对象跟踪。事实上，我们注意到，通常使用的密集光流方法通常是冗余的，因为大多数应用程序不需要对每个像素进行流预测相比之下，我们指出，我们的STSN捕获一个更具歧视性的形式的运动，这是学习专门受益于视频对象检测任务。在我们的补充材料中，我们以视频形式包括更多这样的结果。在图6中，我们还示出了静态SSN基线的对象检测。以及我们的完整STSN模型的那些（放大以查看概率和类别预测）。在所有这些情况下，我们观察到，纳入时间信息有助于STSN纠正静态基线所犯的错误。例如，在图6的第三行中，静态SSN基线不正确地将参考系中的对象标记为鸟，这是由于蜥蜴的被遮挡的头部而发生的。然而，STSN通过查看支撑框架并在蜥蜴身体及其头部周围进行采样（参见图6中的第3行第1列）来修复此错误此外，在最后一行中，静态SSN基线未能检测到其中一辆自行车，因为它在参考系中被遮挡STSN基于时空采样网络的视频目标检测13支撑架（t-9）支撑架（t-4）参考框架（t）支撑框架（t+4）支撑框架（t+9）图5：使用我们的时空采样方案的说明。绿色方块表示参考帧中的固定对象位置。红色正方形描绘了支撑框架中的位置，从该位置采样相关特征。即使没有光流监督，我们的STSN也能学会跟踪视频中的这些对象在我们的补充材料中，我们以视频格式提供了更多此类示例修正了这个错误，通过在自行车更清晰可见的支撑框架中错过的自行车周围进行采样。类似的行为也发生在STSN成功解决遮挡和模糊问题的其他情况下。6结论在这项工作中，我们介绍了时空采样网络（STSN），这是一个新的架构，在视频中的对象检测与最先进的FGFA [24]方法相比，我们的模型涉及更简单的设计，它不需要光流计算，并且它产生更高的视频对象检测精度。我们的模型是完全可区分的，与现有的视频对象检测方法不同，它不需要光流训练数据。这使得我们的模型易于端到端训练我们未来的工作将包括实验更复杂的设计时空采样块。7确认这项工作的部分资金由NSF奖CNS-120552。我们非常感谢NVIDIA和Facebook捐赠的GPU用于部分工作。14G.贝尔塔修斯湖Torresani，J.石支撑框架中的采样点SSN（静STSN（我们的）图图6：示出了对象检测示例的图，其中我们的时空采样机制帮助STSN纠正静态SSN基线所犯的错误（请放大以查看类预测及其概率）。这些错误通常由于遮挡、模糊等而发生。STSN通过使用来自支持帧的相关对象级信息来修复这些错误。在第1列中，我们说明了支持框架中的点，STSN认为这些点在计算第2列中由绿色正方形表示的点的输出时是相关的。基于时空采样网络的视频目标检测15引用1. Krizhevsky，A.，萨茨克弗岛Hinton，G.E.：Imagenet分类与深度卷积神经网络。在：NIPS。（2012年）2. 塞格迪角刘伟，Jia，Y.，Sermanet，P.，Reed，S.，Anguelov，D.，Erhan，D.，Vanhoucke，V.，Rabinovich，A.：更深的回旋。计算机视觉与模式识别（CVPR）（2015年）3. 西蒙尼扬，K.，齐瑟曼，A.：用于大规模图像识别的深度卷积网络。In：ICLR. （2015年）4. Bertasius，G.，施，J.，Torresani，L.：Deepedge：一个用于自顶向下轮廓检测的多尺度分叉深度网络。IEEE计算机视觉与模式识别会议（CVPR）(June（2015年）5. 他，K.，张，X.，Ren，S.，孙杰：图像识别的深度残差学习。2016年IEEE计算机视觉与模式识别会议（CVPR）（2016）7706. Xie，S.，格尔希克河Dollár，P.，Tu，Z.，He，K.：深度神经网络的聚合残差在：CVPR中。（2017年）7. Toshev，A. Szegedy，C.：Deeppose：通过深度神经网络进行人体姿势估计。在：CVPR中。（2014年）8. Bertasius，G.，托雷萨尼湖Yu，S.X.，Shi，J.：卷积随机游走网络用于语义图像分割。IEEE计算机视觉与模式识别会议（CVPR）(July（2017年）9. 他，K.，张，X.，Ren，S.，孙杰：用于视觉识别的深度卷积网络中的空间金字塔池。在Fleet，D. Pajdla，T.，Schiele，B.，Tuytelaars，T.，编辑：计算机视觉（2014年）10. 他，K.，Gkioxari，G.，Dollár，P.，Girshick，R.：面罩R-CNN。在：计算机视觉国际会议（ICCV）的会议记录。（2017年）11. Lin，T.Y.，Goyal，P.，格尔希克河他，K.，Dollár，P.：密集目标检测的焦点损失。在：计算机视觉国际会议（ICCV）的会议记录。（2017年）12. Ren，S.，他，K.，格尔希克河孙杰：更快的R-CNN：利用区域建议网络实现实时目标检测。在：神经信息处理系统（NIPS）。（2015年）13. Girshick，R.：快速R-CNN。在：计算机视觉国际会议（ICCV）的会议记录。（2015年）14. 格尔希克河Donahue，J.，Darrell，T.，Malik，J.：丰富的功能层次结构，准确的对象检测和语义分割. IEEE计算机视觉和模式识别会议（CVPR）。（2014年）15. 古普塔，S.，格尔希克河Arbelaez，P.，Malik，J.：从RGB-D图像中学习丰富的特征In：ECCV. （2014年）16. 刘伟，Anguelov，D.，Erhan，D.，塞格迪角Reed，S.，Fu，C.Y.，Berg，A.C.：Ssd：单发多盒探测器。In：ECCV. （2016年）17. Dai，J.，李，Y.，他，K.，孙杰：R-fcn：通过基于区域的全卷积网络的目标检测。神经信息处理系统进展29. 柯兰联营公司（2016）37918. Redmon，J.，Divvala，S.K.，Girshick，R.B.，Farhadi，A.：只需查看一次：统一的实时物体检测。In：2016 IEEE Conference on Computer Visionand Pattern Recognition，CVPR 2016，Las Vegas，NV，USA，June 27-30，2016.（2016）779-78816G.贝尔塔修斯湖Torresani，J.石19. Redmon，J.，Farhadi，A.：YOLO9000：更好、更快、更强。在：2017年IEEE计算机视觉和模式识别会议，CVPR 2017，檀香山，HI，美国，2017年7月21日至26日。2017 - 0620. Kang，K.，Li，H.，Yan，J.，Zeng，X.，Yang，B.，Xiao，T.，张，C.，王志，王，R.，王，X.，欧阳文：T-CNN：具有卷积神经网络的tubelets，用于视频中的对象检测。2017年IEEE TCSVT21. Kang，K.，欧阳，W. Li，H.，Wang，X.：用卷积神经网络从视频tubelets中检测目标。CoRRabs/1604.04053（2016）22. 汉，W.，Khorrami，P. Paine，T.L.，Ramachandran，P.，Babaeizadeh，M.，施，H、李杰，Yan，S.，Huang，T.S.：用于视频对象检测的Seq-nms。CoRRabs/1602.08465（2016）23. Lee，B. Erdenee，E.，Jin，S.，Rhee，P.：基于变化点检测的多类多目标跟踪。CoRRabs/1608.08434（2016）24. Zhu，X.，王玉，Dai，J.，Yuan，L.魏云：用于视频对象检测的流引导特征聚合。国际计算机视觉会议（ICCV）。（2017年）25. Dai，J.，Qi，H.，Xiong，Y.，李，Y.，张，G.，Hu，H.，魏云：可变形卷积网络。2017 IEEE国际计算机视觉会议（ICCV）。第00卷。(Oct. 2017年）76426. Russakovsky，O.，Deng，J.，Su，H.，Krause，J.，Satheesh，S.，妈妈，S.，黄志，Karpathy，A.，Khosla，A. Bernstein，M. Berg，A.C.，李菲菲：ImageNet 大规模视觉识别挑战。 International Journal of Computer Vision（IJCV）115（3）（2015）21127. Feichtenhofer，C.，Pinz，A.，齐瑟曼，A.：检测跟踪和跟踪检测。国际计算机视觉会议（ICCV）。（2017年）28. 陈，T.，Li，M.，李，Y.，Lin，M.，王，N.，王，M.，Xiao，T.，徐，B.，张，C.，张志：Mxnet：一个灵活高效的异构分布式系统机器学习库CoRRabs/1512.01274（2015）29. Zhu，X.，Xiong，Y.，Dai，J.，Yuan，L.魏云：用于视频识别的深度特征流在：CVPR中。（2017年）

下载后可阅读完整内容，剩余1页未读，立即下载