视频对象检测的全运动感知网络

26 浏览量更新于2023-10-13 收藏 1.75MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

用于视频对象检测的全运动感知网络王世尧1、周宇聪2、严俊杰2、邓志东11智能技术与系统国家重点实验室北京国家信息科学与技术研究中心清华大学计算机科学系，北京1000842商汤科技研究院网址：sy-wang14@mails.tsinghua.edu.cn，zhouyucong@sensetime.comyanjunjie@sensetime.com网站，michael@tsinghua.edu.cn抽象。在某些视频帧中存在外观劣化典型的解决方案之一是通过聚合相邻帧来增强逐帧特征但是，由于物体和相机的运动，物体的特征通常没有跨帧进行空间校准。在本文中，我们提出了一个端到端的模型称为完全运动感知网络（MANET），联合校准的像素级和实例级的对象在一个统一的框架的功能。像素级校准在建模详细运动方面是灵活的，而实例级校准捕获更多全局运动线索以便对遮挡具有鲁棒据我们所知，移动自组网是第一个工作，可以联合训练这两个模块，并动态地将它们组合在一起，根据运动模式。它在大规模ImageNet VID数据集上实现了领先的性能关键词：视频目标检测·特征校正·像素级·实例级·端到端1介绍目标检测是图像理解中的一个基本问题。深度卷积神经网络已成功应用于该任务，包括[22，2，20，21，18，19，29]。虽然它们在静态图像中的目标检测方面取得了巨大的成功，但视频目标检测仍然是一个具有挑战性的问题。视频中的帧通常由于运动模糊或视频散焦而恶化，这对于单帧检测器来说是极其困难的。为了解决恶化帧中的挑战，一个简单的解决方案是考虑视频中的空间和时间相干性以及来自邻近帧的杠杆信息。遵循这个想法，[8，15，14，5]探索手工制作的边界框关联规则来细化最终的检测结果。作为后处理方法，这些规则不是联合优化的。相比之下，FGFA [30]试图通过沿着运动路径聚合附近帧的特征来利用特征级别上的时间相干性他们使用流量估算2Shiyao Wang，Yucong Zhou，Junjie Yan，Zhidong Deng时间-0.350.23时间时间+单帧检测器图1.一、视频对象检测中的遮挡示例当公交车被过往车辆遮挡像素级校准可以帮助改善结果，但由于遮挡，它仍然受到影响。实例级校准在这些结果中表现最好。以预测每像素的运动，这在下文中被称为像素级特征校准。然而，当对象的外观显著改变时，尤其是当对象被遮挡时，这样的像素级特征校准方法将是不准确的在不准确的流量估计的情况下，流量引导扭曲可能不期望地误导特征校准，从而不能产生理想的结果。因此，特征校准的鲁棒性是非常重要的。在本文中，我们的理念是，准确和强大的跨帧特征校准在视频对象检测中起着重要的作用。除了现有的像素级方法，我们提出了一个实例级的特征校准方法。它估计每个对象随时间的运动，以便准确地聚合特征。具体地，对于参考帧中的每个提议，提取相应的运动特征以预测附近帧与当前帧之间的相对运动。根据预测的相对运动，在附近的帧中的相同对象的特征的RoI池和聚合，以更好地表示。与像素级校准相比，实例级校准对诸如遮挡的大的时间外观变化更鲁棒。如图1所示，当参考帧中的公共汽车被遮挡时，流量估计无法预测这种详细的运动。附近帧的变形特征可以用于改善当前结果，但是它们仍然受到遮挡像素的影响与像素级校准相比，实例级校准将对象视为整体并估计整个对象的运动我们认为，这种高层次的运动是更可靠的使用，特别是当对象被遮挡。此外，仔细研究上述两种校准，我们发现像素级和实例级校准可以根据不同的运动模式协同工作。前者对于非刚体运动的建模更加灵活，特别是对于一些微小的动物。而高层次的运动估计可以很好地0.710.79像素级实例级校准校准0.560.69像素级实例级校准校准用于视频对象检测的3描述规则的运动轨迹（例如汽车）。在观察的基础上，我们开发了一个运动模式推理模块。如果运动模式更可能是非刚性的并且没有发生任何遮挡，则最终结果更多地依赖于像素级校准。否则，它更多地依赖于实例级校准。所有上述模块都集成在一个统一的框架中，可以进行端到端的培训。在基线模型R-FCN方面，所提出的实例级校准和MANET在ImageNetVID数据集上分别提高了mAP 3.5%和4.5%总之，本文的贡献包括：- 我们提出了一个实例级的特征校准方法，通过学习的立场运动，通过时间。实例级的校准是更强大的闭塞和优于像素级的特征校准。- 通过对典型样本进行可视化处理和统计实验，开发了一个运动模式推理模块，根据运动动态地结合像素级和实例级标定。我们展示了如何以端到端的方式联合培训他们。- 我们在大规模ImageNet VID数据集上展示了MANET [23]，具有最先进的性能。我们的代码可从以下网址获得：https：//github.com/wangshy31/MANet_for_Video_Object_Detection.git.2相关工作2.1静止图像中的目标检测现有的用于一般对象检测的现有技术方法主要基于深度CNN [16，25，27，10，26，11，1]。基于如此强大的网络，很多已经进行了工作[7，6，22，2，18，3，24]以进一步改进检测性能。[7]是一个典型的基于建议的CNN检测器，使用选择性搜索[28]来提取建议。与上述多级管道不同，[6]通过应用空间金字塔池化[9]开发了一种端到端的训练方法更快的R-CNN [22]进一步将提案生成过程集成到CNN中，其中大多数参数都是共享的，从而提高了提案质量和计算速度。R-FCN [2]是另一种完全卷积检测器。为了解决位置敏感性的不足，R-FCN引入了位置敏感的得分图和位置敏感的RoI池化层。我们使用R-FCN作为我们的基线，并进一步扩展它用于视频对象检测。2.2视频中的目标检测与静止图像中的对象检测方法不同，视频检测器应该考虑时间信息。一种主流的方法旨在探索包围盒关联规则并应用启发式后处理。另一个工作流是利用特征级的时间相干性，并寻求以原则性的方式提高检测质量。4Shiyao Wang，Yucong Zhou，Junjie Yan，Zhidong Deng对于后处理，主要思想是使用来自附近帧的高分对象来提高同一视频内较弱检测的分数。这些方法之间的主要区别是将静止图像检测链接到跨帧框序列的映射策略。[8]链接跨帧边界框，如果它们的IoU超过某个阈值，并在整个剪辑上生成潜在的链接。然后，他们提出了一种启发式的方法来重新排序bondingoxes称为“S e q - NM S”。 [14，15]对于使用Tubeletrescoringg. 图块是对象随时间的边界框他们应用离线跟踪器来重新访问检测结果，然后将tubelets周围的静止图像对象检测关联起来。[15]提出了一种重新评分的方法，以提高tubelets的时间一致性。此外，[14]提出了多上下文抑制（MCS）来抑制假阳性检测和运动引导传播（MGP）来恢复假阴性。D T [5]是第一个联合学习ROI跟踪器和检测器的工作跨帧跟踪器用于提高正框的分数。所有上述方法都集中在可以与特征级方法进一步协作的后处理上我们将通过将Seq-NMS [8]与我们的模型相结合来证明这一点，以相互加强并进一步提高性能。对于特征级学习，[31，30，13]提出了端到端学习框架，以增强视频中单个帧的特征[30]提出了流引导的特征聚合以利用特征级上的时间相干性。为了在空间上校准跨帧的特征，他们应用光流网络[4]来估计附近帧和参考帧之间的每像素运动然后将来自附近帧的所有特征图扭曲到参考帧，以便增强当前表示。类似于这项工作，[31]也利用光流网络来模拟原始像素中的对应关系。不同的是，他们使用它来实现显着的加速。然而，低级运动预测缺乏鲁棒性，特别是在存在遮挡的情况下[12]。这种不考虑上下文的单独的逐像素预测与静态图像提案不同，[13]提供了一种新的tubelet提案网络来有效地生成时空提案。Tubelet从静态的建议，并提取多帧特征，以预测对象相对于空间锚的运动模式。该检测器扩展2-D的建议时空tubelet的建议。所有这些方法都将是我们的强大基线。3完全运动感知网络3.1概述我们首先简要概述整个管道。表1总结了本文中使用的主要符号。所提出的模型建立在标准静止图像检测器上，其由特征提取器Nfeat、区域建议网络Nrpn[22]和基于区域的检测器Nrfcn[2]组成。该模型的核心思想是通过特征校准来聚合相邻帧。首先，Nfeat将同时接收三个帧It−τ、It和It+τ作为输入，并产生中间特征ft−τ、ft和ft+τ。所示用于视频对象检测的5Insta我t−τ，t，t+τ i（x，y，w，h）（∆x，∆y，∆w，∆h）视频帧索引由中心（x，y）、高度和宽度规范提案运动我p，qf，s视频帧二维定位输出特征图和得分图Nfeat， Nrpn，NrfcnFW、Gφ，ψ用于特征提取器、RPN和R-FCN的CNN流量估计具有核函数G的双线性插值WROI池和位置敏感ROI池表1.符号。图2中，穿过图中间的水平线产生参考特征ft。顶部和底部的线是附近的特征ft−τ和ft+τ。这些单帧特征将通过以下两个步骤进行空间校准。其次，像素级校准将首先应用于校准ft−τ和ft+ τ，从而生成ft−τ→t和ft+ τ→t。然后将这些特征聚合为f像素。详细的配方见第3.2节。f像素随后被传递到Nrpn以产生建议，以及Nrfcn，等待进一步与实例级校准特征组合。第三，在Nrfcn中的位置敏感得分图上进行实例级校准。在ft−τ、ft和ft+ τ上应用专门的卷积层，以产生一组k2位置敏感的得分图st−τ、st和st+τ。对于st的p_p_al（x_i，y_i，w_i，h_i），我们将在p_p_ce_dure_to不t t t回归相应的建议位置（xi，yi，wi，hi）对于st−τ和我我我t−τt−τt−τt−τ（xt+τ，yt+τ，wt+τ，ht+τ）或st+τ。根据章节3.3中的详细说明，其中在所述提议中，邻近帧中的特征被RoI池化并聚合为立即最后，进行运动模式推理，以决定如何组合不同的校准特征。由于第f个像素也被馈送到Nrfcn中，因此它产生i像素第i次求婚。这样的模块被设计成将sii像素根据动态运动模式来确定运动轨迹。如第3.4节所述在我们的方法中，所有的模块，包括特征提取器Nfeat，Nrpn，Nrfcn，像素级校准，实例级校准和运动模式的reasoning训练端到端。3.2像素级校准如由[31]和[30]激发的，给定参考帧It和相邻帧It-τ（或It+τ），我们可以通过光流估计对像素级校准进行建模。设F是流量估计算法，例如FlowNet [4]，并且F（It-τ，It）指示从帧It到It-τ通过这种网络估计的流场。然后，我们可以将特征图从相邻帧扭曲到SS和s6Shiyao Wang，Yucong Zhou，Junjie Yan，Zhidong Deng时间-壮举t…T-CT-Ci- 此建议RFCNoo T-CtRPN像素oi我i像素我我不我运动模式网ot+c不o t+Ct+c→ trfcn像素TRFCNit+cot+cInsta推理即时报t+Ct+CRFCN(a) 特征提取器feat和流量估计（b）像素级校准（c）实例级校准（d）基于运动模式的组合图二、（更好地查看颜色）提出的完全运动感知网络（MANET）的总体框架。它包括以下四个步骤：（a）单帧特征提取和流量估计，其结果被馈送到接下来的两个步骤;（b）通过逐像素变形的像素级校准;（c）通过预测实例运动的实例级校准;（d）基于运动模式的特征组合。当前帧如下：ft−τ=Nfeat（It−τ）（一）ft−τ→t=W（ft−τ，F（It−τ，It））其中ft−τ表示由Nfeat提取的特征图，并且ft−τ→t是从时间t−τ到时间t的扭曲特征。扭曲操作W由应用于所有特征图的每个位置的双线性函数来实现它将附近帧t−τ中的位置p+∆p投影到当前帧中的位置p我们将其公式化为：∆p=F（It−τ，It）（p）ft−τ →tΣ（p）=G（q，p+∆p）fQt−τ （q）（2）其中Δ p是位置p处的流量估计的输出。q枚举了在图ft-τ处的所有空间位置，并且G（·）将不存在双线性的多项式k定义如下：G（q，p + p）= max（0，1 - 1）||q −（p + ∆p）||）（3）在获得附近帧的校准特征之后，我们将这些特征平均为更新的参考特征的低级聚合：Σt+τff像素为j=t−τj→t2τ +1（四）其中，f像素由从时间t-τ到时间t+τ的附近帧生成。[30]提出了一个自适应的权重来组合这些附近的功能。但我们发现，平均运动引导的功能具有类似的性能，更少的计算成本。因此，我们在模型中采用平均操作ℱ时间不…ℱ时间+t+C…实例级校准实例级校准像素级校准像素级校准用于视频对象检测的7不xt−τ通过逐像素校准，在空间上-时间上校准附近帧的特征，以便为参考帧提供不同的信息它缓解了视频中的几个挑战，例如运动模糊和视频散焦。3.3实例级校准像素级特征校准对于建模非刚性运动是灵活的，这需要精确的每像素对应。但是当物体被遮挡时，低水平的校准可能是不准确的。在本小节中，我们将其扩展到实例级运动建模，它具有更大的遮挡容限在R-FCN的得分图上进行实例级校准R-FCN使用专门的卷积层来产生位置敏感的得分图st。为了汇总第i个提案si的得分，我们应该获得st−τ、st+τ和pppo posalmovements。 st−τ和st+τ可以通过将ft−τ和ft+ τ馈送到R-FCN来独立地确定。问题是如何学习第i个提议的相对运动，这是校准实例级特征的先决条件我们采用参考帧的流量估计和建议作为输入，并产生相邻帧和当前帧之间的每个建议的运动。相对运动需要运动信息。虽然FlowNet的每像素运动预测由于遮挡而不准确，但它能够描述运动趋势。我们使用这种运动趋势作为输入，并输出整个对象的运动。与3.2节类似，我们仅用公式表示It−τ和I之间的关系，而It+τ也是类似的。首先，我们利用RoI池化操作来生成池化要素在位置（xi，yi，hi，wi）处的第i个提议的mit−τ不tttmi=φ（F（It−τ，It），（xi，yi，hi，wi））（5）t−τ不ttt其中，φ（·）表示R〇 Ipolo Iin g [6]，并且F（It−τ，It）是由第3.2节中的共享FlowNet产生的流时间。RoI池化使用最大池化将任何有效感兴趣区域内的特征转换为具有固定空间范围的小特征图。网络kR（·）的重新定义可以快速地确定根据mi，在帧t-τ和t之间的第i个提议：t−τixt−τiyt−τiwt−τiht−τ）=R（m，it−τ）（6）其中（∆iiyt−τiwt−τiht−τ）是相对移动的，并且R（·）是简单的。由完全连接的层分割剩下的问题是如何设计适当的监督，以学习相对运动。由于我们具有视频内的每个对象的track-id，因此我们能够根据地面实况边界框来生成相对移动我们认为，这些建议应该与地面实况物体有一致的运动因此，如果建议与地面实况在交并上（IoU）中重叠至少0.5，则上述换句话说，只有积极的建议将学会倒退的运动之间（✓），∆，∆，∆，∆，∆，∆8Shiyao Wang，Yucong Zhou，Junjie Yan，Zhidong Dengwt−τ不ht−τ不Insta我yi连续帧。我们使用归一化的相对运动作为回归目标。一旦我们获得了相对运动，我们就能够跨时间校准特征并聚合它们以增强当前帧的特征框架It−τ的提议可以被推断为：xi=∆i×wi+xiyi=∆i×hi+yit−τxt−τttt−τyt−τtt（七）wit−τ =exp（∆i）×wihit−τ =exp（∆i ）×hi基于附近帧的估计提议位置，第i个提议的聚合特征可以被计算为：Σt+τψ（s，（xi，yi，hi，wi））即时报=j=t−τjj j j j j2τ +1（八）其中表示相邻得分图，Φ表示位置敏感池。由[2]引入的ing层，并且s是的实例级校准功能第i项提案。关于相对运动回归的讨论。在[13]中，它们在生成tubelets时具有类似的运动回归问题它们利用来自提议的相同空间位置的汇集的多帧视觉特征来回归对象的移动然而，在没有明确运动信息的情况下，跨时间在相同位置内的这些特征使得回归难以训练。在我们的实例级运动学习中，我们使用流估计作为输入来预测运动。它可以同时回归所有提案的运动，而无需任何额外的初始化技巧。[5]提出了一种基于相关性的回归。相比于这种额外的相关操作，我们采用了一个共享的FlowNet来同时对两种运动（像素级和实例级）进行建模。这带来了两个优点：1）特征共享节省了计算成本（在4.6节中示出）。2）对实例级运动回归的监督提供了附加的运动信息，并且还改进了流估计。3.4运动模式推理与整体学习目标3.2-3.3节给出了两种运动估计方法。由于它们在不同的运动方式上各有优势，因此组合的关键问题是衡量运动部件的可靠性。但实际上，当他发现盒子的时候Xi比t在时间上快速变化，则运动模式更可能是不Xi非刚性的。因此，我们使用中心差分δ（t）表示的变化率不当前时间的纵横比为了提供更稳定的估计，我们使用对短片段进行平均操作以产生运动Sy用于视频对象检测的9yj=t−iτ+1y农里奥克卢GTGTGT网我GT图案：xixiδ（t）=（t+1−t−1）/2我我t t+1 Σt+τ−1yit−1Xi（九）pnonri=（j）、J2τ− 1其中pi是第i个建议的运动模式描述符corre-附近框架中的响应建议可从3.3节中获得。此外，当结合这两种校准时，遮挡是另一个重要因素。我们利用提案中的视觉特征来预测对象被遮挡的概率：pi=R（φ（fi，（xi，yi，hi，wi）（10）Occlu tt t t其中R（·）也是通过充分连续的分层和分层来实现的是第i个建议的遮挡概率。注意，等式10类似于等式10的运动特征与等式6相似，但是等式6使用来自FlowNet的运动特征来回归运动，而等式10采用视觉特征来预测遮挡。这主要是因为咬合与外观的关系更大考虑到这两个因素，我们使用可学习的软权重来组合两个校准的特征：IIscom=sinsta×α（occlu）+spixel×（1−α（occlu））（11）伊农里伊农里其中，α（·）：R→[0，1]是映射函数，该映射函数决定了权重的调整范围。总体学习目标函数被给出为：1ΣNL（I）=N i=1Lcls（pi，ci）+1ΣN 1{cgt>0}（Lreg（bi，bi）+Lcls（pi，ci））+（十二）Nfg1λ N树i=1ΣNtri=1igtLtr（∆i，∆i）奥克卢o gt我的回答是这是一个很好的例子。计划和数据库，以备将来使用分类softmax评分和基于si的边界框回归我看和Δi是遮挡概率和相对运动。1{ci>0}表示我们只回归前景提议，并且Ntr指示只有正提议将学习回归移动目标。Lcls是交叉熵损失，而Lreg和Ltr被定义为平滑L1函数。FlowNet由运动目标和最终检测目标两者给定总体目标函数，以端到端的方式学习整个架构，包括像素级校准、实例级校准、运动模式推理、边界框分类和回归ypp. p10Shiyao Wang，Yucong Zhou，Junjie Yan，Zhidong Deng4实验4.1数据集采样和评估指标我们在ImageNet [23]包含30个类的视频（VID）数据集的对象检测上评估了所提出的框架。它分为3862个培训视频和555个验证视频。这30个类别在所有视频帧上用地面实况边界框和轨道ID标记我们报告了验证集的所有结果，并按照[30，31，13]中的方案使用平均精密度（mAP）作为评价指标。ImageNet VID中的30个对象类别是ImageNet DET数据集中200个类别的子集虽然有超过112，000帧在VID训练集中，视频帧之间的冗余使得训练过程效率较低此外，视频中的帧的质量比DET数据集中的静止图像差得多因此，我们遵循以前的方法，并在ImageNet VID和DETset-30类别的交集上训练我们的模型综上所述，我们从VID数据集中的每个视频中采样10帧，并且从DET数据集中的每个类中最多采样2K图像作为我们的训练样本。4.2训练和评价我们的模型通过SGD优化进行训练，动量为0.9。在训练过程中，我们在4个GPU上使用4个批大小，其中每个GPU拥有一个迷你批。进行两阶段训练。在第一阶段，模型在DET和VID的混合物上训练12K次迭代，学习率为2。5× 10- 4和2。在前80K和40K次迭代中分别为5× 10−5在第二阶段中，针对VID数据集的另一个30 K迭代学习移动回归以及R-FCN，以便更适应VID域。特征提取器ResNetlOl模型针对ImageNet cl被预先训练为特征提取器。FlowNet（“Simplle”版本）也是在[4]中的合成Flying Chairs数据集上进行的，它们在上述过程中共同学习。在训练和测试中，我们使用600像素的较短维度的单尺度图像为了测试，我们聚集附近总共12个帧，以通过使用等式4和等式9来增强当前帧的特征。非最大值抑制（NMS）在RPN中应用，交集大于并集（IoU）阈值为0.7，并且0.4关于得分和倒退的建议。4.3消融研究在本节中，我们进行了消融研究，以验证所提出的网络的有效性。为了进行更好的分析，我们遵循[30]中的评估协议，其中地面实况对象被分成三组，并与所述模拟对象进行比较。所述方法可使用具有其在附近帧中的对应实例的联合检验差异度这意味着运动IoU（<0.7）是，越快用于视频对象检测的11特征提取器ResNet-101方法（一）（b）第（1）款（c）第（1）款（d）其他事项（e）多帧特征聚合？像素级校准？实例级校准？√√√√√√√√最大平均接入点（%）73.673.4↓0. 2 76.5↑2. 9 77.1↑3. 5 78.1↑4.5mAP（%）（缓慢）81.883.8↑2. 0 85.0↑3. 2 85.5↑3. 7 86.9↑5.1mAP（%）（中）71.375.7↑4. 4 74.9↑3. 6 76.1↑4. 8 76.8↑5.5mAP（%）（快速）52.245.2↓7. 0 56.6↑4. 4 55.4↑3. 2 56.7↑4.5表2.ImageNet VID验证的不同方法的准确性，使用ResNet-101特征提取网络。物体移动。否则，较大的运动IoU（得分> 0. 9）表示物体移动缓慢。其余的都是中速。方法（a）是单帧基线。通过使用ResNet-101实现了73.6%的mAP所有其他实验保持与该基线相同的设置请注意，我们只使用单一模型，不添加铃声和口哨声。方法（b）通过对多帧特征进行平均来执行。即使我们以端到端的训练方式使用相同的特征提取器，模型也比我们的基线结果更差。说明了运动导引的重要性。方法（c）结合像素级特征校准。逐像素运动信息有效地增强了来自特征聚合中的附近帧的信息。方法（d）是所提出的实例级校准。它通过预测连续帧之间的运动来对齐它将整体性能提高了3.5%，甚至比方法（c）中的逐像素运动引导特征更好。进行方法（e）以证明逐像素运动引导（方法（c））和逐实例运动引导特征（方法（d））是互补的，并且它们能够协作地改进模型。我们利用运动模式推理（在3.4节中介绍）来自适应地组合这两种校准特征，并且它有助于进一步将性能从77.1%提高到78.1%。综上所述，通过显式地对运动建模来聚合多帧特征是非常必要的，并且这两种校准模式的组合能够协同地促进最终的特征表示。通过上述模块，总体mAP从73.6%提高到78.1%。4.4案例研究和运动模式分析我们试图更深入地研究检测结果。为了证明两个校准的特征具有各自的强度，我们将验证数据集12Shiyao Wang，Yucong Zhou，Junjie Yan，Zhidong Deng像素级校准（扭曲）实例级校准像素级校准（扭曲）实例级校准时间-tt时间不pixel不0.17时间+0.170.48t+C+0.66t+cinsta时间−tt时间不pixel不+0.59Insta0.240.240.71时间+t+c像素级校准（扭曲）实例级校准(a) 受阻飞机像素级校准（扭曲）实例级校准(b) 非刚性运动图三.（更好地查看颜色）两个典型示例的可视化：遮挡和非刚性对象。它们显示了两种校准方法各自的优势运动模式像素级实例级结合闭塞73.074.175.3刚性非刚性81.052.881.951.682.353.2表3.不同验证集的统计分析。当对象被遮挡或移动更有规律时，实例级校准更好，而像素级校准在非刚性运动上表现良好。这两个模块的组合可以实现最佳性能。分成包括不同典型样本的不同子集。表3中的第一行示出了闭塞样品的性能。我们从验证中选择了87，195张图像，其中超过一半的边界框被遮挡。实例级校准实现了比像素级校准（73.0%）更好的性能（74.1%）。在运动模式方面，我们使用pnonri来划分数据集。片段中的p_nonri大于预定义阈值的对象将被视为非刚性运动，否则被视为刚性运动。在我们的实验中，阈值被设置为0.02。从表3的第二行和第三行，实例级校准对于建模刚性运动更好，而像素级校准具有建模非刚性图案的优点。特别地，自适应组合提取它们的优点并获得最佳性能。我们将学习的特征图可视化，以便更好地理解两种校准方法。图3（a）显示了一架被遮挡的飞机，它位于当前帧的底部。当使用单帧检测器时，类别“飞机”的置信度当应用像素级校准特征时，它可以被改进到0.48（第三列）。然而，由于遮挡部分，翘曲特征的质量不期望地降低。最后一列是实例级校准。由于它使用附近帧的原始特征图，类别“飞机”的置信度对于图3（b）中的非刚性对象，方向和轨迹都随着时间而改变，并且狗的部分可以具有不同的运动趋势。因此，实例级模块很难产生整个狗的正确动作。的用于视频对象检测的13附近帧中的对应位置不准确，导致不令人满意的分数0.59。相比之下，像素级校准是灵活的建模狗4.5与最先进系统的比较我们将我们的模型与现有的最先进的方法进行比较，这些方法可以分为两组：端到端学习特征方法[2，30，13，31]和基于后处理的方法[15，14，5]。在特征级的比较，建议的MANET实现这些方法之间的最佳性能。[13]与我们的实例运动学习具有相似的回归目标但它远不如我们的校准功能。[30，31]是像素级特征聚合，我们的模型优于这些方法，主要是由于运动预测的鲁棒性。在第4.4节中进行了分析。方法R-FCN[2]90.5 80.1 83.0 69.6七十三点四72.4 57.2 62.5 69.0 81.6 77.3 85.0 80.7 87.0 72.5 41.6TPN+LSTM[1]84.6 78.1 72.0 67.2 68.0 80.1 54.7 61.2 61.6 78.9 71.6 83.2 78.1 91.5 66.8 21.6D（T损失）[5]89.4 80.4 83.8 70.0七十一点八82.6 56.8 71.0 71.8 76.6 79.3 89.9 83.3 91.9 76.8 57.3DFF[31]84.6 82.1 84.1 67.1七十一点一76.1 56.5 67.8 65.0 82.3 76.3 87.8 81.9 91.3 70.3 47.7FGFA[30]89.4 85.1 83.9 69.8七十三点五79.0 60.6 70.7 72.5 84.3 79.9 89.8 81.0 93.3 72.3 50.5Manet90.1 87.3 83.4 70.9七十三点零75.6 62.0 74.0 73.3 85.3 79.6 91.6 83.5 96.5 74.5 70.5TCN [15]72.7 75.5 42.2 39.5725.0 64.1 36.3 51.1 24.4 48.6 65.6 73.9 61.7 82.4 30.8 34.4TCNN[14]83.7 85.7 84.4 74.5七十三点八75.7 57.1 58.7 72.3 69.2 80.2 83.4 80.5 93.1 84.2 67.8D（T损失）（τ=1）[5]90.2 82.3 87.9 70.1七十三点二87.7 57.0 80.6 77.3 82.6 83.0 97.8 85.8 96.6 82.1 66.7MANET（+[8]）88.7 88.4 86.9 71.4七十三点零78.9 59.3 78.5 77.8 90.6 79.1 96.3 84.8 98.5 77.4 75.5方法最大平均接入点（%）R-FCN[2]78.0 52.2 81.2 66.6八十一点五57.3 70.5 53.1 90.8 82.3 79.1 64.6 75.0 91.273.6TPN+LSTM[1]74.4 36.6 76.3 51.4 70.6 64.2 61.2 42.3 84.8 78.1 77.2 61.5 66.9 88.568.4D（T损失）[5]79.0 54.1 80.3 65.3 85.3 56.9 74.1 59.9 91.3 84.9 81.9 68.3 68.9 90.975.8DFF[31]76.5 45.7 78.1 62.8 77.8 55.8 74.5 50.5 90.2 81.7 77.9 65.8 66.2 89.572.8FGFA[30]80.8 52.3 83.0 72.7 84.0 57.8 77.1 55.8 91.9 83.8 83.3 68.7 75.9 91.176.5Manet82.0 54.4 81.6 67.0八十九点三73.3 77.4 54.3 91.9 82.9 80.3 69.3 75.4 92.478.1TCN[15]54.2 1.661.0 36.6十九点七分55.0 38.9 2.642.8 54.6 66.1 69.2 26.5 68.647.5TCNN[14]80.3 54.8 80.6 63.7八十五点七60.5 72.9 52.7 89.7 81.3 73.7 69.5 33.5 90.273.8D（T损失）（τ=1）[5]83.4 57.6 86.7 74.2九十一点六59.7 76.4 68.4 92.6 86.1 84.3 69.7 66.3 95.279.8MANET（+[8]）84.8 55.1 85.8 76.7九十五点三76.2 75.7 59.0 91.5 81.7 84.2 69.1 72.9 94.680.3表4.在ImageNet VID验证集上与最先进的系统进行性能比较。提供了每个类别的平均精度（%）和所有类别的平均精度由于MANET的目的是提高视频帧的特征质量，它可以进一步结合边界框后处理技术，以提高识别精度。因此，使用基于后处理的方法并结合[8]，MANET实现了更好的性能（从78.1%到80.3%），仍然优于其他强基线[15，14，5]。14Shiyao Wang，Yucong Zhou，Junjie Yan，Zhidong Deng综上所述，基于特征的方法之间的比较与我们的动机有关。我们的模型侧重于端到端的特征学习，在这些方法中具有明显的优势。此外，我们还表明，移动自组网可以进一步改善后处理，并达到国家的最先进的性能。4.6性能和耗时评估由于O（·）处的h不被定义为针对M模型N（Nfeat+Nrpn+ Nrfcn）的时间间隔，F为流量估计，W为像素级特征扭曲，Ins为实例级回归，并且Ocu为遮挡预测。当聚合1个相邻帧时，我们有：O（N）=（82. 8 ms）O（F）=（6. 8毫秒）>O（Ocu）=（2ms）> O（Ins）=（1. 5ms）> 0（W）=（0. 8毫秒）（十三）其中，与N相比，聚合模块花费的时间可以忽略不计。为了测试，我们聚合k个附近帧以增强参考帧。表5中列出了改变k的性能和时间。请注意，聚集附近的4帧，我们的模型可以实现77.58%的mAP，这超过了[30]的性能，其中附近的20个帧被聚合。K048121618最大平均接入点（%）运行时间（ms）73.5787.477.58126.877.96161.378.09201.878.08241.178.07269.7表5.通过在推理中使用不同k获得的结果运行时包含在NVIDIA Titan XPascal GPU上测量的数据处理。5结论我们提出了一个端到端的学习框架，通过聚集多帧特征的视频对象检测的原则。我们以两种不同的方式对连续帧之间的运动进行我们进行了广泛的消融研究，以证明我们的模型中每个模块的有效性此外，本文还深入分析了它们在不同运动建模方面的各自优势所提出的模型在具有骨干网络ResNet101的大规模ImageNet VID数据集上实现了80.3%的mAP，这优于现有的最先进的结果。致谢本工作得到了国家重点研发计划项目的部分资助&。2017YFB1302200和中国北方工业集团公司高研联合基金，批准号：6141B010318。用于视频对象检测的15引用1. 陈玉，李杰，Xiao，H.，Jin XYan，S.，Feng，J.：双路径网络。Corrabs/1707.01629（2017）2. Dai，J.，李，Y.，他，K.，孙杰：R-fcn：通过基于区域的全卷积网络的目标检测。在：神经信息处理系统的进展。pp. 3793. Dai，J.，Qi，H.，Xiong，Y.，李，Y.，张，G.，Hu，H.，魏云：可变形对流网络。 In ： IEEE International Conference on Computer Vision ， ICCV2017，Venice，Italy，October22-29，2017. pp. 7644. Dosovitskiy，A.，Fischer，P.，Ilg，E.，Hausser，P.，Hazirbas角戈尔科夫van der Smagt，P.，Cremers，D.Brox，T.：Flownet：使用卷积网络学习光流在：IEEE计算机虚拟现实国际会议论文集中。pp. 27585. Feichtenhofer，C.，Pinz，A.，齐瑟曼，A.：检测跟踪和跟踪检测。国际计算机视觉会议（ICCV）（2017）6. Girshick ， R. ：快速 R-CNN 。 In ： Proceedings of the IEEE internationalconference on computervision. pp. 14407. Girshick，R.B.，Donahue，J.，Darrell，T.，Malik，J.：丰富的特征层次结构，用于精确的对象检测和语义分割。在：2014年IEEE计算机视觉和模式识别会议，CVPR 2014，哥伦布，OH，美国，2014年6月23- 28日。pp. 第5808. 汉，W.，Khorrami，P.Paine，T.L.，Ramachandran，P.，Babaeizadeh，M.，施，H.，李杰，Yan，S.，Huang，T.S.：用于视频对象检测的Seq-nms。arXiv预印本arXiv：1602.08465（2016）9. 他，K.，张，X.，Ren，S.，孙杰：用于视觉识别的深度卷积网络中的空间金字塔池。IEEE传输模式分析马赫内特尔37（9），190410. 他，K.，张，X.，Ren，S.，孙杰：用于图像识别的深度残差学习在：IEEE计算机视觉和模式识别会议论文集。pp. 77011. Huang，G.，刘志，范德马滕湖，Weinberger，K.Q.：密集连接的卷积网络。In：2017IEEE Conference on Computer Vision and PatternRec gnit i t ition，CVPR2017，Honoluu，HI，USA，2017年7月21-26日。pp. 226112. Hur，J.，Roth，S.：Mirrorflow：Exploiting symmetries in joint optical flowand occlusion estimation. In ： IEEE

下载后可阅读完整内容，剩余1页未读，立即下载