视频对象检测的延迟度量：平均精度与延迟时间的关系

189 浏览量更新于2023-10-12 收藏 1.13MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

1视频对象检测的延迟度量：平均精度不能说明斯坦福大学huizimao@stanford.edu杨晓东xiaodongy@nvidia.comWilliam J. Dally斯坦福大学NVIDIAdally@stanford.edu摘要平均精度（AP）是用于评估图像和视频对象检测器的检测精度的广泛使用的度量在本文中，我们分析了从视频对象检测，并指出，AP单独是不足以捕捉视频对象检测的时间性质。为了解决这个问题，我们提出了一个全面的度量，平均延迟（AD），测量和比较检测延迟。为了便于延迟评估，我们仔细选择了ImageNet VID的一个子集，我们将其命名为ImageNetVIDT，重点是复杂的轨迹。通过广泛评估各种检测器的VIDT，我们表明，大多数方法大大增加了检测延迟，但仍然保持AP很好。换句话说，AP不够灵敏以反映视频对象检测器的时间特性我们的研究结果表明，视频对象检测方法应额外评估延迟度量，特别是对于延迟关键型应用，如自主车辆感知。1. 介绍视频对象检测越来越受到人们的关注。许多现实世界的应用，如监控分析和自动驾驶，都需要处理视频流。在过去的几年中已经提出了几种单图像对象检测算法[5，20，30]，但是它们在全分辨率视频流上运行是因此，利用时间信息是改善精度-成本权衡的重要方向[12，19，33]。以前的研究缺乏密集注释的视频数据集。KITTI [9]是一个针对自动驾驶的数据集，提供帧级边界框注释。但是，与其他用于训练深度神经网络的大规模数据集相比，它相对较小。自视频挑战（VID）中的对象检测被引入视频中以来，视频对象检测算法的研究受到了越来越多的关注。视频对象检测有两个一般目标：提高检测精度[2，8，12，37]，计算成本[4，24，38]。目前，所提出的检测算法的准确性主要用平均精度（AP）或平均平均精度（mAP）来评估，平均平均精度（mAP）是所有类别上的AP的平均值[6，9，18]。像VID这样的视频对象检测基准也采用mAP，其中每一帧都被视为一个单独的图像进行评估。然而，这样的评估度量忽略了视频的时间性质，并且未能捕获检测结果的动态，例如，检测实例的后半部分出现的检测器保持与检测每隔一帧的检测器相同的mAP如在后面的实验中所示，视频检测器倾向于展示与它们的单图像对应物相比不同的时间响应。我们引入了一种新的检测延迟度量 -- 平均延迟（AD）.测量视频对象检测延迟似乎微不足道，因为延迟可以简单地定义为从对象出现到检测到对象的帧数。然而，为了避免算法平凡地检测图像中的每个边界框的情况AD还需要被设计成像AP一样全面，以便可以组合不同虚警率下的延迟。我们将在第三节讨论我们的设计比率。VID中的大多数视频片段包含固定数量的实例（通常只有一个），这不适合于延迟评估。因此，我们在VID中选择验证集的一部分，并将其命名为VID withmultiple tracklet（VIDT）。新的VIDT数据集的详细信息见第4节。使用VIDT，我们然后在第5节中评估了最近提出的各种视频检测算法的AD。图1显示了总体趋势，表明一些减少计算的方法[24，38]很好地保留了mAP，但增加了AD。替代方法利用时间信息来提高检测精度，但会使检测延迟恶化[37]。我们的研究结果表明，视频对象检测方法应评估的延迟度量，特别是对于延迟关键的应用程序，如自动驾驶汽车的感知。57357414131211109870.45 0.50 0.55 0.60 0.65 0.70地图图1. AD与mAP没有强相关性。专门为视频对象检测设计的许多算法不能实现与逐帧图像检测器类似的AD，尽管它们可能具有更高的mAP。图像对象检测器包括R-FCN、FasterR-CNN和RetinaNet。视频对象检测器包括DFF、FGFA和CaTDet。据我们所知，这是第一个工作，提出和比较检测延迟，一个非常关键的，但通常被忽视的问题，视频对象检测。我们提出了一个综合性的评估指标AD来衡量和比较视频对象检测延迟1。通过对各种视频对象检测算法的评价，分析了影响检测延迟的关键因素，为以后的算法设计提供了指导。2. 背景2.1. 视频对象检测视频对象检测执行与图像对象检测类似的任务，不同之处在于前者是在视频流上进行通常需要获得成本高的密集注释视频来训练视频对象检测器。ImageNetVID挑战赛极大地推进了视频对象检测领域的研究进展，并提供了覆盖广泛场景的大型逐帧注释数据集已经提出了各种方法，并在VID数据集上进行了评估。视频对象检测的目标是通过利用视频的时间维度来降低计算成本或改进检测结果例如，深度特征流（DFF）[38]，检测或跟踪（DorT）[21]，CaTDET [24]和saptiotemporal采样网络[2]属于第一类，而T-CNN[12]，检测跟踪（DtoT）[8]和LSTM辅助SSD [19]属于第二类。这些方法通常是经过充分研究的图像对象检测算法的变体，例如R-FCN [5]，Faster R-CNN [30]，SSD Multibox [20]和RetinaNet [17]。1代码可从https://github.com/RalphMao/VMetrics获得。如VID挑战中所要求的，视频对象检测器的性能仅由mAP评估，mAP是静止图像对象检测的度量[6，7，18]。在评估mAP时，视频的每一帧都被视为一个单独的图像。以这种方式，测量并比较整个视频序列上的检测器的质量。2.2. 低延迟是一个实际要求低延迟是许多视频相关应用的共同要求。例如，自动驾驶通常需要小于100 ms的延迟[16]。期望以最小延迟检测对象，并且在特定时间之后的检测不再重要。在以前的研究中，术语延迟主要指的是计算延迟[1，26]。然而，我们认为，整体延迟等于计算延迟加上算法延迟，后者是在视频流中的算法最终确定对象的存在所花费的时间。计算延迟在最近的工作中得到了广泛的研究[11，25，36]，而算法延迟在对象检测领域中仍然较少探索。在活动检测等其他领域，人们一直在努力研究早期检测[22]。2.3. 迟延问题最快变化检测（QCD）是统计处理中研究得很好的它是指尽可能快地实时检测所观察到的信号或时间序列的行为的突然变化[28]。通常，延迟是在一定的假警报约束下测量的。Lao等人。[14]以最小延迟为目标的移动对象检测问题。他们在量子色动力学的框架下制定了任务，并给出了单目标情况下的最优解。NAB [15]是时间序列数据中实时异常检测的基准。作者指出，传统的评分方法，如精确度和召回率是不够的，因为它们不能有效地测试实时使用的异常检测为了奖励早期检测，他们定义了异常窗口。在窗口内，通过S形函数对真阳性检测进行评分，并且在窗口外忽略所有检测。在视频动作识别领域[23，32，34]，早期检测也得到了关注[13，31]。该任务通常需要积累足够的帧来做出决定。为了缓解这个问题，提出了一个特殊的损失函数来鼓励早期检测活动[22]。上述所有工作本质上都是处理单目标或单信号的情况。CATDet [24]引入了一个延迟度量来测量多个对象的检测延迟。然而，延迟仅在特定精度下进行评估以对抗假警报。视频检测器图像检测器AD575理想PMF延迟直方图配置情况1：延迟= 3配置情况2：延迟= 10.8精密度>0.60.8真阳性假阳性N13. 平均延迟度量在本节中，我们提出了平均延迟（AD）的定义，即视频对象检测延迟的评估指标。我们的衡量标准旨在兼顾公平性和全面性。公平：AD考虑权衡对于离散指数分布，期望值遵循E（D）=1/p−1。因此，我们可以通过推断潜在参数p来测量检测器的质量，给定多个观察到的数据点Di，其中i = l，…， N.最大似然估计，我们发现，最大当预期值与假阳性和假阴性之间的区别来避免通过检测许多假阳性来减少延迟。Com-样品平均值：E（D）=1Ni=1 Di=D<$。所以全面性：AD覆盖广泛的操作条件，类似于AP。在深入研究详细的推导过程之前，我们首先解释本文中使用的术语实例是在连续帧中显示为轨迹（或轨迹片段）的物理对象。对象是指帧中实例的单个出现。对象的地面实况包括其边界框坐标、类别标签和轨迹标识。检测是利用边界框坐标、类别标签和置信度在一个帧中识别对象。3.1. 延迟与检测的统计过程延迟最直观的定义是每个帧上的检测概率P可以通过下式获得1p=D¯+1（1）如前所述，当我们试图估计p时，“重尾”的存在如果重尾支配平均值，则不同检测器可能无法有效区分因此，我们采用一种简单的策略，以一个恒定的值W，我们命名为一个检测窗口的延迟样本剪辑。这也是一个实际的考虑因素，因为对于大多数延迟关键型任务，一旦超出时间窗口，检测就不再重要。1p=D+1，从它所访问的帧中检测一个实例所用的帧梨。在对综合延迟度量进行推理之前，ΣN¯ ∗min（Di，W）。（二）我们做一个简单的假设：检测器以相同的概率p在每一帧检测每一个对象。在此假设下，延迟D遵循离散指数分布：D=exp（p）。图2举例说明了VIDT上R-FCN的检测延迟的直方图实际分布一般类似于指数分布，除了尾部的异常区域。由于“硬实例”的存在，存在比预期多得多的具有极大延迟的关于延迟统计的详细讨论在第6节中描述，硬示例在图10中给出。D=Ni=13.2. 假阳性率重要的是设置一个假警报阈值，以确保公平的比较。在先前的工作[24]中，定义为真阳性数除以总检测的精度被选择为对抗假警报的阈值，因为增加的假警报数将降低精度。然而，如果我们设置相同的精度来比较不同的检测器，则会出现不期望的结果。我们使用图3中的玩具示例进行演示，以说明设置精度阈值可能会导致4003503002500.60.62000.40.4精密度>0.61500.20.21001234帧12 34帧5000 100 200 300 400 500 600延迟图2.置信阈值为0.5时，VIDT上R-FCN（ResNet-101）的延迟直方图。我们还显示了一个理想的离散指数分布下的概率质量函数（PMF）作为参考的实际延迟分布图。图3.一个玩具例子来说明使用精度作为控制可能会导致不希望的行为。在帧1-4中存在一个地面我们将控制设置为Prec>0。六、由于在帧4处更有把握的真肯定，情况2具有比情况1低得不将假阳性率设为对照可以避免这一问题。Number576RR图4.VID验证集中的代码段上图：用于延迟评估的理想视频片段，多个实例在空间和时间上随机出现底部：不需要的视频片段，其中始终存在相同的实例。测量延迟的行为与我们的期望不同。假设精度阈值设置为0.6。在情况1中，我们蒂奥河请注意，这个定义与调和平均值的形式非常相似。应将置信度阈值设置为0.75，以满足精度要求。在情况2中，由于置信度增加1AD=−1=p¯1Σ 11− 1（3）对于最后一次检测的得分，0.35的置信度阈值是足够的。在这两种情况下得到的检测延迟分别为2和0。通过细化后面的检测，可以神奇地改善检测延迟。这样一种解释与我们的直觉相反，我们的直觉认为延迟应该是早期发现的问题。因此，我们认为，精度可能不是对付假警报的理想阈值相反，我们建议使用假阳性（FP）比率，这是假阳性和地面真实对象之间的比率。FP比率作为阈值仅由假阳性检测确定，因此不会受到更多真阳性的影响。3.3. 一个综合的度量最后一个问题是，我们应该如何在不同的虚警约束下，像AP一样，客观地测量检测器的检测延迟。AP是不同召回率下精确度的积分或算术平均值类似地，在不同的误报率上平均检测延迟是一个好的实践吗？考虑现实世界的场景，具有零延迟的检测器实质上优于具有1帧延迟的检测器，而具有14帧延迟的检测器与具有15帧延迟的检测器没有显著差异然而，算术平均数不能区分这两种情况。我们认为，平均潜在参数p，表示检测到物体的概率，是一个更好的选择。由于p是D<$+1的倒数，因此延迟越小，它的权重就越此外，它是一个介于0和1之间的有界值。因此，我们对推断的p进行平均值，并从平均的p’中得到相应的AD。我们在等式3中示出了所提出的AD的定义。这里，R代表FP比率的总数，而D是在特定FP比率下通过等式2测量的延迟RrD+1在我们接下来的实验中，我们设置检测窗口W至30帧，并选择6个FP比率，包括0.1、0.2、0.3、0.4、0.5、0.6、0.8、0.9、0.4、0.8、1.6和3.2。4. 延迟评估数据集4.1. 概述有多个用于对象检测的公共数据集，例如KITTI[9]，ImageNet-VID [6]，YouTube-BB [29]，BDD 100K [35]，VIRAT [27]等。 KITTI是一个相对较小的数据集，因此很难训练深度神经网络。ImageNet VID中的大多数视频片段从头到尾都包含固定数量的对象，这会泄露很强的先验信息，因此不适合进行延迟评估。Youtube-BB和BDD 100 K都是具有丰富对象和场景的大规模数据集，但它们的注释很少。VIRAT是一个监测分析数据集，具有固定的背景。用于延迟评估的理想数据集应该（i）被密集注释（逐帧）;（ii）对于每个实例具有随机进入时间（排除在整个时间内具有相同对象的视频）;（iii）具有用于每个实例的随机入口位置（不包括具有固定背景的视频以及用于新对象的有限的入口位置）。在图4中，我们展示了ImageNet VID验证集中理想的片段具有在空间和时间上随机进入帧的多个不同实例，而在非理想情况下，从第一帧到最后一帧存在相同的实例（在该示例中是船4.2. VIDT简介为了满足上述要求，我们引入了VID验证集的一个子集VIDT视频截图-577250200150100500类5.1. 用于公制比较的玩具箱我们设计了几种特殊情况，以显示我们提出的平均延迟度量相对于mAP [7]，NAB评分[15]和CaTDet延迟[24]的优势。最初设计用于异常检测的NAB metric可以被修改以适应对象检测任务。修改描述见附录。我们的不同度量的比较是通过操纵检测输出和量化对每个度量的影响来实现的。延迟通过抑制轨迹片段的前几个检测来测量灵敏度。期望的延迟度量应当在延迟之后恶化。尾部提升通过提升信心来衡量公平性图5.每个类的实例数量高度不平衡在VID和VIDT中。类“Car”在两个数据集中都有最多的实例。在VIDT中没有“Lizard”和“Sheep”的实例数据集片段帧实例对象VIDT12053K666102KVID-val555176K1309二十七万四千VID-train38621122K7911小行星1732KKITTI*218K78341K表1.用于延迟评估的候选数据集的统计信息。请注意，KITTI没有正式的train/val分割。在VIDT中的宠物至少有一个实例在非第一帧进入，这保证了进入时间的随机性VIDT很大程度上依赖于VID中的注释轨道标识一个细微的区别是，在VIDT中，一旦实例消失超过10个连续帧，则将其标记为新实例。一个原因是我们不关心重新识别能力，而只关心尽早检测的能力。这样，实例的数量从555增加到666。我们在表1中报告了VIDT的统计数据，并与原始VID和KITTI进行了比较。VID丰富的训练数据使得训练深度神经网络成为可能尽管VIDT比VID的原始验证集小，但它仍然比KITTI有更多的帧和对象，并结合了训练集和验证集。然而，严重的类不平衡问题存在于VID和VIDT中，如图5所示.因此，AD不是在每个类上单独测量的，而是以类不可知的方式处理所有实例5. 实验在这一节中，我们将展示一个常见的，但大多数被忽视的问题，在最近的视频对象检测的研究。许多检测器遭受更差的检测延迟，即使它们能够保持甚至提高平均平均精度。最近检测到的物体的分数。公平的延迟度量应该不受尾翼助推的影响。从表2中可以得出多个观察结果。• 对于mAP，延迟几乎没有影响，而尾部助推大大改善了结果，这与随着受影响检测的数量而起舞。• 延迟包括所有三个延迟度量。然而，如果仅抑制低置信度对象，NAB和CaTDet不能反映变化，因为它们在单个置信度阈值下操作。相比之下，AD评估多个阈值，因此对于反映延迟的影响是稳健的。• 对于尾部增强，其改善NAB和CaTDet两者，而仅可忽略地改善AD，表明AD在公平性方面优于其他两个指标。5.2. 关键帧方法一系列关于视频对象检测的最新工作采用了关键帧的概念[4，10，21，38]。关键帧稀疏地分布在整个视频序列上，并且通常需要更多的计算资源基线延迟低配置全部尾部助推受影响人数检测03076361671781地图0.640.630.630.70NAB0.290.290.170.31CaTDet13.613.615.112.5AD（我们的）9.011.513.88.9表2.通过数据操作比较不同指标。基线是带有ResNet-101的R-FCN探测器。延迟通过抑制地面实况实例的前5个检测来降低检测速度。在low-conf的情况下，我们仅抑制具有低置信度的检测，而在all的情况下，所有检测都被抑制，而不管它们的置信度分数如何。尾部增强改进了比地面实况第一次出现晚20帧的检测注意，对于CaTDet和AD，较低的数字表示较好的结果。VIDVIDT实例数578一点二十分DFF R-FCNR-FCNFGFA R-FCN一点十五分1：101：8半模型一比五19：1一比三七比一1：2的比例一比一三比一完整模型1：1的比例信心1.0140.8130.6120.4十一点二0.010 0 5 10 15 20 25 30帧90.58 0.60 0.62 0.64 0.66 0.68地图图6. DFF和FGFA如何影响mAP和AD。这里，1：N是指DFF的每N个帧中的1个关键帧。N：1是指针对FGFA聚合的N个帧。全模型和半模型都是逐帧R-FCN模型，除了半模型是用一半的迭代次数所有模型都使用ResNet-101作为主干。非关键帧。关键帧可以用来提高检测精度或减少非关键帧的成本，通过利用视频中的时间局部性。我们选择深度特征流（DFF）[38]作为代表性的基于关键帧的算法。其基本思想是在关键帧上计算特征，在非关键帧上用光流传播特征我们改变关键帧的间隔，并在图6中显示对mAP和AD的影响。两个R-FCN模型也报告进行比较。完整模型是一个标准的R-FCN模型，使用ResNet-101，半个模型在相同的架构中，但只训练了一半的迭代次数。图6显示DFF倾向于使AD恶化。例如，在每10帧中采用关键帧的DFF模型实现了0.613的mAP，远高于mAP下R-FCN模型的0.567。然而，就AD而言，DFF模型稍差（11.6 vs. 11.2）。这指示设置稀疏关键帧导致新对象的延迟检测。5.3. 特征聚合方法结合多帧图像的特征是提高检测精度的有效途径。该领域最近的工作包括通过时间上增加特征的显式特征聚合[2，37]和通过递归神经网络的隐式特征聚合[19]。我们选择流引导特征聚合（FGFA）[37]并演示它如何在改善mAP的同时影响检测延迟。FGFA聚合了前一帧的特征，解决了空间错误。图7.示例说明了FGFA如何导致更高的检测延迟。逐帧R-FCN模型表现出大的置信度波动，而FGFA模型倾向于随着时间缓慢地通过用光流传播特征来匹配。FGFA的开源版本基于R-FCN，因此我们还在图6中比较其mAP和AD。单独的FGFA将mAP从0.642改善至0.675，同时将AD从9.0降低至10.2。我们还观察到一种趋势，即聚合的帧越多，可以获得越好的mAP，但AD越差。与原始R-FCN相比，FGFA大大改善了mAP，但恶化了检测延迟。为了解释这种现象，我们选择了一个延迟增加的实例，并在图7中绘制了被检测到的过程，图7显示了最接近地面真实对象的检测的置信度得分。在没有检测具有超过50%的IoU的情况下，置信度得分为0。如图所示，FGFA的稳定和渐进增加的置信度导致检测的额外延迟，这表明对于延迟关键任务，缓慢建立置信度可能不是一个好的选择。5.4. 级联探测器级联检测器由多个组件组成，并试图将工作负载从复杂的组件转移到简单的组件，遵循特定的逻辑。Bolukbasi等人[3]提出了一个对象识别问题的选择执行模型，它本质上是一个级联系统。进一步的工作探索了级联系统在视频对象检测任务中的功效，包括标度时间网格[4]和CaTDet [24]。我们采用CaTDet [24]作为示例。CaTDet补充道级联模型中的跟踪器，以实现时间反馈，这有助于节省工作量并提高准确性。R-FCNFGFA R-FCNAD579CaTDetFaster R-CNNC-0.60C-0.40ResNet-18C-0.20ResNet-34C-0.10C-0.05C-0.02C-0.01ResNet-50ResNet-1015014403012201010800 100 200 300 400 500 600延迟0.45 0.50 0.55地图图8.CaTDet很好地保留了mAP，但会导致更多的AD，与具有较小模型的更快R-CNN兼容。C-α代表CaTDet，中间阈值为α。较大的α值节省了更多的计算，但损失的精度更高所有的CaTDet 模型都基于Faster R-CNN 和ResNet-101。活泼如图8所示，CaTDet模型很好地保留了mAP，但与其他Faster R-CNN模型相比，大大增加了检测延迟。内部置信度阈值为0.01的CaTDet模型实现了0.555的 mAP ，这非常接近 Faster R-CNN 模型的 mAP（0.561），但是，它将AD从8.2增加到9.2。6. 延迟分析在本节中，我们分析了VIDT数据集上视频对象检测延迟的特性，旨在提供我们对AD度量的见解。6.1. 延迟分布在第3节中，我们假设视频对象检测延迟遵循离散指数分布，但具有厚尾。在这里，我们提供更多的例子和分析，以检查延迟的实际分布。我们选择三种对象检测方法：R-FCN、Faster R-CNN和DFF R-FCN，并在图9中绘制其延迟分布。这三种分布都类似于R-FCN快R-CNNDFFR-FCN是说33.517.843.3限幅均值24.413.831.5窗口外百分比百分之十点二百分之三点六百分之十四点三预期窗口外百分比百分之五点三百分之零点四百分之十点二表3.显示延迟分布的厚尾效应的统计数据：超过100帧窗口的预期检测。限幅平均值是用公式2计算的平均值。图9.多个探测器延迟分布的放大图所有三个模型都基于ResNet-101，并且具有相同的置信阈值0.5。DFF以10个关键帧中的1个运行指数分布请注意，在相同的置信度阈值下，Faster R-CNN具有最小的延迟，因此与其他两种方法相比，其延迟分布更偏向左我们还在表3中显示了测量“重尾”效应的统计数据平均值和截尾平均值之间的差异表明长尾对平均值有很大的影响。在这里，我们将“预期离窗百分比”定义理想的分布是最大似然估计。这样的概率可以通过P=（1-p）W来计算，其中p如等式1中获得，W是窗口大小。的在所有三个检测器中窗口外的更高百分比我们选择了6个例子，图10.使用ResNet-101的R-FCN具有大于100帧延迟的硬实例示例。所有的作物都被扭曲成相同的尺寸。它们代表了倾向于导致大的检测延迟的一些典型情况：低分辨率（左）、严重遮挡（中）、模糊和遮挡（右）。R-FCNFaster R-CNNDFF R-FCNNumberAD580锚20小中位数大总体地图15表4.不同实例大小的锚定尺度对AD的影响10基线模型是带有ResNet-50的Faster R-CNN2个刻度：(16，32），3级：（8，16，32），4级：（4，8，16，32），和5级：（4、6、8、16、32）。50自行车64鸟43196号车狗40猴子46全部666图11. AD分类：我们仅说明六个视频对象类，每个视频对象类包含40个以上的实例。实例的数量显示在每个类名下。所有三种探测器都采用ResNet-101作为基础模型。DFF以10个中的1个关键帧操作10具有最大延迟，并在图10中示出它们。这些视频对象要么具有非常低的分辨率，要么被严重截断或被大量遮挡。6.2. 不同类别的平均延迟由于VIDT中的类不平衡，AD在所有666个实例上而不是单个类上测量，以避免高方差。为了演示延迟如何在不同类上变化，我们选择了5个具有超过40个实例的类，并在图11中比较了它们的AD结果。所有三个模型都呈现了“鸟”类的大延迟，其通常是小的且快速移动的。类“汽车”和“狗”具有相对较小的延迟。对于类6.3. 不同尺度的平均延迟为了研究实例大小对检测延迟的影响，我们将666个实例按其前30帧的平均短维Ds小型、中型和大型实例根据以下分类Ds40，40≤Ds100和Ds≥100。<< 该标准导致129个小实例，257个中位实例和280个大型实例。锚尺度是所有主要对象检测算法中的参考边界框的大小如表4所示，将锚标度的数量从3进一步增加到4不会改善mAP。但是，添加小比例有助于AD，特别是对于分辨率较低的实例。这可能是因为表5.显著性检验：VIDT的不同亚折叠或另一不同数据集的AD结果显示出良好的一致性。在这里，DFF每2帧中有1个关键帧。在最初几帧中出现时通常较小5个尺度的结果表明，进一步添加更细粒度的尺度并没有多大帮助。6.4. 方差分析考虑到VIDT仅包含几百个实例的事实，在该数据集上评估的各种视频对象检测器的AD可能倾向于高方差。在这里，我们分析我们的比较是否可靠，即，不同方法的AD之间的差异与方差相比是否为了测试DFF和FGFA对基线模型R-FCN产生额外延迟的结论，我们进行了3倍验证以验证结果是否在每个倍上良好相关此外，我们从ImageNet VID-2017（最近发布，但尚未在社区中广泛使用）中选择一个子集，并验证相同的结论是否可以扩展到不同的数据集。结果示于表5中。我们发现结果在所有折叠和数据集上具有良好的一致性。7. 结论本文提出了度量平均延迟（AD）来衡量和比较各种视频目标检测器的检测延迟。大量的实验发现，许多检测器，下降检测精度遭受的问题，lem的延迟增加然而，广泛使用的检测精度度量mAP本身不能揭示这一缺陷。我们希望我们的研究结果和新的AD指标将有助于设计和评估未来的视频对象检测器的延迟关键任务。我们还预计未来将出现大型和多样化的视频数据集，并更好地解决延迟问题。Faster R-CNN鳞片215.910.26.69.90.545R-FCNDFF R-FCN313.59.16.28.80.563AD折叠1VIDFold 2不折片3整体VIDT-2017R-FCN8.69.58.89.010.9DFF8.710.19.19.211.0FGFA9.311.510.110.212.2581引用[1] 伯克利DeepDrive：自动驾驶车辆的低延迟深度推理。https://deepdrive.berkeley.edu/project/low-latency-deep-inference-self-driving-vehicles. 2[2] Gedas Bertasius，Lorenzo Torresani，and Jianbo Shi.基于时空采样网络的视频对象检测在ECCV，2018。一、二、六[3] Tolga Bolukbasi ， Joseph Wang ， Ofer Dekel ， andVenkatesh Saligrama.用于高效推理的自适应神经网络。ICML，2017。6[4] Kai Chen，Jiaqi Wang，Shuo Yang，Xingcheng Zhang，Yuan-jun Xiong，Chen Change Loy，and Dahua Lin.通过尺度时间网格优化视频对象检测。在CVPR，2018年。一、五、六[5] 戴纪峰，易力，何开明，孙建R-FCN：通过基于区域的全卷积网络进行对象检测。InNeurIPS，2016. 一、二[6] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. ImageNet：一个大规模的分层图像数据库。CVPR，2009。一、二、四[7] Mark Everingham ， Luc Van Gool ， Christopher KIWilliams ， John Winn ， and Andrew Zisserman.PascalVisual Object Classes（VOC）IJCV，2010年。二、五[8] ChristophFeichtenhofer、AxelPinz和AndrewZisserman。检测跟踪和跟踪检测。InICCV，2017. 一、二[9] Andreas Geiger ， Philip Lenz ， Christoph Stiller ， andRaquel Urtasun.视觉与机器人技术的结合：KITTI数据集。 International Journal of Robotics Research ， 2013.1、4[10] 唐聪瑞，秦宏伟，刘绍辉，严俊杰.用于视频对象检测的印象网络。arXiv：1712.05896，2017年。5[11] Andrew G Howard，Menglong Zhu，Bo Chen，DmitryKalenichenko，Weijun Wang，Tobias Weyand，MarcoAn- dreetto，and Hartwig Adam. MobileNets：用于移动视觉应用的高效卷积神经网络。arXiv：1704.04861，2017。2[12] Kai Kang，Hongsheng Li，Junjie Yan，Xingyu Zeng，BinYang，Tong Xiao，Cong Zhang，Zhe Wang，RuohuiWang，Xiaogang Wang，et al. T-CNN：使用卷积神经网络的Tubelets用于视频中的对象检测。TCSVT，2018年。一、二[13] 余空，德米特里·基特和云福。用于动作预测的具有多个时间尺度的判别模型。2014年，在ECCV。2[14] Dong Lao和Ganesh Sundaramoorthi。最快的移动物体检测。arXiv：1605.07369，2016。2[15] Alexander Lavin和Subutai Ahmad。评估实时异常检测算法--数值异常基准。在ICMLA，2015年。二、五[16] Shih-Chieh Lin，Yunqi Zhang，Chang-Hong Hsu，MattSkach，Md E Haque，Lingjia Tang，and Jason Mars.自动驾驶的建筑意义：限制和加速。在ASPLOS，2018年。2[17] 林宗义、普里亚·戈亚尔、罗斯·格希克、何开明和彼得·多尔·拉尔。密集目标检测的焦面损失。InICCV，2017.2582[18] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。Microsoft CoCo：上下文中的公用对象。2014年，在ECCV。一、二[19] Mason Liu和Menglong Zhu。利用时间感知特征图的移动视频对象检测。在CVPR，2018年。一、二、六[20] Wei Liu ， Dragomir Anguelov ， Dumitru Erhan ，Christian Szegedy ， Scott Reed ， Cheng-Yang Fu ，and Alexander C Berg. SSD：单次触发多盒探测器。在ECCV，2016年。一、二[21] Hao Luo ， Wenxuan Xie ， Xinggang Wang ， andWenjun Zeng.检测或跟踪：朝向具有成本效益的视频对象检测/跟踪。在AAAI，2019年。二、五[22] Shugao Ma ， Leonid Sigal ， and Stan Sclaroff. 在LSTM中学习活动进展，以进行活动检测和早期检测。在CVPR，2016年。2[23] BehroozMahasseni ， XiaodongYang ， PavloMolchanov，and Jan Kautz.使用循环策略网络的预算感知活动检测。在BMVC，2018年。2[24] Huizi Mao ， Taeysoon Kong ， and William J Dally.CaTDet：级联跟踪检测器，用于从视频中高效检测对象在SysML，2019年。一二三五六[25] Huizi Mao，Song Yao，Tianqi Tang，Boxun Li，JunYao，and Yu Wang.面向嵌入式系统的实时目标检测。TETC，2018年。2[26] Manuel Martinez ， Alvaro Collet ， and Siddhartha SSrinivasa.Moped：一个可扩展的低延迟对象识别和姿态估计系统。InICRA，2010. 2[27] Sangmin Oh 、 Anthony Hoogs 、 Amitha Perera 、Naresh Cun-toor、Chia-Chih Chen、Jong Taek Lee、Saurajit Mukherjee、JK Aggarwal、Hyungtae Lee和Larry Davis。监控视频中事件识别的大规模基准数据集CVPR，2011。4[28] 文森特·普尔和奥林匹亚·哈吉利亚迪斯最快的检测。2009. 2[29] Esteban Real，Jonathon Shlens，Stefano Mazzocchi，XinPan，andVincentVanhoucke.YouTube-BoundingBoxes：用于视频中对象检测的大型高精度人工注释数据集在CVPR，2017年。4[30] 任少卿、何开明、罗斯·格尔希克、孙健。更快的R-CNN ：用区域建议网络进行实时目标检测。InNeurIPS，2015. 一、二[31] Mohammad Sadegh Aliakbarian 、 Fatemeh SadatSaleh 、Mathieu Salzmann 、Basura Fernando、 LarsPetersson和Lars Andersson。鼓励LSTM尽早预测行动。InICCV，2017. 2[32] Xiaodong Yang，Pavlo Molchanov，and Jan Kautz.用于视频分类的深度神经网络的多层和多模态融合。ACM Multimedia，2016年。2[33] Xiaodong Yang，Pavlo Molchanov，and Jan Kautz.使卷积网络经常用于视觉序列学习。在CVPR，2018年。1[34] Xitong Yang ， Xiaodong Yang ， Ming-Yu Liu ， FanyiXiao，Larry Davis，and Jan Kautz. STEP：用于视频动作检测的时空渐进学习。在CVPR，2019年。2583[35] Fisher Yu ， Wenqi Xian ， Yingying Chen ， FangchenLiu ， Mike Liao ， Vashisht Madhavan ， and TrevorDarrell.BDD100K：一个多样化的驾驶视频数据库，具有可扩展的注释工具。arXiv：1805.04687，2018。4[36] Xiangyu Zhang，Xinyu Zhou，Mengxiao Lin，and JianSun. ShuffleNet：一个非常有效的卷积神经网络，用于移动设备。在CVPR，2018年。2[37] Xizhou Zhu，Yujie Wang，Jifeng Dai，Lu Yuan，andYichen Wei.用于视频对象检测的流引导特征聚合。InICCV，2017. 1、6[38] 西州朱、宇文雄、戴季峰、卢远、魏一辰。用于视频识别的深度特征

下载后可阅读完整内容，剩余1页未读，立即下载