最小延迟视频目标检测

121 浏览量更新于2023-10-12 收藏 1.19MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

5097最小延迟视频目标检测董老和 Ganesh Sundaramoorthi沙特阿拉伯阿卜杜拉国王科技大学（KAUST）{dong.lao，ganesh.sundaramoorthi}@ kaust.edu.sa摘要我们认为检测对象的问题，因为他们进入视野，从视频中的在线时尚。我们提供了第一个保证最小化延迟的实时解决方案，即，目标进入视野和声明的检测时间之间的时间该方法利用在单个帧上操作的现代基于CNN的对象检测器来聚合帧上的检测结果，以在保证的最小延迟中以用户指定的速率提供可靠的检测。为了做到这一点，我们将问题表述为最快检测问题，它提供了上述保证。我们从这个理论中推导出我们的算法。我们在实验中表明，与运行现代单帧检测器相比，仅需50 fps的开销，我们可以增加正确检测的数量并降低整体计算11. 介绍实时闭环系统不断获取数据，处理数据，做出决策，并采取行动以实现某些目标。一个例子是自动驾驶汽车。在自动驾驶汽车中，数据被采集，处理以做出转向方向的决定，并且该决定被输入到控制系统，该控制系统使汽车转向以实现诸如避开行人等目标。在这些类型的闭环系统中，数据必须在线处理，即，因为它是被收购的。这些决定必须可靠，必须在可接受的延迟程度例如，在自动驾驶汽车中，行人必须以很小的延迟被可靠地检测到，否则转向离开的决定对于控制系统致动和避免碰撞来说可能太晚。受获取和处理视觉数据的闭环系统应用的启发，我们有兴趣开发在线操作的计算机视觉算法，并在延迟和准确性的限制内执行。在本文中，我们将探讨这一问题的一个具体实例1代码：https://github.com/donglao/mindelay在视频对象检测的上下文中的一个问题。我们感兴趣的是在闭环场景中的检测问题当视频被获取时，我们希望尽快1）确定感兴趣的对象何时进入视图，以及2）我们希望在对象进入视图的帧处定位和确定对象的身份。此外，我们寻求在检测误差、延迟和计算成本的约束下操作虽然深度学习提供了大量的对象检测器[30，9，23，29，21]，这些检测器在单个图像上操作并定位感兴趣的对象，在某些情况下是实时的，但在许多情况下，由于部分遮挡，照明和其他干扰等现象，它们会产生错误警报或无法对对象进行射击因此，尽管它们可以满足延迟要求，但是检测精度可能很差。当然，可以利用来自单帧检测器的帧上的结果，即，在多个帧上的相同位置附近的几个检测正因为如此，已经有许多工作[12，17，18，22，41，3]利用视频批次上的时间信息来减少假警报。然而，这在可以声明检测之前增加了延迟，这种拖延可能是不可接受的。因此，在一种情况下，实现了可接受的延迟但没有检测精度，并且在另一种情况下，可以实现可接受的精度但没有延迟。事实上，任何算法都必须在一个算法和另一个算法之间进行权衡。在本文中，我们设计了一个算法，从视频检测，对于任何给定的水平的虚警约束，最大限度地减少检测延迟。为此，我们从统计学文献中借鉴了最快检测理论[28，35快速检测解决了检测随机过程中的变化的问题。假设随机过程在未知的变化时刻之前由已知的概率分布确定，在未知的变化时刻之后由不同的已知分布确定。该理论提供了一种方法来推导出一种在线算法，以确定未知的变化时间与最小延迟受到约束的虚警率或最小误差受到约束的延迟。我们提出我们的问题，在该框架工作，利用现有的国家的最先进的单帧检测，5098t=0tors，并推导出算法，保证可靠的对象检测与最小的延迟，在实时操作。1.1. 贡献我们的具体贡献如下：1.一、据我们所知，我们介绍了第一个在线，实时，视频对象检测器，保证最小的检测延迟受到给定的约束检测精度。2. 为此，我们制定了最小延迟视频对象检测器作为一个最快的检测问题，并推导出算法。3 .第三章。我们提供了一个递归近似的最佳算法，经验表明，具有相似的检测性能的最佳算法，但operates在实时。4.第一章我们表明，与50 fps的开销（未优化的Matlab代码），我们获得更正确的检测，比单帧检测器的延迟更少。我们还表明，在相同的精度水平下，实现我们的检测的总体计算成本低于单帧检测器五、我们介绍了一个性能分析的在线视频对象检测器，同时考虑到速度和准确性，基于QD理论。这可以用来评估现有的单帧对象检测器的视频应用程序的上下文中。1.2. 相关工作单帧目标检测：我们的工作利用了从单个图像中检测目标的方法。这些方法将单个图像作为输入，并返回定位可能的感兴趣对象的边界框;它们还返回对应于对象类的边界框的类概率。早期作品（例如，[10，36]）对于这个问题，使用滑动窗口方法以及用传统机器学习训练的分类器。目前，基于CNN的方法是主导方法。有两类这样的探测器：1）两级检测器（例如，[30，9]），其生成对象的可能位置的区域提议，然后经由CNN为每个提议的边界框解决分类问题，以及2）一级检测器（例如，[23，29，21]），其在一个步骤中预测边界框及其类信息。后者计算成本较低，但可能不如前者准确[16]。正如我们将在本文中展示的那样，当视频可用时，所有这些检测器都可以在计算时间方面得到显着改进，在此之前，可以以任何检测精度水平检测到对象。基于视频的数据关联：有大量文献，有时称为数据关联（例如，这可以用于许多应用，例如对象跟踪和动作识别。最近的作品，例如，[12，8]，利用深度学习来确定链接，并以联合方式将其与检测一起进行优化。与该文献类似的是关于从由Imagenet-VID挑战激发的视频中确定与轨迹类似的小管的工作[31]。这些作品（例如，[17，18]）利用CNN来预测与帧上的对象相对应的时空体积，然后使用LSTM（递归神经网络）对对象进行分类。这些方法可以用于检测视频中的对象，以提供更多的时间一致的结果，尽管递归地和实时地调整它们不是直接的。此外，这些方法没有解决可以选择多小的批量以保证可接受的检测准确度的问题。更大的批次导致更可靠的检测，但具有更大的延迟和计算成本。我们的工作明确地解决了延迟（计算成本）和检测精度之间的权衡，并提供了一个保证最小延迟的解决方案。在线对象跟踪：关于在线对象跟踪的文献非常广泛，我们不打算进行综述。在这篇文献中，一个是给定的对象的初始边界框，目标是确定它在随后的帧in an online线上fashion时尚.例如，[5，4，24，11]使用相关滤波器进行跟踪，最近的作品（例如，[37，2]）应用深度学习。这些工作不解决问题的检测，因为这是明确假设在第一帧;可以使用我们的方法来初始化这种跟踪器。视频中的在线检测：我们的工作涉及[20]，它解决了使用运动线索从视频中在那里，最小的延迟解决方案，lution与给定的精度约束制定。怎么-然而，由于光流的昂贵调用和非递归算法，该方法远非实时。在本文中，我们利用现有的基于CNN的单帧检测器，而不是运动，并推导出一个递归的解决方案，以提供一个实时的解决方案。另一种检查速度和准确性之间权衡的方法是[6]，由生物系统驱动。与我们的工作相关的在线方法是[32]，这是一种确定动作开始的方法。然而，这种方法没有解决延迟与准确度的问题2. 最快检测理论我们简要强调了最快检测中的主要概念，并请读者参考[35]以获得更详细的内容。[40，15，25]），这涉及到问题的子任务vey. 考虑随机过程{Xt} ∞. 在一个联合国-我们在本文中考虑。在数据关联问题中，给定来自视频的一批帧以及单帧对象检测器在这些帧中的每一个上的输出，目标是关联或链接对应于跨帧的相同对象的边界框以产生轨迹。已知的变化时间Γ，Xt具有分布p0，并且在改变时间Γ，Xt的分布为p1。最快检测（QD）旨在以最小延迟可靠地在线确定最短时间后，换车时间。其主要思想是可靠性可以获得，5099t=0通过观察更多的（噪声）数据来获得，但是具有增加的延迟，并且该理论寻求提供解决这种权衡的算法。在QD中，停止时间τ是数据仍然保证（3）中的测试的最优性。然而，这并没有将其自身扩展到递归实现。[33]和[19]在这种情况下提供了不同的方法。{Xt}s，即，随机过程的实现，直到3. 最小延迟目标检测器当前时间s，在声明更改时返回s发生在s之前的某个时间。QD试图找到一个最佳的停止时间，相对于下一个定义的优化问题。τ的平均检测延迟为ADD（τ）= sup E t[τ − t|τ ≥ t]（1）t≥1其中Et是给定变化时间t的期望值。这定义了所有更改时间内的最差情况平均延迟。虚警率定义为FAR（τ）=1/E∞[τ]，即，在没有变化的情况下，平均停止时间的1倍QD解决了以下优化问题：最小ADD（τ），受限于FAR（τ）≤α，（2）τ其中，α∈[0，1]是最大可容忍虚警率。该公式认识到，在没有对虚警率的任何约束的情况下，最优停止规则简单地是在第一帧中声明检测，这将产生大的误报警率，因此QD施加了约束。可以证明，通过计算以下似然比来获得解决上述优化问题的最优停止规则：在本节中，我们制定了我们的最小延迟对象检测器，通过使用最快检测理论的视频操作。我们首先介绍了问题的设置和符号，然后继续推导检测算法。3.1. 符号和假设我们用b=（x，y，x，y）∈R4表示（图像中对象的）边界框，其中（x，y）是质心，x和y是边界框的x和y我们将BR4表示为所考虑的图像中所有边界框的空间。轨迹是一个序列在连续帧上的边界框;这将被记为bts，te，（bts，bts+1，. . . 其中Ts和Te是开始和结束时间，并且Bt表示时间t处的边界框。来自时间t处的视频序列的图像将被去标注为t。单帧对象检测器对图像进行操作，并输出图像中对象的可能位置的边界框的集合，我们将其表示为BobsB，并称之为观察到的边界框。它还给出了每个边界框b∈Bobscorr的概率响应于语义对象cat的n+1egories。这些类别表示为l0，. . .，ln，其中l0对应于P [r T（α）。阈值T是FAR约束和分布。前面提到的iid情况下的测试具有递归的因此，最大化不需要显式地计算，如下所示：τ=inf{n≥1：Wn≥logT（α）}（4）Σ Σ+Σtv（b），（v0（b），. . . ，vn（b））T. 此外，两级检测器，例如，Fast-RCNN，输出一个置信度分数µ（b）∈ R+，即边界框b ∈ Bobs对应于一个对象。为了方便后面的计算，我们将使用函数，我们称之为时间t的数据，Dt：B→[0，1]n+1×B，它将图像It中的边界框映射到类概率和边界框本身，即，Dt（b），（v（b），b）.若A<$B，则定义 Dt（A），<$b∈ADt（b）.对于给定的图像，函数Dt的输出将仅为以观察到的边界框Bobs而闻名。我们将看到，在我们的算法中，Wt=Max1≤tc≤tp1（Xi）日志p0（X）（五）涉及Dt的即使在边界框集合i=tciWt+1= [Wt+ log p1（Xt+1）-log p0（Xt+1）]+（6）其中[·]+，max[·，0]。当Wt超过阈值时，声明改变这种递归似然比检验被命名为累积和（ sum ，CLUUM）算法[26]在许多应用中，像我们的，分布可能不完全已知，并且可能取决于未知参数θ。在这种情况下，可以在每个时间t5100SeSSeSe经由ML或MAP估计来估计和重新估计参数θ，并且检测器不输出其类别概率。因此，我们为这个集合引入命名法，称为未观察到的边界框，定义为Bunobs，B\Bobs。设It，t，（It，It+1，. . .，It）和Dt，t，（Dts，Dts+1，. . .，Dte），其中te和ts是开始和结束时间。3.2. 从量子点设计目标探测器我们感兴趣的是检测感兴趣的对象，即，只有那些属于预先指定的类别5101图1. 最小延迟检测器的原理图。单帧CNN检测器的输出是我们方法的数据输入。递归执行的额外计算（大约50 fps）以最小延迟提供可靠的检测结果参见算法2。l1，. . . .. 为此，我们为场景中的每个感兴趣的对象设置了一个最快检测每个对象由其从开始时间1到当前时间t的轨迹b1，t表征，其指示对象给定我们顺序地估计和更新的该轨迹的估计，我们希望通过将其作为假设检验问题来确定感兴趣对象是否在时间t处于零假设是轨迹b1，t描述不对应于帧间一致对象的边界框。其中，为了符号的简单性，我们设置pi（·），p（·|I =Ii）。注意，沿着对象类i的已知轨迹bi，t跨帧的数据Di跨帧是独立这是因为知道沿着轨迹的对象身份从数据中删除了类信息，这导致被假设为独立的随机干扰。由于单帧检测器的空间规律性，这种说法对于轨迹附近的数据仍然成立。由于我们的算法只考虑轨迹附近的数据，因此我们假设这对所有数据都是正确的。这使得Ytp（D|b）、est（即，轨迹对应于图像中的区域并且备择假设是对象保持在视野之外（或者由Λt（b1，t）=maxmaxi tc≥1j=ti j jp0（Dj|bj）.（九）类10的）直到时间Γ0，i，我们称之为“挂起时间”，在该时间点，对象在视图中，因此，当Λt> T（α）时宣告检测。这里T（α）是根据给定的虚警控制选择的阈值。ing boxesbΓ0，i，t对应于类别L1。应变α 检测到的对象类是在i上实现（9）的最大值。在每个时间t，我们可以从中获得的数据D1，t表示为单帧检测器在从1到t的每一帧处的输出，其由类概率未知的观测集合Bobs和未观测集合Bunobs中的即使在后一组中没有直接测量类概率，我们作为-先验类概率。根据QD，我们估计了p（Γ0，iIoUlim}µ（b）+C.（十九）pi（Dt（b））|bt）=pi（v（b），b|bt）注意v（b）和b是独立的，即，在不知道图像的情况下，来自单帧检测器的类概率的输出与以下无关：位置，因为它们是建立在位置不变。因此，我们认为，pi（v（b），b|bt）=p（v（b）|l=li）p（b|（13）=p（l=li|v（b））p（v（b））p（b|b）（14）p（l=l）t5103注意，（19）是通过对所有ob求和来计算的在空间上（相对于IoU度量）接近给定边界框bt的服务边界框，b的单帧检测相对于检测器的先验的对象类i的信息量的度量，该先验由框是感兴趣的对象类的置信度μ（b）常数C可以解释为轨迹的先验。较大的C值有利于对MAP估计问题（11）中的先验p（btc，t）的更大依赖性，因此第一（b）p（b）段|bt）p（l=li）（十五）估计轨迹更可能遵循恒定速度路径。这也意味着似然比累积其中我们使用vi（b）=p（l=li|v（b）），即，在所有类别概率中，类别1的概率正好是V（b）的第i个分量，并且由于单帧检测器的位置不变性，P（V（b））是常数。p（l = li）是对象类别的先验概率。根据在训练单帧对象检测器中使用的损失函数，我们设置p（b|bt），即，b知道真实位置bt的概率，如果边界框之间的联合得分的交集IoU（b，bt）超过固定阈值则为1，否则为0，即，p（b|bt）={IoU（b，bt）>IoUlim}。（十六）更慢，但对数据中的不完美性更鲁棒例如由于部分遮挡、照明等引起故障。因此，C控制对缺陷的鲁棒性。3.5. 总结：检测算法我们的最小延迟目标检测算法分为三个步骤，当新数据Dt+1变得可用时，这些步骤被迭代，如下：1）通过MAP估计更新现有轨迹（11），2）新轨迹生成，以及3）评估Lik_k_ratioΛt+1测试（9）。算法1描述了这个过程。我们将在下面的段落中更详细地讨论前两个步骤。5104不1时t1，t+1C22电话+1不t，t+1算法1最小延迟目标检测（完整）1：t=02：在It上运行单帧检测器，并获得Dt。3：找到新的候选人s.t. vi（b）>v0（b）并应用NMS4：对于每个候选人，5：通过（11）更新轨迹。6：通过计算所有i的（9）来更新似然比。7：如果Λt>阈值，则声明检测，输出位置bi和标签li8：如果结束第九章：端10：t = t +1。重复2-10。4. 速度的递归逼近我们现在提出了一个递归近似的轨迹计算，这使我们能够推导出一个完全递归的算法，允许一个避免重新访问以前的数据从单帧检测器。4.1. 递归轨迹/似然计算为了在MAP估计问题中递归地估计轨迹btc，t，我们如下分解轨迹的先验（10）Yt轨迹更新：在每个时间t，我们有一组可以-p（btc，t）=p（btc）k=tc+1p（bk|btc，k−1）。（二十）didate轨迹，bk，k = 1，. . . ，ntraj. 我们希望-而不是回到所有以前的帧，我们只估计-在当前帧匹配边界框b，将它们标注到帧t+1中。在时间t+1处，来自单帧检测器可用。通过为每个现有轨迹求解MAP估计问题（11）来完成将实验轨迹更新到帧t+1中这是通过运行每个边界框中的轨迹，以最大化的目标交替。该过程利用扩展到帧t+1中的具有恒定速度模型的轨迹来初始化。该优化过程还计算pi（Dt+1|BK）的情况。请注意，在具有参数估计的最快检测版本中，未来帧中的新数据可能会影响不优化先前帧处的轨迹。因此，我们只需要考虑项p（bt|btc，t-1）作为MAP估计问题中的先验。与恒定速度假设，这个术语变成log p（bt|bt，bt−1，. . . ）−bt−2−2bt−1+bt<$2。（二十一）然后，（11）中的MAP估计问题变得等同于求解bt=argmaxpi（Dt|bt）p（bt|bt，t−1）（22）未知参数的估计，在我们的情况下，jectory，并且因此改变时间tc和似然比，这可以导致更快的检测。然而，在我们的特定设置中，在tc的当前估计之前预测的轨迹上的附加位置将已经在tc之前的时间用我们的轨迹产生方案（下面）初始化，因此，我们忽略重新估计tc，这节省了相当大的计算成本。轨迹生成：我们现在提出新的候选轨迹如下。我们使用来自帧t+1的数据来通过下式确定候选边界框b_new，k：=arg max[log（19）−bt−2−2bt−1+bt2]，（23）Bt作为项pi（Ds|bs<）与bt无关。利用这种近似，我们可以通过使用CuSum算法（6）递归地计算（9）中的似然比Λt（b1，t）。定义Wi，t=[l〇 g~t]+，Wi，t的递归更新Wi，tc= 0，电话+1公司简介选择b使得对象类i的概率更大比背景概率y大，vi（b）>v0（b）。我们用那些Wi，t=[Wt−1+logpi（Dt|bt）−logp0（Dt|bt）]. （二十四）盒子和它们的类概率，并执行非最大一旦W1，t超过由使用边界框bk进行抑制而且很可能假警报率，宣布检测。联系pi（Dt+1|BK）从现有的轨迹。这些新产生的轨迹的变化时间tc是t +1。在下一节中，我们通过提供轨迹的递归更新以获得完全递归算法来避免在每个时间t更新整个轨迹和重新访问数据D1，t我们还介绍了进一步修剪候选轨迹。虽然这种递归过程在理论上不能保证延迟的最优性，但我们分析了最优算法1的经验性能，并表明延迟损失很少，速度有相当大的提高。注意，前面的非递归算法时间复杂度为O（n×t2），其中n是感兴趣的对象的数量，t是时间，声明了保护，因为每次都必须重新访问到当前时间的数据。本节中考虑的递归实现具有O（n×t）的复杂度，这是一个可观的节省，我们将在实验中进一步探索4.2. 进一步简化和最终算法我们最后的简化算法是算法2（参见图1），它总结了递归近似5105不不算法2递归最小延迟目标检测1：t=02：在It上运行单帧检测器，并获得Dt。3：找到新的候选人s.t. vi（b）>v0（b）并应用NMS4：对于每个候选人，5：通过（23）预测轨迹。6：将最新的Cumsum统计量增加到（24）。7：如果i Wi，t= 0，则移除该候选项。8：否则，如果Wi，t>阈值，则声明检测，输出位置bi和标签li图2. 延迟与虚警率。与单帧检测器相比，我们的方法在任何FAR处实现更少的平均延迟9：如果结束10：结束图11：t = t +1。重复2-11。在前面的部分中描述，并且包括下面描述的两个附加的简化。减少类依赖轨迹：当通过（23）更新轨迹时，必须为每个i找到最佳b。然而，我们仅更新满足Wi，t>0的对象类的轨迹。这是因为如果Wi，t=0，则似然比小于1，指示改变时间在未来，从而消除了对在I类假设下考虑轨迹关于候选人：我们将候选人提名为-检测到多次，但这对于每个地面实况对象仅计数一次。假警报是一种声明的检测，但不是正确的检测。我们使用以下性能指标。误报率是误报数除以整个数据集的声明检测总数检测延迟是在检测到对象时之间的帧数减去改变时间，即，该对象首次出现的地面平均检测延迟是数据集中标注的所有对象的平均延迟。如果未检测到地面实况对象，则其具有最大延迟，该最大延迟是其被注释的最后帧减去地面实况改变时间。如果iWi，t=0，即，对于所有i，t=0。本案中轨迹不携带关于物体的任何信息。5. 实验5.1. 数据集为了测试我们的算法，我们需要一个视频数据集，其中包含多个对象类的对象，在各种未知时间出现的对象，并且每个视频中的所有帧都被注释。据我们所知，符合所有这些标准的最佳数据集是KITTI数据集[13]。该数据集包含21个道路场景视频和917个注释对象（轨迹），包括汽车，货车，自行车和行人。该数据集包含显著的遮挡、光照变化和视点变化。这些类的每个可见对象都在每个帧中进行注释。每个对象都有一个ID，并在未知帧处可见我们将每个对象的地面实况更改时间设置为它被注释的第一帧。5.2. 性能度量检测方法的输出是带有类声明和时间的边界框，表示该方法首次检测到对象的时间我们对经验量作如下定义。正确检测是其边界框与同一帧中的真实边界框重叠的检测，其中IoU在IoUlim上，并且标签与真实边界框匹配。注意，对象可以是5.3. 评价方法单帧检测器：我们测试我们的算法与一阶段和两阶段的检测器。我们选择SSD[23]和Retinanet [21]用于单级检测器，Faster-RCNN [30]（两级）作为单帧检测器。对于Faster-RCNN，我们使用在Pascal-VOC 07/12上训练的作者的原始实现作为基线方法。骨干网络是ZF [39]和VGG-16 [34]，以及最近的Resnet 50 [14]。对于Resnet 50 Faster-RCNN和SSD网络，我们使用mmdetection[7]工具箱中的比较：我们使用单帧检测器的直接检测结果与我们的方法进行比较。通过对检测响应进行阈值化，可以实现不同的虚警率水平。由于单帧检测器不解决帧之间的时间连接，如果重叠超过IoUlim，则相邻帧中的边界框被分组到相同的轨迹中。对于每个对象，基于第一正确检测来计算检测延迟。对于我们提出的方法，对于不从RPN输出μ（b）的单级检测器，我们为所有观察到的边界框手动设置μ（b）=1 在所有实验中，我们固定IoUlim=0。五、我们将对象类的先验概率p（l=li）设置为均匀的。对于每个单帧检测器，根据经验设置常数C5106图3. 平均计算时间。我们的方法实现了更少的计算成本比单帧检测器。结果表明，噪声较大的检测器（例如，SSD300和ZF）在任何FAR上都能以比在少数帧上运行的更精确的检测器更快的速度运行多个帧，从而实现更少的计算成本。5.4. 结果虚警率与延迟：图2通过改变检测阈值绘制了虚警率与延迟曲线。在所有虚警率和每一个单帧检测器下，我们的算法都具有较小的延迟.有趣的是，单帧SSD 300和SSD 512几乎具有相同的性能，但是，最小延迟版本的SSD 512优于最小延迟SSD 300。这表明与SSD 300相比，SSD 512在帧上具有更一致的检测结果，从而允许更快地累积可能性。检测精度与计算成本：图3显示了在几秒钟内检测对象的平均计算成本。在实时在线应用中，系统的计算资源总是有限的。结果表明，可以使用更快但噪声更大的单帧检测器，并且通过使用多帧，在任何精度约束下仍然可以实现更低的总体计算成本。性能增益分析：图4显示了性能增益的更详细分析。在所有虚警水平下，最小延迟检测器输出比基线更多的正确检测结果，并且这些正确检测以更低的延迟发生。递归与非递归检测：我们比较了我们算法的递归近似和非递归版本我们使用SSD300和SSD512进行说明。图5显示了虚警率与延迟和计算成本的关系曲线。我们发现，从递归版本的检测器的结果是可比的非递归对应，同时节省了相当大的计算成本。在SSD512中，递归版本达到稍微好一点，尽管不显著（即，一帧），性能优于非递归版本。计算成本：在KITTI上，我们的递归算法通常以40-100 fps的速度运行，并使用Matlab实现（不包括单个图像检测过程的成本），具体取决于图4. 性能增益分析：[上]：我们的方法正确地检测到更多的对象，[下]：具有比单帧检测器更小的正确检测的平均检测延迟。图5. 递归与非递归算法。递归近似保持了算法的最优性，同时实现了显着更少的计算成本。现场SSD-300等单帧检测器的运行速度为59 fps，因此我们的整体算法的运行速度为24-38 fps。6. 结论我们的在线对象检测器，在视频上运行，实现了保证最小延迟受到虚警约束以下的理论结果从QD。此外，我们的新的递归公式提供了显着的计算成本节省了QD最佳检测器，几乎没有损失的性能。从经验上讲，我们表明，我们的递归公式实现更少的延迟和计算成本比单帧检测器的任何级别的误报率。我们的方法使用单帧检测器，并使用简单的附加逻辑，运行速度约为50 fps，当与也是实时的单帧检测器相结合时因此，这具有用于实时闭环应用的潜力。此外，我们的算法允许将单个图像深度学习检测器应用于视频，而无需任何额外的训练，并保证在任何精度水平下的最小延迟。5107引用[1] 裴承焕和尹国珍强大的在线多目标跟踪与数据关联和跟踪管理 .IEEE transactions on image processing ， 23（7）：2820-2833，2014。4[2] 裴承焕和尹国珍基于置信度的数据关联和判别式深度外观学习，用于鲁棒的在线多目标跟踪。 IEEEtransactionsonpatternanalysisandmachineintelligence，40（3）：595-610，2018。2[3] Gedas Bertasius，Lorenzo Torresani，and Jianbo Shi.基于时空采样网络的视频对象检测。在欧洲计算机视觉会议（ECCV）上，2018年9月。1[4] David S Bolme，J Ross Beveridge，Bruce A Draper，andYui Man Lui.使用自适应相关滤波器的视觉对象跟踪。2010年IEEE计算机协会计算机视觉和模式识别会议，第2544- 2550页。IEEE，2010。2[5] Michael D Breitenstein 、 Fabian Reichlin 、 BastianLeibe、Ether Koller-Meier和Luc Van Gool。使用检测器置信度粒子滤波器的鲁棒检测跟踪。2009年IEEE第12届计算机视觉国际会议，第1515-1522页。IEEE，2009年。2[6] 陈波和皮埃特罗·佩罗纳。视觉搜索中的速度与准确度：最佳性能和神经结构。Jour- nal of Vision，15（16）：9-9，2015. 2[7] Kai Chen，Jiangmiao Pang，Jiaqi Wang，Yu Xiong Li，Shuyang Sun，Wansen Feng，Ziwei Liu，Jianping Shi，Wanli Ouyang，Chen Change Loy，and Dahua Lin. mm检测。https://github.com/open-mmlab/mmdetection，2018. 7[8] Kai Chen，Jiaqi Wang，Shuo Yang，Xingcheng Zhang，Yuan-jun Xiong，Chen Change Loy，and Dahua Lin.优化- ING视频对象检测通过一个规模时间格。在IEEE计算机视觉和模式识别会议上，2018年6月。2[9] 戴纪峰，易力，何开明，孙建。R-fcn：通过基于区域的全卷积网络的目标检测。神经信息处理系统的进展，第379-387页，2016年。一、二[10] Navneet Dalal和Bill Triggs。用于人体检测的定向梯度的直方图。在计算机视觉模式识别国际会议（CVPRIEEE计算机学会，2005。2[11] Martin Danelljan、Gustav Hager、Fahad Shahbaz Khan和Michael Felsberg。基于相关滤波器的卷积特征在IEEE计算机视觉研讨会国际会议论文集，第58-66页，2015年。2[12] ChristophFeichtenhofer、AxelPinz和AndrewZisserman。检测跟踪和跟踪检测。在IEEE计算机视觉国际会议论文集，第3038-3046页，2017年。一、二[13] Andreas Geiger，Philip Lenz，and Raquel Urtasun.我们准备好自动驾驶了吗？Kitti视觉基准套房. 在计算机视觉和模式识别会议中，2012年。7[14] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页，2016中。7[15] 常晃、吴波和拉玛坎特·纳瓦提亚。通过检测响应的分层关联的鲁棒欧洲计算机视觉会议，第788- 801页。Springer，2008. 2[16] Jonathan Huang，Vivek Rathod，Chen Sun，MenglongZhu ， AnoopKorattikara ， Alireza Fathi， Ian Fischer，Zbigniew Wo-jna，Yang Song，Sergio Guadarrama，et al.现代卷积对象检测器的速度/精度权衡。在IEEE计算机视觉和模式识别会议的论文集，第7310-7311页2[17] Kai Kang，Hongsheng Li，Tong Xiao，Wanli Ouyang，Junjie Yan，Xihui Liu，and Xiaogang Wang.视频中的对象检测与tubelet提议网络。在IEEE计算机视觉和模式识别会议论文集，第727-735页一、二[18] Kai Kang，Hongsheng Li，Junjie Yan，Xingyu Zeng，BinYang，Tong Xiao，Cong Zhang，Zhe Wang，RuohuiWang，Xiaogang Wang，et al. T-cnn：使用卷积神经网络的 Tubelets ，用于视频中的对象检测。 IEEETransactionsonCircuitsandSystemsforVideoTechnology，28（10）：2896-2907，2018。一、二[19] 子良丽。随机系统中参数变化IEEE Transactions onInformation Theory，44（7）：2917-2929，1998. 3[20] Dong Lao和Ganesh Sundaramoorthi。最小延迟运动目标检测。在IEEE计算机视觉和模式识别会议论文集，第4250-4259页2[21] 林宗义、普里亚·戈亚尔

下载后可阅读完整内容，剩余1页未读，立即下载