视频对象检测中的长范围时间依赖性改进方法

143 浏览量更新于2023-10-13 收藏 1.08MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

9756利用用于视频对象检测的提议之间的长范围时间关系米哈伊洛·什韦茨在教堂山mshvets@cs.unc.edu刘伟诺公司w@nuro.ai亚历山大角教堂山山贝尔格酒店aberg@cs.unc.edu摘要单帧对象检测器有时在视频上表现良好，即使没有时间上下文。然而，如果没有时间意识，诸如遮挡、运动模糊和物体的罕见姿势之类的挑战很难解决因此，存在通过考虑长范围时间依赖性来改进视频对象检测的强烈需要。在这篇文章中，我们提出了一个轻量级的修改单帧检测器，占任意长的依赖关系的视频。它提高了单帧检测器的准确性显着与可忽略不计的计算开销。我们的方法的关键组成部分是一个新的时间关系模块，操作对象的建议，学习从不同的框架，并选择建议从过去和/或未来的建议，以支持当前的亲之间的相似性。我们最终的1. 介绍现代单帧检测器[5，13，14，15]有时在视频中的对象检测任务上表现良好，即使没有任何时间信息。然而，仍然存在一些挑战，单帧检测器在不查看时间上下文的情况下无法重新解决这些挑战。这些包括遮挡，运动模糊，物体的罕见姿势等。因此，修改单帧检测器是自然的愿望以考虑来自多于一个帧的信息。近年来，许多方法试图使用来自邻近帧的图像级信息来帮助检测。重要的是要注意，这样的方法通常假设场景和物体不剧烈移动。例如，FGFA [26]和MANET [19]使用来自附近图像的光流，STSN [1]应用可变形卷积，而DT [3]计算帧之间的密集相关性。这些方法的关键组成部分（流场、变形场、和相关性）随时间急剧下降，使得难以利用在时间上相距很远的帧之间的关系。在这些方法中，长期依赖性仅考虑额外的离线后处理步骤，例如SeqNMS [4]。此外，即使对于那些方法的在线模式，也存在显著的速度降低。例如，FGFA和MANET报告二、与单帧检测器相比，速度降低5-为了加快速度，许多其他方法要么使用更轻的骨干网络，如MobileNet[8]，要么只在关键帧处运行单帧检测器并传播图像，使用光流的水平特征[7，25]。这些方法通常在准确性上受到影响，因为信息不是从每个帧直接计算的。通过利用来自视频中不同帧的提议之间的长范围时间关系，我们表明，即使没有任何后处理步骤，我们也可以包括长期依赖性，同时以与单帧检测器类似的速度在线运行，并且仍然在ImageNet VID数据集上实现最先进的准确性。我们的方法是基于聚合功能，从相关部分的视频，以便作出更好的决定是否推定的检测实际上是正确的。这涉及确定视频的哪些部分与潜在检测相关，对那些部分的特征进行加权平均我们的方法是端到端训练的，因此学习特征是为了便于识别相关部分，并在相关特征被平均在一起后执行检测。我们认为区域建议（来自FPN检测器[12]）既是潜在的检测，也是视频的潜在相关部分。也可以使用检测器输出，例如：快速高查全率的单级检测器在任何情况下，考虑长期时间关系的一个重大挑战是存在许多可能性。我们的方法的一个关键方面是，我们将哪些建议应该支持帧中的检测的问题分解为小帧集（2-3）的计算，并汇总结果。我们的方法的主要组成部分是一个新的建议-9757图1：总体架构。单帧两阶段检测器被修改为包括关系模块，该关系模块基于支持帧中的建议的特征来更新目标帧中的建议的特征。为了简单起见，我们展示了单个支持框架t-s，它对应于具有时间内核（K=2，s）的因果模式，其中s是步幅。RPN分别从目标框架和支持框架中为第二阶段选择N和M个建议特征提取后利用ROIAlign，我们将两个关系块注入预测头中，以向目标帧通知支持实例。在推理过程中，时间核被有效地应用于多个步幅，收集丰富的长距离时间支持。级时间关系块，其通过对来自目标帧和支持帧的提议之间的外观关系进行建模来更新目标帧中的潜在检测（提议）的特征。该模块从自我注意机制[18]中汲取灵感，这些机制最近被证明对单帧识别有益[9，20]。相比之下，我们展示了如何使用关系模块对对象propos- als的帧间依赖进行建模，并引入直接监督来学习外观亲和力。此外，我们证明了我们的方法有利于积累长距离时间关系，而竞争模型在试图解释帧间隔超过一秒的几分之一时会降级[1，3]。该优势的一部分来自于学习什么提议可能与基于外观特征但忽略位置和时间差异的潜在检测相关我们将我们的贡献总结如下：• 一种新的提议级时间关系块，学习外观相似性，并使用来自支持框架的特征来丰富目标特征;• 一种应用所述关系块以将来自多个支持帧的长期依赖性并入视频中的方法;• 与基线单帧检测器速度相当的在线推理;• 对关系图的构造方法进行了深入的实验，包括新的特征规范化和在学习中加入图监督。2. 相关工作单帧目标检测。在过去的几年里，单帧检测器在精度和速度方面都有了很大的改进。然而，这些方法缺乏时间意识来解决视频中的困难情况，例如遮挡、运动模糊和稀有对象姿态等。在我们的工作中，我们构建在两阶段检测器（ FPN [12] ）之上，通过将apperimentalproximity注入到来自许多支持帧的建议中来修改实例级检测分支，并改进实例特征，从而为视频中的挑战性案例提供可靠的预测。跨帧的像素级特征。出现一系列的研究，增强了单帧检测器与时间连接使用像素级功能。D T [3]在连续视频帧的两个特征图之间构建密集相关图，并利用实例跟踪id来学习边界框帧到帧的运动。FGFA [26]使用光流来引导特征传播，并通过适当的扭曲实现帧之间特征的像素到像素对齐。STSN [1]避免了显式光流计算，但使用了变形卷积.更一般地说，[20]引入了非局部网络来完全丢弃估计对应的局部性。所有这些方法都使用像素级特征的关系，这些关系随着时间的推移而迅速退化。事实上，FGFA使用21个连续帧进行特征聚合，因此仅在一秒内环顾四周。超过2帧的空间步长会降低空时序列号的精度。类似地，当对相隔10帧而不是立即连续的帧之间的关系进行建模时，D T的性能下降。9758动态帧与这些方法相比，我们学会了将不随时间退化的细粒度实例级外观特征关联起来，并故意忽略实例的空间位置，以释放更大的时间跨度和多个时间跨度上的聚合的使用我们的模块在每帧上运行数百个建议，这允许与历史信息进行特征聚合，并可以有效地将信息反向传播到RPN和骨干网络端到端。跨帧的实例级特征。对象之间的关系建模已经成为一个不断增长的研究方向[9，17]，其灵感来自注意力机制和图形卷积。最近，[21]已经表明，对实例级特征关系进行建模对于实现动作识别的最新性能非常重要它使用具有可学习图形表示的图形卷积类似地，我们使用可学习的图来建模外观接近度。然而，我们的任务更细粒度，因为我们在每个帧中执行对象位置和类的每个实例预测，而[21]仅预测视频剪辑的类在[22]中已经证明了长期实例级依赖性是非常重要的，这是从基于注意力的非局部块[20]修改而来的。我们的冻结支持设置受到这项工作的启发，一个更轻的模型证明了使用额外的冻结网络的改进然而，最终的模型没有显示出这种方法的性能提升，而速度要慢2倍以上。因此，虽然[22]使用三种不同的网络来成功完成动作识别任务，但我们可以通过在单个网络提取目标和支持实例的特征来实现视频对象检测的最新性能。长期关系也在[23]中通过时空记忆对齐以循环方式进行研究。支持传播是在像素级上完成的，基于局部邻域，而我们的实例级方法不假设局部性的概念。[23]据报道，由于局部感知特征传播的挑战，我们的方法难以识别快速移动的对象，但是根据下面的运动特定分解，我们的方法对快速运动如上所述，非局部块[20]最初被提出用于像素级聚合。类似的机制适用于[9]中的特征，用于通过使用多个相关头在单个帧中进行对象检测。我们的关系模块在体系结构中具有相同的位置。相比之下，我们在时间维度上的不同框架中对支持实例进行采样，以聚合长期关系依赖性。因此，虽然[9]从帧内的周围上下文改进了实例特征除了切换到实例级别之外，我们还发现，在com之前执行特征规范化对于长距离连接来说，使外观接近是重要的此外，我们直接在图上添加监督损失，这有利于同一实例的检测之间的高相似性。后期处理。用于视频对象检测的当前最先进的方法都利用像素级特征[1，3，19，26]。正如我们所提到的，这些方法只包括相对短期的依赖关系，它们的性能在较长的时间段内降解。为了提高准确性并考虑长期依赖性，需要离线后处理技术（如SeqNMS [4]）来链接并重新评分提案，其中不考虑外观相似性。在我们的模型中，我们通过反向传播允许丰富的特征支持来显式地考虑网络中的外观相似性3. 方法在本节中，我们提出了时间关系块与对象的建议，描述了它的集成在一个单帧检测器，并介绍了我们的训练和推断设置。我们将目标帧定义为此时完成最终预测的帧。目标框架允许有多个支撑框架，用于加强当前的建议。我们的目标是学习更新实例级特征，从而在以在线方式运行检测时更新检测器的预测，而无需任何后处理步骤。为了实现这一点，我们学习对象建议之间基于外观的关系。基于外观的关系块。假设有N个目标和M个支持建议，其特征来自 D 维空间（ X 目标 ∈RN×D 和 X 支持∈RM×D），我们构造了一个注意机制来更新目标特征与支持特征的注意力加权平均值。我们将用索引i索引目标实例，用索引j索引支持实例，因此xi表示矩阵X目标的第i行，xj表示矩阵X支持的第j行。关系块的概述如图2所示。首先，目标和支持功能都嵌入了线性层。其次，这两个矩阵都经过特征归一化（图中的RightNorm），这与以前的作品不同，其中外观关系被构建为嵌入特征的直接相关性[9，20，22]。我们注意到，否则相关性由特征幅度而不是实际关系（即，如果两个实例i和j都具有高量值，则它们关系为高）。这在检测中的ROI级特征中尤其重要，因为这些特征被学习为有偏差并且具有高幅度。我们用单位归一化和零中心单位归一化向量进行实验，其中相关性实际上变成了皮尔逊非中心和中心相关系数。第三步是构造外观关系矩阵G（图中的×）由执行-9759目标支撑所有目标特征对之间的简单相关性xi和支持特征xj：G=G（X，X）：RN×D×RM×D→RN×M（一）因为矩阵G进一步用于计算支持建议的注意力权重，我们注意到G的良好性质包括对于对应于视频中的相同实例的pro-proxi和xj具有高值Gi，j，并且对于不相关的实例具有低值Gi，j事实上，如果实例xi出现在支撑框架中，则应将相应的建议联系起来并对其进行加固。为了强制执行该约束，我们向图 G（GraphLoss）添加监督损失。上面描述的动机最适合对比损失的概念，这意味着-鼓励相同实例之间的小距离和不同实例之间的大距离。L（xi，xj，yi，j）是1−yi，jd（x，x）2+yi，j[max（0，µ−d（x，x））]2，（2）图2：关系块：新模式的核心部分。它接受N×D目标和M×D支持特征矩阵。两个张量都嵌入了线性层，并通过特征归一化层（单位归一化，或零中心单位归一化）。两两配对-2ij2归一化特征的i j（经由它们的矩阵乘法，n×）构成N×M图矩阵G。这个矩阵是苏-其中yi，j是相异性标签（即，yi，j=1如果i和j是不同的实例，否则为0）。请注意，由于特征归一化，xi2=xj2=1，并且在图是特征对的相关性的情况下，G和由L2标量积生成的d之间存在直接关系d2（x，x）=<$x <$2+<$x<$2−2（x，x）=2（1−G）在给定要支持的提案的匹配跟踪ID的情况下，相同实例的值较高，不同实例的值较低。该图被进一步逐行归一化以创建M个支持对N个目标提议的注意力分布。该注意力矩阵被用作矩阵多个中的嵌入式支持特征（右下线性层）iji2j 2iji、j（三）乘法运算符（×）。经过又一次改造，使用元素求和+增强特征在描述外观关系矩阵G为构造，它被用作支持特征的注意力机制中的权重为此，G的行用softmax归一化，形成G。由于特征无归一化，G的原始值是有界的，因此我们在softmax之前使用乘法常数10。可以想象，如果目标实例i具有来自建议 j1 ， j2 ， . . .， jk ，则 Gij1 ，Gij2，. . . 、Gijk都很高，并且只有那些将在softmax操作之后“存活”。另一方面，如果i在支持帧中没有对应的建议，则第i行中的所有值都将为低，并且softmax将不支持任何支持实例，因此目标实例将接收不携带相关信号的简单平均支持. G语言用于聚合嵌入式支持具有矩阵乘法层（图2中的×）的特征，在额外的线性层嵌入后，形成fi-与输入目标特征矩阵大小相同的最终聚合支持特征矩阵（最后一个线性层的输出维度被设计为精确地为D）。因此，我们使用元素求和（+）来更新目标特征。总的来说，块类似于非局部块[20]但有一些不同之处。首先，它应用于实例而不是像素级特征。二目标并且支持特征来自不同的帧，并且甚至允许从独立的模型计算，如下面的冻结支持模型设置中所讨论的。第三，我们增加了特征规范化，这有助于描述图的构建，并允许有效的监督G。到目前为止，我们只讨论了如何根据支持建议更新目标功能。虽然目标框架只是目前感兴趣的框架，但有几种方法可以在训练和推理过程中构建支持框架集，并计算它们的特征。因果模式和对称模式。为了选择一个给定的目标帧的支持帧，我们引入了时间内核的概念。时间内核是一个元组（K，s），表示大小和步幅。大小K是关系推理中包括的帧的数量。因此，对于一个选定的目标帧，存在K-1个支撑帧。步幅s限制K帧以s帧的均匀时间间隔被采样我们还为给定的目标帧定义了两种内核模式t.在因果模式中，支撑框架只从过去中选择：它们是t-s，t-2s，.。. . ，t −（K − 1）s.在对称模式下，支撑框架可从以下选项中9760过去和未来：t −K/2 s，。. . ，t − s，t +s，.. . ，t +k/2 k/s（假设内核大小K为奇数）。单一模型和冻结支持模型设置。在一个单一的模型中计算目标和支持功能是一个有吸引力的选择，由于高效率。在我们的单一模型设置中，目标和支持特征都是从同一层汇集的ROI特征，并且网络是端到端训练的。然而，有两个潜在的问题。首先，当内核大小设置为K时，在训练时间期间，在一个设备上处理至少K个帧。给定用于对象检测的大图像分辨率（图像被调整大小为600像素的较短边），仅可能在标准GPU的存储器中适合几个图像，因此内核的大小受到限制。其次，支持特征分布在检测器的训练期间发生变化，因为它是从与目标特征相同的参数集计算的。为了解决这些问题，我们引入了冻结支持模型设置，其中使用单帧预训练检测器（冻结支持模型）来提取实例级支持特征，而主检测器一次运行单个图像，还接收固定支持特征作为附加输入。注意，在训练期间，冻结支持模型不需要分配大的内存，因为不需要反向传播，这使得在训练期间能够实现更大的内核大小K在我们的实验部分中，我们证明了从同一个模型中学习这两个特征是有益的，并且我们在不同步幅级别上的聚合降低了对大内核的需求。训练和推论。如第2节所述，即使使用复杂的运动传播方法，实例之间的几何关系也会随着时间而退化[1，3，26]。在我们的模型中，故意不使用框之间的几何关系，以便在推理过程中捕获长期依赖关系。我们证明了应用大的时间跨度的内核捕捉长期的关系的可能性。为此，我们训练了一个关系模块，使其对时间内核步幅s不可知，这使得在推理过程中可以跨不同的时间步幅进行聚合。因此，内核大小K是固定的，作为用于训练和测试的模型的参数，但时间步长是随机选择的。在训练过程中，s被选择一次。请注意，由于内存限制，模型是用单个s训练的，这在上面已经提到过了，但是由于随机采样，关系模块在推理过程中对步幅是不这使得能够在多个步幅上进行聚合。在推理过程中，内核会针对几个不同的步幅应用多次，并执行特征聚合我们表明，延长的时间跨度（我们使用的s = 256）不仅不会降低性能，但显示consistent改善的准确性。4. 实验数据集。我们在ImageNet VID数据集上进行了主要实验[16]。训练集由3862个视频片段组成，总帧超过100万帧（1122397）。这些框架被完全注释了30个对象类别的绑定框。在我们的对比损失中使用相关的地面实况跟踪id来确定训练期间的正对和负对。有555个验证片段，总共有176126帧。如[1，3，10，11，26]所示，我们在ImageNet VID和DET集的交集上进行训练（使用30个VID类，200个DET类的子集）。由于视频的长度各不相同，因此重要的是要平衡选择作为目标的帧的数量，以免过度拟合长视频。同样的道理也适用于DET中的阶级不平衡。为了公平比较，我们从[26]公开发布的集合中抽取目标帧。从每个视频中最多子采样15帧，并且DET：VID平衡约为1：1。探测器设置。我们在单帧FPN检测器[12]和ResNet [6]骨干的基础上构建我们的系统。在我们的设置中，特征金字塔仅用于区域建议网络，而ROI特征池仅使用C4输出（也称为ResNet进行这样的修改是为了确保特征来自等式1的相同分布，避免i和j的特征从金字塔的不同层汇集的情况默认IoU阈值0.7适用于RPN提案。除非另有说明，我们使用ResNet-50骨干.最终模型使用ResNet-101和ResNeXt 32 x8 d-101报告[24]。我们遵循使用ImageNet分类数据集上预训练的骨干模型的既定协议。这与最先进的方法进行了公平的比较我们还在COCO数据集上对整个系统进行了预训练。虽然COCO由静态图像组成，但我们可以对同一图像进行K次采样以模拟视频帧流。在这种设置下，我们的ResNet-50因果模型提供了78。9mAP，共马力78. 4mAP，如表3所示。训练输入图像总是调整大小，以具有600像素的短边。该系统在4个GPU上训练，每个GPU保存1个样本。学习率从0开始。0025，并且在迭代80K时下降10倍，十二万迭代停止在135K。在训练过程中，样本由K帧（时间内核的大小）组成，包括目标帧t和K-1个支持帧。内核步幅s是随机采样的，因为我们的内核不仅与位置无关，而且与时间步幅无关。在单一模型设置中，对于所有K帧，骨干提取特征，RPN产生建议。边界框头的运行方式对于支撑实例和目标实例不同。在评估模式中提取支持建议也就是说，不对提议进行二次采样，并且不包括地面实况框。我们在-9761基本步幅= 16基本步幅= 10基本步幅= 179不居中dim=10247877.5未居中的dim=1077.7中心亮度=1078.4中心无损失dim=1077.477表1：特征标准化。图2左下角的两个线性层中使用了暗第76章图的构造750 5 10 15 20 25 30T，聚集体大小图3：多步聚合的准确性提高。使用基本步幅s意味着应用步幅s的相同内核。 . . ，Tss，随后是平均聚集。这里K=2，选择因果模式。fc6→fc6fc6→fc7fc6→{ fc6，fc7}fc7→fc777.377.078.477.5表2：单一模型设置中关系块的各种放置。A→B表示法意味着支持特征被作为层A的输出，而目标特征来自层B（A和B是预测头的fc6或fc7注意，fc6→ {fc6，fc7}包含两个关系模块）。以匹配训练和推理模式之间的支持度分布。事实上，在推断期间，目标是未知的，因此不可能进行平衡子采样。返回-基线72.4因果K= 278.4对称K= 378.7冻结支架K=1178.8传播仍然通过支撑特征来执行。在冻结支撑模型设置中，K−1个支撑框架被馈送到冻结模型中，该冻结模型产生propos。肌萎缩侧索硬化症及其特征主模型仅针对目标框架运行，而支持特征直接输入到关系模块中。这种设置在训练较大的内核时更快，但需要运行两个模型进行推理，因此最终至少比基线慢2倍。跨多个要素聚合的推理大步走在推理过程中，我们为当前作为输入的帧运行一次模型。关系模块存储到目前为止在当前视频中看到的特征的缓冲区，以最大允许步幅截断。我们在不同步长的推理过程中多次应用内核。最后，我们引入了基本步长，并在实验中使用我们说内核是当以步长s∈{s∈，2s∈，. . . ，Ts}。因此，对于大小为K的k内核，支持帧的总数为（K-1）T。在因果模式下，支持特征来自先前的帧并且立即给出目标帧的输出。在对称模式下，输出滞后于输入2K/22Kmax（s）帧。也就是说，当帧t到达时，它被存储在缓冲器中，并且目标从缓冲器中获得帧t−K/2 kmax（s）当视频结束时，缓冲区释放所有剩余的帧最后的预测。我们填充视频的边缘，重复第一帧和最后一帧以支持所有帧。特征简单地在关系模块的T个输出上平均。此操作的效果如图3所示，在因果模式下，基本步幅s∈{1，10，16}，其中K=2。有两件重要的事情，表3：因果、对称模式和冻结支持模型设置与ResNet-50单帧基线。在在因果模式中，K−1个支持框架取自过去，而在对称模式中，K/2个支持框架取自过去和未来。冻结支持模型设置处于对称模式，步幅[10，21，32，43]为用于聚合以避免帧重复。节目首先，通过包括更多的支撑框架获得了一致的改进，其在T = 16之后对于更长的时间达到饱和。这个结果与[1，19，26]一致。第二，增加时间步幅提供更好的性能。这背后的直觉在于一个简单的事实，即直接连续帧通常共享检测挑战（模糊、遮挡等），因此，观察更大的时间窗口是有益的，其中检测可能更容易。与DT& [3]和STSN [1]不同，我们的模型能够进行长期聚合，因为没有假设空间一致性，并且实例仅基于外观接近度相互支持。基于图3所示的研究，我们选择s=16和T=16进行单模型实验，在因果模式下使用K = 2，在对称模式下使用K = 3。为了不让画框重新-泥炭，冻结支持模型使用步长s∈[10，21，32，43]。消融研究。在第3节中，我们认为需要对图2中的特征进行归一化，以学习有意义的相关性。此外，特征归一化允许我们应用图正则化损失。在表1中，我们使用非中心和零中心归一化进行实验我们的零中心归一化使用LayerNorm，其中包括额外的可学习参数。我们还训练了一个模型，最大平均接入点（%）9762图4：支持可视化。所示为K=2的因果模式，其中时间内核多次应用于固定的目标图像（时间步长t，右侧）和不同的支持帧t-s。我们将最终的预测边界框放在帧t中，并将最佳支持建议放在每个支持帧中。这些都是彩色编码的。因此，猫在第二行中，以同一只猫为中心的提案得到了支持，松鼠也是如此。此外，在第三行中，检测到的平面具有不同的最佳支持，这暗示我们的模型学习关联实例而不是类，否则每个平面可以从单个平面获得支持，而不是外观上最接近的平面。在图上应用损失。我们注意到，关系模块的特性可以来自ROIAlign操作之后的任何实例级层。此外，如[9]所示，我们的层可以多次包含在实例预测头中。表2显示了关系模块的不同位置。标头指示哪些层服务器作为超级服务器的源port功能，which目标源层。在一种情况下，关系模块是应用两次（支持从fc6到fc6和从fc6到fc7）。这种配置证明了最好的结果，并用于我们进一步的研究，并在最终的模型。图1也显示了这一点与[9]中一样，我们也尝试在关系块中使用多头聚合，但没有观察到任何per-cycle提升。因此，我们避免了额外的复杂性，并声称多步幅长期特征聚合（图3）更重要。我们将基于ResNet-50的模型与表 3中的单帧基线进行了比较。支持可视化。为了深入了解哪些实例被学习以支持目标帧中的推定检测，我们显示了图4。时间内核应用于多个-在因果模式中，K=2，多次指向目标图像（时间步长t，在右侧）和不同的支持帧t-s。请注意，目标实例从对象从图中可以看出，损失例如，在第二排，猫在支撑框架中正确地与其自身连接，松鼠也是如此此外，第四排中的飞机由具有相同尾部颜色的飞机支撑最终结果。我们的最终模型基于ResNet-101。表4的第一部分显示了模型的性能，包括我们的模型，没有后处理。我们所有的模型都比竞争对手有了显着的改进，即使在对竞争对手进行大量的后处理时也是如此。这是SeqNMS，其迭代地找到视频中的最佳评分管，抑制其他框，调整分数，并重复直到除了DT之外没有框。类似地，D T迭代地使用Viterbi算法将传播的盒子链接到管中并调整分数。在表4中，我们报告了80。6mAP，在Titan X PascalGPU上的速度为10FPS，对于在fc7层只有一个关系块的因果模型。我们的单帧基线运行在 14FPS 。在ResNet-101主干的情况下，使用第二个块（默认设置，如图1所示）的改进很小，最终得分为 80 。7mAP。相比之下，移动自组网也相当快，报告78。1mAP，同时在相同的GPU类型上以5FPS运行。此外，MANET使用12个邻近帧，其中包括未来帧。这意味着在线视频流的额外延迟。我们简化了我们的块，以匹配非本地的设计9763慢介质快速地图我们的，基线83岁6七十三。7五十三475. 6我们的，非本地块84. 678岁1五十九179岁。0我们的因果关系86岁。379岁。362. 7八十7我们的，对称的86岁。779岁。5六十四281. 0我们的，冷冻支持84. 579岁。263岁9八十6表5：基于ResNet-101的模型的慢速、中速和快速移动对象的性能细分。IoU 0.05IoU 0.5IoU 0.75我们的，基线四十九9三十六711个国家。0我们的因果关系52岁939岁412个。0表6：EPIC KITCHENS数据集上的性能。表4：与最新技术方法的比较。除了最后四行，所有模块都使用ResNet-101主干表的第一部分显示了没有后处理的竞争模型第二部分代表了竞争模型从繁重的离线后处理中获得的提升。我们所有的模型都优于竞争模型，无需任何额外的技术。最后一部分展示了更强的主干架构，报告了每种方法的最终最佳结果（我们所有的方法都没有后处理）。块[20]通过删除特征归一化，图损失，并使用512嵌入大小。其他设置相同（块应用于具有长期聚集的实例特征我们达到79。0mAP与此我们认为，大多数性能增益来自长期聚合，如图3所示但我们的非本地模块的新组件对于获得额外的+1.7 mAP增益非常重要。对称模型是在K=3的情况下报告的。内核包括一个来自过去的帧和一个来自未来的帧，并且被应用16次，导致总共32个支持帧，并且以81执行。0mAP。因果模式和对称模式都使用s = 1 6的基阶。因此，假设在ImageNet VID中以25-30FPS提取帧，则覆盖的时间范围高达10此外，我们训练ResNeXt 32 x8 d-101 [24]骨干，以与[26，3]中报道的最佳结果进行比较，这些结果也是通过切换到更好的骨干获得的我们的网络优于K = 2的因果模式，证明83。1mAP，不涉及后处理对称模式的最佳结果为84。ImAP。根据[26]中概述的协议，我们提供了一个模型地图FGFA [26]76.3STSN [1]78.9MANet [19]78.1D T loss [3]75.8我们的，基线75.6我们的，非本地块79.0我们的，因果fc780.6我们的因果关系80.7我们的，对称的81.0我们的，冷冻支持80.6[26]第26话：我的世界78.4STSN [1]+SeqNMS [4]80.4[19]第四届全国政协副主席80.3D T [3]（τ=10）78.6D T [3]（τ=1）79.8FGFA [26]+ [4]（Inception-ResNet）80.1[3]第三届中国国际汽车工业展览会82.0我们的，因果关系（ResNeXt-101）83.19764表5中将性能细分为慢速、中速和快速所有对象都根据它们在相邻帧的对应实例之间的平均IoU得分分为这三个因此，具有分数>0。9是慢的，在[0。七比零。9.他们是中间人，其他人是快速的。我们的基准线是75. 6mAP。因此，我们的因果模式提供了+5.1 mAP，其中大部分改进来自快速移动的对象（+9.3 mAP）。事实上，快速运动是视频对象检测最具挑战性的情况我们模型对任意运动模式（即，关系块没有几何关系的概念）。额外的实验。虽然大多数以前的作品只在ImageNetVID数据集上报告，但我们在EPIC-KITCHENS上添加了实验该数据集由32名参与者收集的272个烹饪视频组成，并具有290个活动对象类（注释不密集）。我们将数据集分为217个训练和55个val视频，并在三个阈值下评估数据集中没有提供实例跟踪ID，因此我们禁用了图丢失。我们在IoU 0时看到了+2.7 mAP的改善。5由于长期聚集，如表6所示。5. 总结我们介绍了一种新的方法之间的关系推理对象的建议，在不同的帧，允许长期的功能支持视频对象检测。结果- ING检测器更好地利用长期的时间依赖性比以前的工作，在较低的计算成本，只有一个小的除了单独的每帧检测。该系统是在一个“因果”的设置与高精度进行评估。我们的方法，帧之间的长期关系推理揭示技术，可以扩展到视频检测之外。鸣谢：Nuro、Nursing和NSF授权1452851、1526367和1533771。9765引用[1] Gedas Bertasius，Lorenzo Torresani，and Jianbo Shi.基于时空采样网络的视频对象检测。在欧洲计算机视觉会议（ECCV）的会议记录中，第331-346页[2] DimaDamen 、 HazelDoughty 、 GiovanniMariaFarinella 、 Sanja Fidler 、 Antonino Furnari 、 EvangelosKazakos 、 Davide Moltisanti 、 Jonathan Munro 、 TobyPerrett、Will Price和Michael Wray。扩展以自我为中心的愿景：epic-kitchens数据集。在欧洲计算机视觉会议（ECCV）的会议记录中，第720-736页[3] ChristophFeichtenhofer、AxelPinz和AndrewZisserman。检测跟踪和跟踪检测。在IEEE计算机视觉和模式识别会议集，第3038-3046页[4] Wei Han ， Pooya Khorrami ， Tom Le Paine ， PrajitRamachan-dran ， Mohammad Babaeizadeh ， HonghuiShi，Jianan Li，Shuicheng Yan，and Thomas S Huang.用于视频对象检测的 Seq-nms 。 arXiv 预印本 arXiv ：1602.08465，2016。[5] 何开明、吉欧吉亚·吉欧萨里、彼得·多尔和罗斯·吉尔希克.面具R-CNN。在IEEE计算机视觉国际会议论文集，第2961-2969页[6] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页[7] 从瑞和堂，秦宏伟，刘绍辉，严俊杰。用于视频对象检测的印象网络。 arXiv 预印本 arXiv ： 1712.05896 ，2017。[8] Andrew G Howard，Menglong Zhu，Bo Chen，DmitryKalenichenko，Weijun Wang，Tobias Weyand，MarcoAn- dreetto，and Hartwig Adam. Mobilenets：用于移动视觉应用的高效卷积神经网络。arXiv预印本arXiv：1704.04861，2017。[9] Han Hu，Jiayuan Gu，Zheng Zhang，Jifeng Dai，andYichen Wei.用于对象检测的关系网络。在IEEE计算机视觉和模式识别会议论文集，第3588-3597页，2018年[10] Kai Kang，Hongsheng Li，Junjie Yan，Xingyu Zeng，BinYang，Tong Xiao，Cong Zhang，Zhe Wang，RuohuiWang，Xiaogang Wang，et al. T-cnn：使用卷积神经网络的 Tubelets ，用于视频中的对象检测。 IEEETransactionsonCircuitsandSystemsforVideoTechnology，28（10）：2896[11] K Kang H Li，T Xiao，W Ouyang，J Yan，X Liu，andX Wang.视频中的对象检测与tubelet提议网络。在procIEEE会议Comput. 目视 Pattern Recognition，Hawaii，the US，pages 727 -735，2017.[12] 林宗义、彼得·多尔、罗斯·格希克、何开明、巴拉特·哈里哈兰和塞尔日·贝隆吉.用于对象检测的特征金字塔网络。在IEEE计算机视觉和模式识别会议论文集，第2117-2125页[13] Wei Liu ， Dragomir Anguelov ， Dumitru Erhan ，Christian Szegedy ， Scott Reed ， Cheng-Yang Fu ， andAlexander C Berg. Ssd：单发多盒探测器。在欧洲计算机视觉会议上，第21-37页。施普林格，2016年。9766[14] Joseph Redmon，Santosh Divvala，Ross Girshick，andAli Farhadi.你只看一次：统一的实时对象检测。在IEEE计算机视觉和模式识别集，第779-788页[15] 任少卿、何开明、罗斯·格尔希克、孙健。更快的r-cnn：利用区域建议网络进行实时目标检测。神经信息处理系统的进展，第91-99页，2015年[16] Olga Russakovsky ， Jia Deng ， Hao Su ， JonathanKrause ， San- jeev Satheesh ， Sean Ma ， ZhihengHuang ， Andrej Karpathy ， Aditya Khosla ， MichaelBernstein，Alexander C.伯格和李飞飞。ImageNet大规模视觉识别挑战。国际计算机视觉杂志（IJCV），115（3）：211[17] Adam Santoro 、 David Raposo 、 David G Barrett 、Mateusz Malinowski、Razvan Pascanu、Peter Battaglia和Timothy Lillicrap。一个简单的神经网络模型的关系reasoning。神经信息处理系统进展，第4967-4976页，2017年[18] Ashish Vaswani，Noam Shazeer，Niki Parmar，JakobUszko-reit ， Llion Jones ， Aidan N Gomez ， ukaszKaiser，and Illia Polosukhin.注意力是你所需要的神经信息处理系统进展，第5998-6008页，2017年[19] Shiyao Wang ， Yucong Zhou ， Junjie Yan ， andZhidong Deng.用于视频对象检测的完全运动感知网络。在欧洲计算机视觉会议（ECCV）的会议记录中，第542-557页[20] 王晓龙，Ross Girshick，Abhinav Gupta，和KaimingHe.非局部神经网络。在IEEE计算机视觉和模式识别会议集，第7794-7803页[21] 王小龙和阿比纳夫古普塔。视频作为时空区域图。在欧洲计算机视觉会议（ECCV）的会议记录中，第399-417页[22] Chao-Yuan Wu ， Christoph Feichtenhofer ， HaoqiFan ， K

下载后可阅读完整内容，剩余1页未读，立即下载