压缩视频的快速目标检测方法：MMNet

36 浏览量更新于2023-10-12 收藏 1.63MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

7104××压缩视频清华大学计算机科学与技术系1阿里巴巴集团2wangshy31@gmail.comluhc15@mails.tsinghua.edu.cnmichael@tsinghua.edu.cn摘要视频中的目标检测由于在实际场景中更实用而受到越来越多的关注。大多数深度学习方法使用CNN来单独处理视频流中的每个解码帧。然而，已经嵌入在视频压缩格式中的免费但有价值的运动信息通常被忽视。在本文中，我们提出了一种快速的目标检测方法，利用这一点与一种新的运动辅助记忆网络（MMNet）。MMNet有两个主要优点：1）显著加快了压缩视频的特征提取过程。它只需要运行一个完整的识别网络的I帧，即。该方法利用视频中的少量参考帧，利用轻量级的记忆网络产生后续P帧（预测帧）的特征，运行速度快; 2）与现有的冰毒不同，压缩视频...+++ODS建立了一个额外的网络来模拟帧的运动据我们所知，MMNet是第一个在压缩视频上研究深度卷积检测器的工作。在大规模的Ima-geNet VID数据集上对该方法进行了测试，结果表明，在精度损失较小的情况下，该方法比单图像检测器R-FCN快3倍，比高性能检测器MANET快10倍。1. 介绍视频被视为计算机视觉的下一个前沿领域之一，因为许多现实世界的数据源都是基于视频的，从视觉监控[3]，人机交互[30]到自动驾驶[46]。在过去的五年里，深度学习方法在静态图像分析方面取得了历史性的进展[37，41，14，39，55]。小说CNN这项工作是王世尧在清华大学时完成1智能技术与系统国家重点实验室，清华大学智能网联汽车与交通研究中心，北京，中国。图1. (a)所提出的轻量级MMNet通过直接使用压缩视频来加速CNN推理，而（b）大多数先前的视频分析方法使用繁重的计算网络来逐帧提取特征。已经提出了用于单个图像对象检测的基于框架虽然在静态图像目标检测方面取得了很大的成功，但对于视频中的目标检测仍然是一个具有挑战性的问题。由于帧可能会遭受成像相关的退化，大多数以前的工作[53，44，48，21，22]集中在改善逐帧检测结果。它们通过应用现有的图像识别网络（例如，ResNet[14]）（参见图1中的底线），并通过特征聚集或边界框重新评分来利用时间相干性虽然这些方法提高了最终性能，但使用CNN来处理密集的视频帧在计算上是昂贵的，而随着视频的增长，它变得负担不起。为了减少冗余计算，[54，52]提出了运行昂贵的特征提取器的方法t+n加2加2加1加1人数）t 1$t 1）tN$t&（m#m…）t（）t（m#m）t *(a)提出的轻量级MMNet解码解码编解码器解码…(b)传统卷积检测器7105仅在稀疏关键帧上，然后将得到的深度特征传播到其他帧。帧间特征传播的关键思想然而，它需要额外的时间来计算位移，因为FlowNet仍然包含数十个卷积层。它们将视频视为独立图像的序列，而忽略了视频通常以压缩数据格式存储和传输的事实。编解码器将视频分割成I帧（帧内编码帧）和P/B帧（预测帧）。I帧是完整的图像，而P/B帧仅保留与参考帧相比的变化。例如，编码器存储对象因此，连续的帧是高度相关的，并且变化已经编码在视频流中。将它们视为一系列静止图像并利用不同的技术来检索运动线索似乎既耗时又繁琐。本文提出了一种快速、准确的压缩视频目标检测方法--运动辅助金字塔特征注意记忆网络（MM-Net）。对于视频中的一组连续图像（GOP），它运行I帧的完整识别网络，而开发一个轻量级存储器来产生后续P帧的特征建议的MMNet接收的前一个I帧的特征作为输入，并快速预测以下功能，通过使用视频流中的运动矢量和残差此外，不同于只传播高层特征的复杂工作，所提出的记忆网络组成金字塔特征，使模型能够跨多个尺度检测对象总之，本文的贡献包括：- 我们探索编解码器中的固有运动信号和残余请注意，这些信号保留了必要的运动提示，并且是免费提供的。- 我们提出了一个金字塔的功能注意，使记忆网络传播功能从多个尺度。它有助于检测不同尺度的物体。- 我们在大规模ImageNet VID数据集[35]上评估了所提出的模型，并展示了内存可视化以供进一步分析。我们的模型实现了显着的加速在一个较小的准确性损失。2. 相关工作2.1. 对象检测2.1.1从静止图像中检测目标用于一般对象检测的最先进的方法包括特征网络[25，37，40，14，39，18，6]和检测网络[11，10，13，33，7，26，36，27]。[11]是一个典型的基于pro-bandwidth的检测器，它使用提取的建议[43]。更快的R-CNN [33]进一步集成了提案生成走进CNN与Faster R-CNN相比，R-FCN [7]具有相当的性能和更高的速度。我们使用R-FCN作为我们的基线，其计算速度进一步提高视频对象检测。2.1.2视频中的对象检测主流方法之一是基于逐帧完整检测，并通过利用时间相干性来提高检测质量。另一种是利用时间冗余来提高计算速度。为了提高性能，[53，21，44，48，51，2]提出了端到端学习模型来增强每帧特征。[53，44，51]采用FlowNet [8]来对齐和聚集特征。[21]提供了一种新颖的tubelet建议网络以有效地生成时空建议。[48]计算相邻帧之间的相关性，并引入存储器模块来聚合它们的特征。[2]使用跨时间的可变形卷积来对齐来自相邻帧的特征[2，22，9]基于检测到的绑定框，而不是特征级聚合。[12，23，22]提出了将静态图像检测链接到跨帧框序列的映射策略D T [9]是第一个联合学习ROI跟踪器和检测器的工作，跟踪器也被用来连接跨帧框。所有这些工作都实现了高检测性能，但它们使用计算昂贵的网络来生成每帧特征。为了快速推理，[54]利用光流网络计算像素级对应关系，并将深度特征图从关键帧传播到其他帧。的流估计和特征传播比特征网络更快。因此，实现了显著的加速[5]引入了盒级的时间传播。他们首先在关键帧上生成边界框，然后通过一个由粗到细的网络生成其他帧的[28]通过卷积LSTM跨帧传播特征图。它们只使用外观特征，而不显式地捕捉运动线索。虽然他们的模型比现有的方法更快，但性能下降了很多。[45，16，19]也关注模型加速。他们的目标是构建与特定任务无关的轻量级深度神经网络。2.2. 压缩视频H.264/MPEG-4第10部分，高级视频编码[38]是用于记录、压缩和分发视频的最常用格式之它是一个面向块的基于运动补偿的视频压缩标准[34]。据我们所知，只有少数以前的作品直接在压缩视频上应用深度模型[24，42]利用来自压缩视频信号来产生非深度FEA，7106feat联联联联3不加14不加1however，加1加2加2t+nt+n加1加1however，加2t+2加2…however，联5不t+nGOPrfcn…联阿勒加1加2t+n不N不不.345∈不∈N数量≤≤N不不不压缩视频...…图2.提出的MMNet的整体框架与金字塔的功能注意。特征提取器Nfeat仅在参考系It上运行，并且ct+k的其他特征由记忆网络Nfeat生成。运动矢量mt+k和残余误差rt+k被馈送到存储器网络中，以便提供运动提示。最后，一个GOP（图片组）中的所有特征被聚合到检测网络Nrfcn，同时产生边界框真的。[47]最像我们的模型，以提高视频动作识别的速度和性能，视频动作识别集中于产生视频级特征。但是视频对象检测需要产生具有逐帧特征质量要求的逐帧边界框3. 方法3.1. 概述包含两个模块：金字塔特征注意力Natten（第3.2节）和运动辅助LSTM m-lstm（第3.3.2节）。金字塔特征注意力接收fl作为输入并产生将被传播到相邻帧的帧运动辅助的LSTM通过使用运动矢量m t+ k和残余误差r t+ k来传递先前的特征。上述程序表述为：fl=Nfeat（It）（1）Natten（f，f，f）k= 0所提出的具有金字塔特征注意力的运动辅助记忆网络如图2所示。对于输入视频，我们使用H.264基线配置文件作为说明，因为这些利用连续帧的压缩技术通常是相似的。 H.264基线配置文件包含两种类型的帧：I帧和P帧。一个I-帧（记作ItRhxwx3）是一个完整的图像.h和w是高度和宽度。P-帧也被称为Δ-帧，表示为Pt+k。它们可以通过使用被称为运动矢量mt+k和残余误差rt+k的存储的偏移来重建。提取mt+k和rt+k的详细说明见第3.3.1节。在图2中，我们在顶线上显示了一个典型的GOP，表示为{It，Pt+1，···，Pt+k，···，Pt+n}.对于核心模块，有三个网络：特征提取器、记忆网络和检测网络，分别记为Nfeat、Nfcn和Nrfcn。I帧I t被馈送到feat，以便生成金字塔特征f lRhl× wl×cl。 l是多个阶段在网络中，W1、H1和C1是相应的宽度、高度和信道号。他们被送到了一个...···内存网络工作m− lstm（ct+ k−1，mt+ k，rt+ k）1 kn（二）[bt，bt+1，···，bt+n]=NrfCn（[ct，ct+1，···，ct+n]）（3）其中[ct，ct+1，···，ct+n]表示一个GOP的特征的级联这意味着rfcn将接收相同GOP内的特征，并且错误地预测它们的边界框[bt，bt+1，···，bt+n]。3.2. 金字塔特征注意先前的方法仅将高级特征映射传播到相邻帧（[54]中的"res5c relu"）。换句话说，随后的P帧仅从参考帧接收高级语义特征。它对于检测尺度差异很大的物体并不友好。[26]利用深度CNN的固有金字塔层次来检测多尺度对象。然而，他们的预测是在每个层面上独立进行的如果我们采用从静态图像到视频的相反，我们开发了一种方法，该方法通过第一记忆模块内的注意力机制自适应地然后将组合的金字塔特征发送到运动辅助LSTM（参见第3.3.2节）。加1加1加2加2t+nt+nct+k=7107不--F·不C××不不不不不不t tt^^LLf（i，j）=f^（i，j）L(a) 金字塔特征注意力（b）运动辅助LSTM图3.具有金字塔特征注意力的轻量级MMNet注意机制的目的是选择性地结合金字塔的特点。运动矢量用于在它们运行通过存储器模块之前校准单元/隐藏特征。残差被用来校正外观变化。首先，我们从不同阶段收集金字塔特征fl。网络可以分为L个阶段，其层产生相同分辨率的输出地图。我们为每个阶段定义一个金字塔级别，并使用网络的后续阶段l= 3，4，5（见图3（a））。We uti-注意力权重如下产生：αt（i，j）=softmax（MLP（et（i，j）et（i，j）=[e3（i，j），e4（i，j），e5（i，j）]αt（i，j）=[α3（i，j），α4（i，j），α5（i，j）]（七）t t t莉洁 res3b3 relu，res4b22 relu，res5c relu ResNet-101作为输入，并将它们转换为相同的维度：fl= Fembed（f l，f L），fl，3 ≤ l ≤ L（4）其中embed（）可以实现为具有适当步幅的卷积层。目标维数是fL的大小。因此，具有不同l的f l具有相同的维度，这对于下面的注意力操作是必要的。其次，我们使用跨通道轴的挤压操作来表示位置（i，j）处的每个尺度l的特征：Lel（i，j）=f^l（i，j，k），经过金字塔特征注意力处理后fatten将被馈送到运动对齐的LSTM中。3.3. 运动辅助记忆网络3.3.1运动矢量和残差对于压缩数据，P帧被划分为称为宏块的块（见图4）。支持的预测块大小范围从4 4到16 16样本。视频编码器采用块匹配算法[50，31，49，20]来找到与它所编码的块相似的块t tk=1i，j，1≤i≤w，1≤j≤h（五）对先前编码的帧进行编码绝对来源宏块的位置和目的地位置被存储在运动矢量中。此外，如果没有一个确切的其中i和j枚举特征图中的所有空间位置。挤压操作对通道维度上的所有元素求和，这可以被视为特征显著性。我们将上述输出它受到SENet [17]的启发，但他们使用全局平均池来收集空间维度的统计数据。最后，我们采用尺度描述符作为输入来生成注意力权重，以便自适应地组合来自不同尺度的特征。我们将融合的表示因子和注意力权重αl（i，j）定义如下：匹配到它正在编码的块，残差是也发送到解码器。目的地位置图4.运动矢量表示一个图片中的宏块，它基于另一个图片中的宏块的位置。t tL阿滕湖t t tL=3l（i，j）= 1（六）在我们的实现中，我们使用FFmpeg [1]来提取每个P帧的运动矢量和残差。当我们从编解码器获得原始运动矢量和残差时，我们调整它们的大小以匹配特征图hL和wL的大小。并且运动矢量应该进一步通过空间步幅重新缩放，因为原始值指示解码帧中的运动。16× 160源位置16× 80 18× 16018× 80 12 3…MLPSoftmax经纱经纱7108L=3LLL加1however，加2however，3不atten阿勒特ReLU1000+t+1 t+2ReLU4t+2不加15加1��加1加2⊗t+1不ReLU加12000年+1t+2��中国+2ReLU加22000年+12007109N不W∈−−ΣN·××3.3.2运动辅助LSTM我们使用LSTM [15]来传递特征。对传统的LSTM有两种修改。一种是运动矢量辅助的特征变形，另一种是基于残差的新输入。存储器可以如下生成新的单元特征gt+k=σ（Wg（ht+k−1→t +k，rt+k）），it+k=σ（Wi（ht+k−1→t +k，rt+k）），ct+k=ReLU（Wc（ht+k−1→t+k，rt+k）），ct+k=gt+k<$ct+k−1→t+k+it+k<$c t+k（十一）虽然LSTM中的门专注于选择和向上，尽管他们对物体的位置进行了测定，但在物体移动到不同的位置后，他们仍然很难忘记物体[48]。第4.4节中的实验证明了这一问题。它被称为跨帧未对齐的特征。因此，我们提出了一种基于运动矢量的特征扭曲，它有助于在运行之前校准细胞/隐藏特征。其中，W1和W2是逐元素加法和乘法，Wg、Wi和Wc是可学习的权重。g t+ k可以看作是一个选择掩码，ct+k是一个新的信息，它保持互补表示。ct+k代表发送将被馈送到RFCN的当前帧。然后可以生成隐藏的特征理论模块（见图3（b））。我们将特征图从相邻帧扭曲到当前帧，如下所示：ot+ k =σ（Wo（ht+ k−1→ t+ k，rt+ k）），ht+k=ot+k<$ReLU（ct+k）（十二）低点：ct+ k−1→ t+ k =W（ct+ k−1，mt+ k）ht+k− 1→t +k=W（ht+k−1，mt+k）（八）基于这种结构，我们可以将以前的特征转换为当前状态，它们将被传递到下一个步骤，直到遇到另一个新的I帧。特征其中c t+ k−1和h t+ k−1是存储器模块在时间t + k的输出1.一、我们让ct和ht变胖，k[1，n]。n是GOP中P帧的数量。调变操作类似于[53]。它是通过双线性函数实现的，该函数应用于所有特征图的每个位置。它将帧t+k1中的位置p+p投影到帧t+k中的位置p，其可以公式化为：t=mt+k（p）ct+k−1→t+k（p）=G（q，p+ np）ct+k−1（q）（九）Q其中，通过mt+k获得。q枚举特征图ct+k−1中的所有空间位置，G（）表示双线性插值核，如下所示：G（q，p+p）=max（0，1 - 1）||q−（p+ ∆p）||）（10）隐藏特征ht+k−1→t+k也可以通过上述操作获得。然后ct+k−1→t+k和ht+k−1→t+k被用作从先前时间到当前存储器模块的输入对于常规LSTM，当前完整帧将被用作新信息。在我们的模型中，我们使用残差作为新的输入。通过运动矢量，先前的特征可以与当前状态相匹配，但当前表示仍然缺乏一些信息。因此，视频编码器计算残差，其值被称为预测误差，并且需要被转换并发送到解码器。空间配准后的残差可以作为比整幅图像的整体外观特征更重要的补充信息。为了更好地匹配图像级到特征级的残差，我们使用一个卷积层来重新缩放值。在获得变形特征和新输入之后，一个GOP[Ct，Ct+1，Ct+1，···，Ct+n]将被发送到该解码器。保护网络rfcn，产生ob-与此同时4. 实验4.1. 数据集准备和评估指标我们在ImageNet [35]视频（VID）数据集的对象检测上评估了所提出的MMNet它分为3862个培训视频和555个验证视频。它包含30个类，在所有帧上都标记有地面实况边界框。我们报告了对验证集上先前最先进模型的评估，并按照[21，53，54]中的方案使用平均VID发布原始视频和解码帧。注意，所有先前的最先进的方法都使用解码帧作为输入。这是第一次在VID上检测原始视频上的对象。ImageNet VID中的30个对象类别是ImageNet DET数据集中200个类别的子集。我们遵循以前的方法，并在ImageNet VID和DET集的交集上训练我们的模型。4.2. 训练和评价我们进行两个阶段的训练：1）模型在DET和VID的混合上训练12K次迭代，学习率为2。5 10-4和2。在前80K和40K次迭代中分别为5 10−5我们在4个GPU上使用4个批处理大小。2)将运动辅助记忆网络集成到R-FCN中，并在VID数据集上训练另一个时期。在这个阶段中，每个GPU在一个GOP中保存多个样本。它已经在3.1节中介绍过了。默认情况下，特征提取器ResNet101模型已针对ImageNet分类进行在训练和测试中，我们使用具有较短维度的单尺度图像，7110}{{········}骨干ResNet-101方法（一）（b）第（1）款（c）第（1）款（d）其他事项（e）（f）第（1）款MV？残留物？LSTM？金字塔的注意力？√√√√√√√√√√√√√√mAP（%）（快速）27.727.3↓0. 438.5↑10. 843.1↑15. 444.2↑16. 543.7↑ 16. 0mAP（%）（中）68.268.0↓0。271.2↑3. 071.5↑3. 372.0↑3. 873.4↑5. 2mAP（%）（缓慢）82.682.2↓0. 483.5↑0. 983.0↑0. 483.6↑1. 084.7↑2. 1最大平均接入点（%）66.366.1↓0. 270.3↑4. 071.3↑ 5. 072.1↑5. 873.0↑6. 7速度（fps）42.141.951.341.941.740.5表1.使用ResNet-101特征提取网络进行ImageNet VID验证的不同方法的准确性600像素。为了测试，我们只在I帧上运行整个识别网络，并快速预测其余帧的边界框。4.3. 消融研究在本节中，我们进行了一项消融研究，以证明所提出的网络的有效性，包括运动向量、残差、LSTM和金字塔特征注意力。我们使用ResNet-101来提取I帧特征，并采用不同的方式将特征传播到后续的P帧。评价方案遵循以前的工作[53]。他们根据移动速度将地面实况对象分为三组。它们使用对象的平均交并（IoU）分数及其附近帧中的相应实例作为测量。下运动IoU（<0. 7）表示运动更快。否则，较大的运动IoU（得分> 0. （9）表示物体移动缓慢。表1还显示了模型的准确性和运行速度。方法（a）和（b）：方法（a）采用LSTM来变换特征。这是一个传统的解决方案，我们将其视为我们的基线。然而，在没有显式运动线索的情况下，LSTM不能自动对齐来自先前帧的特征在方法（b）中，在没有运动对准的情况下，残余误差甚至损害结果（66.1%mAP）。方法（c）和（d）：这些方法利用运动矢量来扭曲（/对齐）特征。残差或LSTM旨在学习互补特征。我们发现运动矢量+残余误差是一种实用的解决方案，因为它具有最小的计算成本（51.3fps）和相当的准确度（70.3%）。对于快速运动的目标，结果从27.7%提高到38.5%。这也证明了压缩视频中编码的运动信息是有价值的用于对帧之间的差异进行建模。方法（e）和（f）：这些方法基于具有/不具有金字塔特征关注的运动辅助记忆网络。方法（e）仅传播顶层的高级特征图，并且方法（d）将金字塔特征递送到存储器网络。我们发现金字塔的功能可以进一步提高性能与更高的运行时复杂度。综上所述，运动矢量和残差对于连续帧之间的运动建模是它们可以加快检测过程。此外，LSTM被用来过滤掉不必要的信息，并补充新的信息。此外，金字塔特征的传播可以进一步提高检测精度。因此，这些模块能够协同地促进最终的特征表示。4.4. 可视化记忆的可视化。我们试图更深入地研究由运动辅助神经网络学习的中间特征。在图5中，有三个典型的视频片段。例如，在视频#2中，左侧部分由经解码的帧组成我是说，，Pt+2，，Pt+5，，P t+7.视频中的汽车从左到中移动我们比较了未对准和运动辅助算法的可视化结果。中间部分的特征由LSTM学习。虽然LSTM中的门是为了学习历史信息和新输入之间的变化而设计的，但它无法跨帧对齐空间特征。它不能捕捉运动线索只依赖于外观功能.右边是运动辅助神经网络。{Pt+2，Pt+5，Pt+7}的特征都基于I t。MMNet接收编解码器信息作为输入，对齐并校正传播的特征。神经元7111图5.记忆可视化每个示例包含原始帧、（a）未对准存储器和（b）运动辅助存储器。运动信息对于特征传播是非常必要的当对象移动到不同的位置时，它可以帮助MMNet对齐特征堆图中的高响应从左边移动到中间，就像原来的汽车一样。从上面的比较，运动信息是非常重要的特征传播。它有助于在对象移动到不同位置时对齐要素。因此，运动辅助记忆网络可以校准特征并减轻不准确的定位。FlowNet和运动矢量的可视化。为了显示流量估计和运动矢量之间的运动线索的差异，我们在图6中可视化了两个示例及其结果两个示例中的每一个都包含原始的简短片段、FlowNet [8，54]的结果和运动矢量（我们使用Sintel[4]提供的工具）以可视化上述运动信息）。运动矢量的主要优点是可以免费获得。它不需要额外的时间或模型来检索运动信息，因为它已经被编码在压缩视频中。从图6中的结果来看，即使运动矢量不像FlowNet那样细致，它也能够对对象的运动趋势进行建模。该算法利用运动矢量从I帧I t中传播出Pt+1、Pt+3、Pt+5、Pt+7、Pt+9帧的所有特征，而不需要使用复杂的计算网络。此外，在运动线索的指导下，边界框的定位和识别结果是合理的，有时甚至超过流量估计的结果。图6. FlowNet和运动矢量的可视化。[54]中的FlowNet能够构建详细的模型信息。运动矢量可以快速提供运动线索，这有助于在大多数情况下加快检测过程。7112方法方法最大平均接入点（%）单个帧R-FCN[7]73.6ST-Lattice[5]77.8框TCNN[22]73.8传播Seq-NMS [12]52.2TCN[23]47.5MANET[44]78.1FGFA[53]76.5特征DFF[54]73.1传播TPN[21]68.4移动[28]54.4我们的（MMNet）73.0（41fps）我们的（+后处理）76.4（10fps）74.8（55fps）80最大平均接入点（%）79Manet7877FGFAMMNet76MMNet+seq-NMS75DFF74MMNet+seq-NMS+插值73R-FCN72逐帧检测特征传播TCNN-TCSVT71FGFA-ICCV移动自组网-ECCVR-FCN - NIPS'1670与BoxPostprocessingseqNMS插值- CVPRFPS051015202530354045505560表2.与最先进系统的性能比较ImageNet VID验证集。显示了所有类别的平均精密度（%）图7.详细的速度和准确性的一些典型的方法.运行时间是在NVIDIA Titan X Pascal GPU上测量的。对于流估计，运动信息更平滑。它在物体较小且不清晰时具有优越的性能。但这个模型包含了几十个卷积层。对于每个相邻帧，它应该首先计算FlowNet，这似乎并不优雅。总之，FlowNet能够构建详细的运动信息。运动矢量可以快速提供运动线索，有助于加快检测速度。这种比较显示了基于压缩视频的检测方法的潜力。它充分利用了编解码器信息，使模型更加优雅。4.5. 与最先进系统的在本节中，我们将在表2和图7中显示相关方法的运行时速度和性能。在表2中，将方法分为三组：单帧基线[7]、框级和特征级传播。我们还在图7中展示了性能高于70%mAP的基准方法的详细准确性-运行时权衡。并且运行时包括数据预处理的成本。从图7中的比较，我们发现：每帧检测（黄色）：在这些先前的工作中，MANET[44]具有最好的性能，而检测一帧需要大约260 ms所有这些每帧检测器都使用大量计算网络（10fps）;特征传播（紫色）：在关键帧上生成特征后，DFF [54]通过使用流估计来传播特征与DFF相比，我们的模型在准确性和运行速度方面都取得了更好的性能。框后处理（蓝色）：框级传播是与特征级传播互补。我们选择两种典型的方法seq-NMS[12]和插值（ST-格的一部分）[5]作为基线。当我们将它们与我们的MMNet结合起来时，它们稳步推进了性能范围。综上所述，MMNet在准确性和速度方面都表现良好，并且可以很容易地与框级后处理方法结合5. 结论在本文中，我们提出了一个快速的目标检测模型，结合运动辅助记忆网络称为MM网络。它可以直接应用于压缩视频。与以前的工作不同的是，我们使用在视频流中存储和传输的运动信息，而不是建立另一个模型来检索运动线索。我们使用I-框架作为参考框架，并探索记忆网络将特征转移到下一个P-框架。所有这些操作都是针对压缩视频设计的。我们进行了大量的实验，包括烧蚀研究，可视化和性能比较，证明了所提出的模型的有效性。致谢这项工作得到了中国国家重点研发计划（批准号：2017 YFB 1302200）、丰田TIGER-2019-08、DeepBlueAI China和中国北方工业集团先进研究联合基金（批准号：6141 B 010318）的部分支持。7113引用[1] Ffmpeg。https://github.com/FFmpeg/FFmpeg网站。[2] Gedas Bertasius，Lorenzo Torresani，and Jianbo Shi.基于时空采样网络的视频对象检测。在ECCV中，第331-346页[3] Michael Bramberger ， Andreas Doblander ， ArnoldMaier，Bernhard Rinner，and Helmut Schwabach.用于监控应用的分布式嵌入式智能摄像机。计算机，39（2）：68[4] Daniel J Butler 、 Jonas Wulff 、 Garrett B Stanley 和Michael J Black。一个用于光流评估的自然开源电影。欧洲计算机视觉会议，第611-625页。Springer，2012.[5] Kai Chen，Jiaqi Wang，Shuo Yang，Xingcheng Zhang，Yuan-jun Xiong，Chen Change Loy，and Dahua Lin.通过尺度时间网格优化视频对象检测。在IEEE计算机视觉和模式识别会议论文集，第7814-7823页，2018年[6] Yunpeng Chen，Jianan Li，Huaxin Xiao，Xiaojie Jin，Shuicheng Yan，and Jiashi Feng.双路径网络。CoRR，abs/1707.01629，2017。[7] 戴纪峰，易力，何开明，孙建。R-fcn：通过基于区域的全卷积网络的目标检测。神经信息处理系统的进展，第379-387页，2016年[8] Alexey Dosovitskiy、Philipp Fischer、Eddy Ilg、PhilipHausser、Caner Hazirbas、Vladimir Golkov、Patrick vander Smagt、Daniel Cremers和Thomas Brox。Flownet：使用卷积网络学习光流在IEEE计算机视觉国际会议论文集，第2758-2766页[9] ChristophFeichtenhofer、AxelPinz和AndrewZisserman。检测跟踪和跟踪检测。在IEEE计算机视觉国际会议论文集，第3038-3046页[10] 罗斯·格希克。快速R-CNN。在Proceedings of the IEEEinternational conference on computer vision ，第 1440-1448页，2015中。[11] Ross Girshick，Jeff Donahue，Trevor Darrell和JitendraMalik。丰富的特征层次结构，用于精确的对象检测和语义分割。在 Proceedings of the IEEE conference oncomputer vision and pattern recognition，pages 580[12] Wei Han ， Pooya Khorrami ， Tom Le Paine ， PrajitRamachan-dran ， Mohammad Babaeizadeh ， HonghuiShi，Jianan Li，Shuicheng Yan，and Thomas S Huang.用于视频对象检测的 Seq-nms 。 arXiv 预印本 arXiv ：1602.08465，2016。[13] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于视觉识别的深度卷积网络中的空间金字塔池。IEEE传输模式分析马赫内特尔，37（9）：1904[14] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页[15] SeppHochreiter和JürgenSchmidhube r. 长短期记忆。NeuralComputation，9（8）：1735[16] Andrew G Howard，Menglong Zhu，Bo Chen，DmitryKalenichenko，Weijun Wang，Tobias Weyand，MarcoAn- dreetto，and Hartwig Adam. Mobilenets：用于移动视觉应用的高效卷积神经网络。arXiv预印本arXiv：1704.04861，2017。[17] 杰虎，李申，孙刚。挤压-激发网络。在IEEE计算机视觉和模式识别会议论文集，第7132-7141页[18] 高煌，刘庄，劳伦斯·范德马腾，和Kilian Q.温伯格密集连接的卷积网络。在IEEE计算机视觉和模式识别会议论文集，第2261-2269页[19] Forrest N Iandola、Song Han、Matthew W Moskewicz、Khalid Ashraf 、 William J Dally 和 Kurt Keutzer 。Squeezenet：Alexnet级别的精度，参数减少50倍，模型大小为0.5 MB。arXiv预印本arXiv：1602.07360，2016.[20] 昌洙和朴亨民优化的分层块匹配，用于快速准确的图像配准。信号处理：Image Communication，28（7）：779-791，2013.[21] Kai Kang，Hongsheng Li，Tong Xiao，Wanli Ouyang，Junjie Yan，Xihui Liu，and Xiaogang Wang.视频中的对象检测与tubelet提议网络。在IEEE计算机视觉和模式识别会议论文集，第727-735页[22] Kai Kang，Hongsheng Li，Junjie Yan，Xingyu Zeng，BinYang，Tong Xiao，Cong Zhang，Zhe Wang，RuohuiWang，Xiaogang Wang，et al. T-cnn：使用卷积神经网络的 Tubelets ，用于视频中的对象检测。 IEEETransactionsonCircuitsandSystemsforVideoTechnology，2017。[23] Kai Kang，Wanli Ouyang，Hongsheng Li，and XiaogangWang. 用卷积神经网络从视频管中检测目标。在Proceedings of the IEEE Conference on Computer Visionand Pattern Recognition，第817-825页[24] Vadim Kantorov和Ivan Laptev有效的特征提取，编码和分类的行动识别。IEEE计算机视觉和模式识别会议论文集，第2593-2600页，2014年[25] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络的图像网分类。神经信息处理系统的进展，第1097-1105页，2012年[26] 放大图片作者：林宗毅，彼得 · 多尔，罗斯 ·B.Girshick，KaimingHe，Bharath Hariharan，and Serge J.贝隆吉用于目标检测的特征金字塔网络。在IEEE计算机视觉和模式识别会议论文集，第936-944页[27] 放大图片创作者：林宗毅， Priya Goyal ， Ross B.Girshick，Kaiming He，andP i otrDol la'r. 密集目标检测的焦面损失。在IEEE计算机视觉国际会议论文集，第2999-3007页[28] Mason Liu和Menglong Zhu。具有时间感知特征图的移动视频对象检测。arXiv预印本arXiv：1711.06368，2017。7114[29] Wei Liu ， Dragomir Anguelov ， Dumitru Erhan ，Christian Szegedy ， Scott Reed ， Cheng-Yang Fu ， andAlexander C Berg. Ssd：单发多盒探测器。在欧洲计算机视觉会议上，第21-37页。施普林格，2016年。[30] Jawad Nagi，Frederick Ducatelle，Gianni A Di Caro，Dan Cires Gambartan，Ueli Meier，Alessandro Giusti，FarrukhNagi，JürgenSchmidhuber，andLucaMariaGambardella. 最大池化卷积神经网络用于基于视觉的手势识别。在2011年IEEE信号和图像处理应用国际会议（ICSIPA）中，第342-347页。IEEE，2011年。[31] 姚聂和马开光。快速块匹配运动估计的自适应十字模式搜索。 IEEE Transactions on Image Processing ， 11（12）：1442[32] Joseph Redmon，Santosh Divvala，Ross Girshick，andAli Farhadi.你只看一次：统一的实时对象检测。在IEEE计算机视觉和模式识别会议论文集，第779-788页[33] 任少卿、何开明、罗斯·格尔希克、孙健。更快的r-cnn：利用区域建议网络进行实时目标检测。神经信息处理系统的进展，第91-99页，2015年[34]

下载后可阅读完整内容，剩余1页未读，立即下载