基于压缩视频动作识别的轻量级网络设计与评估

6 浏览量更新于2023-10-19 收藏 664KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

1268(a)CoViARAR+PWC-Net(b2)CoViRS][欧(c)DMC-NetDMC-Net：快速压缩视频动作识别郑寿1、2林旭东2扬尼斯·卡兰蒂迪斯1劳拉·塞维利亚-拉拉1、3马库斯·罗尔巴赫1张世福2闫志成11Facebook AI2哥伦比亚大学3爱丁堡大学摘要运动已被证明对于视频理解是有用的，其中运动通常由光流表示。然而，从视频帧计算流量是非常耗时的。最近的工作直接利用运动矢量和残差容易在压缩视频表示运动在没有成本。虽然这避免了流计算，但它也损害了准确性，因为运动矢量是有噪声的，并且具有实质上降低的分辨率，这使得它是较少辨别的运动表示。为了解决这些问题，我们提出了一个轻量级的生成器网络，它减少了运动矢量中的噪声，捕捉到了精细的运动细节，实现了更具鉴别力的运动提示（DMC）表示。由于光流是一种更准确的运动表示，我们训练DMC生成器使用重建损失和对抗损失来近似流，并结合下游动作分类任务。三个动作识别基准（HMDB-51，UCF-101，和一个子集的动力学）的广泛评估证实了我们的方法的有效性我们的整个系统，包括生成器和分类器，被称为DMC网络，它获得了接近使用流量的高精度，并且在推理时比使用光流快两个数量级。1. 介绍视频是视觉内容的丰富来源，因为它不仅包含单个帧中的外观信息，而且还包含连续帧之间的时间运动信息。先前的工作已经表明，建模运动对各种视频分析任务很重要，例如动作识别[39，47，22]、动作定位[35，34，38，5，37，24，25]和视频摘要[43，28]。目前，实现最新结果的方法通常遵循双流网络框架[39，4，46]，该框架包括这项工作在郑寿在Facebook实习时完成了一部分63（b1）CoViAR+TV-L1Flow62616059580.1 1 10 100每帧推理时间（毫秒）图1：比较HMDB-51上不同方法的推理时间和准确性。（a）基于压缩视频的方法CoViAR[52]非常快。（b）但是为了达到高精度，CoViAR必须遵循双流网络来添加昂贵的光流计算，使用TV-L1 [55]或PWC-Net[42]。（c）所提出的DMC-Net不仅专门在压缩域中操作，而且能够实现高精度，同时比使用光流的方法快两个或多个量级蓝色框表示从CoViAR到CoViAR + TV-L1 Flow的改进空间; x轴为对数刻度。两个卷积神经网络（CNN），一个用于解码的RGB图像，一个用于光流，如图2a所示。这些网络可以在单帧（2D输入）或剪辑（3D输入）上操作，并且可以利用3D时空卷积[44，46]。然而，提取光流是非常慢的，并且占视频分析任务的总处理时间的10%。最近的工作[52，57，56]通过利用来自由MPEG-4 [23]等标准编码的压缩视频的运动信息来避免光流计算。这样的方法利用已经存在于压缩视频中的运动矢量和残差来对运动进行建模。例如，最近提出的CoViAR [52]方法包含三个独立的CNN，在压缩视频中的三种模式上运行，即：RGB图像的I帧（I），低分辨率运动矢量（MV）和残差准确度（%）1269I：I帧的RGBMV：运动矢量。R：残差视频解码器光流估计RGB流压缩域Flow CNNRGB CNN压缩视频IMV R(a) 双流网络（TSN）[39]压缩视频IMV R压缩域R-CNNMV-CNNI-CNN光流估计流Flow CNN(b) [52]第五十二话压缩视频DMC发电机IMV R光流仅DMC监督在训练压缩域MV-CNNI-CNNR-CNN运动CNN(c) DMC-Net（我们的）图2：（a）双流网络的图示[39]，(b) 最近的CoViAR [52]方法通过融合压缩视频数据和光流实现了高精度，以及（c）我们提出的DMC网络。与需要对RGB 图像进行视频解码和流估计的CoViAR+Flow不同，我们的DMC-Net在推理时仅在压缩域中运行，而在训练时使用光流来学习捕获有区别的运动线索。(R). 来自各个CNN的预测通过后期融合进行组合。CoViAR运行速度极快，同时建模运动功能（见图2b）。然而，为了实现最先进的精度，还需要与光流进行后期融合（参见图1）。这种性能差距是由于运动矢量比流的信息量和辨别力更少。首先，运动矢量的空间分辨率被显著降低（即，16x），并且对于区分动作很重要的精细运动其次，采用两个CNN来分别处理运动向量和残差，忽略了它们之间的相互作用因为残差被计算为原始RGB图像与被运动矢量扭曲的其参考帧之间的差根据[32]，残差与移动对象的边界很好地对齐，这比其他位置处的运动对于动作识别运动矢量和残差分别作为粗尺度和细尺度运动特征，联合建模可以更有效地利用编码后的运动信息。为了解决这些问题，我们提出了一种新的方法来学习，以产生一个判别运动提示（DMC）表示细化的噪声和粗糙的运动矢量。我们开发了一个轻量级的DMC生成器网络，操作堆叠的运动矢量和残差。该生成器需要来自不同来源的训练信号来捕获有区别的运动线索并结合高级识别知识。特别是，由于流包含高分辨率和准确的运动信息，我们鼓励生成的DMC类似于光流通过使用像素级重建损失。我们还使用对抗损失[13]来近似光流的分布最后，DMC生成器还由下游动作识别分类器以端到端的方式监督，从而允许其学习对于识别是有区别的运动线索。在推理过程中，DMC生成器是非常有效的，只有0.23GFLOP，每帧仅需0.106毫秒，这是可以忽略不计的时间成本相比，使用流。在图2c中，我们将完整模型称为DMC- Net。虽然在训练过程中需要光流，但我们的方法在推理时仅在压缩域中运行，并且比使用光流的方法快两个数量级，如图1所示。我们的贡献概述如下：• 我们提出了DMC-Net，一种新颖且高效的框架，它专门在压缩视频域中运行，并且能够在不需要光流估计的情况下实现高精度。• 我们设计了一个轻量级的生成器网络，它可以学习预测判别运动线索，使用光流作为监督，并与动作分类器联合训练。在推理过程中，它比估计流量快两个• 我们在3个动作识别基准上广泛评估了DMC-Net，即HMDB-51 [21]，UCF- 101 [40]和Kinetics [20]的子集，并证明它可以显着缩短基于最先进压缩视频的方法（有光流和无光流）之间的性能差距。视频解码器RGB12702. 相关工作视频动作识别。动作识别的进步在很大程度上是由2DConvNets在图像识别中的成功推动的。最初的双流网络[39]使用单独的2D ConvNets来处理RGB帧和光流，并通过后期融合来合并它们的预测。与图像不同，视频具有时间结构和运动信息，这些信息对视频分析非常重要。这促使研究人员更有效地对它们进行建模，例如3D ConvNets [44，4]，时间段网络（TSN）[49]，动态图像网络[1]和非局部网络[50]。尽管通过时间卷积对运动建模付出了巨大的努力，但3D ConvNets在与光流融合时仍然可以实现更高的精度[4，46]，不幸的是，这是计算昂贵的。压缩视频动作识别。最近，一些方法，利用存在于信息，已经提出了压缩视频域。Zhanget al.用运动矢量流代替双流法中的光流流，但仍然需要对P帧的RGB图像进行解码，忽略了压缩视频中的其他运动编码方式，如残差图。最近，CoViAR方法[52]提出利用压缩视频中的所有数据模态，即。RGB I帧，运动矢量和残差，以绕过RGB帧解码。然而，CoViAR无法实现与双流方法的性能相当的性能，这主要是由于运动矢量的低分辨率以及运动矢量和残差（尽管高度相关）由独立网络处理我们认为，当适当的开发，压缩视频模态有足够的信号，使我们能够捕捉更多的歧视运动表示。因此，我们明确地学习这种表示，而不是依赖于光流在推理。运动表示和光学流量估算传统光学流估计方法显式对连续帧之间的每个像素处的位移进行建模[15，54，7，2]。在过去的几年中，CNN已经成功地被训练来估计光流，包括FlowNet [8，17]，SpyNet [31]和PWC-Net [42]，并在具有挑战性的基准上实现低端点误差（ EPE ），例如 MPI Sintel [3] 和 KITTI 2015 [29] 。Im2Flow工作[12]还表明，光流可以从静止图像中产生幻觉。然而，最近的工作表明，光流的准确性与视频识别的准确性没有很强的相关性[33]。因此，运动表示学习方法更多地关注于生成有区别的运动提示。Fan等人[9]提出将TV-L1光流算法转化为可训练的子网络，可以与下游识别网络联合训练。Ng等人[30]采用完全卷积的ResNet模型来生成光流的逐像素预测，可以与识别网络联合训练。与光学流量估计方法不同，我们的方法并不旨在减少EPE误差。与上述所有以解码RGB帧作为输入的运动表示学习方法不同，我们的方法在压缩域中细化运动矢量，并且需要更少的模型容量来生成有区别的运动提示。3. 方法在这一节中，我们提出了我们的方法，用于生成-ING判别运动线索（DMC）从压缩视频。我们提出的DMC-Net的总体框架如图3所示。在3.1节中，我们介绍了压缩视频的基础知识和我们使用的符号。然后我们在3.2节中设计DMC生成网络。最后，我们在3.3节中介绍了训练目标，并在3.4节中讨论了推理。(a)压缩视频我们遵循CoViAR [52]并使用MPEG-4第2部分[23]编码视频，其中每个I帧后面跟着11个连续的P帧。MPEG-4压缩视频中有三种数据模态：（1）I帧（I）的RGB图像;（2）运动矢量（MV）记录P帧中的每个宏块相对于其参考帧的位移，并且通常在视频压缩期间将帧划分为16 × 16宏块;（3）残差（R）存储在基于MV的运动补偿之后P帧与其参考I帧之间的RGB差。对于高度H和宽度W的框架，I和R具有形状（3，H，W）并且MV具有形状（2，H，W）。但请注意，MV实际上具有低得多的分辨率，因为其在同一宏块内的值是相同的。(b) 判别式运动提示生成器发电机的输入。现有的基于压缩视频的方法直接将运动矢量馈送到分类器中以对运动信息建模。由于MV的特性，该策略在建模运动时无效：（1）基于简单的块匹配来计算MV，使得MV有噪声，以及（2）MV具有实质上较低的分辨率，使得MV缺乏精细的运动细节。为了具体处理MV的这些特性，我们的目标是设计一个轻量级的生成网络，以减少MV中的噪声，捕捉更多的精细运动细节，输出DMC作为一个更具鉴别力的运动表示。要实现这一目标，单靠MV可能是不够的。根据[32]，对于动作识别，物体边界附近的运动比其他位置的运动更重要我们还注意到R通常与移动对象的边界对齐此外，R与MV强烈相关，因为它被计算为原始帧与其参考I帧之间的差被补偿1271DMC发电机鉴别器测试阶段训练阶段训练损失图3：我们的判别运动提示网络（DMC-Net）的框架。给定堆叠的残差和运动矢量作为输入，DMC生成器减少运动矢量中的噪声并捕获更精细的运动细节，输出更有区别的运动提示表示，该表示由小型分类网络用于对动作进行分类。在训练阶段，我们使用三个损失联合训练DMC生成器和动作分类器。在测试阶段，仅使用粉色突出显示的模块。网络架构GFLOPSC3D [44]38.5Res3D-18 [45]19.3ResNet-152 [14]11.3ResNet-18 [14]1.78DMC发电机（PWC-Net [42]）36.15DMC发电机[我们的]0.23表1：不同网络的计算复杂度。输入具有高度224和宽度224。层输入大小输出大小过滤器配置conv05、224、2248、224、2248，3x3，1，1conv113、224、2248、224、2248，3x3，1，1conv221、224、224第六、二百二十四、二百二十四条6，3x3，1，1conv327、224、2244、224、2244，3x3，1，1conv431、224、2242，224，2242，3x3，1，1conv5三十三、二二四、二二四2，224，2242，3x3，1，1表2：我们的判别运动提示（DMC）生成器网络的架构，其将堆叠的运动矢量和残差作为输入。输入/输出大小遵循#通道，高度，宽度的格式。过滤器配置遵循#filters，内核大小，步幅，填充的格式。使用MV。因此，我们建议将MV和R叠加作为DMC生成器的输入，如图3所示。这允许利用MV和R中的运动信息以及它们之间的相关性，这不能像当前压缩视频作品中那样由单独的CNN建模[52，57，56]。发电机网络架构。已经提出了相当多的深度生成网络用于从RGB图像进行光流估计。其中一项工作是PWC-Net [42]，它在端点错误（EPE）和推理速度方面实现了SoTA性能。我们在那里-因此，我们选择基于PWC-Net所使用的发电机设计原则。值得注意的是，PWC-Net将解码的RGB帧作为输入，而不像我们提出的方法仅在压缩域中操作。直接采用PWC-Net中的流量估计器网络的网络架构用于我们的DMC生成器导致如表1所示的高GFLOP。为了实现高效率，我们进行了详细的架构搜索实验，以减少在PWC-Net中的流量估计器网络的每个卷积层此外，由于我们的目标是细化MV，我们建议在输入MV和输出DMC之间添加一个快捷连接，使生成器直接预测添加在MV上的细化以获得DMC。表2显示了我们的DMC生成器的网络架构：6个卷积层顺序堆叠，所有卷积层紧密连接[16]。每个卷积滤波器都有一个3x3的内核，步长为1，填充为1.除了conv5之外的每个卷积层后面都是Leaky ReLU[26]层，其中负斜率为0.1。如表1所示，如果采用PWC-Net来实现我们的DMC生成器，则我们的DMC生成器仅需要PWC-Net中的流量估计器使用的0.63% GFLOP。此外，表1比较了我们的DMC生成器与其他流行的视频分析网络架构，包括帧级模型（ResNet-18和ResNet-152 [14]）和剪辑级模型（C3 D [44]和Res 3D [45]）。我们观察到，DMC生成器的复杂性是数量级相比，其他架构，这使得它运行得更快。在补充材料中，我们探索了一种策略，使用两个连续的网络，分别纠正错误的MV和捕捉精细的运动细节，而这并没有达到更好的精度。残余光流预测实际值：0.5运动矢量DMC预测行动1：0.1行动2：0.7措施k：0.1分类损失分类器DMC发电机对抗性损失鉴别器流动重建损失…12722(c)流动引导，辨别性运动提示与MV相比，光流表现出更有区别的运动信息，因为：（1）与使用简单块匹配计算MV不同，目前密集流估计是从粗尺度到细尺度逐步计算的[55]。(2)不像MV是块状的，因此错过了精细的细节，流保持相应帧的全分辨率因此，我们建议使用光流来指导DMC生成器的训练为此，我们探索了不同的方法，并确定了三种有效的训练损失，如图3所示，如下所示：流重构损失、对抗损失和下游分类损失。3.3.1光流重建损失让我们的DMC生成器GDMC成为对抗学习过程中的生成器如图3所示，引入了一个Dis- criminatorD来与GDMC竞争。D由二进制分类网络实例化，该网络将通过我们的DMC生成器生成的真实光流或假样本作为输入。然后D输出一个二维向量，该向量通过softmax运算得到输入为实数的概率PD，即，流与假，即。DMC。GDMC和D以交替的方式训练：当D被优化时，G DMC是固定的，并且反之亦然在训练D期间，GDMC是固定的并且仅用于推理。D旨在将所生成的DMC分类为假，并将流分类为真。因此，训练D的对抗性损失为：首先，我们最小化所生成的DMC和其相应的光流之间的每像素差异。关注-DAdv=Exp[−log PD（假|GDMC（x））（二）- logPD（实际|G（x））]，使用Im2Flow [12]，其近似来自单个RGB图像的流，我们使用均方误差（MSE）重建损失Lmse，其定义为：Lmse=Ex <$p<$GDMC（x）− GOF（x）<$2，其中p表示训练视频中的P帧的集合其中p表示训练集中的P帧的集合，并且GDMC（x）和GOF（x）分别表示每个输入P帧x的DMC和光流。在训练GDMC期间，D是固定的。 GDMC受到鼓励以生成与流相似且不可区分的DMC。因此，训练GDMC的对抗性损失为：E代表计算期望，GDMC（x）和GOF（x）分别表示相应的DMC和光流。GAdv=Exp[−log PD（实数|GDMC（x））]，（3）响应从p采样的输入帧x。由于只有某些区域的流动包含歧视性的运动线索，是重要的动作识别，在补充马，在这些材料中，我们已经探索了加权流动重建损失以鼓励关注流动的突出区域。但这种策略并没有达到更好的准确性。3.3.2对抗性损失如之前的工作[27]所指出的，MSE损失模型假设目标数据来自高斯分布，因此倾向于生成平滑和模糊的输出。这实际上导致不太尖锐的运动表示，特别是在边界周围，使得所生成的DMC不太有区别。生成对抗网络（GAN）[13]被提出来最小化生成模型和真实数据分布之间的Jensen-Shannon分歧因此，为了帮助我们的DMC生成器学习近似光流数据的分布，我们进一步引入对抗损失。请注意，与从随机噪声中采样的GAN不同，对抗性损失样本来自输入数据集，它已经具有很大的可变性[27]。我们放松了符号的严格性，并使用GOF（x）来指代与帧x相对应的光流，尽管对于许多光流算法，输入将是一对帧。其可以与被设计用于以端到端的方式训练DMC生成器的其他损耗联合训练，如第3.3.3节中所示。通过对抗性训练过程，GDMC学习近似流数据的分布，生成具有更精细细节的DMC，从而与流更相似。这些精细的细节通常捕捉到有区别的运动线索，因此对于动作识别很重要。我们将在补充材料中详细介绍网络3.3.3完整的训练目标函数语义分类丢失。由于我们的最终目标是创建相对于下游动作识别任务具有区分性的运动表示，因此与后续动作分类器一起训练生成器是很重要的。我们采用softmax损失作为我们的动作分类损失，表示为Lcls。完整的训练目标。我们的整个模型都是用上述损失以端到端的方式进行训练的。培训过程遵循第3.3.2节所述的交替培训程序。在训练过程中，在DMC生成器GDMC和下游动作分类器固定的情况下，训练D完整的训练目标是最小化对抗损失LL1273(a)CoViARAR+PWC-Net(b2)CoViRS][欧(c)DMC-NetAdvAdv63（b1）CoViAR+TV-L1Flow62616059580.1 1 10 100每帧推理时间（毫秒）91.59190.590（b1）CoViAR+TV-L1Flow(a)CoViARAR+PWC-Net(b2)CoViRS][欧(c)DMC-Net0.1 1 10 100每帧推理时间（毫秒）4948.54847.5（b1）CoViAR+TV-L1FlowViAR+PWC-Net(b2)Co(a)CoViAR（c）DMC-Net[我们的]0.1 1 10 100每帧推理时间（毫秒）(1) HMDB-51（2）UCF-101（3）Kinetics-n50图4：准确度与3个基准的速度。对UCF-101和HMDB-51的结果取3个部分的平均值。（b1）以及（b2）使用ResNet-18对流进行分类，以及（c）还使用ResNet-18对DMC进行分类。所提出的DMC-Net不仅只在压缩域中操作，而且能够实现比（a）更高的精度，同时比使用光流的方法快两个数量级蓝色区域表示从（a）到（b1）的改进空间DAdv在等式2中。在训练发电机GDMC期间，152分类器; MV和R使用ResNet-18分类器。为了-D是固定的，而DMC生成器GDMC和下-流动作分类器与以下要最小化的完整训练目标联合训练DMC-Net还使用ResNet-18进行分类，除非我们明确指出，否则整个论文中的DMC。为了允许DMC和Lcls+α·Lmse+λ·LG、（四）流，我们也选择帧级ResNet-18分类器作为图2b所示的流CNN。[54 ]第54话被人其中Lmse由等式1给出，其中，α、λ是平衡权重。(d) 推理由Equa提供，跟踪光流，以指导我们的DMC网络的训练。所有视频的大小都调整为340×256。随机裁剪224×224和随机翻转用于数据扩充。更多细节见补充材料。如图3所示，尽管有三个损失端到端联合训练，但我们的DMC网络在推理过程中实际上非常有效：基本上首先生成器输出DMC，然后将生成的DMC输入分类网络进行动作类预测。我们在4.4节中比较了我们的推理速度与其他方法。4. 实验在本节中，我们首先详细介绍了我们的实验装置，对我们的模型进行了定量分析，最后与最先进的方法进行了比较。4.1. 数据集和评估UCF-101 [41].该数据集包含来自101个动作类别的13，320个视频，以及3个公共训练/测试分割。HMDB-51[21].该数据集包含来自51个动作类别的6，766个视频，以及3个公共训练/测试分割。动力学-N50。从原始的Kinetics-400数据集[4]，我们在本文中构建了一个称为Kinetics-n50的子集。我们保留了所有400个类别。对于每个类，我们从原始训练集中随机抽取30个视频作为我们的训练视频，并从原始验证集中随机抽取20个视频我们在补充材料中对全套进行评估。评估方案。上述数据集中的所有视频都具有多个类别中的单个动作标签因此，我们评估前1个视频级别的类预测精度。4.2. 实现细节训练对于I、MV和R，我们遵循与CoViAR [52]中使用的完全相同请注意，我使用ResNet-试验.对于I，MV和R，我们遵循与CoViAR [ 52 ]中完全相同的设置：每个视频均匀采样25帧;每个采样帧具有5个利用翻转增强的裁剪;所有250（25×2×5）个分数预测被平均以获得一个视频级预测。对于DMC，我们遵循相同的设置，除了我们不使用裁剪和翻转，这显示了相当的精度，但需要更少的计算。最后，我们遵循CoViAR [52]，通过融合来自所有模态的预测评分（即，I、MV、R和DMC）。4.3. 模型分析与CoViAR相比，DMC-Net可以提高多少增益？图4报告了所有三个数据集的准确性CoViAR + TV-L1和CoViAR + PWC-Net遵循双流方法，以包括由TV-L1计算的光流流[55]和PWC-Net [42]。由于TV-L1流被用来指导DMC-Net的训练，因此CoViAR + TV-L1可以被视为我们提高精度的上界。通过只引入一个轻量级的DMC生成器，我们的DMC-Net显着提高了CoViAR的准确性，以接近CoViAR + Flow。图5显示，生成的DMC具有更少的噪声信号，例如背景区域中的噪声信号，并且DMC捕获运动边界的精细和清晰的细节，从而导致精度优于CoViAR。每项拟议损失的有效性如何？在HMDB- 51上，当仅使用分类损失时，DMC-Net的准确率为60.5%;当采用分类损失和流量重构损失时，准确率提高到61.5%;当进一步包括对抗训练损失时，DMC-Net最终达到61.8%的准确率。就像-准确度（%）准确度（%）准确度（%）L1274（a）RGB图像（b）光流（c）运动矢量(d)残余（e）我们的公契（无广告）（f）我们的公契（a）RGB图像（b）光流（c）运动矢量(d)残余（e）我们的公契（无广告）（f）我们的公契发生器发电机+Cls.时间（ms）/FPS时间（ms）/FPS[第51话]1449.2 /0.71449.5 /0.7[第17话]220.8 /4.5221.0 /4.5TVNet [9]83.3/12.083.5/12.0PWC-Net [42]28.6/35.028.8/34.8DMC-Net [我们的]0.1/9433.90.3/3333.3（b）DMC-Net与流量估算方法(a) DMC-Net与双流法和CoViAR表3：每帧推理速度的比较（a）将我们的DMC网络与双流方法[18，14]和CoViAR方法[52]进行比较。我们考虑顺序和并发转发多个CNN的两种情况，分别用S和C表示。我们使用我们自己的实现来测量CoViAR4.4和数字与[52]中报告的数字相当（b）将我们的DMC-Net与基于深度网络的光学流估计和运动表示学习方法，其编号引自[9]。DMC-Net中的CNN同时转发所有网络都将批处理大小设置为1。对于分类器（表示为Cls.），所有方法都使用ResNet-18。图5：Cartwheel示例（上图）和PlayingTabla示例（下图）。一行中的所有图像对应于同一帧。对于侧手翻的例子，这些背景中的噪声块（用两个红色圆圈突出显示）在我们的DMC中被减少了。对于PlayingTabla示例，我们的DMC在训练期间比我们的DMC w/o对抗性损失表现出手部周围更清晰和更有区别的运动线索（由红色圆圈突出显示）。更好地看到颜色。由先前文献[19]指出，使用对抗性损失而没有重建损失通常引入伪影。4.4. 推理速度在[52]之后，我们测量了平均每帧运行时间，其中包括数据预处理时间对于CNN前向传递，顺序地和并发地转发多个CNN的场景都被考虑。详细结果见表3（a）。双流法的结果引自[52]。由于需要将压缩视频解码成RGB帧，然后计算光流，因此其预处理时间比基于压缩视频的方法长得多。DMC-Net接受与CoViAR相同的输入，因此CoViAR和DMC-Net具有相同的预处理时间。至于CNN的报道--使用基于压缩视频的方法的时间，我们使用与第4.2节中所述完全相同的实现和相同的实验设置来测量CoViAR和DMC-Net：我们使用一个NVIDIA GeForceGTX 1080 Ti，并将每个CNN的批量大小设置为1，而在实践中，速度可以进一步提高，以利用更大的批量大小。尽管在CoViAR上增加了很少的计算开销，但DMC-Net仍然比传统的双流方法快得多。Deepflow[51]，Flownet[17]和PWC-Net[42]已经提出通过使用深度网络来加速光流估计。TVNet[9]被提出来以更快的速度生成比流更好的运动表示这些估计的流或生成的运动表示可以取代双流方法中使用的光流，以通过CNN进行分类。我们把这些冰毒-双流法(RGB+流量）压缩视频为基础的方法BN-inceptionResNet152CoViARDMC-Net [我们的]预处理75.075.00.460.46时间（ms）美国有线电视新闻网（S）共计（南）1.676.67.582.50.591.050.891.35CNN（C）0.94.00.220.301275HMDB-51UCF-101压缩视频方法[56]第五十六话51.2（拆分1）86.4[57]第五十七话55.387.5[52]第五十二话59.190.4DMC-Net（ResNet-18）[我们的]62.890.9DMC-Net（I3 D）[我们的]71.892.3基于解码视频的方法（仅RGB）帧级分类ResNet-50 [14]48.982.3ResNet-152 [14]46.783.4运动表征学习[30]第二届中国国际汽车工业展览会42.671.0[30]第三十话56.483.9PWC-Net（ResNet-18）+ CoViAR [42]62.290.6TVNet [9]71.094.5时空建模C3D [44]51.682.3Res3D [45]54.985.8[第48话]70.994.3MF-Net [6]74.696.0S3D [53]75.996.8I3D RGB [4]74.895.6I3 D RGB + DMC-Net（I3 D）[我们的]77.896.5基于解码视频的方法（RGB + Flow）表4：对于基于最新技术的压缩视频的方法和基于解码视频的方法，在HMDB- 51和UCF-101上的所有三个分割上的平均精度使用表3（b）中的ResNet-18分类器对ODS进行分类。我们可以看到，我们的DMC生成器比这些最先进的运动表示学习方法运行得更快。4.5. 与压缩视频方法的如表4的顶部所示，DMC-Net优于在压缩视频域中操作的所有其他方法，即。CoViAR[52]，EMV-CNN[56]和DTMV-CNN[57]。我们的方法优于像[56，57]这样的方法，即MV分类器的输出被训练为近似光流分类器的输出我们认为这是因为直接近似分类输出并不理想，因为它没有明确解决MV有噪声和低分辨率的问题。通过生成更具鉴别力的运动表示DMC，我们能够获得对于下游识别任务具有高度鉴别力的特征此外，我们的DMC网络可以与这些高容量的分类网络相结合，并以端到端的方式进行训练。DMC-Net（I3 D）将ResNet-18的分类器替换为I3 D，实现了更高的准确性，并超越了许多需要视频解码的方法。我们的补充材料讨论了I3D的速度。4.6. 与解码视频方法的在本节中，我们将DMC-Net与需要从压缩视频中解码所有RGB图像的方法进行有些只使用RGB图像，而另一些则采用双流方法[39]，并进一步要求计算流程。只有RGB。如表4所示，仅基于RGB图像的解码视频方法可以进一步分为三类。（1）帧级分类：ResNet-50和ResNet-152 [14]等2D CNN已经在[10]中进行了实验，以单独对每个帧进行分类，然后采用简单的平均来获得视频级预测。由于缺乏运动信息，帧级分类的性能不如DMC-Net。（2）运动表示学习：在表4中，我们评估PWC-Net（ResNet-18）+ CoViAR，其将估计的光流馈送到ResNet- 18分类器中，然后将预测与CoViAR融合。PWC-Net（ResNet-18）+ CoViAR的准确性不如DMC-Net，因为我们生成的DMC包含更多与MV互补的有区别的运动线索对于TVNet [9]，作者使用BN-Inception [18]对生成的运动表示进行分类，然后将预测与RGB CNN融合。TVNet的准确性比DMC-Net（ResNet-18）更好，这要归功于使用了强分类器，但比我们的DMC-Net（I3 D）差。（3）时空建模：也有很多工作使用CNN来对跨多个RGB帧的时空模式进行建模，以隐式地捕获运动模式。事实证明，我们的DMC网络发现了与这种时空模式互补的运动线索：I3D RGB + DMC-Net（I3 D）通过结合我们的DMC-Net（I3 D）的预测来改进I3 D RGB。RGB + Flow。如表4所示，最先进的准确性属于双流方法[20，46]，其结合了从RGB CNN和光流CNN进行的预测。但是，如4.4节所讨论的，提取光流是相当耗时的，因此这些双流方法比我们的DMC网络慢得多。5. 结论在本文中，我们介绍了DMC-Net，这是一种用于压缩视频域中视频动作识别的高效深度模型。在3个动作识别基准上的评估导致比先前工作在准确性上的实质性增益补充材料见[36]。6. 确认郑寿感谢魏家私人基金会在他在哥伦比亚大学期间对他的支持。双流[39]59.488.0双束聚变[11]65.492.5I3D [4]80.798.0R（2+1）D [46]78.797.31276引用[1] Hakan Bilen 、 Basura Fernando 、 Efstratios Gavves 和Andrea Vedaldi。基于动态图像网络的动作识别. IEEE关于模式分析和机器智能的交易，2018。3[2] 这是布鲁恩，约阿希姆·维克特和克里斯托夫·舍诺。Lucas/Kanade遇上Horn/Schunck：结合局部和全局光流方法。国际计算机视觉杂志，61（3）：211-231，2005。3[3] D. J. Butler，J. Wulff，G. B. Stanley和M. J.布莱克。一个自然的开放源代码电影光流评估。在A.菲茨吉本等人（编），编辑，欧洲会议关于计算机视觉（ECCV），第IV部分，LNCS 7577，第611-625页。Springer-Verlag，Oct. 2012. 3[4] Joao Carreira和Andrew Zisserman。你好，动作识别？新模型和动力学数据集。在CVPR，2017年。一、三、六、八[5] Yu-Wei Chao ， Sudheendra Vijayanarasimhan ， BryanSey-bold ， David A Ross ， Jia Deng ， and RahulSukthankar.重新思考更快的r-cnn架构用于时间动作本地化。在IEEE计算机视觉和模式识别会议论文集，第1130-1139页，2018年。1[6] Yunpeng Chen，Yannis Kalatidis，Jianshu Li，ShichengYan，and Jianshi Feng.用于视频识别的多光纤网络。在ECCV，2018。8[7] J Lewis M Black D Sun，S Roth. 学习光流。在ECCV，2008年。3[8] Alexey Dosovitskiy、Philipp Fischer、Eddy Ilg、PhilipHausser、Caner Hazirbas、Vladimir Golkov、Patrick VanDer Smagt、Daniel Cremers和Thomas Brox。Flownet：使用卷积网络学习光流。在 IEEE InternationalConference on Computer Vision的Proceedings，第2758-2766页，2015年。3[9] 范立杰，黄文兵，甘创，龚伯庆，黄俊洲.用于视频理解的运动表示的端到端学习。在IEEE计算机视觉和模式识别会议论文集中，第6016-6025页，2018年。三、七、八[10] Christoph Feichtenhofer ， Axel Pinz ， and Richard PWildes.用于视频动作识别的时空倍增器网络。2017年8[11] ChristophFeichtenhofer、AxelPinz和AndrewZisserman。卷积双流网络融合视频动作识别。IEEE计算机视觉与模式识别会议论文集，2016年。8[12] Ruohan Gao ， Bo Xiong ， and Kristen Grauman.Im2flow：用于动作识别的静态图像的运动幻觉。在CVPR，2018年。三、五[13] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。在NIPS，2014。二、五[14] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在CVPR，2016年。四、七、八[15] Berthold KP Horn和Brian G Schunck。确定光学流。Artificial intelligence，17（1-3）：185-203，1981. 3[16] Gao Huang，Zhuang Liu，Laurens Van Der Maaten，andKilian Q Weinberger.密集连接的卷积网络。在CVPR，2017年。4[17] Eddy Ilg 、 Nikolaus Mayer 、 Tonmoy Saikia 、 MargretKeu- per、Alexey Dosovitskiy和Thomas Brox。流动网络2.0：利用深度网络的光流估计的演进。在IEEE计算机视觉和模式识别会议，第2卷，第6页，2017年。三、七[18] Sergey Ioffe和Christian Szegedy。批次标准化：通过减少内部协变量偏移来加速深度网络训练。ICML ，2015。七、八[19] Phillip Isola，Jun-Yan Zhu，Tinghui Zhou，and Alexei AEfros.使用条件对抗网络的图像到图像翻译。arXiv预印本，2017年。7[20] Will Kay ， Joao Carreira ， Karen Simonyan ， BrianZhang，Chloe Hillier，Sudheendra Vijayanarasimhan，

下载后可阅读完整内容，剩余1页未读，立即下载