3D通道分离卷积网络简化视频分类网络的高计算成本和提高准确性

19 浏览量更新于2023-10-13 收藏 629KB PDF 举报

视频分类

计算成本

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1基于通道分离卷积网络Du Tran Heng Wang Lorenzo Torresani Matt Feiszli Facebook AI{trandu，hengwang，torresani，mdf}@ fb.com摘要组卷积已被证明可以在各种2D卷积架构中为图像分类提供巨大的人们自然会问：1）群卷积是否有助于减轻视频分类网络的高计算成本; 2）3D组卷积网络中哪些因素最重要;以及3）3D群卷积网络的良好计算/精度权衡是什么。本文研究了3D群卷积网络在视频分类中不同设计选择的效果。我们经验性地证明了通道交互的数量在3D组卷积网络的准确性中起着重要作用。我们的实验提出了两个主要发现。首先，通过分离通道相互作用和时空相互作用来分解3D卷积是一个很好的做法，因为这会提高精度并降低计算成本。第二，3D通道分离卷积提供了一种形式的正则化，与3D卷积相比，训练精度较低，但测试精度较高。这两个实证研究结果引导我们设计一个架构-离散卷积网络（CSN）-这是简单的，有效的，但准确的在Sports 1 M和Kinetics上，我们的CSN可与最先进的产品媲美或更好，同时效率提高2-3倍。1. 介绍视频分类在近几年取得了很大的进展。大部分的精度增益来自于新的强大架构的引入[3，30，23，37，35]。然而，许多这些架构是建立在昂贵的3D时空卷积。此外，这些卷积通常在每个层中的所有通道上计算 3D CNN具有复杂性O（CTHW），而不是2D CNN的O（CHW）的成本，其中T表示帧的数量，H，W空间维度和C是通道的数量。出于基础和实际的原因，很自然地会问这些大的4D内核中的参数最重要。核因子分解已被应用于几个集合，以减少计算量和提高精度。例如，几种最近的视频架构在空间和时间上考虑3D卷积：实例包括P3D [23]、R（2+1）D [30]和S3D [37]。在这些架构中，3D卷积被2D卷积（在空间上）替换，随后是1D卷积（在时间上）。可以利用这种分解来提高准确性和/或减少计算在静止图像域中，可分离卷积[7]用于将2D k ×k滤波器的卷积分解为逐点1 × 1卷积，然后是深度k× k卷积。当通道数大于k2时（通常是这种情况），这会使图像的FLOP减少10k2对于3D视频内核的情况下，FLOP的减少甚至更显着：受图像分类中2D可分离卷积所展示的准确性增益和良好的计算节省的启发[7，17，39]，本文提出了一套视频分类的体系结构-网络（CSN）-其中所有卷积运算都被分成逐点1×1×1或逐点3×3×3卷积。我们的实验揭示了通道相互作用在CSN设计中的重要性。按面值-特别地，我们表明，只要保持信道交互的高值，就可以通过利用信道分离来减少FLOP和参数，从而使用CSN获得优异的精度/计算我们提出了两个分解，我们称之为互动减少和互动保存。与3D CNN相比，当有足够的通道交互时，交互减少和交互保留的CSN提供更高的精度和大约2.5-3倍的FLOP节省。我们的实验表明，在CSN的信道分解作为一个正则化器，导致更高的训练误差但更好的泛化。最后，我们表明，我们提出的CSN的表现优于或相当于目前最先进的方法Sports 1 M和动力学，同时是2-3倍的速度。555255532. 相关工作组卷积。AlexNet [20]中采用了组卷积作为克服GPU内存限制的一种方法。依赖卷积在Mo- bileNet [17]中被引入，作为优化模型大小和COM的尝试。输入通道输出通道a）conv b）group conv c）depth conv移动应用程序的计算成本。Chollet [7]基于2D深度卷积构建了一个极端版本的Inception [28]，名为Xception，其中Inception块被重新设计为包含多个可分离的卷积。同时，Xie等人通过为ResNet [16]瓶颈块配备分组卷积提出了ResNeXt [36]。还针对移动应用进行了进一步的架构改进。ShuffleNet [39]进一步降低了使用depth和组卷积的瓶颈块的计算成本。MobileNetV 2 [25]改进了MobileNet [17]，从VGG风格切换到ResNet风格的网络，并引入了所有这些架构都基于2D CNN，并应用于图像分类，而我们的工作重点是用于视频分类的3D组CNN。视频分类。在过去的几年里，视频类-Fification已经看到了一个重大的范式转变，其中涉及从手工设计的特征[21，8，24，31]转向学习特征并进行端到端分类的深度网络方法[29，18，26，11，33，34，12]。通过引入大规模视频数据集[18，19]和大规模并行计算硬件，即，GPU。Carreira和Zisserman [3]最近提出将在图像上预先训练的2D卷积网络扩展到3D，用于视频分类。Wang等人 [35]提出了非局部神经网络来捕获视频中的长期依赖性。ARTNet [32]将空间和时间建模解耦为两个并行分支。类似地，3D卷积也可以分解为P3D [23]中的伪3D卷积块或R（2+1）D [30]或S3D [37]中的3D组卷积也应用于ResNeXt [15]和多光纤网络[5]（MFNet）中的视频分类在以前的方法，我们的工作是最密切相关的以下架构。首先，我们的CSN在使用通道分离卷积的想法上与Xception [7]类似。Xception分解通道和空间中的2D卷积用于对象分类，而我们的CSN分解通道和时空中的3D卷积用于动作识别。此外，Xception使用简单块，而我们的CSN使用瓶颈块。我们模型的变体ir-CSN与ResNeXt [36]及其3D版本[15]在使用瓶颈块方面具有相似性，组/依赖卷积。主要区别在于ResNext [36，15]在其3×3×3层中使用组卷积，具有固定的组大小（例如，g=32 ），而我们的 ir-CSN 在所有 3×3×3 层中使用dependency卷积，这使得我们的架构完全通道分离。正如我们将图1.组卷积。卷积滤波器可以是部分-被分成组，每个滤波器仅从其组内的通道接收输入。(a)一种传统的卷积，它只有一个组。(b)2组的组卷积。(c)组的数量与输入/输出滤波器的数量匹配的深度卷积，即，每个组仅包含一个信道。如4.2节所示，使我们网络完全通道分离不仅有助于减少大量的计算，而且还可以通过更好的正则化来提高模型的准确性我们强调，我们的贡献不仅包括CSN架构的设计，但也是一个系统的实证研究的作用，渠道的相互作用的CSN的准确3. 通道分离卷积网络在本节中，我们讨论3D通道分离网络的概念。由于通道分离网络使用群卷积作为其主要构建模块，因此我们首先提供有关群卷积的一些背景知识。3.1. 背景组卷积。传统的卷积是用密集连接来实现的，即，如图1（a）所示，每个卷积滤波器从其前一层的所有通道接收输入然而，为了降低计算成本和模型大小，可以通过将卷积滤波器分组为子集来稀疏化子集中的滤波器仅从其组内的通道接收信号（见图1（b））。依赖卷积是组卷积的极端版本，其中组的数量等于输入和输出通道的数量（见图1（c））。Xception [7]和MobileNet [17]是最早使用深度卷积的网络之一。图1呈现了针对4个输入通道和4个输出通道的情况的常规、组和深度卷积层的图示。计算FLOP、参数和交互。将常规卷积滤波器划分为G组可将计算和参数计数减少G倍。这些减少发生，因为每个过滤器在一个组中接收输入，把从只有一小部分1/G的通道从前一层。换句话说，通道分组限制了功能交互：只有组内的信道可以相互作用。如果多个组卷积层堆叠在一起，直接在彼此之上，这种特征隔离进一步55542因为每个声道变成所有先前层中的小声道子集的函数，所以放大。因此，虽然组卷积节省了计算和参数，但它也减少了特征交互。我们建议量化的数量的通道interrac-灰的数量对两个输入通道，通过任何输出滤波器连接。如果卷积层具有Cin通道和G组，则每个滤波器连接到Cin/G输入通道。因此，每个过滤器将.Cin具有G 个相互作用的特征对。根据这一定义，在图1（a）-（c）中的示例卷积将具有分别为24、4和0通道交互对考虑具有大小为k×k×k的时空卷积滤波器和G个组、C 个输入通道和C 个输出通道的3D卷积层。假设THW是时空张量中的体素的总数，作为层的输入然后，参数的数量、FLOP（浮点运算）和通道交互的数量可以被测量为：#参数=C输出·C输入·k3（1）G浮点数=C输出·C输入·k3·THW（2）G.Cin和一个通道尺寸。我们注意到，在 Xception [7]和MobileNet [17]中已经提出了用于图像分类的通道分离网络在视频分类中，分离卷积已用于P3D [23]、R（2+1）D [30]和S3D [37]，但将3D卷积分解为分离的时间和空间卷积。在这项工作中提出的网络架构的目的是从时空相互作用分离通道的相互作用。3.3. 示例：通道分离瓶颈块图2给出了使用通道分离卷积网络分解3D瓶颈块的两种方法。图2（a）呈现了标准3D瓶颈块，而图2（b）和2（c）分别呈现了交互保留互作用保持通道分离的瓶颈块是从标准瓶颈块获得的（图2（a），将（a）中的3×3×3卷积替换为1×1×1传统卷积和3×3×3深度卷积（如图2（b）所示）。该模块减少了传统3×3×3卷积器的参数和浮点数#交互=Cout·G2（三）显著地，但保留所有通道交互通过新增加的1×1×1卷积。我们称之为记得. nΣ2=n（n−1）2.n=0Σ.我们注意到虽然交互保持通道分离瓶颈块而最终的架构是一个交互保留的FLOP和参数数通常用于在描述一个层的特性时，通道相互作用的“量”通常被忽略。我们的研究将揭示这一因素的重要性。3.2.信道分离我们将通道分离卷积网络（ CSN ）定义为 3DCNN，其中所有卷积层（除了conv1）都是1×1×1常规卷积层，解或k×k×k次卷积（其中，cally，k=3）。传统的卷积网络对信道交互和局部交互（即，空间或时空）联合地在它们的3D卷积中。相反，通道分离网络将这两种类型的交互分解为两个不同的层：通道交互的1×1×1常规卷积（但无局部卷积）相互作用）和局部时空相互作用（但不是通道相互作用）的k×k×kdependencyconvolutions。信道分离可以应用于任何k×k×k传统卷积，将其分解为1×1×1卷积和去卷积k×k×k卷积。我们引入术语渠道互动的重要性;我们还指出，现有的术语“深度可分”只是一个很好的描述时，适用于张量与两个空间维-信道分离网络（IP-CSN）。减少相互作用通道分离的通过去除额外的1×1×1卷积，从保留的瓶颈块中得到瓶颈块。这产生图2（c）中所示的深度方向瓶颈块。请注意，初始和最终的1×1×1卷积（通常分别解释为投影到低维子空间，然后投射回原始维度）现在是信道交互的唯一机制。这意味着，(c)与（a）或（b）中所示的那些相比，具有减少的通道交互数量我们称这种设计为一个互动减少通道分离的瓶颈块和由此产生的架构的互动减少通道分离的网络（ir-CSN）。3.4. 卷积块中的信道交互第3.3节中的交互保留和交互减少块只是大频谱中的两个架构。在这一小节中，我们提出了一些卷积区组设计，它们是通过逐渐增加分组数而得到的块在计算成本，参数计数，更重要的是，通道交互方面有所不同。应用于ResNet块的组卷积。图3（a）5555a)b）c）a) 瓶颈b) 克-Gc）D-D（d）DECHECK-DG图2. 标准与信道分离卷积块。（a）标准ResNet瓶颈块。(b)一个保留交互作用的瓶颈块：瓶颈块，其中（a）中的3×3×3卷积被替换为1×1×1标准卷积和3×3×3深度卷积（如虚线框所示）。(c)一个减少相互作用的瓶颈块，一个瓶颈块，其中（a）中的3×3×3卷积被替换为一个去卷积（如虚线框所示）。我们注意到，通过1×1×1卷积，（b）中的通道相互作用被保留，而（c）在分解后，在其3×3×3卷积中失去了所有的通道相互作用。在每个卷积层之后使用批范数和ReLU为了简单起见，我们省略了跳过连接。1x1x13x3x33x3x3（gc）3x3x3（dw）3x3x33x3x3（gc）3x3x3（dw）a）简单B ）simple-Gc）简单-D图3. ResNet简单块由群卷积转换。(a)简单块：一个标准的ResNet简单块，有两个3×3×3卷积层。(b)Simple-G阻滞：ResNet简单块，具有两个3×3×3组卷积层。(c)简单-D块：一个ResNet简单块，具有两个3×3×3深度卷积层，当需要增加过滤器数量时，添加一个可选的1×1×1卷积层（如虚线框所示）。在每个卷积层之后使用批范数和ReLU。为了简单起见，我们省略了跳过连接。提出了一个由两个3×3×3卷积层组成的ResNet [16]简单图3（b）显示了简单的- G块，其中3×3×3层现在使用分组卷积。同样，图3（c）呈现了简单D，其中两个令人沮丧的层。由于深度卷积需要相同数量的输入和输出通道，我们可以选择在改变通道数量的块中添加1×1×1卷积层（如虚线矩形所图4（a）显示了一个ResNet瓶颈块，由两个1×1×1和一个3×3×3卷积层组成。图4（b-c）分别呈现了3×3×3卷积分组和深度方向的瓶颈G和瓶颈D。如果我们进一步对两个1×1×1卷积层应用群卷积，则块变为图4. ResNet瓶颈块由群卷积转换。(a)标准ResNet瓶颈块。(b)瓶颈- G：ResNet瓶颈块，具有3×3×3组卷积层。(c)瓶颈-D：具有3×3×3深度卷积的瓶颈块（先前命名为ir-CSN，为了简单和与其他块类比，这里使用Bottleneck-D的新名称）。(d)瓶颈-DG：一个ResNet瓶颈块，有一个3×3×3的dependency卷积和两个1×1×1的群卷积。我们注意到，从（a）到（d），我们逐渐将组卷积应用于3×3×3卷积层，然后应用于两个1×1×1卷积层。在每个卷积层之后使用批范数和ReLU。为了简单起见，在图示中我们省略了示出跳过连接。a.如图4（d）所示的一个双校验DG。在所有情况下，3×3×3卷积层始终具有相同数量的输入和输出通道。这里有一些与现有建筑的刻意类比。首先，bottleneck-G （图4 （b ））正是 ResNeXt 块 [36]，而bottleneck-D 是其深度变体。 Bottleneck-DG （图 4（d））类似于Shuf-fleNet块[39]，没有通道混洗，也没有通过平均池化和级联进行的下采样投影。从simple到simple-D的过程类似于从ResNet到Xception（尽管Xcep-有更多的1×1×1卷积）。我们省略了某些特定于体系结构的特性，以便更好地理解分组和渠道互动的作用。4. 消融实验这项实证研究将使我们能够对对影响信道分离网络性能的重要因素进行了研究，并得出了两个主要结论：1. 我们将通过经验证明，在我们考虑的架构家族中，类似的深度和类似的通道交互量意味着类似的准确性。特别地，交互保留块显著地减少了计算，但保留了通道交互，对于浅网络仅具有轻微的准确性损失，并且对于更深的网络具有增加的准确性。2. 在传统的3×3×3卷积中，所有特征映射都相互作用。对于更深层次的网络，我们显示1x1x13x3x3（dw）1x1x13x3x3（dw）1x1x11x1x11x1x11x1x11x1x1（gc）1x1x11x1x11x1x13x3x3（dw）3x3x3（dw）3x3x3（gc）3x3x31x1x1（gc）1x1x11x1x11x1x11x1x13x3x355568图层名称输出大小ResNet3D-simpleResNet3D瓶颈conv1型号：T×112×1123×7×7，64，步幅1×2×2pool1T×56×56最大，1×3×3，步幅1×2×2conv2 xT×56×56Σ Σ3×3×3，64×b3×3×3，6411×1×1，2563×3×3，641×1×1，256Σ Σ3×3×3，128×b3×3×3，12821×1×1，512conv3 xT×28×2823×3×3，1281×1×1，512Σ Σ3×3×3，256×b3×3×3，25631×1×1，1024conv4 xT×14×1443×3×3，2561×1×1，1024Σ Σ3×3×3，512×b3×3×3，51241×1×1，2048conv5 xT×7×783×3×3，5121×1×1，2048pool51×1×1时空平均池，具有softmax表1. 在我们的实验中考虑ResNet3D架构。卷积残差块在括号中示出，紧挨着每个块在堆栈中重复的次数过滤器和输出的尺寸是时间、高度和宽度，按照这个顺序 b1，…4是分别在conv2 x、conv3 x、conv4 x、conv5 x处实现的块的数量。卷积的一系列高潮与全球时空池层，产生一个512或2048维的特征向量。该向量被馈送到通过softmax输出类概率的全连接层。这会导致过度拟合。4.1. 实验装置数据集。我们在本节中使用Kinetics-400 [19]进行消融实验。Kinetics是视频中动作识别的标准基准。它包含大约260K的视频，包含400个不同的人类动作类别。我们使用训练分割（240K视频）进行训练，使用验证分割（20K视频）评估不同的模型。基础架构。我们使用ResNet3D（如表1所示）作为本节大多数消融实验的基础架构。更具体地说，我们的模型采用大小为T×224×224的剪辑，其中T=8是数字，帧的BER 224是裁剪帧的高度和宽度。两个空间下采样层（1×2×2）是ap-1。在 conv1 和 pool1 处应用，并且经由卷积步幅在conv31、conv41和conv51处应用三个时空下采样（2×2×2）将内核大小为T×7×7的全局时空平均池应用于最终的卷积张量，然后是一个完全的连接（FC）层执行最终分类。数据扩充。我们使用空间和时间抖动增强。具体地，视频帧是缩放以使帧的较短边缘变为同时我们保持帧的原始长宽比。在训练期间，s在256和320之间均匀采样。然后通过随机裁剪大小为224×224的窗口来生成每个剪辑。在训练期间还通过随机选择起始帧并解码来应用时间抖动。T型框架。对于本节中的消融实验，我们通过每隔一帧跳过8帧（T=8）的剪辑来训练和评估模型（所有视频都被预处理为30 fps，因此新形成的剪辑实际上是15fps）。训练我们使用caffe2 [2]（16台机器，每台机器有4个GPU）在GPU集群上用同步分布的SGD我们使用一个小批量的8个剪辑每个GPU，因此总共制作了512个剪辑的小批量。福尔-在[30]中，由于时间限制抖动增强，即使训练示例的数量仅为约240K。训练在45个epoch中完成，我们在前10个epoch中使用模型预热[14]，其余35个epoch将遵循半余弦周期学习率计划[10]。初始学习率设置为0。01per GPU（相当于0. 64个GPU）。试验. 我们报告剪辑前1位的准确性和视频前1位的准确性。对于视频top-1，我们使用从视频中均匀采样的10个剪辑的中心裁剪，并对这10个剪辑预测进行平均，以获得最终的视频预测。4.2. 减少FLOPs，保持交互在这种消融中，我们使用CSN来改变FLOP和通道相互作用。在这个体系结构家族中，通道交互是性能的良好预测器，而FLOP则不是。特别是，FLOP可以显着减少，同时保留交互计数。表2呈现了我们的交互减少的CSN（ir-CSN）和交互保留的CSN（ip-CSN）的结果在浅网络设置（具有26层）中，ir-CSN和ip-CSN两者具有比ResNet 3D更低的准确性。ir-CSN提供了3.6倍的计算节省，但导致2. 准确度下降9%。ip-CSN在精度下降小得多的情况下节省了2.9倍的FLOP（0. 7%）。我们注意到，所有浅模型都具有非常低的信道交互计数：ResNet 3D和ip-CSN拥有约0. 42千兆对（0。42×109对），而ir-CSN只有0. 27千兆对（约为原始的64%）。这一观察表明ResNet 3D的浅实例受益于它们的额外参数，但是信道交互的保留减少了ip-CSN的间隙。相反，在更深的环境中，ir-CSN和ip-CSN的性能都优于ResNet 3D（约为0. 九比一4%）。此外，ir-CSN和ip-CSN之间的精度差距也变得更小。我们将这种差距缩小归因于在50层和101层结构中，ir-CSN与ip-CSN具有几乎相同数量的通道相互作用，因为大多数相互作用源于1×1×1层。人们可以假设ip-CSN优于ResNet 3D和ir-CSN，因为它具有更多的非线性（ReLU）。到为了回答这个问题，我们在1×1×1和3×3×3层之间训练了没有ReLU的ip-CSN，我们观察到555710.90.80.70.60.50.40.30.20 1020时代30 40 50表2. 独立网络与ResNet3D。在26层结构中，ir-CSN的精度为2。比ResNet3D基线低9%但是ip-CSN保留了通道交互，几乎与基线持平（下降仅为0。7%）。在50层和101层配置中，ir-CSN 和 ip-CSN 都优于 ResNet 3D ，同时降低了参数和FLOP。ip-CSN始终优于ir-CSN。准确度无显著差异。我们可以得出结论，传统的3×3×3卷积包含许多参数，这些参数可以在更深的模型中被删除而不会造成精度损失。接下来我们将对此进行进一步调查。我们还在ir-CSN-50中试验了3D滤波器的时空分解[23，30，37]。该模型在动力学验证上获得69.7%（与vanilla ir-CSN-50的70.3%），同时需要更多的内存，并具有与ir-CSN大致相同的GFLOP。小的准确度下降可能是由于CSN 3D滤波器已经被信道因子分解并且空间-时间分解可能限制其已经约束的建模能力。4.3. 是什么让CSN超越ResNet3D？在第4.2节中，我们发现当有足够的通道交互时，ir-CSN和ip-CSN的性能都优于ResNet 3D基线，同时具有更少的参数并大大降低了FLOP。人们自然会问：是什么让CSN更准确？图5提供了一个有用的见解来回答这个问题。该图显示了ip-CSN和ResNet 3D的训练误差的演变，两者都具有101层。与ResNet 3D相比，ip-CSN的训练误差更高，但测试误差更低（参见验证精度图5. 训练误差作为Kinetics上ip-CSN-101和ResNet 3D-101的训练迭代的函数。ip-CSN具有较高的训练误差，但较低的测试误差（比较表2中的验证精度）。这表明通道分离提供了有益的正则化，从而对抗过拟合。模型块config名称ResNet3D-18简单[2，2，2，2]简单-8ResNet3D-50瓶颈[三、四、六、三]瓶颈-16表3. 命名约定。我们通过块名称后跟块的总数来命名架构（参见最后一列）。此表中只给出了两个块名称。更多模块见第3.4节。为了简化介绍，我们按块类型（如3.4节所示）和块的总数来命名每个体系结构，如表3的最后一列所示。图6显示了我们对回旋阻滞进行消融的结果。它显示了Kinetics验证集上的视频top-1准确度与模型计算成本（# FLOPs）。我们注意到，在这个实验中，我们使用我们的基础架构，有两个不同数量的块（8和16），只是改变卷积块的类型和组的数量来研究权衡。图6（a）显示了我们使用简单X-8和瓶颈X-8架构的消融实验（其中X可以是无、G或D，甚至在瓶颈块的情况下是DG）。类似地，图6（b）显示了我们使用simple-X-16和Schleck-X-16架构的烧蚀实验。我们可以观察到组卷积变换的计算/精度影响从右到左读取每条曲线（即，在递减精度中），我们看到从简单块到简单G的简单X变换（随着组的数量增加），如表2所示）。这表明，渠道分离-CSN中的作用是正则化模型并防止过拟合。4.4. 群卷积网络中不同块的影响在这里，我们从我们的基础架构（如表1所示）开始，然后用第3.4节中提供的卷积块进行消融替换。我们再次发现，渠道互动在理解结果中起着至关重要的作用。命名约定。由于本节中的消融将考虑几个不同的卷积块，然后到简单D块。对于Beck-X，从右到左阅读显示瓶颈块，然后转换为瓶颈- G（具有增加的组），Beck-D，然后最终转换为Beck-DG（再次具有增加的组）。虽然随着我们减少参数和FLOP，总体下降趋势是预期的simple-X models平滑地降级，而bottleneck-X在急剧下降之前保持相对平坦（特别是bottleneck-16，实际上随着我们降低FLOP而略有增加为了更好地了解不同的行为，ResNet 3D-101列车ip-CSN-101列车误差模型深度视频@1（%）FLOPs×109params×106相互作用×109ResNet3D2665.314.320.40.42ir-CSN2662.44.01.70.27ip-CSN2664.65.02.40.42ResNet3D5069.429.546.95.68ir-CSN5070.310.613.15.42ip-CSN5070.811.914.35.68ResNet3D10170.644.785.98.67ir-CSN10171.314.122.18.27ip-CSN10171.815.924.58.6755580.660.640.620.60.580.560.540.520.50.720.70.680.660.640.620.60.580.560.540.480 5 10 15 20250.520 5 10 15 20 25 30 35 40a)每片段的GFLOPsb）每片段的GFLOPs图6. 通过变换组卷积块来实现ResNet 3D精度/计算折衷。针对具有不同卷积块设计的ResNet 3D，Kinetics验证集上的视频top-1精度与计算成本（# FLOPs）。(a)组卷积变换应用于具有8个块的浅架构的简单和瓶颈块。(b)组卷积变换应用于具有16个块的深度架构的简单和瓶颈块。在所测试的区组设计中，Deck-D区组（标记为绿色开始）提供了最佳的精度折衷基础架构用黑色六芒星标记最好用彩色观看简单的X-Y和检查的X-Y模型（蓝色与图6中的红色曲线）以及D-D块转折点背后的原因（图6中的绿色开始标记），我们根据另一种观点绘制所有这些模型的性能：准确度与通道交互（图7）。如图7所示，当群卷积应用于其3×3×3层时，简单X-Y模型（蓝色正方形和红色菱形）中的通道相互作用数量呈二次方下降。相比之下，Tick-X-Y模型（绿色圆圈和纯绿色圆圈）中的通道交互数量当组卷积应用于它们的3×3×3时，三角形）略微下降，因为它们仍然有许多1×1×1层（这可以在存在两个标记簇时看到）。75706560555045101102兆对103104红色圈出的部分：第一簇包括右上角附近的纯三角形，另一簇包括图中心附近的绿色圆圈）。Scheck-X-Y中的通道交互作用开始显著下降当组卷积应用于它们的1×1×1层时，导致模型精度急剧下降。这一事实前-很好地解释了为什么在简单的X-Y曲线中没有转折点，以及为什么在瓶颈X-Y曲线中有转折点。它还证实了信道交互在组卷积网络中的重要作用。瓶颈-D块（也称为ir-CSN）提供了最佳的计算/精度权衡。对于简单的块，增加组的数量会导致精度的持续下降。然而，在瓶颈块的情况下（即，当我们增加组的数量时，准确度曲线几乎保持平坦，直到到达D-D块，在该点处，当块变成D-D时（应用于1×1×1层的组卷积我们的结论是，一个beck-D块（或ir-CSN）给出了最好的com-在这个系列的ResNet风格的块中，由于其高通道交互计数，因此可以进行插值/精度权衡。图7. 精度与渠道互动。画出了基-不同模型相对于其通道交互总数的netics验证精度通道交互以对数尺度呈现，以便更好地查看。最好用彩色观看。5. 与最新技术水平的比较数据集。我们在Sports 1 M [18]和Kinetics-400 [19]上评估我们的CSN。Sports1M是一个大规模的动作识别数据集，包含来自487个运动动作类的110万个视频。对于Sports1M，我们使用数据集提供的公共训练和测试分割。对于Kinetics，我们使用训练分割进行训练，并使用验证集进行测试。训练从我们的消融实验中，我们用32帧剪辑输入（T=32）训练CSN，采样率为2（每隔一帧跳过一次），遵循[30]中描述的实践所有其他训练设置，如数据增强和优化参数，与我们上一节中描述的相同。试验.对于Sports1M，我们对每个视频统一采样10个剪辑，将较短的边缘缩放到256（保持宽高比），并且仅使用每个剪辑的224×224的中心裁剪进行推断。我们对这10种作物的softmax预测进行简易X-16X-16简易型简单-G简单-D瓶颈简易X-8X-8战斗机简单瓶颈D-DGSimple-X-16单芯-X-16单芯-X-16精度精度准确度（%）5559方法输入视频@1 视频@5GFLOPs×作物C3D [29]RGB61.185.2N/AP3D [23]RGB66.487.4N/A[38]第三十八话RGB+OF71.790.4N/AR（2+1）D[30]RGB73.091.5152×N/AR（2+1）D[30]RGB+OF73.391.9305×N/Air-CSN-101RGB74.892.656.5×10IP-CSN-101RGB74.992.663.6×10ir-CSN-152RGB75.592.774.0×10IP-CSN-152RGB75.592.883.3×10表4. 与Sports1M上最先进的架构进行比较。我们的CSN具有101或152层，性能优于所有以前的模型，具有良好的利润率，同时速度快2- 4倍用于视频预测。在动力学方面，由于[35]中的30种作物评估被广泛采用，因此我们遵循此设置，以便与以前的方法进行公平比较。体育1M的结果表4将我们的CSN结果与Sports1M上先前方法的结果进行了比较。我们的ir-CSN-152和ip-CSN-152的性能优于C3 D [29] 14。4%，P3D [23] 9。1%，Conv Pool [38]乘以3。8%，R（2+1）D [30]为2。2%的视频top-1精度，同时比R（2+1）D快2- 4倍。我们的ir-CSN-101，即使有一个较小的FLOP数量，仍然优于所有的非线性工作的良好利润率。在像Sports 1 M这样的大规模基准测试中，ir-CSN和ip-CSN之间的差异非常小。 ir-CSN 的额外好处是它具有较小的GFLOP，特别是在通道交互数量与ip-CSN相似这与我们的消融观察结果一致。动力学的结果。我们在Kinetics上训练我们的CSN模型，并将其与当前最先进的方法进行比较。除了从头开始训练之外，我们还使用在Sports1M上预训练的模型初始化的权重来微调CSN。为了公平比较，我们将CSN与仅使用RGB作为输入的方法进行比较。表5给出了结果。我们的ip-CSN-152，即使从头开始训练，也优于所有以前的模型，除了SlowFast [10]。我们的ip-CSN-152，在Sports 1 M上预先训练，比I3 D [3]，R（2+1）D [30]和S3 D-G [37]高出8。1%，4. 9%，4。5%，分别。它也优于最近的工作：A2-Net [4] by 4.6%，全局推理网络[6]比3。百分之一。我们注意到，我们的ip-CSN- 152实现了比I3 D与非本地网络（NL）[35]和SlowFast [10]更高的准确性（+1）。5%和+0。3%），同时也更快（分别为3.3倍和2倍）。我们的ip-CSN-152还是0. 比使用非本地网络增强的SlowFast低6%最后，最近的工作[13]表明，R（2+1）D在大规模弱监督数据集上进行预训练时可以实现强大的性能。我们在相同的数据集上预训练/微调ir-CSN-152，并将其与R（2+1）D-152进行比较（表5的最后两行）。在这种大规模设置中，ir-CSN-152的性能优于R（2+1）D-152，表5. 与Kinetics上最先进的架构进行比较。在动力学验证集上测量准确度。为了公平评估，比较仅限于在RGB输入上训练的模型。我们的ir-CSN-152比以前的型号更好或相当，同时速度快了数倍* 模型杠杆老化大规模的预训练，因此无法与其他模型进行比较。1 .一、3%的视频top-1准确度，同时速度提高3.4倍。6. 结论我们已经提出了一种分解3D卷积的方法，即离散卷积网络（CSN）。提出的基于CSN的因子分解不仅有助于显着降低计算成本，而且在网络中存在足够的信道交互时提高了精度。我们提出的架构，ir-和ip-CSN，显著优于现有的方法，并在两个主要基准上获得最先进的精度：Sports 1 M和Kinetics该模型也比当前竞争网络快数倍。我们已经公开了代码和预训练模型[9]。鸣谢。我们感谢何开明和范浩奇的深入讨论，感谢范浩奇帮助我们改进培训框架。方法预训练 vi@1 vi@5GFLOPs×作物ResNeXt [15]没有一65.185.7N/A艺术培训网（d）[32]没有一69.288.324×250I3D [3]ImageNet71.189.3108×N/A[22]第二十二话ImageNet72.590.765×N/AMFNet [5]ImageNet72.890.411×N/AInception-ResNet[1]ImageNet73.090.9N/AD-34 [30]运动1M74.391.4152×N/A[4]第四届全国政协委员ImageNet74.691.541×N/AS3D-G [37]ImageNet74.793.471×N/AD3D [27]ImageNet75.9N/AN/AGloRe [6]ImageNet76.1N/A55×N/A[35]第三十五话ImageNet77.793.3359×30[第10话]没有一78.993.5213×30SlowFast+NL [10]没有一79.893.9234×30ir-CSN-101没有一76.292.273.8×30IP-CSN-101没有一76.792.383.0×30ir-CSN-152没有一76.892.596.7×30IP-CSN-152没有一77.892.8108.8×30ir-CSN-101运动1M78.193.473.8×30IP-CSN-101运动1M78.593.583.0×30ir-CSN-152运动1M79.093.596.7×30IP-CSN-152运动1M79.293.8108.8×305560引用[1] 边云龙、甘闯、刘晓、李富、向龙、李延东、齐恒、周杰、温石磊、林元庆.重新审视大规模视频分类的现成时间建模方法的有效性CoRR，abs/1708.03805，2017。8[2] Caffe2团队Caffe2：一个新的轻量级、模块化和可扩展的深度学习框架。https://caffe2.ai/网站。5[3] Joao Carreira和Andrew Zisserman。你好，动作识别？新模型和动力学数据集。在CVPR，2017年。一、二、八[4] Yunpeng Chen，Yannis Kalatidis，Jianshu Li，ShichengYan，and Jianshi Feng. A 2-nets：双重注意网络。在NeuIPS，第350-359页，2018年。8[5] Yunpeng Chen，Yannis Kalatidis，Jianshu Li，ShichengYan，and Jianshi Feng.用于视频识别的多光纤网络。在ECCV，2018。二、八[6] Yunpeng Chen ， Marcus Rohrbach ， Zhicheng Yan ，Shuicheng Yan，Jiashi Feng，and Yannis Kalantidis.基于图的全局推理网络。在CVPR，2

下载后可阅读完整内容，剩余1页未读，立即下载