没有合适的资源?快使用搜索试试~ 我知道了~
视频识别中的多纤维网络及其效率提升
用于视频识别的陈云鹏1,Yannis Kalantidis2,李建舒1,闫水成3,1,冯佳士11新加坡国立大学2Facebook研究3奇虎360 AI研究院{陈云鹏jianshu}@ u.nus.edu,yannisk@fb.com,{eleyans,elefjia}@ nus.edu.sg抽象。在本文中,我们的目标是降低时空深度神经网络的计算成本,使其运行速度与2D网络一样快,同时在视频识别基准测试中保持最先进的准确性。为此,我们提出了一种新颖的多纤维体系结构,它将复杂的神经网络切片成一个轻量级网络或纤维的集合,这些网络或纤维贯穿网络。为了促进光纤之间的信息流,我们进一步整合了多路复用器模块,最终得到了一种架构,该架构将3D网络的计算成本降低了一个数量级,同时提高了识别性能。大量的实验结果表明,我们的多纤维架构显着提高了现有卷积网络的图像和视频识别任务的效率,实现了最先进的性能UCF-101,HMDB-51和Ki- netics数据集。我们提出的模型所需的计算量分别比I3D [1]和R(2+1)D [2]模型少9倍和13倍,但精度更高。关键词:深度学习,神经网络,视频,分类,动作识别1介绍在深度卷积神经网络的帮助下,图像理解在过去几年中取得了显着的成功。值得注意的例子包括用于图像分类的残差网络[3],用于对象检测的FastRCNN [4]和用于语义分割的Deeplab [5]。然而,用于视频分析的深度神经网络的进展仍然落后于其图像同行,主要是由于额外的计算成本和时空输入的复杂性。视频的时间维度包含有价值的运动信息,需要纳入视频识别任务。时空推理的一种流行且有效的方法是在深度神经网络架构中使用时空或3D卷积[6,7]来学习视频表示。的3D2Y. Chen,Y. Kalantidis,J. Li,S. Yan和J. 冯卷积是2D(空间)卷积的扩展,其具有也沿着时间维度卷积的三维内核。3D卷积核可以用于通过简单地替换2D空间卷积核来构建3D CNN(卷积神经网络)。这使模型保持端到端可训练。最先进的视频理解模型,如Res3D [7]和I3D [1]以这种简单的方式构建其CNN模型。他们使用多层3D卷积来学习鲁棒的视频表示,并在多个数据集上实现最高精度,尽管计算开销很高。尽管最近的方法使用分解的3D卷积[2,8]或群卷积[9]来降低计算成本,但时空模型的使用仍然对实际的大规模应用是禁止的。 例如,常规的2D CNN需要大约10s GFLOP来处理单个帧,而3DCNN目前需要超过100GFLOP来处理单个剪辑4。我们认为,基于剪辑的模型应该能够在相同的计算成本下在视频识别任务中高度超越基于帧的模型,因为它具有额外的时空推理能力。在这项工作中,我们的目标是大幅提高3D CNN的效率,同时保持其在视频识别任务中的最新准确性。而不是像[2,8]中那样分解3D卷积滤波器,我们专注于3D CNN的计算开销的另一个本文提出了一种稀疏连接的多光纤网络结构,该结构中的每个单元实质上都是由多根光纤组成的轻量级3D卷积网络是如图1(c)所示的彼此独立的。因此,整个网络是稀疏连接的,并且计算成本降低了大约N倍,其中N是所使用的光纤的数量。为了改善光纤之间的信息流,我们进一步提出了一个轻量级的多路复用器模块,如果需要的话,在并行光纤之间重定向信息,并附加在每个残差块的头部。这样,以最小的计算开销,表示可以在多个纤维之间共享,并且模型的整体容量增加。我们的主要贡献可概括如下:1) 我们提出了一种高效的多光纤架构,通过评估其用于图像识别的2D卷积神经网络来验证其2) 我们将所提出的架构扩展到时空卷积网络,并提出了多光纤网络(MF-Net),用于学习鲁棒的视频表示,大大降低了计算成本,即。比目前最先进的3D模型小一个数量级。3) 我们在多个视频识别基准上评估了我们的多光纤网络,并在Kinetics,UCF-101和HMDB 51数据集上以几倍的低计算成本优于最近的相关方法。4 例如 ,流行 的ResNet-152 [3] 和VGG-16 [10] 模型 分别需要11 GFLOP和 15GFLOP来处理帧,而I3 D [1]和R(2+1)D-34 [2]分别需要108 GFLOP和152GFLOP。多光纤网络32相关工作在视频模型方面,最成功的方法利用了深度学习,可以分为两大类:基于空间或2D卷积的模型以及合并了时空或3D卷积的模型。采用基于2D CNN的方法的主要优点是它们的计算效率。这类最成功的方法之一是双流网络[13]架构。它由两个2D CNN组成,一个处理帧,另一个处理光流。在最后阶段融合了两种模式的特征,获得了较高的视频识别准确率。多种方法已经扩展或合并了双流模型[14在最近一种非常有趣的方法中,CoViAR [18]通过直接使用来自压缩帧的运动信息并跨帧共享运动特征,进一步将计算平均减少到每帧4.2 GFLOPs。然而,由于这些方法依赖于预先计算的运动特征来捕获时间依赖性,因此它们通常比3D卷积网络表现更差,尤其是当大型视频数据集可用于计算时。预训练,如Sports-1 M [19]和Kinetics [20]。相反,3D卷积神经网络自然能够以端到端的方式从原始视频帧中学习运动特征由于它们使用对空间和时间信息进行建模的3D卷积内核,而不是仅对空间信息进行建模的2D内核,因此可以学习和捕获运动和外观之间更复杂的关系。C3D [7]是成功应用于学习鲁棒视频特征的早期方法之一。它构建了一个类似VGG [10]的结构,但使用3× 3× 3内核来捕获运动信息。Res3D [23]通过利用剩余连接来简化学习过程,更进一步。类似地,I3D [1]建议使用Inception Network [24]作为骨干网络,而不是剩余网络来学习视频表示。然而,由于新增加的时间维度,与常规2D CNN相比,所有方法都具有最近,S3D [8]和R(2+1)D [2]被提出使用一个1× 3× 3卷积层,然后是另一个3× 1× 1卷积层来近似满秩3D内核,以减少满秩3× 3× 3卷积层的计算,同时实现更好的精度。然而,这些方法仍然遭受比其2D竞争对手多一个数量级的计算成本,这使得难以在实际应用中训练和部署它们。使用备用连接来降低计算成本的想法类似于为移动设备构建的低功耗网络[25-然而,我们提出的网络是为解决视频识别任务而构建的,并提出了不同的策略,这些策略也可以使现有的低功耗模型受益,例如MobileNet-v2 [26]。我们进一步讨论了我们的架构的差异,并与第3节和第4节中最相关和最先进的方法4Y. Chen,Y. Kalantidis,J. Li,S. Yan和J. 冯米M个出去了3 × 3 Conv3 × 3 Conv复用器复用器3 × 3 3 × 3 3 × 31 × 13 × 3 3 × 3 3 × 31 × 13 × 3 3 × 3 3 × 33 × 3 3 × 3 3 × 31 × 13 × 3 3 × 3 3 × 31 × 1纤维1纤维2纤维3纤维1纤维2纤维3(一)(b)第(1)款(c)第(1)款(d)其他事项(e)Fig. 1.从ResNet到多光纤。(a)具有两个3× 3卷积层的残差单元。(b)常规多路径设计,例如ResNeXt [28]。(c)所提出的多纤维设计由多个分离的轻质残余单元(称为纤维)组成。(d)所提出的多光纤体系结构具有用于在分离的光纤之间传输信息的复用器。(e)多路复用器的体系结构细节。它包括两个线性投影层,一个用于降维,另一个用于扩维。3多光纤网络利用时空卷积[7,1,2,8,9]的模型的成功表明,具有跨越空间和时间维度的内核是至关重要的。然而,时空推理是有代价的:卷积核和输入-输出张量都要大很多倍。在本节中,我们首先描述我们提出的模型的基本模块,即。多光纤单元。该单元可以有效地减少网络内的连接数,提高模型效率。它是通用的,与2D和3D CNN兼容。为了更清楚地说明,我们首先通过将其嵌入到2D卷积架构中并评估其对图像识别任务的效率优势来然后,我们介绍了时空3D对应,并讨论了具体的设计选择视频识别任务。3.1多纤维单元所提出的多光纤单元基于高度模块化的剩余单元[3],其易于训练和部署。如图1(a)所示,常规残差单元使用两个卷积层来学习特征,这是直接的但计算昂贵。要看到这一点,让M在表示的数量,把通道,M中表示中间通道的数量,和M出表示输出通道的数量。然后,这两个层之间的连接总数可以计算为#连接= M输入× M中间+M中间× M输出。(一)多光纤网络5为了简单起见,我们忽略了输入特征图和卷积核的维度,这些维度是恒定的。等式(1)表示连接的数量是网络宽度的平方,因此将单元的宽度增加k倍将导致k2倍的计算成本。为了减少对整体计算成本至关重要的连接的数量,我们建议将复杂的残差单元切片为N个平行且分离的路径(称为光纤),每个路径与其他路径隔离,如图1(c)所示。以这种方式,单元的总宽度保持不变,但连接的数量减少了N倍:连接数=N×(M输入/N×M中间/N+M中间/N×M输出/N)=(M输入× M中间+M中间× M输出)/N。(二)除非另有说明,否则对于我们所有的实验,我们设定N= 16如我们在以下部分中实验性地示出的,这样的切片策略直观地简单但有效。然而,与此同时,切片将每条路径与其他路径隔离开来,并阻止任何信息流通过它们。这可能导致数据表示的学习能力有限,因为一个路径不能访问和利用从其他路径学习为了恢复部分学习能力,最近部分使用切片的方法,如ResNeXt [28],Xception [30]和MobileNet [25,26],选择只 切片一小部 分层,仍然 使用完全连 接的部分。 大多数层(>60%)保持未切片并且支配计算成本,成为效率瓶颈。例如,ResNeXt[28]在每个单元的开始和结束处使用完全连接的卷积层,并且仅对第二层进行切片,如图1(b)所示然而,这些未切片的层支配计算成本并成为瓶颈。与只切割一小部分层不同,我们建议切割整个剩余单元,创建多个纤维。为了促进信息流,我们进一步附加了一个轻量级的瓶颈组件,我们称之为跨光纤操作的多路复用器,以剩余的方式。多路复用器充当重定向和放大来自所有光纤的特征的路由器。如图1(e)所示,复用器首先使用1× 1卷积层从所有光纤收集特征,然后使用下面的1× 1卷积层将它们重定向到特定光纤。使用两个1 × 1层而不是一个的原因是为了降低计算开销:我们将第一层输出声道的数量设置为小于因此,与使用单个1× 1层相比,总成本将降低k/2多路复用器内的参数被随机初始化,并通过反向传播端到端自动调整,以最大化给定任务的性能增益在每一层之前使用批量图1(d)示出了完整的多光纤网络,其中所提出的复用器附接在多光纤单元的开始处,用于路由从其他并行光纤提取的特征我们注意到,虽然所提出的多光纤架构的动机是减少3D CNN的连接数量以减轻高计算成本,但它也适用于2D CNN以进一步提高现有CNN6Y. Chen,Y. Kalantidis,J. Li,S. Yan和J. 冯ResNet-18ResNet-18(MF嵌入式)2D架构。为了证明这一点,并验证所提出的架构的有效性,我们进行了一些研究,在第一个二维图像分类任务3.2多光纤架构我们通过将其应用于图像分类的2D CNN和ImageNet-1 k数据集[31],实验研究了所提出的多纤维架构的有效性。我们使用最流行的2DCNN 模 型 之 一 , 残 差 网 络 ( ResNet-18 ) [3] 和 计 算 效 率 最 高 的ModelNet-v2 [26]作为以下研究中的骨干CNN。我们的实现基于[32]在32个GPU的集群上使用MXNet[33]发布的代码初始学习率设置为0。5,呈指数下降。我们使用1,024的批量大小,并训练网络进行360,000次迭代。正如先前的工作[25]所建议的那样,我们使用较少的数据增强来获得更好的结果。由于上述训练策略与我们的基线方法[3,26]中使用的训练策略不同,因此我们报告了我们的再现结果和他们论文中报告的结果,以进行公平比较。8575807075657065602 2.5 33.5迭代105(a) ResNet-182 2.5 3 3.5迭代105(b) MobileNet-v2图二、分别针对(a)ResNet-18和(b)MobileNet-v2主干的ImagaNet-1 k数据集的训练和验证准确性红线代表具有我们提出的多光纤单元的模型的性能黑线显示了我们使用与我们的方法完全相同的训练设置复制的基线模型的性能线的粗细表示验证集(代码集)或训练集(较细的一个)上的结果图2中的训练曲线绘制了ImageNet-1 k在最后几次迭代中的训练和验证精度。可以观察到,具有我们提出的多纤维(MF)单元的网络可以始终实现比基线模型更高的此外,所得到的模型具有更少数量的参数并且更有效(参见表1)。这表明,嵌入所提出的MF单元确实有助于减少模型冗余,加速学习过程,并提高整体模型的泛化能力。考虑到最后MobileNet-v2MobileNet-v2(MF嵌入式)前1精度前1精度多光纤网络7Table1. 有效的组件包括ImageNet-1kvalidatinset。“M F”是“多纤维单元”的一种,Top-1/ T op-5的计算在224 × 224的单纤维织物上进行[ 3 ]。2. ResNeXt行显示了我们设计的ResNeXt-26模型的结果,该模型具有与MF-Net相同的FLOPS数量。模型Top-1 Acc.前5名访问#参数FLOPsResNet-18 [3]ResNet-18(复制)ResNet-18(MF嵌入式)百分之六十九点六71.4%74.3%百分之八十九点二百分之九十点二百分之九十二点一11.7百万11.7百万9.6百万1.8 G1.8 G1.6 GResNeXt-26(8 ×16d)ResNet-50 [3]72.8%百分之七十五点三91.1%百分之九十二点二6.3米25.5百万1.1 G4.1 G移动网络v2(1.4)MobileNet-v2(1.4)(复制)MobileNet-v2(1.4)(MF嵌入式)74.7%72.2%73.0%–百分之九十点八91.1%6.9米6.9米6.0 M小行星585小行星585小行星578MF-Net ( N=12)MF-Net(N= 16)MF-Net(N= 24)百分之七十四点五74.6%百分之七十五点四百分之九十二百分之九十二百分之九十二点五5.9百万5.8米5.8米小行星895小行星861小行星897MF-Net(N= 16,无多路复用器)MF-Net(N= 16,无多路复用器,更深更宽)百分之七十点二71.0%百分之八十九点四百分之九十4.5米6.4百万600米小行星897“M个MF单元”网络的学习能力显著高于基线网络,并且所有网络模型采用相同的正则化设置,MF单元也被证明能够提高基线网络的学习能力。表1显示了Imagenet-1 k验证集的结果。通过简单地用我们提出的多光纤单元替换原始残差单元,我们将Top-1/Top-5精度提高了2。9%/1。9%,ResNet-18模型尺寸更小(9.6M vs. 11.7M)和更低的FLOP(1.6G与1.8G)。性能提升也代表了更高效、低复杂度的MobileNet-v2:引入多光纤单元还将其Top-1/Top-5精度提高了0. 8%/0。3%,模型尺寸较小(600万与6.9M)和更低的FLOP(578M vs. 585M),清楚地表明了其有效性。我们注意到,由于批量大小、学习率和更新策略的差异,我们复制的MobileNet-v2的准确率略低于[26]中报告的准确率。但在相同的训练策略下,我们复制的ResNet-18是1。8%,比报道的要好[3]。表1的两个底部部分进一步显示了我们的MF-Net的消融研究,关于纤维数量N和使用/不使用的multiplexer。正如我们所看到的,增加光纤的数量增加性能,而性能下降显着时,删除复用器单元,证明光纤之间共享信息的重要性总的来说,我们看到我们的2D多光纤网络可以与更大的ResNet-50 [3](25)一样好。5M参数,需要4.1 GFLOPS5.5值得注意的是,在我们的服务器上测量的挂钟时间方面,我们的MF-Net只比高度优化的ResNet-50实现快一点点(约30%)。我们将此归因于CuDNN中组卷积的未优化实现,并预见在不久的将来,当组卷积计算得到很好的优化时,实际运行时间会更快。8Y. Chen,Y. Kalantidis,J. Li,S. Yan和J. 冯...1 × 1× 11 × 1× 1...复用器× 2(a) 3D多光纤网络(b)3D多光纤单元图3.第三章。3D多光纤网络的体系结构(a)三维多纤网络的总体架构(b)每个多纤维单元的内部结构。请注意,只有第一个3× 3卷积层在第3个时间维度上扩展,以降低计算成本。3.3时空多光纤网络在本小节中,我们将多光纤架构扩展到时空输入,并为3D卷积网络和视频识别任务提供了一种新的架构。我们的时空多光纤网络的设计遵循“ResNet-34”[3]模型,通道数量略有不同,以降低处理视频的GPU内存成本。特别地,我们减少了第一卷积层(即“Convl”)中的通道数量,并增加了后续层(即“Convl”)中的通道数量。“Conv 2 -5”,如表2所示。这是因为前几个层中的特征图具有高分辨率,并且比以下层消耗的GPU内存呈指数级增长。训练和测试。详细的网络设计在表2中示出,其中我们首先设计2DMF-Net,并且“平面”[ 1]将2D编码转换为3D以2D MF-Net用作用于初始化3D MF-Net的预训练模型。最近的一些作品提倡可分离卷积,它使用两个单独的层来代替一个3× 3层[2,8]。尽管它可以进一步降低计算成本并提高准确性,但考虑到视频识别应用,由于其高GPU内存消耗,我们不使用可分离卷积。图3示出了在从2D到3D的“膨胀”之后每个3D多纤维单元的内部结构。我们并非所有层都使用3D编码,因此输入和输出特征包含用于保留运动信息的附加时间维度。4实验我们在三个基准数据集上评估了所提出的多纤维网络,Kinetics [20],UCF-101 [34]和HMDB 51 [35],并将结果与其他最先进的模型进行了比较。所有实验都使用PyTorch进行[36]先前单元...复用器3 × 3× 33 × 3× 3...3 × 3× 31 × 3× 31 × 3× 31 × 3× 3纤维1纤维2纤维N下一个单元视频Conv 3×5×5步幅(1,合并液1×3×33D多3D多跨距(1,2,2)光纤单元光纤单元步幅(2,1,1)× 23D多功能3D多功能光纤单元光纤单元步幅(1,2,2)× 53D多纤维单元× 33D多 纤 维单 元 步 幅( 1 、 2 、3D 多 纤 维单 元 步 幅( 1 、 2 、3D多纤维单元全局池FC层(平均值)(分类器)预测多光纤网络9Table2. Multi-fiberNettworkar chiteture。“2 D M F - N et t”表示图像输入,而“3D M F - N et t”表示帧,即。e. Videoclips,asiput. 不,该组件是与FLOP一起使用的,即。e. 流动性是一个多媒体的问题。“3D MF-N et”的定义由“(t em po r a l s t r i d e,h e ig htt ri d e,w i d h t rid e)”来定义,并且“2D MF-N et”的定义由“(h e ig h t t r i d e,w i d h t ri d e)”来定义。层重复#通道二维MF-Net3D MF-Net输出大小步幅输出大小步幅输入3224 ×22416× 224× 224Conv1MaxPool116112 ×11256 ×56(二、二)(二、二)16× 112× 11216× 56× 56(一、二、二)(一、二、二)Conv2129656 ×56(1、1)(1、1)8× 56× 56(二,一,一)(1、1、1)Conv31319228 ×28(二、二)(1、1)8× 28× 28(一、二、二)(1、1、1)Conv41538414 ×14(二、二)(1、1)8× 14× 14(一、二、二)(1、1、1)Conv5127687 ×7(二、二)(1、1)8× 7× 7(一、二、二)(1、1、1)平均池化1 ×11× 1× 1FC1000400#参数5.8米8.0 MFLOPs小行星86111.1 G训练和测试的输入大小为16× 224×224。这里16是每个输入剪辑的帧数。在测试过程中,视频被调整为分辨率256× 256,我们对从长视频序列中随机采样的剪辑预测进行平均,以获得视频预测。4.1基于运动训练的视频分类在本小节中,我们研究了当从头开始训练运动特征时,所提出的模型在学习视频表示方面的有效性我们使用大规模的Kinetics [20]基准数据集进行评估,该数据集由来自400个动作类别的大约300,000个视频组成在本实验中,3D MF-Net模型通过从ImageNet-1 k数据集上预训练的2D模型(见第3.3节)继承参数来初始化。然后,在Kinetics上以初始学习率0训练3D MF-Net。1,其以因子0逐步衰减。1.权重衰减设置为0。0001,我们使用SGD作为优化器,批量大小为1,024。我们在64个GPU的集群图4(a)显示了训练和验证精度曲线,从中我们可以看到网络收敛速度很快,整个训练过程只需要大约36,000次迭代。表3示出了在Kinetics上训练的不同模型的视频动作识别结果 模型在其他大规模视频数据集上进行了预训练,例如体育-1 M [19],使用更多的训练视频被排除在表中进行公平比较。从结果可以看出,基于3D的CNN模型显著提高了基于2D CNN的模型的Top-1准确度这种性能差距是因为2D CNN分别从每个帧中提取特征,因此可以在每个帧中提取特征。10Y. Chen,Y. Kalantidis,J. Li,S. Yan和J. 冯培训验证视频,前1准确度(%)7574707365726071557050电话:+86-510 - 88888888传真:+86-510-88888888迭代104(一)69101FLOPs(x109)(b)102见图4。Kinetics数据集上的结果(仅RGB)。(a)多光纤网络的训练和验证精度(b)不同3D卷积网络之间的效率比较每个圆的面积与模型的总参数数成比例。表3.动作识别精度与Kinetics最新技术的比较复杂度使用FLOP来测量,即浮点乘加运算。所有结果仅使用RGB信息,即没有光流。引用编号的结果从相应的论文中复制。方法#参数FLOPsTop-1Top-5双流[1]ConvNet+LSTM [1]12米9 M––62.2%63.3%––S3D [8]I3D-RGB [1]R(2+1)D-RGB [2]8.8米12.1百万63.6百万66.4 G107.9克152.4 G69.4%71.1%72.0%89.1%百分之八十九点三百分之九十MF-Net(我们的)8.0 M11.1 G72.8%百分之九十点四即使使用LSTM,也无法从原始帧序列中建模复杂的运动特征,这限制了它们的性能。另一方面,3D CNN可以从原始帧中端到端地学习运动特征,因此能够捕获有效的时空信息用于视频分类任务。然而,与2D CNN相比,这些3D CNN在计算上是昂贵的相比之下,我们提出的MF-Net比现有的3D CNN计算效率更高。即使使用中等数量的光纤,由时间维度引入的计算开销也得到了有效补偿,并且我们的多光纤网络的成本仅为11.1 GFLOPs,与常规2D CNN一样低在性能和参数效率方面,我们提出的模型达到了最高的Top-1/Top-5精度,同时具有最小的模型大小。与最好的R(2 +1)D-RGB相比,我们的模型是超过13倍的速度与8倍少的参数,但实现0。Top-1准确度提高8%我们注意到,所提出的模型在训练和测试方面的GPU内存成本也最低,这得益于第3.3节中提到的优化架构)D-RGBS3d-Ri3DGB+1个R(2我们Top-1成形夹准确度多光纤网络11它RGBn sD国家Fiial状态在宽度高 输入调光Tem多孔的im图五、学习过滤器的可视化由ImageNet预训练模型使用膨胀初始化的过滤器底部显示了在Kinetics上学习的相应3D过滤器(放大15倍)。最好用彩色观看为了进一步了解我们的网络学习了什么,我们在图5中可视化了第一卷积层的所有16个每个2 × 3块对应于两个3×3×5×5滤波器,顶部和底部行分别显示由于过滤器是从ImageNet上预训练的2D网络初始化并在时间维度上膨胀的,因此所有三个子内核在开始时都是相同的然而,在学习之后,我们看到过滤器沿着时间维度以不同的模式发展,这表明时空特征被有效地学习并嵌入到这些3D内核中。4.2基于微调模型在这个实验中,我们通过将在Kinetics上学习的特征转移到其他数据集来评估所提出的多纤维网络的通用性和鲁棒性。我们有兴趣研究所提出的模型是否可以学习强大的视频表示,可以很好地推广到其他数据集。我们使用流行的UCF-101 [34]和HMDB 51 [35]作为评估基准。UCF-101包含来自101个类别的13320个视频,HMDB 51包含来自51个类别的6766个视频两者都分为三个分裂。我们遵循[7,23,2,8]中的实验设置并报告平均三倍交叉验证准确度。 对于两个数据集上的模型训练,我们使用初始学习率0。005并以因子0将其减小三次。1.权重衰减设置为0。0001,动量设为0。9在SGD优化期间。所有型号都使用8个GPU进行微调,批量大小为128个剪辑。表4示出了多光纤网络的结果以及与现有技术模型的比较。与上述结果一致,多光纤网络以低得多的计算成本实现了最先进的精度特别是,在UCF-101数据集上,所提出的模型达到96。0%的Top-1分类准确度,这与现有技术相当,但它在计算上显著更高效(11. 1 vs.一百五十二4 GFLOP)。 与Res3D [23]相比,Res3D也基于ResNet主干,成本约为19。3 GFLOPs,多光纤网络在Top-1精度方面实现了超过10%的改进(96。0%的百分比V.S. 八十五8%),计算成本降低42%同时,所提出的多光纤网络还在HMDB51数据集上实现了最先进的精度,并且计算成本显著降低12Y. Chen,Y. Kalantidis,J. Li,S. Yan和J. 冯1)D-RGBC3dRes3D不TNeARD-RI3GB2个以上R(我们视频,前1准确度(%)表4.在UCF-101和HMDB 51上的动作识别精度。复杂度用FLOP来评估,即浮点乘加运算。该表的顶部是指基于2D卷积的相关方法,而下部是指使用部分卷积的方法。Columm n不考虑用于计算光流的FLOP。方法FLOPs+OFUCF-101HMDB51ResNet-50 [37]ResNet-152 [37]CoViAR [18][13]第十三话TSN [38]3.8克11.3 G4.2 G3.3 G3.8克CC82.3%百分之八十三点四百分之九十点四88.0%百分之九十四点二48.9%46.7%59.1%百分之五十九点四69.4%C3D [7]Res3D [23]ARTNet [16]I3D-RGB [1]R(2+1)D-RGB[2]38.5G19.3克25.7 G107.9克152.4 G82.3%百分之八十五点八百分之九十四点三百分之九十五点六百分之九十六点八51.6%百分之五十四点九百分之七十点九74.8%百分之七十四点五MF-Net(我们的)11.1 G百分之九十六74.6%10098759670949265908860865584825080101FLOPs(x 109)(a) UCF-101102101102FLOPs(x109)(b) HMDB51图六、不同方法的效率比较。我们使用每个圆的面积来显示每个模型的参数总数与也仅使用RGB帧的基于2D CNN的模型相比,我们提出的模型将准确率提高了15%以上(74. 6%与五十九1%)。即使与使用额外光学信息的方法相比,我们提出的模型仍然提高了5%以上的精度。这种优势部分受益于从大规模视频预训练数据集学习的更丰富的运动特征,而2D CNN不能。图6详细显示了结果。很明显,我们的模型提供了一个数量级更高的效率比以前的国家的最先进的FLOP方面,但仍然享有高精度。4.3讨论上述实验清楚地证明了所提出的模型的在本节中,我们将通过对Kinetics成功和失败案例的分析来讨论其潜在的-RGB1)DC3dRes3DTNETAR-RGB2个以上R(i3D我们视频,前1准确度(%)多光纤网络13组合计算机百分百鼓掌百分之五十饮酒百分之二十一冲浪人群百分百挖百分之五十固定毛发百分之二十滑翔伞百分之九十八踢足球百分之五十录制音乐百分之十八下棋百分之九十八笑百分之五十喷嚏百分之十八见图7。动力学验证数据集的统计结果。左:动力学验证集上拟定模型的准确度分布。类别按准确度降序排序。右:所选类别及其准确性。我们首先研究分类识别精度。我们计算每个类别的准确度,并按降序对它们进行排序,如图所示7(左)。在所有400个类别中,我们注意到190个类别的准确率高于80%,349个类别的准确率高于50%。只有17个类别不能很好地识别,准确率低于30%。我们在图的右侧面板中列出了一些示例7.我们发现,在具有最高准确度的类别中,要么有一些特定的对象/背景,与其他类别或特定的动作跨越长时间明显区分相反,具有低准确度的类别通常不显示任何可区分的对象,并且目标动作通常在长视频内持续非常短的时间。为了更好地理解成功和失败的案例,我们在图8中可视化了一些视频序列从长视频序列中均匀地选择帧从结果可以看出,该算法更有可能在没有任何可区分对象或包含持续相对较短时间段的动作的视频上出错。5结论在这项工作中,我们解决了为视频识别任务构建高效3D卷积神经网络的问题我们提出了一种新的多光纤架构,在每个残差块内引入稀疏连接,有效地减少计算和多路复用器的开发,以补偿信息丢失。受益于这两个新的架构设计,所提出的模型大大减少了模型冗余和计算成本。与现有的最先进的3D CNN相比,通常比常规的2D CNN消耗多一个数量级的计算资源,我们提出的模型花费的资源明显更少,但在Kinetics,UCF-101,HMDB 51上实现了最先进的视频识别精度我们还表明,所提出的多纤维架构是一种通用的方法,也可以使现有的网络在图像分类任务中受益。鸣谢冯佳诗部分得到了NUS IDS R-263-000- C67-646、ECRA R-263-000-C87-133和MoE Tier-II R-263-000-D17-112的支持。14Y. Chen,Y. Kalantidis,J. Li,S. Yan和J. 冯饮酒:46.3%品尝啤酒:百分之十四点五饮酒:12.7%喝啤酒:百分之八点八品尝食物:4.9%清洁排水沟:29.7%绳降:8.1%给植物浇水:百分之七点四擦窗:6.4%砌砖:5.3%固定头发:86.0%卷发:3.9%抽拳:1.0%唱歌:1.0%弹手指:0.8%推轮椅:11.2%携带婴儿:8.1%高踢腿:9.2%踢踏舞: 百分之六点八乡村排舞:5.0%音乐:96.4%敲击手指:1.3%使用遥控器(非游戏):0.4%组装电脑:0.1%弹低音吉他:0.1%吹萨克斯风:90.7%抽水烟:0.0%演奏单簧管:百分之九点三 吹小号:0.0%吹长号:0.0%打喷嚏:74.7%摇头:5.2%吐舌头:11.0%哭泣:4.0%笑:1.3%吃蛋糕:69.0%吃冰淇淋:9.5%吃意大利面:9.3%阅读书籍:百分之一点二吹蜡烛:1.2%faceplanting:80.6%drop_kicking:3.6%骑山地车:5.0%穿越河流:2.2%chopping_wood:百分之一点一芭蕾舞:49.8%瑜伽:11.4%机器人跳舞:4.0%梯形:百分之三点六啦啦队:2.7%头撞:百分之六十三点三掌掴:6.9%机器人跳舞:1.9%怀孕率:89.6%哭泣:0.1%剪指甲:0.1%握手:13.5%给予或接受奖励:2.1%拥抱:9.4%腿部打蜡:0.1%嗅闻:73.2%洗牌:百分之三点八敲击笔:2.5%采摘水果:26.4%植树:9.5%植物浇水:2.7%珠宝制造:4.3%削铅笔:2.7%介绍天气预报:23.5%单板滑雪:2.8%掌掴:15.4% 落踢:百分之五点一石头剪刀布:4.3%品尝啤酒:百分之十七点四饮酒:百分之十点二吹蜡烛:8.5%跳舞macarena:10.0%打响指:5.0%吃汉堡:10.6%啤酒:8.7%见图8。对动力学验证集中最困难的八个类别进行预测。左:简单样本。右:硬样品。前5个置信度得分在每个视频序列下方示出下划线用于强调正确的预测。同一行内的视频来自相同的地面实况类别。多光纤网络15引用1. 卡雷拉,J.,齐瑟曼,A.:你好,动作识别?新模型和动力学数据集。In : 2017 IEEE Conference on Computer Vision and PatternRecognition(CVPR),IEEE(2017)47242. Tran,D.,王,H.,托雷萨尼湖Ray,J.,LeCun,Y.,Paluri,M.: 动作 识 别 的 时 空 卷 积 的 详 细 研 究 。 arXiv 预 印 本 arXiv : 1711.11248(2017)3. 他,K.,张,X.,Ren,S.,孙杰:用于图像识别的深度残差学习。在:IEEE计算机视觉和模式识别会议论文集。(2016)77 04. Girshick,R.: 快速R-CNN。 arXiv预印本arXiv:1504.08083(2015)5. Chen,L.C.,帕潘德里欧,G.,科基诺斯岛墨菲K Yuille,A.L.:Deeplab:使用深度卷积网、无环卷积和全连接的crfs进行语义图像分割。arXiv预印本arXiv:1606.00915(2016)6. Karpathy,A.,Toderici,G.,Shetty,S.,Leung,T.,Sukthankar河李菲菲 : 用 卷 积 神 经 网 络 进 行 大 规 模 视 频 分 类 在 : Proceedings of theIEEEconnferenceo n C onComuterVis isonandPater nRec o gniti on 中 。(2014)17257. Tran,D.,Bourdev,L.费格斯河托雷萨尼湖Paluri,M.:用三维卷积网络学习时空特征。In:ComputerVision(ICCV),2015IEEEInternationalConferenceon,IEEE(2015)44898. Xie,S.,孙角,澳-地黄,J.,Tu,Z.,Murphy,K.:重新思考时空特征学习的视频理解。arXiv预印本arXiv:1712.04851(2017)9. Hara ,K.,Kataoka,H. ,Satoh,Y. :时空3d cnns能回溯2d cnns和imagenet 的 历 史 吗 。 In : Proceedings of the IEEE Conference onComputerVision andPattern Re cognition,SaltLakeCity,UT,USA.(2018)1810. 西蒙尼扬,K.,齐瑟曼,A.:用于大规模图像识别的深度卷积网络。ArXiv预印本arXiv:1409.1556(2014)11. Shou,Z.,Wang,D.,中国科学院,Chang,S.F.:基于多级cnn的未裁剪视频中的时间动作定位。在:CVPR中。(2016年)12. Shou,Z.,陈,J.,Zareian,A.,Miyazawa,K.,Chang,S.F.:Cdc:卷积-去卷积网络,用于未修剪视频中的精确时间动作定位。在:CVPR中。(2017年)13. 西蒙尼扬,K.,齐瑟曼,A.:双流
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 李兴华Java基础教程:从入门到精通
- U盘与硬盘启动安装教程:从菜鸟到专家
- C++面试宝典:动态内存管理与继承解析
- C++ STL源码深度解析:专家级剖析与关键技术
- C/C++调用DOS命令实战指南
- 神经网络补偿的多传感器航迹融合技术
- GIS中的大地坐标系与椭球体解析
- 海思Hi3515 H.264编解码处理器用户手册
- Oracle基础练习题与解答
- 谷歌地球3D建筑筛选新流程详解
- CFO与CIO携手:数据管理与企业增值的战略
- Eclipse IDE基础教程:从入门到精通
- Shell脚本专家宝典:全面学习与资源指南
- Tomcat安装指南:附带JDK配置步骤
- NA3003A电子水准仪数据格式解析与转换研究
- 自动化专业英语词汇精华:必备术语集锦
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功