没有合适的资源?快使用搜索试试~ 我知道了~
用于动作分类的Ali Diba1,4,,Mohsen Fayyaz2,,Vivek Sharma3,M.Mahdi Arzani4,RahmanYousefzadeh4,Juergen Gall2,Luc Van Gool1,41ESAT-PSI,KU Leuven,2University of Bonn,3CV:HCI,KIT,Karlsruhe,4Sensifai1{firstname.lastname} @ kuleuven.be,2{lastname} @ iai.uni-bonn.de,3{firstname.lastname} @ kit.edu,4{firstname.lastname} @ sensifai.com抽象。本文中的工作是由以下问题驱动的:对于3D卷积神经网络(CNN),时空相关性是否足够?大多数传统的3D网络使用局部时空特征。我们引入了一个新的块,该块对3D CNN的通道之间关于时间和空间特征的相关性进行建模。这个新块可以作为残差单元添加到3D CNN的不同部分。我们将我们的新块命名为“时空信道相关”(STC)。通过将此块嵌入到当前最先进的架构(如ResNext和ResNet)中,我们将Kinetics数据集的性能提高了我们的实验表明,在HMDB51、UCF101和Kinetics数据集上,将STC块添加到当前最先进的体系结构优于最先进的方法训练3DCNN的另一个问题是用一个巨大的标记数据集从头开始训练它们,以获得合理的性能。因此,在2D CNN中学习的知识被完全忽略。这项工作的另一个贡献是一种简单有效的技术,可以将知识从预先训练的2D CNN转移到随机初始化的3D CNN,以实现稳定的权重初始化。这使我们能够显着减少3D CNN的训练样本数量。因此,通过微调这个网络,我们击败了3DCNN中的通用和最新方法的性能,这些方法是在大型视频数据集上训练的 , 例 如 。 Sports-1 M , 并 在 目 标 数 据 集 上 进 行 微 调 , 例 如HMDB51/UCF101。11介绍最近已经显示出利用时间而不仅仅是空间线索进行视频分类的引人注目的优势在最近的工作中,研究人员集中在改进时空相关性的建模。与2D CNN一样,3D CNN试图沿着输入通道学习局部相关性。因此,3D CNN忽略两个方向上的通道相关性之间的隐藏信息:空间和时间,这限制了这些架构的性能。使用3DCNN的另一个主要问题是训练视频架构需要超大的标记数据集。所有这些问题都对它们的计算成本和性能产生了负面避免1.Ali Diba和Mohsen Fayyaz对这项工作作出了同样的贡献。Mohsen Fayyaz在Sensifai工作期间为这项工作做出了贡献。2作者跑步这些限制,我们提出(i)一种新的网络结构块,其有效地捕获整个网络层的空间信道和时间信道相关信息;以及(ii)桥接不同架构之间的知识转移的有效监督转移,使得不再需要从头开始训练网络。受上述观察的启发,我们引入时空信道相关(STC)块。该块的目的是同时考虑空间和时间特征上的信道间相关性的信息对于网络中的任何变换集合(例如在卷积层中,STC块可以用于执行空间-时间信道相关特征学习。STC块有两个分支:空间相关分支(SCB)和时间相关分支(TCB)。SCB考虑空间信道信息,而TCB考虑空间信道信息。时间信道信息。输入特征I∈RH×W×T×C被馈送到SCB和TCB。在SCB中,进行空间全局池化操作以生成表示。表示在网络中起两个重要作用的全局感受野:(i)通过聚集输入上的全局特征来考虑I中的全局相关性(ii)提供用于分析通道间相关性的通道方式描述符。然后将该通道特征向量馈送到两个瓶颈完全连接层,这两个瓶颈完全连接层学习通道之间的依赖关系相同的过程发生在TCB中,然而,对于第一步骤,使用时间全局池化而不是空间全局池化。这两个分支的输出特征然后被组合并作为STC块的输出返回。这些输出特征可以与对应层的输出特征组合。通过采用这样的特征以及3D CNN内部可用的传统特征,我们丰富了3D CNN的表示能力。因此,配备STC块的3D CNN能够学习频道依赖性,这使得它们能够学习视频的更好表示我们已经将STC块添加到当前最先进的3D CNN架构中,例如3D-ResNext和3D-ResNet [4]。STC块被插入在这些网络的每个残差块如前所述,从头开始训练3D CNN需要一个大的标记数据集。研究表明,从头开始训练3D卷积网络[2]需要两个月的时间[5],才能从像Sports-1 M这样的大规模数据集中学习到良好的特征表示,然后在目标数据集上进行微调以提高性能。因此,我们工作的另一个主要贡献是实现跨架构的监督传输,从而避免了从头开始训练3D CNN的需要具体来说,我们证明了在ImageNet上预训练的2DCNN可以充当通过这种方式,我们避免了过多的计算工作量和训练时间。通过这种迁移学习,我们的性能优于在Sports-1 M上训练并在目标数据集HMDB 51和UCF 101上进行微调的通用3D CNN(C3 D [2])。2相关工作使用和不使用CNN的视频分类视频分类和理解已经研究了几十年。已经提出了几种技术来提出很长的标题3高效的时空特征表示,其捕获视频中跨帧的外观和这些都是手工制作的。其中,iDT产生了最好的性能,在代价是计算昂贵,缺乏可扩展性,以捕捉语义概念。值得注意的是,最近已经提出了几种其他技术[12],这些技术也试图以有效的方式对时间结构进行建模。使用深度学习,社区超越了手工设计的表示,并以端到端的方式学习时空表示。这些方法对2D(帧级)或3D(视频级)信息进行操作。在2D设置中,通过LSTM/RNN对各个帧的基于CNN的特征进行建模以捕获长期时间依赖性[13,3],或者通过特征聚合和使用双线性模型[1],VLAD [14],Fisher编码[15]等进行编码。最近,已经提出了几种用于视频分类的时间- poral架构,其中网络的输入由RGB视频剪辑或堆叠的光流帧组成。过滤器并且用于这些架构的池化内核是3D(x,y,时间)。最直观的是3D卷积(s×s×d)[3],其中内核时间深度d对应于用作输入的帧的数量,s是内核空间大小。Simonyan等人[16]提出了一个双流网络,RGB和流CNN的队列。在它们的流CNN中,3D卷积将d设置为10。Tran等人。[2]探索了具有大小为3×3×3的滤波器内核的3D CNN,并在[5]中扩展了具有3D卷积的ResNet架构费希特-恩霍夫等[17]提出3D池化。Sun等人[18]将3D卷积分解为2D空间卷积和1D时间卷积。Carreira等人[19]提出通过膨胀所有过滤器和池来将预训练的2D Inception-V1 [20]架构转换为3D使用具有附加时间维度d的核。非局部神经网络[21]提出了一个新的构建块的CNNs,它捕获长距离的依赖关系。Feichtenhofer等人[22]引入残差连接来学习双流CNN的运动和外观流之间的依赖关系。Varol等人[23]已经研究了用于学习视频中的长期活动的更好表示的长期时间卷积。在[24]中引入的时空特征选通方法通过引入特征选通模块来解决类似的问题。Miech等人[25]介绍上下文选通方法,该方法将选通应用于输出层的特征。这些架构中的大多数忽略了整个架构中的信道信息。据我们所知,我们的STC块是第一个在3D网络层上集成信道信息的3D块迁移学习:将在另一数据集上训练的预训练网络的学习特征表示微调或专门化到目标数据集通常被称为迁移学习。最近,一些工作已经表明,在模态内或跨模态(例如,模态)传递知识是有效的。RGB→RGB[26]与RGB→深度[27],RGB→光流[27,28],RGB→声音[29],近红外→RGB [30])是有效的。有效,并导致性能的显著改善它们通常相当于联合学习共享特征空间中的表示。Mansimov等人[31]已经研究了权重初始化的各种方法,这些方法是膨胀方法的基本思想。我们的工作有很大的不同。我们的目标是跨架构转移监督(即2D→3D CNN),不一定限于传输信息。4作者跑步3D STC-ResNetSTC块Fig. 1. STC-ResNet。我们的STC块应用于3D ResNet。3D网络使用视频剪辑作为输入。来自剪辑的3D特征图在整个网络中密集地传播。STC在网络中的不同级别的特征图上操作,以提取空间和时间信道关系作为新的信息源。网络的输出是视频级预测。我们的解决方案也可以很容易地跨模态采用3该方法我们使用新提出的神经块STC的方法是从视频中捕获深度CNN中的不同和新信息。时空通道相关块旨在提取3D CNN的不同层中的不同通道之间的关系。STC模块在空间和时间维度上考虑这些关系此外,作为我们工作的另一个主要贡献,我们展示了跨体系结构(即跨平台)之间的知识转移。2D→3D CNN),从而避免了从头开始训练3D CNN的需要。关于迁移学习的细节在第3.2节中给出。3.1空时信道相关(STC)块STC是可以添加到任何3D CNN架构的计算块因此,我们已经将我们的STC块添加到由[4]引入的ResNet和ResNext 3D CNN中在ResNet和ResNext中的每个卷积块之后,插入STC块33DDDeennseBlloockk3D3CDeRnses1BidluoakCoonnvv1TTTTrarannnsSsisTittitioCionnnnTTTememmppoorraralalll33DDDeennseBlloockkCBonlovc1kB11llock3D3DeRnsesBidluoaclkTTTememmppoorraralalll3D定义Bl oc kTTeememmppoorraralall l3D定义块CCoonnvv11TTTTrarannnsSsisTittitioCionnnn33DDDeennseBiloockkCBonlovc1kB11llock3CDoRnve1持续TTrransSiTitioConn3CDoRnve1持续CCoonnvv11过渡33DDDeennseesBilloockk块B11L1OCKCCoonnvv11块动作标签FTCB3D残差块(x)x标H*W * T * CFSCB3D转换333DDDCCCooonnvvv临时全局池化空间全局池乙状乙状规模规模很长的标题5R以丰富特征表示。如前所述,该新块通过考虑空间和时间维度中的滤波器相关性来利用空间和时间信息。作为STC块的输入,我们考虑来自先前卷积层的特征图。STC块具有代表不同层次的概念和信息的双路径结构。这些路径中的每一个具有不同的模块;通道或滤波器信息嵌入和捕获依赖性。我们的方法受到挤压和激发[32]方法的启发,该方法使用全局平均池化(空间和时间),然后是两个瓶颈完全连接层和sigmoid激活。与[32]相比,STC块具有两个分支或换句话说双路径;一个考虑纯通道信息,另一个采用时间通道信息。由于我们正在解决视频分类,因此在空间和时间方法中提取更有意义的表示是有意义的。STC基于该理论捕获信道依赖性信息。在下文中,我们描述了这两个分支及其集成到已知的3D架构中,如3D-ResNet [4]。记法。针对输入视频提取的第l层处的3D卷积和池化核的输出特征图是张量X∈RH×W×T×C,其中H、W、T和C分别是特征图的高度、宽度、时间深度和通道数。3D卷积和池化核的大小为(s×s×d),其中d是时间深度,s是核的空间大小时间相关分支(TCB):在该路径中,特征图将被空间和时间维度挤压以提取信道描述符。如果我们将X视为STC的输入,则作为全局时空池化的第一阶段的输出为:1ΣWΣHΣTztcb=W×H×Tijtxijt.(一)为了获得滤波器的非线性关系,我们应用两个完全连接的层。特征尺寸在第一FC层中减小到C/r(r是减小率),并通过第二FC层再次增大到C。由于我们在感受野的所有维度上使用了全局时空池化,因此在下一个操作中,将提取通道信息。在sigmoid函数之后,时间分支(xtcb)的输出将通过使用stcb向量重新缩放X因此,瓶颈层的输出stcb和分支输出xtcb的计算方法如下:stcb=Ftcb(ztcb,W)=W2(W1ztcb)(2)xtcb=stcb·X。(三)CW是瓶颈层的参数集,其中W1∈Rt,W2∈R C×C它们分别是FC层参数Ftcb是全连通函数的符号用于计算STCB的选择。空间相关分支(SCB):该分支与时态分支的主要区别在于聚合方法。空间分支收缩×C6作者跑步表1. 3D ResNet与STC-ResNet和STC-ResNext。所有建议的架构incor- porate三维过滤器和池化内核。表中所示的每个卷积层对应于复合序列BN-ReLU-Conv操作。层输出大小3D-ResNet1013D STC-ResNet1013D STC-ResNext1013D卷积56× 56× 87×7×7转换,步幅23D合并56× 56× 83×3 ×3最大孔,stride1Res128× 28× 8conv,1× 1× 1, 64conv,3× 3× 3, 64conv,1 × 1 ×1,256conv,1× 1× 1, 64conv,3× 3× 3, 64×3conv,1× 1× 1,256fc,[16, 256]conv,1 × 1 ×1,128conv,3× 3× 3, 128C= 32×3conv,1× 1× 1,256fc,[16, 256]Res214× 14× 4conv,1 × 1 ×1,128conv,3× 3× 3, 128conv,1 × 1 ×1,512conv,1 × 1 ×1,128conv,3× 3× 3, 128×4conv,1× 1× 1,512fc,[32, 512]conv,1 × 1 ×1,256conv,3× 3× 3, 256C= 32×4conv,1× 1× 1,512fc,[32, 512]Res37× 7× 2conv,1 × 1 ×1,256conv,3× 3× 3, 256conv,1× 1× 1, 1024conv,1 × 1 ×1,256conv,3× 3× 3, 256×231024毫米,1× 1× 1024毫米fc,[64, 1024]conv,1 × 1 ×1,512conv,3× 3× 3, 512C= 32×231024 毫米,1× 1× 1024毫米fc,[64, 1024]第4号决议4× 4× 1conv,1 × 1 ×1,512conv,3× 3× 3, 512conv,1× 1× 1, 2048conv,1 × 1 ×1,512conv,3× 3× 3,512×3conv,1× 1× 1, 2048fc,[128, 2048]conv,1 × 1 ×1,512conv,3× 3× 3, 512C= 32×3conv,1× 1× 1, 2048fc,[128, 2048]分类层1× 1× 14×4×1平均样本池400D softmax关于时间维度的通道信息,并且在输入特征图上进行全局空间池化因此,该分支考虑时间信道信息提取以丰富每层中的表示。分支的第一操作的计算如下:1千瓦 ΣHzscb=W×HI jxijT(4)在池化层之后,我们得到zscb,它是一个大小为T×C的向量。之后,存在全连接层以提取基于时间的声道关系。在该分支中,第一FC层大小是(T×C)/r,并且第二FC大小是C。下面是计算描述:sscb=Fscb(zscb,W)=W2(W1zscb)(5)(T×C)×(T×C)xscb=sscb·X(6)C×T×C其中W1∈Rr且W2∈ Rr. 通过考虑这两个分支,通过对xTcb和xSCb求平均来计算块的最终输出(xSTC)。xstc=avg(xtcb,xscb)(7)在3D ResNet或ResNext的情况下,该输出将被添加到残差层以具有卷积(Conv)块的最终输出。很长的标题7预训练的2DConvNet2D残差块2D残差块2D残差块2D残差块33DDDeennseBlloockkTTemmpporraall33DDDeennseBlloockkTTemmpporraall33DDDeennseBlloockkTTemmpporraall33DDDeennseBlloockk3D3DeRneseiBdluoakTrTanmsiooirnal3 D3D eRneseiBdluoakTrTanmsiooirnal3 D3D eRneseiBdluoakTrTanmsiooirnal3 D3D eRneseiBdluoakTTrranSssTtitCoionnTTrranSssTtitCoionn阳性/阴性对B11锁B11锁B12锁B22锁B3锁B14锁112233TTrranSssTtitCoionn44concat3DConvNet3.2知识转移在本节中,我们描述了在体系结构之间传输知识的方法,即:预训练的2D CNN到3D CNN。因此,我们绕过了从头开始训练3D CNN的需要,并使用大型数据集进行监督或训练。帧平均合并配对?0/1图二.用于从预训练的2D CNN到3D CNN的知识转移的架构。 2D网络在RGB帧上运行,3D网络在相同时间戳的视频剪辑上运行。2D CNN充当向3D CNN的知识转移的教师,通过教导3D CNN通过解决图像-视频对应任务来学习中级特征表示。2D CNN的模型参数被冻结,而任务是仅有效地学习3D CNN的模型参数。让我成为一个预先训练的2D CNN,它已经从标记的图像数据集学习了丰富的表示,而V是一个3D CNN,它使用[33]随机初始化,我们希望将表示的知识从I转移到V,以实现稳定的权重初始化。这使我们能够避免从头开始训练V,它有数百万个参数,并且需要大量的计算工作量和数月的训练时间[5]。在当前的设置中,我充当了向V架构传授知识的老师直观地说,我们的方法使用帧和视频剪辑之间的对应关系,可通过它们同时出现在一起的优点。给定针对相同时间戳的一对X帧和视频剪辑,帧和视频中的视觉信息是相同的我们利用这一点通过2D和3D CNN架构之间的图像-视频对应任务来学习中级特征表示,如如图2所示。我们使用在ImageNet [35]上预训练的2D ResNet [34]作为I,使用STC-ResNet网络作为V。2D ResNet CNN有4个卷积块和一个完全连接的层,而我们的3D架构有4个3D卷积。块与STC块,并且我们在最后一个块之后添加全连接层。我们将两种架构的最后一个fc层连接起来,并将它们与2048维的fc层连接起来,该fc层又连接到两个具有512和128大小的全连接层(fc1,fc2)以及最终的二元分类器层。我们使用二进制匹配-ing分类器:给定X个帧和一个视频片段,决定这些对是否属于彼此。对于给定的对,X帧被顺序地馈送到网络I中,并且我们对X帧上的最后2D fc特征进行平均,从而产生1024-D特征表示。并行地,视频剪辑被馈送到网络V,并且我们提取3D1285121024204810243D转换二维转换33DDCoonnvv8作者跑步fc特征(1024-D),并将它们串接,然后将其传递到全连接层以进行分类。对于训练,我们使用二进制分类损失。在训练期间,I的模型参数被冻结,而任务是有效地学习V的模型参数,而无需任何额外的监督,而不是帧和视频之间的对应属于同一时间戳的对来自同一视频的X帧和视频片段是正对,而来自两个不同视频的X帧和视频片段是负对汇率注意,在反向传播期间,仅更新V的模型参数将知识从I转移到V。在我们的实验中,我们证明了V的稳定权重初始化,并且当在目标数据集上进行微调时,它会快速适应,从而避免从头开始训练模型我们也证明了-使用我们提出的知识转移方法,3D CNN可以直接在像UCF101这样的小数据集上训练,并且比从头开始训练的性能更好。由于我们的迁移学习是无监督的,并且不需要视频标签, 我们在一组未标记的视频上进行了应用。此外,我们在第4节中的实验表明,我们提出的STC-ResNext的迁移学习明显优于通用3D CNN,该CNN是在大型视频数据集Sports-1M [36]上训练的,并在目标数据集HMDB 51或UCF 101上进行了微调。4实验在本节中,我们首先介绍我们提出的方法的数据集和实现细节。之后,我们对所提出的STC-ResNet和STC-ResNext(3D CNN)的架构进行了广泛的研究。接下来,我们评估和比较我们提出的方法与基线和其他国家的最先进的方法. 最后,我们将我们的迁移学习:2D→3DCNN性能与通用的最先进的3DCNN方法进行了比较。4.1数据集我们在三个具有挑战性的视频数据集上评估了我们提出的方法,即HMDB51[37],UCF101 [38]和Kinetics [19]。表2显示了数据集的详细信息。对于所有这些数据集,我们使用数据集提供的标准训练/测试分割和协议。对于HMDB51和UCF101,我们报告了三次拆分的平均准确度,对于Kinetics,我们报告了验证和测试集的性能。Kinetics:Kinetics是由[19]引入的一个新的具有挑战性的人类动作识别数据集,其中包含400个动作类。此数据集有两个版本未修剪的视频包含整个视频,其中活动被包括在它的短时间但是,修剪后的视频包含仅活动部分。我们在修剪版本上评估我们的模型。我们使用所有的训练视频从头开始训练我们的模型。UCF 101:为了评估我们的STC-Nets架构,我们首先在Kinetics数据集上训练它们,然后在UCF 101上对其进行微调。此外,我们还通过使用随机初始化的UCF101从头开始训练模型来评估我们的模型。很长的标题9权重能够研究预训练对巨大数据集的影响,例如Kinetics。HMDB51:与UCF101评估相同,我们在HMDB51上微调模型,这些模型在Kinetics上从头开始进行预训练此外,我们同样通过使用随机初始化的权重在HMDB 51上从头开始训练我们的模型来评估表2. 用于评价的数据集的详细信息。The ‘Clips’ shows the total number of short video clipsextracted from the ‘Videos’ available in the数据集剪辑数量#视频#类HMDB51 [37]6,7663,31251UCF101 [38]13,3202,500101动力学[19]306,245306,2454004.2实现细节我们使用PyTorch框架进行实现,所有网络都在8个Tesla P100 NVIDIA GPU上进行训练。在这里,我们描述了我们的两个方案的实现细节,3D CNN架构和从2D到3D CNN的知识转移,以实现稳定的权重初始化。STC网络。培 训 : 我 们 在 Kinetics 上 从 头 开 始 训 练 我 们 的 STC- 网 络 ( STC-ResNet/ResNext)。我们的STC-Net在16/32/64 RGB帧的堆栈上运行。我们将视频大小调整为122px,然后随机应用5个裁剪(及其水平翻转),尺寸112×112。对于网络权重初始化,我们采用[33]中提出的相同对于网络训练,我们使用SGD,Nesterov动量为0.9,权重衰减为10−4,批量大小为128。初始学习率设置为0.1,当验证损失饱和时手动降低10倍整个Kinetics数据集的最大历元数设置为200。批量标准化也已应用。STC块中的缩减参数r被设置为4。测试:对于视频预测,我们将每个视频分解为16/32/64帧的非重叠STC-Net通过采取112×112的中心裁剪应用于视频剪辑,最后我们对所有剪辑的预测进行平均以制作视频级预测.知识转移:2D→3DCNN。我们采用2D ResNet架构,在ImageNet上进行预训练[35],而3D CNN是我们的STC-ResNet网络。向2D CNN馈送16个RGB帧作为输入。输入的RGB图像被随机裁剪为112 ×112的大小,然后减去均值用于网络训练。监督转移到STC-ResNet,我们替换2D CNN的先前分类层具有2路softmax层以区分正对和负我们使用随机梯度下降(SGD),小批量大小为32,固定权重衰减为10−4,Nesterov动量为0.9。对于网络培训,我们从学习开始10作者跑步速率被设置为0.1,并且每30个时期将其减小10倍epoch的最大对于训练数据,我们使用近似值。来自YouTube8m数据集的500K未标记视频[39]。4.3建筑设计的消融研究为了在3D CNN模型上评估我们的STC块,我们进行了架构研究并评估了不同的配置。在这项工作中,我们主要关注ResNet和ResNext的3D版本我们的选择是基于最近提出的这些网络在视频分类中的良好性能[4]。模型深度:我们首先使用3D-ResNet和3D-ResNext分析了架构深度的影响,并对网络规模进行了一系列评估。对于架构研究,使用[33]初始化模型权重。我们采用三种不同尺寸的3D STC-ResNet; 18、50、101具有STC块。这些3DSTC-ResNet模型的评估结果报告在表3中。作为可以观察到,通过增加STC块的小开销,STC-Nets即使在较小版本的ResNet中也可以实现合理的性能,因为我们的STC-ResNet 50在精度上与常规ResNet 101相当。表3. UCF 101分割1上网络大小为18、50和101的3D STC-ResNet模型的评估结果。所有模型都是从头开始训练的。模型深度准确度%3D-ResNet 10146.7STC-ResNet 1842.8STC-ResNet 5046.2STC-ResNet 10147.9时间输入大小:输入帧的数量在活动识别中起着关键作用。因此,我们在表4中报告了具有不同输入帧数量的3D STC-ResNet和3D STC-ResNext的性能。我们的评估表明,作为输入的较长剪辑将产生更好的性能,这证实了[4,19]中的TCB与SCB:我们还研究了STC网络中TCB和SCB分支的影响。 由于它们中的每一个都考虑分支中的不同概念,因此我们评估了三种设置的性能:仅SCB、仅TCB和SCB-TCB组合(STC)。在表5中,示出了信道相关分支的重要性。作为示出了结合两个分支以捕获不同类型的相关性比单独的SCB或TCB执行得更好。很长的标题11表4. STC-ResNet和3D STC-ResNext模型的评估结果,对于UCF 101和HMDB 51的所有三个分割,时间深度为16、32和64帧。模型UCF101HMDB51STC-ResNet 101(16帧)90.162.6STC-ResNet 101(32帧)93.268.9STC-ResNet 101(64帧)93.770.5STC-ResNext 101(16帧)92.365.4STC-ResNext 101(32帧)95.872.6STC-ResNext 101(64帧)96.574.9表5. 针对UCF101分割1使用不同信道相关块(TCB与SCB)的性能比较。通道相关分支准确度%SCB46.1TCB47.2TCB+ SCB47.9帧采样率:找到被馈送到CNN以用于捕获外观和时间信息的输入帧的正确配置在时间CNN中起着非常关键的作用。出于这个原因,我们研究了输入流的帧采样率STC-ResNet 101已用于帧采样率的消融我们通过改变在下面的集合{1,2,4,16}中的输入帧的时间步幅。表6显示了在不同采样率的输入上训练的STC-ResNet 101的准确度最好的结果是以采样率为2获得的,在其余的实验中,我们也将其用于其他3D CNN。表6. STC-ResNet 101模型的不同帧采样率的评估结果。在UCF101拆分1上进行培训和测试。输入步幅12416准确度%百分之四十四点六47.9%百分之四十六点八百分之四十点三4.4知识转移为了应用我们提出的监督转移,我们已经在ImageNet上测试了2D ResNet作为基本的预训练模型,而3D-ResNet和我们的STC-ResNet使用[33]随机初始化并用作目标3D CNN。我们表明,对于3D CNN架构,通过转移学习进行稳定的权重初始化是可能的,这可以用作在UCF101或HMDB51等小数据集上训练的良好起始模型。由于已经使用两种不同的深度架构(3D-ResNet和STC-Nets)测试了3DCNN的迁移学习管道,因此我们清楚地显示了12作者跑步我们在深度架构中的方法,可以很容易地被其他使用类似架构的深度网络和任务所采用。表7. 2D CNN在UCF101和HMDB51的所有三个分裂上的3D CNN的转移学习结果。所有型号都具有相同的深度101。三维CNNUCF101HMDB513D-ResNet-基线88.961.73D-ResNet-充气90.462.63D-ResNet-传输91.364.2STC-ResNet-基线90.162.6STC-ResNet-已传输92.666.1表7示出了结果。使用随机初始化从头开始训练基线。如图所示,我们的传输方法比标准3D-ResNet以及我们提出的STC-ResNet的基线性能更好使用通货膨胀也改善了基线,但它优于我们的方法。注意,只有在2D和3D网络的结构相同时才能使用膨胀,而我们的方法允许将知识从任何2D CNN转移到3D CNN,例如,从2D-ResNet到3D STC-ResNet,如表7中所示,这通过膨胀是不可能的。表8. 我们的模型与其他最先进的方法在Kinetics数据集上的比较结果。* 表示Sports-1 M上的C3 D的预训练版本。方法Top1-ValTop5-ValDenseNet3D59.5-Inception3D58.9-C3D*[4]55.6-3D ResNet101 [4]62.883.93D ResNext101 [4]65.185.7RGB-I3D [19]68.488STC-ResNet 101(16帧)64.185.2STC-ResNext 101(16帧)66.286.5STC-ResNext 101(32帧)68.788.54.5与最新技术水平的最后,在探索和研究了STC-Net架构以及输入数据和架构的配置之后,我们通过对动力学的预训练和对UCF 101和HMDB 51数据集的所有三个分割的微调,将我们的STC-ResNet和STC-ResNext与最先进的方法进行了对于UCF101和HMDB51,我们报告平均值很长的标题13表9.STC-网(STC-ResNet/ResNext)与现有技术方法在UCF 101和HMDB 51的所有三个拆分上的准确度(%)性能比较。方法UCF101HMDB51DT+MVSM [40]83.555.9iDT+FV [41]85.957.2C3D [2]82.356.8Conv Fusion [17]82.656.8两条溪流[16]88.6−TDD+FV [42]90.363.2RGB+Flow-TSN [43]94.068.5P3D [44]88.6−RGB-I3D [19]95.674.8RGB+Flow-I3D [19]98.080.7Inception3D87.256.93D ResNet 101(16帧)88.961.73D ResNet 101-知识转移91.364.23D ResNext 101(16帧)90.763.8STC-ResNext 101(16帧)92.365.4STC-ResNext 101(64帧)96.574.9三个分裂的准确性在前一部分实验中报告了监督转移技术实验的结果表8示出了与现有技术方法相比的STC-网的动力学数据集的结果。具有32帧输入深度的STC-ResNext 101实现了比具有64帧输入大小的RGB-I3 D更高的精度。表9示出了UCF 101和HMDB 51数据集上的结果,用于将STC-Net与其他基于RGB的动作识别方法进行比较。我们的STC-ResNext 101(64帧)模型在UCF101和HMDB 51上的性能优于3D-ResNet [5],Inception 3D,RGB-I3 D [19]和C3D [2],分别达到96.5%和74.9%的准确率。我们还训练了Inception3D,这是一个与 I3D 类 似 的 架 构 [19] , 没 有 在 Kinetics 上 使 用 ImageNet , 并 在 UCF101 和HMDB51上进行了微调,以便能够进行公平的比较。如表9所示,STC-ResNext在UCF 101上的表现比3D-ResNext好几乎2%。此外,我们注意到,除了RGB输入帧之外,最先进的CNN[19,43]还使用昂贵的光流图,如在I3D中,UCF101的性能为98%,HMDB51的性能为80%。由于如此高的计算需求,我们无法运行类似的实验,但从表9可以得出结论,我们最好的RGB模型具有优于其他基于RGB的模型的性能。请注意,在我们的工作中,我们没有使用密集的光流图,并且仍然实现了与最先进的方法相当的性能[43]。这示出了我们的STC网在深度CNN中利用时间信息和时空信道相关性用于视频剪辑的有效性。这需要像我们这样的有效方法,而不是计算昂贵的光流信息(事先),这是非常计算要求,因此难以获得大规模的数据集。14作者跑步5结论在这项工作中,我们引入了一个新的我们清楚地示出了使用STC块利用时空信道 相关 性 特 征的 益 处我 们 为3D-ResNet 和 3D-ResNext 配 备了 STC块 ,并 将Kinetics数据集的准确性提高了2-3%。我们的STC块作为剩余单元添加到网络的其他部分,并以端到端的方式学习。STC特征映射以更有表现力和更有效的方式对特征交互进行建模,而不会在整个网络中丢失信息我们的STC网络在三个具 有 挑 战 性 的 动 作 识 别 数 据 集 上 进 行 了 评 估 , 即 HMDB51 , UCF101 和Kinetics。与其他时间深度神经网络模型相比,STC-Net架构在HMDB 51,UCF101上实现了最先进的性能我们预计,所提出的STC块也将改善其他3D CNN。此外,我们展示了跨架构之间的迁移学习的好处,特别是从2D到3D CNN的监督迁移。这为3D CNN提供了一个有价值和稳定的权重初始化,而不是从头开始训练它们,这也是非常昂贵的。我们的迁移学习方法不仅限于RGB模型之间的迁移监督,因为我们的迁移学习方法可以很容易地用于跨模式的迁移。鸣谢:这项工作得到了DBOF博士奖学金,KU Leuven:CAMETRON项目和KIT:DFG-PLUMCOT项目的支持。作者要感谢Sensifai工程团队。MohsenFayyaz和Juergen Gall得到了DFG项目GA 1927/4-1(研究单位为2535)和ERC启动赠款ARCA(677650)的财政支持引用1. Diba,A.,Sharma,V. Van Gool,L.:深度时间线性编码网络。在:CVPR中。(2017年)2. Tran,D.,Bourdev,L.费格斯河托雷萨尼湖Paluri,M.:用3d卷积网络学习时空In:ICCV. (2015年)3. Yue-Hei Ng,J.,Hausknecht,M.,Vijayanarasimhan,S.,Vinyals,O.,蒙加河Toderici,G.:除了简短的片段:用于视频分类的深度网络。在:CVPR中。(2015年)4. Hara,K.,Kataoka,H.,Satoh,Y.:时空3D CNN可以追溯2D CNN和imagenet的历史吗?在:CVPR中。(2018年)5. Tran,D.,Ray,J.,Shou,Z.,Chang,S.F.,Paluri,M.:用于时空特征学习的Convnet架构搜索。1708.05038(2017)6. Klaser,A.,Marszałek,M.,Schmid,C.:一种基于三维梯度的时空描述子。在:BMVC. (2008年)7. Scovanner,P.Ali,S.,Shah,M.:
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 平尾装配工作平台运输支撑系统设计与应用
- MAX-MIN Ant System:用MATLAB解决旅行商问题
- Flutter状态管理新秀:sealed_flutter_bloc包整合seal_unions
- Pong²开源游戏:双人对战图形化的经典竞技体验
- jQuery spriteAnimator插件:创建精灵动画的利器
- 广播媒体对象传输方法与设备的技术分析
- MATLAB HDF5数据提取工具:深层结构化数据处理
- 适用于arm64的Valgrind交叉编译包发布
- 基于canvas和Java后端的小程序“飞翔的小鸟”完整示例
- 全面升级STM32F7 Discovery LCD BSP驱动程序
- React Router v4 入门教程与示例代码解析
- 下载OpenCV各版本安装包,全面覆盖2.4至4.5
- 手写笔画分割技术的新突破:智能分割方法与装置
- 基于Koplowitz & Bruckstein算法的MATLAB周长估计方法
- Modbus4j-3.0.3版本免费下载指南
- PoqetPresenter:Sharp Zaurus上的开源OpenOffice演示查看器
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功