没有合适的资源?快使用搜索试试~ 我知道了~
1基于相关网络的Heng Wang Du Tran Lorenzo Torresani Matt Feiszli Facebook AI{hengwang,trandu,torresani,mdf}@ fb.com摘要运动是识别视频中动作的显著线索。现代动作识别模型通过使用光流作为输入或通过同时捕获外观和运动信息的3D卷积滤波器来明确地本文提出了一种基于可学习相关算子的替代方法,可用于在网络的不同层中的卷积特征映射上建立所提出的架构,使这种显式的时间匹配信息与传统的外观线索的融合捕获的2D卷积。我们的相关网络与广泛使用的3D CNN视频建模相比毫不逊色我们通过经验证明,相关性网络在各种视频数据集上产生了强大的结果,并且在四个流行的动作 识 别 基 准 上 优 于 最 先 进 的 技 术 : Kinet-ics ,Something-Something,Diving48和Sports1M。1. 介绍在AlexNet [29]在ImageNet [7]上取得突破之后,卷积神经网络(CNN)已经成为静态图像分类的主导模型[32,46,51,20]。在视频领域,CNN最初被用作视频各个帧的基于图像的特征提取器[26]。最近,用于视频分析的CNN已经被扩展为具有不仅捕获包含在各个帧中的外观信息而且捕获从图像序列的时间维度提取的运动信息这通常通过两种可能的机制之一来实现一种策略涉及使用双流网络[45,56,15,57,41,5],其中一个流对RGB帧进行操作以模拟外观信息,另一个流从作为输入提供的然后,从这两个不同的输入中获得的表示另一种策略是使用3D卷积[1,24,52,49,54,40,62,9],其通过时空内核耦合外观和时间建模。在本文中,我们提出了一种基于新的相关算子的新方案,该算子受到FlowNet [11]中相关层的启发。 虽然在FlowNet中,相关层只应用一次,将视频信息从RGB像素空间转换到运动位移空间,但我们提出了一个可学习的相关算子,用于在卷积特征映射上建立帧到帧的匹配,以捕获网络不同层中的不同相似性概念。与双流模型类似,我们的模型能够将明确的运动提示与外观信息融合在一起然而,虽然在双流模型中,运动和外观信息仅在模型的后期层中被分离地学习和融合,但我们的网络能够在整个网络中有效地整合外观和运动信息。与提取时空特征的3D CNN相比,我们的模型分解了外观和运动的计算,并学习了捕获不同补丁相似性度量的不同过滤器。学习的过滤器可以匹配在不同方向上移动的像素。通过我们对四个动作识别数据集(Kinetics,Something-Something,Div-ing 48和Sports 1 M)的广泛实验,我们证明了我们的相关网络与广泛使用的3D CNN视频建模相比毫不逊色,并且在突出的双流网络上取得了有竞争力的结果,同时训练速度更我们将我们的贡献总结如下:• 一种新的带可学习滤波器的相关算子。通过使用膨胀和分组,该运算符是高效的计算。与3D卷积相比或光流,它提供了一种替代的方式来建模视频中的时间信息。• 提出了一种新的相关网络,该网络能够将每个块的运动信息和外观信息相一对新架构的严格研究和与强基线的比较为不同的设计选择提供了见解。• 我们的相关网络在四个不同的视频数据集上的性能优于最先进的技术,而无需使用光学352353CW图像A滤波器图像B加权点积CW图像A图像B点积HH HImage A滤波器图像B框架1帧L(一)(b)第(1)款(c)(d)图1:所提出的相关运算符的说明。(a)用于光流场和几何匹配的相关算子。(b)采用过滤器使操作员(c)分组相关增加了输出通道的数量,(d)扩展相关运算符以处理视频帧序列。流在本文的其余部分中,我们在第2节介绍相关工作,并在第3节详细介绍所提出的相关算子。我们在第4节中介绍了相关网络。实验设置见第5节。我们在第6节讨论了实验结果,并在第7节总结了本文。2. 相关工作视频分类的架构。在流行的视频模型中,有两大类:双流网络[45,56,15,57,41,5]和3D CNN [1,24,52,49、54、40、62、9]。自从引入双流网络[45]以来,通过在两个流之间添加连接[15]或将2D模型膨胀为3D[4],已经实现了进一步的改进。3D CNN [1,24,52]通过在空间和时间上卷积3D滤波器来同时学习外观和运动信息成功的图像架构[46,51,20]已扩展到使用3D卷积的视频[4,52,62]。最近的研究[49,54,40,41]表明,将3D卷积分解为2D空间卷积和1D时间卷积可以获得更好的性能。我们的相关网络超越了双流网络和3D卷积,我们提出了一个新的算子,可以更好地学习视频序列的时间动态。用于动作识别的运动信息。在深度学习普及之前,各种视频功能[31,44,28,10,55]被手工设计用于编码视频中的运动信息。除了双流网络和3D CNN,FlowNet [38]提出联合估计光流并识别一个网络中的动作。Fan等人[12]和Piergiovanniet al. [39]还引入了网络来学习光流端到端的动作识别。也有工作[50,33,21]寻求替代光流。Sun等人[50]提取由光流引导的特征,以捕获相邻帧之间的变换Lee等 [33] 通 过 计 算 相 邻 帧 的 差 来 设 计 运 动 滤 波 器 。Hommos等人[21]提出使用相位而不是光流作为动作识别的运动表示。我们的论文是沿着设计架构的路线,直接从原始RGB像素学习运动信息。的应用相关性操作深matching [60]计算图像块的相关性,以找到密集的对应关系,从而改善光流。与使用手工特征的深度匹配不同,FlowNet [11]是一个网络,其中相关层执行乘法补丁比较。相关层也用于其 他 基 于 CNN 的 光 流 算 法 [48 , 23] 。 除 了 光 流 ,Roccoet al. [43]用它来估计两个图像的几何变换,而Feichten- hofer等。[16]将其应用于对象跟踪。在动作识别的背景下,Zhaoet al. [66]利用所述相关层来计算成本量以估计如在光流中的位移图。时空信道相关网络[8]将挤压和激励块[22]适配到ResNeXt [61]骨干。[8]中的相关性概念是指特征图的空间和时间维度之间的关系,这不同于广告的匹配。CW354操作者相关性3D卷积输入Cin×L ×H ×WCin×L ×H ×W滤波器L×Cin ×K ×KC输出×C输入 ×Kt ×Ky ×Kx输出(GKK)×长×高×宽C输出×长 ×高 ×宽#参数信用证,单位:丹麦克朗CoutCin K tK yKxFLOPsCin K K L HWCoutCin K tK yK xL HW表1:相关算子与3D卷积的比较。 当滤波器的大小K相似时(即,K<$K<$Kt<$Ky<$Kx),3D卷积的参数大约是相关算子的Cout/L倍,其FLOP大约是Cout倍。在我们的工作中研究了jumper框架。我们将我们的结果与6.3节中的[8]进行比较。我们的论文通过引入一个基于相关性的可学习算子来代替试图显式地或隐式地估计光流,相关运算符与其他运算符组合地重复使用以构建新的架构,该架构可以同时学习外观和运动信息并且在各种视频数据集上实现现有技术的准确性。3. 相关算子本节介绍了建议的相关操作-平坦化以起到通道的作用,以生成类似于输入图像的3D特征张量(K2×H×W可学习的相关运算符。计算机视觉已经取得了令人印象深刻的结果,从手工制作的功能[36,6]到可学习的深度神经网络[29,20]。原始的相关运算符[11,48,60,43]不包括可学习的参数,因此它在可以生成的表示类型方面非常有限。我们建议赋予操作员一个可学习的过滤器,如图1(b)所示。我们的动机是学习在匹配过程中选择信息渠道为了实现这一目标,我们引入一个权重向量W。点积中的1B A′ ′计算:Wc<$Pc(i,j)<$Pc(i,j)。的相似性托尔我们首先回顾现有的相关操作-B A′ ′两个特征块(即,P(i,j)和P(i,j))通常是在光流[11,48]和geo中使用的图像对上的tor。度量匹配[60,43]。然后,我们建议将过滤器注入操作员,使其可学习。我们讨论了如何增加输出通道的数量,同时保持效率和低数量的参数,通过一组明智的变体。最后,我们推广的运营商工作的视频帧序列。用于匹配的相关运算符。 如图1(a)所示,每个图像由大小为C×H×W的3D张量表示,其中C是通道数,H×W是空间分辨率。给定图像B中的一个特征块PB(i,j),我们计算该特征块与图像A中的另一个特征块PA(i′,j′)的相似度,其中(i,j)是该特征块的空间位置为了使计算更易于处理的是,特征块的大小可以减少到单 个pixel,因此PA(i′,j′)和PB (i,j)变成C维向量。相似性被定义为两个向量的点积:ΣC与它们的空间位置有多接近有关。因此,我们将不同的权重向量Wc应用于K×K邻域中的不同位置,以考虑匹配视差的空间分布。因此,每个滤波器的大小为C×K×K,如表1所示。K表示匹配两个贴片时的最大位移。较大的K值可以覆盖更大的区域并编码更多的信息。缺点是计算成本相对于时间成二次方增长。K.受扩张卷积[63]的启发,我们建议执行扩张相关来处理大位移,而不增加计算成本。我们通过一个膨胀因子D来扩大图像A中的匹配区域。实际上,我们设置K=7,D=2的膨胀因子,以覆盖13×13pix的区域埃尔斯除了膨胀之外,我们还在不同的情况下应用该运算符。空间尺度(如第4节所述),这是处理光流中大位移的流行策略[42]。从图4中可以看出,过滤器确实学会了选择有区别的通道,因为某些通道的过滤器比′ ′BA′′(一)其他. 在K×K邻域中具有不同的权重S(i,j,i,j)=1/Cc=1(Pc(i,j)<$Pc(i,j)),还使得滤波器能够学习不同方向上的像素移动。′ ′其中1/C表示归一化。(i,j)通常被限制在(i,j)的K×K邻域内。K是贴片匹配的最大位移考虑所有可能分组相关算子。相关算子将特征图从C×H×W转换为K2×H×W。在流行的CNN中,C可以是一到两个数量级的magni。′ ′2(i,j)和(i,j)在等式中的位置1,输出S为atude大于K.这意味着相关操作-大小为K×K×H×W的张量(其中K×K可以是tor)可能会导致通道数的大幅减少。355对于光流或几何匹配等应用来说,这不是问题如果我们想设计一个基于相关算子的网络,并重复应用它,它将大大降低通道的维数,并降低学习特征的表示能力,如6.2节中的结果所示。与[19]类似,我们提出了一种相关算子的分组版本,在保持效率的同时避免了缩减通道数量。引入了分组卷积[29,61在这里,我们利用这个想法,增加输出通道的数量,而不增加计算成本。对于分组相关运算符,所有C个通道被分成G组,用于输入图像和滤波器,并且在每组内计算相关运算所有组的输出堆叠在一起,如图1(c)所示。这增加了输出通道的数量由一个因素G,到一个K2G通道总数每个群的大小为g=C/G。通过适当地选择组的大小,我们可以在不增加额外开销的情况下控制信道的数目.从两张图片到一段视频。原始的相关算子被设计用于匹配一对图像。在本文中,我们将其应用于视频分类,其中输入是L个视频帧的序列。我们通过计算输入序列的每对相邻帧的相关性将该算子扩展到视频由于相邻帧对的数量是L-1(即,比世界上帧),我们建议计算第一个自相关除了图1(d)所示的相邻帧对的互相关之外,还可以使用帧的互相关。该方法可以使输出特征图的长度L与输入特征图的长度保持一致,并使相关算子在设计新的体系结构时更容易使用图4中每一列中过滤器的逐渐变化显示,当将相关运算符扩展到视频剪辑时,过滤器学习跟踪像素在帧间的运动表1总结了我们最终提出的相关运算器,并将其与标准3D卷积进行了比较。直观地说,3D卷积试图通过在空间和时间上卷积3D滤波器来学习空间和时间表示。然而,相关运算符被有意地设计成捕获广告帧之间的匹配信息。相关算子为视频分类提供了一种替代的时间信息建模方法,它比流行的3D卷积具有更少的参数和FLOP。4. 相关性网络相关算子是用来学习时间信息的,需要与其他算子结合使用层R(2+1)输出大小转换器11×7× 7,64,步幅1,2,2长×112×112Res21×1×1,643×1× 1,64×21×3× 3,641×1× 1,256长×56×56Res31×1×1,1283×1× 1,128×21×3× 3,1281×1× 1,512长×28×28第4区1×1×1,2563×1× 1,256×21×3× 3,2561×1× 1,1024L2×14×14res51×1×1,5123×1× 1,512×21×3× 3,5121×1×1,2048L4×7×7全局平均池#类表2:用于构建相关网络的R(2+1)D主干。捕获外观信息以便产生用于视频分类的综合特征集。我们首先简要介绍了从R(2+1)D [54]改编的主干架构,然后讨论如何通过将相关算子并入主干来构建相关网络以利用匹配信息R(2+1)D骨架。R(2+1)D网络[54]最近被引入,并在几个视频数据集上显示出最先进的动作识别结果。R(2+1)D将传统的3D卷积(即,3×3×3)变成2D空间卷积(即,1×3×3)和1D时间卷积(即,3×1×1)。解耦空间和时间滤波对于手工制作的fea和 faa都是有益的图[55,10]和3D CNN [54,49,40]。与原R(2+1)D[54]相比,我们作了一些修改,使其进一步简化,提高了效率,如:使用瓶颈层、支持更高的输入分辨率、保持通道数量一致、更少的时间跨越等。表2提供了本文中使用的R(2+1)D主链的细节。相关网络为了将相关运算符合并到骨干网络中,我们提出了两种类型的相关块,如图2所示。这些模块的设计与瓶颈模块的设计类似[20]。图2(a)示出了相关和块。该算法首先利用1×1×1卷积减少通道数最后用另一个1×1×1恢复原来的通道数。应用快捷连接[20]3567x7校正1x1x1转换1x1x1转换2ConcatCC/42K C/4gC1x1x1转换7x7校正1x1x1转换(a) 相关和CC/42K C/4gC-K C/4gC(b) 相关联系涵盖48种不同类型潜水的粒度分类,共18K视频。Sports1M[26]的注释是通过分析视频周围的文本元数据自动生成的。由于Sports1M中有许多长视频,我们将它们切成较短的片段,以更好地利用数据,并最终获得 约 500 万 个 样 本 的 训 练 集 。 对 于 Kinetics 和Something,测试集上的注释不是公开的,所以我们像其他人一样报告验证集的准确性。对于Diving48和Sports1M,我们报告了作者设置后测试集的准确性[34,26]。培训和测试。为了训练相关网络,我们从给定的视频中以224×224的分辨率采样L(16或32)帧的剪辑。一些视频在一些图2:两种类型的相关块。我们纪念每个运营商的通道数。用于剩余学习。图2(b)中的相关连接块在块内具有两个分支:一个分支具有相关算子,另一个分支通过1× 1 × 1传递输入特征图。这两个分支的输出通过在渠道维度我们在6.2节中比较了两种不同的设计。我们通过将相关块插入到R(2+1)D骨干结构中来获得最终的相关网络。在本文中,我们在表2中的res2、res3和res4之后插入一个相关块。我们省略res5,因为它的空间分辨率较低(即,7×7)。请注意,相关运算符的FLOP数量的相关网络仅对骨干网络的计算成本增加了小的开销第6.1节提供了更定量的分析。5. 实验设置视频数据集。我们在四个具有相当不同属性的视频数据集上评估我们的模型,强调动作识别的不同方面。Kinetics[27]是最受欢迎的视频分类数据集之一。它由大 约 30 万 个 YouTube 视 频 组 成 , 涵 盖 了 400 个 猫 -egories。[18]“物”是由众包(crowd sourcing)创造的。这个数据集关注的是人类对日常物品执行预定义的基本动作。对不同的对象(“某物”)执行相同的动作,从而迫使模型理解基本动作,而不是识别对象。它包括大约10万个视频,覆盖174个类。我们把这个数据集简称为Some- thing。Diving48[34]是最近推出的,包括潜水比赛的视频。该数据集旨在减少动作识别中场景和对象上下文的偏差,并迫使模型专注于理解视频数据的时间动态它有很好的-没有足够的帧。 我们简单地重复每一帧为了那些视频对于数据增强,我们调整输入视频的大小,使其短边在[256,320]像素中随机采样,然后[58,46],并在采样剪辑进行训练时应用时间对于我们的相关网络的默认配置,我们使用相关求和块,并将滤波器大小设置为K=7,组大小设置为g=32。训练是使用Caffe2 [3]在GPU集群上使用同步分布式SGD完成的,具有余弦学习速率计划[35]。我们总共训练了250个epoch,前40个epoch用于Kinet-ics上的热身[17]。由于Something和Diving48是较小的数据集,因此我们将其训练时间从250减少到150。对于Sports1M,我们训练了500个epoch,因为它是最大的数据集。为了进行测试,我们对视频中均匀间隔的10个除了第6.3节之外,所有报告的结果都是通过从头开始训练获得的,而没有在ImageNet [7]或其他大规模视频数据集上进行预训练我们只使用RGB作为模型的输入,不像双流网络[45,56,15,57]同时使用RGB和光流。6. 实验评价为了证明所提出的卷积网络的优点,我们首先在第6.1节中比较了相关算子与时间卷积。我们评估了不同设置下的相关网络,以证明我们的设计选择,并与第6.2节中的双流网络进行比较。我们在第6.3节中展示了我们的相关网络在所有四个数据集上的表现都优于现有技术。最后,我们在第6.4节中可视化学习的过滤器。6.1. 相关网络与基线骨干表3比较了具有不同基线的相关性网络。我们将来自表2的骨架结构表示为R(2+1)D-26。为了证明时间学习在不同数据集上的重要性,我们创建了R2 D-26,它是通过去除所有1D时间卷积得到的357模型长度前1位准确度(%)GFLOPS动力学东西潜水R2D-261627.567.815.817.5R(2+1)1636.069.935.422.7CorrNet-261637.473.438.527.0R2D-263255.070.128.129.2R(2+1)3271.972.345.032.2CorrNet-263274.875.147.435.5数据集动力学东西CorrNet-2675.147.4w/o滤波器73.946.5无分组74.246.1相关联系73.245.9表3:相关网络与基线。我们的CorrNet在三个数据集上的表现明显优于两个基线架构,与R(2+1)D相比,FLOP的增加非常小。使用更长的剪辑长度L导致所有三个数据集上更好的准确性。图3:滤波器大小K对分类精度的影响。选择(即,3×1×1),并在需要进行时间跨越时添加一个3×1×1最大池。CorrNet-26通过在res2之后插入一个相关和块来获得,R(2+1)D-26的res3和res4,如第4节所述。由于相关块给FLOP增加了一点开销,我们进一步将conv1的滤波器数量从64减少到32,并从res2用于CorrNet。这只会降低CorrNet的准确性略低于0。5%)。所得CorrNet-26具有与R(2+1)D-26类似的FLOP,如表3所示。R2D与R(2+1)D。R2D和R(2+1)D之间的差距在不同的数据集上变化很大。在Kinetics和Diving 48上,R(2+1)D仅比R2 D好2-5%,但在Something上差距扩大 到 20% 这 与 [62] 中 的 发 现 一 致 , 并 且 是 由 于Something的设计,其中对象不能预测动作标签。这也突出了设计新架构的挑战,这些架构可以很好地推广到不同类型的数据集。R(2+1)D vs CorrNet。在表3中将CorrNet与R(2+1)D进行比较时,我们观察到三个数据集的一致性改善超过3%。我们在Diving48上实现了最显著的增益,即,4.3%,使用16帧。请注意,我们改进的R(2+1)D是一个非常强大的基线,其性能已经与最佳结果相当(列在表4:CorrNet不同配置的动作识别准确率(%)数据集动力学东西CorrNet-2675.147.4R(2+1)D-26(RGB)72.345.0D-26(OF)66.542.5R(2+1)D-26(双流)74.447.9表5:CorrNet与双流网络的动作识别准确率(%)。表6和7)。在三个数据集上的3%的显著改进显示了从像素匹配中学习的信息的能力以及相关网络对不同特征的视频建模的普遍适用性此外,与R(2+1)D相比,CorrNet仅将网络的GFLOP从71.9提高到74.8,幅度很小输入剪辑长度。表3还比较了使用不同输入长度L的不同模型。正如预期的那样,将L从16帧增加到32帧可以提高所有数据集的性能。Something和Diving48从使用更长的输入中受益更多。值得注意的是,当使用32帧时,CorrNet对R(2+1)D的改进在很大程度上得以延续。为了简化,我们在以下所有实验中使用L=326.2. 评估设计选择并与双流网络进行为了证明我们的设计选择,我们在表4中实验性地比较了CorrNet-26的不同配置。我们考虑以下修改:1)去除相关算子中的滤波器; 2)去除分组以将信道的数量从C减少到K2; 3)将相关和块与相关连接块交换。请注意,我们一次只更改一件事。删除过滤器会导致两个数据集的准确率下降1%,因为它显著降低了学习表示的能力。类似地,通过移除分组引入的积极信道减少也导致约1%的准确度下降。correlation-concat块的性能比correlation-sum差,后者利用快捷连接来简化优化。图3显示了CorrNet-26在K∈{3,5,7,9}。 正如预期的那样,较大的K可以覆盖较大358方法预训练两件事潜水流CorrNet-101网络224×30 79.2CorrNet-101Sports1M224×3081.0表6:与Kinetics-400的最新技术水平进行比较在匹配像素的同时使用邻域,从而产生更高的精度。但是,超过K=7,改进变得微不足道,这可能是由于特征图的低分辨率。我们将CorrNet-26与使用表5中的R(2+1)D主干的双流网络进行比较。我们使用Farneback [13]算法来计算光流。R(2+1)D的双流网络通过在全局平均池化之后连接特征来实现。对于R(2+1)D,RGB和光流之间的准确性差距在Something上较小,因为Kinetics可以说更偏向于外观信息。我们的CorrNet-26单独与使用两个流的R(2+1)D-26相当。注意,双流网络有效地使骨干网的FLOP加倍,并且计算光流(这里不考虑)的成本也可能非常高。这表明我们的相关网络通过直接从RGB像素学习运动信息更有效6.3. 与最新技术水平的比较在前面的章节中讨论的相关网络基于R(2+1)D-26,对于res2、res3、res4和res5,块配置为[2,2,2,2]。为了与最先进的技术相比较,我们简单地在背骨上增加更多的层。遵循ResNet [20]的设计,CorrNet-50使用[3,4,6,3]的块配置,而CorrNet-50使用[3,4,6,3]的块配置。101 次 使 用 [3 , 4 , 23 , 3] 。 与 CorrNet-26 类 似 ,CorrNet-50在res2、res3和res4对于CorrNet-101,我们在res4的中间插入了一个额外的相关块,因此总共有4个相关块。表6、表7和表8比较了CorrNet- 50和CorrNet-101的准确度与不同设置下最近发表的几个结果对于CorrNet-101(最后两行CorrNet-50加密货币49.3 37.9CorrNet-101加密货币50.9 38.2CorrNet-101加密货币51.7 38.6CorrNet-101Sports 1米53.3 44.7表7:与最先进的Something- Something v1和Diving 48进行比较。在测试时,我们对更多的剪辑进行采样(30而不是10),如[58,59]所示。正如预期的那样,使用更深的模型或采样更多的剪辑可以进一步提高准确性。与表3中的CorrNet-26相比,CorrNet-101在Kinetics、Something和Diving 48上分别好4.1%、4.3%和3.1%。由于Diving48是四个数据集中最小的数据集,增加模型容量可能会导致过拟合,因此改进不太显著。我们还使用Sports 1 M数据集对CorrNet-101进行了预训练实验[26]。这一次我们实现了对Diving48最重要的改进,即,百分之六点一。较小的数据集可能会从预训练中受益更多,正如我们在UCF 101 [47]和HMDB 51 [30]中所看到的那样。在Kinetics和Something上,我们观察到Sports 1 M上的预训练有1-2%的适度改善。在动力学上,CorrNet-101显著优于使用相同设置的先前模型(即,没有预训练,只使用RGB),除了最近引入的SlowFast网络[14]和非本地网络(NL)[58]。事实上,与SlowFast-101相比,CorrNet-101的准确率略高(79.2% vs 78.9%),当SlowFast-101与NL结合时,准确率仅低0.6%与使用预训练的结果相比,CorrNet-101 比 LGD-3D 好 1.6%[41] , 即 , 81.0% 对79.4%。双流LGD-3D通过提取计算昂贵的TV-L1光流将精度提高到81.2%[65]。将CorrNet-101与表7中从头开始训练的其他方法进行比较,我们观察到Something的显着改进为7.8%(CorrNet-101为51.7%,MFNet-C101为43.9%[33])。在Diving48 [34]上,改进甚至更大,即,超过17%(38.6%来自CorrNet-101,R(2+1)D型占21.4%与pre-方法预训练两流GFLOPS×作物动力学STC-ResNext-101 [8]✗✗N/A68.7[54]第五十四届全国人民代表大会代表✗✗152×11572.0MARS+RGB [5]✗✗N/A74.8IP-CSN-152 [53]✗✗109×3077.8DynamoNet [9]✗✗N/A77.9[14]第101话✗✗213×3078.9[14]第十四话✗✗234×3079.8I3D [4]ImageNet✗108×N/A72.1[54]第五十四届全国人民代表大会代表运动1M✗152×11574.3[58]第五十八话ImageNet✗359×3077.7IP-CSN-152 [53]运动1M✗109×3079.2LGD-3D-101 [41]ImageNet✗N/A79.4[54]第五十四届全国人民代表大会代表运动1M✓304×11575.4I3D [4]ImageNet✓216×N/A75.7S3D-G [62]ImageNet✓142.8×N/A77.2LGD-3D-101 [41]ImageNet✓N/A81.2CorrNet-50✗✗115×1077.2[54]第五十四届全国人民代表大会代表[67]第六十七话✗✗✗✗34.421.4MFNet-C101 [33]✗✗43.9[58]第五十八话ImageNet✗44.4[54]第五十四届全国人民代表大会代表运动1M✗45.728.9荷兰I3 D-50+GCN [59]ImageNet✗46.1DiMoFs [2]动力学✗31.4Attention-LSTM [25]ImageNet✗35.6[37]第三十七话ImageNet✗48.638.8MARS+RGB [5]动力学✗51.7S3D-G [62]ImageNet✓48.2[67]第六十七话ImageNet✓✓42.022.8359表8:与Sports1M上的最新技术水平的比较在训练中,CorrNet-101在Something和Diving 48上的表现仍然好1.6%和5.9%。CorrNet-101的性能甚至略优于在Something上使用RGB和光流流增强的MARS [5],即,53.3对比53.0。表8提供了与Sports1M的最新技术水平的比较。我们只评估我们最好的模型CorrNet- 101以限制训练时间。表8中的所有方法都是从头开始训练的,因为Sports1M已经是一个非常大规模的视频数据集。我们的 CorrNet-101 建 立 了 一 个 新 的 艺 术 状 态 , 即 。77.1%,比最新的ip-CSN-152 [53]高1.6%。CorrNet-101也显著优于R(2+1)D [54] 3.8%,后者使用RGB和光流。总而言之,CorrNet是一种新的多功能主干,在各种视频数据集上的性能优于最先进的技术。由于相关算子的有效设计和我们改进的R(2+1)D主干,CorrNet的FLOP也低于以前的模型,如NL I3D [58]。可以进一步显著地降低FLOP(即,减少3倍),如表6和表7的倒数第三行所示。6.4. 可视化关联过滤器在本节中,我们将过滤器可视化(即,图中的黄色张量。1)从相关算子出发,更好地理解模型。我们从表6中选择从头开始训练动力学的CorrNet-101,以及具有最高输出分辨率的迭代算子,即,从RES2之后的相关块。 过滤器的大小为L×C×K×K , 如 表 1 所 列 , 在 这 种 情 况 下 为32×64×7×7我们可视化的过滤器为l=0,. . .,7和c=0,. . .,图4中的7。颜色编码表示学习的过滤器中的权重,白色箭头指向具有最大权重的方向。放大图4中的滤波器,我们观察到每个滤波器学习特定的运动模式(即,7×7网格)进行匹配。每列中的过滤器按时间排序并显示相似的模式。 白色箭头经常指向对于同一列中的过滤器,方向相似这表明我们的网络学习了时间一致性+1个0-1相关滤波器图4:在动力学上训练的CorrNet-101的可视化我们将相关滤波器可视化,它是形状为L×C×K×K的4D张量。每列中的过滤器在时间上对齐,并且每列表示不同的通道尺寸。白色箭头指向具有最高权重的位置,示出了不同的滤波器学习匹配在不同方向上移动的像素。运动,即,像素通常在帧之间以相同的方向移动。比较不同列中的过滤器,我们观察到一些列比其他列更活跃,这表明我们的过滤器学习哪些通道对于匹配更具鉴别力。这些通道的滤波器权重可以大于对匹配不那么有信息性的通道。7. 结论本文探索了一种从视频数据中学习运动信息的新方法与以前基于光流或3D卷积的方法不同,我们提出了一种可学习的相关算子,该算子在网络的不同层中的卷积特征映射上建立帧到帧的与标准的3D卷积不同,相关算子使运动信息的计算显式化。我们设计了基于该算子的相关网络,并在各种视频数据集上证明了其优越的性能。潜在的未来的工作包括应用可学习的相关算子的其他任务,如动作定位,光流,和几何匹配。方法预训练两个流运动1MCC3D [52]✗✗61.1LP3D [40]✗✗66.4[54]第五十四届全国人民代表大会代表✗✗73.0IP-CSN-152 [53]✗✗75.5Conv Pool [64]✗✓71.7[54]第五十四届全国人民代表大会代表✗✓73.3360引用[1] Moez Baccouche 、 Franck Mamalet 、 Christian Wolf 、Christophe Garcia和Atilla Baskurt。用于人类动作识别的顺序深度学习。人类行为理解国际研讨会,第29Springer,2011. 一、二[2] Gedas Bertasius , Christoph Feichtenhofer , Du Tran ,Jianbo Shi, 和 洛伦佐 托雷萨尼 学习 通过检测来区 分 运 动 特 征 。 arXiv 预 印 本 arXiv : 1812.04172 ,2018。7[3] Caffe2团队Caffe2:一个新的轻量级、模块化和可扩展的深度学习框架。https://caffe2.ai/网站。5[4] J. Carreira和A.齐瑟曼。你好,动作识别?新模型和动力学数据集。在CVPR,2017年。二、七[5] Nieves Crasto,Philippe Weinzaepfel,Karteek Alahari,and Cordelia Schmid. Mars:用于动作识别的运动增强rgb流。在CVPR中,第7882-7891页,2019年。一、二、七、八[6] N.达拉尔湾Triggs和C.施密特使用流量和外观的定向直方图进行在ECCV,2006年。3[7] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi,and Li Fei-Fei. Imagenet:一个大规模的分层图像数据库。在CVPR,第248-255页中。IEEE,2009年。一、五[8] Ali Diba , Mohsen Fayyaz , Vivek Sharma , M MahdiArzani,Rahman Yousefzadeh,Juergen Gall,and LucVan Gool.用于动作分类的时空通道相关网络。ECCV,2018年。二、三、七[9] 阿里·迪巴,维韦克·夏尔马,吕克·范古尔,和雷纳·斯蒂费尔-哈根. Dynamonet:动态动作和运动网络。ICCV,2019。一、二、七[10] P. Dollar,V.拉博湾Cottrell和S.贝隆吉基于稀疏时空特征的行为识别。在procICCV VS PETS,2005年。二、四[11] Alexey Dosovitskiy,Philipp Fischer,Eddy Ilg,PhilipH¨usser , CanerHazirbas , VladimirGolkov , PatrickvanderSmagt,Daniel Cremers,and Thomas Brox.Flownet:使用卷积网络学习光流在ICCV,2015年。一、二、三[12] 范立杰,黄文兵,甘创,龚伯庆,黄俊洲.用于视频理解的运动表示的端到端学习在CVPR中,第6016-6025页2[13] 贡纳·法内巴克。基于多项式展开的两帧运动估计在斯堪的纳维亚国际年龄分析会议上,第363-370页。施普林格,2003年。7[14] Christoph Feichtenhofer , Haoqi Fan , Jitendra Malik ,and Kaiming He.用于视频识别的慢速网络。在ICCV,第6202-6211页,2019年。7[15] ChristophFeichtenhofer、AxelPinz和AndrewZisserman 。 卷 积 双 流 网 络 融 合 视 频 动 作 识 别 。 在CVPR,2016年。一、二、五[16] ChristophFeichtenhofer、AxelPinz和AndrewZisserman。检测跟踪和跟踪检测。在CVPR中,第3038-3046页,2017年。2[17] PriyaGo yal , PiotrDolla'r , RossGirshick , PieterNoord-huis , Lukasz Wesolowski , Aapo Kyrola , AndrewTulloch,361贾阳青,何开明。准确、大的小批量sgd:1小时内训练imagenet。arXiv预印本arXiv:1706.02677,2017。5[18] Raghav Goyal , Samira Ebrahimi Kahou , VincentMichal-ski,Joanna Materzynska,Susanne Westphal,Heuna Kim , Valentin Haene
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- NIST REFPROP问题反馈与解决方案存储库
- 掌握LeetCode习题的系统开源答案
- ctop:实现汉字按首字母拼音分类排序的PHP工具
- 微信小程序课程学习——投资融资类产品说明
- Matlab犯罪模拟器开发:探索《当蛮力失败》犯罪惩罚模型
- Java网上招聘系统实战项目源码及部署教程
- OneSky APIPHP5库:PHP5.1及以上版本的API集成
- 实时监控MySQL导入进度的bash脚本技巧
- 使用MATLAB开发交流电压脉冲生成控制系统
- ESP32安全OTA更新:原生API与WebSocket加密传输
- Sonic-Sharp: 基于《刺猬索尼克》的开源C#游戏引擎
- Java文章发布系统源码及部署教程
- CQUPT Python课程代码资源完整分享
- 易语言实现获取目录尺寸的Scripting.FileSystemObject对象方法
- Excel宾果卡生成器:自定义和打印多张卡片
- 使用HALCON实现图像二维码自动读取与解码
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功