没有合适的资源?快使用搜索试试~ 我知道了~
视频动作识别的广义运动进行相似性比较,从而提供丰富和强大的运动表示
13065学习空间和时间作为视频动作识别的广义运动Heeseung Kwon*Manjin Kim*Suha Kwak Minsu Cho浦项科技大学(POSTECH),韩国http://cvlab.postech.ac.kr/research/SELFY/摘要时空卷积通常无法学习视频中的运动动态,因此需要有效的运动表示用于野外的视频理解。在本文中,我们提出了一个丰富的和强大的运动表示的时空自相似性(STSS)的基础上。给定帧序列,STSS将每个局部区域表示为其在空间和时间上的邻居的相似性。通过将外观特征转换为关系值,它使学习者能够更好地识别空间和时间上的结构模式。我们利用STSS的整个体积,并让我们的模型学习从中提取有效的运动表示。被称为SELFY的神经块可以很容易地插入到神经架构中,并在没有额外监督的情况下进行端到端训练。在空间和时间上具有足够的邻域体积的情况下,它有效地捕获视频中的长期交互和快速运动,从而导致鲁棒的动作识别。我们的实验分析表明,它优于以前的方法运动建模,以及它的互补性,从直接卷积的时 空 特 征 。 在 标 准 动 作 识 别 基 准 测 试 Something-Something-V1 V2、Diving-48和FineGym上,所提出的方法实现了最先进的结果。1. 介绍时空动态学习是视频理解的关键。虽然近年来已经为此目的积极地研究了在空间和时间上扩展标准卷积[1,44,46],但迄今为止的经验结果表明,单独的空间-时间卷积不足以掌握整个画面;它经常学习不相关的上下文偏置而不是运动信息[32,33],因此在大多数情况下,光流的附加使用证明提高了性能[1,29]。受此启发,再--*同等贡献。图1:时空自相似性(STSS)表示学习。STSS通过每个位置(查询)与其在空间和时间上的邻居(邻域)的相似性(STSS张量)来描述每个位置(查询)。它允许对运动采取广义的、有远见的观点,即、短期和长期、向前和向后以及空间自运动。我们的方法学习从STSS中提取丰富的运动表示,而无需额外的监督。分动作识别方法学习提取明确的运动,即流或对应关系,以提高性能[22,27]。但是,是否有必要提取这种明确的流或对应形式?我们如何才能学习更丰富和更强大的形式的运动信息的视频在野外?在本文中,我们提出了学习时空自相似性(STSS)表示的视频理解。自相似性是图像的关系描述符,其通过将每个局部区域表示为其空间邻居的相似性来有效地捕获内部结构[37]。如图所示。1,给定帧序列,即,一个视频,它13066沿着时间延伸,并且因此将每个局部区域表示为其在空间和时间上的相邻区域的相似性。通过将外观特征转换为关系值,STSS使学习者能够更好地识别空间和时间上的结构模式对于相同帧处的邻居,其计算空间自相似性图,而对于不同帧处的邻居,其提取运动似然图。请注意,如果我们将注意力集中在STSS内的下一帧的相似性映射上,并尝试提取单个位移向量到帧处最可能的位置,则问题简化为光流,这是一种相比之下,我们利用STSS的整个体积,并让我们的模型学习以端到端的方式从中提取广义运动表示。由于在空间和时间上具有足够的邻域体积,它可以有效地捕获视频中的长期交互和快速运动,从而实现鲁棒的动作识别。我们介绍了一个神经块STSS表示,被称为SELFY,可以很容易地插入到神经架构和学习端到端,而无需额外的监督。我们的实验分析表明,它的优越性比以前的方法运动建模,以及它的互补性,从直接卷积的时空特征。在动作识别的标准基准上,Something-Something V1 V2 [10] 、 Diving-48 [28] 和 FineGym[36],所提出的方法实现了最先进的结果。2. 相关工作视频动作识别。视频动作识别的目的是将视频分类成预定义的动作类别,并且动作识别中的主要问题之一是捕获视频中的时间动态。对于现代神经网络,以前的方法试图以不同的方式学习时间动态:双流网络与外部opti- cal流量[38,49],经常性网络[3],时间池-ing方法[9,23]和3D CNN [1,44]。最近的方法已经介绍了先进的3D CNN [5,7,29,45,46],并显示了捕获时空特征的有效性,使得3D CNN现在成为学习视频中的时间动态的事实上然而,时空卷积是脆弱的,除非相关特征跨固定大小的内核内的帧被很好地对齐为了解决这个问题,一些方法利用可变形卷积自适应地平移内核偏移[25,55],而一些方法[8,26]调制其他超参数,例如,更高的帧速率或更大的空间接收场。与这些方法不同的是,我们通过足够量的STSS来解决时空卷积的问题,捕获有远见的时空关系。学习运动特征。由于使用外部光流有利于3D CNN提高动作识别精度[1,46,57],因此提出了几种方法来学习从RGB序列中逐帧运动特征的神经架构。一些方法[6,34]将TV-L1 [54]光流内化到CNN中。逐帧特征差异[14,24,27,42]也被用作运动特征。最近的基于相关性的方法[22,48]采用相关算子[4,41,53]来学习相邻帧之间的运动特征。然而,这些方法计算两个相邻帧之间的逐帧运动特征,然后依赖于堆叠的时空卷积来捕获长距离运动动态。相反,我们建议学习STSS特征,作为广义运动特征,其能够捕获视频中的短期和长期交互。自相似性自相似性通过计算个体图像特征之间的相似性来描述个体图像特征的关系结构[37]。 几种方法[15,16,37,43]使用自相似性作为浅关系描述符,其对领域中的光度变化具有鲁棒性 模板匹配[37],捕获视图不变的几何图案[15,16],或查找语义对应[17,21,43]。在视频理解中,有一些方法[30,50]使用视频的自相似性作为STSS的一种形式。然而,这些方法将STSS用于随后的特征聚合步骤,而不是从中学习表示;非局部操作[50]使用STSS作为聚合特征[13,35,39,47]的注意力权重,CPNet [30]使用STSS选择外观特征对。所有这些方法在聚合过程中丢失了STSS的丰富运动信息,不适合捕获视频的运动内容。相比之下,我们主张使用- ING STSS直接运动表示学习。我们的方法充分利用了作为广义运动信息的完整STSS,并在视频处理架构内学习了用于动作识别的有效表示。据我们所知,我们的工作是第一次在学习STSS表示使用现代神经网络。本文的贡献可以概括如下。首先,我们重新审视自相似性的概念,并提出学习一个广义的,有远见的运动表示,从STSS。其次,我们实现STSS表示学习作为一个神经块,被称为SELFY,可以集成到现有的神经架构。第三,我们对SELFY提供全面的评估,达到最先进的基准:[&10 ][12][13][14][15][16][17][18][19][19][19][19]3. 我们的方法在本节中,我们首先回顾自相似性的概念,并讨论它与运动的关系。然后,我们介绍了我们的方法学习有效的时空自相似性表示,它可以很容易地集成到视频处理架构和学习端到端。13067∈--··∈∈ −×--̸∈ −∈∈图2:我们的自相似性表示块(SELFY)的概述。SELFY块将视频特征张量V作为输入,将其变换为STSS张量S,并从S中提取特征张量F。然后,它通过特征积分产生最终的STSS表示Z,其大小与输入V相同。所得到的表示Z通过逐元素加法被融合到输入特征V中,从而使得SELFY充当残差块。详情见正文3.1. 自相似变换自相似性是抑制外观变化并揭示结构模式的关系描述符[37]。给定图像特征图IRXX XYXC,自I的相似性变换导致4D张量SRX×Y×U×V,其元素定义为Sx,y,u,v = sim(Ix,y,I x+ u,y+v),其中sim(i)是相似性函数,例如余弦相似性。 这里,(x,y)是查询坐标,而(u,v)是查询坐标。空间偏移。为了施加局部性,偏移被限制到其邻域:(u,v)[dU,dU][dV,dV],使得U=2dU+1且V=2dV+1,分别活泼地 通过将C维外观特征Ix,y转换为UV维关系特征Sx,y,它抑制外观的变化并揭示图像中的空间结构。请注意,自相似性变换与两个不同特征图(I,I′RX×Y×C)之间的常规交叉相似性(或相关性)密切相关,其可以定义为到其时间邻域:l[dL,dL],因此L=2dL+1。STSS描述了哪些类型的信息有趣的是,对于每个时间t,STSS张量S可以沿着时间偏移l分解成单个空间自相似性张量(当l=0时)和2dl空间交叉相似性张量。sors(当l=0时);偏移量较小的部分张量(例如:L=1或+1)从相邻帧收集运动信息,并且具有较大偏移的那些帧从时间上向前和向后的另外的帧捕获运动信息。不像先前的方法来学习运动[4,22,48],其依赖于相邻帧之间的交叉相似性,STSS允许对运动采取广义的、有远见的观点,即,既有短期的也有长期的,既有向前的也有向后的,还有空间的自运动。3.2. 时空自相似表征学习通过利用STSS中的丰富信息,我们建议学习用于视频理解的广义运动表示。要实现这一目标,无需额外的超...Sx,y,u,v= sim(Ix为oh,I′x+u,y+v).视觉,我们设计了一个神经块,被称为SELFY,它可以插入到视频处理架构和学习给定两个图像的移动对象,交叉相似性变换有效地捕获运动信息,因此通常用于光流和对应性估计[4,41,53]。对于帧序列,即视频,可以自然地沿着时间轴扩展空间自相似性。设VRT×X×Y×C 表示的特征图T帧的视频V的时空自相似(STSS)变换导致6D张量S∈端到端图2示出了总体结构。它包括三个步骤:自相似变换、特征提取和特征集成。给定输入视频特征张量V,自相似变换步骤将其转换为STSS张量S,如等式(1)中所示。1.一、在下文中,我们描述特征提取和集成步骤。3.2.1特征提取RT×X×Y×L×U×V,其元素定义为从STSS张量S∈RT×X×Y×L×U×V ,我们提取St,x,y,l,u,v = sim(Vt,x,y, Vt+ l,x+u,y+ v),(1)其中(t,x,y)是查询坐标,并且(l,u,v)是距查询的时空偏移除了上述空间偏移的局部性之外,时间偏移l也受到限制每个时空位置(t,x,y)和时间偏移l的C/F维特征,使得所得张量为RT×X×Y×L×CF,与平移等变在空间、时间和时间偏移上。 L的维数以提取跨不同∈13068∈∈∈∈∈t,x,y,l·(a) soft-argmax(b)MLP(c)卷积图3:从STSS提取特征。对于时空位置(t,x,y),每种方法将STSS张量S的(L,U,V)体积变换为(L,C,F)。详情见正文以一致的方式进行时间偏移。虽然存在许多设计选择,我们介绍了三种方法,在这项工作中的特征提取。Soft-argmax。第一种方法是使用S来计算显式位移场,先前的运动学习方法使用空间交叉相似性[4,41,53]来采用S。一卷积第三种方法是学习S的(L,U,V)体积上的卷积核(图11)。第3c段)。 当我们把S看作一个7D张量S∈RT×X×Y×L×U×V×C,其中C= 1时,共溶剂层g(·)可以表示为g(S)= ReLU(Conv(S,Ke)),(5)可以通过索引位置来提取位移场通过arg max(u,v)获得最高相似度值,但它是其中KeR1×1×1×Lκ×Uκ×Vκ×C×C′是一个多通道T×X×Y×L×U×V×1不 可 微。 相 反 ,我 们 使 用 soft-argmax [2] , 它 使用softmax加权聚合位移向量(图2)。(见第3a段)。soft-argmax特征提取可以表示为卷积核从R开始,我们逐渐下采样(U,V)并通过具有步幅的多个卷积来扩展通道,最终得到RT×X×Y×L×1×1×CF;我们保留L维,因为保持良好的时间分辨率被证明是有效的。F=ΣΣu,vexp(St,x,y,l,u,v/τ)exp(St,x,y,l,u′,v[u;v],(2)用于捕获详细的运动信息[8,29]。 在在实践中,我们重塑S,然后沿着S的(l,u,v)维度应用规则的3D卷积。卷积这 导 致 特 征 张 量 FRT×X×Y×L×2 。 温 度 因 子 τ 调 整softmax分布,我们设置τ=0。01在我们的实验中多层感知器(MLP)。第二种方法是学习将自相似性值转换为特征MLP。为此,我们将(U,V)体积平坦化为UV维向量,并将MLP应用于它 们 ( 图 2 ) 。 第 3b 段 ) 。 对 于 整 形 张 量S∈RT×X×Y×L×UV,一个感知器f(·)可以表示为f(S)= ReLU(S×5W),(3)其中×n表示n-模张量积,W∈RC′×UV为感知器参数,输出为f(S)RT×X×Y×L×C′。因此,MLP特征提取可以公式化为F=(fn◦ fn−1◦···◦ f1)(S),(4)产生一个特征张量F∈RT×X×Y×L×CF。具有n层的特征提取因此可以公式化为F=(gn◦gn−1◦···◦g1)(S),(6)这导致特征张量FRT×X×Y×L×CF。这种方法在学习结构模式与它们的卷积核时是有效的,因此优于前面的方法,如将在我们的实验中看到的。3.2.2特征整合在该步骤中,我们将提取的STSS特征FRT×X×Y×L×CF进行积分,以将它们反馈到具有(T,X,Y,C)体积的原始输入流。我们首先使用时空卷积核沿(t,x,y)维。卷积层h()可以表示为h(F)= ReLU(Conv(F,Ki)),(7)这种方法更灵活,也可能更有效。其中K是∈RTκ×Xκ×Yκ×1×CF×CF′是多通道u′,v′′/τ)13069比soft-argmax更有效,因为它不仅可以编码位移信息,而且可以直接访问相似性值,这可能有助于学习运动分布。卷积核这种类型的卷积通过沿着(t,x,y)维度扩展感受野来集成所提取的STSS特征在实践中,我们重塑F,然后沿着F的(t,x,y)维度应用规则的3D卷积。13070F∼× ×××× ××∈×× ×∈合成特征F∈RT×X×Y×L×C定义为数据集共享被标记的相同的174个动作类,例如,F=(hn◦ hn−1 ◦···◦ h1)(F).(八)Diving-48 [28]包含具有48个不同潜水动作类的18 k视频,是最小化上下文偏差的动作识别数据集,即场景或对象。然后,我们将(L,C)体积平坦化为LC维FineGym[36]是一个建立在向量以获得FFRT×X×Y×LCFF,并应用111卷积层以获得最终输出。该卷积层集成来自不同时间偏移的特征,并且还调整其通道维度以适合原始输入V的通道维度。最终输出张量Z表示为Z= ReLU(F×4Wθ),(9)哪里n 是n-模张量积和WθRC×LCF是卷积层的权重最后,我们通过逐元素加法将得到的STSS表示Z组合到输入特征V中,从而使SELFY充当残差块[11]。4. 实验4.1. 实现细节动作识别架构。我们采用TSN ResNets [49]作为2DCNN主干,TSM ResNets [29]作为3D CNN主干。TSM使得能够通过在卷积操作之前沿着时间轴移位输入声道的一部分来使用空间卷积获得空间-时间卷积的效果TSM 被 插 入 到 ResNet 的 每 个 残 差 块 中 。 我 们 采 用ImageNet预训练的权重作为主干。为了将骨干网转换为自相似网络(SELFYNet),我们在骨干网中的第三阶段之后插入单个SELFY块,其中添加剂融合。对于SELFY块中的特征提取和积分,我们分别使用沿(l,u,v)维度的四个1 3 3卷积层和沿(t,x,y)维度的四个1 33卷积层更多详情请参见补充材料A。培训测试。对于训练,我们使用基于片段的采样从每个视频中采样8或16帧的剪辑[49]。时空匹配区域(L,U,V)当使用8时,将SELFY块的值设置为(5,9,9)或(9,9,9或16帧。 为了测试,我们抽取一个或来自视频的两个剪辑,裁剪它们的中心,并评估采样剪辑的平均预测。更多详情请参见补充材料A。4.2. 数据集为了评估,我们使用包含视频中的细粒度时空动态的基准。Something-Something V1& V2(SS-V1& V2)[10]都是大规模动作识别数据集,分别包含108 k和220 k视频剪辑。两体操视频我们采用Gym288和Gym99集合,分别包含288和99个类。4.3. 与最新方法的为了进行公平的比较,我们将我们的模型与其他未在其他大规模视频数据集上进行预训练的模型进行比较,例如。,Kinetics [20]或Sports1M [19]中的方法。表1总结了SS-V1 V2的结果。该表的第一和第二隔室分别示出了其他2D CNN和(伪)3D CNN模型的结果。 每个区室的最后部分显示SELFYNet的结果。具有TSN-ResNet的SELFYNet(SELFYNet-TSN-R50)在前1准确度上分别达到50.7%和62.7%当我们采用TSMResNet(TSM-R50)作为我们的骨干,并使用16帧,我 们 的 方 法 ( SELFYNet-TSM-R50 ) 达 到 54.3% 和65.7%,分别在top- 1的准确率,这是最好的单模型。与TSM-R50相比,单个SELFY块在top-1准确度上分别获得了7.0%p和4.5%p的显著增益;我们的方法在两个数据集上都比TSM-R50双流更准确。最后,我们的集成模型(SELFYNet-TSM-R50EN)与2-clip evalua- tion设置了一个新的国家的最先进的两个数据集,分别达到56.6%和67.7%,在顶部-1的准确性表2和表3总结了Diving-48的结果FineGym。对于Diving-48,使用16帧的TSM-R50在我们的实现中在top-1处示出了38.8%的准确度。SELFYNet-TSM-R50在top-1准确度上优于TSM-R50 2.8%p,因此它在Diving-48上将最先进的top-1对于FineGym,SELFYNet-TSM-R50在给定的288和99类分别达到49.5%和87.7%,超过了[36]中报告的所有其他模型。4.4. 消融研究我们进行烧蚀实验,以证明所提出的方法的有效性。 所有实验均使用8帧在SS-V1上进行。除非另有说明,否则我们将ImageNet预训练的TSM ResNet设置为18(TSM-R18)的单个SELFY块,其中(L ,U ,V )= (5,9,9),作为我们的默认SELFYNet。相似性的类型。在表4a中,我们通过改变TSN-ResNet-18(TSN-R18)和TSM-R18两者上的时间偏移1的集合来研究不同类型的相似性的影响。有趣的是,学习空间自相似性({0})13071×个--模型流#帧FLOPs剪辑SS-V1 SS-V2 top-1 top-5 top-1top-5TSN-R50从[29] 8 33G×1 19.7 46.6 30.0 60.5TRN-BNIncep [56] 8 16G×N/A 34.4 - 48.8-TRN-BNIncep双流[56] ✓ 8+8 16G×N/A 42.0 - 55.5-MFNet-R50 [24] 10 N/A×10 40.3 70.9--CPNet-R34 [30] 24 N/A×96--57.7 84.0TPN-R50 [52] 8不适用×10 40.6 - 59.1-SELFYNet-R50(我们的)8 37G×150.7 79.3 62.7 88.0I3 D来自[51] 32 153G×2 41.6 72.2--NL-I3 D来自[51] 32 168G×2 44.4 76.0--TSM-R50 [29] 16 65G×1 47.3 77.1 61.2 86.9TSM-R50双码流来自[22] ✓ 16+16 129G×1 52.6 81.9 65.0 89.4CorrNet-R101 [48] 32 187G×10 50.9-STM-R50 [14] 16 67G×30 50.7 80.4 64.2 89.8TEA-R50 [27] 16 70G×30 52.3 81.9--MSNet-TSM-R50 [22] 16 67G×1 52.1 82.3 64.7 89.4MSNet-TSM-R50EN [22] 8+16 101G×10 55.1 84.0 67.1 91.0SELFYNet-TSM-R50(我们的)8 37G×1 52.5 80.8 64.5 89.4SELFYNet-TSM-R50(我们的)16 77G×1 54.3 82.9 65.7 89.8SELFYNet-TSM-R50EN(我们的)8+16 114G×1 55.8 83.9 67.4 91.0SELFYNet-TSM-R50EN(我们的)8+16 114G×256.6 84.4 67.7 91.1表1:SS-V1和V2的性能比较。示出了Top-1、5准确度(%)和FLOP(G)P3 D来自[31] 16 N/A×1 32.4C3 D来自[31] 16 N/A×1 34.5GST-R50 [31] 16 59G×1 38.8CorrNet-R101 [48] 32 187G×10 38.277G×2表2:Diving-48的性能比较。示出了前1准确度(%)和FLOP(G)证明了两个主干上的准确性,这意味着自相似特征有助于捕获视觉特征的结构模式。在短时间范围内学习交叉相似性(1)在两个主干上显示出明显的准确性增益,指示运动特征的重要性。学习STSS优于其他类型的相似性,SELFYNet的准确性随着时间范围的增加而增加。当STSS对运动采取有远见的观点时,STSS学习视频中的短期和长期交互以及空间自相似性。特征提取和集成方法。在表4b中,我们比较了不同的组合的性能。表3:FineGym上的性能比较。显示了平均每类准确度(%)。上半部分的所有结果均来自FineGym论文[36]。特征提取和集成方法。从第2行到第4行,比较不同的特征提取方法,将特征集成方法固定到单个全连接(FC)层。与基线相比,使用soft-argmax提取空间位移特征,将top-1精度提高了1. 0%p。用MLP替换soft-argmax在top-1准确度上提供了1.9%p的额外增益,显示了直接使用相似性值的有效性。当使用卷积方法进行特征提取时,我们在top-1准确率达到46.7%;多通道卷积核在捕获沿(u,v)维的结构模式方面比MLP更有效。从第4排到第6排,不同的fea-模型#帧FLOPsTop-1模型#帧中国人288体育99×夹子是说是说TSN来自[28]--16.8TSN [49]326.561.4TRN来自[18]--22.8TRN [56]333.168.7Att-LSTM [18] 64 N/A×1 35.6I3D [1]荷兰I3D [50]8827.927.163.262.1GSM-IncV3 [40]1654G×240.3TSM-R50(我方实施)847.986.6TSM-R50(我方实施)SELFYNet-TSM-R50(我们的)161665G×238.841.6SELFYNet-TSM-R50(我们的)849.587.7TSM [29]334.870.6[29]第二十九话N/A46.581.2TSM-R50(我方实施)335.373.713072{·}比较了几种常用的积分方法,确定了特征提取方法为卷积法。用MLP替换单个FC层可将top-1精度提高0.6%p.用卷积层取代MLP进一步提高了top-1的准确率,达到48.4%。这些结果表明,我们的设计选择使用卷积沿(u,v)和(h,w)的维度是最有效的学习几何感知STSS表示。更多实验请参考补充材料C。4.5. 与自我注意机制的请注意,自相似性也用于自注意机制[13,35,39,47,50],但目的和方案都非常不同。自注意机制的目的是执行动态特征变换的图像上下文的基础上相比之下,我们的方法侧重于从自相似张量本身学习关系表示。我们直接将张量转换为具有可学习卷积核的关系表示,其中视频的关系表示被解释为广义运动表示。对于苹果到苹果的实证验证,我们将我们的方法与流行的自我注意力方法进行比较[35,39,50]。我们重新实现了局部自我注意[35]和转换器[39]块,并将它们扩展到时间维度。为了进行公平的比较,我们在ResNet-18的res3之后所有其他实验细节与补充材料A中的那些相同。表5总结了结果。我们的方法优于自我注意力的方法在前1和前5的准确度与大利润率。这些结果表明,学习STSS表示有效地利用运动特征,这在动作识别中起着至关重要的作用。更多实验请参考补充材料C。4.6. STSS功能我们进行实验,分析不同的含义的时空特征和STSS功能。我们组织了两个基本块来表示两个不同的特征:空间-时间卷积块(STCB),其由若干空间-时间卷积组成(图2)。图4a)和SELFY-s块,通过去除空间卷积层的SELFY块的轻加权版本(图4 b)。第4 b段)。两个块具有相同的感受野和类似数量的参数,用于公平比较。在TSN-ResNet-18的第三阶段之后插入基本块的不同组合。表6总结了SS-V1的结果。STSS特征(图图4b和4d)比时空特征(图4a和4b)更有效。图4a和4c)在插入相同数量的块时的前1和前5精度有趣的是,两种不同特征的组合(图1A和1B)显示了不同的特征。图4 e和4f)在顶部-1和顶部-5处显示更好的结果模型L的范围FLOPstop-1top-5公司简介-14.6 G16.240.8{0}{1}下一页SELFYNet{−1,0,1}{−2,···,2}{−3,···,3}15.3 G15.3 G16.3克17.3 G18.3G16.839.744.746.946.942.268.973.975.9七十六点二TSM-R18SELFYNet-{0}{1}下一页{−1,0, 1}14.6 G15.3 G 45.0 73.415.3 G16.3 G 47.8 76.717.3 G48.477.6{−3,···,3}18.3 G48.6 77.7{−2,···,2}(a) 相似性的类型。SELFY块中不同时间偏移集合的性能比较。表示一组时间偏移L。TSM-R18--43.072.3SmaxFC44.072.3MLPFC45.975.1SELFYNetConvFC46.775.8ConvMLP47.275.9ConvConv48.477.6(b) 特征提取和集成方法。Smax表示soft-argmax操作。MLP由四个FC层组成。 省略了特征集成阶段中的1×1×1层表4:SS-V1上的消融。显示前15个准确度(%)模型(L,U,V)top-1top-5TSM-R18-43.072.3TSM-R18 + LSA [35](5、 9、9)43.872.8TSM-R18 + NL [50]全球43.573.4TSM-R18 + MHSA [39]全球44.072.8SELFYNet(5、 9、9)48.477.6表5:与自我注意方法的性能比较[35,39,50]。LSA、NL和MHSA分别表示局部自注意块[35]、非局部块[50]和多头自注意块[39]与单一特征情况相比的准确性(图图4c和图4d),这表明两个特征彼此互补 我们推测这种互补性来自于两种特征的不同特性;时空特征是通过直接编码外观特征获得的,而STSS特征是通过抑制外观的变化并集中在空间和时间上的关系特征上获得的。模型提取积分top-1 top-513073联系我们{−···}{−···}--{}{−···}基线16.240.8(a)STCB42.471.7(b)SELFY-S46.375.1(c)STCB + STCB44.473.7(d)SELFY-s + SELFY-s46.875.9(e)SELFY-s + STCB(并行)46.976.5(f)SELFY-s + STCB(顺序)47.676.6图4:基本块及其组合。(a)空间-时间卷积块(STCB),(b)SELFY-s块,以及(c-f)它们的不同组合。表6:时空特征与STSS功能。图1中的基本块和它们的不同组合。4在SS-V1上进行比较。(a) 腐败:遮挡(b)腐败:运动模糊(c)损坏视频图5:耐用性实验。(a)以及(b)示出了当不同程度的遮挡和运动模糊分别被添加到输入时SELFYNet变体的前1精度(表4a)。(c)显示了SELFYNet({−3,···,3})成功而SELFYNet({1})失败的定性示例。4.7. 使用STSS在这个实验中,我们证明了STSS表示,Tation有助于视频处理模型更强大的视频腐败。我们测试了两种可能在真实视频中发生的腐败类型:遮挡和运动模糊。为了诱发腐败我们要么切断特定帧的矩形块或生成运动模糊[12]。我们在测试阶段为SS-V1的每个剪辑损坏单个中心帧,并逐渐增加损坏的严重程度我们比较了表4a的TSM-R18和SELFYNet变体的结果。图5a 和 5b 分 别 总 结 了 两 次 损 坏 的 结 果 。 TSM-R18 和SELFYNets在短时间范围(0,1和1,0,1)的前1准确度显著下降,因为腐败的严重程度变得更难。我们推测,损坏的帧的功能propa-门通过堆叠的TSM,混淆了整个网络的工作。然而,具有长时间范围的SELFYNets(2,,2和3,,3)显示出比其他模型更鲁棒的性能。如图如图5a和5b所示,具有长时间范围的SELFYNet与其他SELFYNet之间的精度差距随着时间的延长而增加损坏率变高,表明更大尺寸的STSS特征可以提高动作识别的鲁棒性。我们还提出了一些定性的结果(图。5c)其中具有不同时间范围的两个SELFYNet, 1和3、,3,两者都正确回答而没有- out损坏,而具有1的SELFYNet对于损坏的输入失败。5. 结论我们已经提出了学习一个广义的,有远见的运动表示STSS的视频理解- ING。对STSS的综合分析表明,STSS特征有效地捕捉了短期和长期交互,补充了时空特征,提高了视频处理模型的鲁棒性我们的方法优于其他国家的最先进的方法上的三个基准视频动作识别。鸣 谢 。 这 项 工 作 得 到 了 三 星 高 级 技 术 研 究 所(SAIT),NRF资助(NRF-2021 R1 A2 C3012728)和IITP资助(No.2019- 2019)的支持。0-01906,人工智能研究生院计划- POSTECH)由韩国科学和信息通信技术部资助。(c)第(1)款(e)(一)(b)第(1)款(d)其他事项(f)第(1)款型号TSN-R18首页-1首页-513074引用[1] Joao Carreira和Andrew Zisserman。你好,动作识别?新模型和动力学数据集。IEEE计算机视觉和模式识别会议,2017年。一、二、六[2] Olivier Chapelle和Mingrui Wu。平滑信息检索度量的梯度下降优化。Informationretrieval,13(3):216-235,2010. 四个[3] JeffreyDonahue 、 LisaAnneHendricks 、 SergioGuadarrama、MarcusRohrbach、SubhashiniVenugopalan、Kate Saenko和Trevor Darrell。用于视觉识别和描述的长期递归卷积网络。IEEE计算机视觉和模式识别会议(CVPR),2015年。二个[4] Alexey Dosovitskiy、Philipp Fischer、Eddy Ilg、PhilipHausser、Caner Hazirbas、Vladimir Golkov、Patrick VanDer Smagt、Daniel Cremers和Thomas Brox。Flownet:使用卷积网络学习光流。IEEEInternational Conferenceon Computer Vision(ICCV),2015年。二、三、四[5] Linxi Fan,Shyamal Buch,Guanzhi Wang,Ryan Cao,Yuke Zhu , Juan Carlos Niebles , and Li Fei-Fei.Rubiksnet:可学习的3D移位,用于高效的视频动作识别。在proc欧洲计算机视觉会议(ECCV),2020。2[6] Lijie Fan , Wenbing Huang , Chuang Gan , StefanoErmon,Boqing Gong,and Junzhou Huang. 用于视频理解的运动表示的端到端学习。IEEE计算机视觉和模式识别会议,2018年。二个[7] 克里斯托夫·费希滕霍夫。X3d:扩展架构以实现高效的视 频 识 别 。 IEEE 计 算 机 视 觉 和 模 式 识 别 会 议(CVPR),2020年。二个[8] Christoph Feichtenhofer , Haoqi Fan , Jitendra Malik ,and Kaiming He.用于视频识别的慢速网络。在Proc.IEEE国际计算机视觉会议(ICCV),2019年。二、四[9] Rohit Girdhar和Deva Ramanan动作识别的注意力集中。arXiv预印本arXiv:1711.01467,2017。2[10] Raghav Goyal,Samira Ebrahimi Kahou,Vincent Michal-ski , Joanna Materzynska , Susanne Westphal , HeunaKim,Valentin Haenel,Ingo Fruend,Peter Yianilos,Moritz Mueller-Freitag,et al.学习和评估视觉常识的“某事某事”视频数据库。在proc IEEE国际计算机视觉会议(ICCV),2017。二、五[11] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习 在proc IEEE计算机视觉和模式识别会议(CVPR),2016。五个[12] Dan Hendrycks和Thomas Dietterich基准神经网络的鲁棒性 常 见 的 腐 败 和 扰 动 。 arXiv 预 印 本 arXiv :1903.12261,2019。八个[13] Han Hu,Zheng Zhang,Zhenda Xie,and Stephen Lin.用于图像识别的局部关系网络。在IEEE计算机视觉国际会议论文集,第3464-3473页,2019年。二、七[14] Boyuan Jiang , Mengmen Wang , Weihao Gan , WeiWu,and Junjie Yan.Stm:用于动作识别的时空和运动编码。在Proc. IEEE国际计算机视觉会议(ICCV),2019年。二、六[15] Imran N Junejo , Emilie Dexter , Ivan Laptev , andPatrick Perez.基于时间自相似性的视点无关动作识别。IEEE Transactions on Pattern Analysis and MachineIntelligence(TPAMI),2010年。二个[16] Imran N Junejo,Emilie Dexter,Ivan Laptev和Patrick PU'rez。根据时间自相似性的跨视图动作识别 在proc 欧洲计算机视觉会议(ECCV),2008年。二个[17] Dahyun Kang , Heeseung Kwon , Juhong Min , andMinsu Cho. 用 于 少 镜 头 分 类 的 关 系 嵌 入 。IEEEInternationalConferenceonComputerVision(ICCV),2021。二个[18] GaganKanojia,SudhakarKumawat,andShanmuganathan Raman.用于潜水分类的注意时空表示学习。 在proc IEEE计算机视觉和模式识别研讨会(CVPRW),2019年。六个[19]
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Fisher Iris Setosa数据的主成分分析及可视化- Matlab实现
- 深入理解JavaScript类与面向对象编程
- Argspect-0.0.1版本Python包发布与使用说明
- OpenNetAdmin v09.07.15 PHP项目源码下载
- 掌握Node.js: 构建高性能Web服务器与应用程序
- Matlab矢量绘图工具:polarG函数使用详解
- 实现Vue.js中PDF文件的签名显示功能
- 开源项目PSPSolver:资源约束调度问题求解器库
- 探索vwru系统:大众的虚拟现实招聘平台
- 深入理解cJSON:案例与源文件解析
- 多边形扩展算法在MATLAB中的应用与实现
- 用React类组件创建迷你待办事项列表指南
- Python库setuptools-58.5.3助力高效开发
- fmfiles工具:在MATLAB中查找丢失文件并列出错误
- 老枪二级域名系统PHP源码简易版发布
- 探索DOSGUI开源库:C/C++图形界面开发新篇章
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功