独立帧间注意力：一种新型视频模型中的关键特征聚合方法

191 浏览量更新于2023-10-25 收藏 1.33MB PDF 举报

视频模型

深度学习模型

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

3192视频模型中的独立帧间注意力Fuchen Long< $，Zhaofan Qiu <$$>，Yingwei Pan<$，Ting Yao<$，JieboLuo<$ and Tao Mei<$†JD Explore Academy，北京，中国美国罗切斯特大学@ gmail.com jluo@cs.rochester.edu;tmei@jd.com摘要运动作为视频的独特性，一直是视频理解模型发展的关键。现代深度学习模型通过执行时空3D卷积、将3D卷积分解为空间卷积和时间卷积，或沿时间维度计算自我注意力来利用运动。帧t +1内核权重(a) 时间卷积锡永这种成功背后的隐含假设是，连续帧之间的特征图可以很好地聚合。然而，该假设可能并不总是成立，特别是对于具有大变形的区域。在本文中，我们提出了一种新的配方帧间注意力块，即独立帧间注意力（SIFA），新颖地深入到跨帧的变形，以估计每个空间位置上的局部自注意。从技术上讲，SIFA通过两帧之间的差异重新缩放偏移预测来以当前帧中的每个空间位置然后，SIFA测量查询和关键字之间的相似性作为独立的注意加权平均值的时间聚合。我们进一步将SIFA模块分别插入到Con- vNets和Vision Transformer中，设计出SIFA-Net和SIFA-Transformer。在四个视频数据集上进行的大量实验证明了 SIFA-Net 和 SIFA-Transformer作为更强主干的优越性。更值得注意的是，SIFA-Transformer在Kinetics-400数据集上实现了83.1%的源代码可在https://github.com/FuchenUSTC/SIFA 上获得。1. 介绍视频是移动的视觉图像的电子表示，并且自然地形成运动，其表示物体或人的位置随时间的连续变化。对这种时间动态进行建模对于查询键/值关注(b) 沿时间维度查询键/值聚集关注(c) 帧间注意图1.说明（a）时间卷积，（b）自我注意沿着时间维度，以及（c）我们的帧间注意力。从理解静态图像扩展到视频。最近的进展通常建议沿两个方向利用运动一个涉及通过集成到时空3D卷积[18，50]或明确与空间卷积[3，52，62]协同工作来另一个测量跨帧的相同空间位置处的时间邻居上图1（a）和（b）分别从概念上描述了时间卷积和自注意力沿时间维度的实现。这些操作背后的内在精神源于跨帧的特征图应该很好地对齐的基础。然而，这一假设在实践中并不总是有效的。以图1中的三个连续帧为例，由于撑杆跳中运动员的运动，在圆圈中突出显示的帧上的相同位置对应于不同的对象（在该情况下是人和轨迹）。因此，对这些位置执行时间卷积或计算注意力对于时间特征聚合可能是次优的。为了缓解这一问题，我们建议3193在由运动引起的视频内容中，考虑到增强跨帧的特征图的对准并且最终改进时间聚集。从技术上讲，我们开发了如图1（c）所示的帧间注意力，以表征局部相邻区域内更丰富的帧间相关性，而不仅仅是通过这样做，帧间注意，一方面，是有益的更大的感受野，另一方面，体现了在该区域中的每个位置的重点，以更好地实现特征对齐。为了更好地支持大变形区域，我们进一步利用可变形设计并估计每个空间位置的偏移。此外，我们独特地利用跨帧的运动线索作为运动监督信号，并重新缩放可变形特征重采样。通过深入研究跨帧的变形，在局部变形区域内转移时间注意力，提出了一种新的视频模型中的独立帧间注意力（SIFA）块。具体地，我们将当前帧中的每个空间位置作为查询，并且其在下一帧的局部区域内的时间邻居相应地被视为键/值注意，鉴于对象的不规则几何变换，我们对空间变形中的时间相邻者的键/值进行采样，这是通过跨帧的运动线索的附加指导来学习的然后，SIFA块将每个时间邻居的估计帧间注意力作为其与查询的时间相关性。最后，我们聚集所有的时间邻居的附近帧帧间的注意力权重，以进一步加强查询特征在当前帧中经由时间聚合。SIFA块可以被视为用于时间建模的独立注意力原语，并且可以很容易地插入到任何2D CNN或VisionTransformer骨干中进行视频表示学习。通过在ResNet[17]和Swin Transformer [32]中直接插入SIFA块，我们构建了两个新的视频骨干，分别命名为SIFA-Net和SIFA- Transformer。通过对一系列动作识别基准的广泛实验，我们证明了我们的 SIFA-Net 和 SIFA-Transformer优于几个最先进的视频骨干。2. 相关工作我们将现有的视频表示学习研究分为手工制作和基于深度模型的方法。手工制作的代表。早期的手工制作的视频特征技术首先检测时空兴趣点，然后用局部表示来描述它们，例如STIP [23]，梯度直方图和光流直方图[24]，3D梯度直方图[21]和SIFT-3D [45]。此外，Wang et al. 设计密集轨迹特征[54]，从每个帧，并在光流场中跟踪它们以在时域中传达运动线索。然而，这些手工制作的功能并没有得到优化，因此很难在不同的视频任务中推广。基于深度学习的表示。这个方向首先通过直接在视频帧上应用2D CNN来进行视频表示学习。例如，Karpathy等人在固定大小的窗口中堆叠帧级CNN特征，然后利用空间卷积来学习视频表示[20]。后来在[47]中，通过在视觉帧和堆叠光流上分别利用两个2DCNN来设计双流模型。通过探索卷积融合[13]、时间段网络[12，57，63]和卷积编码[6]，进一步扩展了该技术。为了捕获在一些双流网络中通常被忽略的长期时间依赖性，基于LSTM的方法[40，48]被设计用于对视频中的长距离时间动态进行建模。上述方法仅将视频视为帧或光流的序列，而未利用跨连续帧的像素级时间演变。因此，提出了基于3DCNN的视频特征[50]，通过在短片段上采用3D卷积核来缓解这个问题。此外，随后的工作[3，41，43，62，64]表明，将3D卷积分解为2D空间卷积和1D时间卷积会产生更好的结果，并在定位任务上表现出良好的泛化能力[25，26，35最近，受NLP领域[53]将自注意力应用于图像特征学习[7，29，32]的令人印象深刻的表现的启发，TimeSmerer [2]沿着时间维度执行自注意力，并设计了五种用于时间建模的变体然而，这些配备有时间卷积或时间自关注的方法仍然遭受由于跨帧的对象变形而引起的鲁棒性问题。我们的工作属于基于深度模型的技术，通过自我注意力对时间动态进行建模。与TimeSinformer [2]不同，SIFA机制在具有大感受野的局部相邻区域内执行帧间注意，TimeSinformer [2]仅测量每个位置在相同空间位置处的时间相邻区域上的此外，SIFA块超越了规则局部区域内帧间自注意的度量，并利用局部可变形的邻居来处理不规则的时态建模中的物体变形问题。3. 我们的方法我们引入了一个新的独立帧间注意力（SIFA）的时间建模。SIFA利用连续帧间局部区域的时间相关性，通过注意力聚集相邻帧的局部邻域来增强每帧特征。接下来，视频模型中的新颖的独立块，即，SIFA块，3194按通道加权相关性Wcor求和点积∈∈∈×⊙×∈不·t=0聚集At+1时间长度，分别。我们首先将F重塑为一个2D特征序列{f}L−1。接下来，对于第t帧，我们取其帧t-1查询Qt帧t按键Kt+1Vt+1帧t+1空间位置（x，y）处的要素作为查询Q tRC.同时，将以（x，y）为中心的局部区域（大小：kk网格）内的第（t+1）帧的特征设置为键KT+1RC×{k×k}和值Vt+1RC×{k×k}。查询Qt和关键字Kt+1之间的相关矩阵W cor然后经由点产生来计算Wcor=Qt<$Kt+1，（1）(a) 独立帧间注意（SIFA）(b) 联合时空自注意（ST）(c) 时空分离的自我注意（T+S）图2. （a）我们的独立帧间注意（SIFA）和两种先前的时空注意，即，(b)联合时空自我注意（ST）和（c）分离时空自我注意（T+S）。通过将每个视频片段可视化为帧级补丁的序列，我们用红色表示查询补丁，并用非红色颜色显示每个注意力机制的时空邻居没有颜色的补丁被排除在注意力学习之外。与ST整体地在所有框架上使用注意不同，T+S沿着划分的空间和时间维度分别执行注意。被设计为在跨帧的局部可变形区域上执行这种帧间关注。通过将我们的SIFA块插入2D CNN（ResNet [17]）和Vision Transformer（Swin Transformer [32]），我们进一步阐述了两个视频骨干，即，SIFA-Net和SIFA-Transformer。3.1. 独立帧间注意（SIFA）在视频表示学习中进行时间建模的一种自然方法是使用1D时间卷积，该卷积跨帧进行像素级特征聚合然而，这种方式仅捕获沿时间维度的相同空间位置之间的运动线索，而忽略了用于时间建模的不同空间位置处的帧间相关性。受通过注意力对长距离依赖关系建模的启发[53，58]，我们设计了一种针对时间建模的新注意力机制，即，独立的帧间注意力（SIFA），利用局部区域内的帧间相关性，以有效的方式进行注意力学习。该算法将相邻帧局部区域内的所有时间相邻帧进行聚合，以增强每帧特征。在这里，我们介绍我们的SIFA的详细制定，如图2（a）所示。从技术上讲，设F为输入的3D特征图，大小为C×L×H×W，其中C，H×W，L表示信道大小、空间大小，其中表示测量查询与其时间邻居之间的成对时间相关性关键字）在本地k k网格内。现有的工作通常将学习到的相关系数R1×{k×k}作为像素级位移信息，并直接用它来增强主特征图，以辅助流量估计[14，61]，几何匹配[44]和运动建模[55]。作为替代方案，我们利用相关矩阵作为注意力权重，动态聚合相邻帧中局部区域内的相应值，以增强查询特征。特别地，通过将相关矩阵Wcor作为at-对于张力权重，局部区域内的值Vt+1以信道方式聚合：At+1=Wcorr[Vt+1]T，（2）其中At+1是从查询的时间邻居导出的聚合特征，并且[ ]T表示矩阵转置。之后，我们将查询与聚集特征集成，在时间特征聚集之后产生增强的查询特征YtYt=Q t+At+1。（三）因此，SIFA对第t帧中的每个空间位置执行帧间关注，以挖掘其在第（t+1）帧的局部区域内的时间相关性。因此，通过经由atten- tion聚合下一帧中的局部邻居的特征来加强每个帧的特征图。通过这种方式，我们在输入序列中的每对相邻帧注意，对于序列中的最后一帧，我们在该帧与其自身之间进行帧间关注，并通过特征聚合自身增强其特征图，从而保持输出帧序列的时间长度为L。与先前时空注意力的连接。在这里，我们进一步讨论了我们的SIFA和以前的时空注意机制之间的详细联系和区别。[2]引入了两种时空注意力（即，联合或分割时空自注意），其在空间和时间上使用自注意用于视频表示学习。具体地，联合时空自我注意力（即，日在时间聚合在相邻帧... … …0 t-1不t+13195×××Σ∈∈∈图2（b））整体地对所有帧的输入特征/补丁执行自关注。分离的时空自我注意力（即，图2（c）中的T+S）分别应用当前帧内的空间注意力和附近帧的相同空间位置我们的SIFA还旨在探索自我注意力沿时间维度的视频建模。与ST中对整体特征/块的全局时间注意不同此外，与S+T只挖掘连续帧在相同空间位置的时间演化不同，SIFA在局部区域内捕捉更丰富的帧间相关性用于注意力学习，从而便于时间建模。3.2. SIFA区块回想一下，我们的SIFA机制被设计为在连续帧之间对局部区域内的对象的时间演化进行然而，简单地在相等大小的局部区域（k k网格）上采用帧间注意力不可避免地忽略了每个帧中对象的不规则几何变换，导致次优解。为了缓解这个问题，我们设计了一个SIFA块，HH图3.我们的SIFA块的详细结构。以运动显著性图fm为条件，我们利用偏移估计器，用于预测第（t + 1）帧ft + 1的局部区域（kk网格）内的每个空间位置的2D偏移。注意，fset估计器被实现为具有2k2的输出信道大小的2D卷积层。更具体地，令（a，b）表示每个空间位置p=（a，b）在空间位置内的估计的2D偏移。以查询位置（x，y）为中心的k k网格。相应的不规则空间位置表示为p′=（a+ a，b+b）。在[5]之后，我们通过双线性插值在每个不规则空间位置p′处对特征K′t+1（p′）进行在附近帧中的局部可变形区域上应用帧间注意力，所述局部可变形区域由在自由形式的空间变形中采样的时间邻居组成。K′t+1 （p′）= G（p，p′）·Kp电话+1（p）、（6）操作可变形特征重采样的最典型方式是使用附加偏移来增强空间采样位置，该附加偏移通过可学习偏移估计器来预测，如在可变形ConvNets中 [5]。然而，该偏移估计器学习仅基于输入特征图本身来推断每个空间位置的2D偏移，同时留下未利用的连续帧之间的固有运动线索相反，我们建议估计2D偏移的每个空间位置在局部区域的基础上，其运动显着图（MSM），它作为运动监督，以指导可变形特征重采样。图3显示了SIFA块的详细结构。形式上，给定每对连续帧（即，t-其中p′是分数空间位置，并且p表示局部区域内的所有整数空间位置。Kt+1（p）表示在规则空间位置p上的主特征，G是双线性插值核. 对第t+1帧ft+1中的所有 k2 个可变形特征进行采样后，将其作为密钥K′t+1RC×{k×k} 和值V′t+1RC×{k×k}关于查询Q t在第t帧中。通过这种方式，我们在附近帧中的局部可变形区域上执行SIFA机制，并且通过经由注意力聚合这些可变形特征来进一步增强每帧特征：Wcor=Qt<$Kt′+1，第帧ft和第（t+1）帧f电话+1），我们首先计算At+1=Wcorr[Vt′+1]T，（七）之间的时间差（TD）f=f t+1− f t。（四）接下来，我们在这种时间差异上采用sigmoid操作，从而得到归一化的注意力图。该注意力图动态地精确定位第（t +1）帧中包含物体的高度显著运动的空间位置。因此，通过将第（t +1）帧f t+1的特征图与注意力图相乘来实现运动显著图（MSM）fm：fm=sigmoid（f）ft+1。（五）Yt=Q t+At+1。最后将第t帧的增强特征Yt作为SIFA块的输出.3.3. 2D CNN和具有SIFA的Vision Transformer我们的SIFA块作为一个独立的时间建模原语，可插入任何2D CNN或Vi- sion Transformer架构。这样的设计自然地提升了这些视觉骨干的节奏建模能力，从而促进了视频表示学习。在这里，我们提出了如何将SIFA块集成到前2D CNN中（例如，ResNet [17]）和Vision TransformerTDΔfft+ 1MS Mfm偏移HCH2k2KHWWWKCW偏移预测器按通道加权求和WWHK11KHWVt+'1CWCC1点积1H1111CQuer yQ tKeys Kt+'1Correlat io nWcorC帧t帧t+1C3196×××× ××SIFA3x3转换1x1转换1x1转换LNSIFAW-MSALNLNMLPLNMLPSW-MSA(a) SIFA-网络块（b）两个连续的SIFA-变压器块图4.（a）SIFA-Net和（b）SIFA-Transformer中的基本模块(e.g. 、 Swin Transformer [32] ）。图 4 描述了为ResNet/Swin Transformer中的基本构建块配备SIFA块的两种不同结构，即SIFA-Net和SIFA-Transformer。SIFA-Net. 大多数现有的视频骨干[3，42，52，62]将传统的3D卷积分解为2D空间卷积和1D时间卷积，并且1D时间卷积通常插入在2D CNN的空间卷积层之后，用于跨帧的时间我们遵循这种典型的范例，通过在ResNet [17]中的每个残差构建块内的3 3卷积请注意，我们只集成了最后三个阶段（即，res3，res4和res5），从而只增加了一小部分计算开销。最后，在输出特征上采用全局池化，得到用于视频分类的剪辑级特征。SIFA-变压器。最近，计算机视觉领域见证了强大视觉骨干中具有自我关注的变形金刚风格架构的兴起[7，32]。受此启发，我们进一步构建了Transformer风格的视频主干，命名为SIFA-Transformer，V1和V2[16]数据集。Kinetics-400数据集由来自400个动作类别的30万个视频组成Kinetics-400中的每个视频都是从原始YouTube视频中截取的10秒短片。在这个数据集中，所有的300K视频被分为240K，20K，40K分别用于训练，验证和测试。Kinetics-600是Kinetics-400的扩展版本，其中包括来自600个动作类别的约480K视频。在训练集、验证集和测试集、重新排序集中有390K、30K、60K剪辑。在Something-Something V1和V2数据集中，大约有来自174个动作类别的108 K和221 K视频，这些视频主要用于与交互相关的识别。训练/验证/测试集分别包括86 K/11.5K/11 K和169 K/25K/27 K视频网络培训。我们在Py-Torch框架上实现了我们的建议。采用具有余弦学习率的小批量随机梯度下降（SGD）算法[38]进行模型优化。我们将每帧的分辨率固定为224 224，这是从[256，340]中调整短尺寸的视频剪辑中随机裁剪的。输入剪辑长度设置在16到64的范围内。我们沿水平方向随机翻转每个剪辑以进行数据增强，但鉴于方向相关类，Something-Something V1和V2除外。SIFA块中的局部区域k的大小被设置为3。我们将基本学习率设置为0。04为SIFA-Net和0. 01为SIFA变压器。辍学率固定为0。五、最大的火车-在Kinetics 数据集中， epoch 数为 128 ，在 Something-Something数据集中，epoch数为64。最小批量大小为256，权重衰减参数设置为0。0001推理策略。我们采用两种推理策略来评估SIFA-Net和SIFA-Transformer。对于SIFA-Net，我们遵循[11]中的3-crop策略，从每个片段中裁剪三个256 256区域进行评估。因此，通过平均来实现视频级预测分数Swin Transformer [32]与我们的SIFA块。特别地，对于Swin Transformer中的每两个连续的Swin Transformer块，我们直接在具有规则窗口配置的MSA模块之后请注意，MSA模块的输出补丁序列被重新整形为具有正常大小（C L H W）的特征图序列，其充当SIFA块的输入。基于SIFA-Transformer中最后一个块的特征映射的输出整形序列，我们利用全局池来获得剪辑级特征。4. 实验4.1. 数据集和实施详细信息数据集。我们根据经验评估了我们的SIFA-Net和SIFA-Transformer 作为 Kinetics-400[3] ， Kinetics-600[15]，Something的视频骨干-从10个均匀采样的剪辑中提取所有分数。对于SIFA-Transformer，我们基于4个均匀采样的剪辑直接测量视频级4.2. SIFA阻滞在本节中，我们进行了一系列消融研究，以检查我们提出的SIFA-Net中独立帧间注意（SIFA）块的几种技术选择。具体来说，SIFA-Net的深层架构是基于ResNet-50的主干构建的，我们报告了Kinetics-400验证集上的前1和前5精度，以进行性能比较。独立帧间注意。我们首先调查门如何在我们的SIFA块中的每个设计影响的整体性能的SIFA-Net。表1a详细描述了SIFA块的不同变体之间的性能比较请注意，此处的所有消融运行仅通过在res5阶段将SIFA变体插入构建块来构建3197表1.在Kinetics-400数据集上使用16帧输入对SIFA-Net中的SIFA块进行消融研究报告了前1和前5的准确度（%），以及在推理时转发一个剪辑的计算成本（以GFLOPs为单位）(a)独立帧间注意。SIFA不同变体之间的比较。所有运行都是通过将每个块插入ResNet-50的res5(b)可变形偏移。SIFA块体变形偏移量不同测量方法的比较。所有运行都是通过将每个块插入ResNet-50的res5(c) 区域大小。通过使用不同的局部区域大小k进行比较。所有运行都是通过将每个块插入ResNet-50的res5模型GFLOPSTop-1Top-5二维ResNet2372.090.3SIFAC2373.390.8锡法河2474.691.5SIFA2475.492.9SIFA2575.592.9偏移GFLOPSTop-1Top-5正规（SIFAR）2474.691.5Cn v2D（ft+1）2474.791.6Conv3D（f）2774.891.9Conv2D（BMF）2475.092.1Conv2D（fm）（SIFA）2475.492.9大小kGFLOPSTop-1Top-51 ×12473.4 90.93 ×35 ×57 ×79 ×92425262975.4 92.975.4 93.075.4 93.075.5 93.1(d) SIFA-Net中SIFA区块的位置。将SIFA块插入ResNet-50的不同阶段的效果。阶段res2res3res4res5GFLOPSTop-1Top-52372.090.3✓2475.492.9✓✓2476.293.0✓✓✓2577.493.3✓✓✓✓2677.493.2ResNet-50我们从基本块（2D-ResNet）开始，这是一个没有任何时间建模的2D CNN瓶颈块。通过使用相关算子[55]升级基本块，SIFAC表现出更好的性能，这表明利用逐像素移动信息进行时间建模的优点。SIFAR通过帧间注意力进一步聚集其局部时间邻居，导致top-1准确度的性能提升74.6%。结果基本上突出了利用帧间注意力来对跨帧的局部区域内的时间相关性进行建模的优点。SIFA还得益于可变形特征重采样，该重采样探索了下一帧物体的不规则几何变换此外，我们还包括SIFA块的升级版本，即，- SIFA迭代，其聚合从先前帧和下一帧两者导出的局部可变形区域内的时间相邻者，而不是如在SIFA中那样仅涉及来自下一帧的时间相邻者在SIFA中沿着前向和后向方向的这种时间聚合仅导致边际性能改进（前1精度为0.1%），同时需要更多的GFLOP。可变形偏移。接下来，我们比较了不同的方法预测的2D偏移的每个空间位置在附近的帧变形特征重采样SIFA块。如前一节所述，SIFAR表示SIFA的降级版本，并且仅对附近帧中的规则局部区域采用帧间关注，而不进行可变形特征重采样。我们还包括三个消融运行的我们的SI F A，即，Conv2D（ft+1）、Conv3D（f）和Conv2D（f），它们以多种方式通过可变形特征重采样来升级SIFAR Concretely, Conv2D(ft+1) directlypredicts the 2D offset solely based on the feature map ofthe next frame through 2D convolu- tion. Conv3D（f）利用了整个(e) 时间建模。与不同时态建模技术的比较（主干：ResNet-50）。时间建模GFLOPSTop-1Top-5二维ResNet2372.090.3时间转换[52]3374.191.4时间转换[30]2374.791.4相关性[55]2375.191.6时间差[56]3676.692.8SIFA2577.493.3夹子特征（即，帧特征图的序列）以实现该剪辑内的每个空间位置的2D偏移。Conv2D（Convf）利用相邻帧之间的时间差来通过2D卷积推断2D偏移。表1b总结了不同方法测量可变形偏移的性能。特别是，通过额外探索每个帧中对象的空间变形，如在可变形的Co n vNets中，Co nv2D（ft+1）略微改善了SIFA R实验结果基本验证了变形特征重采样的有效性。Conv3 D（f）算法与Conv2D（ft+1）算法不同，前者独立预测每一帧的fsets的变形，后者基于整体帧序列联合推断每一空间位置的偏移量，从而获得更好的性能，但需要更多的计算量. Conv 2D（f）不是使用3D卷积来捕获用于Conv 3D（f）中的偏移预测的运动线索，而是显式地利用连续帧之间的时间差来经由2D卷积估计2D偏移，从而以有效的方式实现性能改进。此外，通过将下一帧的特征图与帧间运动显著性图整合以用于偏移预测，Conv2D（fm）（即，我们的SIFA）获得了最高的性能。区域大小。为了探索SIFA块中局部区域大小k对帧间注意力学习的影响，我们通过在表1c中以2的间隔将k从1变化到9来评估性能和计算成本。在k= 1的极端情况下，仅将相邻帧的相同空间位置处的单个时间邻居作为衡量帧间注意力的关键。因此，SIFA块退化为仅探索跨帧的相同空间位置中的时间演变的时间卷积随着使用更大的局部区域大小（k= 3），前1的准确率显着增加，从73.4%到75.4%。这基本上验证了跨连续的局部可变形区域执行帧间注意的优点。3198×∼表2. Kinetics-400的性能比较SIFA-Net的输入片段长度显示在括号内。方法骨干GFLOPs×视图Top-1Top-5卷积网络I3D [3]成立108×N/A80×1011×50152×1071×3033×3033×3033×3036×30282×3057×30115×1072×3072.190.3TSN [57]成立72.590.2MF-Net [4]R3472.890.4[52]第五十二届全国人民代表大会代表R3474.391.4S3D [62]成立74.793.4[30]第三十话R5074.191.2TEINet [33]R5074.991.8茶[28]R5075.091.8[第11话]R50+R5075.692.1荷兰I3D [58]R5076.592.6[27]第二十七话R5076.392.5CorrNet [55]R5077.2-TDN [56]R5077.593.2SIFA-Net（16）SIFA-Net（32）SIFA-Net（64）R50R50R5025×3051×30112×3077.478.580.193.393.694.4IP-CSN [51]R10183×30418×12359×30132×30224×30234×3076.792.3[27]第二十七话R10177.493.3荷兰I3D [58]R10177.793.3TDN [56]R10178.593.9CorrNet [55]R10179.2-[第11话]R101+R10179.893.9SIFA-Net（16）SIFA-Net（32）SIFA-Net（64）R101R101R10139×3078×30157×3078.779.881.394.094.295.2视觉Transformer时间变换器[2]维生素B2，380 ×33，992 ×12455×9282×1280.794.7ViViT [1]ViT-L81.394.7MViT [8]MViT-B81.295.1[34]第三十四话Swin-B82.795.5SIFA变压器Swin-B270×1283.195.7跳转当局部区域尺寸进一步增大时，性能受影响较小，但计算量普遍增加。因此，我们根据经验将局部区域大小k设置为3，这似乎是性能和计算成本之间的良好权衡。SIFA-Net中SIFA区块的位置。为了说明性能与SIFA块在SIFA-Net中的位置之间的关系，我们逐步将SIFA块插入ResNet-50主干中的阶段，并比较性能。表1d中所示的结果表明，将SIFA块插入到更多的级中通常可以提高性能，同时增加计算成本。当更仔细地观察SIFA块的不同位置的前1和前5精度时，SIFA的积分最后三个阶段（RES3、RES4和RES5）中的块对性能提升贡献更多当SIFA区块进一步封堵到res2阶段时，没有获得明显因此，我们仅将ResNet-50中的最后三个阶段与SIFA块集成在一起，并寻求良好的精度-计算成本平衡。时间建模。我们还比较了我们的SIFA与其他现有的时间建模技术。表1 e总结了将ResNet-50主干与不同的时间建模块集成的结果。总的来说，我们的SIFA表现出更好的性能比其他时间建模，ING方法较少或类似的GFLOPs。结果表明，探索跨帧的变形来估计时间聚集的局部自注意的优势。特别是，通过明确地捕获表3. Kinetics-600的性能比较SIFA-Net的输入片段长度显示在括号内。方法骨干GFLOPs×视图Top-1Top-5卷积网络I3D [3][第11话]成立R50+R50108×N/A36×3071.978.890.194.0SIFA-Net（16）SIFA-Net（32）SIFA-Net（64）R50R50R5025×3051×30112×3079.680.582.194.595.295.8[第11话]X3D-XL [10]R101+R101自定义234×3048×3081.881.995.195.5SIFA-Net（16）SIFA-Net（32）SIFA-Net（64）R101R101R10139×3078×30157×3080.881.683.295.295.595.9视觉Transformer时间变换器[2]维生素B1，703 ×33，992 ×12236×5282×1282.496.0ViViT [1]ViT-L83.095.7MViT [8]维生素B83.896.3[34]第三十四话Swin-B84.096.5SIFA变压器Swin-B270×1284.596.9跨帧的运动位移，相关性[55]优于时间卷积[52]。时间差[56]通过额外建模长期运动进一步提高了性能。然而，时间-时间差的性能仍然低于我们的SIFA，利用帧间注意力的时间建模。4.3. 与最先进方法的我们在Kinetics-400、Kinetics- 600和Something-Something V1（SSv 1）和V2（SSv 2）数据集上比较了SIFA-Net和SIFA-Transformer与所有运行简要分为两个范例：卷积网络和视觉Transformer。请注意，我们在两种骨干中实现SIFA-Net，即，ResNet-50（R50）和ResNet-101（R101），并且输入剪辑长度在{16，32，64}的范围内变化。SIFA- Transformer是基于SwinTransformer（Swin-B）的主干构建的，具有固定的输入剪辑长度（64帧）。计算成本以GFLOPs视图为单位进行测量，视图表示推理时从完整视频中采样的剪辑数量表2总结了Kinetics-400的性能比较。对于卷积网络组，我们的SIFA-Net相对于其他基线具有更好的性能。R50骨干网中的SIFA-Net（32）获得了78.5%的top-1准确率，比最好的竞争对手TDN高出1.0%，但在GFLOPs上的计算成本降低了30%。通过在每个片段中采样更多帧进行时间建模，SIFA-Net（64）将前1位的准确率从78.5%提高到80.1%。SIFA-Net的优越结果通常证明了将2D CNN与帧间关注相结合以实现时间建模的优势。当进一步将SIFA块插入到作为最先进的2DVision Transformer主干（Swin Transformer），SIFA-Transformer能够在Kinetics上实现最佳性能（前1精度为83.1%）400. SIFA-Transformer 的性能与卓越的 3D VisionTransformer（Video-Swin）相当，但需要更少的计算成本。业绩趋势3199低高表4.《Something-Something V1》和《Something-SomethingV2》SIFA-Net的输入片段长度显示在括号内。方法骨干GFLOPS×视图SSv1SSv2Top-1Top-5Top-1Top-5卷积网络帧t查询帧t+1&注意力图高运动显著图梯度-CAM低高低视觉Transformer时间变换器[2]ViViT [1]维生素BViT-L1，703×3903----62.5-65.4 89.8MViT [8][34]第三十四话维生素BSwin-B455×3321×3----67.7 90.969.6 92.7SIFA变压器Swin-B270×357.385.169.893.1如表3所示，Kinetics-600上的温度与Kinetics-400上的温度相似。结果再次验证了SIFA块在2D CNN和VisionTransformer骨干中对视频表示学习的影响。表4列出了SSv1和SSv2数据集上的性能。特别是，我们遵循一个剪辑和 3 个裁剪设置 [2 ， 8 ， 34] 进行 Something-Something测试类似地，R50和R101主干中的SIFA-Net此外，通过将SIFA块插入Swin-B主干，我们的SIFA-Transformer在SSv 1和SSv 2数据集上都获得了最佳性能。4.4. SIFA的可视化分析为了更好地定性检查用于视频表示学习的SIFA块，我们在图5中使用SIFA-Net（R50主干）的Grad-CAM[46]进一步可视化了局部可变形区域上的帧间注意力图、运动显著性图（MSM）和类激活图。注意，我们将每个采样剪辑的中心帧（第t帧）中的空间位置作为查询，并在res5阶段采用SIFA块的注意力图进行可视化。此外，对于k=3的SIFA块，如在可变形ConvNets中一样，在两个级别上执行可变形特征重采样，导致在第（ t+1 ）帧中有92= 81 如图所示，计算出的第（t+1）帧的运动显著性图与类激活图大体匹配，这表明学习的MSM能够捕获有益于动作分类的有意义的运动线索。通过重新缩放可变形特征图5.帧间注意力图、运动的可视化显着图（ MSM ）和 SIFA-Net 的 Grad-CAM [46] ，用于Kinetics-400中的三个视频。对于每一行中的视频，其第t第（t+1）帧中的查询点和采样点之间的相关性（即，注意力权重）显示在热图中。我们将查询点和采样点与紫线中的前3个注意力权重联系起来。MSM中的红框表示具有高度显著的物体运动的区域利用MSM进行重采样，根据对象的尺度、不规则形状和大的运动来很好地调整采样点。这再次证实了SIFA块考虑了跨帧的对象移动和变形，以加强帧间特征对齐，从而提高时间建模。5. 结论和讨论我们提出了独立的帧间注意（SIFA）块，它探讨了跨帧的变形与局部自注意的时间建模。具体地说，通过在当前帧中的空间位置作为查询，SIFA在下一帧的局部相邻区域中的键/值上执行自关注此外，为了解决下一帧中的不规则对象变形，利用可变形设计来估计局部区域中的每个空间位置的偏移，从而产生在变形中重新采样的键/值。这种可变形特征重新采样另外通过运动线索重新缩放以促进帧间注意力学习。最后，所有的变形值聚合与注意，以增强每帧的功能。通过将SIFA模块插入ResNet和Swin Transformer中，构建了两个新的视频骨干（SIFA-Net和SIFA-Transformer），并在四个动作识别数据集上进行了实验，验证了其有效性。更广泛的影响。这项研究在视频表征学习中的一个负面影响是与训练Transformer骨干相关的显著环境影响，这些骨干很大并且计算昂贵。这些动作识别模型也有可能被滥用，例如用于未经授权的监视。致谢。本工作得到国家重点研发&计划项目（批准号：2020AAA0108600。迪文崖打棒球跳远荷兰I3D+GCN [59] R5060646.1 76.8- -CPNet [31]R34N/A- -57.7 84.0[30]第三十话R509847.2 77.163.4 88.5[9]R504848.4 78.861.7 88.1

下载后可阅读完整内容，剩余1页未读，立即下载