基于注意跨模态交互和运动增强的视频动作识别框架

34 浏览量更新于2024-02-04 收藏 1.04MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

+v：mala2277获取更多论文×基于注意跨模态交互和运动增强李兵1，2，陈嘉欣2，张东明3，鲍秀国3，黄迪1，21北京航空航天大学软件开发环境国家重点实验室2北京航空航天大学计算机科学与工程学院3.国家计算机网络应急响应技术小组，协调中心，北京，中国{libingsy，jiaxinchen，dhuang} @ buaa.edu.cn，zhdm@cert.org.cn，baoxiuguo@139.com摘要压缩视频动作识别最近引起了越来越多的关注，因为它通过用稀疏采样的RGB帧和压缩的运动线索（例如，运动矢量和残差）。然而，这项任务严重受到粗糙和嘈杂的动态和不充分的融合的异构RGB和运动模态。为了解决上述两个问题，本文提出了一个新的框架，即注意跨模态交互网络与运动增强（MEACI-网）。它遵循双流架构，即一个用于RGB模态，另一个用于运动模态。特别地，运动流采用嵌入有去噪模块的多尺度块来增强表示学习。然后通过引入选择性运动补充（SMC）和交叉模态增强（CMA）模块来加强两个流之间的在UCF-101、HMDB-51和Kinetics-400基准上的大量实验证明了MEACI-Net的有效性和效率。1介绍随着网络应用的发展和图像传感器的革新，视频的数量呈爆炸式增长，视频内容的自动分析变得极为重要。动作识别是一个基础性的课题，近年来受到越来越多的关注.在过去的二十年里，人工特征和深度卷积神经网络（CNN）相继取得了进步。大多数努力都是为了从原始视频中捕获静态和动态线索，其中所有RGB帧都已解码[Wanget al. ，2020年]，并报告在公共基准方面的优异表现*通讯作者。RGB图像运动矢量光流图1：（a）和（b）示出了与光流一致的粗糙和有噪声的运动矢量。一行中的图像对应于同一帧。干扰背景用红色矩形突出显示。（例如UCF-101和HMDB-51）。但是，它们一般需要光流来表示运动，存在存储量大、处理速度慢的缺点，难以满足实际应用的需要。最近，压缩视频中的动作识别被研究为处理上述挑战的有前途的替代方案。在压缩视频中，只有一小部分帧被完全解码，称为帧内帧（I帧），并且大多数帧被不完全解码，称为预测帧（P帧），其传递自由但粗糙的运动信息。在基于压缩视频的方法中，通常采用I帧、运动矢量和残差来代替解码的RGB帧和计算的光流，其中两个主要问题是关键的，即运动增强和多模态融合。一方面，记录在压缩视频中的那些运动模式不如图1所示的原始视频中的那些运动模式准确，因为逐块匹配实质上降低了运动矢量的空间分辨率（即16），并且在编码阶段中诸如信号量化和运动估计之类的操作不可避免地引入噪声。对于运动增强，以光流为模板，[Shouetal. ，2019]应用生成对抗网络（GAN）来细化运动向量，并且[Caoetal. ，2019]根据固定阈值移除运动向量中的不可靠移动。这些技术确实有贡献，但它们在输入端更新运动矢量或残差，并通过为原始数据设计的模型处理它们。†本文的补充材料可在http://irip.buaa.edu.cn/dihuang/IJCAI2022-Extended.pdfarXiv：[cs.CV] 2022年5月7(b)侧手翻(a)ApplyEye化妆+v：mala2277获取更多论文视频，没有以端到端的方式进行充分优化，限制了进一步的性能提升。另一方面，为了构建全面的表示，需要将由压缩视频中的多模态提供的信息，即I帧和P帧（运动矢量和残差）整合。目前的研究没有足够的重视这一步骤，一般适用于简单的早期或后期融合的原始视频。不幸的是，I帧和P帧是以变化的采样率产生的，并且这种不一致倾向于损害模态之间的互补性。[Huoet al. ，2019]设计了时间三线性池来诱导时间上下文，其利用不同模态的对应帧以及另一个后续I帧上的特征集合进行预测。虽然该方法被证明是有效的，但它缺乏局部的跨模态相互作用，特别是在低层，留下了很大的改进空间。在本文中，我们提出了一种新的方法来识别压缩视频中的动作，即注意跨模态交互网络与运动增强（MEACI- Net），它同时解决了运动增强和多模态融合的问题MEACI-Net遵循经典的双流框架，分别用于RGB（I帧）和运动（P帧）。考虑到动力学的粗糙性和噪声性，我们在压缩运动增强（CME）网络中引入了一个多尺度构建块，并嵌入了一个去噪模块，该模块引导模型关注与任务相关的空间区域，从而产生更多有区别的特征来描述动作。此外，我们提出了选择性运动补充（SMC）和跨模态增强（CMA）模块来学习局部和全局跨模态交互，从而促进模态之间的特征融合。我们在HMDB-51 ， UCF-101 和 Kinetics- 400 三个基准上对MEACI-Net进行了广泛的评估，并在压缩视频上实现了最先进的动作识别精度，大大减少了与原始视频的差距。2相关工作2.1原始视频在过去的二十年里，动作识别已经得到了广泛的研究。早期的作品采用手工制作的特征 [Wang 和 Schmid ，2013] ，最近的作品构建了深度表示 [Simonyan 和Zisserman，2014]，两者都是从RGB帧计算的。根据动态捕获的方式，深度学习网络大致分为三类。第一组在光流中编码RGB帧的运动线索双流框架[Simonyan和Zis-serman，2014]是一个代表，由一个学习静态空间特征的2D CNN和另一个对光流中的时间信息进行建模的2D CNN组成，光流被单独训练，然后被平均用于预测。TSN[Wanget al. ，2016]通过稀疏采样和时间融合来增强这种双流方式以改善运动特征。第二组通过2D CNN表示RGB帧，并在ConvNet特征空间中计算动态。一种方式就是启动循环神经网络例如，[Yue-HeiNg et al. 2015]利用了一个独立的LSTM网络。另一种选择是时间卷积。[Jianget al. ，2019]在时间维度上移动特征以优化相邻帧之间的信息交换，并且[Jianget al. ，2019]设计了单独的模块来跨越时空特征空间以用于对动态进行编码。[Lietal. ，2020 b]开发了不同的块以捕获短距离和长距离时间演变。第三组以RGB帧为输入，启动3D CNN来提取统一的时空特征。I3D[Carreira and Zisserman，2017]将预训练的2D卷积扩展为3D卷积。为了减少3D CNN中的繁重计算，[Tranet al. ，2018]将3D卷积分解为2D空间卷积和1D 时间卷积，或者采用 2D/3D CNN 的混合。SlowFast[Feichtenhoferet al. ，2019]涉及两个3D CNN路径，其中慢的一个用于提取空间语义，而快的一个用于捕获细粒度运动。尽管有竞争力的结果，基于原始视频的方法受到存储消耗和处理速度的限制。2.2压缩视频中的动作识别关于压缩数据中的动作识别，I帧（稀疏采样的RGB帧）和P帧（例如，运动矢量和残差）用于特征提取，而不是所有解码的RGB帧和计算的光流。早期的工作[张等人。，2016]试图用运动矢量代替光流以获得更高的效率。CoViAR [Wuetal. ，2018]通过利用所有模态（包括I帧、运动矢量和残差）来绕过视频解码来进行扩展。为了改善动力学，[Shouet al. ，2019]采用GAN来细化运动向量，并且[Caoetal. ，2019]应用图像去噪技术。[Huanget al. ，2019]将级联的运动向量和残差馈送到CNN中以模仿基于流的教师，并且[Battashet al. ，2020]。[Huoet al. ，2019]提出了时间三线性池，以在便携式设备的轻量级模型上集成多种模态。[Liet al. ，2020 a]遵循SlowFast提出了Slow-I-Fast-P模型，并以特定的损耗估计伪光流。上述方法提高了性能;然而，它们难以建模粗糙和嘈杂的动态并融合不同的模态，这在本研究中得到了解决。3所提出的方法如图2所示，我们提出的框架首先应用封装来从压缩视频中提取I帧和P帧剪辑，其中P帧在运动矢量和残差中给出随后，MEACI-Net预测视频中具体地说，MEACI-Net遵循经典的前者简单地采用了I3 D-ResNet 50，而后者也引入了相同的主干，但将其扩展为一种新的压缩运动增强（ CME ）网络，通过采用嵌入有去噪模块（DM）的多尺度块（MSB）来处理粗糙和有噪声的运动线索+v：mala2277获取更多论文×× ×××××·×··-我知道联系我们图2：拟议的MEACI网络的框架。我们从压缩视频中封装I帧、运动矢量和残差（MVR），分别构成RGB和MVR模态。I3 D-ResNet 50直接用于处理I帧剪辑，而CME网络设计用于处理P帧剪辑。SMC和CMA促进了两种模态的特征融合中的跨模态交互此外，MEACI-Net提出了注意跨模态交互（ACI）机制，以加强两个流之间的信息交换。ACI由低级层中的几个选择性运动补充（SMC）单元和高级层中的跨模态增强（CMA）单元SMC通过合并来自MVR模态的信息性运动线索来增强RGB模态中的表示学习CMA通过交叉注意聚合多模态特征，进一步构建跨模态表示作为单模态表示的增强。从两个单独的流中提取的高级特征在剩下的部分中，我们详细介绍了主要组件的技术细节。3.1压缩视频封装编码的压缩视频通常被打包为多个图像组（GOP），每个图像组具有I帧和若干连续的P帧。I帧表示每个GOP中的参考RGB帧，并且P帧通常由运动矢量及其残差组成，其中运动矢量通过对每个16× 16宏块中相对于I帧的位移进行编码来对目标的移动执行粗略近似，并且残差是原始RGB帧与在运动补偿之后由运动矢量重构的帧之间的差。类似于[Wuet al. ，2018]，我们计算累积的残差和运动矢量，其被迭代到GOP中的I帧。由于运动矢量包含主要动态，残差包含丰富的边界，因此我们将它们连接起来作为CME网络的输入3.2压缩运动增强网络如图1所示，运动矢量是粗糙的和有噪声的，使得难以学习用于识别动作的有区别的时间特征，特别是对于那些类似的动作，例如涂口红和刷牙。因此，引入多尺度刺激以探索更有用的模式是至关重要的。同时，运动线索中的噪声需要被抑制。为此，受1×1×1，3D Conv 3，1D Conv 3×3，2D Conv1×1×1，3D转换(a) 瓶颈块1×1×1，3D转换DM2D Conv 5，1D ConvDM2D Conv 3，1D ConvDM二维转换1，1D转换1×1×1，Concat. 3D转换(b) 多尺度块AvgPoolTRep（·）平均池S，r二维转换上采样(c) 去噪模块图3：网络结构：（a）I3 D-ResNet 50中的瓶颈块;（b）多尺度块;（c）去噪模块。[Liet al. ，2020 b]，我们提出了基于如图2所示的I3 D-ResNet 50的压缩运动增强（CME）网络，其通过嵌入有去噪模块（DM）的定向设计的多尺度块来替换基本瓶颈块。多尺度块（MSB）。图3（a）和（b）显示了I3 D-ResNet 50中使用的基本瓶颈块与本研究中提出的多尺度块之间的差异。而不是使用311和1 3 3卷积核，MSB有四个独立的分支与级联连接，和短期/长期动态是通过改变内核大小（即，1、3和5），其有效地以多个空间粒度提取多尺度运动模式，而不增加太多额外的计算成本。具体来说，MSB在第一个1之后均匀地分割特征图11 3D卷积到四个分支，通道尺寸，其中所得到的特征组映射表示为Xii1，2，3，4。除了分支X1之外，对于i = 2，3，4，MSB通过去噪模块DM（）去除噪声，从而得到细化的特征图DM（Xi），并对DM（X i）执行级联卷积ST i（），其中ST i（）由3 3 2D空间卷积和随后的具有核大小（2i3）的1D时间卷积组成。由于ST i（）i=2，3，4具有不同大小的接收域，MSB编码更丰富的时空比原来的瓶颈块做的模式对于最后两个分支（即i=3，4），先行分支的输出也被添加到输入中，即 i =3，4的输入压缩视频RGB（I帧）流：I3 D-ResNet 50第1层第2层第3层第4层CLSMPEGSMCSMCSMCCMA注意跨模态交互CLSi帧RGB模态封装稀疏采样运动矢量MVR模态DM二维转换DM二维转换5、1DConv3、1DConv...堆叠堆叠MSBMSB第2层第3层堆叠MSB第四层......CLS转换多尺度块（MSB）堆叠MSB层1运动（P帧）流：CME网络残余MSB：多尺度块DM：去噪模块压缩运动增强SMC：选择性运动补充模块CMA：跨模态增强模块CLS：分类头+v：mala2277获取更多论文- -××× ×····× ×联系我们··×DKDK×··3··×我我我我是Xi+ST i1（DM（Xi1））。这种分层设计使得能够以多个尺度捕获某些运动信息。注意，它不适用于i=2，因为X2和RGB模式。为此，我们引入了一个简单而有效的注意力单元。具体地说，SMC首先对FP，l先行输出X1的比例相同。最后，为了聚合多尺度特征，我们将所有FP′，l=FP，lσ（属性SP （MP（F）P，l）），（4）从四个分支输出要素，并通过1113D卷积。通过这种方式，MSB以更全面的方式表示粗略的运动线索，从而学习-其中MP（）是最大池化，而AttSP（）由两个1113D卷积层。然后，SMC对at-更强的功能。去噪模块（DM）。与图1、议案倾向于MVR特征FP′，l，其进一步被添加到FI，l，噪声总是细微的并且随机地出现在编码和量化中的不同位置处，并且我们在空间域和时间域两者中抑制它们[1]Moonet al. ，2013]，有希望通过多帧融合来减少这种运动噪声。为此，如图所示在图3（c）中，DM最初通过经由时间平均池化AvgPoolT（）聚集多个帧来降低噪声，此后通过重复操作将AvgPoolT（）的大小调整为输入大小Rep（·）公式如下：T i= Rep（平均池T（X i））。（一）接下来，DM通过连续地每-形成空间平均池化AvgPoolS，r（·），3×32DRGB模式如下：FI，l：=FI，l+FP′，l<$σ（AttC（MP（FP′，l），（5）其中，Att C（）是33 3D卷积层。跨模态增强（CMA）单元。变成毛皮-为了增强跨模态的交互，提出了CMA融合两种模态的高层特征，采用了类似transformer的结构。CMA采用最后一个卷积层后的FI和FP作为高级特征，基于此，通过线性映射从Fm生成密钥Km、查询Qm和值Vm，并将m I、P表示模态。此后，通过应用非局部交叉，针对每个模态学习QP KT卷积Conv33（）和上采样UP（），双线性插值如下：注意力为FI，att=Softmax（N）I）VI和FP，att=QIKTSoftmax（软达）P）VP，其中dk是Si=UP（Con v3×3（A vgP oolS，r（Ti）.（二）这里，AvgPool S，r（）指的是具有过滤器大小r r和步幅r的平均池化，其中r= 2i−1。以这种方式，信息的运动被保存，而微妙的噪声被同时减轻。最后，引入跳过连接以及Sigmoid函数σ来输出重要性权重，并且细化的特征图被公式化如下：DM（X）=σ（T+S）<$X，（3）其中，n表示元素级乘积。3.3注意跨模态交互在压缩视频中，I帧从原始RGB帧中稀疏采样，记录静态外观。尽管粗糙且有噪声，P帧（即，运动矢量和残差）包含互补的运动提示。因此，很自然地考虑来自I-框架的特征和来自P-框架的特征之间的相互作用，以相互增强表示学习。然而，大多数现有的研究结合了两种模态的功能，在一个简单的方式，忽略了跨模态不对齐的问题所造成的时空线索在I-和P-帧动作识别的独特重要性为了解决这个问题，如图。2、提出了低层的选择性运动补充单元和高层的跨模态增强单元，实现跨模态交互学习，实现特征融合。选择性运动补充（SMC）单元。上图FI，l和FP，l分别是来自第l层（l = 1，2，3，4）中的RGB（I帧）和MVR（P帧）模态的特征图。SMC 的基本思想是将来自MVR模态的对齐运动提示整合到键，Softmax（）表示softmax函数。CMA然后将特征作为跨模态的组合表示求和为Ffused=FI，att+FP，att。最后，F融合在分数级与单模态特征FI和FP集成，产生分类的总体预测分数：s=1（CLS（FI）+CLS（FP）+CLS（F融合）），其中CLS（）是由全连接层组成的分类头。有关SMC和CMA网络结构的更多详细信息，请注明补充材料。4实验结果及分析4.1数据集和评价方案我们采用以下三个基准进行评估。HMDB-51包含来自51个动作类别的6，766个视频，并提供3个训练/测试部分。每个分割由3，570个训练剪辑和1，530个测试剪辑组成。UCF- 101包括来自101个类别的13，320个视频。与HMDB-51类似，该数据集也提供3个训练/测试分割，每个分割约有9，600个用于训练的剪辑和3，700个用于测试的剪辑。Kinetics-400是一个涵盖400个类别的大规模数据集，其中240 k修剪视频用于训练，20 k视频用于验证。通过遵循现有的工作，我们报告了三个训练/测试分割的平均前1精度。4.2实现细节与文献中的情况类似[Battashet al. ，2020]，我们将视频转换为统一的MPEG-4第2部分编码格式，其中GOP的大小设置为12，帧的大小调整为340 256。通过遵循[Lietal. ，2020 a]，我们在Kinetics-400上预训练模型[Carreira和Zisserman，2017]，+v：mala2277获取更多论文×××××方法参考输入大小[MB]GFLOPS光流HMDB-51UCF-101动力学-400基于原始视频TSN[Wanget al. ，2016年]10.51600列车试验68.594.069.1I3D-RGB[Carreira和Zisserman，2017]--没有74.895.671.1I3D+流量[Carreira和Zisserman，2017]--列车试验80.798.063.4ARTNet[Wanget al. ，2018年]255875没有70.994.370.7R（2+1）D+流量[Tranet al. ，2018年]13.43040列车试验78.797.372.0TSM[Linet al. ，2019年]121950没有73.296.074.1STM[Jianget al. ，2019年]122010没有72.296.273.7慢快[Feichtenhoferet al. ，2019年]301971没有79.396.875.6茶[Liet al. ，2020 b]122100没有73.396.976.1TDN[Wanget al. ，2020年]183240没有76.397.476.6基于压缩视频EMV-CNN[Zhanget al. ，2016年]6.5-火车51.286.4-DTMV-CNN[Zhanget al. ，2018年]6.5-火车55.387.5-CoViAR[Wuet al. ，2018年]6.83615没有59.190.4-CoViAR + Flow[Wuet al. ，2018年]11.03970列车试验70.294.9-CoViAR + PWC-Net[Sunet al. ，2018年]6.8-火车62.290.6-精制MV[Caoet al. ，2019年]--没有59.789.9-TTP[Huoet al. ，2019年]6.81050没有58.287.2-IP TSN[Huanget al. ，2019年]6.83400火车69.193.4-DMC-Net（ResNet-18）[Shouet al. ，2019年]--火车62.890.9-DMC-Net（I3D）[Shouet al. ，2019年]-401火车71.892.3-MFCD-Net[Battashet al. ，2020年]0.41300没有66.993.268.3SIFP-Net[Liet al. ，2020年a]8.11971没有72.394.0-MEACI-Net（1个夹子）我们0.289没有74.096.170.4MEACI-Net（3个夹子）我们0.7268没有74.496.471.5表1：在HMDB-51、UCF-101和Kinetics-400数据集上，与最先进方法的前1准确度（%）比较。MB是MegaByte的缩写。‘-’ indicatesthat the corresponding result is NOT publicly在HMDB-51和UCF-101上使用交叉熵损失和SGD优化器进行微调，权重衰减为0.0001，动量为0.9，批量大小为36。学习率最初设置为0.0001，每40个时期减少10倍。在训练中，我们统一采样8帧以从每个视频生成输入剪辑，并应用随机缩放、角点裁剪和水平翻转来进行数据增强。所有的实验都在两个NVIDIA 3090 GPU上进行。在测试中，我们从输入视频中均匀采样1或3个不同的剪辑，并在使用3个剪辑时平均分类分数以进行最终预测。每个帧的大小调整为256 256和裁剪成224 224图像，年龄通过中心作物的推理。4.3与最先进的基于压缩视频的方法的比较。如表1所示，MEACI-Net的性能优于COUN，基于三部分压缩视频的方法。特别是，MEACI-Net在HMDB-51和UCF-101上的1-clip测试中分别将第二好的方法SIFP-Net提升了1.7%和2.1%，从而达到了新的最先进水平。更重要的是，MEACI-Net比SIFP-Net少使用21通过每个视频使用更多的测试片段（即， 3个剪辑），精度进一步提高了更多的GFLOP。当比较CoViAR和CoViAR+Flow时，我们可以观察到光流显著提高了性能，因为它们包含比粗略运动矢量多得多的精确运动信息在这种情况下，我们的方法仍然优于CoViAR+Flow，具有54个更小的输入大小和44个更少的GFLOPs。其他方法，如EMV-CNN，DTMV-CNN，IP TSN，DMC-Net和MFCD-Net还采用光流或原始视频来指导网络训练，但明显不如MEACI-Net。我们还对大规模数据集（例如Kinetics-400）进行了评估，以显示其能力。MEACI-Net实现了获得比MFCD-Net高2.1%的准确性，MFCD-Net是一种基于压缩视频的方法，用于报告Kinetics-400的性能。这些结果验证了我们的方法更全面地探索运动信息线索，更有效地执行跨模态交互，因此在准确性和效率方面都达到了最先进的水平。与基于原始视频的方法进行比较。如表1所示，基于原始视频的方法通常比基于压缩视频的方法报告更高的准确度，因为原始视频传达更完整的运动信息。然而，MEACI-Net显著缩小了这一准确性差距，甚至优于一些最新的基于原始视频的，如TEA。毫不奇怪，MEACI网络更有效，比基于原始视频的方法效率更高，需要至少52倍更小的输入大小和16倍更少的GFLOPs。4.4消融研究为了评估MEACI-Net的拟议组件的有效性，我们广泛进行了消融研究。不同模式的影响。我们调查了每种模态对我们方法性能的贡献。当分别分析RGB和MVR模态时，我们分别使用I3 D-ResNet 50和CME网络作为学习模型。在这两种模式的存在下，我们应用完整的模型MEACI-Net。如表2中所总结的，当仅使用RGB或MVR时，准确度急剧下降，因为RGB模态的I帧严重稀疏，而MVR模态的P帧粗糙且有噪声。它们通过MEACI-Net的组合明显提高了性能，表明它们包含用于动作识别的补充信息。CME的影响（MSB和DM）。为了验证建议的CME网络的有效性并评估MSB和DM组件的影响，我们采用I3D-ResNet 50作为基线，用“B1”（“基线1”）表示+v：mala2277获取更多论文× ×模态HMDB-51UCF-101RGB（+I3D-ResNet50）66.591.8MVR（+CME）66.391.1RGB+MVR（+MEACI-Net）74.096.1表2：使用不同模式的比较结果（%）。输入B1B1+DMB1+DM+MSB表3：基于I3 D-ResNet 50基线（“B1”）的CME及其组分MSB和DM的消融结果（%）。方法HMDB-51UCF-101B272.795.5B2 +添加72.995.6B2 + LA73.295.8B2 + SMC73.595.9B2 + CMA73.796.0MEACI-Net（完整模型）74.096.1表4：注意交叉模态相互作用及其分量SMC/CMA的消融结果（%）。模型基于原始视频基于压缩视频i3DCoViARMEACI网络预处理模型推理1093.9166.713.495.67.777.9全流水1260.6109.085.6表5：每个视频的推理时间（以ms为单位）的比较。三个比较的基线，即“B1+ MSB”、“B1+MSB *”和“B1+DB”，指示用具有或不具有变化的时间内核的MSB替换瓶颈块的模型，并且在13之后添加DM3分别为瓶颈块的2D卷积层。CME网络是如图3所示，通过结合MSB和DM的模型。如表3所示，MSB和DB明显提高了I3 D-ResNet 50主干的准确性，因为它们分别处理粗糙和有噪声的运动矢量。与固定大小（即3）相比，变化的节奏内核在UCF-101上提供了0.7%的增益。它们的组合进一步提高了性能。事实上，CME在HMDB-51和UCF- 101上分别将I3 D-ResNet 50的精度提高了6.8%和3.6%，同时与B1相比节省了约15%的大小我们在图 1 中通过 B1 、 B1+DM 和 B1+DM+MSB（CME）4，我们可以看到DM有助于更多地关注运动区域（红框中），因为它通过为前地区域分配更大的权重来抑制局部噪声。有关更多可视化结果，请参阅补充材料†。ACI的影响（SMC和CMA）。我们比较了所提出的ACI机制与其他常用的多模态融合策略.所有对应的融合技术都是基于我们的双流框架实现的，如图2所示，稍作修改。B2图4：Grad-CAM在UCF-101上实现的特征图可视化行动，即从 MEACI 网络中删除 SMC 和 CMA 单位。“B2+Add”是指直接添加两个流的特征的模型，类似于SMC但没有注意。由于慢快[Feichtenhoferet al. ，2019]也考虑了横向连接的跨模态相互作用，因此我们将其与之进行比较，表示为“B2+ LA”。'B2+SMC（CMA）'代表我们的方法的变体，通过单独使用SMC（CMA）单元。MEACI-Net是SMC和CMA相结合的完整模型。如表4所示，所有融合技术都可以提高基线的性能，证明了跨模态交互的必要性。B2+SMC优于B2+Add，表明跨模态的低水平交互有助于多模态融合。当通过CMA集成高层交互时，性能达到最佳。推理速度。由于大多数方法不报告时间成本或释放代码，因此很难进行公平的比较。在这种情况下，我们选择开源的I3D和CoViAR作为基于原始和压缩视频的方法的代表。实验在具有Intel 2.3GHz CPU和NVIDIA RTX3090 GPU的工作站上进行，结果显示在表5中。使用所提出的轻量级模块，MEACI-Net对于8个采样帧需要85.6ms，以93.4 FPS运行，比CoViAR和I3D更快。5结论在本文中，我们提出了一个有运动增强的注意力跨模态交互网络（MEACI-Net）的压缩视频动作识别。它采用CME网络从粗糙和有噪声的动态中学习有区别的运动模式，并执行注意的跨模态交互以在低和高级别融合来自多个模态的特征。大量的实验结果验证了MEACI-Net在准确性和效率上都优于现有致谢本文的研究得到了国家自然科学基金项目（No.62022011）、软件开发环境国家重点实验室研究计划（SKLX-2021 ZX-04）和中央高校基础研究基金的部分资助射箭婴儿爬行棒球投球方法HMDB-51UCF-101参数。[M]B159.587.527.5B1 + MSB*61.187.915.3B1 + MSB61.688.615.3B1 + DM64.789.828.4CME网络66.391.123.2+v：mala2277获取更多论文引用[Battash et al. Barak Battash ， Haim Barad ， HanlinTang，and Amit Bleiweiss.模仿原始域：在压缩域中加速动作识别。在CVPR研讨会，第684-685页[Cao et al. ，2019] Haoyuan Cao，Shining Yu，and JiashiFeng.基于运动矢量的压缩视频动作识别。arXiv预印本arXiv：1910.02533，2019。[CarreiraandZisserman，2017]JoaCarreiraandAndrewZisserman.你说的是行动识别吗一个新的模型和动力学数据集。在CVPR中，第4724-4733页，2017年。[Feichtenhofer et al. ， 2019] Christoph Feichtenhofer ，Haoqi Fan，Jitendra Malik，and Kaiming He.用于视频识别的慢速网络。在CVPR中，第6202-6211页[Huang et al. Shiyuan Huang ， Xudong Lin ， SveborKaraman，and Shih-Fu Chang.用于压缩视频动作识别的流蒸馏 ip 双流网络。 arXiv 预印本 arXiv ：1912.04462，2019。[Huo et al. ， 2019] Yuqi Huo ， Xiaoli Xu ， Yao Lu ，Yulei Niu，Zhiwu Lu，and Ji-Rong Wen.移动视频动作识别。arXiv预印本arXiv：1908.10155，2019。[Jiang et al. ，2019] Boyuan Jiang，MengMeng Wang，Wei-hao Gan，Wei Wu，and Junjie Yan. Stm：用于动作识别的空间时间和运动编码。在CVPR中，第2000-2009页[Li et al. Jiapeng Li ， Ping Wei ， Yongchi Zhang ， andNanning Zheng.一种用于压缩视频动作识别的慢i快p结构。在ACM MM中，第2039-2047页[Li et al. Yan Li，Bin Ji，Xintian Shi，Jianguo Zhang，Bin Kang，and Limin Wang.Tea：动作识别的时间激励在CVPR，第909- 918页[Lin et al. ，2019年]纪林，Chuang Gan和Song Han。TSM：用于高效视频理解的时间移位模块在ICCV，第7082-7092页[Moon et al. ， 2013] Young-Su Moon，Shi-Hwa Lee ，Yong-Min Tai，and Junguk Cho.一种具有在线图像恢复的快速微光多图像融合方法。ICCE，2013年。[Shou et al. Zheng Shou ， Xudong Lin ， Yannis Kalan-Yan，Laura Sevilla-Lara，Marcus Rohrbach，Shih-FuChang，and Zhicheng Yan.Dmc-net：为快速压缩视频动作识别生成区分性运动提示在CVPR中，第1268-1277页[Simonyan 和 Zisserman ， 2014] Karen Simonyan 和 An-drew Zisserman。用于视频中动作识别的双流卷积网络。NeurIPS，第568-576页，2014年。[Sun et al. ，2018] Deqing Sun，Xiaodong Yang，Ming-Yu Liu，and Jan Kautz. Pwc-net：使用金字塔、扭曲和成本体积的光流的Cnns。在CVPR中，第8934-8943页[Tran et al. Du Tran，Heng Wang，Lorenzo Torresani，Jamie Ray，Yann LeCun，and Manohar Paluri.动作识别的时空卷积的进一步研究在CVPR中，第6450-6459页[Wang and Schmid ， 2013] Heng Wang and CordeliaSchmid.具有改进轨迹的动作识别。在ICCV，第3551-3558页[Wang et al. Limin Wang，Yuanjun Xiong，Zhe Wang，Yu Qiao ， Dahua Lin ， Xiaoou Tang ， and Luc VanGool.时间段网络：深入行动识别的良好实践。在ECCV，第20[Wang et al. ，2018] Limin Wang，Wei Li，Wen Li，andLuc Van Gool.用于视频分类的外观和关系网络。在CVPR中，第1430-1439页[Wang et al. 王利民，詹同，季斌，吴刚山。TDN：用于有效动作识别的时间差分网络. arXiv预印本arXiv：2012.10071，2020。[Wu et al. 吴朝元， Manzil Zaheer ， Hexiang Hu ， R.Manmatha ， Alexander J. Smola ， and Philipp Kraühenbuühl.压缩视频动作识别。在CVPR中，第6026-6035页[Yue-HeiNgetal.JoeYue-HeiNg ， MatthewHausknecht ， Sudheendra Vijayanarasimhan ， OriolVinyals，Rajat Monga，and George Toderici.超越短片段：用于视频分类的深度网络。在CVPR中，第4694-4702页[Zhang et al. 张博文、王利民、王哲、乔宇和王汉丽。用增强的运动矢量cnns进行实时动作识别。在CVPR中，第2718[Zhang et al. 张博文、王利民、王哲、乔宇和王汉丽。基于深度运动矢量cnns的实时动作识别。IEEE Trans-actions on Image Processing，27（5）：2326+v：mala2277获取更多论文·× ×通过运动增强的注意跨模态交互进行压缩视频动作识别的表示学习的补充材料在本文档中，我们在A部分中提供了关于所提出的选择性运动补充（SMC）单元和跨模态增强（CMA）单元的更多细节，以及在B部分中提供了所提出的压缩运动增强（CME）网络的定性结果。ASMC和CMASMC单位。图A（a）显示了SMC的详细网络结构。它首先对MVR特征FP，l执行最大池化MP（），然后通过模块AttSP计算时空注意力，该模块Att SP由两个1113D卷积层和一个3D卷积U激活层组成。之后，SMC对参与的网络配置图层名称层1层2conv0conv1conv21×1×1，256，161×31×31，16，256× ×3、1、11×1×1，512，321×31×31，32，512× ×3、1、1图层名称层3层4conv0conv1conv21×1×1，1024，641×1×1，64，10243×3×3，1，11×1×1，2048，1281×1×1，128，20483×3×3，1，1表A：SMC的架构配置MVR特征FP′，l=FP，lσ（属性SP （MP（F）P，l）），其中进一步通过等式（1）并入RGB特征FI，1。(5)在主要文件中SMC的具体架构总结在表A中，其格式如下：#内核大小、输入通道大小和输出通道

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

基于注意跨模态交互和运动增强的视频动作识别框架

基于视频的动作识别中运动特征的研究

基于检测，跨模态迁移之后应该干什么

基于openpose的在线人体动作识别

阐述基于多模态的无人机自然交互设计

多模态交互的国外研究现状

跨模态transformer

基于人体骨骼点的动作识别研究综述

多模态交互式AI案例分析

人体姿态估计和动作识别

基于人脸表情识别和语音识别的多模态融合

transformer结合多模态

基于人脸表情识别和语音识别的多模态融合算法

动作识别在各领域的应用

基于ST-GCN的动作识别

跨模态迁移之后应该干什么

进行结构化的跨模态表示一致性

帮我基于BodyPartAngle的多动作识别算法的文字

传统的人体姿态识别交互有哪些

基于骨骼点识别并纠正动作的策划

transformer跨模态

最新资源