视频中视觉特征融合音频特征的双流视频Transformer框架及其在动作识别中的应用

81 浏览量更新于2023-10-26 收藏 839KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

20208特定模态注释视频Saghir Alfasly1，2Jian Lu1，3，Chen Xu1，2Yuru Zou11深圳大学先进机器学习与应用深圳市重点实验室2广东省智能信息处理重点实验室深圳3广州琶洲实验室{saghiralfasly，jianlu，yuruzou}@ szu.edu.cnchenxuszu@sina.com，www.example.com摘要假设视频数据集是多模态注释的，其中听觉和视觉模态都是标记的或类相关的，当前的多模态方法应用模态融合或跨模态注意。然而，有效地利用特定于视觉的注释视频中的音频模态进行动作识别是一个特殊的挑战。为了应对这一挑战，我们提出了一个新的视听框架，有效地利用任何单独的视觉特定的注释数据集中的音频模态。我们采用语言模型（例如，BERT）来构建将每个视频标签映射到其最K相关的音频标签的语义音频-视频标签字典（SAVLD），其中SAVLD充当音频和视频数据集之间的桥梁然后，SAVLD连同预训练的音频多标签模型一起被用于在训练阶段期间估计视听模态相关性。因此，提出了一种新的可学习的不相关模态丢弃器（IMD），以完全丢弃不相关的音频模态并且仅融合相关模态。此外，我们提出了一个新的双流视频Transformer有效地建模的视觉模式。包括Kinetics 400和UCF-101在内的几个视觉特定注释数据集上的结果验证了我们的框架，因为它优于大多数相关的动作识别方法。1. 介绍提高视频理解的深度神经网络（DNN）学习方案之一是利用尽可能多的输入方式，例如音频，RGB帧，运动，文本数据，视频上的可见文本和人类骨骼关节。因此，多模态学习在基于视频的动作识别中显示出显著的改进这些方法使用独立*通讯作者视觉特定注释数据，例如，动力学400标签语义相似度匹配（使用BERT）（基于句子的标签嵌入）跳舞公共发言摔跤音频专用注释数据，例如，AudioSet女性演讲音乐掌声唱歌鼓掌喊跳舞公共发言摔跤音乐鼓掌唱歌女性话语喊重叠音频标签群集-（SAVLD字典）图1. 概念概述：视觉-音频标签映射。以重叠的方式，我们的方法执行跨数据集文本标签映射，其中通过使用语言模型，例如，伯特由此产生的集群组成一个SAVLD字典，作为视频和音频数据集之间的桥梁由于我们的框架在视觉特定的数据集上训练人类活动多模态模型，因此我们使用SAVLD来利用视频中的听觉模态DNN或所有具有单个共享DNN。模态或其特征表示以早期融合、中期融合或晚期融合方式融合[1另一种融合方案是通过采用跨模态注意或门控单元提出的[4动机大部分的注意力和融合方法[2]提高视听模型然而，这些融合方法在视觉特定的注释数据集上没有提供类似的性能提升，例如Kinetics400 [10]和UCF-101 [11]。这种情况20209是由于视觉和听觉模态之间的高度不相关性和不对应性，如[1]中所总结的在这种情况下，多模态方法不能有效地从视觉特定数据集上具有噪声相关性的未标记音频模态获得例如，音乐可以在很大程度上表明人类活动是跳舞。然而，音乐音频可以与其他几个人类活动相关联，例如汽车驾驶，或者只是可以在任何编辑的视频中作为背景音频找到。这解释了一项有趣的研究中的发现[7]，该研究表明，单峰模型在特定于模态的数据集中始终优于多模态DNN，因为多模态网络更容易随着容量的增加而过度拟合这一发现促使我们寻找一种方法，该方法在训练和推理阶段中利用相关的音频模态，同时完全丢弃不相关的模态捐款. 为了解决上述挑战，我们提出了一种新的多模态训练框架，该框架在视觉模态特定的数据集上训练具有最佳视听模态组合的动作识别网络。在我们的方法中，我们通过利用大型音频特定数据集（如AudioSet[12]和VGGSound [13]）上的预训练音频分类模型来自动估计视听模态相关性。这项任务分两个阶段有效地完成。在第一阶段中，我们将音频特定数据集的音频标签映射到视觉特定数据集中语义上最相关的标签这个过程是使用语言预训练模型来实现的，[14]第15话，在获得每个标签的基于语义的嵌入之后，我们执行跨数据集标签匹配并生成重叠标签集群，每个标签集群包含来自视频数据集的单个标签以及音频数据集中的一组其语义上最相似的标签，如图1所示。例如，Kinetics400中的Dancing标签和AudioSet中的Music、Singing和Clapping标签位于同一个群集中。总的来说，产生的重叠聚类组成了一个语义音频-视频标签字典（SAVLD），作为视频和音频数据集之间的桥梁，用于我们下一阶段的训练监督。在第二阶段，作为迁移学习任务，我们的框架采用预训练的音频Transformer来生成高度语义化的音频特征和多标签音频预测。用于构建SAVLD的音频数据集应该与训练音频 Transformer 的数据集相同。总的来说，音频Transformer和SAVLD的输出然后被我们提出的框架用于注释音频，如图12所示。二、在使用任何音频预训练模型（例如，AST），我们的框架由SAVLD引导，丢弃了不相关的音频模态。这是通过使用一个新的可训练的无关模态辍学（IMD），包括两个主要模块：第一模块是一个被称为相关性网络（RN）的神经网络，它接收听觉和视觉模态，并决定它们是否相关。该网络的输出是表示相关性水平的符号预测，该相关性水平由第二模块用于决定是否将两种模态融合以用于最终视频分类或丢弃音频模态。我们通过提出一种新的类内跨模态增强来进一步改进我们的框架学习，在这种增强中，它随机配对来自不同视频的同一类的听觉和视觉模态。当语音识别要求音视频对应时，这种增强方法可能会对视听网络的某些应用产生负面影响然而，在我们的情况下，音频模态需要是相关的，但不一定要对齐或准确地对应于视觉模态，因为我们在这项工作中解决了人类活动识别的问题。这促使我们提出这种增强方法，emperically提供了一个合理的性能提升。一般来说，我们的框架是一个完全无卷积的基于transformer的网络。它利用三种视频模式：RGB帧、光流和音频。RGB和光流模态通过使用我们高效的双流视频Transformer来处理，而音频模态通过任何音频预训练的Transformer来处理。这项工作的主要贡献如下：提出了一种新的多模态人体活动识别框架，该框架利用NLP BERT模型和预训练的音频分类模型的能力它有效地在任何视觉特定的注释数据集上训练视听动作识别提出了一种新的可学习IMD网络，完全丢弃不相关的音频模态，而相关的模态融合的基础上，他们的相关性水平。一个有效的两个流视频Transformer的目的是学习的视觉模态与相关的视频变形金刚相比，参数少。提出了一种类内跨模态增强方法，通过允许每个音频模态样本与同一类中的任何视觉模态样本配对来生成更多的训练样本。2. 相关工作多模式动作识别。多模态动作识别旨在利用多模态输入来更好地识别人类活动。DNN已经授权了这种学习方案，这丰富了全局特征学习[1，3，5在模态组合的基础上，一些方法使用RGB帧以及如双流网络中的运动模态[4，17，18]，具有双色调模态[19]，具有检测到的对象[2]，具有文本····20210模态[20]，或与音频模态[1，8，19，21一些方法[2，5，7，16，24]利用两种以上的模态如[5，25]中所述，另一种方法用于获得视频模态，其使用压缩视频作为四种模态（I帧、运动矢量、残差和音频模态）的源使用这些模态，2D/3D卷积网络在全局特征建模方面取得了实质性进展[2，4，8，19，21然而，多模式视频传输-前者[1，3，5，16]已经显示出具有竞争力的性能，这是图像识别[27]上见证的视觉Transformer（ViT）成功的正常反映尽管监督多模态学习提供了良好的性能[1-模态融合。任何多模态算法的主要组件之一是其模态融合模块，其用于融合和导出用于最终预测的跨模态表示。已经提出了几种融合方法，可以分为早期、中期和晚期融合。在[1- 3，6，7，18 ]中采用了这些融合方法并对其进行了更详细融合方法在简单的模态特征聚合、连接和跨模态注意力之间变化[1，26]。最近，几种多模态方法[1，4，5]利用注意力机制来执行跨模态特征建模，从而显著改善了动作识别。模态丢弃和门控。已经提出了几种方法，包括众所周知的dropout [30]，以改进深度网络的训练过程，从而防止DNN过拟合。当涉及到多模态训练时，模型过拟合变得更具挑战性，特别是对于视频理解，如[7]中所总结的。这是由于与基于图像的数据集相比，视频数据集的大小较小，并且由于高度不平衡的因此，有几种方法使用随机模态丢弃（在[31]中首次使用）来改进多模态手势识别训练。相比之下，[16]中提出了一种丢弃输入令牌，其他研究在[6，32]中提出，在两种模态相关的情况下，提出了用于文本视觉融合的门控多模态单元。我们的工作与以往的方法不同之处在于以下几个方面。首先，我们的视觉模型是一个无卷积的双流Transformer，与[1，5，16]相比，它可以用很少的参数其次，与[6，16，32]不同，我们提出的IMD是可学习的，它可以学习完全丢弃不相关的模态，而相关模态则被传递到两者的融合步骤中表1. Kinetics400数据集中的视频标签样本及其在AudioSet数据集中最相关的标签，在使用BERT进行语义标签嵌入映射后，由KNN选择，当k=5时。LabelsRelevantAudioSetLabels包括演讲;掌声;口哨声;钟声;鼓掌挺举装满液体;泵液体;锉锉;隆隆声;沙沙声喂鸟野生动物;昆虫;蚊子;鸟;拍打声sniffing whimper;growling;cheering;whispering;rattle sneezinggammering;snoring;babbling; garling;rappingticklingwhispering;rustle;cheering;growling;screaming yawningbabbling;rapping;frying food; gammering;snoring writingwriting;speech;typing;chatter;mechanisms训练和推理阶段。IMD旨在从特定于模态的注释数据集学习多模态表示。因此，拟议的IMD在其结构、目的和培训方法上有所不同。第三，据我们所知，我们的工作是第一次尝试利用NLP和音频转换器的功能来自动注释音频模态，从而显着提高动作识别性能。第四，视听对应（AVC）[8]将数据集视为视听对应，学习对齐听觉和视觉模态，并仅基于正面和负面标签来决定它们是否从同一视频的同一时间轨道中提取然而，我们的关联网络（RN）不学习模态对应或对齐。相反，它学习简单地基于生成的标签字典SAVLD来决定音频模态是否与视觉模态类相关，而不管使用哪些视频来对输入模态进行最后，我们提出的类内跨模态增强与[33]不同，它是类间样本混合。它也不同于[26]，其作为预处理步骤交换音频和视频轨道一次，以确保每个输入样本涉及听觉和视觉模态。3. 拟议的多式联运框架3.1. 标签字典SAVLDSAVLD是跨数据集标签字典，其中音频特定数据集中的每个标签在语义上映射到视觉特定数据集上的一个或多个标签。我们通过使用著名的NLP模型BERT[14]实现了这个预处理步骤。我们获得了音频和视频数据集中每个文本标签的基于语义的嵌入，每个视频标签嵌入与所有音频标签嵌入匹配。通过使用k最近邻算法来挑选最k个相关的音频标签。但是，匹配过程不需要太多时间，因为两个数据集中的标签数量很少，即Kinetics400有400个类标签20211−j，ij，i0，0∈×∈······×联系我们∈视觉方式可训练无关模态脱落（IMD）RGB Transformer骨干[CLS]RGB相关性Sigmoidal网络得分RGBFC流量Transformer骨干无关音频辍学生（即：、掩蔽）并融合相关模式Softmax概率MLP（分类器）最后一堂视频课预测例如，跳舞[CLS]流光流双流视觉TransformerABMLP听觉模态音频预训练Transformer。它的参数被冻结在这里。[CLS]音频Transformer骨干音频对数频谱图预训练音频分类器音频Transformer多标签预测，在音频特定数据集上的预训练音频模型。例如，在一个实施例中，音乐，鼓掌，唱歌IOU（预测音频具有NLP模型推荐的音频类的类（例如，、BERT）相关性损失（二进制交叉熵）注释与视频类最相关的音频类（由NLP BERT推荐，见图1）加权损失视频标签（GroundTruth）例如，跳培训相Inferencef[CLS]CABAudio相位融合类嵌入级联MLP瓶颈损失功能处理渗漏都（类别交叉熵）NLP模型推荐图2. 提出多模式学习框架。它使用三种模式：RGB，流和音频。音频模态特征由在音频数据集AudioSet上训练的现成的Transformer获得。在这里，音频Transformer参数是不可训练的，除了添加的AB，它作为我们的可训练网络和预训练的冻结音频模型之间的桥梁。可训练IMD是该框架的主要部分，它使用RN估计输入视频的听觉-视觉模态相关性，然后决定是否使用阈值和掩蔽层融合音频模态或完全丢弃它（图4）。IMD优化与二进制交叉熵。在音频Transformer多标签预测和由SAVLD生成的对应k个相关音频标签之间计算IOUIOU被归一化为[0AudioSet有527个类标签。因此，找到最多的k个相似标签可以简单地通过使用任何距离度量来完成。我们得到一个字典，其中每个视频标签有k个音频标签，它们都被认为是语义相似的。该字典可以被认为是Uv重叠聚类，其中Uv表示视频数据集类的数量。这里仅根据音频标签来表示集群重叠。构建SAVLD的概念概述1，而表1中示出了一组真实的Kinetics 400-AudioSet映射标签。SS...S ST ST1 2 L-2 L-1 L图3. 视觉模态Transformer编码器。它由L2个空间S块和2个时空ST块组成。ST是双流Transformer。3.2. 可视化模态双流Transformer0j，i=xj，iE+Epos，（1）为了利用关于大型图像数据集的预先训练的知识[34] ，我们采用来自基于图像的 ViT [27] 和视频Transformer [35]的几个部分来构建我们的双流视频Transformer。代币化。使用[ 35 ]的类似标记化部分，其中输入视觉模态样本VRT×C ×W ×H，对于RGB模态C=3，对于光流模态C=2，被标记为T N块，其中每个帧被投影到N=HW/P2块，每个块的空间维度为P2。在高潮之后将所获得的T N个补丁nizing，每个补丁被映射到xj，iRD，其中j=1，T，i=1，N，并且d表示要在整个视觉过程中使用的嵌入大小。其中，对于每个补丁 xj ， i ，添加时空位置嵌入Epos∈RD。此外，添加了可学习的分类嵌入z0RD以学习视觉模态语义视频表示。视觉模态 Transformer 编码器。我们的视觉双流Transformer编码器涉及L个堆叠块，除了最后两个块L、L1之外，每个堆叠块都是基于空间的模块，最后两个块L、L1涉及时空因式分解的自注意力以更好地对时空知识进行建模。使用这种方法，我们的Transformer提供了具有竞争力的性能，与[35]中涉及每个块中的时空注意力的参数相同每个Transformer块由多个z20212−联系我们0，00，0.×j，i0，0j，ij，ij，ij，i=MS A空格。LN（z`Nj，i+z`j，ij，i头部自我注意（MSA）[36]，层规范（LN）[37]和多层感知（MLP）模块。所提出的Transformer编码器的前L2个块可以被公式化为：z=MSA。LN（z<$−1）<$+z<$−1，（2）其中，100 ，...， L 2。最后两个块可以表示为：z`k=LR。MSAtime（LN（z<$−1））<$+z<$−1，其中LR是指在每个时间模块之后添加的线性层。RGB和光流流的分类嵌入与两个完全连接的层融合，每个层后面都有ReLU激活。3.3. 音频Transformer我们选择预训练的AST [38]，因为它是与我们的视频Transformer最相似的我们采用AST来提取高语义的音频特征，并进行多标签预测。AST已建成估计输入剪辑的基于类别的视听相关性。IMD网络执行两个步骤：RN的输出被阈值化并被屏蔽，如等式1中所示。五因此，音频模态被完全丢弃或融合，如在Eq. 8.阈值和点积层组成一个掩蔽层，其中不相关的模态乘以0。拟议的IMD可表述如下：在ViT [27]的基础上，它将音频模态rev=σ（MLP（LN（zL））+zL）、（4）处理作为视觉任务，因为它将输入音频模态转换成128100T频谱图。AST与ViT基本相同，除了少数更改的Transformer参数外，0，如果zαδ<=rev，否则、（五）eters，其中AST使用补丁大小P=16，步幅为z（a）L，z（v）L=split（zL），（6）10个。总的来说，我们遵循音频输入归一化，0，00，00，0[38]因为我们采用AST作为向下的推理设置zL=Concate（（z（a）L·δ），z（v）L），（7）流任务与冻结参数。我们获得AST在其音频数据集上的输出预测（即，AudioSet）以使用标签字典SAVLD获得视频标签0，0zav0，0= MLP（LN（zL0，0）），（8）此外，我们获得了学习的类嵌入，然后将其传递到可学习的音频瓶颈。音频瓶颈（AB）。我们添加了一个可学习的音频瓶颈作为音频和视频数据集之间的语义表示桥梁这种情况是因为在训练我们的基于视频的动作识别模型时，所有音频模型参数都被冻结这个瓶颈通过在训练阶段将音频特征从面向音频数据集的预测转换为面向视频的预测而发挥重要作用简单地说，它-一个LN和两个LR，每个LR之后都是ReLU激活。3.4. 可训练无关模态脱落（IMD）IMD是我们框架的主要部分，它自动删除不相关的音频模态。IMD由两个主要模块组成：第一个模块是一个简单的相关性网络，它接收听觉和视觉变换器的级联模态，并决定它们是否相关。该网络的输出是表示相关性水平的S形预测。S形预测被转发到二进制阈值层，以确定音频模态嵌入是否可以与其中α表示视听模态相关性的定义阈值，并且zav是融合输出。图4显示了IMD网络及其主要层。虽然它是为音频模态dropout而设计的，但在文本视觉应用程序的情况下，它可以被用于其他模态，只要有可能就可以轻松地构建跨数据集标签字典，作为我们为视听训练构建的SAVLD3.5. 框架优化我们的框架有两个学习目标：优化模态变换器以学习最终的人类活动，优化相关性网络以准确估计音频-视频相关性。因此，我们采用了两个交叉熵损失.第一个损失是用于通过使用标签字典SAVLD来优化RN的二进制交叉熵。第二个损失是用于分类学习的默认类别交叉熵在将类别交叉熵应用于输出融合类别嵌入之前，首先将其馈送到最终分类MLP中，如下所示：Yv=Softmax（MLP（LN（zav）（9可训练无关模态脱落（IMD）无关模态丢失相关模态融合关联网络规范MLPσ音频>|<可视模态CF规范MLPσ乙状>|

下载后可阅读完整内容，剩余1页未读，立即下载