多模态多动作视频识别的研究及应用

134 浏览量更新于2023-10-13 收藏 1.02MB PDF 举报

视频理解

代码开源

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

13678多模态多动作视频识别中国海洋大学深海多球体与地球系统前沿科学中心2中国海洋大学水下视觉实验室（http://ouc.ai3中国海洋大学计算机科学与技术学院4中国海洋大学三亚海洋研究所摘要多动作视频识别由于需要识别同时或顺序地共同发生的多个动作而更加复杂。对多动作关系进行建模对于理解具有多个动作的视频是有益的并且是至关重要的，并且视频中的动作通常以多个模态呈现。在本文中，我们提出了一种新的多动作关系模型的视频，利用关系图卷积网络（GCN）和视频多模态。我们首先建立多模态GCN来探索模态感知的多动作关系，由特定于模态的动作表示作为节点特征，即通过3D卷积神经网络（CNN）学习的时空特征、从相应特征词典查询的音频和文本然后，我们将多模态CNN-GCN模型和多模态特征表示结合起来，以学习更好的关系动作预测。消融研究、多动作关系可视化和增强分析都显示了我们的多模态多动作关系建模的功效。此外，我们的方法在大规模多动作M-MiT基准测试中达到了最先进的性能我们的代码在https://github.com/zhenglab/multi-action-video 上公开提供。1. 介绍视频理解是计算机视觉中非常复杂和全面的任务，因为它旨在通过复杂的听觉和视觉视频来识别视频中描绘的活动通常由可能同时或顺序发生的多个动作组成。例如，当“表演”的动作发生时多动作视频识别就是这样一个任务，其目的是自动识别视频中的多个动作。* 通讯作者：郑海勇（zhenghaiyong@ouc.edu.cn）。本工作得到了国家自然科学基金项目的资助。61771440、41927805和41776113。碰撞播放+音乐击鼓表演舞蹈音频多动作关系击打/碰撞演奏+音乐击鼓多模态多作用关系碰撞播放+音乐执行跳舞视觉多动作关系击鼓碰撞播放+音乐击鼓跳舞执行跳舞执行跳舞执行播放+音乐击鼓语篇多动作关系图1：利用多模态多动作关系识别视频中的所有动作（M-MiT [35]中的示例）。自动识别视频中共同发生的所有动作。虽然动作识别已经取得了相当大的进展[44，46，51，6，47，52，62，12，31，58，11]，但它在多动作识别上相当有限[35，41，60]。在这项工作中，我们在更具挑战性的多动作视频识别方面走得更远，以更好地理解视频。为了处理单动作视频识别的任务，越来越多的努力正在探索动作和视频中的对象之间的关系[22，19，36，32，62，9，53，42，3]。因此，为了更好地解决多动作识别问题，识别视频中共同出现的所有动作，探索多个动作之间的关系，即多动作关系，将是有益的和关键的。实际上，视频中的动作首先表现为视觉空间和时间帧，并且它们与同步录制的音频具有很强的相关性，最后它们在字面意义上（标签）彼此相关13679文本），从而充分利用视频中的这些多模态信息（即，帧、音频和文本）来探索多动作关系，可以极大地有助于识别多动作以及理解复杂视频。多动作视频识别的最新进展主要集中在开发手工制作的时空特征[18，7]（例如，Harris corners [23]，STIP [30]，光流[2]，梯度[38]）来训练分类器，或者设计3D卷积神经网络（3D-CNN）架构来学习用于分类的有区别的时空表示[35，41]。然而，以前的作品没有特别考虑视频中的多个动作之间的关系。此外，虽然多模态信息已被用于分析多动作视频[35]，但它仅用于提取相应模态的特征（即，视觉和音频模态的时空和听觉特征）进行融合分类，而不是探索多模态多动作关系以进行更多的区分表示。因此，如何充分利用多模态信息更好地挖掘多动作关系是多动作视频识别的关键。图提供了一种通用的方式来建模真实世界的关系数据[28，61]，最近，图卷积网络（GCN）[29]已被证明在被认为具有丰富关系结构的任务中非常有效[64，39，56]，这可能对发现视频中动作之间的关系非常有帮助。因此，在这项工作中，我们致力于探索通过GCN视频中隐含的多动作关系此外，由于视频独特而重要的多模态特性，我们构建多模态GCN以更好地建模视频中特定于模态的多动作关系我们设计我们的多模态GCN用于多动作视频识别，依赖于以下三个观察：（1）视觉框架对于我们的日常经验以及我们理解世界的方式比其他形式更重要（超过80%的传输到大脑的信息是视觉的）[25]，（2）声音由其动作的属性决定并提供信息，并且我们可能根据我们大脑内部的经验建立声音-动作映射[15]，以及（3）我们的大脑还可以将动作与它们的语言标签（意思是单词）联系起来，以创建文本-动作映射[24，45]。图1示出了具有多个动作的视频示例，并且视觉帧可以指示同时或顺序发生的表演、跳舞、击鼓和击打/碰撞的动作之间的关系，根据我们对声音-动作关系的知识，来自视频的音频也将被识别为播放音乐、击鼓和击打/碰撞的动作，而在该视频中发生的动作的意义词具有其潜在的语义地分析文本-动作关系，因此，将辅助的文本（潜在的）和音频（听觉）关系预测与主要的视觉（观看）关系预测相结合，可以更准确地识别多个动作。在本文中，为了解决具有挑战性的多动作视频识别，我们建议开发多模态GCN探索模态特定的多动作关系杠杆老化图具体来说，我们构造多动作图，其中多个动作作为节点，动作共现概率作为相邻矩阵，然后，我们构建多模态GCN用于探索模态感知的多动作关系，由模态特定动作表示作为节点特征，即，通过3D-CNN学习的时空特征，从各自的特征词典查询的音频和文本嵌入，最后，我们将音频和文本关系强加于时空表示以产生各自的关系动作预测，这些预测进一步与视觉关系动作预测结合在一起以产生最终预测，提出了一种新的方法。多模态联合学习以识别多个动作。我们的贡献包括：（1）提出了一种利用关系GCN和视频多模态来探索多动作关系以用于多动作视频理解的新方法;（2）我们设计了特定于模态的关系GCN，伴随着多模态联合学习，以更好地建模模态感知的多动作关系;(3)消融研究和多动作关系可视化以及boosts分析都显示了我们的关系建模的有效性，并且我们的方法在大规模多动作M-MiT基准测试上达到了最先进的性能。2. 相关作品多动作视频识别。多动作视频识别是一个需要识别视频中所有动作的任务。多动作视频识别的早期进展主要集中在开发手工制作的时空特征[18，7]（例如，Harris corners [23]、STIP [30]、光流[2]、梯度[38]）来训练分类器。自CNN突破以来，多动作视频识别问题的解决方案大多与动作识别相同[44，46，51，6，62，47，52，31，12，42，11，58]，其旨在设计有效的3D-CNN架构以学习用于分类的有区别的时空表示Wu等[54]和Wangetal.[50]提出分别在特征和池化方面提高3D-CNN的性能，以识别多个动作[43]。Zhang等人[60]通过提取聚焦于视频的不同时空区域的独立活动特定特征来处理多标记Monfort等人[35]注释了大规模多动作M-MiT数据集，并将I3 D [6]时空特征与SoundNet [4]听觉特征级联，用于单个线性层，以使用新的wLSEP损失对检测到的动作类进行排名。Shao等人[41]提出了一种时间交织网络（TIN），将时间信息嵌入到空间中。13680E∈|--G {V E}V{···}ΣζKζDZ=σ（D~− A~D~− Z W ），（1）Gζ尝试一次，并且只学习一次两个域中的信息。与现有的多动作视频识别方法相比，本文致力于从视频的自然多模态角度探索关键的多动作关系。多模式学习。多媒体数据往往是多种信息的传输媒介，例如，在一个视频中，视觉、听觉和文本信息往往是同时传播的。因此，多模态学习逐渐发展成为多媒体内容分析和理解的主要手段。其中，视觉模态因其丰富的表现能力而被广泛应用。此外，通常认为多种模式的组合具有较强的代表性[44，13，65，14，33，1，20]。与当前的视频多模态学习不同，本文提出了一种多模态联合学习的方法来探索多动作之间的关系，从而根据真实世界中的观察结果准确地识别视频中的所有动作关系模型已经证明，建立关系模型有利于理解关于动作和行为识别的视频[22，19，36，32，62，9，42]。最近，由于其强大的关系建模能力，GCN也被开发用于解释视频中的关系Wang等人[53]使用对象提案作为节点来构建时空区域图，以探索相似关系和时空关系。Wu等[55]提出了一种灵活有效的角色关系图（ARG），用于捕捉角色之间的外观和位置关系，以识别群体活动。Yan等人[57]提出了时空图卷积网络（ST-GCN），以利用关节之间的空间关系进行基于骨架的在我们的工作中，而不是只从视频帧中发现关系，我们设置动作作为图节点来构建多模态多动作GCN，以探索视频中特定于模态的多动作关系。正如我们所知，最近流行的Transformer网络是强关系学习器，我们也注意到它们在自然语言处理[49，8]和计算机视觉[10，5]方面的巨大成功。总的来说，在我们的框架中，还可以采用变压器来探索动作关系，也就是说，我们可以将动作视为令牌并将其馈送到变压器中以用于学习多动作关系，其中变压器to- kens对应于GCN图节点。主要的区别是，变压器错过了一些先验知识，因为它们此外，变压器可以引入更多的参数，特别是对于多头注意。我们将在未来的框架中进一步利用变压器。3. 多模态多动作关系3.1. 多模态多动作GCN多功能GCN。给定具有多个动作的视频剪辑，我们的目标是探索多动作关系以更好地识别所有动作类别。GCN已被证明在被认为具有丰富关系结构的任务中非常有效[64，39，56]，这促使我们深入研究GCN以表示多动作关系。 GCN的图是由由边连接的节点组成的，其中事物可以由节点表示，而边可以被视为它们之间的连接，因此我们将动作分配为节点来构建我们的图。我们将多动作图定义为=、得双曲余切值.=v1，v2，，vN是表示动作的N个节点的集合，并且是表示共现ac的边缘集。由二进制邻接矩阵ARN× N表示的元素。我们用条件概率ψij=ψ（vjvi）表示动作vi发生时动作v j的发生概率。然后我们通过统计动作对vi、vj和动作vi在训练数据集中的出现次数来计算ψ ij，并且进一步我们在ψij上设置阈值t以将A ij二值化作为初始化，即，如果ψ ij >t，则令A ij=1，否则A ij=0。通过这样做，我们实际上引入动作的发生概率作为相邻矩阵，用于以数据驱动的方式构建多动作图，基于视频中描绘的活动通常由可能同时或顺序发生的多个动作组成的观察然后，我们使用具有根据[29]的以下逐层传播规则的经典多层方式来表示我们的多动作GCN：（1+ 1）11（l）（l）2 2ζ ζ ζ其中A~=A+IN是具有添加的自连接IN的无向图的邻接矩阵，其是单位矩阵，D~是A~的对角度矩阵，其中D~ii=jA~ij，σ（·）表示非线性作用函数（我们使用Leaky ReLU），ζ表示模态，W（1）是第1层可训练权重矩阵，Z（1）是多动作关系，Z（0）= Xζ是模态ζ的输入节点特征。到目前为止，我们建立了一个通用的多动作GCN的体系结构，具有探索多个动作之间的关系的能力。本质上，多动作GCN通过聚合来自其邻居的特征来影响每个动作，从而学习动作的新表示作为与其他动作的关系。通过这种方式，多动作关系逐渐聚集并在GCN的多个层上传播，这取决于输入节点特征。实际上，视频中的多个动作以多模态的方式存在，因此，为了更好地探索多动作关系，这将是有益的和有益的。13681ααα∈τ--τ∈∈νν∈∈时空表示联合学习3D-CNN全球集中共用X是说广播音频词典文本词典文本嵌入音频嵌入舞蹈表演……击鼓图2：我们的多模态多动作视频识别方法概述。多模态GCN被设计用于通过馈送模态特定表示来探索模态感知的多动作关系，即时空特征，音频和文本嵌入，并由我们的多模态联合学习驱动，以更准确地预测多个动作关键是建立多模态GCN，以利用不同的动作特征和音频模态多动作关系多模态的节点特征。多模态GCN。视频中的动作以多种形式表示，视觉的、音频的和文本的，它们在表示动作中扮演不同的角色。因此，我们从视频数据集构建具有三种模态的多模态多动作图，并且在这项工作中简单地对每种模态采用两层GCN架构（l= 1）。Z（2）∈RN×C可以通过音频GCN从Xα中传播出来，最后将音频模态关系Z（2）加到时空特征X上进行音频模态动作预测Zα=X（Z（2））TRN。类似地，对于文本模态，我们将我们的词汇文本嵌入表示为图动作的XτRN×Q，因此文本GCN将聚合文本-模态多动作关系Z（2）∈RN×C，用于进一步的文本-0、1 在等式1中），其中三种模态是可视的，（ζ=ν）、音频（ζ=α）和文本（ζ=τ）。视频的时空表示包含用于识别动作的最丰富的判别特征，因此我们采用3D-CNN来提取时空特征并将其馈送到图节点中用于关系增强分类，从而产生我们的视觉GCN。与视觉形态不同，视频中的音频和文本由于其简单的表征能力，主要起到辅助动作识别的作用，而且对应于动作的时空特征往往是动态变化和多样的，而音频和文本则相对稳定。因此，我们设计了视频数据集的音频-动作和文本-动作特征词典，并将其作为图节点特征，用于从音频和文本模态中探索多动作关系，以辅助视觉模态，分别产生音频GCN和文本GCN。形式上，对于视觉模态，我们将3D-CNN产生的时空特征XRC（C为维数）广播到XνRN×C作为N个动作的节点特征，视觉GCN聚合关系增强特征Z（2）∈RN×N，然后沿着Z（2）的动作维数取平均，输出视觉模态动作预测Zν∈RN. 而对于音频模态，我们表示我们的词汇音频嵌入为Xα∈RN×P是图模态作用预测Zτ=X（Z（2））TRN。到目前为止，我们有多模态GCN用于探索模态感知多动作关系，由模态特定动作特征提供。接下来，我们描述我们的多模态动作特征建模的具体方式。3.2. 多模态动作特征建模视觉模态动作特征。视觉模态对视频中的动作具有很强的表征。最近的3D-CNN工作在解析和表示视觉模态方面表现出强大的性能。因此，我们通过利用3D-CNN时空特征来建模视觉我们知道，在视觉形态中，动作是动态地在多个框架中流动的，并且它们是多变的和多样的。本质上，通过连续馈送帧，3D-CNN通过动态优化时空特征来学习解析动作以更具区分性，从而最终产生强大的视觉动作表示。然而，这些视觉特征隐含了多个动作之间的关系，这些特征作为视觉GCN的动作特征是合理的，适合于进一步探索视觉模态中关系增强的多动作表示。音频和文本特征词典。音频和文本模态通常作为视觉模态的辅助，用于从视频中识别动作，这是由于它们的简单代表性。13682LLLJB怨恨能力但是它们仍然潜在地包含音频-动作和文本-动作关系。因此，我们利用音频和文本模态建模的模态特定的动作特征的音频和文本GCN，聚合模态特定的多动作关系，以进一步提高判别时空特征。对于多动作视频数据集，音频和动作是多对多映射，即一个音频可以对应多个动作，一个动作可以对应多个音频，而文本标签和动作是一对一映射，即一个标签具有动作的含义。因此，我们表示这两个模态分别定义多对多的音频动作和一对一的文本动作特征词典的音频GCN和文本GCN的动作特征。在我们的工作中，我们使用VGGish [16]和GloVe [37]来表示视频数据集的所有音频和标签文本作为音频和单词嵌入，分别用于构建我们的音频和文本特征词典。形式上，我们定义的特征词典作为一组（f，s）对，其中形式f是一个嵌入功能在一个有限的维度，和意义s是相应的动作从一组给定的行动。对应于多个动作的特征被称为多义，而属于一个动作的多个特征被称为同义。然后，我们将音频和文本特征词典分别表示为α和τ，其中音频和文本嵌入特征f α和f τ作为各自的形式，而动作s作为意义。通过查询相应的词典初始化音频和文本GCN的动作特征。我们通过遍历所有的感官（动作）的节点的功能模型，并查询同义形式（功能）的词典，然后GCN可以推理的3.3. 多模态联合学习我们设计了多模态GCN来聚合来自时空特征表示以及音频和文本特征lexi-cons的模态感知的多动作关系，其中时空特征由3D-CNN学习，因此，我们提出了一种涉及多模态的模型级和表示级的联合学习策略，即多模态联合学习。模型联合学习。对于整个模型学习，我们有三个用于关系推理的特定模态GCN模型（Gν，Gα，Gτ）和一个用于时空表示学习的视觉模态3D-CNN模型H，其中3D-CNN与三个GCN共享输出时空特征，用于聚合和传播多动作关系以产生最终动作预测，将其与真实动作标签进行比较以获得模型er。由损失函数计算的误差，如下所示：L（R，J（Jν（H，Gν），Jα（H，Gα），Jτ（H，Gτ），（2）其中R表示实际观测值，并且这是一个nota-表示模型关节的运动。随后，特定于模态的关系表示将首先接收用于更新三个GCN的权重以最小化损失的误差梯度，并且然后将经由共享时空表示将误差从所有三个GCN传播到3D-CNN，以相应地调整其权重。以这种方式，由三个GCN和一个3D-CNN组成的整个混合模型可以在多个模态上以联合学习方式进行训练，使得GCN被强制执行以从时空表示学习更准确的关系预测，而3D-CNN被引导以对来自视频的更强大和关系的时空特征进行建模。表示联合学习。由于每一种情态都有其特定的信息和表征能力，因此我们对不同的情态采取不同的处理方法。具体地说，动态时空表示X在识别视频中的动作时影响最大，因此被视为模型学习的主要信息流，而静态音频动作和文本动作词汇表示（Xα和Xτ）通常在识别动作时起辅助作用，因此被视为辅助信息流。时空表示是通过动态地将视频帧加载到3D-CNN中来逐渐学习的，而从相应的固定词典中查询的音频和文本嵌入同时被馈送到特定于模态的GCN中以供辅助。此外，我们将时空表示与用于相应动作预测的音频和文本多动作关系联合，并且所有三个模态特定动作预测最终被融合以产生最终动作分数Z，如下所示：Z=Gν（B（X））+XGα（Xα）+XGτ（Xτ），（3）其中表示特征广播。通过这样做，三种模态的信息被联合以学习用于识别多个动作的更好的关系表示。4. 实验4.1. 数据集和设置[35]第三十五话我们主要使用最近发布的多时刻时间（M-MiT）数据集进行实验，该数据集被认为是用于视频理解的大规模多动作数据集M-MiT V1包含1.02具有从动作词汇表注释的313个动作类的总共201万个标签的100万个3秒视频（例如，滑板）。在训练集中，553，535个视频被注释有一个以上的动作，其中257，491个视频被注释有三个或更多个动作。M-MiT V2是V1的更新，对动作向量进行了修订，其中包含100万个视频，共有292个动作类的192万个标签，训练集包括525，542个注释有多个动作的13683×JJJJJJJJJJJ还有243，083个视频注释有三个或更多个动作。迷你M-MiT多动作视频识别的任务是识别视频中发生的所有动作。然而，对于M-MiT数据集，我们观察到近50%的视频仅用一个动作标签进行注释。为了更好地探索多动作视频识别，基于M-MiT数据集，我们打算构建一个新的数据集，该数据集期望包含针对每个动作注释有多个动作的视频，同时保留原始类别的完整性。为了做到这一点，对于训练集，我们首先删除没有音频流的视频，然后我们随机选择300个视频用于超过300个视频的类别，并选择剩余类别的所有视频。通过这样做，我们获得了我们的与原始M-MiT相比，我们的迷你M-MiT只有其数据大小的10%，因此它IG-65M [17]+Kinetics-400 [27]。IG-65 M是一个非常大规模的预训练数据集，包含来自社交媒体网站的6500万个公共用户生成的视频，而Kinetics- 400是动作识别的经典基准，包含246 k训练和20 k验证视频。在这项工作中，我们采用R（2+1）D-34作为我们的3D-CNN ，通过在发布的 IG-65 M 预训练模型上使用Kinetics-400 进行微调进行预训练（ top-1 准确度：80.5）。M-MiT音频和文本词典。音频动作词典是由数据集中每个动作对应的音频特征组成的一组动作索引特征。首先，我们删除M-MiT中的所有静音音频以确保词典中的所有音频都是有效的。然后，我们采用VGGish [16]来提取大小为3 128的所选音频的特征。由于音频数据中存在冗余信息，我们进一步采用PCA白化[26]对提取的特征进行后处理最后，我们根据动作类别存储音频特征，以获得我们的音频动作词典。类似地，文本动作词典是依赖于动作词汇的动作索引词特征的集合。我们使用GloVe [37]来提取M-MiT词汇表中所有动作的词嵌入，其中每个动作对应于一个大小为300的特征向量，从而生成我们的文本动作词典，其中包含所有动作的词向量。培训和评估。我们实现了数据扩充，并通过SGD训练优化的二进制交叉熵损失来训练模型。同时，我们进行多个剪辑测试，并使用mAP（平均精度），前1名，前5名的分类精度作为评估指标。更多细节见补充文件。4.2. 消融研究我们在我们的迷你M-MiT数据集上进行消融研究，以验证我们的多模态多动作关系建模的有效性，其中预训练的R（2+1）D-34作为基线。Visual GCN与全连接层。我们开始-模型模态top-1top-5地图J（H，FC）J（H，Gν）{ν}{ν}52.153.376.077.354.855.0J（H，Gα）J（H，Gτ）J（H，Gν，Gα）J（H，Gν，Gτ）{ν，α}{ν，τ}{ν，α}{ν，τ}54.354.554.555.179.079.779.479.958.058.258.258.5J（H，Gα，Gτ）J（H，Gν，Gα，Gτ）{ν，α，τ}{ν，α，τ}55.155.079.879.858.558.7表1：对多模态联合学习的消融研究。我们从我们的基线3D-CNN模型R（2+1）D进行了研究，其中全连接（ FC ）层作为分类器（（ H ，FC）），它没有我们的GCN结构，只涉及视觉模态。我们首先用我们的视觉GCN（（H，Gν））替换R（2+1）D的FC，以通过探索用于最终动作预测的视觉多动作关系来增强时空特征。表1报告了联合不同模型并涉及不同模态的结果，表明我们的（H，Gν）模型在mAP，top-1和top-5方面优于基线3D-CNN模型，因此我们可以看到我们的视觉GCN确实对性能改善产生了积极影响多模态联合学习。然后，我们通过将3D-CNN与相应的GCN（音频GCN或文本GCN）结合来在视觉模态上添加附加模态（音频或文本），从而产生两个联合模型（H，Gα）和（H，Gτ），以分别产生音频和文本动作预测，结果报告在表1中。如可以观察到的，通过将模态特定的GCN与附加模态结合，前1和前5准确性都增加，而mAP显著改善，提高超过3%，这表明我们的音频和文本GCN用于探索有效的多动作关系的功效此外，我们将视觉GCN与音频GCN或文本GCN结合以获得联合模型（H，Gν，Gα）或（H，Gν，Gτ），并通过从等式3中去除缺少的一个来融合两个模态特定动作预测，表1中的结果也表明它们导致额外的性能改进。此外，我们组合所有三种模态以产生不存在视觉GCN的联合模型（H，Gα，Gτ）和具有所有多模态GCN的联合模型（H，Gν，Gα，Gτ），并且表1示出了具有三种模态但没有视觉GCN的（H，G α，G τ）获得与具有两种模态但联合视觉GCN的（H，G ν，G τ）相当的结果（相同的top-1准确度和mAP）。表明视觉多动作关系的效果，而将3D-CNN与三个模态特定的GCN结合，用于探索多模态多动作关系，实现了最高的mAP得分，证明了我们的多模态联合学习的功效。不- ing，我们的多模态GCN可以导致显着的改善-13684拍摄瞄准浸没游泳跳水烘焙传播烹饪携带JJ输入（H，FC）（H，G，，）作用JJJJJJJJJJJJJJ通过支付参数量的小成本，例如，我们的（H，Gα）和（H，Gτ）使mAP增加3. 2%和3。4%，但仅引入了0.76米，0。67M更多参数。此外，我们在模型上尝试了不同的 3D-CNN （ R3 D-18 [47] 和 I3 D-50 [52] ）（（H，Gν），（H，Gα），（H，Gτ），（H，Gν，Gα，Gτ）），并且还产生有效结果（mAP（%））：R3 D-18（45.八，四十九。1，49。五，五十。7）和I3 D-50（53.1，55。六，五十五。八，五十七。（3）第三章。此外，我们深入挖掘，发现，对于两种模式与。一种模态，我们的方法在mAP中明显提高了3%的性能，这主要是由于引入了额外的模态和我们设计的多模态联合学习;而对于三种模态与两种模态，我们的方法提供了轻微的性能提升，我们认为原因可能是额外辅助模态（音频或文本）的简单表示能力导致在相同表示机制下较少的额外多动作关系探索（即，GCN和多模态联合学习）。这启发我们进一步改进我们的方法，通过调查更多的模态特定的关系学习和代表时尚（例如Transformer网络）用于多模态多动作视频识别。模型词典top-1top-5地图J（H，Gα）J（H，Gα）J（H，Gα）1-F2-F3-F54.353.853.979.079.178.858.057.857.4J（H，Gτ）J（H，Gτ）300D手套BERT 768D54.554.979.779.558.258.2J（H，Gα，τ）{Lα，Lτ}54.979.758.4表2：音频和文本词典的消融研究。音频和文本词汇。我们接下来继续研究单模态音频或文本特征词典。对于音频-动作特征词典，我们遍历所有动作获取每个动作的同义特征，从而初始化音频GCN的节点特征，因此我们分析了一个动作获取多少同义特征比较好。因此，我们通过将同义特征的数量（f）设置为1、2和3来进行消融实验，表2（（H，Gα））中所示的结果表明，尽管由于其自然的多对多映射，动作可以由许多不同的音频表示，但对于文本-动作特征词典，由于动作通常与文本标签（来自动作词汇）具有一对一的映射关系，因此我们研究了不同的词嵌入方法是否重要。我们分别采用GloVe [37]和BERT [8]来构建文本特征词典，用于用300或768维向量表示每个动作。表2（（H，Gτ））表明，无论我们使用GloVe和BERT中的哪一个，动作预测的准确性几乎是一样的。此外，将音频联合模型（H，Gα）与文本联合模型（H，Gτ）进行比较，两者的性能相似，说明两种模态在语音识别中发挥了重要作用。在辅助识别多个动作中的类似作用。我们还通过合并音频和文本词法来将音频和文本模态合并成一个音频-文本模态，以提供一个音频-文本GCN 的音频 - 文本动作表示，并且表 2 中的结果（（H，Gα，τ））证明了音频-文本模态合并的优越性，其实际上与表1中的（H，Gα，Gτ）我们认为，合并的音频文本GCN实际上试图探索音频和文本的多动作关系在一个大的模型，从而实现类似的性能，两个单独的小音频和文本GCN。浸没润湿游泳暴跌烘焙传播烹饪账面滑冰平衡下降/降低拍摄针对指向图3：多动作Grad-CAM可视化示例，同时执行多个基线3D-CNN模型（H，FC）和我们的多模态联合模型（H，Gν，Gα，Gτ）的比较表明，由于用于探索多动作关系的多模态联合学习，我们的模型是能够定位每个场景中存在的多个动作。4.3. 多动作关系可视化我们采用梯度加权类激活映射（Grad-CAM）[63]来可视化3D-CNN的学习注意力模型，用于定位视频中发生的动作[34，35]，图3显示了基线3D-CNN模型（H，FC）和我们的多模态联合模型（H，Gν，Gα，Gτ）的比较示例。可以看出，热图显示了学习的3D-CNN的大差异。在J（H，FC）和J（H，Gν，Gα，Gτ）之间，表明13685J--JJ我们的多模态联合学习确实可以优化3D-CNN训练，主要区别在于我们的模型能够定位每个场景中呈现的多个动作。以第一行为例，（H，FC）被训练专注于游泳时的红色区域而我们的模型J（H，Gν，Gα，Gτ）可以注意不仅包括游泳和润湿而且包括浸没和俯冲的区域，并且在其它实施例中可以发现类似我们认为，由于我们的模型联合学习方式，3D-CNN从多模态GCN模型中受益匪浅，通过接收来自其共享时空表示的反向传播误差，从而为多模态GCN产生更强大和相关的时空特征，以进一步更好地探索视频中特定于模态的多动作关系。表3：M-MiT V1和V2的比较结果。最近于2020年10月发布，没有比较结果，但我们仍然提供我们的结果供参考。它表明，我们的最佳模型具有三种模态，使用较浅的骨干，在mAP中比M-MiT [35]提高了约3%。M-MiT采用深度SoundNet网络进行音频特征学习和具有动作标签统计的wLSEP损失，而我们的视觉-音频（ν，α）模型优于它2。2%mAP。另一项最近的工作TIN [41]仅报告了M-MiT上的mAP（62.2）（因此我们实际上，我们可以进一步挖掘我们解决方案的潜力，(a) GCN输入(d)行动评分(b) GCN第一层输出（c）GCN第二层输出（H，FC）（e）行动评分（H，G，，）采用更强大的3D-CNN或采样更多的输入帧，例如，我们将8帧扩展到16帧，以在M-MiT V1上产生0.9%的mAP提升。此外，在这项工作中，我们试图提出一种利用多模态进行多动作视频理解的新方法，而新发布的M-MiT数据集（2019年的V1和2020年的V2）是这项研究的完美基准，涉及多模态和多动作以及它们的交叉引用（例如，演奏音乐，打鼓，还有目标行动：跳水（15）、潜水（23）、游泳（174）、弄湿（206）得分超过0.05的非目标动作图4：跨GCN层的特征变化和多动作关系的动作得分的演示。我们进一步尝试展示我们学到的多动作关系。图4（a）、（b）和（c）显示了动作嵌入可视化（通过t-SNE [48]），指示跨GCN层的特征变化，可以看出，目标动作（绿色数字）在通过GCN层时逐渐聚合，证明了关联多个动作的能力图4（d）和图4（e）示出了基线（H，FC）和我们的（H，Gν，Gα，Gτ）的动作得分，这说明我们的模型可以促进多个目标动作，同时抑制非目标动作，从而证明了潜在的多动作关系探索的功效我们还提供类（操作）上补充文件B部分（加强分析）中的AP。4.4. 与现有技术的表3示出了与M-MiT数据集上的最新技术的比较，并且我们的模型在Vl上表现最好。为V2跳舞）。此外，我们还在Cha-rades数据集[43]上评估了我们的模型，该数据集很少考虑音频多动作交叉引用（MultiTHUMOS [59]同上），因此我们仅联合视觉和文本模态，并且在mAP中仍然比基线3D-CNN模型提高了2%我们将在未来的更多数据集上发现我们的模型5. 结论我们提出了一种新的关系模型，探索多模态多动作关系的视频，利用关系GCN和视频多模态。消融研究、多动作关系可视化和增强分析都验证了我们的多模态多动作GCN以及多模态联合学习的功效，这是由于强大的多动作关系建模能力。我们的方法在最新的大规模多动作M-MiT基准测试中达到了最先进的性能。然而，动作之间的关系要复杂得多，因此更多的努力仍然需要进一步挖掘依赖于多模态多动作建模，我们希望这项工作开辟了新的途径，多动作视频理解。视频model-{modality} 后-骨V1V2top-1 top-5 地图 top-1 top-5 地图M-MiT-{ν}M-MiT-{ν，α}R50R5058.559.381.482.861.761.8––––––我们的-{ν}我们的-{ν，α}我们的-{ν，τ}我们的-{ν，α，τ}R34R34R34R3458.660.660.661.283.485.385.585.861.564.064.164.659.561.261.161.783.885.785.886.162.264.464.565.213686引用[1] Huda Alamri ， Vincent Cartillier ， Abhishek Das ， JueWang，Anoop Cherian，Irfan Essa，Dhruv Batra，TimK Marks ， Chiori Hori ， Peter Anderson ， et al. Audiovisual scene-aware dialog.在CVPR中，第7558-7567页[2] 萨阿德·阿里和穆巴拉克·沙阿。使用运动学特征和多实例学习的视频中的人类动作识别。IEEE TPAMI，32（2）：288[3] Alex Andonian、Camilo Fosco、Mathew Monfort、AllenLee、Rogerio Feris、Carl Vondrick和Aude Oliva。我们有很多共同点：在视频中建模语义关系集在ECCV中，第18-34页[4] 尤瑟夫·艾塔卡尔·冯德里克安东尼奥·托拉尔巴Sound-Net：从未标记的视频中学习声音表示。NIPS，第892-900页，2016年[5] 尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛纳夫、尼古拉斯·乌斯尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁伊科。使用变压器的端到端对象检测。参见ECCV，第213-229页。Springer，2020年。[6] Joao Carreira和Andrew Zisserman。你好，动作识别？新模型和动力学数据集。在CVPR中，第6299-6308页[7] Johanna Carvajal，Conrad Sanderson，Chris McCool，and Brian C Lovell.通过光流和梯度的随机建模的多动作识别在MLSDA，第19[8] 雅各布·德夫林张明伟李肯顿和克里斯蒂娜·图塔诺娃。BERT：用于语言理解的深度双向变换器的预训练。在NAACL，第4171[9] Ali Diba ， Mohsen Fayyaz ， Vivek Sharma ， M MahdiArzani，Rahman Yousefzadeh，Juergen Gall，and LucVan Gool. 用于动作分类的时空通道相关网络。在ECCV，第284-299页[10] AlexeyDosovitskiy，LucasBeyer，AlexanderKolesnikov，Dirk Weissenborn，Xiaohua Zhai，ThomasUnterthiner ， Mostafa Dehghani ， Matthias Minderer ，Georg Heigold，Sylvain Gelly，et al.一张图片相当于16x16个单词：用于大规模图像识别的变换器. arXiv预印本arXiv：2010.11929，2020。[11] 克里斯托夫·费希滕霍夫。X3D：扩展架构以实现高效的视频识别。在CVPR，第203-213页[12] Christoph Feichtenhofer ， Haoqi Fan ， Jitendra Malik ，and Kaiming He.用于视频识别的慢速网络。在ICCV，第6202-6211页[13] ChristophFeichtenhofer、AxelPinz和AndrewZisserman 。卷积双流网络融合视频动作识别。在CVPR，第1933-1941页[14] 迪拉杰·甘地、勒雷尔·平托和阿比纳夫·古普塔。学着在撞击中飞行。在IROS，第3948-3955页[15] 威廉·W·加弗我们到底听到了什么？：听觉事件感知的生态学途径。生态心理学，5（1）：1[16] Jort F Gemmeke，Daniel PW Ellis，Dylan Freedman，Aren Jansen ， Wade Lawrence ， R Channing Moore ，Manoj Plakal，13687和马文·里特音频集：音频事件的本体和人类标记的数据集在ICASSP，第776[17] DeeptiGhadiyaram 、 DuTran 和 DhruvMahajan。视频动

下载后可阅读完整内容，剩余1页未读，立即下载