多模态强迫注意视觉变换器用于人类行为分析

192 浏览量更新于2023-10-16 收藏 641KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

3392用于行为分析的具有强迫注意的多模态视觉变换器TanayAgrawalINRIA瓦尔邦讷MichalBalazia INRIA瓦尔邦讷PhilippMüllerDFKISaarbr uéck en，Germany弗朗索瓦·布雷蒙·因里亚瓦尔邦讷tanay. inria.frhttps://github.com/Parapompadoo/FAt-Transformers摘要人类行为理解需要在包含多个输入模态的场景的大背景中查看微小的细节。这是必要的，因为它允许设计更像人类的机器。虽然Transformer方法已经显示出很大的改进，但它们面临着诸如缺乏数据或背景噪声的多重挑战。为了解决这些问题，我们引入了强制注意力（FAt）Transformer，它利用强制注意力，修改了输入编码的骨干和使用额外的输入。除了提高不同任务和输入的性能之外，修改需要更少的时间和存储器资源。我们提供了一个模型，用于有关社会信号和行为分析的任务的广义特征我们的重点是理解视频中的行为，其中人们相互交流或对着摄像机说话FAt转换器应用于两个下游任务：个性识别和肢体语言识别。我们实现了Udiva v0.5，First Imperial v2和MPII GroupInteraction数据集的最新结果。我们进一步提供了一个广泛的消融研究所提出的架构。1. 介绍人类的社会行为提供了丰富的信息。例如，面部表情与情绪直接相关[43]，小组讨论中的眼神交流模式已被证明是领导角色的指示[13，35]。即使是高度抽象的人格概念也被证明与身体姿势[38]，凝视[25，30]和言语行为[42]有关。为了创造能够更自然地与人类交互的机器，已经做出了重大努力来开发能够在各种场景和任务中感知和解释人类行为的方法[10，11，33，36，50]。人类社会行为分析方法是人类行为的巨大可变性虽然一个人可用数据集的小规模加剧了这个问题。特别是成功应用于各种任务的现代基于transformer的架构[3，34，49]与这样的小数据集作斗争。在这项工作中，我们介绍了新的强迫Atten- tion（FAt）的Transformer，这是适合目前在人类行为传感和分析的独特图1显示了主分支的体系结构。该法在变压器解决了大的行为变化的问题，直接参加重要的部分，并减少噪音的输入。小数据集的问题是解决隐含-itly作为一个更快的收敛的结果。详细地说，我们介绍了三个不同的改进，以transformer为基础的人类行为分析架构。首先，我们介绍了一种新的强制注意机制，能够集中处理的相关部分的输入。社交互动视频通常包含一个与输出任务相关的人，他与某人或某事互动。其余部分是背景，其中包含潜在的误导信息.我们通过分割图向网络提供目标人物的空间定位，从而迫使网络不关注背景。由于背景可能有重要的信息，我们观察到网络学习将注意力分配给背景中与所提供的背景相关的部分。其次，我们在我们的模型中引入了一个2D补丁分区层，它结合了变换器的优点和卷积层的鲁棒性。我们观察到，训练模型与完全基于变压器的架构导致的困难，如难以收敛，由于敏感的背景噪声和一个大的训练样本集的要求。相反，我们将视频分成块，并使用卷积层提取每个块的特征，这使得网络不易被拾取3393在噪声（非对齐帧和随机变换，例如拉伸）上，因为已知卷积操作与注意力相比更具有变换不变性。从块中提取特征允许输入保留其空间结构，因为特征仅从局部块中提取，而不改变它们的排列。最后，多模态数据的集成对于复杂的人类行为分析任务至关重要。在transformers中应用于特征级别的交叉注意力被证明可以为多个任务提供有效的多模态集成，包括情感识别[18]，个性识别[39]和多视图视频识别[53]。我们介绍了一种新的变压器中的交叉注意力的变体，它提供了一种优化的方式来将多个次级输入添加到一个注意力模块。我们在两个不同的人类行为分析任务上评估我们的模型：人格识别（高级分析）和肢体语言识别（低级分析）。我们选择人格识别，因为它是社会信号处理中的一项关键任务[50]，体现了社会行为分析中面临的挑战：行为与地面实况之间的非平凡关联，具有随机影响以及小尺寸的可用数据集[20，39]。此外，我们评估了我们的身体语言识别模型，即。对诸如“摸索”、“打手势”或“摸脸”等行为类别的识别。与常见的动作识别任务相比，由于更多的主观注释，肢体语言识别具有更大的随机分量。我们在三个现实的人类交互数据集上实现了最先进的结果。这些包括用于个人识别的Udiva v0.5[39]和First Imperial v2[20]，以及用于动作识别的MPII Group Interaction（MPIGI）[5]我们提供了广泛的消融实验来评估我们的贡献的重要性。总之，群体互动中的行为分析领域有多项任务。以前的方法对于特定的任务工作得很好，坚持它的复杂性。我们的目标是引入一个通用的特征提取器，可以很容易地修改为选定的下游任务。我们的贡献如下：1. 我们介绍了强制注意力（FAt）机制，利用分割图专注于输入中新颖之处不在于其计算，而在于将分割图纳入Transformer的注意力机制的方式2. 我们建议增加视频Swin变压器。我们使用基于CNN的主干从输入的补丁中提取特征，使模型更加鲁棒。3. 我们引入了一种新的交叉注意模块，包括一个主模态以及多个其他模态。2. 相关工作在计算机视觉领域，CNN长期以来表现良好，并已被用作骨干架构。对于与视频有关的任务，3D模型[14，47，48，40，52]已显示出良好的结果。但是这些方法受到核相对于输入的小尺寸的限制。这是由视觉转换器回答的，它具有更大的感受野和更少的参数，并且最近显示出优越的性能。参数的数量对于多模态方法是重要的，因为输入已经需要大量的内存。Vision Trans-former（ViT）[19]初始化了社区对基于Transformer的方法的倾向。视频Swin转换器[34]是我们的基线模型，使用具有时空局部性偏差的时空局部注意力，其已被证明在各种视频相关任务上表现良好。但它的训练是困难的，因为它需要大量的数据来收敛，而这些数据目前还不适用于我们正在处理的任务由于我们领域的特殊性，我们可以利用一些复杂性。以前的作品，包括我们的基线，没有修改这些。由于该域中的所有输入视频都有对话者坐在帧中大致固定的位置，并且摄像机也是固定的，因此我们利用CNN和变压器的最佳性能，通过在输入的大局部补丁（28x28或112x112）上使用CNN主干来缓解数据缺乏的问题。补丁通常具有跨时间的类似由于CNN具有小的感受野，因此输入本身被分解为多个部分并并行馈送，从而解决了CNN的缺点它还有助于建立一个更强大的模型，因为CNN收敛得更快，并且已知对噪声数据更好地工作，从而为变压器提供更清晰的输入基于Transformer的部分将注意力集中在该主干的级联输出上，从而为行为分析提供更高级别特征的嵌入这与常规方法不同，常规方法具有用于整个输入的CNN骨干，然后是变压器。由于我们的任务中有很多背景噪声，我们使用前景分割图来为网络提供有关关注输入的哪些部分的信息由于背景不能从输入中完全去除，因此为网络提供这些信息并不是一项简单的任务。以前的作品介绍了一个自定义的位置编码的变压器有显着的影响性能[7，26，27，31，41]。但是还有其他阶段可以添加这些信息。我们研究了不同的配置来将这些信息传递给网络，并展示了一种更好的方法来为我们的用例向transformers添加信息，希望能激励其他人做类似的事情。将音频和文本模态与视频相结合的任务具有挑战性，因为它们本质上非常不同3394图1. 模型的面分支显示了我们工作的贡献。补充材料中提供了总体结构。彼此之间VATT[3]使用早期融合，他们将所有东西都输入在一起。虽然融合越早，结果越好，但训练所需的数据量存在权衡，因为具有早期融合的模型更难收敛，这导致繁琐的自监督学习。一些作品设计了一个专门的架构融合在功能级别[2，39]。这些工作更好，但存在局限性，因为融合是在对输入特征进行下采样之后完成的，这导致信息丢失和差的跨模态关系。[18，29，44]具有最小下采样的特征级融合，但缺乏不同地处理特定模态。为了回答这个问题，我们引入了一种架构，其中每个分支都可以从单独的预训练中受益，并使用自定义的交叉注意力模块通过特征级融合相互受益MViT[21]是一种用于从头开始训练的视频识别的多尺度视觉Transformer我们把他们的交叉注意力的方法作为灵感，并将其扩展到多模态变压器。Dyadformer[17]是UDIVA v0.5数据集的最新技术，在每个分支中仅使用两种模态，这导致次要输入之间的关系中存在的信息丢失。我们提出的交叉注意模块允许使用所有的模态被纳入到主要分支一起，同时包括这些关系。在下一节中，我们将解释实现上述每项贡献的方法。3. 拟议方法3.1. 模型和不同分支有多种输入模态，并且在使用交叉注意将它们组合在一起之前，它们中的每一个都有自己的处理分支，这在第3.3节中讨论。对于肢体语言识别任务，输入是面部裁剪序列、目标人的全帧序列和对话的音频。对于个性识别任务，我们也有对话者的全帧序列和目标人的文本。将人脸裁剪序列作为主要输入，并将其他模态融合到其中。这是因为它已经建立，面对作物有最相关的信息，形成情感计算，我们表明，它是可扩展的群体互动行为分析。我们使用OpenFace[6]提取面部裁剪坐标，并从原始全帧中进行裁剪。这会导致一些问题，因为后续面部中面部的位置可能不同，并且在重新组合并组合以制作视频之后，存在大量失真，如第1节中所讨论的。这促使我们想出一个办法来对付他们。该分支中的失真包括拉伸和平移，因为面部裁剪具有不同的分辨率，并且必须将其调整为224x224的输入大小。我们不使用OpenFace中的对齐人脸裁剪来减少对其他算法的依赖。我们将输入分成112x112块，并将它们通过3D卷积FAt Transformer交叉注意模块全帧序列功能音频转录功能分类负责人脸1x128x224x224x32D面片划分FAt Transformer1x16x1x1x（192x8）4x128x112x112x3面片合并R（2+1）D骨架4x32x14x14x256重塑1x32x28x28x2563D面片分割1x16x8x8x192线性嵌入1x16x2x2x（192x4）FAt Transformer面片合并面片合并FAt Transformer1x16x4x4x（192x2）3395图2. 在Transformer编码器中为强制注意添加分割图的不同阶段。(a)显示了将附加位置编码添加到原始输入中。(b)示出了向多头自注意模块的最后一个线性层添加偏置。(c)显示了与[7，26，27，41]中的3D相对偏差类似的添加偏差。（d）示出了分割图作为附加通道连接到原始输入，然后使用Conv1D还原回原始形状（e）示出了将分割图添加到输入的每个主干，R（2+1）D（删除了一些层），并再次连接输出。该分支的其余部分基于视频Swin变压器[34]，并添加了我们的贡献，稍后将进行讨论。全帧序列分支具有与面部分支类似的处理：它被分成64个块，并通过具有共享权重的相同卷积主干。其余的分支是视频Swin跨前T [34].音频通过预训练的模型Trill- Distilled[45]传递，该模型未进行微调。所获得的嵌入被用作第3.3节中讨论的交叉注意模块的输入。转录分支与音频分支类似。唯一的区别是用于提取特征的模型是XLM-RoBERTA[16]。3.2. 强迫注意力众所周知，变形金刚很难训练，由于所选领域的数据量有限，我们选择使用前景分割图来强制注意力由于背景没有相关信息，因此不必理会。有多种方法可以为模型提供此信息。添加以位置编码形式编码的信息是最常见的方式[7，26，27，41，31]。我们研究了不同的方法，并找到了一种更合适的方法来为模型提供这些信息。图2显示了不同的技术，下面将对其进行解释我们选择展示我们在这里尝试过的所有方法，以便它可以帮助其他人从事类似的工作。最常见的第一种方法是添加额外的位置编码。如图2（a）所示。3396X∗H H/NW W/N图3. 将分割图划分成小块的操作的可视化，所述小块将用于以所描述的矩阵M1的形式输入到模型。Transformers需要位置编码来知道注意标记的位置。我们在Swin transformers中的现有编码中添加了另一种述编码是方法是直接的，不需要太多的解释。如图2（d）所示。在我们采用的第四种方法中，我们将分割掩码添加如图2（e）所示。X=（X<$γ）+位置编码（5）在第五个中，我们添加了另一个与第一个类似的偏差，但在注意力计算中类似于视频Swin Transformers中的3D相对位置偏差[34]。如图2（c）所示。Attention（Q，K，V）=softmax（Q kT+（六）′基于大小为Nc x E的矩阵M1，其中Nc是数量。块的BER（参考视频Swin变压器[34]，B相对+B强制/（d）2005-2007年尾），E是必须添加编码的嵌入的维度该矩阵是动态的，取决于输入。图3显示了如何使用分割如果块中有来自前景的像素，则它是一个大小为E的1的数组，否则为0。这个矩阵是由一个权重数组，W1得到所需的形状（在这种情况下是E），并添加到输入。X=X+正弦PosEncoding+（1）强制注意位置编码ForcedAttentionPosEncoding=W1<$X（M1）（2）是一个采样器函数，返回大小为E从对应于所需要的块的矩阵M1中图3显示了分割图是如何分解成部分的，并且需要此函数来提取等式2所需的块。我们尝试的第二种方法是在注意力模块的最后一个线性层中添加一个偏置。这在图2（b）中示出。如果块具有前景像素，则偏移乘以1，否则乘以0。如果偏置被称为B强迫，我们可以将线性层的输出写为输出=线性（softmax（QkT）/softd）VBf′orced的计算方法与Bforced相似。唯一的区别是形状不同，这是由线性层照顾第二种方法给出了最好的结果，也是用于在下一节中提供结果的我们假设，这是因为它不干扰从补丁的局部特征提取，但提供了隐式的全球关注，这体现在补丁合并过程中的通道的下采样。3.3. 交叉注意模块这是一个模块，它允许我们使用来自其他模态的信息来增强面部裁剪分支。交叉注意最近越来越流行，并且已经证明效果很好，但是有多种方法可以实现它。Yan等人[53]对一些技术进行了很好的比较，我们利用了最适合这些技术的方法的修改，并将其扩展到在一个模块中添加多种模态。在面部分支的第三个注意力块中，我们将模态合并在一起。如图4所示，存在具有全帧序列和音频（以及用于个性识别的转录）的顺序交叉注意层。我们使用1d卷积来使音频和转录特征的通道维度等于768，第三个注意力块中用于面部+X）+B被迫（三）作物序列分支。交叉注意力的定义与规范相同，我们B强制=学习偏差<$W2<$X（M1）（4）由于注意力被施加在输入补丁上，并且编码器具有相同的输入和输出大小，因此可以使用相同的矩阵W2用于在后续层中需要时将所选嵌入的大小从M1第三种方法是在输入中添加分割掩码作为其他通道，并使用1d卷积层将输入通道的数量减少到三个。这将查询作为主分支，将键和值作为副输入。对于具有全帧序列特征的交叉注意，在自注意之后存在附加的交叉注意层，并且还存在模仿自注意层的残余连接。该操作的参数是零初始化的，因为这有助于使用预先训练的权重，这是常见的做法[9]。对于Udiva v0.5，有另一个完整的帧序列分支，用于其他对话者，其特征添加在目标人物之后，如图4所示。√3397× × ××× × ××图4. 多个输入端的交叉注意。对于与音频的交叉注意，遵循相同的方法。对于转录和音频，添加了两个交叉注意模块来代替一个，并且两者都具有与围绕两者的另一个一起的经常性连接-与存在两个为了更快的处理，我们使用performer[15]代替传统的Transformer attention。这可能会导致一些性能损失，但它仍然可以作为概念的证明，并允许使用可用的资源和时间进行更多的实验3.4. 分类负责人面裁剪和全帧序列分支的输出具有形状BCDHW，其中B是批量，C是通道数量，D是深度，H是高度，W是宽度。使用自适应3D池化层，它被减少到BC11每个分支1个。每个分支的嵌入沿着通道维度连接，然后通过线性层获得输出。4. 实验4.1. 数据集的选择我们选择了两个不同的实验任务：个性识别（高水平）和身体语言识别（低水平）。由于工作的重点是群体的互动，因此数据集的选择也相应地完成。对于个性识别，我们使用了UDIVA v0.5数据集，这是ICCV2021的一个挑战。这是可用于此任务的最大数据集。它包含了对话和游戏的二元互动。我们还给出了FirstImperial v2的结果，这也是一个用于个性识别的数据集，人们面对摄像头说话。该数据集模拟了交互的第一人称视角，是个性识别的良好基准，因为它注释了包含来自不同背景的人的YouTube视频为肢体语言识别，我们选择MPIGI数据集[5]。它有15个肢体语言课程，如“摸索”，“抓挠”，“双臂交叉”，“触摸脸”和“梳理”。补充材料中给出了数据集的更详细描述4.2. 培训详细信息我们在Kinetics-400数据集上预训练全帧序列分支，以减少其他数据集的训练时间，并具有良好的初始化，因为其他数据集并不一样大，并且transformers已知是数据饥饿的。我们使用与Video Swin Transformer论文[34]中相同的配置： AdamW 优化器用于 30 个epoch，CNN骨干的学习率为3e-5，其余参数为3e-4。批量大小被认为是64。0.1使用随机深度变化率和0.02重量衰减。对于CNN主干R（2+1）D，我们使用预训练的权重，网络在IG6500万[22]数据集上训练。对于UDIVA v0.5，我们使用上述权重作为全帧序列分支的初始化CNN主干与面分支共享。我们将CNN主干和全帧序列分支的学习率设置为3e-5，将面部裁剪序列分支的其余部分设置为3e-4。这些是根据批量大小（除以批量大小比的平方根）从Kinetics-400 1 K的微小变体粗略缩放[34]中批量取为4。面裁剪分支的初始化灵感来自[1]。形状与全帧序列不匹配，并且我们需要重新整形权重以重新使用它们，因此我们使用如[1]中所述的分组方法进行整形。对于第一个Implant v2，配置与Udiva v0.5相同，除了没有第二个interlocu- tor，因此只有一个全帧分支。我们还为这个数据集使用了我们将信息与音频和文字稿连接起来，并将它们通过线性层重新塑造为原始大小。N输入图层规范MSA交叉注意交叉注意图层规范MLP输出3398Σ−|对于MPIGI数据集，我们也不使用其他对话者的信息，因为二元交互的注释不可用，并且由于空间和时间限制，对于全帧序列具有3或4个分支是不可行的。所使用的学习率是其他学习率的两倍，即，图6 e-4和6e-5为Udiva解释的相应参数。权重衰减设置为0.03。其余的超参数保持不变。由于每个类可用的样本不平衡，我们对出现频率较低的训练样本使用过采样，对频率很高的训练样本使用欠采样，并为数据加载器使用自定义采样器，以确保批次不平衡。4.3. 与最新技术水平的4.3.1UDIVA v0.5表1列出了Udiva v0.5上最先进方法的结果。我们的方法大大优于传统方法。我们使用与用于表1. Udiva v0.5的结果。O：开放，C：意识，E：外向性，A：可接受性，N：神经质。用于比较的度量是MSE（均方Er-ror）。该结果摘自2021年ICCV“理解二元和小群体互动中的社会行为挑战 ” ：自动自我报告人格识别挑战https://chalearnlap.cvc.uab.cat/challenge/45/track/43/result/截至2022年8月29日。模型平均值OCE一N0.770 0.711 0.723 0.8670.548 0.9972019年12月19日星期一上午10：00-下午10：00佩萨尼亚2009年12月31日FAt Transformer0.720 0.668 0.624 0.730表2.第一个Imperial V2的结果O：开放性，C：自觉性，E：外向，A：可接受性，以及N：神经营养不良模型O C E A N平均值挑战，平均参与者的均方误差。与其他实验相比，我们在实验中看到了一个有趣的模式。我们在训练更多的时期后，对一些类得到了更好的结果，但平均误差更差。因此，使用训练模型的集合会得到更好的结果，但我们将其留给未来的工作。我们的方法与其他方法之间的另一个区别是选择不使用元数据。其他方法广泛使用它尽管有进一步的性能改进，但我们更喜欢更通用的方法，因此我们选择避免元数据，凝视和姿势特征。这就是我们假设在表1中，可接受性类别的结果比hananastatin更差的原因。他们的方法对男性和女性参与者使用了单独的分支，由于数据偏见，当在其基础上存在分离但总的来说，我们表明，我们的模型优于以前的方法Aslan等人[4]0.917 0.921 0.921 0.919 0.916 0.919澳门金沙城中心[24]0.912 0.911 0.911 0.916 0.909 0.912[46]0.913 0.914 0.915 0.916 0.910 0.914Gurpinar等人[23] 0.914 0.914 0.919 0.914 0.912[8]0.914 0.917 0.918 0.917 0.913 0.9172017年12月28日星期一上午10：00Agrawal等[2]0.929 0.926 0.927 0.929 0.921 0.926额定电压Transformer0.942 0.951 0.955 0.949 0.959 0.951它在交叉注意之前的下采样中丢失了很多信息，我们觉得我们的方法比他们的方法产生更好的结果，因为这个原因。我们使用其他工作中使用的相同度量进行比较：N用于二元交互视频中的个性识别我们不包括一个文件，有最好的结果后，我们精度= 11tNii=1-p i|（七）因为它们不提供单个类的最佳配置结果。他们使用相同的数据以及关于参与者的元数据实现了0.722的平均我们使用元数据实现了0.706的分数，仅训练了4个epoch。该改善具有统计学显著性，因为UDIVA数据集上MSE的95%置信区间为0.036。4.3.2第一次即刻v2表2显示了这个数据集上最好的先前工作的结果。对于这个数据集，我们也大大优于以前的工作。[2]中的方法在特征级别使用交叉注意和不同模态的融合，但是其中，ti是地面实况分数，并且pi是在N个视频上求和的人格特质的预测分数。4.3.3MPII组交互表3示出了现有技术算法的结果，我们对MPIGI数据集进行了微调[5]。我们使用准确性和加权平均的F1分数在类（权重取决于每个类的样本数量）作为metrics。每个类的F1分数被定义为该动作类的精确度和召回率的调和平均值。由于数据集严重不平衡，仅凭准确性并不是一个好的指标。我们甚至优于我们选择的基线的更大变化，视频Swin变换器[34]（我们使用Swin T并与Swin B进行比较），因为3399表3. MPII组相互作用模型准确度加权F1评分4.4.2后期融合我们尝试两种不同的配置进行分类视频Swin B[34] 0.656 0.637FAt Transformer0.692 0.685表4.Udiva v0.5的消融研究结果O C E A N沿着通道尺寸定位。后者给出了最好的结果，但它们与表4中第二行的仅使用面部特征没有很大不同。这表明，交叉注意模块适当地合并了来自其他分支（除了面部裁剪序列）的相关信息，这解释了为什么后期融合不会对结果产生很大影响。额定电压Transformer 0.720 0.668 0.624 0.730 0.590 0.987无强迫注意0.902 0.705 0.704 0.873 0.966 1.264无CNN主干2018年12月31日我们的十字架-注意模块0.824 0.813 0.776 0.794 0.619 1.118无晚期融合无音频0.903 0.797 0.919 0.874 0.844 1.079不包括成绩单我们的贡献表明了他们在这一领域的突出地位。我们还优于其他方法，这些方法在动作识别方面提供了最先进的结果，这是与此数据集最接近的领域，有许多以前的作品。4.4. 消融研究4.4.1主要贡献当输入中没有分割图时，我们注意到模型性能在每个时期都有振荡。在表4中，我们给出了OCEAN类中具有最佳平均验证得分的结果。由于数据集的偏差，甚至可能是个性类，我们看到在特定的时期，模型在O，C和E类或A和N类上表现良好例如，在表4中，可以看出，在没有（w/o）针对chosen时期的强制注意的情况下，模型在A和N上表现不佳我们在一个单独的实验中看到了同样的现象，我们尝试了一种类似于VATT[3]的方法，而没有对比学习。因此，我们得出结论，强迫注意确实有助于模型收敛。在没有补丁分区和CNN主干的情况下，Transformer的行为与extro版本类类似。这证实了我们的假设，即这种贡献也有助于收敛。仅使用一侧输入并在连续块中改变它以代替所提出的模块允许网络适当地收敛，但跨所有类的性能下降。这一贡献使我们的网络能够更好地利用模态之间的相关性，并且该消融研究支持这一说法。4.4.3不同模态我们展示了当音频和转录输入丢失时模型是如何工作的。当任何一种方式缺失时，每分钟都有显着减少，这表明了两者的重要性。可以看出，一些类更受这些模态缺失的影响。A类的性能下降最多，但这也可能是因为模型不能正确收敛于该类，而更多的输入模态有助于解决这一问题。另一方面，C上的结果似乎高度依赖于这些模态，因为模型能够在强迫注意消融研究中收敛于该类这些结果还表明，我们的架构在将来自音频和转录本的信息合并到面部裁剪序列中方面效果良好。5. 结论提出了一种将多种模态有效地整合到一个模型中进行人类行为分析的方法.我们的模型在三个不同的数据集上优于最先进的模型。Udiva v0.5和First Imperial v2解决了人格识别的高级问题，而MPIGI解决了肢体语言识别的低级问题对于相应的数据集，我们实现了0.050的MSE降低（忽略二乘变换器：详细描述见第4.3.1节），1.3 准确度提高3.6%，准确度提高3.6%通过消融研究，我们表明，我们的每一个贡献对模型的性能有显着的影响。我们研究了不同的方法，将信息纳入一个Transformer，并显示的影响，一个最好的性能，通过可视化的注意力对一个示例输入帧。我们希望这项工作能激励在这一领域开展更多的工作，因为它还没有得到广泛的探讨。致谢这项工作得到了法国国家研究机构在UCAJEDI未来投资下的支持，项目编号为ANR-15-IDEX-01，并得到了德国教育和研究部的支持，资助编号为01 IS 20075。TSN[51]0.4430.442头仅使用面分支中的特征，[32]第三十二话0.6070.599全帧和面裁剪序列分支都连接，3400引用[1] 放大图片作者：Dhruv Agarwal，Tanay Agrawal，LauraM.法拉利，还有弗朗索瓦·勃雷蒙。从多峰到单峰的注意力在变压器使用知识蒸馏。CoRR，abs/2110.08270，2021。[2] Tanay Agrawal，Dhruv Agarwal，Michal Balazia. ，内赫 · 辛哈，还有弗朗索瓦 · 布雷蒙使用交叉注意Transformer和行为编码的多模态个性识别。在第17届计算机视觉、成像和计算机图形理论与应用国际联合会议论文集-第5卷：VISAPP，第501-508页。INSTICC，SciTePress，2022.[3] Hassan Akbari，Liangzhe Yuan，Rui Qian，Wei-HongChuang ， Shih-Fu Chang ， Yin Cui ， and BoqingGong.VATT：用于从原始视频、音频和文本进行多模式自监督学习的变压器。 CoRR， abs/2104.11178 ，2021。[4] 我是阿斯兰，我是古巴。基于多模态视频的明显个性识别使用长短期记忆和卷积神经网络，2019年。[5] MichalBalazia ， TanczosMullerPhilipp ， AkosLevente，Au-gust Liechtenstein，and Francois Bremond.社会交往中的身体行为：新颖的注释和最先进的评价。在2022年第30届ACM国际多媒体会议上。接受出版。[6] Tadas Baltrusaitis 、 Amir Zadeh 、 Yao Chong Lim 和Louis- Philippe Morency。OpenFace 2.0：面部行为分析工具包。在2018年第13届IEEE人脸手势识别国际会议（FG 2018），第59-66页[7] HangboBao，Li Dong，Furu Wei，Wenhui Wang，NanYang ， Xiaodong Liu ， Yu Wang ， Songhao Piao ，Jianfeng Gao ， Ming Zhou ， and Hsiao-Wuen Hon.Unilmv 2：用于统一语言模型预训练的伪掩码语言模型。CoRR，abs/2002.12804，2020。[8] Salah Eddine Bekhouche ， Fadi Dornaika ， AbdelkrimOuhouche，and Abdelmalik Taleb-Ahmed.通过分析面部视频进行人格特征和求职者筛选。2017年IEEE计算机视觉和模式识别研讨会（CVPRW），第1660-1663页[9] Gedas Bertasius，Heng Wang，and Lorenzo Torresani.时空注意力是你理解视频所需要的全部吗？CoRR，abs/2102.05095，2021。[10] 作者声明： Andrewdem Beyan ， Francesca Capozzi ，Cristina Becchio，and Vittorio Murino.运用视听非语言特征预测新兴领导者的领导风格。IEEE Transactions onMultimedia，20（2）：441[11] 作者：Andrea Zunino，Muhammad Shahid，and VittorioMurino.基于深度视觉活动的关键动态图像非语言特征的人格特质分类。 IEEE Transactions on AffectiveComputing，12（4）：1084[12] Chris Birmingham，Kalin Stefanov，and Maja J Mataric.组级视觉注意力的焦点，用于改进下一个说话者预测。第29届ACM国际多媒体会议论文集，第4838-4842页，2021年[13] Francesca Capozzi ， Eddem Beyan ， Antonio Pierro ，Atesh Koul，Vittorio Murino，Stefano Livi，Andrew PBayliss，Je-莉娜·瑞斯蒂奇和克里斯蒂娜·贝奇奥。追踪领导者：群体互动中的凝视行为。Iscience，16：242[14] J oaoCarreira和Andr e wZisserman。Quovadis，动作识别？新模型和动力学数据集。CoRR，abs/1705.07750，2017年。[15] 作者：柯罗曼斯基，李霍舍斯托夫，杜汉，宋星友，甘，莎拉，霍金斯，戴维斯，莫修丁，凯泽，贝朗格，露西.科尔韦尔和艾德里安·威勒重新思考对表演者的关注。CoRR，abs/2009.14794，2020。[16] Alexis Conneau、Kartikay Khandelwal、Naman Goyal、Vishra vChaudhary、GuillaumeWenzek 、 FranciscoGuzm'n 、 Edouard Grave 、 Myle Ott 、 Luke Zettlemoyer 和Veselin Stoyanov。无监督跨语言表征学习。CoRR，abs/1911.02116，2019。[17] D a vidCurto ， AlbertClap e's ， J a vierSel v a ，SorinaSmeureanu ， Ju'lioC.S.JacquesJu'nior ， DavidGallardo-Pujol ， Geor ginaGuilera ， David Leiva ，Thomas B.莫斯伦德，塞尔吉奥·埃斯-卡莱拉，克里斯蒂娜·帕尔梅罗. Dyadformer：一个多模态Transformer，用于对二元交互进行远程建模。CoRR，abs/2109.09487，2021。[18] 让·伯努瓦·德尔布鲁克，诺埃·蒂茨，玛蒂尔德·布鲁米奇和圣·埃法恩·杜邦。基于变换的情感识别和情感分析联合编码在第二次大挑战和多模态语言研讨会（SEMPE-HML），第1-7页，美国西雅图，2020年7月。计算语言学协会。[19] AlexeyDosovitskiy、LucasBeyer、AlexanderKolesnikov、Dirk Weissenborn、Xiaohua Zhai、ThomasUnterthiner 、 Mostafa Dehghani 、 Matthias Minderer 、Georg Heigold、Syl-vain Gelly、Jakob Uszkoreit和NeilHoulsby。一张图片相当于16x16个单词：用于大规模图像识别的变压器CoRR，abs/2010.11929，2020。[20] Hugo Jair Escalante，Heysem Kaya，Albert Ali Salah，Ser-gioEscalera ， YagmurGuc; lurk ， UmutGuclu ， XavierBaro ，Isabelle Guyon，Julio C.S. Jacques，MeysamMadadi ， Stephane Ayache ， Evelyne Viegas ， FurkanGurpinar ， Achmadnoer Sukma Wicaksana ， CynthiaLiem，Marcel A.J. Van Gerven和Rob Van Lier。从视频中建模，识别和解释明显的个性IEEE Transactions onAffective Computing，第1-1页[21] Haoqi Fan，Bo Xiong，Karttikeya Mangalam，YanghaoLi ， Zhicheng Yan ， Jitendra Malik ， and ChristophFeichtenhofer. 多尺度视觉变换器。 CoRR ，abs/2104.11227，2021。[22] Deepti Ghadiyaram ， Matt Feiszli ， Du Tran ， XuetingYan，Heng Wang，and Dhruv Mahajan.用于视频动作识别的大规模弱监督预训练。CoRR，abs/1905.00561，2019。[23] FurkanGürpinar，H e ysemKay a，andAlbertAliSalah. 音频、场景和人脸特征的多模态融合，用于第一印象估计。2016年第23届国际模式识别会议（ICPR），第43-48页[24] 作者：Yag？ murGu？ c？l u？ t u？k，UmutGu？ c？ l u？，MarcelA. J. vanG

下载后可阅读完整内容，剩余1页未读，立即下载