异步多模态序列融合中分布差异的方法

80 浏览量更新于2023-10-14 收藏 770KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

8148注意是不够的：消除异步多模态序列融合中分布差异的方法梁涛1，2林国胜3雷锋3张燕4吕丰茂1，5 *1西南交通大学2IES的工程生产力质量保证，字节跳动3南洋理工大学4电子科技大学5西南财经大学统计研究中心{fengmaolv，taoliangdpg}@ 126.com{gslin，feng0093}@ ntu.edu.sgyixianqianzy@gmail.com摘要视频流是语言、声音和视觉形态的混合体。彻底的视频理解需要融合不同模态的时间序列数据进行预测。由于来自每个模态的序列的可变接收频率，通常存在跨所收集的多模态流的固有异步。为了从异步多模态流中进行有效的多模态融合，我们需要对来自不同模态的元素之间的相关性进行建模。最近的多模态Transformer（MulT）方法扩展了原始变换器网络的自注意机制，以学习元素之间的跨模态依赖关系。然而，自我注意的直接复制将受到跨不同模态特征的分布失配的影响。因此，学习的跨模态依赖性可能是不可靠的。受此观察的启发，这项工作提出了模态不变跨模态Atten- tion（MICA）方法，用于在模态不变空间上学习跨模态相互作用，其中不同模态之间的分布不匹配被很好地桥接。为此，边缘分布和具有高置信度相关性的元素都在查询的公共空间上对齐，并且关键向量是从不同模态计算的。三个标准的多模态视频理解基准的实验清楚地validate我们的方法的优越性。1. 介绍视频分析涉及语言，声学和视觉模态的时间序列数据。一个完整的视频* 通讯作者：F. Lv（电子邮件：fengmaolv@126.com）。为了理解，我们需要融合来自不同模态的数据序列然而，在实践中，由于不同模态的序列的可变接收频率，所收集的多模态流通常是异步的[18]。例如，声音或字幕可能与视频显示的内容不完全匹配。跨不同模态的固有不同步对执行有效的多模态融合提出了挑战，这需要具有来自不同模态序列的元素之间的实际关系的精确信息。为此，现有技术通过将视觉和声学序列与文本单词的分辨率对齐来手动预处理视觉和声学序列[15，19，24]。然后，在字对齐的时间步长上执行多模态融合。然而，手动对准过程通常需要大量的时间和劳动力。最近的多模态变换器（ MulT ）方法扩展了标准Transformer的自注意机制，以学习来自不同模态的元素之间的相关性[18]。基于通过跨模态注意操作探索的潜在跨模态交互，MulT直接从异步多模态序列执行多模态融合而无需手动对齐。然而，如果我们进一步深入了解MulT中的在标准Transformer模型中，自注意力操作通过比较查询和从元素的特征计算的关键向量来探索元素之间的另一方面，MulT专注于探索元素之间的跨模态相关性。跨模态注意操作中涉及的查询和关键向量从不同的模态计算。由于不同模态特征之间的异质性[9，27]，存在8149在查询和键的公共空间中将存在明显的分布不匹配。因此，它们的点积不能揭示元素之间可靠的交叉模态相关性。受上述观察的启发，本文提出了模态不变跨模态注意（MICA）方法，从异步多模态序列中进行多模态融合我们的方法的核心思想是执行跨模态注意模态不变的空间中为此，我们的方法强制执行的查询和关键向量，从不同的模态计算的公共空间上总的来说，我们的方法以两种方式弥合了分布不匹配。一种是通过最大平均差异（MMD）来匹配边缘分布，这通常用于迁移学习或域自适应[13，10]。另一种是通过我们提出的传播元素级对齐（PEA）策略匹配具有高置信度相关性的元素。具体而言，我们的方法沿着网络层传播交叉模态相关性的信息，即，前一层中具有高置信度相关性的元素也将参与元素级对准损失（例如，L2损失）。传播策略可以加强跨网络层的一致性，并引导变换器网络逐步获得元素之间更好的交叉模态相关性。与原始的MulT模型相比，该方法能够克服不同模态之间的分布差异，为异步多模态序列的多模态融合建立更可靠的跨模态关系。三个多模态视频理解基准的实验清楚地表明了我们的方法的有效性。综上所述，这项工作的贡献有三个方面：我们提请第一个注意的分布discrep- ancy的问题，限制了注意机制，以获得可靠的跨模态相关的异步多模态序列融合。我们建议在模态不变空间上执行跨模态注意，其中跨模态的分布间隙被桥接。边缘分布失配和元件级失配两者对齐以减小分布差异。我们的方法可以获得国家的最先进的perfor-曼斯在不同的多模态视频理解的基准。2. 相关作品多模式序列融合。彻底的视频理解需要融合不同模态的数据，语言、声学和视觉模态[26，16，17，5、19、18]。早期的作品对从视频剪辑中提取的静态特征执行多模态融合，并且不考虑来自不同模态序列的元素之间的固有关系[12，5，16，17]。朝向为了在视频中进行有效的多模态融合，必须考虑不同模态序列的元素之间的固有依赖性。然而，由于不同模态的序列的可变帧速率，在实践中收集的多模态流通常是异步的[19，22，15]。为了解决这个问题，最近的工作通过将视觉和听觉序列与文本单词的分辨率对齐来手动预处理视觉和听觉序列[19，22，15]。在人工对齐的基础上，对对齐后的词元素进行多模态融合典型的研究成果包括层次注意机制[8]、非言语时间互动[22]、循环翻译[15]等。然而，手动对准过程通常需要大量的时间和劳动力。另外，词级多模态融合不考虑跨模态的元素之间的长期依赖性。Zeng等人提出通过最大互信息规则直接从未对齐的多模态序列执行多模态融合[25]。他们的方法的性能受到浅层架构的严重限制。最近，Tsail et al.建议扩展Trans-former网络以学习不同模态的元素之间的潜在相关性[18]。最近的工作通过引入公共消息中心来加强每种模态来改进MulT [11]。然而，在[11]中需要许多附加参数。分布对齐。分布对齐最初是针对域适应进行研究的[13，10，6，20，3]。常见的分布对齐方法包括最大平均差异[13，10]，对抗训练[6，20]，自适应批量归一化[3]等。这项工作得出了一个有趣的见解连接Transformer器域适应通过分布对齐。我们注意到，我们的工作对分布调整有不同的动机。特别是，域自适应桥接了分布不匹配，以提高模型另一方面，这项工作主要集中在建模更可靠的相关性之间的元素跨模态。3. 模态不变跨模态注意3.1. 问题陈述这项工作的重点是从视频中的三个主要模态进行多模态序列融合，即，语言（L）、视觉（V）和声学（A）模态。其中序列长度和特征维度由T（. ）和d（. ），分别使用符号X{L，V，A}∈···8150∈∈∈∈联系我们P P∈tKssds×dv∈��∈ℝ��×��∈ℝ��×��模态Yt将用于加强目标模态特征。我们建议读者参考[18]以了解更多细节。3.3. 动机在跨模态注意操作中，WKs和WQt首先将源模态和目标模态的元素分别投影到公共空间中，分别为KsRTs×dk和QtRTt×dk（见图1）。①的人。然后通过比较公共空间中的Ks和Qt来探讨元素之间的交叉模态相关性然而，与标准Transformer中的自我关注不同，本文中的查询和键是从不同的模态计算的因为异性恋-图1.注意机制中的查询和关键字之间的分布差异是由不同模态特征之间的异质性引起的。具有内在相关性的元素以相同的形状显示。RT{L，V，A}×d{L，V，A}来表示来自每个模态的输入序列。由于来自每种模态的序列的可变接收频率，在不同的多模态序列之间通常存在在这项工作中，我们的目标是执行多模态融合的异步多模态序列，并获得representations的下游预测任务，如人类情感识别是有效的。3.2. 预赛跨模态注意力。跨模态注意操作是MulT模型的核心组成部分[18]。它接收来自源模态和目标模态的输入，并专注于对跨模态的元素之间的相关性进行用s，tL，V，A，我们用符号XRTs×ds XtRTt×dt以分别表示来自源和目标模式的数据序列。与Transformer中的自注意机制类似，跨模态注意操作也涉及查询、键和值，它们表示为Q t=X t W Qt，KS=X sW KS和Vs=X s W Vs，re-transformer中的自注意机制包括：如果在不同模态特征上存在不同的基因，则在Ks和Qt之间将存在明显的分布失配，即，（Ks）=（Qt）。与域自适应中的问题类似，分布失配将使得从公共空间观察到的交叉模态相关性不可靠。例如，两个应该相关的元素可能在公共空间上有很大的距离，反之亦然，这是由于查询和键之间的分布不匹配（见图11）。①的人。出于这一观察结果，我们赢得了更好的跨模态相关性是否可以通过调整跨模态的分布差异来建模，并提出了多模态融合的MICA方法异步多模态序列的子序列。3.4. 模态不变跨模态注意网络主干。如在[18]中，原始序列首先通过1D时间卷积层和位置嵌入增强操作进行预处理通过控制用于每个模态的1D卷积操作的内核大小，不同模态的特征被强制具有相同的尺寸。我们使用nota-集合Z{L，V，A}∈ RT{L，V，A} ×d来表示预处理后的序列。Z{L，V，A}RT{L，V，A}×d将用作Transformer网络。图2显示了所提出的方法的总体架构。主链几乎与MulT模型相似。在网络中，多个分别为。权重WQt∈Rdt×dk，WK∈Rds×dk成对和双向跨模态注意的叠加和W VSR是可学习的参数。跨模态注意力操作的一个单一头部可以被公式化如下：Yt= CMs→t（ Xs，Xt）QtKT块用于更新序列。每个跨模态注意力块通过基于注意力机制关注源模态的相关元素来加强目标模态（参见图1A）。[18]的3（b））。然后，我们通过一个自我-注意Transformer和连接它们作为代表。= softmax（√d）Vs（一）用于下游预测任务的发送。几个完全-= softmax（Xt WQ WT XT√dk）XsWVs，连接的层用于进行最终预测。该模型以端到端的方式进行训练。我们注意到我们的网络主干有一个小的不同-其中Yt∈RTt×dv . 我们把整个十字头-使用Mult模型。表示为Z[i]s1→t ∈RTt×d且模态注意操作为Yt= CMmul（Xs，Xt），其中Z[i]∈RTt×dt的模态由模态-RT×hds→ts2→tYt∈tv。如等式1所示1，分别为s1和s2的多模态融合度，其中s1，s2，t∈ {L，V，A}。上标[i]表示第i层。后对准共同空间模态不变空间源模态目标理疗装置SSK8151联系我们∈RW不不L联系我们转e级联[预测softmax（）[]联系我们>[ ][]TransformerTransformerTransformer��[softmax（）联系我们对准或[]L2损失MMD损耗[[]��×[]��×[]��联系我们[0][0][0]×D层∈ℝ��联系我们��∈ℝ（语言）（视觉）（听觉）�� [��[ 客户端] ∈ℝ��×��(a) 所提出的方法的总体架构。（b）跨通道注意块中的分布对齐操作。图2. (a)拟议的MICA方法的总体架构。虚线表示传播交叉模态相关性通过权重矩阵V [ i ]在网络层上计算。符号CA[i]s→t，其中s，t，L，V，A表示跨模态注意力[i]个街区. (b)跨模态注意块CA中的分布对齐操作s→t。分布失配在从不同模态计算的查询和键的公共空间上对齐。由跨模态注意力块Z[i]s1→t 和一般而言，不同模态之间的分布差异Z[i]s2→t 通过以下门合并：在于两个方面。一是边际分布的不匹配另一种是元素级失配，例如，两G[i]= sigmoid（ Z[i][i]+Z[i][i]+b[i]），具有实际相关性的元素可以被投射到远处不[i+1]s1→t[i][i]s1→ts2→t[i]s2→t t[i]彼此之间因此，我们的方法以两种方式弥合分布差异对于前者，我们减少Zt= Gt⊙ Zs1→t+（1− Gt）⊙Zs2→t，每个查询中的查询和键之间的MMD度量其中W[i]s1→td×d，[i]s2→t ∈Rd×d，且b[i]∈RTt×d跨通道注意单位元素级不匹配为通过我们提出的PEA方法对齐。用Lp表示是可学习的参数。Z[i]s1→t 且Z[i]s2→t 合并下游预测任务的交叉熵损失，Lm通过可学习的页面确定不同的比例。半径。 Z[i+1]将被输入到下一层的跨模态注意力块中。与Mult模型不同，在Mult模型中边缘分布的对准损失，以及e元件级对准损失。总体目标可表述如下：Z[i]s1→t 且Z[i]s2→t 分别流动，并连接到-且Z[i]在L=L+αL+βL，s1→ts2→t哪里和是权衡中间层可以促进有效合作α β在跨模态注意力块之间相应术语的重要性Lm和Le是-相同的目标模态（例如，CA[i]V→L ，则[i]A→L 图（二）模拟如下。并且使多模态融合更有效。模型概述。如3.3节所述，跨模态注意力将受到分布差异的影响边际分布对齐。用s，t，L，A，V，我们表示跨通道注意操作中涉及的源通道和目标通道的元素表征在不同的模态特征之间进行协作。因此，我们的ap-操作CM[i]当z[i]∈ Rd×1和z[i]∈ Rd×1时，分别有两种情形.方法主要集中在对齐分布差异-[i]s→tS[i]不[i]跨模态的协作。为此，我们强制执行模态不变的公共空间的查询和关键字，这是从不同的模态计算。CrossmodalCMs t将把zs和zt分别作为键和查询投影到公共空间中k[i]=W[i]Tz[i]，q[i]=W[i]Tz[i]，然后，在模态不变s Kss tQtt·W·W在最后阶段，Z[i]的合并pM层i[[[��[合并浇口CA[]CA[]��→[��]��[ +1]��[合并浇口CA[]CA[]→�� [合并浇口CA[]CA[]��→[[[[[[[[[8152KsQt其中W[i]，W[i]∈ Rd×dk. 边缘分布不均匀-模式已经被桥接。匹配通过执行MMD对齐来桥接8153不2Hs和tΣn，mΣ·¨¨qn，m。j，s，tDKQtK-k2n，mQtKDKs和t埃S不埃Hs和tn2s，ms，nn2t，mt，n：V=i=0W对准损失然后由V[l]加权j，s，tn，m埃j，t，n埃j，s，m¨ΣΣΣΣk[i]和q[i]的公共空间。为此，我们映射k[i]我们注意到k[i]且q[i]是来自于stsj，s，mj，t，n和 q[i] 到具有特征核的再生核希尔伯特空间（RKHS）中，并通过双样本检验来测量相同的训练样本（由下标j表示）。这与常见的自学方法有相似的想法[28，29]。然而，除了自我学习之外，我们的方法还进一步引起了对不一致性交叉的关注[i] =¨E[（k[i]）]−E[（q[i]）]¨，网络层。在实践中，跨模态注意力操作-不同层的迭代可以模拟不同的相关性其中（. ）表示到RKHS的映射。分别用ns和nt表示源模态和目标模态中的元素总数。经验估计[i]由下式计算元素之间。例如，在先前层中建模的交叉模态相关可能在后续层中未被观察到因此，元素级对齐在网络层之间可能不一致。为了解决这个问题，我们的方法传播ns nsnt nt跨网络层的交叉模态相关性[i]=1ΣΣK（k[i]nt，q[i]）+1Σ ΣK（k[i]）tm=1n =1，q[i]）[i][l] Sl[i]n，m：而不是W[i]-2Σ ΣK（k[i]，q[i]），D=V2nsntm=1n =1s，mt，nTtTs[i]j，s，t[i]n，m[i]j，t，n[i]j，s，m.（二）其中K（.，的。）表示内核函数。在我们的ap-方法中，MMD对准在交叉模态中执行。注意每层的块。用D表示Transformer层数。Lm可以被公式化如下：Dn=1m=1注意，V[0]被初始化为W[0]。以V[l]加权，前一层中具有高置信度相关性的元素也将参与后续层的元素级对准损失这种策略可以强制执行Lm=i=0s，t∈{L，V，A}，s不[i]s和t跨网络层的一致性，并指导Trans- former模型逐步建立更可靠的跨网络模型。传播的元素级对齐。元素级对齐主要集中在桥接分布错误元素之间的模态相关性其中d[i]当量2，Le损失可以用公式表示如下：中定义N D元素与实际相关性的匹配。怎么-元素之间的实际交叉模态相关性Le=Σ[i]j，s，t对于异步多模态序列是未知的。为了解决这个问题，我们利用从跨模态注意操作中揭示的信息，即，不softmax（√s）在Eq. 1. 具体来说，这个矩阵估计-匹配来自不同模态的序列的两个元素具有实际相关性的概率。如果两个元素有很大的概率相关，我们可以假设存在实际的对应关系。他们之间的关系。立即，我们减少相应的查询和关键向量之间的L2TtTsd[i]=W[i]·¨q[i][i]¨，n=1m=1j=1i=0s，t∈{L，V，A}，s =t其中N表示训练样本的数量。4. 实验4.1. 实验装置我们对多模态视频理解的三个标准基准进行了实验，包括 CMU-MOSI [24] ， CMU-MOSEI [23] 和IEMOCAP [2]。这些基准测试主要集中于人类多模态情感识别，其需要执行有效的多模态序列融合。在我们的实验中采用了以前的作品[18，19，22]的共同协议CMU-MOSI是由2，199个样本组成的数据集。其中，权重W[i]由下式计算：[i][i]T短片独白视频剪辑[24]。其预定数据分区在训练集中具有1，284个样本，在验证集中具有229个样本，并且在测试集中具有686个样本每个样品W[i] ：=softmax（QtKs√dk）>γ，标记有范围从-3（非常消极）到3（非常积极）的情感分数。声音和视觉序列其中γ是动态设置为概率不在矩阵softmax（√）中排列在τ*T s*T ts）的情况。的选择率τ∈[0，1]是预定义的超参数。zz-kD[i]S[i]不权矩阵V. 元素级sm=1n =1ns、8154分别在12.5和15Hz的接收频率下提取。如在先前的作品[18，19]中，通过7级精度（即，Acc7），二进制精度（即，Acc2）和F1评分。8155表1.每个基准测试中采用的超参数设置设置CMU-MOSEICMU-MOSIIEMOCAP优化器亚当亚当亚当批量646432时期号12012080学习率5e-41e-31e-3特征尺寸d404040注意h头10810选择率τ0.30.250.25折衷参数α0.80.80.7折衷参数β0.50.50.5内核大小（L/V/A）3/3/33/3/33/3/5Transformer层D644表2. CMU-MOSI基准的比较。上标t指示需要手动对准过程。方法加速7（%）加速2（%）F1（%）EF-LSTM31.073.674.5LF-LSTM33.777.677.8MFM†[19]36.278.178.1[22]第二十二话31.772.773.1MCTN [15]32.775.976.4多变量[18]39.181.181.0MICA（我们的）40.882.682.7CMU-MOSEI是由22，856个电影评论视频剪辑样本组成的数据集[23]。它的预定数据分区在训练集中有16，326个样本，在验证集中有1，871个样本，在测试集中有4，659个样本。如在上述设置中，CMU-M0SEI样本也被标记有范围从-3到3的情感分数。在20和15赫兹的接收频率，分别提取的声学和性能指标与上述设置中使用的指标相同。IEMOCAP是由4，453个视频剪辑样本组成的数据集[2]。它的预定数据分区在训练集中有2,717个样本，在验证集中有798个样本，在测试集中有938个样本。分别在12.5和15Hz的接收频率下提取声学和视觉序列与CMU-MOSI和CMU-MOSEI不同，该基准测试主要关注多标签学习[22]。需要模型来识别4个情感类别（即，快乐、悲伤、愤怒和中性）。如在先前的作品[19，22]中，性能通过二进制分类准确度和每个情感类的F1得分来评估。4.2. 实现细节为了提取视觉模态的特征，使用Facet模型对视频帧进行预处理[1]。对于每个视频帧，生成35个面部动作单元来表示表3.CMU-MOSEI基准的比较上标t指示需要手动对准过程。方法加速7（%）加速2（%）F1（%）EF-LSTM46.376.175.9LF-LSTM48.877.578.2GMFN†[24]45.076.977.0[22]第二十二话45.575.475.7MCTN [15]48.279.379.7多变量[18]50.781.681.6MICA（我们的）52.483.783.3发送面部肌肉运动。对于文本模态，预训练的Glove模型用于转换视频转录[14]。每个文本单词由300维单词嵌入表示。COVAREP模型用于提取声学特征[4]。声学特征的尺寸为74。表1中显示了每个基准中采用的超参数为用于预处理每个模态的输入序列的1D时间卷积操作设置内核大小。超参数经由验证集来确定。4.3. 实验结果基线。我们将我们的方法与多模态序列融合的最新技术进行了比较，包括早期融合LSTM（EF-LSTM），后期融合 LSTM （ LF-LSTM ），多模态分解模型（MFM）[19]，图多模态融合网络（GMFN）[24]、递归关注变分嵌入网络（RAVEN）[22]、多模态循环变换网络（MCTN）[15]和多模态Transformer（MulT）[18]。其中，MFM和G-MFN需要手动过程来调整跨模态的异步。RAVEN和MCTN可以通过将附加的连接主义时间分类（CTC）损失[7]包括到其学习目标中而适用于来自异步多模态序列的多模态融合。MulT和LF-LSTM直接适用于异步多模态序列。性能比较。我们在表2 - 4中报告了每个基线通常，可以如下绘制三首先，我们可以获得国家的最先进的结果，所采用的基准，其中涉及多模态融合异步多模态序列。第二，我们的方法优于MFM和GMFN，而无需手动对齐异步多模态序列。最后，我们的方法有一个明显的perfor-曼斯改善与MulT模型相比与MulT相比，我们的方法的改进对于每个基准测试中的所有指标都是重要的（p<0. 05）。05）的情况。为了更公平地比较我们的方法和我们还通过控制数量来进行实验8156n，mn，m一一表4.在IEMOCAP基准测试中，对每个情绪类别的二进制分类准确率和F1得分进行比较方法快乐累积（%）F1（%）累积（%）伤心F1（%）累积（%）生气F1（%）中性累积（%）F1（%）EF-LSTM76.275.770.270.572.767.158.157.4LF-LSTM72.571.872.970.468.667.959.656.2[22]第二十二话77.076.867.665.665.064.162.059.5MCTN [15]80.577.572.071.764.965.649.449.3多变量[18]84.881.977.774.173.970.262.559.7MICA（我们的）86.883.979.375.275.772.463.761.683.1783.2283.2783.0683.2783.1282.9483.1783.1582.9783.0983.0782.8982.9982.990.2 0.3 0.4 0.50.6阿尔法0.2 0.3 0.4 0.50.6β值0.1 0.15 0.2 0.25 0.3τ图3. CMU-MOSEI基准的敏感性分析。通过改变相应超参数的值，同时将其他超参数固定到实验中采用的值来获得结果。表5. CMU-MOSEI基准的消融研究结果。符号“MMD对齐”和“PE对齐”分别表示边缘分布对齐和传播的元素级对齐。结果在5次运行中取平均值。模型设计主干，无对齐MMD对齐MMD对齐+ PE对齐（全模型）MMD对齐+ PE对齐，无传播加速度7（%）加速度2（%）F1（%）51.1± 0.14 81.9± 0.2681.9± 0.2152.0± 0.1183.2± 0.17 82.9±0.2152.4± 0.0383.7± 0.12 83.3±0.13表6. CMU-MOSEI的交叉模态对准分析距离是从最后一个Transformer层估计查询和键之间的距离。符号“Corr.“Acc”表示建模的跨模态元素级相关性的准确度。结果是从测试数据中获得的。模型设计A-距离Corr. 累积（%）MulT，不对齐1.6380.4不对齐的1.6981.8云母1.3786.7epoch和Transformer层的BER。结果进一步证明了我们方法的有效性（见补充资料表A14.4. 分析消融研究。我们在CMU-MOSEI基准上进行了消融研究，并在表5中报告了结果。第一行显示主干的性能模型我们可以看到，我们的骨干网络可以获得更好的性能比原来的MulT模型。这一观察结果支持了合并门在骨干网各层中的有效性。在接下来的两行中，边缘分布对准损失和传播的元件级对准损失被逐渐包括到模型中。显然，这两种方法都有效地提高了性能。这一观察结果清楚地表明了分配调整建议的必要性。随着不同模态之间的分布失配被很好地桥接，注意机制可以更适合于对元素之间的跨模态相关性进行建模。此外，我们从元素级对准损失和IM中移除传播机制。补充方程2.用W[i]代替V[i]. 如最后一行中所报告的，标准元素级对齐的性能改进是有限的。在没有传播机制的情况下，元件级分布对准将在不同网络层上不一致。传播策略可以在网络层之间加强一致性，并引导Transformer网络逐步学习更可靠的跨模态相关性。我们还在补充资料中提供了标准MulT主干的消融研究结果对准损失对原始MulT也是有效的（参见表A2）。分布差异。并对本文所指出的分布差异问题进行了进一步的分析。从表6中，我们可以看出，所提出的对准损耗可以帮助减小距离（即，域差异的常见度量）之间的查询和从不同模态计算的键，以及模型F1（%）F1（%）F1（%）8157LL（very）（hard）（following）嗯很难遵循.嗯很难遵循.情绪低落/双唇紧闭僵硬的表情闭上眼睛/失望视觉时间图4.CMU-MOSI基准中元素之间建模的跨模态依赖关系的可视化分析完整MICA方法和非对齐主干的可视化情况分别在上部和底部示出。在每个视频帧上方显示的文本单词是对应的口语单词。结果来自第四个Transformer层的跨模态注意力单元元件之间的交叉模态相关性明显更好（手动元件级对准被用作基本事实）。在没有对准损失的情况下，建模的交叉模态相关性差得多。该观察结果支持对准损失通过对更好的交叉模态相关性进行建模来提高敏感性分析。此外，超参数的敏感性分析进行CMU-MOSEI，以验证我们的方法的鲁棒性。测试的超参数包括用于m损失的权衡参数α、用于e损失的权衡参数β以及元素级分布对准中的选择率τ特别地，通过改变对应的超参数的值，同时将其他超参数固定到实验中采用的值来进行灵敏度分析。我们将灵敏度分析结果显示在图3中。显然，所提出的方法的性能对超参数的值不敏感定性分析最后，我们展示了CMU-MOSI基准中元素之间建模的跨模态依赖关系从图4中，我们可以看到，我们的方法对视频帧和口语单词之间的合理相关性进行了建模。情感相关词成功地注意到包含对应面部表情的视频帧。另一方面，在非-对齐主干是无意义的。5. 结论这项工作提出了模态不变的跨模态注意力的方法对学习的跨模态之间的相互作用的元素从异步多模态序列的视频。我们的方法引起了人们对Transformer中由不同模态的异质性引起的分布偏移问题的为了更好地建模跨模态相关性，我们建议在模态不变空间上执行边缘分布失配和元素级失配都被考虑。不同的基准上的实验清楚地支持我们的方法的优越性。鸣谢。这项工作是在T.梁先生曾在西南交通大学担任研究助理，由F。LV. F. Lv和T.梁对这部作品同样有贡献。本工作得到了国家自然科学基金（No.62106204）和中央高校基础研究基金（No.JBK1806002）的资助。G. Lin的参与得到了NTU启动补助金和MoE Tier-1研究补助金的支持：RG 28/18（S）、RG 22/19（S）和RG 95/20。时间文时间8158引用[1] Tadas Baltrusaitis ，Peter Robinson ，and Louis-PhilippeMorency. Openface：一个开源的面部行为分析工具包。在WACV，第1-10页[2] Carlos Busso ， Murtaza Bulut ， Chi-Chun Lee ， AbeKazemzadeh，Emily Mower，Samuel Kim，Jeannette N.Chang，Sungbok Lee，and Shrikanth S.纳拉亚南交互式情感二元运动捕捉数据库.朗资源。Evaluation，42（4）：335 -359，2008.[3] Woong-Gi Chang、Tackgeun You、Seonguk Seo、SuhaKwak和Bohyung Han。用于无监督域自适应的特定于域的批量归一化在CVPR中，第7354- 7362页[4] Gilles Degottex，John Kane，Thomas Drugman，TuomoRaitio，and Stefan Scherer. COVAREP -语音技术的协作语音分析库。在ICASSP，第960-964页[5] Quan Gan，Shangfei Wang，Longfei Hao，and Qiang Ji.用于情感视频内容分析的多模态深度回归贝叶斯网络。在ICCV，第5123-5132页[6] Yaroslav Ganin和Victor S. Lempitsky通过反向传播的无监督主适应。在ICML，第37卷，第1180-1189页[7] 作者声明：AlexGr av es，SantiagoFer na'ndez，FaustinoJ.Gomez和JürgenSchmidhube r. 连接主义时间分类：用递归神经网络标记未分割序列数据。在威廉W.作者声明：Andrew W. Moore编辑，ICML，第148卷，第369-376页[8] Yue Gu，Kangning Yang，Shiyu Fu，Shuhong Chen，Xinyu Li，and Ivan Marsic.基于分层注意策略和词级对齐的多模态情感分析。在ACL中，第2225-2235页[9] 李晶晶，柯璐，黄子，朱磊，沈衡涛。通过渐进式对齐实现异构域适应。IEEE Trans. Neural Networks Learn.系统，30（5）：1381[10] Mingsheng Long ， Yue Cao ， Jianmin Wang ， andMichael I.约旦.使用深度适应网络学习可转移特征。在ICML，第37卷，第97-105页[11] Fengmao Lv ， Xiang Chen ， Yanyong Huang ， LixinDuan，and Guosheng Lin.基于非对齐多模态序列的人类多模态情感识别的渐进式模态强化。在CVPR中，第2554-2562页[12] Jiquan Ngiam 、 Aditya Khosla 、 Mingyu Kim 、 JuhanNam、Honglak Lee和Andrew Y. Ng.多模态深度学习。在ICML，第689-696页[13] 作者：Sinno Jialin Pan，Ivor W.作者：James T.郭先生及杨强。通过传输分量分析的域自适应。IEEE Trans.Neural Networks，22（2）：199[14] Jeffrey Pennington，Richard Socher，Christopher D.曼宁Glove：单词表示的全局向量。在EMNLP，第1532-1543页[15] Hai Pham ， Paul Pu Liang ， Thomas Manzini ， Louis-Philippe Moren cy，andBarnab a'sPo' czos. 翻译中的发现：通过模态之间的循环翻译来学习鲁棒的联合表示。在AAAI，第6892-6899页[16] Dung Nguyen Tien ，Kien Nguyen ，Sridha Sridharan，David Dean，and Clinton Fookes.深度时空特征融合与紧凑的双线性池多模态情感识别。Comput. 目视图像理解，174：33[17] Dung Nguyen Tien 、 Kien Nguyen Thanh 、 SridhaSridharan 、 Afsane Ghasemi 、 David Dean 和 ClintonFookes。用于多模态情感识别的深度时空特征。在WACV，第1215-1223页[18] 蔡耀宏，白少杰，梁普亮， J. Zico Kolter ， Louis-Philippe Morency，and Ruslan Salakhutdinov.非对齐多模态语言序列的多模态Transformer。在ACL中，第6558-6569页[19] Yao-Hung Hubert Tsai，Paul Pu Liang，Amir Zadeh，Louis- Philippe Morency，and Ruslan Salakhutdinov.学习因子化多模态表示。2019年，在ICLR[20] Eric Tzeng，Judy Hoffman ，Kate Saenko，and TrevorDarrell.对抗性判别域自适应。在CVPR中，第2962-2971页[21] 作者：Ashish Vaswani，Noam Shazeer，Niki Parmar，Jakob Uszko-reit，Llion Jones，Aidan N.戈麦斯，卢卡斯凯泽，伊利亚·波罗苏欣。注意力是你所需要的。参见NIPS，第5998[22] Yansen Wang，Ying Shen，Zhun Liu，Paul Pu Liang，Amir Zadeh，and Louis-Philippe Morency. 词语可以变换：使用非语言行为动态调整单词表征。在AAAI，第7216-7223页[23] Amir Zadeh 、 Paul Pu Liang 、 Soujanya Poria 、 ErikCambria和Louis-Philippe Morency。野外多模态语言分析：CMU-MOSEI数据集和可解释的动态融合图。在ACL中，第2236-2246页[24] Amir Zadeh、Rowan Zellers、Eli Pincus和Louis-PhilippeMorency。视频中的多模态情感强度分析IEEE Intell.系统，31（6）：82[25] 曾志宏，涂吉林，Brian Pianfetti，刘明，张彤，张振秋，Thomas S. Huang和Stephen E.莱文森基于多流融合HMM的人机交互视听情感识别。在CVPR，第967[26] 放大图片作者：Zheng Zhang，Jeffrey M.吴跃，张星，刘鹏，Umur A.肖恩·西夫特奇放大图片作者：杨惠媛，杨惠妍. Cohn，Qiang Ji，and Lijun Yin.用于人类行为分析的多模态自发情绪语料库。在CVPP，第3438[27] Joey Tianyi Zhou，Ivor W. Tsang，Sinno Jialin Pan，andMingkui Tan.多类异构域适配。J.马赫学习. Res. ，20：57：1[28] 邹阳，于志定，B.诉K. Vijaya Kumar和Jinsong Wang。通过类平衡自训练进行语义分割的无监督域自适应在ECCV，第11207卷，第297-313页[29] 邹阳，余志定，刘晓峰，B.诉K. Vijaya Kumar和JinsongWang。自信使自我训练正规化。在ICCV，第5981

下载后可阅读完整内容，剩余1页未读，立即下载