多模态学习的多标签情感识别方法：TAILOR

28 浏览量更新于2023-12-01 收藏 955KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2255获取更多论文先前方法快乐悲伤的惊喜为多标签情感识别量身定制通用多模态学习张毅，陈明远，沈俊东，王崇军*南京大学软件新技术国家重点实验室，南京210023{njuzhangy，mychen，jdshen} @ smail.nju.edu.cn，{chjwang} @nju.edu.cn摘要多模态多标签情感识别（MMER）旨在从异质的视觉、音频和文本模态中识别各种人类情感以前的方法主要集中在将多个模态投影到一个共同的LA中，方式共性情绪恒等表示帐篷空间和学习所有标签的相同表示，这忽略了每个模态的多样性，并且无法从不同的角度为每个标签捕获更丰富的语义信息。此外，模态和标签的关联在本文中，我们提出了多标签情感识别的多模式学习（TAILOR），旨在重新定义对比对比精细的多模态表示和增强每个标签的具体来说，我们设计了一个对手-共同多模式交互标签模态依赖标号相关ial多模态细化模块，充分挖掘不同模态之间的共性，加强各模态的多样性。为了进一步利用标签模态依赖性，我们设计了一个类似BERT的交叉模态编码器，以粒度下降的方式逐渐融合私有和公共模态表示，以及标签引导的解码器，以自适应地生成一个定制的表示为每个标签与标签语义的指导此外，我们在基准MMER数据集CMU-MOSEI上进行了对齐和未对齐设置的实验，这证明了 TAILOR 优于最先进的技术。代码可在www.example.com上获得https://github.com/kniter1/TAILOR。介绍在现实世界的应用中，视频通常以异构表示（即，视觉的、音频的和文本的）并且用各种情感标签（例如，快乐，惊喜）。多模态多标签情感识别（MMER）（Ju et al.2020;Zhang et al.2021 a）是指通过利用视频中呈现的视觉、音频和文本模态来识别各种情感多模态学习（Baltrusaitis，Ahuja和Moonlight2019）处理从多个来源收集的异构信息，这引起了两个紧急问题：模态内表示和模态间融合。模态内表征学习主要利用多模态之间的一致性和互补性来弥补异质模态之间的差异。以前的方法每个项目*通讯作者Copyright © 2022 ， Association for the Advancement ofArtificial Intelligence（www.aaai.org）. All rights reserved.图1：以前的方法与我们的方法。模态转换为共享的潜在空间，以消除冗余。然而，他们忽视了不同的模态从不同的角度揭示情绪的不同特征.关于融合方式，现有的模态间融合方法可以分为：基于聚合的融合、基于融合的融合以及它们的混合（Baltrusaitis，Ahuja，and Moglobal 2019）。基于聚集的融合采用级联（Ngiam et al.2011）、ten- sor（Zadehet al.2017）或attention（Zadeh et al.2018 b）来组合多种模态。基于对齐的融合中心是潜在的跨模态适应，它将流从一种模态适应到另一种模态（Tsai et al. 2019年）的报告。多模态学习的关键挑战在于1）如何在保持每个模态的多样性的同时整合共性; 2）如何交互地对齐不同的模态分布以进行模态间融合。多标签学习（Zhang和Zhou2014）处理复杂对象的丰富语义，其中标签相关性被认为是有效多标签学习的关键（Zhu，Kwok和Zhou2018）。许多方法通过标签向量之间的相似性来利用标签相关性然而，它们无法反映标签之间的协作关系。另一方面，许多研究已经发展到通过以逐个标签的方式学习特定于标签的表示来提高性能，这些表示是独立生成的，并且可能由于忽略标签对应而导致次优问题共性与多样性定制的表示我们的方法快乐悲伤的惊喜标号语义学arXiv：2201.05834v1 [cs.CV] 2022年1月可视模态音频模态让我们专注于...并且做得很好语篇模态+v：mala2255获取更多论文我∈ X <$YFX ×X ×X →我i=1（Zhang，Fang和Wang2021）。多标签学习的关键挑战是如何在特征空间和标签空间中有效地编码为了解决上述挑战，我们提出了用于多标签情感识别的多模态学习（TAILOR），其充分应对模态异质性和标签异质性。为了弥合异质性差距，我们在以下3个空间中捕获模态相互作用，标签相关性1) 在模态特征空间中，我们不太强调前训练对于模态内表示，我们设计了一个对抗性网络来显式地提取共性和多样性，并受到公共语义和正交性的约束。对于模态间融合，我们提出了一种新的基于粒度的融合与BERT类Transformer编码器。2) 在标签空间中，我们采用自我注意（Vaswanietal.2017）来利用高阶标签相关性，这些相关性可以进一步集成以捕获标签语义。3) 为了弥补模态特征空间和标签空间，我们采用Transformer解码器将融合后的多模态表示与标签语义进行匹配，目的是在标签语义的指导下学习每个标签的定制表示。图1说明了以前的方法和我们提出的方法之间的差异主要贡献可归纳如下。• 提出了一种新的多模态学习多标签情感识别框架（TAILOR），该框架能够从反面刻画多模态之间的共性和差异性，并增强标签表征的区分能力.• TAILOR逆向提取私人和共同的模态表征。然后设计了一个类BERT的Transformer编码器，以粒度下降的方式逐渐融合这些表示，并结合标签语义生成定制的标签表示。• 在基准CMU上进行了大量实验-GAN（Goodfellowet al. 2014）已经在学习双峰或多峰之间的联合分布方面吸引了显著的兴趣（Phamet al.2018;Tsaiet al. 2018;Pham等人2019;Mai，Hu和Xing2020），基于融合的融合（Baltru-saitis，Ahuja和Moglobin2019）通过Transformer（Goodfellow et al.2014）潜在地将流从一种模态适应到另一种模态。尽管如此，它们往往融合成一个联合嵌入空间，这忽略了每个模态的特殊性（Wang et al. 2020 b）适应模态特定流的融合并且仅融合相关的补充信息。例如，（Wu etal.2019;Hazarika et al. 2020）集成了跨模态的公共信息，同时保留了每个模态的特定模式在多标签学习中，建模标签相关性已被证明是一种有效的策略（Zhangand Zhou2014;Zhu，Kwok，and Zhou2018;Feng，An，and He2019;Wang et al.2020 a）。学习所有标签共享的特征子集可能是次优的。另一个重要的策略是标签特定学习（Zhang和Wu2014;Huang et al. 2016;Zhang，Fang和Wang2021），其中每个标签由一些区别性特征确定，例如，视觉注意力（Chenet al. 2019a，b）和文本注意（Xiao et al.2019;Zhang et al. 2021年b）。近年来，多模态多标签情感识别引起了人们越来越多的兴趣。例如，（Juet al. 2020;Zhang et al.2021 a）除了对标签相关性进行建模外，还对模态对标签和特征对标签的依赖性进行建模。方法在本节中，我们首先给出了多模态多标签情感识别（MMER）的公式。对于标量，我们使用小写（例如，a），用于载体的载体（例如，A）和粗体用于矩阵（例如， a，A）。设Xv =Rdv×τv，Xa=Rda×τa，Xt=Rdt×τt为视觉（v），听觉（a），te xt（t）特征空间关于ively，Y={y1，y2，···，y1}表示具有l个标签的标签空间，其中d{v，a，t}表示模态维数，τ{v，a，t}表示序列长度给定训练数据集D ={（X{v，a，t}，Y i）}nMOSEI数据集证明了TAILOR在对齐和未对齐设置下的出色性能。相关工作情绪识别被广泛地研究为单峰（ Yang etal.2018;Majumder et al.2019;Saha et al.2020;Jiao，Lyu，and King2020;Huang et al. 2021）、双峰（Mittal等人，2020 b;Liu 等人， 2020;Zhao 等人， 2020 ）和多峰（Mittal等人，2020 a;Sun等人，2020;Zhang等人，2021a;Lv等人，2021）。更有效的多模态融合转化为更好的性能。最直接的方法是直接连接来自每个模态的特征图（Ngiam等人，2011年）。为了利用不同模态的复杂信息，张量融合（Zadeh et al. 2017;Liu et al. 2018），记忆融合（ Zadeh 等人， 2018 a），因子分解融合（Valada，Mo-han和Burgard2020）明确解释了模态内和模态间的动力学。上述方法都是基于聚合的融合，模态间隙严重影响跨模态融合。为了弥合模态差距，对于n个数据样本，MMER的目标是学习函数：v一不2Y，其可以为未看到的视频分配一组可能的情感标签。对于第i个视频，X{v，a，t}{v，a，t}是模态特征，是相关标签的集合。图图2显示了TAILOR的主要框架，它包括以下模块：单峰提取器，对抗性多模态精化和标签模态对齐。单峰提取器CMU-MOSEI中每种模态的预提取特征（Zadeh et al.2018c）数据集由异步协调序列表示。为了利用长期的上下文信息，我们使用nv层，na层，nt层Transformer编码器（Vaswani et al.2017）来分别用序列级上下文来丰富视觉特征，音频特征和文本特征 Transformer编码器由两个子层组成：多头自注意层和位置前馈层，其中残余连接（Heetal. 2016），然后进行层归一化。+v：mala2255获取更多论文∈∈∈我--···−∈n我我我我i=1PnD我我我i=1单峰提取器对抗性多模态优化（AMR）标签-模态对齐标签反向传乙状视觉编码器（Transformer编码线性跨模态添加范数编码器前馈具体音频编码器（Transformer编码交叉模态编码器添加规范共同交叉模态编码器多头注意让我们专注于文本编码器添加规范...并且做得很好（Transformer编码器）自我注意反向传标号嵌入层次交叉模态编码器（HCME）图2：TAILOR的总体结构标签引导解码器（LGD）因此，我们获得了新的视觉，音频和文本嵌入-dings，记为V∈Rd×τ，A∈Rd×τ，T∈Rd×τ，其中而τ是序列长度。softmaxT（二更）d是嵌入维数，τ是序列长度。D（I;θD）=（I W+b）对抗性多模态精化众所周知，其中WRd×3是权矩阵，bRτ×3是偏置矩阵。I的基础真值模态标签表示为O∈ {Ov，Oa，Ot}，模态间表示，模态间融合的互补性越好（Yuet al. 2020年）。虽然单模态1，0，0，0，1，0，0，1O=···，O=···，O=···，（3）v一不提取器捕获长期的时间上下文，它们不能处理由于模态间隙引起的特征冗余1，0，0受对抗网络的启发（Goodfellowet al. 2014年），我们为后续的融合设计了一个对抗性的多模态细化模块它将多个模态分解为两个不相交的部分：公共和私有表示，从而可以协同地和单独地提取异构模态的一致性和特异性。为了保持一致性，我们设计了一个生成器G（·;θG）其中Ov，Oa，OtRτ×3.公共表示C{v，a，t}被编码在共享的潜在子空间中，其倾向于处于相同的分布中因此，生成器 G（，;θG）被鼓励混淆源D（，;θD），从而不区分源C{v，a，t}的模态。我们重建一个训练数据集DC={（Cv，Ov），（Ca，Oa），（Ct，Ot）}n为公共用参数θG将不同模态投影到具有分布对齐的公共潜在子空间中。模态分类常见的对抗性损失是，n除了共性之外，每种模式都包含特定的信息，可以与其他模式相互补充。1毫米LC= − n（Olog（D（C;θD）（4）我们采用全连接深度神经网络算法f（·;θ），m∈{v，a，t}i=1其中LC是用梯度反转层（Ganin和fa（; θ a）和ft（; θ t）分别以参数θ v，θ a，θ t投影单峰嵌入V，A，T。公共和私有表示可以公式化为，Cv=G（V;θG），Ca=G（A;θG），Ct=G（T;θG）Pv=f（V，θ），Pa=f（A;θ），Pt=f（T，θ）（1）Lempitsky2015），其在正向传播期间保持输入不变，并在反向传播期间将梯度乘以1私有表示P{v，a，t}被编码在不同的潜在子空间中，这些潜在子空间往往处于不同的分布中。v v a t t因此，我们鼓励θD（·;θD）其中C{v，a，t}，P{v，a，t}∈Rd×τ.指出情态的来源我们重建一个训练对抗训练为了保证数据集DP={（Pv，Ov），（Pa，Oa），（Pt，Ot）}n对于pri-共同和具体的表示，我们设计了一个模态θ D（，;θD），它映射输入IRd×τ转换成概率分布，并估计表示来自，其中d是模态dimen-vate形态分类私人对抗损失是，1 mmL=−（Olog（D（P;θ））（5）VV+v：mala2255获取更多论文m∈{v，a，t}i=1+v：mala2255获取更多论文∈F∈我˜K˜∈∈˜···∈···∈LQKK˜˜˜˜我我我正交约束为了对多模态数据的不同方面进行编码，我们用正交损失惩罚C{v，a，t}和P{v，a，t}中的冗余，如下所示，n它们具有位置嵌入ERd×（τa+τb）。另一方面，由于异构性，各种模态的特征分布不同，这对多模态融合提出了很大的挑战。为了填补舞台上的巨大空白Ldiff=−Σ||（Cm）TPm||2（六）两种模式之间的统计特性，我们捕捉统计-i i Fm∈{v，a，t}i=1通过在模态a上增加两个模态标记嵌入EA∈R1×τa和EB∈R1×τb，哪里||·||2是Frobenius范数的平方。B分别。如示于图3、众数之和性表征，位置嵌入和模态-虽然公共生成器 G （， ;θG ）和私有提取器 fv（，;θv），fa（，;θa）ft（，;θt）被鼓励编码多模态信息的不同方面，但是它们应该表现出相同的语义。我们的动机是为多标签设计共同的语义损失用公共表示C{v，a，t}分类，ken嵌入被馈送到n个c层Transformer编码器，其输出模态a和b的联合表示ZRd×（τa+τb）。交叉模态编码器可以写为Z=CME（A，B）。此外，视觉和听觉形式更精细-在粒度方面比文本模态更细粒度（AlayracNL等人2020年），这在现有的融合中很少被考虑Lcml=−yjlogyj，m+（1−yj）log（1−yj，m））方法. 为了弥补这一缺陷，我们设计了层次-我我m∈{v，a，t}i=1j=1我我（七）calCross-Modal Encoder（HCME）利用不同粒度级别的模态之间的初级其中y=j，m是用Cm预测的，yj是地面实况。vate表示P{v，a，t}和公共表示我我如果第j个标签是相关的，则y j = 1，否则为0。标签模式对齐在对私人和公共表示进行投影后，C{v，a，t}在层次结构中融合，并以粒度下降的方式逐渐互补。细粒Zva=CME（Pv，Pa）总的来说，我们需要将它们融合到多标签分类的联合表示中。分层交叉模态编码器粗粒Zvat=CME（Zva，Pt）混合颗粒M=CME（Zvat，C）（八）和私人模态表征包含一致和互补的信息，而很少或没有关于模态交互的信息。简单地将它们连接在一起忽略了模态交互，这可能会引入冗余信息并导致次优问题（Zhang et al. 2018年）。我们提出了一种新的BERT类（Weson和Toutanova2019）跨模态编码器来利用模态交互。位置嵌入模态令牌嵌入其中C =Cv+Ca+CtRd×τ，MRd×4τ。HCME对融合阶数为[v，a，t，c]的3对模态进行建模。每一对模态交互并逐步关联有价值的信息。标签相关性在有效的多标签分类中起着重要的作用。对于原标号空间中的l个可能标号，Y=[Y1，Y2，，Yn]rl×n，我们使用标签索引来产生标签嵌入L=[L1;L2; ;Ll]Rl×d其中l是标签的数目，d是与模态维数相同的标签维数。k ={1，2，···，l}|k表示除第k个标签。Lk∈R1×d是第k个la的标号嵌入bel，而L=[L1;···;Lk−1;Lk+1;···;Ll]∈R（l−1）×d是k的标签嵌入。为了协同地利用标签相关性，我们采用了带有hl头的自注意机制。对于第i个头1，q=LWq=<$Lk<$Wq=<$qk<$，Wq∈Rd×d/hl（9）克什托克模态同样地，ΣkkΣKvkvvRd×d/h。表示k=，v=克Wi，Wi∈l克两种模式A和B。两种输入模态表示，模态标记嵌入和位置嵌入，r=qkT=qkkTq kTqkkTq kTrkkrkRR∈Rl×l（10）将数据相加并输入到Transformer编码器中克尔克克什托克克尔克克什托克给定两个模态a和b，其中表示A∈和rKK代表的互动关系KK第k个标签Rd×τa 和B ∈Rd×τb，其中d是模态维数克尔克和τ{a，b}是序列长度一方面，为了保护相对于其他l-1标签。rkk表示影响1这两种模式的时间信息，我们增加我们用粗体字表示每个头. . .. . .. . .. . .. . . Transformer编码器。. .. . .. . .. . .. . .. . .. . .然后标签相关矩阵r可以计算为，图3：交叉模态编码器（CME）的结构，其中rkk和r表示标签特定关系，r=+v：mala2255获取更多论文˜−−LLLL√克尔克√克∈∈∈rkk表示第k个标签对其他l1个标签的影响。第i个头的标签语义嵌入S是，首先，结合最终的多标签分类损失ml、公共对抗损失C、私有对抗损失P、公共语义损失cml和正交损失最终的目标函数被计算为，俄罗斯联邦Ssoftmax。1 rkkrkvkRvLdiffSi==克雷奇d/hlrσ（rkk）vk+σ（r）v˜˜克什蒂克宾馆（11）LAll=Lml+α（LC+LP）+βLdiff+γLcml（17）其中α、β和γ是权衡参数。=σ（r）vk+σ（rkkk）v∈Rl×d/hl克尔克克什克实验其中σ（r）=softmax（是一个有深度的，有深度的，有深度的。d/hl最大对于第k个标签，特定于标签的语义嵌入-在这一部分中，我们进行了实证评价和分析我们提出的TAILOR方法ding是sk=σ（rkk）vk+σ（r克鲁克）V，其中涉及到Col-+v：mala2255获取更多论文∈√它的语义内涵和语义特征从其他标签中接收含义。此外，我们还添加层归一化（LN）之后的剩余连接到最终的标签特定语义嵌入，L=LN（L+S）#实例#火车#有效#测试 DvDaDtτvτaτt对齐2285616326187146593574300606060未对齐50050050+v：mala2255获取更多论文实验装置数据集我们在基准多个测试中进行实验，模态多标记数据集CMU-MOSEI 2（Zadeh etal.2018c），其中包含22856个视频片段，不同的发言人。每个视频固有地包含3模态-+v：mala2255获取更多论文···∈l∈∈→∈∈我我我我我i=1j=1我我我我伴随的非语言行为。 MulT（Tsaiet al.S=Concat（S1，S2，···，Sh1+v：mala2255获取更多论文）WL（十二）内容：视觉，听觉和文本，同时注释了6个数据-+v：mala2255获取更多论文具体情绪：{生气，厌恶，恐惧，高兴，悲伤，惊讶}。+v：mala2255获取更多论文其中WLRd×d，S Rl×d。标签语义决定了标签和模态之间的内在依赖性。因此，所获得的标签特定语义嵌入LRl×d可以进一步被认为是一个老师，指导学习每个标签的定制表示。受Transformer解码器（Vaswaniet al.2017）的启发，我们设计了一个标签引导解码器，用于从联合多模态表示M中选择区分信息在标号语义学的指导下，实现了Rd×4τ。通过具有hm个头部的多头注意捕获从模态空间到标签空间的潜在依赖我们从视频中预提取35维视觉特征+v：mala2255获取更多论文由FACET（Baltrus Rumaitis，Robinson和Mojetan提供的框架+v：mala2255获取更多论文2016年），来自声学信号的74通过COVAREP（Degottex等人，2014）和300维+v：mala2255获取更多论文来自Glove（Pennington，Socher和Manning2014）。表1总结了+v：mala2255获取更多论文CMU-MOSEI在两个字对齐和未对齐设置。表1：CMU-MOSEI的统计，其中d{v，a，t}是模态的。+v：mala2255获取更多论文t{v，a，t}是序列长度。DepM→L=Concat（ dep1，· · ·，dephmLWQ（MTWK）T+v：mala2255获取更多论文）WM（十三）+v：mala2255获取更多论文depsoftmax（i i）MTWVI=其中WQ，WK，WV+v：mala2255获取更多论文d/hm∈Rd×d/hm，dep

下载后可阅读完整内容，剩余1页未读，立即下载