基于情感胶囊的会话情感识别的多模态信息提取模型Emo-Caps

178 浏览量更新于2023-11-30 收藏 738KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2277获取更多论文基于情感胶囊的会话情感识别李在京1，唐峰晓1 *，赵明1 *，朱玉森21中南大学计算机科学与工程学院，长沙，中国2湖南大学数学学院，长沙，中国{lizaijing，tangfengxiao，meanzhao}@csu.edu.cnzhu_yusen@163.com摘要会话中的情感识别（ERC）旨在分析会话中说话者的状态，识别他们的情感。目前的ERC研究侧重于语境的建模，而忽视了语境情感倾向的表征.为了有效地提取话语的多模态信息和情感倾向，本文提出了一种新的情感向量提取结构-- 做一个情感胶囊在此基础上，设计了一个端到端的ERC模型Emo-Caps，该模型通过嵌入式结构提取情感向量，并通过上下文分析模型得到情感分类结果通过两个基准数据集的实验，我们的模型表现出更好的性能比现有的国家的最先进的模型。1介绍会话中的情感识别是对会话过程中说话人如今，诸如Facebook和Twitter的社交媒体始终生成大量具有文本、音频和视频的各种形式说话人情感倾向的研究在舆论分析、购物、消费等领域具有巨大的潜在价值因此，会话情感识别越来越受到研究者和企业的关注在ERC中，现有的研究主要集中在上下文信息建模的方式上（Ma- jumder et al.，2019;Ghosal等人，2019年）。然而，这些模型都存在一些不足，不能更好地提取话语的语法和语义信息。最近的研究（Yuzhao Mao等人，2020;沈伟洲图1：对话中话语的热图可视化，具有三种模态。例如，2020）将Transformer结构引入Li et al.（2021）提出了一种新的表达向量，即ERC的“情感向量”，它是从句子向量映射得到的，但只针对文本模态。同时，现有的研究（Song etal.，2004; Dellaert等人，1996; Amir，1998）的研究表明，只有文本信息是不够的，语调在一定程度上反映了说话人如图1所示，不同的模态包含不同的信息，并且都有轻微的缺陷，因此在ERC中，基于多模态的信息可以比单个模态更好地识别说话者为了有效地识别说话人的情感，需要获得良好的同样，我们如图2所示，话语本身的情感倾向就像一个“偏置向量”，它使中性话语具有一个“情感方向”。对于单句情感分类，情感倾向与情感识别结果一致，而在ERC中，语境的影响可能导致情感倾向与情感识别结果然而，情感倾向可以为模型提供特征，使得模型可以“理解”arXiv：2203.13504v1 [cs.CL] 2022年3月+v：mala2277获取更多论文图2：情绪分类图虚线箭头表示偏移向量，其被添加到中性向量以获得具有情感方向的向量。情绪逆转因此，我们提出了一种新的多模态情感倾向提取方法，称之为transformer，这是一个基于transformer 的模型，但如图 3 所示， Emo-former提取情感倾向，即，情感向量，从模态特征经过多头自注意层和前馈层。更多的细节我们将在第三节进行分析。在此基础上，我们进一步提出了一个基于多模态信息的端到端ERC情感分类模型Emo-Caps。具体来说，我们采用的martoformer结构提取的文本，音频和视觉特征的情感向量。然后，我们将三种模态的情感向量与句子向量合并为情感胶囊。最后，我们使用一个上下文分析模型来得到情感分类的最终结果。总的来说，本文的贡献如下：• 本文创新性地将情感向量的概念引入到多模态情感识别中，提出了一种新的情感特征提取结构• 在此基础上，我们进一步提出了一个端到端的情感识别模型，用于识别多模态会话中的情感• 在MELD和IEMOCAP上对模型和现有模型进行了测试图3：双稳态变压器原理图。映射网络由5个完全连接的层组成.数据集。测试结果表明，该模型在多模态和文本模态两种情况下都具有最好的性能本文的其余部分组织如下：第2节讨论相关工作;第3节详细介绍了所提出的CockCaps模型;第4节和第5节介绍了在两个基准数据集上的实验设置和实验结果分析;最后，第6节总结了本文。2相关工作2.1会话中的情感识别ERC中使用了Biredectional LSTM（Hochreiter和Schmidhuber 1997），它在不区分说话者的情况下构建上下文信息。ICON（Hazarika等人，2018 b）是CMN的扩展（Hazarika等人，2018），它包含另一个GRU结构，用于连接CMN模型中的输出，以区分扬声器关系。Majumder等人（2019）使用三个GRU来获取上下文信息并更新说话者状态。Ghosal et al.（2019）将会话构造成图，然后使用图卷积神经网络将会话的情感分类任务转换为图的节点分类问题Ghosal等人（2020）使用常识知识来学习对话者的互动。Shen等人（2021）设计了一种有向非循环神经网络用于对话语进行编码。Hu et al.（2021）提出了DialogueCRN，从认知角度全面理解2.2多模态情感识别Zadeh等人（2017）提出了TFN模型，这是一种使用张量外+v：mala2277获取更多论文产品Liang et al.（2018）提出了一种使用多级注意机制提取不同模态交互信息的模型。Caiet al.（2019）提出了一种分层融合模型，用于对图形信息进行建模以进行反讽识别。但上述模型并没有在ERC中得到应用Haz- arika et al.（2018 b）提出了ERC中的CMN模型，该模型使用GRU结构来存储多模态数据信息，并考虑了上下文信息在会话情感识别中的作用。Jingwen Hu等人（2021）提出了MMGCN模型，这是一种基于多模态混合方法的图卷积神经网络模型。2.3Transformer型号受自我注意机制（Ben- gio et al. 2014）的启发，提出了Transformer来计算表示并在不使用序列的情况下有效地获得长距离上下文信息（Vaswani et al.2017），在计算机视觉和音频处理领域取得了巨大成功（Tianyang Lin et al.2021）。De-vlin等人（2019）使用Transformer结构来训练大规模通用文本语料库，以获得具有句法和语义信息的语言模型。通过采用基于Transformer 的预训练模型， Hazarika 等人（2020）将生成的会话模型的上下文级别权重转移到会话情感识别模型。Yuzhao Mao et al.（2020）使用Transformer从模型内部和模型之间的角度探索差异化的情绪行为者WeizhouShen等人（2020）使用XL-Net模型进行会话情感识别（DialogXL），以获得长期的上下文信息。上述算法使用基于变换器的结构，但它们不适用于多模态模型。3方法3.1问题定义给定一个对话：u1，u2，u3，. . . ，un，其中n是话语的数量。会话情感识别的目的是输入一段对话，并从情感标签集合y中识别出对话中每个句子的正确情感分类：y1，y2，y3，.， ym，其中m是情感标签的数量。参数设置数据集IEMOCAPMELD历元8080LR0.00010.0001博士0.10.1批量3030Dim-T100600Dim-V256256Dim-A100300表1：MELD数据集和IEMOCAP数据集的参数设置详情Epochs表示训练epoch的数量，Lr表示学习率，Dr表示辍学率。Dim-T表示句子向量和文本情感向量的总维度，Dim-V和Dim-A表示视觉和听觉模态的情感向量3.2单峰特征提取我们提取了话语u的特征，表示为U。特别地，当输入数据是多模态时，话语U的特征可以表示为：U=[Ut，Ua，Uv]（1）其中Ut表示文本特征，Ua表示音频特征，并且Uv表示视觉特征。文本特征提取：为了获得良好的话语表示，我们使用预训练的语言模型BERT来提取文本特征向量。BERT是Devlin等人（2019）提出的一种大型通用预训练语言模型，可以有效地表示话语的语法和语义特征具体来说，我们首先将对话分成一系列单独的话语，这些话语被用作BERT基础模型的输入。与其他下游任务不同，我们使用Transformer结构对话语进行编码，而不进行分类或解码，然后我们得到每个话语的512维句子向量值得注意的是，使用较大的预训练BERT模型并不能提高性能，而较小的BERT模型也音频特征提取：与Hazarika et al.（2018）相同，我们使用 OpenSMILE （ Eyben et al.2010）进行声学特征提取。具体来说，在这项工作中，我们使用IS 13 CompParE配置文件，它为每个ut-terance视频提取了总共6373个特征，然后我们使用全连接层将维度降低到512个维度。视觉特征提取：我们使用3D-CNN+v：mala2277获取更多论文图4：基于ERC模型的ERC Caps的框架说明。模型来提取视频特征，特别是说话人的面部表情特征。3D-CNN模型可以捕捉说话人表情的变化具体来说，我们使用具有三个完全连接的层的3D-CNN来获得512维向量。3.3我们的方法我们假设对话中话语的情感取决于三个因素：• 话语本身的情感倾向• 不同的话语模态所包含的情感信息• 上下文信息基于以上三个因素，我们的模型Emo-Caps建模如下：获取对话数据的三种模态特征：文本、音频和视觉;将它们输入到语义分析器结构中该模型的框架如图4所示。值得注意的是，我们的文本特征，即，句子向量是由一个基于transformer的预训练语言模型编码的，因此我们不再使用自注意机制，而是直接使用一个映射网络来提取情感向量，然后剩余结构将句子向量与情感向量联系起来。现有方法主要使用 CNN 、 TextCNN 、 GRU等，提取语法信息提取能力较弱的文本同时，它们只取不含情感倾向的原始特征向量作为输入.在此基础上，我们提出使用Emo-former结构来提取各种模态的情感向量。如图3所示，Emo- former 具有类似于 Trans- former 的Encoder结构，但不包括Decoder结构。该方法利用多个头部注意层从原始特征中提取情感倾向特征，两者通过残差结构连接，然后通过5个全连接层构成的映射网络得到情感向量自注意层可以有效地提取包含情感倾向或情感因素的特征，残差结构保证了原始信息的完整性，最后映射网络对特征进行聚类和降维。与Vaswani等人（2017）相同，对于给定的输入特征U，我们计算查询Q∈RTQ×dQ，键K∈RTK×dK和值V∈RTV×dV通过U的线性变换：[Q，K，V]=U[WQ，WK，WV]（2）其中，TQ，TK，TV表示Q，K，V的序列长度，dQ，dK，dV表示 Q， K，V的维数，WQ∈RdQ×dm，WK∈RdK×dm，WV∈RdV×dm.+v：mala2277获取更多论文K那么我们可以将自我注意力层的公式表示为：QKTA=softmax（softmax）V（3）其中A是值V的权重，dk等于u的维数。通过这种方式，多个自我注意力层被级联以获得多头注意力层：多头（A）= Concat（A1，.，（h）W（4）其中A1，...，A h是自注意层的输出，h是层数，W是权重参数。然后使用带有归一化层的残差连接来归一化Multi-Head注意力层的输出，并使用前馈层来获得自注意力部分的输出N=标准（A+多头（A））（5）F=max（0，NW1+b1）W2+b2 （6）G=Norm（F+MultiHead（F））（7）其中，W1、W2是权重参数，b1、b2是偏置参数。最后，通过残差结构将原始特征U和自注意部分G的输出连接起来，并使用映射网络得到最终输出E：H=UG（8）E=地图（H）（9）其中Map表示映射网络，由5个完全连接的层组成。结合上述等式。(2)到（9），我们可以从不同的输入通道中获得不同的模态情感向量，其中，[Ea，Ev，Et]=双线性变换器（Ua，Uv，Ut）（10）其中Ua、Uv、Ut表示音频、视觉和文本特征的原始输入，并且Ea、Ev、Et表示模态的情感向量。对于情感胶囊的构成，我们基于以下规则：话语的文本特征向量包含语法和语义特征，情感向量代表话语的情感倾向两者都是会话情感识别的主要来源。最直观的代表意义、情感、特征等，的话语。然而，视觉特征和听觉特征中含有少量的情感因素和情感特征，在文本特征不具有足够的情感倾向时，可以提供一定的情感线索因此，句子向量与三种模态的情感向量融合我们的情感胶囊O可以表示为：O=UtEtEvEa（11）由于同一种情绪有不同的表达方式，而同一种表达方式在不同的语境中可以表达不同的情绪，因此很难从一个词中推断出真实的情绪（Barrett，2017）。根据Grice因此，语境信息是会话情感识别中不可缺少的一部分上下文信息分为两部分：前一时刻获得的信息称为情感线索溯源，后一时刻获得的信息称为情感推理。在本文中，我们采用双向LSTM模型作为上下文分析模型来提取上下文信息。在对话中，我们将所有话语的一批情感胶囊按照对话的顺序形成到Bi-LSTM模型中，每个LSTM单元对应一个情感胶囊。对于时刻i，在前向传播序列中，此时的上下文信息Ci由LSTM细胞在之前所有时刻的隐藏状态输出组成，即情感线索溯源;在反向传播序列中，此时的上下文信息由LSTM细胞在之后所有时刻的隐藏状态输出组成，即情感推理。这两个输入到具有完全连接层的MLP中，并获得每个情感标签下的话语uiPi=softmax（Wsmax1i+bsmax）（13）其中W1、Wsmax是权重参数，b1，bSmax是偏置参数。+v：mala2277获取更多论文IEMOCAP快乐伤心中性生气兴奋沮丧平均BC-LSTM43.4069.8255.8461.8059.3360.2059.19CMN30.3862.4152.3959.8360.2560.6956.13DialogueRNN33.1878.8059.2165.2871.8658.9162.75DialogueGCN42.7584.5463.5464.1963.0866.9964.18DialogXL------65.95DialogueCRN------66.20DAG-ERC------68.03MMGCN42.3478.6761.7369.0074.3362.3266.22电子邮件71.9185.0664.4868.9978.4166.7671.77表2：IEMOCAP数据集上的实验结果（F1评分）。平均值是指加权平均值。一些模型只提供总体平均结果，而没有每个情绪类别下的结果，因此缺乏一些数据单元。最后，我们选择最大值作为第i个话语的情感标签yyi= arg max（Pi[m]）（14）M4实验设置4.1数据集IEMOCAP （ Busso 等人， 2008 年）：IEMOCAP数据集包括约10个演员的即兴表演或脚本场景IEMOCAP数据集共有7433个话语和151个对话。同时，它包含音频和文本转录，以满足多模态数据的需求。在这个数据集中，多个评论者将话语的情感标签分为六类：包括快乐、悲伤、中性、愤怒、兴奋和沮丧。MELD（Mackay et al. 2019）：MELD数据集包含13708个话语和1433个对话，由电视剧“朋友”组成。它也是一个包含视频、音频和文本格式的多模态数据集在这个数据集中，多个评论者将词语的情感标签分为七类：包括中性、惊讶、恐惧、悲伤、喜悦、厌恶和愤怒。4.2基线模型BC-LSTM（Killman et al.Bc-LSTM使用双向LSTM结构来编码上下文语义信息，它不识别说话者关系。CMN（Hazarika et al.2018年）：它采用多模态方法，包括音频，视觉和文本特征，门控循环单元，以模拟每个扬声器的过去发言到记忆中。DialogueRNN （ Majumder et al. 2019 ）：DialogueRNN使用不同的GRU单元来获取上下文信息和说话者关系。它是第一个区分说话人的会话情感分析模型DialogueGCN （ Ghosal et al. 2019 ）：DialogueGCN将对话构造成图，将语音情感分类问题转化为图的节点分类问题，并使用图卷积神经网络对结果进行分类。DialogXL （ Weizhou Shen et al. 2020 ）：DialogXL使用XLNet模型进行会话情感识别，以获得长期上下文信息。DialogueCRN（Huet al. 2021）：DialogueCRN引入了认知阶段，从感知阶段检索的上下文中提取和整合情感线索，以进行上下文建模。DAG-ERC （ Weizhou Shen et al. 2021 ）：DAG-ERC是一种用于ERC的有向无环图神经网络，它提供了一种直观的方式来建模远距离会话背景和附近上下文之间的信息流MMGCN （ Jingwen Hu et al. 2021 ）：MMGCN使用GCN网络获取上下文信息，不仅可以有效利用多模态依赖关系，还可以利用说话人信息。4.3执行对于文本数据，我们使用BERT模型获得句子向量，然后从映射网络中获得文本情感向量。对于音视频数据，我们使用了嵌入式算法，得到了音视频情感向量。至于超参数设置，我们遵循+v：mala2277获取更多论文MELD中性惊喜恐惧悲伤喜悦厌恶生气平均BC-LSTM73.8047.705.4025.1051.305.2038.4055.90DialogueRNN73.5049.401.2023.8050.701.7041.5057.03DialogueGCN-------58.23DialogXL-------62.41DialogueCRN-------58.39DAG-ERC-------63.65MMGCN-------58.65电子邮件77.1263.193.0342.5257.507.6957.5464.00表3：MELD数据集上的实验结果（F1评分）。平均值是指加权平均值。CMN模型仅适用于两方会话，而MELD是多方会话数据集。一些模型只提供总体平均结果，而没有每个情绪类别下的结果，因此缺乏一些数据单元模型数据集IEMOCAPMELDDialogueRNN71.0865.86Bi-LSTM71.7764.00表5：在不同模型作为上下文建模模型的多模态设置下的性能（F1得分）。表4：在不同的多模式设置下，Caps的性能（F1评分）T代表文本模态，A代表音频模态，V代表视觉模态。Li 等人（ 2021 ）。对于 MELD 数据集和IEMOCAP数据集，epoch都设置为80，学习率设置为0.0001，dropout rate设置为0.1。详细参数设置见表1。5结果和分析在IEMOCAP数据集和MELD数据集上，在相同的参数条件下，将我们提出的模型与其他最先进的模型进行了比较实验结果如表2和表3所示，我们的模型在两个数据集上都具有最佳性能。5.1与其他基准模型一方面，与已有的方法相比，我们的模型通过预先训练的语言模型对句子进行另一方面，我们的情感帽包含了说话人本身的情感倾向，结合语境信息，可以更有效地识别说话人实验结果证明了其合理性我们对ERC中情感因素的假设5.2各种模态表4显示了我们的模型在不同模态组合下对MELD数据集和IEMOCAP数据集的性能很容易发现，多模态输入的性能优于单模态输入。同时，在语篇、听觉和视觉三种模态中，语篇模态比其他两种模态有更好的表现。5.3误差分析如表4所示，音频和视频模态的性能对于音频特征，声音特征的频率和幅度只能反映说话人的情感强度，而不能反映具体的因此，当某些情绪具有相似的频率和幅度时，仅通过音频数据很难正确区分说话者例如，对于兴奋和恐惧两种情绪，音频模式中的频率和幅度特性都处于高值。因此很难区分这两种情绪。对于视觉特征，通过面部特征很容易判断说话人的表情，但当说话人隐藏了自己的表情时，视频特征就不那么容易了模态数据集IEMOCAPMELD文本69.4963.51音频33.0031.26视频31.6431.26T+A71.3963.73T+V71.3063.58T+V+A71.7764.00+v：mala2277获取更多论文图5：《老友记》第三季热图的可视化对话发言人C指钱德勒，发言人M指莫妮卡。足以判断说话者此外，对于单个视频模态，上下文中的情感变化是无法解释的。当加入语篇情态时，性能得到显著提高。换句话说，文本模态在会话情感识别中起主要作用，而音频和视觉模态有助于提高识别的准确性，这与前面的假设是一致的5.4扬声器嵌入为了分析说话人建模对会话情感识别的影响，我们使用DialogueRNN的变体作为上下文建模模型，在两个基准数据集上测试其性能。如表5所示，基于DialogueRNN的模型在MELD数据集上的性能优于基于LSTM的模型。这是因为MELD数据集大部分属于多人对话场景，因此说话人建模模型（基于DialogueRNN）比不使用说话人建模的模型（基于LSTM）更然而，在IEMOCAP数据集，这是基于两个人的对话情况下，说话人建模变得微不足道。此外，与基于LSTM的模型相比，使用基于DialogueRNN的模型或包括说话人建模结构的其他模型消耗更多的计算资源和时间。5.5为例图5示出了在对话中情感反转时情感向量的影响。在会话开始时，说话人的情绪处于中性状态，而话语4改变了说话人的情绪状态，使说话人句子向量更容易获得正确的情感标签。话语7表明，当语境处于悲伤情绪时，情绪向量使话语“偏向”于“悲伤”，而句子向量处于中性情绪。证明了情感载体在ERC中的作用。6结论在本文中，我们提出了一种新的多模态特征提取结构，即基于Transformer结构的多模态特征提取器。在此基础上，设计了一种新的ERC模型，即ERC Caps。首先，我们使用嵌入式结构来提取文本、音频和视觉模态的情感向量，然后将三种模态的情感向量与句子向量融合成一个情感胶囊，最后，我们使用上下文分析模型来得到情感识别结果。我们在两个基准数据集上进行了比较实验。实验结果表明，我们的模型性能优于现有的国家的最先进的实验结果也验证了我们假设的合理性引用诺姆·阿米尔和塞缪尔·罗恩1998.语言中情感的自动分类。第五届国际口语教学会议。D.巴赫达瑙角Cho和Y.本吉奥。2014.神经机器翻译通过联合学习来对齐和翻译。计算机科学Carlos Busso、Murtaza Bulut、Chi-Chun Lee、AbeKazemzadeh、Emily Mower、Samuel Kim、Jean-nette N Chang 、 Sungbok Lee 和 Shrikanth SNarayanan。2008. Iemocap：交互式情感二元运动捕捉数据库。语言资源与评价，42（4）：335Yitao Cai，Huiyu Cai，and Xiaojun Wan. 2019.基于分层融合模型的Twitter多模态讽刺检测。在计算语言学协会第57届年会的会议记录中，第2506F. Dellaert，T. Polzin和A.怀贝尔1996. 在言语中表达情感。第四届国际口语教学会议论文集。ICSLP '96，第3卷，第1970-1973页，第3卷。J. Devlin ， Ming-Wei Chang ， Wendon Lee ， andKristina Toutanova. 2019. Bert：用于语言理解的深度双向转换器的预训练。在NAACL-HLT中。+v：mala2277获取更多论文Florian Eyben，Martin Wöllmer，and Björn Schuller.2010.慕尼黑多功能和快速开源音频特征提取器。第18届ACM多媒体国际会议论文集，第1459Deepanway Ghosal，Navonil Majumder，AlexanderGelbukh，Rada Mihalcea，and Soujanya J. 2020年。Cosmic：会话中情感识别的常识知识。计算语言学协会的调查结果：EMNLP 2020。Deepanway Ghosal 、Navonil Majumder 、SoujanyaPoria、Niyati Chhaya和Alexander Gelbukh。2019.Dialoguegcn：一个用于会话中情感识别的在2019年自然语言处理经验方法会议和第九届自然语言处理国际联合会议（EMNLP-IJCNLP）上。Devamanyu Hazarika ， Soujanya Ravin ， RadaMihal-cea，ErikCambria，andRogerZimmermann. 2018年a。Icon：用于多模态情感检测的交互式会话记忆网络在2018年自然语言处理经验方法会议论文集，第2594Devamanyu Hazarika ， Soujanya Zahara ， AmirZadeh，ErikCambria，Louis-PhilippeMohammed，and Roger Zimmermann. 2018年b。用于二元对话视频中情感识别的对话记忆网络。在会议记录中。计算语言学协会。北美分会2018年，第2122页。NIH Public Access.Devamanyu Hazarika ， Soujanya Zahara ， RogerZimmer- mann，and Rada Mihalcea.2021.情感识别的会话迁移学习。Information Fusion，65：1Sepp Hochreiter和Jürgen Schmidhuber。 1997.长短期记忆。Neural computation，9（8）：1735-1780.窦虎，魏凌薇，怀小勇。2021年a. Dialoguecrn：用于会话中情感识别的上下文推理网络。胡静雯，刘雨辰，赵金明，秦晋。2021b的最后一页。Mmgcn：通过深度图卷积网络进行多模态融合，用于会话中的情感识别李在京，唐峰晓，孙铁宇，朱育森，赵明。2021.Seover：基于句子级情感倾向向量的会话情感识别模型。在神经信息处理，第 468-475 页，Cham。施普林格国际出版社.林天阳，王宇新，刘向阳，邱喜鹏。2021. 变压器的调查。Navonil Majumder，Soujanya Ruman，DevamanyuHaz-arika ， RadaMihalcea ， AlexanderGelbukh，and Erik Cambria. 2019. Dialoguernn：一个专注的rnn，用于对话中的情感检测。在AAAI人工智能会议论文集，第33卷，第6818Yuzhao Mao，Qi Sun，Guang Liu，Xiaojie Wang，Weiguo Gao，Xuan Li，and Jianping Shen. 2020.Dialoguetrm：探讨会话中的模态内和模态间情感行为。Soujanya Ruman ， Erik Cambria ， DevamanyuHazarika，Navonil Majumder，Amir Zadeh，andLouis-Philippe Mohammed.2017.用户生成视频中的上下文相关情感分析。第55届计算语言学协会年会论文集（第1卷：长篇论文），第873-883页。SoujanyaSu ， DevamanyuHazarika ， NavonilMa-jumder ， GautamNaik ， ErikCambria ， andRadaMi-halcea. 2019. Meld：一个用于会话中情感识别的多模式多方数据集。第57届计算语言学协会。沈伟洲，陈俊青，全晓军，谢志贤 .2020.Dialogxl：多人对话情感识别的一体化xlnet。AAAI人工智能会议论文集。沈渭州，吴思月，杨云逸，权小军。2021年有向无环图网络用于结构化情感识别。Mingli Song ， Jiajun Bu ， Chun Chen ， and NanLi.2004年。基于视听的情感识别新方法。2004年IEEE计算机协会计算机视觉和模式识别会议论文集，2004年。CVPR 2004年。，第2卷，第II-IIAshish Vaswani ， Noam M. 放大图片作者：Shazeer ， Niki Parmar ， Jakob Uszkoreit ， LlionJones，Aidan N.戈麦斯，卢卡斯·凯泽，伊利亚·波洛苏欣。2017.注意力是你所需要的。NIPS2017，abs/1706.03762。Amir Zadeh，Minghai Chen，Soujanya Jiang，ErikCam- bria，and Louis-Philippe Mohammed.2017.用于多模态情感分析的张量融合网络。2017年自然语言处理集。Amir Zadeh、Paul Pu Liang、Soujanya Zhao、Pra-teek Vij 、 Erik Cambria 和 Louis-Philippe Mod 。2018.人类沟通理解的多注意递归网络。第32届AAAI人工智能。

下载后可阅读完整内容，剩余1页未读，立即下载