视觉语言多模态情感分析预训练框架

133 浏览量更新于2023-12-01 收藏 946KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2277获取更多论文多模态情感分析的视觉语言预训练Yan Ling，Jianfei YuYu，Rui XiaYu南京理工大学{ylin，jfyu，rxia}@njust.edu.cn摘要多模态情感分析作为情感分析中的一个重要任务，近年来受到越来越多的关注。然而，先前的方法或者（i）使用单独预训练的视觉和文本模型，其忽略跨模态对齐，或者（ii）使用用一般预训练任务预训练的视觉语言模型，其不足以识别细粒度的方面、观点及其跨模态的为了解决这些限制，我们提出了一个针对MABSA的特定任务的视觉语言预训练框架（ VLP-MABSA），这是一个统一的多模式编码器-解码器架构，用于所有的预训练和下游任务。我们进一步从语言、视觉和多模态三个方面设计了三种特定任务的预训练任务。实验结果表明，我们的方法一般优于国家的最先进的方法上的三个MABSA子任务。进一步的分析证明了每个预训练任务的有效性。源代码在https://github.com/NUSTM/VLP-MABSA上公开发布。1介绍近年来，基于多模态情感分析（MABSA）的任务1越来越受到关注。以往的研究主要集中在它的两个子任务上，即多模态特征词抽取（MATE）和面向多模态特征词的情感分类（MASC）。给定一个文本图像对作为输入，MATE的目标是提取文中提到的所有体术语（Zhang et al. ，2018; Lu et al. ，2018; Wu etal. ，2020a，b; Zhang et al. ，2021 a），而MASC*通讯作者。1 MABSA任务也称为面向目标的多任务。多模态情感分析或基于情感的多模态情感分析。图像塞尔吉奥·拉莫斯被选为UCL决赛的最佳球员（塞尔吉奥·拉莫斯，阳性）（UCL，中性）表1：MABSA任务的目的是分类的情绪对每一个前方面的条款（徐等。， 2019;Yu 和 Jiang ， 2019;Khan 和Fu，2021）。由于这两个子任务密切相关，Juet al. （2021）最近引入了联合多模态情感分析（JMASA）任务，旨在联合提取体词及其相应的情感。例如，给定Table中的文本-图像对. 1，JMASA的目标是识别所有的方面-情感对，即，（Sergio Ramos，阳性）和（UCL，中性）。上述针对MABSA的大多数研究主要集中在采用预训练的单峰模型（例如，BERT（文本）和ResNet（图像）分别获取文本和视觉特征。视觉和文本特征的单独预训练忽略了文本和图像之间的对齐因此，执行视觉语言预训练以捕获这种跨模态对齐是至关重要的。然而，对于MABSA任务，视觉语言的预训练的研究还很缺乏。据我们所知，很少有研究关注MABSA子任务之一的视觉语言预训练，即， MATE（Sunet al. ，2020，2021）。这些研究的一个主要缺点是它们主要采用一般的视觉-语言理解任务（例如，文本图像arXiv：2204.07955v1 [cs.CV] 2022年4月文本输出+v：mala2277获取更多论文匹配和掩蔽语言建模）来捕获文本-图像对准。这种一般的预训练不足以识别细粒度的观点、意见以及它们在语言和视觉模态上的对齐。因此，重要的是设计特定于任务的视觉语言预训练，为MABSA任务建模方面，意见及其对齐。为了解决这个问题，在本文中，我们提出了一个特定于任务的视觉语言预训练框架的多模态基于语义分析。具体地说，受到最近基于文本的ABSA中基于BART的生成模型的成功的启发（Yan et al. ，2021），我们首先构建了一个基于BART的生成多模态架构（Lewis etal. ，2020），用于视觉语言预训练和下游MABSA任务。然后，我们提出了三种类型的视觉语言的预训练任务，包括掩蔽语言建模（MLM）和文本的意见提取（AOE）从语言模态，掩蔽区域建模（MRM）和视觉的意见生成（AOG）从视觉模态，和跨两个模态的多模态情感预测（MSP）图1展示了我们提出的预训练方法的整个框架。与一般的预训练方法相比，我们的任务特定的预训练方法结合了多模态方面，意见和情感监督，指导预训练模型捕获重要的客观和主观信息，用于MABSA任务。为了评估我们的预训练方法的有效性，我们采用MVSA-Multi，这是一种广泛使用的多模态Twitter数据集，用于粗粒度文本-图像情感分析（Niu et al. ，2016），作为我们的预训练数据集。然后，我们使用几个代表性的预训练模型和基于规则的方法来获得AOE和AOG任务的方面和意见监督。由于数据集为每个多模态推文提供了情感标签，因此我们采用它们作为MSP任务的监督我们在这项工作中的贡献如下：• 我们为MABSA引入了一个特定于任务的视觉语言预训练框架VLP-MABSA，这是一个统一的多模态编码器-解码器架构，用于所有的预训练和下游任务。• 除了一般的MLM和MRM任务外，我们进一步介绍了三个特定任务的预训练任务，包括文本分析-意见提取、视觉方面意见生成和多模态情感预测，以识别细粒度方面、意见及其跨模态对齐。• 在三个MABSA子任务上的实验表明，我们的预训练方法通常比最先进的方法获得了显着的性能增益。对监督和弱监督设置的进一步分析证明了每个预训练任务的有效性。2相关工作视觉语言预训练。受BERT等预先训练语言模型的成功启发（Devlin et al. ，2019），已经提出了许多多模态预训练模型（Chenetal. ， 2020b; Yu et al. ，2021; Zhang et al. ，2021 b）执行许多视觉语言任务，取得了巨大的成功。相应地，提出了许多通用的预训练任务，例如掩蔽语言建模（MLM）、掩蔽区域建模（ MRM ）和图像 - 文本匹配（ ITM ）（Chen et al. ，2020b; Yu et al. ，2021年）。此外，为了使预训练模型更好地理解下游任务，研究人员还为不同的下游任务设计了特定于任务的预训练模型（Hao et al. ，2020; Xing等人，2021年）。在我们的工作中，除了流行的一般预训练任务，我们还设计了三种任务特定的预训练任务的MABSA任务。基于文本的联合情感分析（JASA）。JASA的目标是提取文本中的体术语，并预测它们的情感极性。已经提出了许多方法，包括管道方法（Zhang et al. ，2015; Hu等人，2019），多任务学习方法（He et al. ，2019; Hu et al. ，2019）和基于标签的方法（Li et al. ，2019;Hu et al. ，2019年;陈等人，2020a）。最近，Yan et al. （2021）提出了一个统一的生成框架，该框架在JASA的几个基准数据集上实现了极具竞争力的性能。多模态情感分析。社交媒体帖子中的多模态情感分析（MSA）是情感分析的一个重要方向在文献中已经提出了许多神经网络方法来执行粗粒度MSA，其目的是检测每个输入社交帖子的整体情感（You et al. ，2015，2016;Luo et al. ， 2017; Xu et al. ， 2018; Yang etal. ，2021b）。不同+v：mala2277获取更多论文∈--⟨ ⟩ ⟨⟩⟨⟩⟨⟩屏蔽语言建模文本注释-意见抽取掩蔽区域建模视觉感知生成多模态情绪预测最佳演唱会 …5 6se p <>1 1 EOS>帅哥 EOS>积极BART解码器BART解码器BART解码器BART解码器BART解码器 Best concertBieber sep> best最好< mrm>< feat>< zero>< feat>.帅哥公司简介BART编码器eimg>v1v零v3v36联系我们e< bos>e Beste< mask>贾斯汀比伯身高2016e！eeos>代币嵌入Faster R-CNN代币嵌入代币嵌入…< bos>最佳面具<>贾斯汀的开放比伯位置索引：1234567文本预训练视觉预训练多模态预训练图1：MABSA视觉语言预训练框架概述从这些研究中，我们的工作集中在细粒度的MABSA任务上，该任务旨在识别对每个输入社交帖子中提到的所有方面的情感。基于多模态分析的情感分析。作为一个重要的情感分析任务，已经有许多方法来处理MABSA的三个子任务，包括多模态特征项提取（Zhang et al. ，2018; Yuet al. ，2020b; Wuet al. ，2020 a，b; Sun等人，2020; Zhang etal. ，2021a）、多模态方面情感分类（Xu etal. ，2019; Yu et al. ，2020a; Yang et al. ，2021a; Khan和Fu，2021）和联合多模态情感分析（Ju et al. ，2021年）。在这项工作中，我们的目标是提出一个通用的预训练框架，以提高所有三个子任务的性能。3方法图1显示了我们的模型体系结构的概述我们模型的主干是BART（Lewiset al. ，2020），其是用于序列到序列模型的去噪自动编码器。我们扩展BART来编码文本和视觉输入，并解码来自不同模态的预训练和下游任务。在下面的小节中，我们首先介绍我们的特征提取器，然后说明我们模型的编码器和解码器，然后描述三种类型的预训练任务和下游MABSA任务的细节3.1特征提取器图像表示。遵循许多现有的视觉语言预训练模型（Chenet al. ，2020b; Yu et al. ，2021），我们采用更快的R-CNN（Anderson et al. ，2018）提取视觉功能.具体来说，我们采用Faster R-CNN从输入图像中提取所有候选区域。我们只保留了36个置信度最高的地区同时，我们还保留了每个区域的语义类分布，这将用于掩蔽区域建模任务。对于保留的区域，我们使用Faster R-CNN处理的均值池让我们使用R={r1，...，r36}来表示视觉特征，其中r iR2048是指第i个区域的视觉特征。为了与文本表示一致，我们采用线性变换层将视觉特征投影到d维向量，表示为V∈Rd×36。文本表示。对于文本输入，我们首先将文本标记化，然后将标记馈送到嵌入矩阵。文本标记的嵌入被用作文本特征。让我们使用E= e1，.，e T表示文本输入的标记索引，其中T表示输入文本的长度，W ={w1，.，wT}来表示令牌的嵌入。3.2基于BART的生成框架我们采用基于BART的生成框架进行视觉语言预训练和下游MABSA任务。编码器。我们的模型的编码器是一个多层的双向Transformer。如图1所示，为了区分不同模态的输入，我们遵循Xing等人（2021）的方法，使用img和/img表示可视功能的开始和结束，bos和eos表示文本输入。在本文的以下部分中，我们用X表示级联的多模态输入。译码器我们的模型的解码器也是一个多层的Transformer。不同的是+v：mala2277获取更多论文⟨⟩⟨⟩⟨⟩⟨ ⟩ ⟨⟩⟨ ⟩ ⟨⟩⟨⟩不V传销不我情绪#图文对#方面#意见#积极的话11903 10593 22752 215044电话：+86-510 - 7567 74456负1500 1016 2956 25211表2：MVSA多数据集的统计数据。#Apects和#Opinions是我们通过第3.3.1节中介绍的基于规则的方法从数据集中提取的方面术语和意见术语的数量。解码器在生成输出时是单向的由于所有预训练任务共享相同的解码器，因此我们在解码器的输入开始处插入两个特殊的令牌以指示不同的预训练任务。根据Yan等人（2021），我们插入一个特殊的令牌bos来指示生成的开始，然后插入一个特定于任务的特殊令牌来指示任务类型。具体而言，用于掩蔽语言建模、文本方面-意见提取、掩蔽区域建模、视觉方面-意见生成和多模态情感预测的特殊令牌是：分别是，巴西人，巴西人和巴西人，很好3.3培训前任务我们用于预训练的数据集是MVSA-Multi（Niuet al. ，2016年），它被广泛使用多模态Twitter 情绪分析（ Yadav 和 Vishwakarma ，2020; Yang et al. ，2021b）。该数据集提供图像-文本输入对和图像-文本对的粗粒度情感。统计其中，ei和Xen分别表示输入文本和掩蔽的多模态输入的第i个到第k个。T是输入文本的长度。文本意见抽取（AOE）。AOE任务旨在从文本中提取方面和观点术语。由于MVSA-Multi数据集不提供方面和观点术语的注释具体来说，对于方面提取，我们采用来自用于推文的众所周知的命名实体识别（NER）工具的预训练模型（Ritter et al. ，2011）对数据集中的每个tweet执行NER，并将识别的实体视为方面术语。对于意见提取，我们使用了一个广泛使用的情感词典命名为Senti-WordNet（Esuli和Esutiani，2006年），以获得意见词的字典。给定每条推文，如果其子序列（即，单词或短语）与词典中的单词匹配，我们将其视为意见术语。这些提取的方面和意见术语被用作AOE任务的监督信号在文本方面的意见监督，我们遵循严等。（2021）通过将AOE任务制定为索引生成任务。给定输入文本作为源序列，目标是生成由所有方面和意见术语的开始和结束索引组成的目标索引序列。让我们使用Y=[a s，a e，...，a s，a e，sepp，o s，o e，.，o s，o e，eos]表2中给出了数据集的。1 1 个月1 1 N N使用数据集，我们设计了三种类型的预训练任务，包括文本，视觉和多模态预训练，如下所示。3.3.1文本预训练文本预训练包含两个任务：一般的掩蔽语言建模任务，用于建立文本和视觉特征之间的对齐，以及特定于任务的文本分析-意见提取任务，用于从文本中提取方面和意见。Masked Language Modeling （ MLM ）在MLM预训练任务中，我们使用与BERT相同的策略（Devlin et al. ，2019）通过以15%的概率随机掩蔽输入文本令牌。MLM任务的目标是生成原始以表示目标索引序列，其中M和N是方面术语和意见术语的数目，as，ae和os，oe分别表示方面术语和意见术语的开始和结束索引，sep用于分离方面术语和意见术语，并且os通知提取的结束。例如，如图1所示，提取的方面和意见术语分别为Justin Bieber和best，目标序列为Y=[5，6，sep，1，1，eos]。为yt在靶序列Y中，它是一个位置索引或特殊令牌（例如， sep）。我们使用C=[sep， eos]表示特殊标记的集合，并且Cd作为它们的嵌入。我们假设He表示编码器输出基于所述图像和所述掩码文本的文本，以及的级联多模态输入，He表示因此，MLM任务的损失函数为：他的文本部分，他表示视觉L=−E对数P（e |ei=1，X），（1）部分E。解码器采用多模态编码器输出He和先前的解码器输出Y<不作为输入，并预测令牌概率XD<我+v：mala2277获取更多论文不不Σ| |--我Σ⟨⟩⟨⟩⟨⟩⟨ ⟩⟨⟩我Σ⟨ ⟩⟨⟩不分布P（yt）如下：hd=解码器（He;Y AESC> Sergio Ramos POS UCL UCL NEUBART编码器代币嵌入Faster R-CNN代币嵌入代币嵌入.< bos> Sergio 拉莫斯 ... UCLfinaleos>⟨ ⟩ ⟨ ⟩ ⟨ ⟩ ⟨⟩1 2 POS 9 9 NEU eos>积极9283033171508515493中性18836706071638517573负368149113416144168总面积3179 1122 1037 3562 1176 1234#句子21017276741746577587表3：两个TWITTER数据集的基本统计数据。位置索引：12910与第3.3.1节中的AOE任务类似，我们图2：下游任务JMASA的示例。AESC通知当前任务是JMASA。我们将交叉熵损失用于MSP任务：LMSP= −EXDlogP（s|（十）、（十二）其中s是dataset中注释的golden sentiment。3.3.4完全训练前损失为了优化所有的模型参数，我们采用交替优化策略来迭代优化我们的五个预训练任务。目标函数如下：将所有子任务公式化为索引生成任务，并使用等式（2）Eqn。（4）生成令牌分发。不同之处在于，通过添加情感类别，将特殊令牌集修改为C=[POS， NEU， NEG， EOS]。图2显示了JMASA的一个示例。由于方面-情感对是（ Ser- gio Ramos ， Positive ）和（ UCL ，Neutral），所以它的目标序列是[1，2，POS，9，9，NEU，eos]。4实验4.1设置下游数据集。我们采用Yu和Jiang（2019）注释的两个基准数据集，即TWITTER-2015和TWITTER-2017来评估L=λ1 LMLM+λ2 LAOE+λ3 LMRM+λ4LAOG+λ 5LMSP（十三）我们的模特两个数据集的统计数据见表3。实施细节。我们雇用巴士-其中λ1、λ2、λ3、λ4和λ5是用于控制每个任务的贡献的权衡超参数3.4 下游任务我们认为所有的三个子任务MABSA作为我们的下游任务，包括联合多模态特征-情感分析（ JMASA ），多模态特征项提取（MATE），和多模态特征导向的情感分类（MASC）。我们在视觉语言预训练中基于相同的基于BART的生成框架对这些下游任务进行建模，使得下游任务可以在微调阶段从预训练中受益更多按照Yan等人（2021）的方法，我们将三个子任务的输出计算如下：• JMASA：Y =[a s，a e，s，...，as，ae，s，.]、碱（Lewis et al. 2020年，作为我们的框架。具体而言，编码器和解码器都有六层，并初始化与BART的基础参数。我们在开发集上调优所有超参数后修复它们。预训练任务训练40个epoch，下游任务微调35个epoch。批量大小分别设置为64和16。学习率设置为5e-5。我们模型的隐藏大小设置为768，与BART相同。权衡超参数λ1，λ2，λ3，λ4和λ5都设置为1。请注意，对于子任务MASC，与Ju等人（2021）对正确预测的方面进行评估不同，我们在推理阶段向我们的框架的解码器提供所有黄金方面，并对所有方面进行评估我们1 11我我我使用PyTorch实现所有模型，并运行• MATE：Y =[a s，a e，.，as，ae，...在RTX3090 GPU上进行实验。11 ii• MASC：Y =[a s，a e，s1，...，As，ae，si，.]、评价我们评估我们的模型11我我在MABSA的三个子任务之上，采用Micro-其中，as、ae和si通知开始索引、结束F1分数（F1）、精确度（P）和召回率（R），我我索引和文本中的体词的情感。带下划线的标记是在推理过程中给出的评估指标来衡量绩效。对于MASC，为了与其他方法进行公平比较，Twitter-2015Twitter-2017培训开发测试培训开发测试+v：mala2277获取更多论文Twitter-2015Twitter-2017方法Twitter-2015Twitter-2017PRF1PRF1PRF1PRF1文本方法跨度53.7 53.9 53.8 59.6 61.7 60.6D-GCN58.358.8 59.4 64.2 64.1捷运62.9 65.0 63.9 65.2 65.6 65.4冉80.581.581.090.790.090.3地铁站77.881.779.786.786.886.7OSCGA81.782.181.990.290.790.4JML-MATE系列83.681.282.492.090.791.4VLP-MABSA83.687.985.790.892.691.7多模式方法UMT+TomBERT58.461.359.862.362.462.4OSCGA+TomBERT61.763.462.563.464.063.7OSCGA-崩溃63.163.763.263.563.563.5RpBERT塌缩49.346.948.057.055.456.2公司简介65.063.264.166.565.566.0VLP-MABSA65.168.366.666.969.268.0表4：JMASA不同方法的结果。注意到这些结果来自Ju etal. （2021年）。我们还使用准确度（Acc）。4.2比较系统在本节中，我们将介绍用于不同任务的四种类型的计算机系统。多模态特征词提取方法 1）RAN（ Wu etal. ，2020 a），其通过共同注意力网络将文本与对象区域对齐。2) UMT（Yu et al. ，2020b），其使用跨模态Transformer来融合文本和图像表示以用于多模态命名实体识别（MNER）。3）OSCGA（Wu et al. ，2020b ），使用视觉对象作为图像表示的另一MNER 方法。 4) RpBERT （ Sunet al. ，2021），其使用用于MNER和图像-文本关系检测的多任务训练模型。多模态特征分类方法（ MASC ）。 1 ）TomBERT（Yu和Jiang，2019），通过使用BERT 捕获模态内动态来处理 MASC 任务2)CapTrBERT（Khan和Fu，2021），它将图像转换为标题，作为情感分类的辅助句子。基于文本的联合方面-情感分析（JASA）方法。1）SPAN（Hu et al. ，2019），它将JASA任务制定为跨度预测问题。2）D-GCN（Chenet al. ，2020 a），其提出了一种方向图卷积网络来捕获单词之间的相关性。3 ） BART （ Yan et al. ， 2021 ），其通过将JASA任务公式化为索引生成问题来使JASA任务适应BART。联合多模态情感分析（JMASA）的多模态方法。1）UMT+TomBERT和OSCGA+TomBERT，它们是通过组合用于上述子任务的方法的简单流水线方法。（二）表5：MATE的不同方法的结果。 *表示结果来自Ju等人。（2021年）。方法TWITTER-2015 TWITTER-2017加速F1加速F1汤姆伯特77.2 71.870.5 68.0CapTrBERT78.0 73.272.3 70.2JML-MASC78.7-72.7-VLP-MABSA78.673.873.8 71.8表6：MASC的不同方法的结果。请注意，JML-MASC只对JML-MATE正确预测的方面进行评估，而其他方法则对所有黄金方面进行评估。UMT塌陷（Yu et al. ，2020 b），OSCGA-塌陷（Wu et al. ，2020 b）和RpBERT-塌缩（Sunet al. ，2021），其使用诸如B-POS和I-POS的折叠标签来对JMASA任务进行建模。3) JML（Ju et al. ，2021年），即最近提出的一种多任务学习方法，具有辅助跨模态关系检测任务。4.3主要结果在本节中，我们分析了MABSA的三个子任务的不同方法的结果。JMASA的结果。表4显示了JMASA的不同方法的结果。从表中可以看出，BART在基于文本的方法中取得了最好的性能，甚至超过了一些多模态方法，这证明了我们的基础框架的优越性。对于多模态方法，JML取得了比以前的方法更好的性能，主要是由于它的辅助任务之间的关系检测图像和文本。在所有方法中，VLP-MABSA是具有所有预训练任务的整个模型，在两个数据集上始终表现最好。具体来说，它在TWITTER-2015和TWITTER-2017上分别以2.5和2.0的绝对百分比-年龄点明显优于第二好的系统JML这主要得益于我们针对特定任务的预培训任务，这些任务确定了两种模式的方面和意见及其MATE和MASC的结果表5和表6显示了MATE和MASC的结果，+v：mala2277获取更多论文70656055504540Twitter-2015Twitter-20177065605550无预培训+T传销+TAOE39.7969.33五十七点四十40.4269.69五十八点46.1579.13五十八点三二49.1280.4861.0449.6981.26六十一点一五52.0084.6061.46352004006008001000120014001600的样本数量452004006008001000120014001600的样本数量+VMRM+VAOG+MMMSP46.6479.4958.6847.7980.94五十九点三二51.7180.6962.5852.1884.47六十一点七八53.1685.04六十二点五一55.3884.88六十四点四二图3：当为下游任务使用不同数量的训练样本时，预训练的有效性。Y轴是指JMASA任务的F1表7：基于两个基准的预培训任务的结果。我们评估了三个任务JMASA，MATE和MASC的F1，F1和Acc，分别。T、V和MM分别表示文本、视觉和多模式预训练每一行都向其上一行添加一个额外的预训练任务- 是的与JMASA子任务的趋势类似，我们可以清楚地观察到，我们提出的方法VLP-MABSA通常在两个数据集上实现了最佳性能，除了TWITTER-2015的准确性指标。这些观察结果进一步证明了我们提出的预训练方法的普遍有效性。4.4深入分析培训前的任务为了探索每个预训练任务的影响，我们对使用完整训练数据集的全监督设置和仅随机选择200个训练样本进行微调的弱监督设置进行了彻底的消融研究。每项训练前任务的影响正如我们从表7中看到的，当添加更多的预训练任务时，性能通常会在大多数指标方面得到改善。为了更好地分析每个预训练任务的效果，我们以TWITTER-2015上的弱监督实验当只使用MLM来预训练我们的模型时，性能只得到轻微的改善。加入AOE任务后，MATE的成绩比F1有了9.44%的大幅提升。这表明AOE任务大大增强了我们的模型当添加MRM任务时，性能再次略有改善。这反映了一般的训练前任务（例如，MLM和MRM）不足以让我们的模型处理需要模型理解图像和文本中的主观和客观信息当加入AOG任务时，三个子任务的绩效都得到了适度的提高，证明了AOG任务。最后，添加MSP任务显著提高了性能，特别是在MASC任务上。这表明MSP任务可以增强我们的模型对跨语言和图像模态的情感的理解。通过结合所有的预训练任务，我们的完整模型通常在完全监督和弱监督设置下都能在大多数子任务上取得最佳结果使用不同数量的下游训练样本时预训练的影响。为了更好地理解预训练的影响，我们比较了在采用不同数量的样本进行下游训练时，有和没有预训练的结果。我们使用JMASA任务作为例子来观察影响。如图3所示，当样本量很小时，预训练可以带来巨大的改进。相比之下，当样本量变得更大时，预训练带来的改进相对较小。这进一步说明了我们的预训练方法的稳健性和有效性，特别是在低资源场景中。4.5为例为了进一步证明我们的方法的有效性，我们提出了四个测试的例子，从不同的方法预测比较的方法是BART，我们的框架使用多模态输入没有预训练（表示为MM），我们的框架使用多模态输入与完整的预训练（表示为VLP），分别。如表8所示，例如（a），BART和MM都提取了错误的方面项（即，充满信心的珍珠果酱），并给出了不正确的情绪预测对埃迪。例如（b），BART只提取了一个体词Madonna，而MM识别了另一个体词Demelza。然而，人们对麦当娜的感情被MM错误地预测了.例如（c），仅BARTTwitter-2015Twitter-2017无预训练后预训练无预训练后预训练监管不力全程监督F1JMASAMATE MASCJMASA MATE MASC无预培训65.3184.8076.8166.1090.6772.78+T传销65.4484.9177.0866.2791.0072.82+TAOE65.9285.4377.4867.1291.7572.89+VMRM65.9485.4977.5367.1591.7273.13+VAOG66.3885.7377.8267.6691.7773.32+MMMSP66.6485.6678.5968.0591.7373.82F1+v：mala2277获取更多论文公司简介BART××图像文本(a) RT @ PearlJam：埃迪和布宜诺斯艾利斯的忠实珍珠果酱球迷图片来源：@ epozzoni #PJSA2013(b)RT @ BBCOne：亲爱的麦当娜，这就是你穿斗篷的方式德梅尔扎(c) RT @ TrumpDoral：祝贺新的# MissUni- verse，哥伦比亚小姐，Paulina Vega！(d) RT@myfox8：夏洛特@黄蜂队访问#格林斯伯勒为D- 联盟会议（埃迪，POS）（麦当娜，POS）（哥伦比亚小姐，POS）（夏洛特，NEU）GT（珍珠果酱，POS）（波尔达克，NEU）（宝琳娜维加，POS）（格林斯伯勒，NEU）（Buenos Aires，NEU）（Demelza，NEU）（D（Eddie，NEU）（Madonna，POS）J （Colombia，POS）（Charlotte，NEU）J（the Faithfull Pearl Jam，NEU）×-×（Paulina Vega，POS）J（Greensboro，NEU）J（Buenos Aires，NEU）J-×-×（Eddie，NEU）（Madonna，NEU）（Colombia，NEU）（Charlotte，NEU）J（the Faithfull Pearl Jam，NEU）×-×（Paulina Vega，POS）J（Greensboro，NEU）J（Buenos Aires，NEU）J（Demelza，NEU）J-×（埃迪，POS）J（麦当娜，POS）J（哥伦比亚小姐，POS）J（夏洛特，NEU）JVLP（Pearl Jam，POS）J（Poldark，NEU）J（Paulina Vega，POS）J（Greensboro，NEU）J（Buenos Aires，NEU）J（Demelza，NEU）J（D表8：不同方法对四种测试样品的预测NEU、POS和NEG分别表示中性、积极和消极情绪认识到哥伦比亚和MM的方面术语的一部分错误地预测了对哥伦比亚小姐作为中立的情绪。例如（d），BART和MM都没有识别D联赛的体项。在所有的情况下，我们的VLP模型与充分的预训练正确地提取所有方面的条款和分类的情绪，这表明我们的生成框架和特定于任务的预训练任务的优势。5结论在本文中，我们提出了一个特定于任务的视觉语言预训练框架的多模态基于情感分析（VLP-MABSA）。我们进一步设计了三种预训练任务，分别从语言、视觉和多通道模态。实验结果表明，我们所提出的方法一般优于国家的最先进的方法的三个子任务的MABSA。我们的工作是迈向统一的MABSA视觉语言预训练框架的第一步。在未来，我们计划将我们的预训练方法应用于更大的数据集，并在我们的预训练框架中考虑图像和文本之间的关系。希望本文的工作能为MABSA的研究带来新的思路和视角。致谢作者要感谢匿名评论者的深刻评论。这项工作国家自然科学基金（62076133、62006117）、江苏省青年科学基金（BK 20200463）和杰出青年科学基金（BK 20200018）资助。引用Peter Anderson ， Xiaodong He ， Chris Buehler ，Damien Teney，Mark Johnson，Stephen Gould，and Lei Zhang. 2018.自下而上和自上而下的图像字幕和视觉问题回答的注意力。在IEEE计算机视觉和模式识别会议论文集，第6077Damian Borth， Rongrong Ji，Tao Chen ， ThomasBreuel，and Shih-Fu Chang.2013.使用形容词名词对的大规模视觉感知本体和检测器。第21届ACM国际多媒体会议论文集，第223陈贵民，田元和，宋岩。2020年a。联合方面提取和情感分析与方向图卷积网络。在第28届国际计算语言学会议论文集，COLING 2020，巴塞罗那，西班牙（在线），2020年12月8日至13日，第272国际计算语言学委员会陈涛，

下载后可阅读完整内容，剩余1页未读，立即下载