没有合适的资源?快使用搜索试试~ 我知道了~
+v:mala2277获取更多论文你什么时候变得这么聪明了,聪明人!多模态多方对话Shivani KumarZhao,Atharva KulkarniZhao,Md Shad Akhtar,TanmoyChakrabortyIndraprastha信息技术学院印度德里{shivaniku,atharvak,shad.akhtar,tanmoy}@iiitd.ac.in摘要在人类交际中,诸如讽刺等间接言语实现了一系列话语目标虽然比喻语言的间接性保证了说话者实现某些语用目标,但人工智能智能代理理解人类交流的这种特质是具有挑战性的。虽然讽刺识别是对话分析中的一个重要研究课题,但为了使会话系统真正理解会话的内在含义并产生适当的反应,仅仅检测讽刺是不够的,还必须解释其潜在的讽刺内涵,才能捕捉到其真正的本研究旨在研究讽刺性会话的语篇结构,并提出一个新的任务-设置在一个多模态和代码混合的设置,该任务的目的是生成自然语言解释的讽刺对话。为此,我们cu- rateWITS,一个新的数据集,以支持我们的任务。我们提出了MAF(模态感知融合),一个多模态上下文感知注意和全局信息融合模块,以捕获多模态,并使用它来基准测试WITS。所提出的注意力模块超越了transmartemodal融合基线,并在几乎所有的metrics上报告了最佳性能。最后,我们进行了详细的定量和定性分析。1介绍比喻性语言的使用服务于许多交际目的,是口头和书面交际的常规特征(Roberts和Kreuz,1994)。悖论性语言主要用于诱导幽默、批评或嘲弄(Colston,1997),也可与夸张同时使用,以显示惊讶(Colston和Keller,1998)以及突出期望与现实之间的差距(Ivanko和Pexman,2003)。虽然讽刺的使用和理解是一个平等贡献图1:对话中的讽刺解释(SED)。给定一个讽刺对话,其目的是为其中的讽刺生成一个自然语言解释。蓝色文本表示文本的英语翻译。认知负荷过程(Olkoniemi et al. ,2016),心理学证据主张它与接受者的心理理论(ToM)呈正相关(Wellman,2014),即,解释和理解他人思想状态的能力因此,对于NLP系统来说,要模仿这种拟人化的智能行为,它们不仅必须足够有效地识别讽刺,而且还必须具备完整理解讽刺为此,我们从反语识别的角度出发,提出了对话中反语解释的新任务。对于对话代理来说,理解讽刺更是至关重要,因为需要将其讽刺的基调规范化并提供适当的响应。穿插着讽刺性语句的对话通常使用对比语言来传达与所说的相反的意思。在现实世界中,理解讽刺不仅仅是讽刺,arXiv:2203.06419v1 [cs.CL] 2022年3月+v:mala2277获取更多论文⟨⟩这是一种对对话语言的理解此外,由于存在必要的时间,语境,和说话人相关的信息,讽刺的理解在会话表现为一个挑战性的问题。因此,对话系统领域的许多研究都从文本、多模态和会话的角度研究了讽刺(Ghosh et al. ,2018; Castro et al. ,2019; Oraby et al. ,2017;Bedi et al. ,2021年)。然而,有一些例外(米什拉等人。,2019; Dubey et al. ,2019;Chakrabarty et al. ,2020),但对比喻语言的研究主要集中在对比喻语言的识别上,而对比喻语言的理解和规范却很少。本文试图通过生成自然语言解释的讽刺对话来解决这一差距为了说明所提出的问题陈述,我们在图1中展示了一个示例。它包含一个由四个话语u1,u2,u3,u4组成的二元对话,其中最后一个话语(u4)是一个讽刺的评论。请注意,在这个例子中,尽管与所说的相反的是,“我不必考虑它”,但这不是说话者的意思;因此,它强化了我们的假设,即讽刺的表达不仅仅是否定对话的语言。话语也伴随着辅助的视听讽刺标记,如音调的讽刺语调,一张空白的脸,或滚动的眼睛。因此,聚集的会话历史,多模态信号,和说话人信息,SED旨在生成一个连贯的和内聚的自然语言解释与讽刺对话。对于手头的任务,我们扩展了M A S A C(Bediet al. ,2021)-用于代码混合对话的讽刺检测数据集-通过用每个讽刺对话的自然语言解释对其进行扩充。我们将数据集命名为WITS1。该数据集是一个流行的印度电视节目讽刺对话的汇编除了对话的文本转录,数据集还包含音频和视频的多模态信号。我们用单峰和多峰模型进行实验,以基准测试WITS。文本,作为解释的驱动力,被赋予首要的重要性,因此,我们比较了一些建立在WITS上的基于文本的为了将多模态信息,我们提出了一个独特的融合方案,第1章:多模态上下文感知注意力(MCA 2)。受Yang等人(2019)的启发,这种注意力变量通过用视听信息调节键和值向量,然后用这些修改的向量执行点积注意力,促进了多模态信号和文本生成的音频和视频信息通知文本表示,然后使用全球信息融合机制(GIF)相结合GIF的门控机制允许选择性地包含与讽刺语言相关的信息,并且还禁止任何多模态噪声渗入模型。我们进一步提出MAF(模态感知融合)模块,其中上述机制作为适配器模块引入生成预训练模型(GPLM)中我们的融合策略优于基于文本的基线和传统的多模态融合方案在多个文本生成指标。最后,我们对生成的解释进行了全面的简而言之,我们的贡献有四个方面:• 我们提出了对话中的讽刺解释(SED),这是一个新颖的任务,旨在为一个给定的讽刺对话生成一个自然的语言解释,阐明意图的讽刺。• 我们扩展了现有的讽刺对话数据集,以策展WITS,一个新的数据集包含人类注释的黄金标准解释。• 我们分别使用BART和mBART的MAF-TAVB和MAF-TAVM变体对我们的数据集进行• 我们进行了大量的定量和定性分析以及人工评估,以评估生成的解释的质量。复制:源代码和数据集可以在这里找到:https://github.com/LCS2-IIITD/MAF.git。2相关工作讽刺和文本:Joshi等人(2017)提出了一项关于计算讽刺的精心编制的调查,作者扩展了自动讽刺识别的相关数据集,趋势和问题。讽刺检测的早期工作处理独立的文本输入,如推文和评论(Kreuz和Caucci,2007; Tsur et al. ,2010年;+v:mala2277获取更多论文Joshi等人,2015; Peled and Reichart,2017).这些最初的工作主要集中在使用语言和词汇特征来发现讽刺的标记(Kreuz和Caucci,2007;Tsur等人,2008)。,2010年)。最近,提出了基于注意力的架构来利用文本中的句间和句内关系来进行有效的讽刺识别(Tay et al. ,2018; Xiong et al. , 2019; Srivastavaet al. ,2020)。比喻语言的分析也在对话AI环境中得到了广泛的探索。Ghosh et al.(2017)利用基于注意力的RNN来识别存在上下文的讽刺针对两个输入(句子和上下文)训练了两个独立的LSTM-注意力,并且在预测期间组合了它们的隐藏表示。反语识别的研究也已经扩展到英语之外。Bharti等人(2017)收集了2000条讽刺推文的印地语语料库,并采用基于规则的方法来检测讽刺。 Swami等人 (2018)策划了一个包含5000条讽刺印地语-英语代码混合推文的数据集,并使用具有各种ML模型的n-gram特征向量进行讽刺检测。其他值得注意的研究包括阿拉伯语(Abu Farha和Magdy,2020年),西班牙语(Ortega-Barco et al. ,2019)和意大利语(Albernarella et al. ,2018)语言。讽刺和多模态:在会话设置中,MUSTARD,一个多模态,多说话者数据集,由Castro et al.(2019)被认为是多模态讽刺识别的基准。Chauhan等人 (2020)利用情感和讽刺之间的内在相互依赖性,并设计了一个多模式讽刺检测的多任务框架。目前,Hasanet al. (2021)在这个数据集上表现最好,他们的幽默知识丰富 的 Transformer 模 型 。 最 近 , Bedi 等 人(2021)提出了一种代码混合的多方对话数据集MA SA C,用于讽刺和幽默检测。在双峰设置中,也已经很好地探索了对包含图像的推文的讽刺识别(Cai et al. ,2019; Xu et al. ,2020;Pan等人,2020)。超越讽刺识别:虽然计算讽刺的研究主要集中在讽刺识别上,但也有一些研究Dubey等人(2019)开始使用深度学习将讽刺话语转换为非讽刺解释的工作。Dlg数量#Utts工程数量# Hin utts224090801011453CM输出数量Avg. 乌特/德拉格Avg. sp/dlgAvg.单词/utt75264.052.3514.39Avg.文字/dlg词汇大小英语词汇大小欣语大小58.331038024777903表1:WITS中存在的对话框的统计信息。在另一个方向,Mishra et al. (2019)设计了一种模块化的无监督技术,通过事实删除和不一致短语插入引入上下文不一致来生成讽刺。在此之后,Chakrabarty等人。(2020)提出了一种基于检索和编辑的无监督讽刺生成框架。他们提出的模型利用配价反转和语义不一致从非讽刺对应物生成讽刺句子。总之,在sar- casm检测方面已经做了很多工作,但是很少(如果有的话)努力解释讽刺背后的讽刺。本文试图通过提出一个新的问题定义和支持数据集来填补这一空白。3数据集情景喜剧,或称因此,NLP研究社区已经成功地将这些数据用于讽刺识别(Castro et al. ,2019; Bedi et al. ,2021年)。然而,由于没有针对所提出的任务定制的当前数据集,因此我们策划了一个名为WITS的新数据集,其中我们增强了现有的M A S A C数据集(Bedi et al.2021年),并对我们的任务进行了解释。MASA C是一个多模式,多方,印地语-英语代码混合对话数据集,从流行的印度电视节目我们手动分析数据并为我们的任务进行清理。虽然原始数据集包含45集电视剧,但我们添加了10集,以及它们的转录和视听边界。随后,我们从这个增强的数据集中选择讽刺话语,并手动定义要包括在对话上下文中的话语。最后,我们得到了2240个讽刺对话,语境话语的数量从2到27不等。 这些实例中的每一个都是手动2https://www.imdb.com/title/tt1518542/+v:mala2277获取更多论文50040030020010005 10 15 20 25对话中的话语数14001200100080060040020001 2 3 4 5 6对话中的扬声器数量7006005004003002001000源(a) 话语长度分布(b) 话者分布(c) 源靶对分布2502001501005000 5 1015202530解释长度(d) 讽刺源分布(e) 讽刺目标分布(f) 解释长度分布图2:WITS中属性的分布对话中的话语数量介于2和27之间。对话中的最大发言者数量为6。说话者注释有解释其讽刺的相应自然语言解释。每一个讽刺都包含四个主要属性在解释中,“Indu暗示玛雅看起来不太好。“,我们以代码混合格式收集我们将数据以80:10:10的比例划分为训练集/验证集/测试集,结果是训练集中有1792个对话,验证集和测试集中各有224下一节将更详细地说明表1和图2显示了WITS的详细统计数据。3.1注释指南WITS中的每个实例都与相应的视频、音频和文本转录相关联,使得最后的话语本质上是讽刺的我们首先手动定义理解每个对话的最后一个话语中存在的讽刺所需此外,我们提供了这些讽刺的语句,连同他们的上下文,谁被要求生成一个解释这些实例的基础上的音频,视频和文本线索的注释两个注释者被要求对整个数据集进行注释。通过计算两种解释之间的余弦相似度来选择目标解释如果余弦相似性大于90%,则选择较短长度的解释作为目标解释。否则,第三个注释者将对话与解释一起进行,并重新解决冲突。第一遍后的平均余弦相似度为87。百分之六十七所有最终选择的解释都包含以下属性:• Sarcasm source:对话中正在讽刺的说话者• 讽刺对象:被讽刺的人/事。• 动作词:用来描述讽刺是如何发生的动词/动作例如嘲笑、侮辱、奚落等。• 描述:描述场景,帮助理解讽刺。图1展示了WITS中的一个注释示例及其属性。4拟议方法在本节中,我们将介绍我们的模型及其特性。主要目标是将多模态知识顺利集成到BART架构 中 为 此 , 我 们 引 入 多 模 态 感 知 融 合(MAF),一个基于适配器的模块,包括多模态上下文感知注意力(MCA2)和全局信息融合(GIF)机制。目标MAYAIndravardhanSahilMONISHAROSESH其他Maya28.66%3.93%6.88%7.86%百分之十九点一一SahilMONISHAROSESHMonisha25.76%6.03%百分之十五12.41%12.41%罗斯什玛雅·因陀罗瓦丹·萨希尔对话框数量对话框数量解释次数发言者发言者33.57%INDRAVARDHAN百分之二十八点三九别人+v:mala2277获取更多论文∈Σ Σ ΣΣ∈1212 ∈输出概率模态感知融合(MAF)点态加法XX全球信息融合视听复合门复合门声学上下文感知自关注视觉上下文感知自关注视听Context Context线性线性关线性线性查询值线性TransformerTransformer声学输入BART编码器输出视觉输入展开对话讽刺解说图3:MAF-TAVB的模型架构。建议的多模态融合块捕获视听线索使用多模态上下文感知注意力(MCA2),进一步融合与文本表示使用全局信息融合(GIF)块。在文本输入中,讽刺性对话与音视频线索相结合,前者在文本表征中恰当地引入了多模态信息,而后者则融合了融入了音视频信息的文本表 征 。 该 适 配 器 模 块 可 以 容 易 地 结 合 在BART/mBART的多个层处,以促进各种水平的多模式交互。图3展示了我们的模型架构。4.1多模态上下文感知注意传统的基于点积的跨模态注意机制导致文本表征与其他模态的直接交互。在这里,文本表示充当对多模态表示的查询,多模态表示充当键和值。由于每种模态都来自不同的其中,WQ、WK和WVRd×d是可学习的参数。这里,n表示文本的最大序列长度,d表示GPLM生成的向量的维数。QKV =H WQ WK WV(1)令CRn×dc表示从音频或视觉表示获得的向量。如Yang等人所述,我们生成了多模态信息通知的键和值向量K和V。 (2019年)。为了决定从多模态源中整合多少信息以及从文本模态中保留多少信息,我们学习矩阵λ∈Rn×1(等式3)。注意,Uk和Uv∈Rdc×d是可学习的矩阵。<$K< $$>= ( 1−<$λk<$$> ) <$K<$$>+<$λk<$$>(C<$Uk<$)(二更)嵌入子空间,多模态向量的直接融合信息可能无法保留最大上下文λv V λv Uv信息,并且还可能在最终表示中泄漏大量噪声 。 因 此 , 根 据 Yang 等 人 的 发 现 ,(2019),我们通过上下文感知注意力提出多模态融合。我们首先生成多模态信息条件密钥我们没有将λk和λv作为超参数,而是让模型使用方程3中计算的门控机制来决定它们的值。矩阵Wk、Wk、Wv和WvRd×1与模型一起训练。和值向量,然后执行传统的规模化的点产品关注。我们详细阐述了λk=σ(KUk(三)过程在下面。λvVWv1Uv Wv2给定GPLM在特定层生成的中间表示H,我们分别计算查询、键和值向量Q、K和V ∈ Rn× d,如等式1所示,最后,多模态信息注入向量K和V的使用来计算传统的缩放点产品的注意力。对于我们的情况,我们有两种方式使用Softmax线性音频输入添加规范添加规范模态感知模糊神经网络融合视频输入添加规范添加规范FNN多头自注意添加规范添加规范L x多头自注意L x掩蔽的多头自我注意位置~+编码位置~+编码+v:mala2277获取更多论文⊕∈∈在上下文感知注意机制中,我们分别获得了注入了声学信息和视觉信息的向量HA和HV(参见图11)。等式4和5)。QKT实 例 的 框 架 。 然 后 将 这 些 特 征 馈 送 到Transformer编码器(Vaswani et al. ,2017)进行进一步处理。视频:我们使用预先训练的动作识别Ha=Softmax(软)(4)第一章DK模型,ResNext-101(Hara et al. ,2018),在Kinetics数据集上训练(Kay et al. (2017)可以Q KT识别101种不同的行为。我们用一个框架Hv=Softmax(软最大值)(5)第五章DK率1 .一、5的决议案,720 像素,还有一个胜利-4.2全球信息融合为了结合来自声学和视觉模态的信息我们提出了两个门,即声学门(ga)和视觉门(gv)来控制每个模态传输的信息它们是:ga=[H<$Ha]Wa+ba(6)gv=[H<$Hv]Wv+bv(7)这里,Wa,WvR2d×d和ba,bvRd×1是可训练的参数,并且表示级联。最终的多模态信息融合表示H*由等式8给出。H=H+gaHa+gvHv(8)这个矢量H_∞被插入到GPLM中以供进一步处理。5实验、结果和分析在这一部分中,我们说明了我们的特征提取策略,比较系统,其次是结果及其分析。对于生成的解释的定量分析,我们使用生成任务的标准度量-ROUGE-1/2/L(Lin,2004),BLEU-1/2/3/4(Papineni et al. ,2002)和METEOR(Denkowski和Lavie,2014)。为了捕捉语义相 似 性 , 我 们 使 用 BERTScore的 多 语 言 版 本(Zhang et al. ,2019)。5.1特征提取音频:使用openSMILE python库3获得每个实例的声学表示。我们使用25ms的窗口大小和10ms的窗口移位来获得非重叠帧。此外,我们 采 用 eGeMAPS模 型 ( Eyben et al. , 2016年),并提取154维函数特征,如梅尔频率倒谱系数(MFCC)和响度为每个3https://audeering.github.io/opensmile-python/+v:mala2277获取更多论文DOW长度为16,以提取2048维视觉特征。与音频特征提取类似我 们 采 用 Transformer 编 码 器 ( Vaswani 等人,,2017)以捕获表示中的顺序对话上下文。5.2比较系统为了获得最佳的文本表示的对话,我们实验与各种序列到序列(seq2seq)架构。RNN:我们 使用OpenNMT4 实现RNN seq-to-seq架构。Transformer(Vaswani et al. ,2017):标准的Transformer编码器和解码器用于在这种情况下生成解释指针生成器网络(参见etal. ,2017年):一种seq-to-seq架构,允许生成新单词以及从输入文本中复制单词以生成准 确 的 摘要 。 BART( Lewis et al. , 2020年):它是一个去噪自动编码器模型,具有标准机器翻译架构,具有双向编码器和自回归左到右解码器。我们使用它的基础版本。mBART ( Liu et al. , 2020 年 ) : 遵 循 与BART相同的架构和目标,mBART在不同语言的大规模单语人群中进行培训5。5.3结果基于文本如表2所示,BART在文本模态的所有 指 标 中 表 现 最 佳 , 与 次 佳 基 线 相 比 ,METEOR 和 ROUGE 评 分 提 高 了 近 2-3%PGN、RNN和Transformers表现出可接受的性能,考虑到它们是从头开始训练的然而,令人惊讶的是,mBART的表现并不比BART好,因为它是在多语言数据上训练的。我们在附录A.1中对此进行了详细阐述。5https://huggingface.co/facebook/https://github.com/OpenNMT/OpenNMT-pymbart-large-50-many-to-many-MMT+v:mala2277获取更多论文⊕⊕⊕⊕模式模型R1R2RLB1B2B3B4MBS文本RNN29.227.8527.5922.068.224.762.8818.4573.24变压器29.176.3527.9717.795.632.610.8815.6572.21PGN23.374.8317.4617.326.681.580.5223.5471.90捷运系统33.6611.0231.5022.9210.566.073.3921.0373.83巴特36.8811.9133.4927.4412.235.962.8926.6576.03多模态MAF-TAM39.0215.9036.8331.2616.9411.547.7229.0577.06MAF-TVM39.4716.7837.3832.4417.9112.027.3629.7477.47MAF-TAB38.2114.5335.9730.5815.369.635.9627.7177.08MAF-TVB37.4815.3835.6430.2816.8910.336.5528.2476.95模型R1R2RLB1B2B3B4MBSMAF-TAVM38.5214.1336.6030.5015.209.785.7427.4276.70- MCA 2 + CONCAT 137.5614.8534.9030.1615.7610.126.8228.5976.59- MAF + CONCAT 217.221.7014.1213.112.110.000.009.3466.64- MCA2 + DPA36.4313.0433.7528.7314.028.004.8925.6075.58- GIF36.3713.8534.9228.4914.349.006.1625.7576.86MAF-TAVB39.6917.1037.3733.2018.6912.378.5830.4077.67- MCA 2 + CONCAT 136.8813.2134.3929.6314.568.434.8426.1576.08- MAF + CONCAT 221.112.3119.6812.442.440.730.319.5169.54- MCA2 + DPA38.8414.7636.9630.2315.959.885.8328.0477.20- GIF39.4514.8537.1831.8515.979.625.4728.8777.54表2:实验结果。(简称:R1/2/L:ROUGE 1/2/L;B1/2/3/4:BLEU 1/2/3/4; M:METEOR;BS:BERT评分; PGN:指针生成器网络)。多模态:心理学和语言学文献表明,存在不同的平行语言线索,有助于理解讽刺和幽默(Attardo et al. ,2003;Tabacaru和Lem-mens,2014)。因此,我们使用MAF模块逐渐合并听 觉 和 视 觉 模 态 , 并 分 别 获 得 BART 和mBART的MAF-TAVB和MAF-TAVM。我们观察到,包含声学信号导致ROUGE、BLEU和METEOR评分显著增加2-3%BERTScore的上升也表明,多模态变量产生了更多的一致性解释。由于讽刺语调,如模仿,单调,平坦的轮廓 , 音 高 的 极 端 , 长 停 顿 和 夸 张 的 音 高(Rock-well,2007)形成了sar-casm理解的重要组成部分,我们怀疑我们的模型,在某种程度上,能够发现这些标记并识别它们背后的意图讽刺。我们注意到,视觉信息也有助于我们的事业。对于MAF-TVB和MAF-TVM观察到显著的性能增益,因为所有指标都显示出约3-4%的上升。虽然MAF-TAB在R1、RL和B1方面的性能略优于MAF-TVB,但我们看到MAF-TVB在其余指标方面的性能更好。通常情况下,讽刺是通过手势线索,如提出的眉毛,板脸,或眼睛滚动(阿塔多等。,2003)。此外,当讽刺是通过嘲笑某人的长相或外表来传达时因此,我们可以说,在某种程度上,我们的模型能够捕捉到这些细微差别的非语言线索,并很好地利用它们来规范对话中的讽刺综上所述,我们推测,无论是独立的还是一起的,视听信号都为理解讽刺带来了重要的信息。表 3 : MAF-TAVM 和 MAF-TAVB 的 消 融 结 果(DPA:Dot Product Attention)。5.4消融研究表3报告了消融研究。CONCAT 1表示我们执行双峰连接((T A),(T V))而不是MCA 2机制的情况,随后是GIF模块,而CONCAT 2表示声学、视觉和文本表示的简单三峰连接(TA V),随后是用于维度降低的线性层.与MCA2相比,CONCAT 2报告了低于平均水平的性能,MAF-TAVB和MAF-TAVM的显著下降超过14%。这突出了需要有灵巧的制作多式联运融合机制。另一方面,CONCAT1提供良好的性能,与DPA和MAF-TAVB竞争。我们推测,将音频和视频模态分开处理,然后将它们合并以保留互补和差异特征,从而获得这种性能增益。我们提出的 MAF优于DPA,收益为1-3%。这强调了我们独特的多模态融合策略能够适当地捕获由音频和视频信号提供用简单的加法替换GIF模块,我们观察到几乎所有指标的性能都明显下降了约2-3%。这是对GIF模块的测试,而不是简单的加法。我们还尝试在BART编码器的当在架构的第六层之前进行融合时,获得了最佳性能(附录A.2)。5.5结果分析我们评估生成的解释的基础上,他们的能力,正确地识别源和目标的讽刺评论在对话中。我们报告了mBART、BART、MAF-TAB、MAF-TVB和MAF-TAVB的此类结果。BART在源和目标识别方面的性能优于mBART。我们观察到,包含音频(↑10%)和视频(↑8%)信息的dras-+v:mala2277获取更多论文Indravardhan:你是Monisha tumhaare吗?听着,莫妮莎,你有长笛或类似的东西吗?海丝?Monisha aapne ghar pe dustbin mussians se rakhti hainto snake charmer waali been kaha se rakhegi?那里会是什么样子?莫妮莎家里连垃圾桶都没有,怎么会有耍蛇人SAHIL : Ab tumne ghar ki itni saaf safai ki hai andsecondary我们Karan Verma ke liye意大利面,千层面,焦糖奶油香蕉。现在你已经打扫了这么多的房子,其次是做意大利面,千层面,焦糖奶油冻的卡兰维尔马。核桃布朗尼饼。还有核桃布朗尼核桃布朗尼,你要什么?你是说可食用的核桃布朗尼吗Monisha:Ladki ka naam Ajanta Kyon Rakha? 他们为什么叫阿旃陀的女孩INDRAVARDHAN : Kyunki uski maa ajanta caves dekhrahi thi Jab vo Paida Hui haha.因为她出生的时候她妈妈一定在看阿旃陀石窟。巴特玛雅·莫尼莎和你的妻子都没有照片。玛雅BARTMonisha sahil ko walnut brownie ki matlab wokhane wali. 核桃布朗尼到莫妮莎Sahil意味着她吃BARTIndravardhan Monisha ko taunt majanhai ki uskimaa ajanta caves dekh rahi thi Jab vo Paida HuiIndravardhan嘲弄Monisha,因为她的母亲在她出生时正在观看Ajanta Caves。MAF-TAVB摩耶暗示莫尼莎可以把我的东西拿出来。 玛雅暗示莫妮莎在家里做不到在外面做。MAF-TAVBSahil monisha ki cooking ka mazak udata hai Sahilmakes fun of Monisha 's cooking.MAF-TAVBIndravadan ajanta ke naam ka mazak udata haiIndravardhan取笑Ajanta(a) 不连贯的解释(b) 与对话(c) 与讽刺表4:测试集样本对话的实际和生成解释。最后一句话是每个对话的讽刺话语。捷运系统 巴特MAF-TABMAF-TVBMAF-TAVB源目标75.0045.5377.2352.6787.9443.7585.7143.7591.0746.42表5:基于BART的系统生成的解释的源-目标准确度提高了模型的源识别这两种非语言暗示的结合导致了超过13%的巨大改善。因此,我们推断,多模态融合使该模型能够在公司的视听特性独特的每个扬声器,从而提高了源识别。然而,目标识别的性能我们鼓励今后朝着这一方向开展工作。定性分析我们分析了最佳性能模型MAF-TAVB及其相应的单峰模型BART,并在表4中给出了一些示例。在表4a中,我们显示了一个实例,其中BART以及MAF-TAVB生成的解释既不连贯也不符合对话上下文,并且包含很大的改进范围。另一方面,表4 b示出了一个实例,其中由MAF-TAVB生成的对话坚持对话的主题,而不像由其单峰对应物生成的对话。表4c描述了一个对话,其中MAF-TAVB我们在附录A.3中进一步剖析了基于不同模态的模型。人的评价。由于拟议的SED任务是一个生成性的任务,它是必要的人-定期检查生成的结果。因此,我们在25个评估者的帮助下对来自我们测试集的30个实例的样本进行了人工评估6。我们要求评估者对生成的解释进行判断,给出讽刺对话的文字记录以及一个带有音频的小视频剪辑。每个评估者必须观看视频剪辑,然后根据以下因素对生成的解释进行评分,评分范围为0至5:• 连贯性:衡量解释的组织和结构如何• 与对话相关衡量生成的解释是否• 与讽刺有关:衡量解释是否在谈论与对话中存在的讽刺有关的事情。表6显示了上述每种类别的平均评分的人类评价分析我们的研究表明,MAF-TAVB产生更多的句法连贯的解释相比,其语篇和双峰对-terparts。此外,MAF-TAV B和MAF-TV B生成的解释更侧重于对话的主题,因为我们看到增加了0。55分与对话有关。因此,我们重新建立,这些模型能够incor- porate信息,是明确缺乏的对话,如场景描述,面部fea,6名评估员是语言学和NLP方面的专家,年龄在20-28岁之间。70表示性能差,而5表示性能完美。GoldIndravadan Ajanta ke naam ka mazak udata haiIndravardhan取笑Ajanta金萨希尔莫尼莎基烹饪卡mazak udata海萨希尔使莫尼莎的烹饪乐趣。黄金玛雅Monisha ko tana marti hai safai ka dhyan narakhnekeliyeMayatuntsMonishafornotkeeping a check of cleaniness+v:mala2277获取更多论文一致性与对话与讽刺捷运系统2.572.662.15巴特2.732.562.18MAF-TAB2.952.912.51MAF-TVB3.013.112.66MAF-TAVB3.033.112.77表6:人体评价统计-比较不同模型。多模式模型是基于BART的。和人物的长相此外,我们建立了MAF-TAVB能够更好地把握讽刺及其规范化,因为它显示了0。在与讽刺的类别中,比BART提高了6分最后,由于表6中的指标都没有表现出高分(3.5+),我们认为在发电性能和人类评估方面仍有很大的改进空间。研究界可以通过我们提出的数据集WITS进一步探索这项任务。6结论在这项工作中,我们提出了一个新的任务,在对话中的讽刺解释(SED),其目的是产生一个自然的语言解释讽刺会话。我们策划了WITS,这是一个新颖的多模态、多方、代码混合的对话数据集,以支持SED任务。我们尝试了多文本和多模态基线,这对手头的任务产生了有希望的结果此外,我们设计了一个独特的多模态融合方案,通过多模态上下文感知注意力(MCA2)和全局信息融合(GIF)机制合并文本,声学和视觉特征。正如假设的那样,结果表明,声学和视觉特征支持我们的任务,从而产生更好的解释。我们展示了从不同模型获得的解释的广泛的定性分析我们还进行了全面的人类评估,以比较模型的性能与人类的理解。虽然增强与建议的融合策略的模型表现优于其他人,人的评价建议仍有改进的空间,可以在未来的研究中进一步探索。确认作 者 要 感 谢 Ramanujan 奖 学 金 ( SERB , 印度 ) , IIIT-Delhi 的 In-fosys 人 工 智 能 中 心(CAI)和印度科学技术部NM- ICPS计划下成立的ihub- Anubhuti-iiitd基金会引用Ibrahim Abu Farha和Walid Magdy。2020年。从阿拉伯语情感分析到讽刺检测:Ar-Sarcasm数据集。在Proceedings of the 4th Work-shop on Open-Source Arabic Corpora and Processing Tools ,withaSharedTaskonOffensiveLanguageDetection,第32-39页,法国马赛。欧洲语言资源协会.Salvatore Attardo,Jodi Punterhold,Jenfery Hay,and Isabella Poggi. 2003. 反语和讽刺的多模态标记。幽默:《国际幽默研究杂志》,16(2)。Manjot Bedi,Shivani Kumar,Md Shad Akhtar,and Tanmoy Chakraborty. 2021. 语码混合会话的多 模 态 讽 刺 语 检 测 与 幽 默 分 类 。 IEEETransactions on Affective Computing,第1桑托什·库马尔·巴蒂,科拉·萨蒂亚·巴布,还有圣杰·库马尔·耶拿. 2017. 利用在线新闻检测印地语推文中的讽刺。在模式识别和机器智能,第679-686页,Cham。Springer International Publishing.Yitao Cai,Huiyu Cai,and Xiaojun Wan. 2019. 基于 分 层 融 合 模 型 多 模 态 讽 刺 检 测 。 在Proceedings of the 57th Annual Meeting of theAssociation for Computational Languistics,pages2506-2515,Florence,Italy中。计算语言学协会。Santiago Castro , Devamanyu Hazarika , VerónicaPérez-Rosas , RogerZimmermann , RadaMihalcea, andSoujanyaJ.2019.Towardsmultimodal sarcasmdetection ( an _Obviously_perfect paper).在计算语言学协会第57届年会上,第4619- 4629页计算语言学协会Tuhin Chakrabarty , Debanjan Ghosh , SmarandaMure- san,和Nanyun Peng. 2020. R-3:利用常识知识。在计算语言学协会第58届年会的会议记录中,第7976计算语言学协会Dushyant Singh Chauhan , Dhanush S R , AsifEkbal,and Pushpak Bhattacharyya. 2020. 感情和情绪有助于讽刺?用于多模态讽刺、情感和情绪分析的多任务学习框架。在计算语言学协会第58届年会的会议记录中,第4
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- NIST REFPROP问题反馈与解决方案存储库
- 掌握LeetCode习题的系统开源答案
- ctop:实现汉字按首字母拼音分类排序的PHP工具
- 微信小程序课程学习——投资融资类产品说明
- Matlab犯罪模拟器开发:探索《当蛮力失败》犯罪惩罚模型
- Java网上招聘系统实战项目源码及部署教程
- OneSky APIPHP5库:PHP5.1及以上版本的API集成
- 实时监控MySQL导入进度的bash脚本技巧
- 使用MATLAB开发交流电压脉冲生成控制系统
- ESP32安全OTA更新:原生API与WebSocket加密传输
- Sonic-Sharp: 基于《刺猬索尼克》的开源C#游戏引擎
- Java文章发布系统源码及部署教程
- CQUPT Python课程代码资源完整分享
- 易语言实现获取目录尺寸的Scripting.FileSystemObject对象方法
- Excel宾果卡生成器:自定义和打印多张卡片
- 使用HALCON实现图像二维码自动读取与解码
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功