一个统一可视化对话Transformer的任务对比学习模型

26 浏览量更新于2023-10-26 收藏 1.55MB PDF 举报

对比学习

统一框架

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

18103UTC：一个具有任务间对比学习的统一可视化对话TransformerCheng Chen1，Zhenshan Tan1，Qingrong Cheng1，Xin Jiang2，Qun Liu2，Yudong Zhu2，XiaodongGu1*1复旦大学2华为诺亚{chengchen19，zstan19，qrcheng17，xdgu} @ fudan.edu.cn{{Jiang.Xin，Qun.Liu，zhuyudong3}@ huawei.com摘要Visual Dialog旨在根据对话历史和图像内容回答多轮交互式问题。现有的方法要么单独考虑答案排序和生成，要么通过两个单独的模型隐式地弱捕获两个任务之间的关系。在单一模型中联合学习排名和生成答案的通用框架的研究很少探索。在本文中，我们提出了一个基于对比学习的框架UTC，统一和促进视觉对话中的区分和生成任务与一个单一的模型。具体地，考虑到先前学习范例的固有限制，我们设计了两个任务间对比损失，即，语境对比损失和答案对比损失使区分任务和生成任务相互促进。这两种互补的对比损失利用对话上下文和目标答案作为锚点，从不同的角度提供表征学习信号。我们在VisDial v1.0数据集上评估了我们提出的UTC，其中我们的方法在判别和生成任务上都优于最先进的方法，并且在Recall@1上超过了先前最先进的生成方法2个绝对点。1. 介绍近年来，视觉和语言理解受到越来越多的关注。这个交叉领域中的许多相关任务已经针对不同的场景进行了设计和介绍，例如使用自然语言的矩定位[21，25]，图像字幕[6]，Vi-[4]和可视化对话框[14，17]。其中，Visual Dialog旨在与* 本研究是在朱玉东老师指导下完成的，作者顾晓东（xdgu@fudan.edu.cn）人类通过持续的通信来了解一个看不见的图像。一般而言，在视觉对话中存在两种类型的设置：区分性解码器，其在区分性设置中对预定义的答案候选进行排名;以及生成性解码器，其在生成性设置中合成目标答案。与视觉问答相比，视觉对话不仅要求主体能够参与到关于图像的问题中，而且要求主体能够充分利用先前问题和回答中的线索因此，候选答案、问题、历史记录和图像之间的交互是产生正确答案的关键。如图1（a）所示，当前大多数视觉区分模型[19，22]都专注于设计各种注意力机制，以在区分性设置中捕获此类交互，同时单独训练答案排名和生成任务。最近，几个相关的作品[8，16]通过同时使用两个解码器训练整个网络来弱捕获生成和区分任务之间的关系。尽管这些模型取得了令人瞩目的成绩，但如何设计一个统一的模型来促进答案排序和生成任务的训练仍然是两个挑战。一方面，这种局限性源于两种任务的内在不同的特点。如图1（a和b）所示，区别性设置可以对通过回答能力和多模态上下文传递的不受限制的消息进行资本化。而在生成任务中，模型需要对答案进行逐词自回归解码，这使得从答案到多模态上下文的信息传递受到限制。这就给我们的统一模型提出了第一个挑战：如何将判别任务中候选答案的丰富语义线索充分转移到答案生成中。另一方面，区别性设置关注对话上下文和答案的对齐，并且大多数18104图1.问题（Q）、图像（V）、对话历史（H）、候选答案（A）和生成的答案（A g）之间的交互流的图示。现行的方法是分两步进行。对于给定的对话上下文，首先从对应的答案集合中随机选择答案候选。然后将每个答案候选与对话上下文进行匹配，以确定它是否是目标答案。该流水线仅考虑一个给定对话上下文与其对应的答案候选者之间的关系。它单独对待每一轮对话，忽略了区分对话上下文表示。这就提出了第二个挑战：如何捕获对话中其他回合和其他对话中所有回合之间的对话上下文关系。此外，如前所述，对话上下文在区别性设置中用回答信息增强，而在生成性设置中独立于回答信息由于先前的方法单独处理每个任务，因此在生成设置的训练期间难以利用增强的对话上下文表示在这项工作中，我们制定了一个统一的框架中的所有实体的相互作用。如图1（c）所示，代理排名并生成答案，并通过两种设置中每个实体的交互产生强大的表示。受最近的视觉和语言预训练的启发，跨模态预训练的Transformer被用作编码器骨干。该方法不采用现有技术中的两种解码器，而是直接利用骨干编码器产生的多模态特征对答案进行排序，并在编码器上构建基于变换器的解码器来生成答案。为了解决第一个挑战，我们采用目标答案作为锚点，以利用来自区分性设置的答案特征中的线索来减轻生成任务的训练。具体地说，设计了一种对比损失，以保持目标答案特征与生成答案特征的相似性它也导致了一个优雅的看法，如何弥合之间的差异的歧视性和生成设置，以及如何有效地利用答案候选人的线索。对于第二个挑战，由于统一模型需要分别基于区分和生成设置的对话上下文对来联合排序和合成目标答案，因此我们显式地提升了该模型通过对比学习将成对的对话语境表征与其他否定的相似对话区分开来此外，对比学习方案还使得生成任务能够利用来自区分任务的增强的对话上下文我们的贡献如下：• 我们介绍了一个统一的模型，视觉对话，它处理所有不同的实体之间的相互作用，在一个单一的模型中的歧视性和生成性的任务。• 目标答案和对话语境被用作锚点，以帮助促进区分和生成任务的训练。与以往的方法相比，两个任务间的对比损失使得两个任务的所有答案和对话上下文对之间的信息能够双向流动，这显著地简化了两个任务的训练。• 我们在VisDial基准上进行了大量的实验，以分析我们的模型在不同训练方面对这两个任务的表现。定性结果表明，我们的模型在两个任务上都获得了可靠的改进，任务间的对比学习。2. 相关工作视觉语言任务。有各种视觉语言任务，如视觉问题提示[2]，图像字幕[23]和视觉对话[14，17]。特别是对于VQA，提出采用注意力机制融合图像和文本特征.然后，基于融合的特征，智能体回答问题。最近，预训练Transformer及其扩展已成为多模态理解的流行策略。具体来说，ViLBERT [13]和LXMERT[20]分别对图像和文本应用双流变换器。UNITER [5]和Oscar [12]直接将视觉特征和文本嵌入到统一的架构中这些视觉语言模型首先在外部跨模态数据集上进行预训练，然后在目标任务上进行微调，例如视觉对话和图像字幕。可视对话框。大多数流行的方法采用编码器-解码器架构的可视化对话。编码器的目的是将图像和文本编码为融合特征，两个独立的解码器分别用于排序和生成。其中，提出了各种基于注意力机制的方法[8，10DAN [10]介绍了一种双重注意机制，用于推理对话历史中的关键类似地，FGA [19]将图形注意力引入到实体之间的模型交互中。此外，我们认为，18105----D1DTG1GTH不不不--图2.我们提出的UTC的模型架构和对比学习范式的歧视性和生成设置。对于统一的对比学习，区别性上下文隐藏状态表示为Ch={L d，h C，.， h C}，隐藏的判别式答案状态表示A h，生成上下文隐藏状态表示C g={L g，h C，...，h C}，生成答案隐藏状态表示A g。赋予对话模型以更强的语法能力也引起了人们的关注。CorefNMN [11]提出通过对过去的对话交互与先前的引用进行重新推理来解决视觉共指问题。CoAtt [24]利用对抗性示例来生成更像人类的响应。由于预训练变换器的出色性能，具有各种结构的基于变换器的预训练模型[16，22]被引入可视化对话框。例如，VD-BERT [22]利用预先训练的BERT语言模型进行可视对话任务。LTMI [16]采用轻量级的Transformer来处理许多实用程序之间的所有交互。如上所述，这些方法侧重于为答案排序设计注意机制，很少将两个任务联系在一个统一的框架中。与以往的研究不同，UTC采用统一的框架来学习视觉-语言交互，将区分任务和生成任务结合起来考虑，深刻地刻画了两个任务之间的关系，使每个任务相互促进。3. 方法如图2所示，我们的模型由三个主要组件组成：一个跨模态编码器骨干，一个自回归文本解码器和一个统一的对比学习头。这些组件的详细信息将在以下章节中给出。3.1. 问题公式化我们首先正式描述视觉对话问题。给定一个问题Qt，该问题基于第t时的图像Iturn ，以及先前的对话历史被公式化为 Ht=Cap;（Q1;A1），.，（Qt-1;At-1）（其中Cap表示图像的标题句），我们的任务旨在在生成设置中生成所需答案，并通过对100个候选答案A1，A2，.的列表进行排序来预测目标答案At，一个100的区别设置。为了简单起见，我们将对话上下文C定义为对话历史和当前问题，其公式化为C=Cap;（Q1;A1），.，（Qt-1;At-1），Qt，则任务是识别候选答案在区分性设置中是否正确，并在以C和I为条件的生成性设置中合成所需答案。3.2. UTC架构3.2.1区别性设置在以前的工作[15]之后，ViLBERT [13]被用作交叉模态提取器骨干网络。如图 2 所示，使用预训练的ViLBERT [13]，对话上下文的上下文化表示，答案和图像可以双向相互关注，这便于在区分设置中进行答案预测。对于给定的对话D，对话上下文C和答案候选At将被连接为文本序列：D={[CLS]Cap[SEP] Q1 [SEP] A1，...，Qt[SEP]At}。（一）我们首先从Faster R-CNN中提取图像区域序列，然后通过序列的均值池化来初始化[IMG]。根据以前的工作[8，16]，我们首先提取图像对象边界框特征序列I={O1，.，从更快的R-CNN [18]，然后初始化18106HD1DND1DNHH------HCD1DTG1GTHCCd1dt联系我们{Lg，h，...，h}。特殊的可学习令牌[IMG]通过序列的均值池。每个对象特征Oi是2048-d感兴趣区域（RoI）特征，n是检测到的对象的数量（在我们的设置中固定为36）。预测.该方法可以被公式化为：Ag=解码器（Dg，Ig），⑷其中，Ag是生成的答案，而跨模态然后，我们将两个序列输入ViLBERT，并获得文本隐藏状态Dh和视觉隐藏状态Ih：Dh，Ih=ViLBERT（D，I），（2）隐藏状态D h={L d，h C，...，h C，A h}（这里L d，解码器是通过堆叠K变换为基础的解码器层。在推理过程中，一个[MASK]标记被递归地附加到序列的末尾，以触发一个单词的预测，然后用生成的标记替换它，{h C，.， h C}和Ad1dth是隐藏的状态[[香港]至-下一个token预测当发出[SEP]令牌时，解码过程终止，ken、对话上下文和当前答案）。并且I h=I d，h I，...，h I（这里I d和h I，...，h I分别是[IMG]令牌和图像对象序列的隐藏状态。）是深度交互的跨模态特征，将用于训练两个任务。如前所述，Visual Di-Nest中的判别任务是识别附加的答案候选是否正确，这自然与ViLBERT的预训练任务Next Sentence Prediction（NSP）相具体来说，我们的sce- nario中的下一个句子预测任务被训练来预测文本输入是否描述ViLBERT中的图像在我们的可视化对话任务中，每次我们随机抽取一个候选答案并将其附加到对话上下文中，并训练模型通过NSP损失将目标答案与其他候选答案区分开来。训练NSP损失以预测NSP分数为1，目标答案At被附加，并且0当负的和-对数似然分数将用于对答案候选者进行排名。通过共享跨模态提取器主干，我们的模型UTC支持端到端联合学习两个任务。3.3. 统一对比学习为了模拟区分性任务和生成性任务之间的交叉影响和交互作用，我们通过对比学习使任务特定表征彼此交互。如前所述，我们的模型可以同时产生对话隐藏状态DH和Dg，这分别源于判别设置和生成设置。我们首先在区分设置中分离出对话隐藏状态Dh 作为 Ch和Ah，这里C h={L d，h C，.，h C}是对话上下文swerAn被附加。在推理过程中，候选人通过NSP分数。3.2.2生成设置由于模型还需要自回归生成答案，因此我们还准备了另一个带有答案掩码的文本输入，以使答案不可见。值得注意的是，仅在以下情况下执行面罩操作：隐藏状态对应到对话上下文 C=[CLS]C[SEP]Q1[SEP]A1，.，Q t和A h是对应于附加答案A = A t的答案候选隐藏状态。注意，当位置嵌入被添加到序列时，Ch和Ah可以直接从文本隐藏状态Dh中划分出来。由于在生成设置中掩蔽了答案标记，因此对话隐藏状态Dg仅包含对话上下文信息。因此，我们仅提取对话上下文隐藏状态C g={L g，h C，...， h C}训练，并且在推理过程中完全删除答案从Dg，并且答案隐藏状态Ag从因此，在h h期间，答案信息对模型不可见推论文本输入被公式化为：DG =[CLS]Cap[SEP]Q1[SEP]A1，.，Qt[SEP][MASK]，（三）其中，答案记号At被完全掩蔽。这种屏蔽策略使答案信息对编码器是盲目的，只有对话上下文被用来自回归合成目标答案。为了支持答案生成，我们还将文本序列Dg和图像I馈送到ViLBERT主干。产生的文本隐藏状态表示为Dg=C Cg1gtG g解码器的输出鉴于两个任务中对话上下文和答案的隐藏状态，我们接下来将介绍如何利用这些功能进行统一学习。3.3.1答案对比学习为了鼓励解码器与所有丰富的答案信息进行显式交互并同时优化两个任务，我们利用目标答案作为锚点并定义对比损失以在两个任务之间传递有用的互具体来说，当答案候选人都隐藏状态A和生成的答案隐藏状态Ag是给定隐藏状态Dh和Ih，我们还可以使用一个跨模态解码器，它可以学习如何逐字地重建被屏蔽的答案。具体地说，我们首先将Dg和Ig投影到一个公共空间，作为Dg和Ig，然后每个产生的，我们首先在判别设置中将一批内的答案表示分为两部分。更特别地，对于给定的一轮对话上下文，目标hh ccG+在Dc和Ig中的标记上形成交叉注意，以用于下一个单词swer表示Ah被视为查询特征。18107--H联系我们H--i=0时H嗨分别为。因此，一个给定的H1HBGb−1exp（Cs+·Cs−/τ）HGHGkh，Lac=−logΩ，（5）--·G在我们早期的实验中，否定样本仅从对话的不同轮中选择，这显示出次优的结果。为了平衡否定答案样本，我们选择n个iv e样本A-H=A-h1，.，A-hb（这里b是批量大小），其来自两个部分：1）除了目标答案之外的对应答案候选集合; 2）其它对话中的所有答案选项，包括谈论当前图像的所有其它回合以及与不同图像相关联的其它无关对话。由于解码器的目的是生成目标答案，因此生成的答案隐藏状态Ag需要在语义上其中τ是温度参数，点积表示余弦相似性得分。3.4. 培养目标在UTC的训练过程中，我们使用了两个基于视觉的训练目标：掩蔽语言建模（MLM）和下一句预测（NSP）来监督跨模态提取器的主干ViLBERT。与BERT中的MLM类似，文本输入中有10%的令牌，视觉输入中15%的标记被随机屏蔽，并替换为特殊标记[MASK]。该模型接近A+。因此，我们利用生成的答案Ag作为积极的健康特征。注意，隐藏状态Agh A+和A−是具有不同序列的令牌级特征。需要根据周围的代币来恢复它们D\m和跨模态线索I\m：H H长度，我们首先平均池对应的令牌特征，并获得标记为As的令牌级特征，L mlm=−E（D，I）Tlog P（W m|D\m，I\m），（7）As+，和s−s− s−其中，Wm是掩码标记，T是训练标记，hAH=Ah1，.，一个hb。因此，答案对比损失被定义为：exp（As+·As/τ）b−1exp（As+·As−/τ）其中点积表示余弦相似性得分，τ是温度参数。3.3.2语境对比学习UTC可以以端到端的方式分别产生区分任务和生成任务的对话上下文状态Ch和Cg。需要从答案集中联合识别目标答案并基于C h={L d，h C，.，h C}和C g={Lg，h C，...，h C} re-集NSP损失旨在识别附加的答案候选是否正确，这是基于对文本和图像的共同理解来实现的：L nsp= −E（D，I）Tlog P（y|N（D，I）），（8）其中y0，1作为监督标签，N（）stec是二进制答案预测头，用于基于[CLS]令牌表示和[IMG]令牌表示的点积来预测概率对于生成设置，解码器需要根据所有对话上下文和输入图像来重建顺序的答案令牌损失定义为最大对数似然损失：d1dtg1gtL=−Elog P（A|D，I），（9）一轮对话应该在语义上彼此接近。在训练期间，我们鼓励来自一轮对话的对话上下文表示CH和CG在语义上更接近。此外，CH应该与其他轮和所有其他对话的上下文表示不同。对于一个给定的对话轮，在歧视性设置的对话上下文表示被视为查询功能C+。积极的关键特征表示为Cg，其来源于生成任务。在公共空间中，我们的目标是同时最小化C+和Cg之间的距离，同时最大化C +和Cg之间的距离。我们为我们的统一对比列车制定最终损失将方法设置为：Lutc=Lmlm+Lnsp+αLg+Lac+Lcc，（10）其中α = 0。05是加权参数。4. 实验4.1. 数据集我们在VisDial v1.0数据集上评估了建议的UTC方法它有123，287，2，064和8，000张图像，HC+−- -分别进行培训、验证和测试。每个图像h和负关键字特征集C h=C h1，...，C hb. Ch−来自一个批处理中的所有其他回合和其他对话与答案功能类似，我们的意思是，上下文令牌功能C+，Cg和C−，以获得核心-与一个标题句子和10个问答对相关联。对于每一轮问答对，给出100个答案候选验证分割和部分h h列车分割（2，000张图像）提供了密集的注释-响应双电平特性Cs+、Cs和Cs−={Cs−，.，Cs−}。hgh段（即，相关性分数）。因此，我们将上下文对比损失公式化为：exp（Cs+Cs/τ）Lcc=−logΩ，（6）i=0时H嗨（D，I）\A181084.2. 评估指标根据以前的工作[8，16，19]，排名指标，如召回@K（K=1，5，10），平均倒数排名（MRR）18109表1.VisDial v1.0数据集的val分割上的判别设置的性能比较前两个结果分别用粗体和下划线突出显示。其余表格采用相同的符号。表3.VisDial v1.0数据集测试分割的性能比较结果由测试服务器报告。* 表示对密集注释进行微调。方法R@1↑R@5↑ R@10↑ NDCG↑ MRR↑ 平均值↓方法R@1↑R@5↑R@10↑NDCG↑MRR↑Mean↓比利时法郎40.95 72.45 82.23 45.3155.42 5.95HCIAE48.94 80.5089.6657.7562.964.24ReDAN50.60 81.3990.2659.3264.214.05LTMI48.94 78.6587.8862.7262.324.86VDBERT54.02 83.9692.3363.2267.443.53UTC55. 48八十五38九十三2063岁2268岁583 .第三FGA 52.75 82.9291.0756.9066.203.80丹麦克朗49.63 79.7589.3557.5963.204.30协同增效89.9557.3262.204.17LTMI 50.2080.68 90.3559.0364.084.05VisDial-BERT53.85 84.68 九十三2563.8767.503.32VDBERT 51.6382.23 90.6859.9665.443.90表2.VisDial v1.0数据集val分割上生成设置的性能比较前1个结果以粗体突出显示。方法R@1↑R@5↑R@10↑NDCG↑MRR↑Mean↓MN38.01 57.49 64.08 56.9947.83 18.76CoAtt 40.09 59.37 65.92 59.2449.64 17.86HCIAE 39.72 58.23 64.73 59.7049.07 18.43第六十九章. 7163.5850.7414. 93ReDAN 40.27 59.93 66.7850.02 17.40协调世界时 42分56 62. 4069. 5163. 86 52.221567和平均秩。由于2018年VisDial挑战赛发布了每个答案选项相关度的密集注释4.3. 实现细节我们使用 ViLBERT BASE 作为主干，它有 12 层Transformer块，每个块具有768的隐藏状态大小和12个注意头。解码器由12层Transformer块组成，每个块的隐藏大小为1024，注意力头为16。为了进行公平的比较，主干ViLBERT使用在Visual Question Answer- ing数据集上预训练的权重进行初始化[3]，就像以前的作品一样。解码器是从头开始训练的。最大文本序列长度为256。我们在8个V100 GPU上训练UTC，批量大小为120，持续20个epoch。采用初始学习率为2 e-4的Adam优化器。采用带预热的线性衰减学习率方案训练模型。4.4. 与最新技术水平方法的我们将我们的方法与最近发表的 VisDial v0.9 和VisDial v1.0数据集上的方法进行了比较，包括LF[7]，MN [7]，MCA [1]，MN-Att（带注意力）[7]，CoAtt [24]，FGA [19]，RvA [17]，DAN [10]，ReDAN55.第55章. 七三八四。9393.08 六十四60 68. 703. 32UTC* 37.12 63.98 79.8874.3250.24 6.48[8] ， GNN [26] ， HCIAE [14] ， LTMI [16] ， VDBERT[22]，[15]和协同[9]。4.4.1VisDial v1.0 val我们首先将我们的模型与val v1.0分割的最先进判别设置和生成设置的结果分别示于表1和表2中。由于VisDial-BERT仅支持区分设置，VDBERT结果表明，UTC优于其他竞争者在各种情况下，在这两个任务在不同的标准。在所有情况下，UTC排名第一或第二。通过与其他相关方法的比较，得到了一些新的结论.首先，我们将我们的模型与预训练方法（即VDBERT和VisDial-BERT）进行比较，这些方法在区分设置上达到了最先进的水平。VisDial-BERT不仅在VQA数据集上进行了预训练，还在外部大型视觉语言数据集上进行了预训练，如Conceptual Captions。因为他们我们首先比较在VQA数据集上预训练的结果，以便在表1中进行公平比较。由于预训练强大的跨模态表示能力，基于预训练的transformer的方法在区分性设置上比传统方法表现得更好，但不如我们提出的UTC方法。此外，我们在VisDial-BERT上实现了我们的统一框架，因为它只支持区分，MN40.98 72.3083.3047.5055.495.92MN-Att 42.42 74.0084.3549.5856.905.59尼日利亚46.09 78.1488.0555.13 60.424.63科阿特48.86 80.4189.8357.72 62.914.21VisDial-BERT 53.4284.4192.6260.96 67.173.41RVA49.03 80.40 89.8355.5963.034.18GNN47.33 77.98 87.8352.8261.374.57VDBERT*33.15 61.58 77.1574岁5450.747.18MCA*20.67 56.67 72.1272.4737.688.89UTC52.25 83.55 92.2362.6566.273.4818110表4.VisDial数据集val v1.0分割的消融研究判别生成方法R@1R@5 R@10 NDCG↑MRR↑平均值↓R@1 R@5 R@10 NDCG↑MRR↑平均值↓UTC个人53.94 84.10 92.17 61.20 67.29UTC小学54.39 八十四点三十六 92.35 61.47 67.693.483.4441.39 59.85 66.33 61.04 50.61 17.7041.75 60.34 66.76 61.72 50.92 17.35UTCw/o−Lcc54.55 84.95 92.95 62.02 67.973.3542.5262.0169.14 63.15 52.02UTCw/o−Lac55.2485.0593.16 62.91 68.483.2942.09 61.66 68.28 62.65 51.67 15.88协调世界时55。48 85. 3893. 2063.2268583 .第三章。28四十二56 62. 4069. 5163. 86 52. 221567主动任务然后，我们进一步训练他们的最佳微调模型与我们的对比损失，并与它在测试分裂。表 3（UTCvqa+cc）中的结果表明，我们的对比学习范式可以进一步获得改进，这证明了我们的学习范式的有效性此外，我们比较UTC与基于注意力的方法LTMI，它实现了国家的最先进的生成设置。它利用一个基于transformer的结构来处理可视化对话框中的所有交互，同时弱捕捉两个任务之间的关系。从表2中，我们可以看到，我们的UTC在生成设置上的Recall@1方面优于LTMI超过2个点它进一步验证了UTC可以同时准确地预测和生成答案。4.4.2VisDial v1.0测试接下来，我们报告测试标准v1.0分割的比较结果。结果示于表3中。由于测试v1.0分裂的真实答案和密集注释不是公开的，我们将预测结果上传到任务组织者结果表明，我们的单模型UTC显著优于其他单模型方法在各种指标。与VisDial v1.0数据集上当前最先进的方法VD-BERT相比，我们的模型仅在VQA上进行预训练，将NDCG从59.96提高到62.65。此外，我们遵循以前的工作[16，22]，以进一步微调可用的密集注释上的UTC，其中与软标签（即相关性得分）的交叉熵损失最小化。对于每一轮对话，当计算两个对比损失时，将相关性分数高于零的答案和对话上下文对从负关键字集合中移除在这种情况下，我们的模型取得了优于其他单模型方法的结果。类似于复杂的工作[16，22]，NDCG和其他指标测量的准确度值可以观察到，对密集注释进行微调显著增加了NDCG，同时损害了其他指标。图3.度量改进的图示，其中蓝色和绿色直方图分别表示判别和生成4.5. 消融研究基线。在本节中，我们进行消融研究，以评估不同训练设置的效果。结果示于表 4 中。第一行中的UTCindividual第二行中的UTCelementary代表通过简单地最小化两个任务损失的总和而不进行对比学习来训练两个任务。比较UTC个体和UTC基本，可以观察到生成任务的训练带来了排名任务的改进。UTC的主要特点是统一的对比损失，它结合了两个任务的所有对话上下文和答案特征，以学习更多有价值的线索。合并两个损失有帮助吗？为了单独研究对比损失的影响，我们首先去除上下文对比损失，并且仅用答案对比损失来训练我们的UTC。结果报告在第三行UTCw/o−Lcc 中。与具有对比损失的基本模型（UTCelementary）相比，UTCw/o−Lcc在判别和生成任务中的各种指标上都获得了更好的性能。为简单起见，我们在图3中说明了NDCG和R@1相对于UTC个体的绝对改进值。从图3和表4中可以看出，在生成性设置中的性能提高比在只有答案对比损失的区分性设置中的性能提高更显著下-18111图4.对比学习对UTC中两个任务的影响，第一列是区分性设置产生的正确注意权重，其他三列分别是基本模型，区分性设置和生成性设置对应的注意权重。说谎的原因是区分任务密集地对候选答案进行采样以计算NSP损失，这与答案对比学习具有类似的影响然而，在没有对比学习的情况下，生成任务无法看到答案信息.因此，UTC的性能显着增加生成任务与答案对比学习。我们进一步比较了上下文对比学习的有效性，结果显示在第四行UTCw/o−Lac中。我们观察到，上下文对比学习也带来了改善这两个任务。这一现象进一步证明了我们的假设，即两个任务的统一学习使网络能够在不同的任务中利用有用的信息。与答案对比学习相比，语境对比学习对区分任务的成绩有更大的提高。这是因为在以前的方法中单独处理每个不同的上下文是不足以学习区分对话上下文表示。另一方面，答案生成结果不仅取决于对话上下文表示，而且还取决于解码过程。因此，与生成任务相比，UTC在区分任务上通过上下文对比学习获得了很大的改进。表4的第五行和图3的最后一列显示了具有两个对比损失的完整模型的结果。有趣的是，这两种损失表现出互补性。通过两个互补的任务间损失提供来自不同视角的表征学习信号，我们的完整模型在两个任务的不同标准上实现了最佳性能。4.6. 定性结果为了解释统一的对比学习我们的UTC，我们在图4中可视化了自我注意力层的注意力权重。在这些示例中，与Visual Dialog任务定义一致，我们显示了top-1预测。这里使用编码器和解码器的对应于区分和生成设置的最后层我们将UTC与在没有两个对比损失的情况下训练的基本统一模型进行比较。可以看出，区别-UTC的本地和生成设置倾向于集中在图像中的相似区域。在第一个例子中，帽子在两种设置下都突出显示，这是回答问题的关键在大多数情况下，使用两个对比损失的训练可以产生更准确的结果。例如，在第二行中，问题提到多个对象。如果不适当地参考视觉信息，模型很难预测目标答案。由于我们的模型利用对比学习来从所有答案候选者中学习丰富的信息，因此它正确地将图像中的衬衫和短裤等实体接地，从而在判别和生成任务上都比基线表现得更好。然而，当我们将两种设置的对话上下文和答案特征推得很近时，我们还发现，当不确定预测目标答案时，我们的模型可能同时在两个我们的目标是在未来研究它5. 结论在本文中，我们提出了一个统一的Transformer模型UTC，利用对话上下文和目标答案作为锚点，用于联合训练判别和生成任务。UTC能够对所有交互进行建模，以端到端的方式无缝地排名和生成答案。此外，两个互补的对比损失的定义，以促进两个任务的训练。Visual Dialog基准测试的实验表明了该模型的有效性，更广泛的消融研究进一步证实了两个任务之间的相关性，并发现通过任务间对比学习来显式地建模关系可以提高它们的性能。我们的UTC可以形式化为一个统一的框架的歧视和生成的任务。这种对比学习方法很容易应用到其他任务中未来，我们将探索将我们的框架应用于更多场景。鸣谢。本工作得到国家自然科学基金项目62176062的部分资助.感谢吴毅老师的支持.18112引用[1] Shubham Agarwal ， Trung Bui ， Joon-Young Lee ，Ioannis Konstas，and Verena Rieser.可视化对话框的历史：我们真的需要它吗在计算语言学协会第58届年会的会议记录中，第8182- 8197页计算语言学协会6[2] Stanislaw Antol ， Aishwarya Agrawal ， Jiasen Lu ，Margaret Mitchell，Dhruv Batra，C Lawrence Zitnick，and Devi Parikh.Vqa：可视化问答。在IEEE计算机视觉国际会议论文集，第2425- 2433页2[3] Stanislaw Antol ， Aishwarya Agrawal ， Jiasen Lu ，Margaret Mitchell，Dhruv Batra，C.劳伦斯·齐特尼克和德维·帕里克VQA：可视化问答。2015年，国际计算机视觉会议（ICCV）。6[4] 陈龙，辛燕，肖军，张汉王，蒲世良，庄月婷。用于鲁棒视觉问答的反事实样本合成。在IEEE/CVF计算机视觉和模式识别会议论文集，第10800-10809页，2020年。1[5] Yen-Chun Chen ， Linjie Li ， Licheng Yu ， Ahmed ElKholy ， Faisal Ahmed ， Zhe Gan ， Yu Cheng ， andJingjing Liu.Uniter：通用图像-文本表示学习。欧洲计算机视觉会议，第104-120页。Springer，2020年。2[6] Marcella Cornia ， Matteo Stefanini ， Lorenzo Baraldi ，and Rita Cucchiara. 用于图像字幕的网状存储器Transformer。IEEE/CVF计算机视觉和模式识别会议（CVPR），2020年6月。1[7] Abhishek Das 、 Satwik Kottur 、 Khushi Gupta 、 AviSingh、Deshraj Yadav、Jose MF Moura、Devi Parikh和Dhruv Ba- tra。可视化对话框。在IEEE计算机视觉和模式识别会议论文集，第326-335页6[8] Zhe Gan ， Yu Cheng ， Ahmed El Kholy ， Linjie Li ，Jingjing Liu，and Jianfeng Gao.视觉对话中基于回流双注意的多步推理。arXiv预印本arXiv：1902.00579，2019。一二三五六[9] 郭大陆、常旭、大成涛。视觉对话的图像-问题-答案协同网络。第10426- 10435页，2019年6月。6[10] 姜基天，林在修，张培德。视觉对话中视觉参考解析的双注意网络。arXiv预印本arXiv：1902.09368，2019。二、六[11] Satwik Kottur ， Jose 'M.F. Daha ， Devi Parikh ， DhruvBatra，and Marcus Rohrbach.基于神经模块网络的视觉对话中的视觉共指消解。在欧洲计算机视觉会议（ECCV），2018年9月3[12] Xiujun Li，Xi Yin，Chunyuan Li，Pengchuan Zhang，Xiaowei Hu，Lei Zhang，Lijuan Wang，Houdong Hu，Li Dong ， Furu Wei ， et al. Oscar ： Object-Semanticsaligned pre-training for vision-language tasks.欧洲计算机视觉会议，第121-137页Springer，2020年。2[13] Jiasen Lu，Dhruv Batra，Devi Parikh，and Stefan Lee.Vilbert：预训练任务不可知的视觉语言表示用于视觉和语言任务。 arXiv 预印本 arXiv ：1908.02265，2019。二、三[14] Jiasen Lu ， Anitha Kannan ， Jianwei Yang ， DeviParikh，and Dhruv Batra.两全其美：将知识从判别式学习转移到生成式视觉对话模型。在NIPS，2017年。一、二、六[15] Vishvak Murahari ， Dhruv Batra ， Devi Parikh ， andAbhishek Das.视觉对话的大规模预训练：一个简单的最先进的基线。arXiv预印本arXiv：1912.02379，2019。三、六[16] Van-Quang Nguyen 、 Masanori Suganuma 和 TakayukiOkatani。视觉对话的有效注意机制，可以处理多个输入之间的所有交互。在计算机Springer，2020年。一、三、五、六、七[17] Yulei Niu ， Hanwang Zhang ，

下载后可阅读完整内容，剩余1页未读，立即下载