历史对话的可视化优势及训练方式

83 浏览量更新于2023-10-16 收藏 1.07MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

2561我F黄金Hj3$oyyH不GHt，（At，At），AtYGTGT的gt不（��、A），...，（��、A）的方式t+1t+1t-1tF FGTGTAtYOtY的t我AtYGTFFpk@Hj3$oyyHHt，（At，A），不一不（t+1，Agt ）， ...，（t-1，Agt）OtYt+1FtFAtYGGT不Q3：Aµ yh µ gQ µA3：二、Po33…bly让历史变得重要：可视化对话的历史优势序列训练杨天豪1查正军1张汉旺21中国科学技术大学2南洋理工大学网址：jshmyth@mail.ustc.edu.cn，zhazj@ustc.edu.cn，网址：www.example.com，hanwangzhang@ntu.edu.sg摘要历史AO：A co-pll Q3hpg p k f Qo cp lpçgq cpkq.问1：I3 hq co plQpl q d f q plQ？A1：YQ 3.Q2：Whppalpecolosis 3个小时？A2：Why？qu？QtYgtLo33我们研究了视觉系统Qcraf@3$joµ1. 我有3个QQ。你是不是也想知道？3. 没有...对话框，其中响应是根据vi生成的有着坚实基础的对话史。给定一个三元组：图像、&QA历史和当前问题，所有流行的方法都遵循编解码器（即，编码器-解码器）方式（p）（b）GoldR@ypydHj3$oyy监督学习范式：一种多模式编码器en，将三元组编码为特征向量，然后将特征向量馈送到解码器中，用于由地面实况监督的当前答案生成。然而，这种传统的监督学习没有考虑到不完善的历史的影响，违反了视觉缺陷的会话性质（c）第（1）款AdYpµ$pg@AdY@y3@Cyj$jc因此使得编解码器更倾向于学习历史偏差而不是上下文推理。为此，受强化学习中行动者-批评者策略梯度的启发，我们提出了一种新的训练范式，称为历史优势序列训练（HAST）。具体而言，我们故意在历史中强加错误的答案，获得不利的批评，并通过历史优势看到历史错误如何影响编解码器图1.（a）典型的视觉对话任务。尤其是，初始答案A0表示给定的图像字幕。（b）在回合t处的常规训练过程：给定图像I、历史Ht和问题Qt，损失由真实答案At监督。（c）拟议的历史优势序列训练（HAST）范例：奖励（即， - 损失）是一个历史-优势，它更侧重于由一个错误的答案A′t到未来的一轮t′，通过比较的差异，黄金历史中的黄金储备Ht′与从真实历史的黄金奖励此外，为了使编解码器对历史更敏感，我们提出了一种新的注意力网络，称为历史感知的协同注意力网络（HACAN），它可以通过使用HAST进行有效的训练。三个基准测试的实验结果：VisDial v0.9& v1.0和GuessWhat？！，结果表明，所提出的HAST策略始终优于最先进的监督同行。1. 介绍视觉对话是衡量人工智能对基于视觉场景的自然语言理解的最全面的任务之一[6]。一个好的视觉对话代理应该完成一系列复杂的推理子任务：上下文视觉感知[36，23，5，30，19，37，31]，局域网，*通讯作者。′来自假历史的不良评论家。规范建模[14，4]，以及对话历史中的共参考解析[30，19]（例如，确定什么是由于端到端深度神经网络在其各自的子任务中，可以通过将它们组装到编解码器框架中来构建最先进的视觉对话系统[36，6，23]。编码器将三元组输入-历史问答句子，图像和当前问题句子-编码为矢量表示;然后解码器融合这些向量并将它们解码成回答句子（例如，通过生成语言模型[6，23，36]或歧视性的candi，日期排名[15，19]）。到目前为止，人们可以发现可视化对话框（VisDial）和著名的可视化查询查询（VQA）[3]之间的关键区别是对历史的利用。如图1（a）和图1（b）所示，VisDial可以被转换为多轮VQA，只要有额外的局域网。AtY一我HtOt我HtOt2562GTGTGTGTGT历史问答对的语言语境。本质上，在每一轮中，由代理生成的响应被“丢弃”，并且历史被下一轮的地面真实答案人为地“校正”。请注意，这种真实的历史设置是合理的，因为它引导对话是可评估的;否则，任何其他响应都可能使对话偏离主题，成为无休止的开放域闲聊[27，13]。然而，我们认为，仅利用地面实况历史是无效的编解码器训练。例如，地面实况答案只告诉模型因此，结果模型很容易在不充分的地面实况数据中过度接地，但不能学习视觉推理[21]。在本文中，我们提出了一种新的训练策略，以更有效的方式利用历史响应，也就是说，使编解码器模型对历史对话（如共指分辨率和上下文）更敏感。如图1（c）所示，我们故意在“篡改”历史中强加错误的答案（例如，用蓝色字体代替“白色”，但很难看到。” with“ 具体来说，假设我们要在第t轮训练一个模型，为了获得更多关于错误答案的见解，我们保持了两条平行的对话框：一个是真实答案A t，另一个是真实答案At，一个可能有错误的人。然后，我们运行这两行到未来的一轮t′（它们都填充了从t+1到t′的真实答案）。因此，我们可以在回合 t′ 收集两个奖励： 1 ）黄金奖励（GR）：对答案At的常规真实历史奖励，越大越好，以及2）负面评论家（AC）：对At的虚假历史奖励的建议评论家，小AC意味着错误答案的有趣的是，HA=GR-AC，我们称之为历史优势（HA），将告诉模型如何奖励At：如果HA>0，大HA意味着假历史的大影响，即，小AC;因此，我们需要用At来加强金历史的训练信号;如果HA≤0，则意味着金历史的无效，即，当前模型不能准确地对正确答案候选进行排序;因此，A t的梯度将是相反的方向。通过这种方式，我们可以收集从t+1到T的历史优势训练损失序列。因此，我们将所提出的训练范式称为：历史优势序列训练（HAST）。虽然HAST的应用场景与特定的编解码器模型无关，但为了更有效地训练，我们开发了一种新的编解码器，称为：历史感知共同注意（HACAN）编码器，以解决历史编码中的基本共同参考和视觉上下文。简而言之，HACAN是一个序列模型，包含两个新的共同注意模块和一个历史感知门。配备了提出的历史优势序列训练（HAST），我们在真实世界的VisDial基准测试中实现了一个新的最先进的单一模型：VisDial v0.9的MRR为0.6792，VisDial v1.0的MRR为0.6422，GuessWhat的准确率为66.8%？！[7]的文件。我们还在官方VisDial在线挑战服务器上获得了最高的0.5717 NDCG分数第5节讨论了更多的消融研究、定性示例和详细2. 相关工作可视对话框。视觉对话是最近在[6]和[7]中提出的，是一个更具挑战性的视觉语言问题。大多数视觉和语言问题都是基于单轮语言交互（例如图像标题[9，10，17，2]和视觉问题回答[2，1，3，5，24]）。相反，视觉对话任务涉及多轮对话，这更复杂。Das等人。 [6]提出了一个大规模的自由形式的视觉对话数据集，它由关于图像中任意对象的顺序开放式问题和答案组成。另一个可视对话框任务GuessWhat？！[7]提出的方法侧重于一个不同的方面，其目的是利用一组是/否问题来发现对象。本文采用第一种设置。所提出的用于可视对话框的方法基于编码器-解码器结构，并且可以基于编码器的设计被分为三组：（1）基于融合的模型（LF [6]，HRE [6]，Sync [11]），该方法在不同阶段融合图像，问题和历史特征。(2)基于注意的模型（MN [6]，HCIAE [23]，CoAtt [24]），这些方法建立了对图像、问题和历史的注意机制。(3)处理视觉参考分辨率的方法（AMEM [30]，CorefNMN [19]，RvA[16]，DAN [16]），这些方法集中于显式视觉共指消解在可视对话框中。使用基线的强化学习带基线的强化学习广泛应用于语言生成，图像标题[29]和可视对话框[23，36]。然而，对话中的历史响应轮并不被认为是一个序列，这与我们的工作相反。特别是，我们遵循序列训练的精神，并设计了一个历史优势作为基线，以根据当前的黄金和假历史来奖励或惩罚未来的对话轮。3. 我们的编解码器模型在这一节中，我们正式介绍了可视化dilog任务，并描述了我们提出的模型的细节。我们遵循Das等人提出的定义。[6]的文件。给定输入为：1）图像I，2）对话历史，图像的标题A0和对话框的t-1轮{A0，（Q1，A1），...，（Q t−1，A t−1）}，其中（Q i，A i）是i-第三轮2563GT图2.我们提出的编解码器模型的框架Ht、Qt和Vt是CNN和LSTM提取的输入三元组（第3.1节）t表示对话的当前回合并行地将逐元素协同注意力和逐元素协同注意力作为块对输入三元组进行编码并生成后续关注层的引导使用历史意识ht-1和vt-1，e e初始化第一个模块中的指南（第3.2节）。编码器的最终输出更新历史感知并馈送到解码器。解码器最终生成响应并对候选答案选项进行排名（第3.3节）。3) 一个后续问题Qt，以及4）100个候选人的列表在问题中扮演角色。关键词可以告诉你答案选项{A t，...，的t其中包含一个正确的对问题的类型和哪个实例属性进行1 100回答T。可视对话框模型需要对答案选项进行排序，并在给定输入时选择正确的选项。为了执行给定上述任务的响应生成，如图2所示，我们的编解码器模型包括三个模块：1）特征表示（第3.1节），2）针对编码器的提议的历史感知共同注意力网络（HACAN）（第3.2节），以及3）用于通过排名生成响应的判别解码器（第3.3节）。3.1. 特征表示图像特征。我们遵循自下而上的注意机制来提取基于区域的图像特征，如[2]所述。我们基于Visual Genome[20] 数据集上的 ResNet-101 主干 [12] 训练 Faster-RCNN[28]我们从每个图像中选择前K个区域，并将这些区域编码为视觉特征Vt，其中t是对话框中的当前回合。为了与一些没有区域建议网络的方法进行公平比较更多细节在第5节中讨论。语言特色。1）问题功能：我们首先嵌入后续问题的单词。LSTM用于生成隐藏状态序列语言游戏不同-要考虑.特别是在视觉对话任务中，历史和当前问题可能存在联系，使单词贡献更有意义。如图1（a）所示，当前问题中的单词同时，最后一轮提醒模型要更加关注“写”字由此，我们使用LSTM生成的整个隐藏状态序列，而不是像一些先前的工作那样使用最后一个隐藏状态，表示为Qt。2)回答功能：我们将另一个LSTM应用于候选人的单词嵌入，并使用整个隐藏状态序列作为答案特征。3)历史功能：历史上的每一轮问题和答案都连接成一个长长的“句子”。另一个LSTM应用于单词嵌入后的每一轮历史。我们使用每轮的最后一个隐藏状态历史特征表示为Ht。3.2. 历史意识共同关注网络我们提出了一种新的基于注意力的模型，称为历史感知的共同注意力网络（HACAN），以编码上述输入特征与共同注意力25641S我FSe ee一层二层三层F机制[36，23，24]。如图2所示，HACAN由一系列注意力块组成，每个注意力块包含两个基于注意力的模块：智能协同注意模块（FCA）和智能元素协同注意模块（ECA）。给定输入三元组{Vt，Qt，Ht}，FCA旨在参与E∈Rm是一个所有元素都为1的向量。表示向量的外积，我们用We来广播vt给m时间，并并行执行注意力功能。它可以看作是多目注意的附加注意，[35]第35段。我们计算Attende（qt，ht，vt），在一组输入中的相关特征与指南-以同样的方式关注e（ht，vt，qt）。f f ff f f从其他两个输入。非洲经委会采用下列产出：FCA作为输入。它的目的是在其他两个输入的指导下，激活相关的元素，抑制无关的元素，我们现在描述历史意识。我们观察到，一个模棱两可的问题往往与其最新一轮的历史因此，最新历史vt−1，ht−1的编码特征是初始化制导的好选择e e这两个模块的细节。智慧共同关注（FCA）。我们使用加性注意函数来计算特征关注度，并将关注的特征作为输出返回。在不失一般性的前提下，我们以 V的 FCA 为例，记为Attendf（Vt，gQ，gH）. 图像的视觉特征区域V t={v1，. 作为输入，视觉注意力是公式为：在FCA中，这可以被视为历史意识。怎么-有时候，当前的问题与它最近的历史无关一个简单的解决方案是应用门函数来控制历史感知，其被公式化为：qt=Attendf（Qt，0，0），（6）o=MLP（[fq（qt），fh（ht−1）]），（7）g s g ev′= tanh（Wfvt+WfgQ+WfgH），（1）ht−1=σ（o）ht−1，vt−1=σ（o）vt−1，（8）I1 i2 3e eαi= softmax（WTv′），（2）ΣKvt=α ivii = 1，.，K，（3）i=1其中gQ，gH∈研发是来自Qt的指导，其中qt是当前问题的自注意力，[·]是级联运算，σ（o）是门值。通过门控历史感知，每个第一FCA都由其最新的历史功能和更新出席的功能有效。对于后续模块，我们将ECA的输出作为等式中的指导输入。(1)，这样我们就可以连接Ht.Wf，Wf，Wf∈Rd× d，W∈Rd×1且d为两个注意力模块循环并更新编码1 2 3特征尺寸。由于Qt和Ht的格式具有vt、ht、qt，如图2所示。快捷e e e与Vt一致，我们可以简单地应用Eq。⑴-⑶到Attendf（Qt，gH，gV）和Attendf（Ht，gV，gQ），并并行计算三个模块。层中的连接有助于模型考虑不同的多跳视觉推理的水平。使用最后一轮注意力块的输出vt、ht、qt来生成全元素共同关注（ECA）。FCA的输出答案回答。ee e是所有关注的特征的总和。然而，它的特点-自己还没有参加。我们引入了一个元素的注意力机制，参加的功能之和值得注意的是，特征中的每个元素（例如，，vi∈RdinVt）是神经网络的响应激活，并且3.3. 响应生成现在我们介绍如何生成可视化对话框任务的答案。我们将三个特征vt，ht，qt连接在一起，并使用线性变换，然后使用e e e在某种意义上反映了实例的某些属性。我们应用注意力机制在元素方面的方式与其他两个输入的指导。它可以看作是在其他领域的指导下，选择相关的语义属性，丢弃不相关的语义属性。我们以Attende（vt，qt，ht）为例，切线激活：z= tanh（We[vt，ht，qt]），（9）其中[，]是一个连接操作。我们使用自我注意机制对候选答案特征进行编码。的ECA表述为：ff f自我注意机制被公式化为Eq.（六）、我们不将候选答案特征与z相乘以计算相似度。我们根据相似度对候选答案进行排序-Ve= tanh（Wevt+（Weqt）ET+（Weht）ET），⑷vt=σ（W′TVe）vt，（5）25651然后选择相似度最高的一个作为预测。在GuessWhat？！的任务答案信息ef候选是对象的定位和类别。其中We∈Rm，它是可学习的，所有元素都是初始值为1，We，We∈Rd×d，W′∈Rm.对象。我们将本地化和类别连接起来，并将它们嵌入线性变换以获得答案2 32566GT不′a我选项功能。通过点积计算答案特征与最终编码特征的相似度GR−AC=A（t′）=A（V′′t，Qt，Ht′）=′ ′ ′Σ′ ′′（十）R（Vt，Qt，Ht）− p（A<$t）R（Vt，Qt，Ht），4. 历史优势序列训练第3.2节中描述的HACAN编码“地面实况”三元组并生成响应。然而，HACAN仅使用传统的监督学习，没有考虑“黄金”历史的贡献为了解开历史中特定回合的个别贡献且使编解码器模型对历史更敏感，直观的解决方案是用不完美答案替换历史中特定回合的默认答案。为此，除了利用我们首先在4.1节中描述了可视对话框的策略梯度，然后在4.2节中描述了策略梯度中的历史优势最后，我们简单介绍了培训过程g我啊，我其中A（t′）可以估计轮t的“黄金”答案对回答Qt′的贡献。它与行动者-批评方法中的“优势”有着相似的作用当总的不利批评低于黄金奖励时，A（t′）为正。这意味着错误确实对未来产生了负面影响，而“黄金”回合的影响是积极的基线可以减少训练部分梯度估计的方差，并帮助模型考虑历史的贡献。当t′在t +1 ~ 10之间时，我们用不同的t′值来计算A（t′），这样也可以减小梯度估计的方差。 A（t′）的和也可以看作是“黄金”轮在整个对话中的贡献。4.3. 培训受策略梯度定理[34]的启发，历史优势梯度可以简单地表示为：第4.3节。4.1. 可视对话框1998年，李晓波（110−tΣ10′A（t′）），（11）我们将可视对话任务转换为一个简单的两步决策游戏：在步骤1中，给定图像I，t轮历史，标题为{A0，（Q1，A1），...，（Q t-1，A t-1）}和后续问题Q t，智能体需要从候选者中选择一个答案。在步骤2中，除了上述输入之外，和代理人的选择，法官被赋予从t+1到t′的剩余回合，并且需要通过回答t=t+1在之前使用超预训练步骤作为模型初始化的策略梯度工作之后，我们使用两阶段训练来训练我们的模型。在第一个训练阶段，我们使用一个度量学习多类N对损失Lnp[33，23].在HAST中，我们将最终梯度表示为：tJ=J-αβ-L、（十二）当前问题Q（tθ θ gθ NP正确地。游戏的目标是选择Qt′的正确答案，这与第3款.不同的是Qt的选择可能是不完美的，并影响游戏的得分我们把这个博弈描述为一个决策问题。行动空间是表示为{A t，...，A t}和状态其中，我们将N对损失（通过权衡α加权）用于端到端训练。整个训练过程在算法中进行了回顾。1.一、5. 实验′ ′′1 100空间为{Vt，Qt，Ht}。4.2. 历史优势我们使用视觉对话任务的度量来计算奖励（例如，MRR）。我们将黄金奖励（GR）表示为在下文中，我们评估我们提出的方法在三个可视化对话数据集上，VisDial v0.9 [6]，VisDialv1.0 [6]和GuessWhat？！[7]的文件。我们首先介绍了有关数据集，评估指标和实施细节的细节。然后，我们提供定性的结果和比较的方法与国家的最先进的模型。R（V′′t，Qt′，Hg）和使用R（V′′t，Qt，Ht′）表示5.1. 数据集当代理人选择第i个否定时，在T轮中回答。如图1（c）所示，它们的差值GR −AC可以反映出回答Q t ′时“黄金”轮t的影响。我们确定的历史-优势“黄金”轮的VisDial v0.9 [6]包含大约123 k个图像-标题-对话框元组。这些图像都来自MS COCO [22]，有多个对象。每个图像的对话框都有10个问题-答案对，这些问题-答案对是通过配对两个2567不a我11N−1算法一：具有历史优势序列训练的判别模型要求：有监督的预训练模型HACAN1：对于轮次t=1，···，T−1做2：计算{p（A<$t），···，p（A<$t）}HACAN（Vt，Qt，Ht）使用新引入的归一化贴现累积增益（NDCG）评估了我们的模型NDCG对于具有相同相关性的选项的顺序和顶部K之外的选项的顺序是不变的，其中K是被至少一个注释者标记为正确的答案的数量。猜猜什么？！数据集，我们使用分类准确度来评估我们的模型。其中N是答案候选者的数量。′3：对于t=t+1，···，T做4：对于i=1，···，N−1，t′t5.3.实现细节语言处理。我们首先将问题标记化，第五章：伪造历史Ai6：计算R（V′′t，Qt′，Hg）和使用Python NLTK工具包，并构建了一个′R（Vt7：结束8：结束，Qt′ ，Ht′），使用HACAN在火车上至少出现5次的词汇表分裂。所有单词都被嵌入到一个由预先训练的GloVe[26]嵌入初始化的300维向量9：用方程计算梯度θJ（十二）10：θ←θ+δ<$θJ11：结束人们在亚马逊土耳其机器人上互相聊天具体来说，VisDial v1.0 [6]是VisDial v0.9 [6]的扩展。训练集的图像均来自COCO train2014和val2014。验证和测试集中的对话框是从Flickr上收集的大约10k个COCO类图像。测试集分为两部分，4k图像用于测试标准，4k图像用于测试挑战。已经为训练集和值集提供了答案对于test-std和test-challenge阶段，必须将结果提交给评估服务器。我们还评估了我们提出的模型GuessWhat？！数据集[7]。该数据集包含从MS COCO [22]收集的67k图像猜猜游戏GuessWhat！是通过多轮对话预测对象选项中正确的对象。5.2. 评估指标对于VisDial v0.9，我们遵循[6]中建立的评估协议，并使用检索设置来评估对话框中每一轮的响应具体来说，对于每个问题，我们对答案选项进行了排序，并使用Recall@k、平均倒数秩（MRR）和真实答案的平均秩来评估模型。Recall@k是正确答案选项在模型的前k个预测中排名的问题的百分比。Mean rank是真实答案选项的平均排名。平均倒数秩是真实答案选项的1/秩的平均值。对于VisDial v1.0的测试集，问题和历史的LSTM是两层的，而答案只有一层所有LSTM中的隐藏状态都是512-d。培训详情。在开始HAST之前，我们使用supervised训练对我们的编解码器进行了15个epoch的预训练。我们使用Adam优化器[18]，并以1×10−3的基本学习率开始监督训练，并逐渐减少10个epochs后为5×10−4在HAST中，基本学习率是1×10−4，每5个历元衰减一次，指数速率为0.5。我们将超参数m设置为16，并且在等式中We∈R16（四）、我们在等式中将α设为1。（十二）、由方程式（10），我们需要对所有的负数和-让候选人计算HAST的优势它花费了相当多的时间来训练（每个不正确的答案大约需要99次评估）。然而，我们注意到只有少数否定答案具有不可预测的概率。为了减少时间成本，我们在准确性和速度之间进行了权衡，并对模型选择的前5个否定答案进行了求和。实验表明，我们节省了95%的训练时间，性能略有下降。5.4. 消融研究HACAN中的组件。我们提出了我们模型的几个变体来验证每个组件的贡献(1) HACAN w/o FCA是不含FCA和ECA的基线图像特征由问题引导，注意力权重由等式计算。(1)只有问题导向。（2）HACAN w/o ECA-1是具有一个FCA和门控历史感知的模型。该模型没有ECA。（3）HACANw/o ECA-16是具有一个FCA，随后是一个ECA的模型，其中在等式（1）中m=1。（五）、非洲经委会不是多头的 . （ 4 ） HACAN w/o RS 是一个具有一个FCA，随后是一个ECA（m=16）的模型。多头数为16个.（5）HACAN是将两个注意力模块以残差方式叠加三次的整体模型表3中的第一行和第二行显示，HA-CAN w/o FCA使用问题引导的图像特征（如VQA任务中的样式），但不具有历史感知。受益于FCA和门控历史感知，该模型采用2568VisDial v1.0（测试标准）VisDial v0.9（验证）NDCGMRRR@1R@5R@10是说MRRR@1R@5R@10是说LF w/o RPN [6]0.45310.554240.9572.4582.835.950.580743.8274.6884.075.78HRE [6]0.45460.541639.9370.4581.506.410.584644.6774.504.225.72美国[6]0.47500.554940.9872.3083.305.920.596545.5576.2285.375.46[23]第二十三话------0.622248.4878.7587.594.81AEM [30]------0.622748.5378.6687.434.86[24]第二十四话------0.639850.2980.7188.814.47CorefNMN [19]0.54700.615047.5578.1088.804.400.641050.9280.1888.814.45RvA w/o RPN [25]0.51760.606046.2577.8887.834.650.643650.4081.3689.594.22我们的（不含RPN）0.52810.617447.9178.5987.814.630.645150.7281.1889.234.32LF [6]0.51630.604146.1877.8087.304.75-----RvA [25]0.55590.630349.0380.4089.834.180.663452.7182.9790.733.93[11]第十一话0.57320.622047.9080.4389.954.17-----DAN [16]0.57590.632049.6379.7589.354.300.663853.3382.4290.384.04我们0.57170.642250.8880.6389.454.200.679254.7683.0390.683.97表1.判别模型在VisDial v1.0的测试标准分割和VisDial v0.9的验证集上的检索性能。RPN表示区域建议网络的使用情况。图4.我们的模型在GuessWhat上的定性结果？！.绿色边界框突出显示了黄金历史的正确预测红色边界框突出显示了具有篡改历史的错误预测。图3. VisDial数据集上的定性结果。我们可视化我们的模型和HCIAE的历史变化的行为。不正确的历史记录和由具有篡改历史记录的模型选择的区域标记为红色。GT rank表示排序列表中真实答案的排名。历史感知功能，并在MRR上实现了约3.5%的改进，更符合可视对话的会话性质。在HACAN w/o ECA-16中，两种类型的注意力模块不仅引导模型关注哪些特征（例如，特征级关注历史），而且引导模型关注特征的关注属性，将注意力机制推进到更细粒度的级别。超参数m可以被视为多头注意力中的头数[35]，并且在MRR上将性能提高了约0.5个点我们将两个注意力模块以剩余的方式堆叠到三层，以获得历史感知和问题感知的多层次抽象规定：（1）与VQA任务不同，视觉对话任务的模型依赖于历史感知的表示。(2) FCA和ECA是有效的计算可靠的问题意识和历史意识的视觉注意。HAST的有效性。我们做了消融实验证明了HAST的有效性结果显示，在表4和表5中。我们的模型在VisDial数据集上的R@1和MRR上分别实现了大约1点和0.5%的改进。除此之外，我们还将HAST应用于一些官方代码为1的其他消融模型。我们将HCIAE-D-MLE [23]和HCIAE-D-NP-ATT [23]定义为HCIAE-M和HCIAE。编码器模型是基于注意力的。有趣的是，我们发现这两个模型都实现了我们提出的HAST的改进。研究结果表明：历史感知模型考虑了不完美历史的影响，更好地挖掘了“黄金”历史的贡献，更好地处理了视觉表征功能，这在我们的消融实验我们认为，烧蚀实验https://github.com/jiasenlu/visDial.pytorch2569图3和图4中所示的定性结果证明了我们的HACAN模型与HAST的以下优点历史敏感。我们的模型对历史很敏感。在图3中，上半部分显示，随着历史变化，我们的模型HACAN生成不同的响应。更详细地说，随着“黄金”历史的贡献“ground 由于FCA和ECA，当给定“黄金”历史时，受历史变化影响的视觉注意力更加精确相反，随着历史的变化，HCIAE的行为是一样的，并没有受益于“黄金”历史的贡献可靠上下文推理我们模型地址使用HAST可靠地进行上下文推理。更专注在对话中不同历史的影响下，HA-CAN学习到更多的上下文推理。在图4中，模型列车运行错误瓦尔埃尔测试错误LSTM [7]百分之二十七点九百分之三十七点九百分之三十八点七HRED [7]百分之三十二点六38.2%39.0%LSTM+VGG [7]26.1%38.5%39.2%HRED+VGG [7]百分之二十七点四百分之三十八点四百分之三十九点六美国陆军[8]百分之二十六点七百分之三十三点七34.2%我们26.1%32.3%33.2%表2.游戏名称：GuessWhat？模型MRRR@1R@5R@10是说HACAN不含FCA0.583744.5274.7784.845.56HACAN不含ECA-10.618148.2978.2387.764.77HACAN不含ECA-160.628549.2679.4188.724.53HACAN，不含RS0.632349.6179.9689.054.40哈坎0.639150.4480.6789.714.32表3. VisDial v1.0验证集上消融模型的性能。不同的事实，HACAN选择相应的区域正确的图像5.5. 与最新技术我们将我们的模型与VisDial v0.9和v1.0上早期的方法使用基于网格的CNN（例如VGG-16 [32]）特征。为了公平比较，我们用ImageNet预训练的VGG-16特征替换了自下而上的注意力特征[2]表1的上半部分报告了具有VGG-16特征的方法的结果，下半部分报告了具有自下而上的注意力特征的结果。比较方法。基于编码器的设计，最先进的方法可以分为三类：(1)基于融合的模型（LF [6]， HRE [6]，同步 [11]）。（二）基于注意模型 (MN[6]，HCIAE [23]，CoAtt [24]）。 (3)在VisDial中处理视觉参考分辨率的方法（AMEM [30]，CorefNMN [19]，RvA [16]，DAN [16]）我们的方法在大多数指标上都优于最先进的方法。具体来说，我们的方法在R@1上实现了超过1个点的改进，并且在MRR上增加了1%。我们还在官方VisDial在线挑战服务器2上实现了一个新的最先进的单一模型。此外，我们还对GuessWhat的猜测任务进行了补充实验。！.表2表明，我们的方法与最先进的方法相当。6. 结论在本文中，我们开发了一个编解码器模型配备了历史感知的共同注意力网络（HACAN）的视觉对话任务。HACAN包含了语义智能协同注意模块和元素智能协同注意模块，以解决相关的共指和视觉上下文问题2https://evalai.cloudcv.org/web/challenges/challenge-page/103/leaderboard/298模型MRRR@1R@5R@10是说[23]第二十三话0.615647.6778.5087.544.68[23]第二十三话0.617747.9578.7087.974.61[23]第二十三话0.622748.5879.1988.164.58[23]第二十三话0.624348.7179.1488.724.53HACAN不含HAST0.639150.4480.6789.714.32哈坎0.644551.2080.7689.924.252570表4. VisDial v1.0验证集上消融模型的性能。HAST表示使用历史优势序列训练。模型列车运行错误瓦尔埃尔测试错误HRED w/o HAST [7]百分之三十二点六38.2%39.0%HRED [7]百分之三十一点八百分之三十七点七百分之三十八点四HRED+VGG w/o HAST [7]百分之二十七点四百分之三十八点四百分之三十九点六HRED+VGG [7]百分之二十六点八百分之三十七点七38.9%HACAN不含HAST百分之二十六点九百分之三十三点六百分之三十四点一哈坎26.1%32.3%33.2%表5.消融模型在GuessWhat猜测游戏中的表现？！. HAST表示使用历史优势序列训练。历史编码。我们提出了一种新的训练策略，称为历史优势序列训练（HAST），利用历史响应，使编解码器模型更敏感的历史对话。在真实世界的数据集上进行了广泛的实验，VisDial和GuessWhat？！，在基准上实现新的最先进的单一模式。致谢本工作得到了国家重点研发项目2017YFB1300201 、国家自然科学基金 61622211 和61620106009 以及中央高校基础研究基金WK2100100030的资助。2571引用[1] Harsh Agrawal、Arjun Berrasekaran、Dhruv Batra、DeviParikh和Mohit Bansal。分类故事：将杂乱的图像和标题分类成故事.在EMNLP，2016。[2] Peter Anderson，Xiaodong He，Chris Buehler，DamienTeney，Mark Johnson，Stephen Gould，and Lei Zhang.自下而上和自上而下关注图像字幕和vqa。在CVPR，2018年。[3] Stanislaw Antol ， Aishwarya Agrawal ， Jiasen Lu ，Margaret Mitchell，Dhruv Batra，C Lawrence Zitnick，and Devi Parikh.Vqa：可视化问答。在ICCV，2015年。[4] Junyoung Chung、Caglar Gulcehre、KyungHyun Cho和Yoshua Bengio。门控递归神经网络对序列建模的经验评估NIPS，2014年。[5] Abhishek Das 、 Harsh Agrawal 、 Larry Zitnick 、 DeviParikh和Dhruv Batra。视觉问题回答中的人类注意力：人类和深层网络看的是同一个区域吗计算机视觉和图像理解，163：90[6] Abhishek Das 、 Satwik Kottur 、 Khushi Gupta 、 AviSingh、Deshraj Yadav、Jose MF Moura、Devi Parikh和Dhruv Ba- tra。可视化对话框。在CVPR，2017年。[7] Harm De Vries ， Florian Strub ，Sarath Pastar ， OlivierPietquin，Hugo Larochelle，and Aaron C Courville.你猜怎么着？！通过多模态对话的视觉对象发现。在CVPR，2017年。[8] Chaorui Deng，Qi Wu，Qingyao Wu，Fuyuan Hu，FanLyu，and Mingkui Tan.通过累积注意力的视觉基础。在CVPR，2018年。[9] JeffreyDonahue 、 LisaAnneHendricks 、 SergioGuadarrama、MarcusRohrbach、SubhashiniVenugopalan、Kate Saenko和Trevor Darrell。用于视觉识别和描述的长期递归卷积网络CVPR，2015。[10] Hao Fang，Saurabh Gupta，Forrest Iandola，Rupesh KSri-vast av a ， LiDeng ， PiotrDoll a´r ， JianfengGao ，XiaodongHe，Margaret Mitchell，John C Platt，et al.从标题到视觉概念再到后面。CVPR，2015。[11] 郭大陆、常旭、大成涛。视觉对话的图像-问题-答案协同网络在CVPR，2019年。[12] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在CVPR，2016年。[13] RyuichiroHigashinaka 、 KenjiImamura 、 ToyomiMeguro、Chiaki Miyazaki、Nozomi Kobayashi、HiroakiSugiyama 、 Toru Hirano 、 Toshiro Makino 和 Yoshihiro

下载后可阅读完整内容，剩余1页未读，立即下载