可视化对话的图像-问题-回答协同网络的设计与评估

163 浏览量更新于2023-10-19 收藏 941KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1可视化对话的图像-问题-回答协同网络郭大路、常旭、陶大成UBTECH Sydney AI Centre，School of Computer Science，FEIT，University of Sydney，Darlington，NSW 2008，Australia{dguo8417@uni.，c.xu@，dacheng.tao@}sydney.edu.au摘要图像、问题（与历史相结合，用于解引用）和相应的答案是视觉对话的三个重要组成部分。经典的可视化对话系统将图像、问题和历史整合在一起来搜索或生成最佳匹配的答案，因此，这种方法明显忽略了答案的作用在本文中，我们设计了一种新的图像-问题-答案协同网络，以评估答案在精确视觉对话中的作用我们将传统的一阶段解扩展为两阶段解。在第一阶段中，候选答案根据其与图像和问题对的相关性进行粗略评分。然后，在第二阶段中，通过与图像和问题的协同作用，对正确概率高的答案在Visual Dialog v1.0数据集上，所提出的协同网络增强了区分性视觉对话模型，以实现57.88%的归一化折扣累积增益的新的最先进水平。一个生成的可视化对话模型配备了所提出的技术也显示出有前途的改进。1. 介绍视觉对话是计算机视觉和自然语言处理交叉领域的一个新兴研究课题。鉴于推理，接地，识别和翻译的能力，一个可视化的对话代理预计回答基于图像，标题和历史的问题。例如，在图1中，智能体首先基于历史来推理当前问题中的单词“他们的”指的是什么因此，可视对话任务也可以被视为：（i）视觉基础[33]，进一步将定位边界框中的视觉信息转换为人类语言;（ii）视觉问答（VQA）[2]，包括额外的对话历史和标题作为输入;以及（iii）图像字幕[25]，其不仅基于视觉信息而且基于历史和问题生成描述。图1.一个通用的可视对话框任务。通过调查给定的图像、标题、历史和问题，从候选集中挑选正确的答案一般的可视对话框模型有两个组成部分：用于嵌入输入的编码器（例如，图像和问题）转换成矢量，并将它们融合以创建统一的表示;以及解码器，用于将编码的矢量直接转换成用于答案的单词，或者对给定的候选答案进行VQA和可视化对话都涉及到多模态的融合工作然而，作为一个多回合的VQA任务，在每一回合中，视觉对话系统还必须集成过去回合的字幕和对话历史。可视对话系统根据解码器的不同可以分为两大类：生成模型和判别模型。生成模型通常采用seq2seq [24]或先进的强化学习[29]技术来生成答案集，其中最高概率的答案是cho。10434字幕问题候选人历史问：你能看到5个以上的人吗？答：没有。问：他们戴头盔吗？答：没有。1. 黑色和灰色2. 深蓝色3. 红绿灰黑4. 灰色，黑色和白色5. 蓝色、红色、黑色、灰色和绿他们的夹克是什么颜色的？5人滑雪在被树木包围的雪地里。10435他们的夹克是什么颜色的？初级阶段评分黑色和灰色5.31深蓝色5.29红色绿色灰色和黑色5.28灰色，黑色和白色5.26蓝色，红色，黑色，灰色和绿色5.22协同阶段他们夹克的颜色是黑色和灰色。他们夹克的颜色是深蓝色他们夹克衫的颜色是红色、绿色、灰色和黑色他们夹克衫的颜色有蓝色、红色、黑色、灰色和绿色00001图2.候选答案与图像和问题协同重新评分。协同阶段将答案返回到问题并重新匹配图像。作为输出。判别模型倾向于计算编码器的潜在输出与候选答案的嵌入之间的相似性[4，18，12，29]，正确答案预计具有最高得分。然而，现有的生成模型的目标是在每一步生成一个高概率的单词，但忽略了整个答案句的意义。判别模型有利于通过长短期记忆（LSTM）理解答案句子[10]，但评分方法不足以捕捉输入和答案之间的相似性，因为输入和答案的向量是单独学习的，没有深度融合。此外，生成和判别模型都倾向于给出简短而安全的答案，例如强调答案的作用及其与其他成分的整合（例如，图像和问题），我们提出了一个图像-问题-回答协同网络。然而，并不是所有的答案都是似是而非的形象和问题。根据[4]的实验结果，在10（R@10）时的回忆率已经可以高于85%，这意味着排名低于10的答案不太可能是正确的。例如，在图1中，只有关于图像中颜色的答案与问题相关，而其他答案则不合理，可能导致网络副作用。因此，我们扩展了传统的一级模型组成的编码器和解码器到两个阶段的模型包含一个主阶段和一个协同阶段。初级阶段可以是对所有候选答案进行粗略评分或生成一些高概率候选的任何现有模型。协同阶段基于某些策略选择高概率的答案，将它们与问题精细协同，然后根据协同与图像的相关性对候选答案重新排序，如图2所示。所提出的方法是符合人类实践的。在多项选择考试中，我们通常首先排除明显错误的答案，然后再花更多的精力来比较剩余的更有可能是正确的答案。我们将每个答案填入问题的空白处，并判断完整的句子是否比其他句子更合适。此外，我们解决了类的不平衡问题，在初级阶段的强判别模型。由于损失函数中容易否定的候选答案占主导地位，因此在损失函数中考虑了温度因子以折扣容易样本的贡献。我们的模型在Visual Dialog v1.0数据集上进行了评估[4]。在验证中，我们的初级阶段与损失平衡判别模型相比，非平衡模型的平均倒数秩（MRR）提高了0.71%，协同阶段的MRR提高了0.91%。Furthermore,the synergistic stage in our gener- ative model improvesMRR by 4.7% and recall on top-5 responses (R@5) by9.2% compared to the primary stage, which provides adifferent way to generate descriptive an- swers other thanGAN and reinforcement learning [29].在测试标准数据集上，我们的两阶段模型超过了基线，并实现了最先进的性能，高于Visual Dialog Challenge 2018中的其他参赛作品，归一化贴现累积增益（NDCG）为57.88%2. 相关工作可视化问题查询（VQA）：VQA是在查询图像以生成文本答案时执行这是一个分类问题，其中候选答案仅限于数据集中出现的最常见答案目前的模式可分为三大类：早期融合模型、后期融合模型和基于外部知识的模型。在早期的融合模型中，输入查询被视为检测网络[ 9 ]中条件批量归一化[6，22]的参数，这将预先训练的ResNet引入到所提出的MODERN架构中;该方法影响预训练模型中小于1%的参数，这降低了过拟合的风险。后来的融合模型主要集中在如何通过联合问题和全局图像特征来表示答案向量[11，2]。然而，大量的视觉信息与输入查询无关，导致推理过程中存在明显的噪声为此，引入注意机制来解决这一问题.这从两个特征的线性组合开始，例如通过使用多步推理学习注意力的堆叠注意力网络[30]和学习视觉和文本注意力的双注意力网络[20然后，通过将两个特征的外积投影到二次展开的高维中来应用双线性池化方法，如多模态紧凑双线性池化（MCB）[7然而，MCB需要sam-10436不不简单的特征，这在计算上是难以处理的，并且具有非常大的投影维度，因此低秩双线性池（MLB）[15]和多因子双线性池（MFB）[32]已经提出将这两个特征投影到一个公共的低秩空间中，并且双线性注意力网络（BAN）[14]建立了多模态输入之间的交互注意力。与早期和后期融合模型相反，外部基于知识的模型假设需要图像中未给出的共同意义或信息[28]使用DBpedia [3]来扩大答案的范围。[21]在Fvqa [26]中查询三元组（视觉概念，关系，属性）以对检索到的事实进行评分。然而，这种方法不足以推理复杂的事实，需要进一步发展。把难的答案和容易的分开。在协同阶段，我们选择硬答案连同他们的问题，形成问答对。这些对进一步与图像和历史相协调以预测分数。我们首先正式定义的视觉对话问题，然后介绍我们的新的协同策略。给定图像I和标题C，我们收集历史问题及其相应的答案作为H.在回合t，我们的模型基于问题qt为候选集合At中的每个答案at，i给出分数。为了描述输入图像I，我们使用Faster-RCNN模型[1]检测对象及其特征，并应用CNN将其编码为V=（v1，. . .，vn），其中vi∈Rd，n是对象的个数。问题qt是一个可以使用LSTM编码的单词序列可视对话框：扩展单圈对话框任务也就是说，MQ=LSTM（qt）。我们还组织了以前的二-(VQA)对于一个多回合的，我们引入了视觉对话。在[4]提出的数据集之前，[5]使用了一个数据集，该数据集在图像中定位对象，其中一个人给出了关于图像的问题，另一个人根据事实提供了当前数据集扩展了问题和答案的范围问题类型（包括标题）作为历史H=（H0，. . .，Ht−1），其中 H0= C ，且 Hi= （ qi ， ai ， gt ），其中 i ∈{1，. . . ，t-1}，这是问题和正确的一个连接-在时间t之前在每个转弯处转弯。与问题类似，我们使用另一个LSTM来提取历史特征，U=（u0，. . .，ut−1），其中ui= LSTM（Hi）。 mq∈Rd关于图像可以是各种各样的，包括颜色、数字、关系等，而答案可能是简单的“否”或对图像的复杂描述。在[ 4 ]中提供了三种编码方法作为基线，即后期融合、分层递归编码器和记忆网络，以及两种解码方法：LSTM和softmax受生成对抗网络（GAN）[8]以及判别网络和生成网络之间的性能差距的启发，[18]将知识从预先训练的判别网络转移到具有 Gumbel-softmax [13] LSTM编码器的生成网络，使用感知损失。[29]结合GAN和强化学习[31]来训练具有共同注意编码器的生成器，从而允许搜索器直接访问生成的响应以评估其质量，并使用具有转出策略的蒙特卡罗（MC）搜索来计算每个单词的中间奖励。[12]将融合步骤和评分步骤合并为单个步骤，这类似于我们的协同阶段，但是涉及包含噪声的所有图像信息和包含与当前问题无关的主题的整个历史此外，它只是简单地排列了图像、问题、历史和答案的孤立向量来表示它们。3. 协同网络并且ui∈Rd对应于LSTM的最后一个状态。3.1. 初级阶段在初级阶段采用编码器-解码器解决方案[4，29，18]。编码器包含两个主要任务，一个是如何在多轮对话中解引用（98%的对话至少包含一个代词），另一注意力机制[18]通常用于处理任务。我们使用多模态分解双线性池（MFB）[32]代替线性级联，因为它可以克服两个特征分布之间的差异（两个LSTM分别编码问题和历史; LSTM用于文本特征，CNN用于图像特征）。预计MFB将提供更丰富的代表性比其他双线性方法，如MLB [15]和MCB [7]。在MFB中，两个特征X，Y∈Rd的融合计算如下：Σk⊤ ⊤z= MFB（X，Y）=（UiX<$ViY），（1）i=1其中U，V∈Rd×l×k是要学习的参数，k是因子的数量，l是隐藏的大小，并且k是Hadamard乘积（逐元素乘法）。怎么-然而，Y有时表示多通道输入，例如，在我们的模型中检测到的对象或历史，所以公式是-在候选答案集中，一些答案是接近或等于正确答案的硬样本，而来自：Σkz= MFB（X，Y）=（（U<$X·1$>）（V<$Y）），（2）其他都是简单的例子。我们的框架如图3所示，有两个阶段，初级阶段和协同阶段。在初始阶段，我们使用共同注意模块学习图像、历史和问题的代表向量，然后计算每个候选答案的得分，我我i=1其中1 ∈Rφ是所有元素都等于1的向量，φ是Y的通道数。为了稳定输出神经元，我们使用功率归一化（ z←sign （ z ）） |z|0 的情况。 5 ）和 Z2 归一化（ z←z/Z2）。10437不不不t我t我不不不不不不不t t t t tt1，1…1000美元初级阶段协同阶段美国有线电视新闻网LSTMLSTM共同关注模块化共同关注LSTM模块化LSTMLSTM��100，1，��字幕1：…��−1:�� (��−1,��)字幕1：…��−1:�� (��−1,��)FC00001答案选择图3.我们模型的架构所有候选答案在初级阶段进行评分，部分入选答案在协同阶段进行重新评分我们利用MFB来学习que的统一向量，其中τ≤1。如果候选人回答了一个t，i是正确的问题和历史，表示为zh=MFBh（mq，U），其中得分低于真实答案at，gt，losszh∈ Rl×t. 然后，我们学习注意力权重和向量lt，i=sddt，gt将小于0，τ可以减少通过：答案at的贡献，i. 例如，τ= 0。25αh=softmax（w<$zh），（3）并且l=-1，大约20个这样的项目产生与t α tΣt−1t我正常的N对损耗。否则，它会放大hti=0时（αhui），（4）错误的答案。3.2. 协同阶段w∈Rl是一个学习参数，αh∈Rt是一个学习参数。α t在初级阶段，有些答案不当计算的权重意味着这个问题应该参考。参与历史向量mh可以与问题向量相关联，然后与图像特征相融合，zv=MFBv（[mq：mh]，V）。图像注意力矢量mv可以以与等式2类似的方法获得。（3）和方程（4）以zv为输入。最后，我们学习了文本和视觉特征的表示，其中ep=MFBe（[mq：mh]，mv）。解码器将每个候选答案at，i∈At编码为由于评分方法的局限性，在这个协同阶段，答案与问题和图像协调以进行重新排名。然而，在进一步的分析中不需要简单的候选答案，我们希望我们的第二阶段模型在其建模能力范围内完全专注于硬答案。因此，我们根据初步阶段的预测分数选择正确概率较高的答案。从表1中对我们最好方法的回忆可以看出，一t我使用LSTM并通过以下方式计算点相似性得分在初级阶段预测覆盖近90%的sd=epfd（ma），（5）基本事实也就是说剩下的90个答案t，i tt我概率较低，容易辨别。其中fd是一个单层MLP，其激活tanh以投影应答编码Ma∈Rd到输入空间em-基于这种现象，我们首先从A中挑选前N个答案来组织新的候选集B，其中贝德德公司t我t tBt=（bt，1，. . . ，bt，N），Bt At.正确答案at，gt的分数应该高于其他人我曾用过一次，我曾用过一次，我曾用过一次。100个候选答案中的大多数是简单的样本，其与输入无关，并且在该损失中没有贡献有用的学习信号（图5中的分数差小于零）。为了解决不平衡问题，我们采用温度τ来降低不平衡影响：选择的答案往往是模棱两可的描述整个句子的含义（如因此我们将问题qt附加到每个答案bt，j，j∈{1，. . . ，N}作为问答对，并使用LSTM对其进行编码以获得a载体：100ddMb =LSTM（[qt：bt，j]）。（七）LD= log（i=1exp-SMM=10438st，i−st，gt ）、（6）τt，j需要额外的历史记录来解决引用问题10439t，j不t，j不t，jt，jt，j不t我不不t，j不不不t，it，it，itggj不′可能的因此，我们使用mb作为一个问题vec-tor结合参加的历史mh来学习图像注意参数：rt，j= MFBa（[mb：mh]，V）（8）并且关注的图像特征mr使用等式（3）和方程（四）对于选择的答案b，t，j。与初级阶段相似，我们得到融合嵌入er=MFBr（[mb：mh]，mr ），表示协同t t，j与图像，问题和历史，这是直接使用通过以下方式计算分数：图4.我们生成模型的初级阶段的每一个的得分答案是它的单词序列的概率。SR=f（er），（9）这也被认为是在初级阶段的分数，t，jRt，j如图4所示，其中w1，. . . ，wT′就是这个词其中fr可以是单层MLP。候选人中的答案t，i′at，i和T的顺序t我是字数。为每个包含更多细节和更好匹配输入的集合应该会比普通人得分高。在这里，我们重新使用来自初级阶段的参与历史向量mh，因为在ques-hierarchy中的共指问题。词，其概率由下式给出：p（wj|（w1，. . . ，wj-1），ep）=f（MFB（h，ep）），（13）其中h0是LSTM的最后一个隐藏状态，用于ques-i。问题可以在不知道答案的情况下解决。对于前-蒂翁河 =LSTM（h）j−1，wj-1）是LSTM的状态，例如，如图1所示，我们可以将“their”引用不管他们的夹克是什么颜色图像特征V与初级阶段共享，因为我们希望图像特征在两个阶段中被通用地表示。但是注意力权重是在每个阶段学习的，因为每个候选答案以及问题都描绘了自己的注意力地图。我们将这个阶段视为分类问题，其中正确答案应该具有最高的概率：r=softmax（sr），（10）ΣNLR=−yjlog（pr），（11）j=1其中ygt等于1，其它的为零。我们注意到，这个公式可以很容易地扩展到软交叉熵，其中y是将这个答案标记为正确的概率，如果fg将融合向量映射到词空间。我们没有使用编码向量ep[4]初始化解码器的LSTM，而是将其视为上下文向量[19]。这主要有三个原因：第一，编码向量和LSTM解码器具有不同的分布，并且LSTM中的所有门和隐藏状态都是通过线性组合来学习的;第二，每个令牌应该关注的显著对象已经被问题选择，并且解码器的目的是将显著对象的视觉信息转换为文本，使得上下文向量固定，以便每一个都是ken;以及第三，代替学习具有hj-1的联合向量，上下文向量可以被认为是对当前隐藏状态hj的补偿信息，这减少了下一个单词预测的不确定性。为了使正确答案at，gt在初级阶段得分更高，我们最大化条件概率p（w1，. . .，wT |q , H, I). 因此，损失函数是it，gtt，gt 不密集注释数据集在将来可用。中正确单词的负对数似然性之和4. 生成模型的扩展每一步：′ΣTLG=−logp（at，gt）。（十四）除了初级阶段的判别模型外，生成模型也可以用于对候选答案进行评分，并且与所提出的图像-问题-答案协同方法无缝地工作。生成模型的编码器与第3.1节中初级阶段的判别模型的编码器相同。因此，我们仍然使用ep来表示图像I、历史H和问题qt在回合t处的公共向量。解码器将ep解释为答案，并计算答案at，i的概率1，��′，中文，中文，CNN…LSTMLSTM…LSTM…LSTM，（Szp104401T′不i=1如果候选答案是在生成模型中的判别模型，我们可以收集每个答案的分数使用方程。（十二）、否则，我们可以通过波束搜索生成一些高概率的候选答案[24]。在初级阶段收集每个答案的分数后，我们按照3.2节的策略挑选前N个答案，然后将它们与图像、问题和历史进行协同，以学习更好的表示签署人：sg= p（w，. . . ，w |qt，H，I）重新计分t我t我′Y=p（wjt我1j−1p（12）|（w，. . . ，w），e），5. 实验在本节中，我们评估了我们的协同战略，j=1t我t我t，it可视化对话框数据集。我们介绍了数据集和评估-10441的度量，然后描述我们的实验设置和结果，最后进行定性分析。5.1. 数据集和评估指标我们的模型是在Visual Dialog v1.0数据集[4]上训练的，该数据集包含来自COCO-trainval [17]的约120 k图像每个图像有一个标题和10个回合对话框，即，大约120万个问答对。为了组织这个数据集，两个人在Amazon Mechanical Turk上聊天。提问者看不到图像，并根据给定的标题和先前的上下文提出问题，以更好地理解场景，而回答者可以看到图像和标题，并尽可能自然和对话地回答问题。每个问题有100个候选答案，其中包含一个正确答案，50个类似问题的答案，30个流行答案，以及一些从数据集中随机选择的答案。对于验证和测试数据集，从Flickr收集了10KCOCO类图像。测试数据集在v1.0中由四个人进行了密集注释，以允许应用更稳健的评估指标NDCG [27]，而不是传统的检索指标，如平均秩、R@1，5，10和MRR。候选集合中的每个问题可能有多个正确答案在这种情况下，NDCG对于具有相同相关性的选项的顺序是不变的。对于每一个候选人的答案，它的关系-将答案标记为相关证据的注释者。的4度量由下式给出：模型NDCGMRRR@1R@5R@10是说LF[4]45.3155.4240.9572.4582.835.95HRE[4]45.4654.1639.9370.4581.506.41美国[4]47.5055.4940.9872.3083.305.92[4]49.5856.9042.4374.0084.355.59LF-att[4]49.7657.0742.0874.8385.055.41Technion54.4667.2553.4085.2892.703.55艾女士55.3563.2749.5380.4089.604.15中国科技大学56.4761.4447.6578.1387.884.65单身（我们的）57.3262.2047.9080.4389.954.17Ensemble（我们的）57.8863.4249.3080.7790.683.97表1.判别模型在Visual Dialog Challenge 2018测试标准服务器上的性能。我们集成了10个模型，不同的种子和不同的M从25到35。所有LSTM和CNN的den状态维度d是512。对于双线性池，我们将k设置为5，将l设置为1000，如Yu [32]。我们用损失LD（LG）开始训练初级阶段7个时期，以排列相对于输入的排名靠前的答案协同阶段之后是损失LD（LG）+LR的另外15个时期。在训练协同阶段时，我们的策略是从第一阶段排名前M的答案中随机抽取N-1个答案，并结合正确的和组织一次考试。在测试过程中，我们只选择前N个答案。对于这个数据集，我们选择N=10或15，M从10到40不等的判别模型，然后N=10，20，30，M固定为30的生成模型，我们在第5.4节中分析了不同N和M对性能的影响。我们的模型使用Adam求解器[16]进行训练，β1=0。9，β2=0。99，初始学习率为10−3，每7个历元以指数衰减ΣkDCG@k=相关性一，（15）率0.25。NDCG@k=i=1log2（i+ 1）DCG@k用于提交的排名、（十六）DCG@k实现理想排名5.3. 与最新技术水平的比较我们将我们的判别模型与基线[4]和其他方法进行了比较：后期融合（LF），它对其中k是相关性大于零的答案选项的数量在这些指标中，NDCG、MRR和R@1，5，10的得分越高越好，但平均排名的得分越低越5.2. 实现细节我们首先构建词汇表，其中包含在训练数据集中出现四次以上的问题，正确答案和标题中的单词。这使得11，213个单词具有填充词'PAD'，词汇表外的单词'UNK'，开始符号'START'和结束符号'END'。然后，每个单词被嵌入到一个300维的向量中，该向量在标题、历史、问题和答案之间共享。标题、问题、答案和历史的最大长度分别为40、20、20和40。对于每个候选答案，我们在头部插入 “START” ，并在尾部添加“END”。问题和历史的LSTM是两层的，而初级阶段的答案和协同阶段的问答对是一层的。藏-问题、形象和历史，并将其拼接成联合嵌入;分层递归编码器（HRE），它使用分层体系结构对对话历史进行编码 ; 存储器网络（MN），其维护存储由问题参与的先前对话的存储器库;以及MN-att和LF-att，它们在其基本方法的基础上增加了对图像的注意机制。从表1中可以看出，与LF-att相比，我们的最佳单模型使NDCG提高了7.56%，MRR提高了5.13%。为了提高模型的精度，我们用不同的种子和M.我们通过对所有模型的得分进行求和来对答案进行排名，并在Visual Dialog Challenge 2018的测试标准服务器上获得最高的NDCG。5.4. 消融研究我们进行了几次消融研究，以验证每个模块对我们的判别模型的贡献。表2中的前三条线显示了初级的性能，不同的τ从1变化到0.25。的10442N MτMRR R@1 R@5 R@10平均值- -1.00 61.92 47.53 79.78 89.28 4.42- -- --10 10 0.25 62.31 48.18 79.45 90.21 4.2210200.2562.8348.4580.7090.284.1110300.2563.5449.2181.0190.324.0910400.2563.1448.7780.9790.024.1315300.2563.1648.9180.7590.224.12表2.我们的判别模型在验证数据集上的性能。1.00.80.60.40.20.04 2 0 2 4考生与正确答案之间的分数差图5.不同τ的累积归一化损失。性能随着τ的衰减而提高，因为大多数候选答案很容易区分。这些分数比正确答案低1的简单否定答案的总和损失在τ = 1时消耗了几乎30%的模型能量。00，如图5所示。这种损失随着τ的减小而减小，当τ = 0时几乎为零。25饱和我们的初级阶段。这使得模型更加关注得分接近或高于正确答案的错误答案。最后五条线显示了不同设置的协同阶段的结果。该阶段的MRR在N=10和M=10时下降，因为顶部的答案经过几个时期后，初级阶段的稳定，导致协同阶段学习偏差。通过增加M来提供更多的样本可以提高性能，从而在M=30时产生最佳模型，这表明协同可以学习更好的图像、问题和答案的表示。有趣的是，性能在M=40或N=15时下降，这可能是因为所选择的答案变得与输入不太相关，并且第二阶段模型相反，它还强调了初级阶段对协同阶段的重要性。并且初级阶段也是平衡记忆成本所必需的，因为每个答案在协同阶段学习其自己的注意力地图并与图像融合，而在初级阶段，问题和图像仅需要一个注意力地图。对于生成模型，表3中的第一行显示了由公共输入向量初始化的记忆网络的性能，第二行显示了我们的模型仅使用初级阶段的结果，剩下其他三行用于协同阶段。可以看出型号N MMRRR@1R@5R@10是说[4]--47.9437.4858.5665.5717.61我们的（Our）--49.0138.5459.8266.9416.69协同（我们的）103051.6240.7763.5867.0016.51协同（我们的）203053.2341.4267.2272.9115.87协同（我们的）303053.7341.2869.0175.8515.12表3.我们的生成模型在具有候选集的验证数据集上的性能初级阶段在MRR方面优于基线1.1%，这为下一阶段生成了一个强有力的候选集。当N=10时，我们的协同阶段进一步提高了2.6%的MRR，因为初级阶段专注于每个单词，但缺乏对整个答案序列的理解。与判别模型中90%的正确答案在第一阶段排名前十相比，生成模型中3个正确答案中只有2个排名前十，因此我们在第二阶段将选择的答案数N从10增加到30，这进一步提高了2.1%的MRR此外，我们的模型将R@5提高了9.2%，R@10提高了8.9%。5.5. 定性分析为了进一步证明我们的协同模型的效果，我们从验证数据集中提出了一些例子。图6显示了仅按初级阶段和我们的两阶段网络进行排名的判别模型的结果。红色的答案是正确的，而其他的是排名靠前的候选答案。可以看出，一阶段模型试图对左上角和左中角的图像给出一个安全的答案，例如偏置的答案是在中间偏右的图像中给出的，因为对于一个有选择的二元问题，答案总是包含在问题中右下角的图像也有我们的模型基于图像给出了无偏的答案，并且可以检测左下角图像中相似词之间的差异为了将我们的方法应用于实际应用，我们放弃了第一阶段中准备好的候选集，并通过波束搜索在我们的主要模型中生成另一个候选集[24]，该模型维护了大小为B的部分序列列表。在每一步中，所有的部分序列都被整个词汇表扩展，只有概率最高的前B序列被保留用于下一步。满足“END”符号的句子从“START”符号开始在图7中，我们显示了生成的最佳答案对于初级和协同阶段，B=15，预设答案在问题下面。初级阶段总是把有一两个词的简短答案排在比描述信息更多的图像的长序列更高的位置= 1.00= 0.50= 0.25累积归一化损失10443Q：这是户外吗？不，是海滩初级协同问：喷气机是什么颜色的？A：白色和蓝色初级协同A1：是A1：是A1：白色 A1：白色A2：是的，它是A2：是的，在海滩上A2：灰色A2：白色和蓝色A3：是的，它是户外的A3：是的，它是户外的A3：灰色A3：白色带蓝色尾巴A4：是的，在海滩上A4：是的，在户外A4：白色和蓝色A4：白色和黑色A5：没有A5，是的，它是A5：银色A5：蓝色和白色A6：是的，在公园A6：否A6：蓝色和白色A6：灰色和蓝色问：她戴帽子了吗？A：遮阳板初级A1：遮阳板A2：是A3：遮阳板A4 ：有，遮阳板 A5 ：没协同问：教堂是砖砌的吗？看起来像是石头初级协同A1：是的，白色遮阳板A2：遮阳板，是A3：遮阳板A4：是，遮阳板A5：遮阳板A1：是的A2：是的，看起来是这样的A4：不，它看起来像石头A5：不A6：我不，它看起来像是石头A2：不，它看起来像石头A3：是的，它看起来像砖A4：不，它看起来像混凝土A5：是的，它是砖A6：是的问：你能看到任何人吗？A：人初级协同A1：是的A2：1A3：1的一部分A4：1A5：是1A6：只是某人的A1：只是某人A2：只有一个人的腿A3：我能看到一个人的腿A4：只有腿A5：只有1的腿A6：是的Q：有建筑物吗？A：在背景中，我可以看到1初级协同A1：是的，在后台A2：是的，有A3：是的，在远处A4：是的，有1个在背景中A5：有A1：是的，卡车A2：是的，我看到一些。A3：是的，后面有一座建筑物A4：是的，公共汽车后面有一座建筑物A5：是的，我看到一座建周围有什么标志吗初级协同有树和动物吗？A1：无标志A2：没有迹象A3：没有迹象A4：没有A5：没有，我没有看到任何标志A6：没有，只有长颈鹿A1：没有，只有长颈鹿A2：没有，我没有看到任何迹象A3：没有迹象A4：没有迹象A5：没有迹象A6：没有初级A1：只有石头和草A2：没有草A3：没有植物或树木协同A1：没有植物或树木A2：我看到一些草A4：草或杂草，是的A4：只有石头和草A5：只是灰尘A6：我看到一些A5：无草A6：只是有人在他附近吗？初级A1：没有其他人可见A2：没有A3：照片上没有人A4：我看不出来A5：是的，还有一对饲料协同你能看出来现在还是晚上初级协同A1：是的，还有一个。对进给A2：我看不到A3：没有其他人可见A4：没有A5：照片A1：日A2：白天A3：白天A4：晚上A5：晚上A1：晚上A2：夜晚A3：白天A4：白天A5：白天桌子上写的是什么什么初级协同他们俩都戴着帽子？初级协同A1：木头A1：木头A1：3个人中有0个穿着A1：只有一个戴帽子A2：层压板A2：便宜的塑料或木头帽子A2：其中2人戴帽子A3：深棕色A3：层压A2：是的，该名男子是穿着A3：0的3个家伙都穿着A4：便宜的塑料或木材A4：深棕色帽子A3：其中两个戴帽子A4：是的，那个男人戴帽子A4：只有一个戴帽子图6.判别模型的定性比较图7.无候选答案的生成模型的定性比较这是因为生成方法通过其单词的乘积概率来计算每个答案的分数在同步阶段，克服了这个问题，因为额外的属性信息，例如，令人惊讶的是，我们的模型有时甚至可以产生比那些提供更好的答案，例如“只是某人的腿”与“只是某人的腿”。左下角图像中的“个人的一部分”和“卡车后面”与右下角图像中的“背景中”。6. 结论以往的输入-应答融合方法的局限性意味着它们不能正确地表示这些特征的公共向量。因此，他们省略了详细的-形成并专注于简短和安全的答案。在本文中，我们开发了一个协同网络，它可以在一个步骤中联合学习我们还改进了N对损失函数，以解决判别模型中的类不平衡问题我们最终提出的判别模型在Visual Dialog v1.0测试标准服务器上实现了最先进的性能我们的生成模型的结果也令人鼓舞。7. 确认这项工作得到了部分支持的澳大利亚研究理事会项目FL-170100117 、 DP-180103424 、 IH-180100002和DE-180101438.10444引用[1] Peter Anderson，Xiaodong He，Chris Buehler，DamienTeney，Mark Johnson，Stephen Gould，and Lei Zhang.自下而上和自上而下关注图像字幕和视觉问答。在CVPR，第3卷，第6页，2018年。3[2] Stanislaw Antol ， Aishwarya Agrawal ， Jiasen Lu ，Margaret Mitchell，Dhruv Batra，C Lawrence Zitnick，and Devi Parikh.Vqa：可视化问答。在IEEE计算机视觉国际会议论文集，第2425- 2433页一、二[3] SohenAuer ， ChristianBizer ， GeorgiKobilarov ，JensLehmann ， Richard Cyganiak 和 Zachary Ives 。Dbpedia：开放数据网络的核心。在语义网中，第722-735页。Springer，2007. 3[4] Abhishek Das 、 Satwik Kottur 、 Khushi Gupta 、 AviSingh、Deshraj Yadav、Jose MF Moura、Devi Parikh和Dhruv Ba- tra。可视化对话框。在IEEE计算机视觉和模式识别会议论文集，第2卷，2017年。二三五六七[5] Harm De Vries ， Florian Strub ，Sarath Pastar ， OlivierPietquin，Hugo Larochelle，and Aaron C Courville.你猜怎么着？！通过多模态对话的视觉对象发现。CVPR，第1卷，第3页，2017。3[6] HarmDeVries，FlorianStrub，Je're'mieMary，HugoLarochelle，Olivier Pietquin和Aaron C Courville。通过语言调节早期视觉处理。神经信息处理系统进展，第6594-6604页，2017年。2[7] Akira Fukui ， Dong Huk Park ， Daylen Yang ， AnnaRohrbach，Trevor Darrell，and Marcus Rohrbach.多模态紧凑双线性池的视觉问题回答和视觉接地。arXiv预印本arXiv：1606.01847，2016。二、三[8] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。在神经信息处理系统的进展，第26723[9] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页，2016中。2[10] SeppHochreiter和JürgenSchmidhube r. 长短期记忆。神经计算，9（8）：1735-1780，1997。2[11] Allan Jabri，Armand Joulin，and Laurens van der Maaten.重新审视视觉问答基线。欧洲计算机视觉会议，第727-739页施普林格，2016年。2[12] Unnat Jain，Svetlana Lazebnik和Alexander G Schwing。两个人可以玩这个游戏：可视对话与歧视性问题的产生和

下载后可阅读完整内容，剩余1页未读，立即下载