跨通道记忆网络解决视觉对话导航中的语言意图和历史导航动作问题

51 浏览量更新于2023-10-25 收藏 1.09MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1通过探索跨通道记忆的视觉对话导航朱毅1，朱凤达2，詹兆欢3，林炳乾3，焦晓1，常晓军2，梁晓丹3，41中国科学院大学2莫纳什大学3中山大学4暗物质人工智能公司摘要视觉对话导航是视觉语言学科中的一个新的圣杯任务，它的目标是学习一个具有与自然语言进行持续对话的能力的智能体，并根据人类的反应进行导航视觉-对话导航除了要解决视觉语言导航所面临的共同挑战外，还需要处理好对话历史中一系列关于时间语境的问题的语言意图，以及对话和视觉场景的协同推理在本文中，我们提出了跨模态记忆网络（CMN）的记忆和理解丰富的信息相关的历史航行行动。我们的CMN由两个记忆模块组成，语言记忆模块（L-RNN）和视觉记忆模块（V-RNN）。具体地说，L-SVM通过采用多头注意机制来学习当前语言交互和对话历史之间的潜在关系。V-mesh学习将当前的视觉视图与关于先前导航动作的跨模态记忆相关联。跨通道记忆通过视觉-语言注意和语言-视觉注意产生受益于L-RNN和V-RNN的协作学习，我们的CMN能够探索关于当前步骤的历史导航动作的决策的记忆CVDN数据集上的实验表明，我们的CMN优于以前的国家的最先进的模型的显着利润率在可见和不可见的环境。11. 介绍在自然语言处理和视觉场景理解的最新进展的推动下，视觉语言任务，如视觉问题分类（VQA）[3，1，10]和视觉语言导航（VLN）[9，2，23，13]已被广泛探索。最近的工作旨在开发一个认知代理，共同理解自然，*通讯作者1源代码在GitHub上公开：https：//github.com/yeezu/CMN.pytorch跨模态记忆图1：我们建议通过对语言交互和视觉感知的记忆进行协同推理来探索视觉对话导航语言和视觉场景。然而，这样的代理仍然远未用于现实世界的应用（例如，健康护理、智能辅导），因为它不考虑随着时间的推移与外部环境的连续交互。具体来说，VQA中的交互是代理将问题作为输入，并且需要回答关于给定图像的单个问题VLN中的智能体按照自然语言指令在3D环境中移动到目标。与VQA和VLN相比，视觉对话导航[31]更具挑战性，其中代理被放置在现实环境中，并需要通过使用自然语言对话与人类合作来找到目标对象为了实现导航目标（即，找到目标），代理询问问题（例如，左或右从10730问：我应该从哪里开始？A：右转，回到沙发后面问：我应该一直走还是左转？A：向左转，穿过门。{Mi，QtAtQ：我应该去厨房吗？A：对不起，直走。…10731在这里？）给他们的用户，说神谕，谁知道最好的行动，导航器应该采取。然后导航器根据回复做出动作（例如，进入卧室离开）从神谕。Thomason等人将协作视觉对话导航简化为通过对话历史（NDH）进行导航的任务，其中导航器和oracle之间的对话一个NDH代理开始移动，给出一个未指定的提示，这需要一系列的对话来解决。以前的工作[31]基于对话历史解决为了更好地理解当前对话中隐含的指令，代理不仅利用来自先前对话的上下文信息，而且还利用历史视觉基础信息。本文提出了一种跨模态记忆网络（CMN），用于开发NDH任务中Agent对与人的语言交互和对环境的视觉感知的CMN由两种内存模块组成。第一个模块是语言记忆模块（L-RAM），它利用导航者和预言者之间的对话历史来解决当前回合的问题和回答。L-SQL模块的目标是更好地理解来自知道最佳下一步的预言机的指令。第二个模块是视觉记忆模块（ V-MemoryModule，V-R），主要用于恢复导航过程中视觉场景的记忆。由L-标记产生的语境化表征用于召回关于导航器所经过的地方的视觉记忆。在CMN中，L-R和V-R在每一步协同使用来探索关于历史导航动作决策的记忆，这为当前响应所指示的导航指令的理解提供了我们的方法具有以下优点：1）不同于现有的视觉对话导航方法，预测每一个单独的行动，我们的CMN旨在恢复有关以前的行动的机密性。2)CMN学习捕捉语言和视觉信息之间的跨模态相关性，并很好地推广到看不见的环境。3)CMN简单而有效地解决了NDH的挑战任务，并且在CVDN数据集上的可见和不可见环境中的表现明显优于先前的最先进方法2. 相关作品视觉对话：NDH代理需要在每一轮基于对话历史重新求解当前对话。我们的工作涉及一些视觉对话方法[8，19，25，29，12，37，16]用于视觉共指消解。这些作品通过在单词或句子层面探索语言注意力来学习解析当前句子。[19]计算代词单词和对象标签，出现在以前的对话。[25，16，12]学会根据对先前对话的关注将当前问题置于上下文中。与视觉对话共享相同的视觉上下文不同，关于时间视觉视图的历史信息对于NDH代理是重要的我们的方法恢复了关于对话历史和先前视觉场景的跨模态记忆导航菜单：在视觉和机器人技术中的具体环境中导航的问题已经研究了很久[32，7，11]。尽管广泛的研究，体现导航问题仍然具有挑战性。已经提出了许多模拟3D环境来研究导航，例如Doom [17]，AI 2-THOR[18]和House 3D [36]。最近，深度强化学习[24，20，28]显示出其在噪声环境中进行鲁棒顺序决策的优势。因此，它被广泛应用于嵌入式导航。许多使用深度强化学习的作品在许多导航基准测试中取得了最先进的结果。[15，22]然而，缺乏真实感和自然语言教学限制了这些环境的应用。Armeni等人提出了Stanford 2D-3DS [4]，这是一种具有现实RGB-D和语义信息输入的嵌入式环境。安德森等 [2]提出房间到房间（R2R）数据集，这是第一个基于真实图像的视觉语言导航（VLN）基准[6]。VLN任务由于其广泛的适用性和挑战性而引起了广泛的关注早期的工作[35]结合了无模型[24]和基于模型[27]的强化学习来解决VLN。 Fried等提出了一个用于监督学习中数据增强和推理的说话人跟随框架。此外，提出了“全景动作空间”的概念，后来的工作[34]发现将模仿学习[5，14]和强化学习[24，28]结合起来是有益自我监测方法[21]被提出来估计实现目标的进展。研究人员已经发现了训练数据和测试数据之间存在的领域差距。提出了无监督预探索[34]和环境丢弃[30]来提高泛化能力。丰富的信息通过几个自我监督的辅助推理任务来探索[38]，以改善导航过程中的视觉基础。与VLN相比，NDH任务的挑战在于两个方面：1）VLN的语言指令清楚地描述了达到目标所必需的步骤，而NDH代理被给予了一个模糊的提示，需要探索和对话来解决。2)VLN的轨迹是顺序的，而由每个对话的子轨迹组成的NDH轨迹是分层的。CMN捕获子轨迹之间和内部的层次相关性，并探索关于历史行为的跨模态记忆，以帮助更好地解决10732--t，st，s−1t，s−1A（e⊙··v=年代我对话框然而，目前的VLN方法寻求感知的语言和视觉场景顺序。视觉对话导航：通过对话历史（NDH）导航的任务最近由[31]提出，使智能助理能够通过自然语言和Fi与用户进行持续的通信和合作。最终实现他们的目标。该任务的现有方法遵循经典的序列到序列公式，开始于引入该任务的初始工作[31]。该方法对每一步的动作都是独立预测的，未能探索前一步决策的相关信息，从而误导了对当前指令和观察的理解。通过探索智能体与人和环境交互的跨模态记忆，我们的方法改进了V-100模块。L-学习器学习参加相关的会话对话以探索给定对话Dt=（Qt，At）中的上下文信息。V-ESTA学习回忆前一步的跨通道记忆，用于当前场景的视觉感知3.2.特征表示语言特点：我们首先将每个单词嵌入到当前对话中Dt到wt ，1，.，wt ，T通过使用预先训练的GloVe [26]嵌入，其中N表示Q t和R t中的令牌数量之和。然后采用两层LSTM生成隐藏状态{ht，1，...， ht，T}。每个对话的特征Dt是LSTM的最后一个隐藏状态ht，T，表示为dt∈RL：的导航性能，并使其解释的代理决策过程。{ht，1，...，ht，N}=LSTM（{wt，1，...，wt,N})dt=h t，N（一）3. 方法其中L是包含问题和答案的对话句子的最大长度。同样，对话历史在本节中，我们将简要介绍按历史数据导航（NDH）任务，并定义将Ht被嵌入在Eq. 1，生成{dt−1i}i=0∈Rt×L。在SEC的文件中使用。第3.1条在第二章中，我们介绍了语言和图像的特征表示。3.2.在第二节中，我们介绍了所提出的跨模态记忆网络（CMN）的视觉记忆模块（V-R）和3.3和Sec. 三点四分。3.1. 问题设置根据NDH任务，对话通常以未指定的、模糊的指令开始（例如，去找表），这需要进一步澄清。对话提示是一个元组（S，to，p0，Gj），它包含房屋扫描S、要找到的目标对象to、起始位置p0和目标区域Gj。在每一轮通信中，导航员问一个问题Q，并得到一个回复。图片特点：对于每个视觉帧，我们使用全景表示进行导航。全景视图被分成36个不同视图的图像块，结果-在轮t的第s步处输入全景特征Vt，s={Vt，s，i}，Vt，s，i∈R2048，其中Vt，s，i表示视点i处的图像块的预训练CNN特征。3.3. 视觉记忆我们期望导航者通过记住先前关于环境的跨模态记忆来做出当前的决定在这里，我们引入V-ESTA来恢复导航过程中的前交叉通道记忆，以帮助生成当前视觉感知的记忆感知表征。首先，我们使用最终的跨模态编码从甲骨文中sponseR，然后预测导航AC。vlmt，s−1前一步s-1的参与全景A. VDN的每个样本由重复的序列组成序列，k轮特征Vt，s，所得到的存储器感知特征Vm描述了先前决策与的互动。对于每个带有提示符（S，t0，p0，Gj）的对话框，目前的观点。我们首先投射出evlm而Vt，s到cdi-为以下每一项创建视觉对话框导航实例：0≤i≤k。输入是一个关于目标的提示，对话历史Ht={D1，...，Dt−1}在第t轮，mensions并计算软注意力Avis如下：X=fv（evlm）<$fvlm（vt，s，i）（二）对话框，其中Di=（Qi，Ri）。给定问题设置，NDH的建议CMNvisVLMt，s−1 ，vt，s，i）=σ（X）/σc，可以被构造成编码器-解码器架构：（1）编码器，其探索关于导航器和目标之间的历史通信Ht的语言记忆，生成Dt的情境化表示。(2)- 解码器，其首先回看导航器的先前视图以帮助解析当前对话，然后将由跨模态存储器增强的表示转换到导航动作空间A中。图2显示了一个概览其中fv（）和fvlm（）表示将输入转换为c维的两层多层感知器。σsoftmax函数表示Hadamard乘积（即，逐元素乘法）。然后，我们计算内存感知表示，其中包含关于基于注意力Avis的先前动作决策的信息：Σs不CMN的体系结构，它由L-BLOG和memt，si=1Avisvt，s，i.（三）e10733视觉记忆1，0、 1…，，关注关注语言记忆1…X，，下一步C句子编码解码器关注关注句子编码t，st，st t ii=0--不不n∈nn∈n目标对象：图片提示：在房间里找一张照片对话历史候选人当前对话问：我需要离开这个房间，进入旁边的房间吗？答：是的，另一个房间。视觉视图俄罗斯人152先前步骤��，图2：用于视觉对话导航的跨模态内存网络（CMN）概述。每个步骤的全景视图首先被馈送到CNN（例如，Resnet152）以获得全景表示。然后根据前一步的动作决策，融合各视图的全景特征，形成视觉记忆。嵌入当前对话以参与对话历史编码以构造上下文化表示。其次是两种跨通道注意，语言-视觉注意以视觉记忆和dctx为输入，产生evm，然后是视觉-语言注意t t，s将eVM和语言记忆作为输入，以生成用于从候选者预测动作的最终编码。通过在关于先前动作的记忆和当前视图之间应用注意力来计算V-视图的输出表示vmRK3.4. 语言记忆在本节中，我们正式描述了语言记忆-其中N个注意头中的每一个的输出是连续的，通过应用残余连接，接着进行层规范化，来计算当前对话数据的链接化和上下文化表示。然后，将数据馈送到两层非线性多层感知器（flan），随后是层归一化和残差连接，如：ory（L-C）模。根据目前的问答Dt和对话历史功能，L-task模块的目的是dt=LayerNorm（flan（dt）+dt），（五）去记忆那些最相关的对话历史上关于当前回合的对话。具体来说，我们首先在多头设置中计算缩放点积注意力（Attention）[33]，称为多头注意力。设d和M=ht-1分别为当前对话和对话历史特征向量，活泼地可训练权重W Q、W K和W V∈ RL× c用于将dt和Mt投影到c维的特征中，锡永在我们的实验中，维度c被设置为512。然后，我们计算dt对对话存储器Mt的每个元素的注意力Alan为：Alan（d，h）=softmax（（d WQ）（h WK）T）/softmaxc，dctx=concat{dt，dt}.然后，我们通过连接虚拟表示dt和原始对话表示dt来获得存储器感知表示，表示为dctxR2L。建造-利用多头注意机制，L-会话可以被堆叠在多个层中以获得对话历史的上下文的高级抽象。3.5. 跨模态记忆在分别考察了与注意模块的视知觉和语言交互记忆后，nt i.Σtdt=concatN不nin ΣAlan（dt，hi）WVhi，（四）进一步引入跨通道注意来探讨自我-语言和视觉系统之间的密切联系。我们首先通过杠杆来完成语言对视觉的注意n=1n ni=0时老化最后一个对话框的内存感知表示d= LayerNorm（d+d），dctx通过缩放的点参与视觉记忆Vmt t t tt t，sQ1：我应该去客厅还是走廊？A1：走进客厅。第1章：我要上楼吗A-1：上楼，直到你到达顶部。………10734t，s··t，s不不t，st，sℎ��对话视觉场景轨迹图3：Eq中多头注意力的说明4.第一章N表示注意力头的数量。产品注意事项为：evm= Attention（dctx，{vm，.， vm}）。（六）图4：每个NDH实例的语言和视觉记忆的合作说明。语言记忆收集每一轮导航者与预言者之间的对话，而视觉记忆则恢复前一轮导航步骤的跨通道记忆。3.6. 动作解码器t，stt，0t，s通过对coop视觉记忆提供补充信息，以前的视图，这使得导航器能够更好地理解场景。然后，我们计算视觉-语言注意力，以生成最终的跨通道记忆编码evlm，如下所示：通过语言指令和可视视图两者的操作，导航器能够更好地理解来自对话历史和先前视图之间的时间对准的历史决策，这为当前步骤的动作预测提供了丰富的上下文信息，如：evlm = Attention(evm,{dm,..., dm}）。（七）a_t，s=σ（fm（evlm）），t，st，s0tt，s（八）在这里，语言记忆被合并了两次。第一次是在EQ。第二次是在Eq。7 .第一次会议。这两种合并的区别在于三个方面。首先，dctx是最后一个对话框特征d的串联at，s=softmax（fa（at，s））其中fm（）和fa（）是将evlm从K+L维投影到K的单层线性变换，tt，并将at，s从K维投影到M维以及先前对话历史的注意力加权特征Ht.因此，主导语义来自最后一个对话dt，即dctx为dt提供上下文化信息。与此相反，跨通道记忆感知表征（cross-modalmemory-aware representationevlm exploit）发现了视觉记忆与所有现有对话之间的相关性。其次，计算dctx的目的是帮助导航员更好地理解来自oracle的当前响应，而evlm的目的是学习视觉记忆和语言指令之间的对齐，捕捉时间相关性以获得更好的视觉基础。最后，Eq. 6和视觉语言注意力在Eq。7在视觉和语言语境之间构建了一条封闭的推理路径，为动作预测提供了丰富的跨通道记忆信息在图4中，我们描述了导航员的语言记忆和视觉记忆为NDH任务的每个实例维护语言存储器，解决了Oracle的二义性指令。相反，视觉记忆在每一轮中被收集以捕捉时间视觉线索，这可能有利于视觉基础。如图所示。2、通过探索视觉记忆和语言记忆之间的跨通道注意所产生的编码来预测每一步的动作。也就是动作的数量在文献[9]的基础上，我们采用了具有图像全景特征的全景动作空间.在下一步中，代理需要从视觉视图的全景特征中选择候选者。4. 实验在本节中，我们首先介绍实验设置，包括CVDN数据集、评估指标和实施细节，4.1. 然后，我们将所提出的跨模态记忆网络（CMN）与第二章中的一些最先进的方法和几个基线模型进行了比较。4.2节中的消融研究四点三。最后，我们在SEC中展示了定量结果。4.44.1. 设置数据集：我们在CVDN数据集上评估了我们的模型，该数据集收集了83个MatterPort房屋中的2050个人-人导航对话和超过7 k个轨迹[2]。每个轨迹对应几个问答交流。该数据集包含81种独特类型的家居物品，每种类型至少出现在5所房屋中，并且每所房屋出现2至4次。每个对话都以一个模棱两可的指令开始，随后的问答MatMulConcat��መ��我应该进大厅吗？我应该上楼吗？向左进入大厅。是的，上楼去。交叉模态存储器V型线左旋咪唑MatMul规模SoftmaxQ��ℎ��ℎ10735方法瓦尔·西恩Val Unseen未观察到的试验Oracle导航器混合Oracle导航器混合Oracle导航器混合最短路径代理（Shortest PathAgent）8.297.639.528.367.999.588.068.489.76基线（随机药剂）0.420.420.421.091.091.090.830.830.83基线（仅限视力）4.125.585.720.851.381.150.991.561.74基线（仅对话框）1.411.431.581.681.391.641.511.201.40序列到序列模型[31]4.485.675.921.231.982.101.252.112.35CMN（我们的）5.476.147.052.682.282.972.692.262.95表1：目标进度（m）的绩效比较。在训练中使用不同的结束路径监督。Oracle表示计划者路径，Navigator表示参与者路径，Mixed表示可信路径。方法瓦尔·西恩Val UnseenGP（m）OSR（%）SR（%）OPSR（%）GP（m）OSR（%）SR（%）OPSR（%）Seq-to-seq [31]5.9263.836.972.72.1025.313.733.9VLN基线[9]6.1558.933.069.42.3035.519.745.9CMN，不带V-BLOCK6.3361.330.972.32.5236.720.548.4CMN（不含L-精氨酸）6.4758.631.968.62.6439.120.550.4CMN（我们的）7.0565.238.576.42.9740.022.851.7表2：NDH的几个流行基准的性能比较。我们在CVDN数据集上训练了一种视觉语言导航方法，性能报告为VLN基线。我们还展示了我们的CMN的L-100和V-100模块的烧蚀研究导航器和Oracle之间的交互将引导导航器找到目标。评估指标：在视觉语言导航和视觉对话框导航的基础上，我们使用了四个流行的指标来从不同的方面评估所提出的方法：（1）成功率（SR），距离目标位置小于3米的最终位置的百分比。(2)Oracle SuccessRate（OSR），如果Agent可以在其轨迹上最接近目标的点处停止，则表示成功率。(3)目标进度（GP），智能体朝向目标位置的平均进度。（ 4）Oracle PathSuccess Rate（OPSR），如果代理可以沿着最短路径在离目标最近的点处停止，则成功率。注意，如果最短路径不用于监督（即，混合路径或导航器路径）。不同的监督：CVDN数据集中的导航器路径是从扮演导航器角色的人那里收集的，而Oracle路径是由最短路径规划器同时生成的。导航任务中智能体的典型监督是由最短路径定义的，这与CVDN数据集中给出的oracle路径相同。然而，在现实的情况下，即使是人类的示范与神谕之路相比也可能是不完美的。因此，CVDN数据集还提供了一种新的监督形式，称为混合监督路径。当导航器和oracle的结束节点相同时，混合监督路径被定义为导航器路径，否则为oracle路径。实施详情：我们使用Adam优化器在PyTorch中进行训练，并将学习率设置为0.0001。我们使用学生强制训练所有代理，进行20000次批量大小为60的迭代，并每100次迭代评估验证性能。对于验证折叠，报告了所有时期的最佳性能。导航器在每个时间步将其预测动作移动一个步长。然后，交叉入口损失被应用到一个节点和一个节点，这是沿着最短路径到目标的n个动作在单个Titan 1080Ti设备上，整个训练过程需要花费24.2. 定量结果比较模型：我们将我们提出的CMN与几个基线和最先进的方法进行比较：（1）最短路径Agent在推理时采用到达监督目标的最短路径，并代表Agent的导航性能上限。(2)随机代理选择一个随机的方向，并向前走5步（如[2]）。(3)“仅视觉”基线，其中座席考虑具有空语言输入的视觉输入(4)仅对话框基线，其中代理考虑具有归零视觉特征的语言输入。(5)在[31]中提出的序列到序列模型，其中历史对话框被连接以形成单个指令，如在视觉语言导航模型[2]中。与以前的方法比较：如Tab所示。1，我们提出的CMN在目标进度（m）上优于先前的最先进方法[31]，不同的监督（例如，规划者路径（Oracle）、玩家路径（Navigator）和可信路径（Mixed）），展示了我们的方法在所探索的环境中建立视觉元素的能力。当在Val Unseen上进行评价时10736t，s−1×××−t，s−1V型线左旋咪唑VL-100目标过程（m）✓✓✓2.95✓✓2.74✓✓2.04✓✓2.54表3：针对我们提出的CMN的不同类型的记忆信息的消融研究，包括视觉记忆、语言记忆和跨模态记忆。和Test Unseen数据，我们的CMN和seq-to-seq方法之间的差距也很大，表明CMN可以很好地推广到未探索的环境。4.3. 消融研究我们在Tab中的Val集合上烧蚀V-R和L-R模块2和表3中的测试集。基线：在第一行中，我们通过直接使用连接的对话历史作为语言输入来从VLN执行基线。VLN基线和序列到序列模型之间的差异是两倍。首先，Seq-to-seq模型使用1 2048个特征向量来表示每个全景图像，而基线VLN中使用的视觉特征的维度对于全景图像的所有36个视图是1 36 2048其次，Seq-to-seq模型中的动作空间是低级视觉空间，其中动作的预测是3-d logit。相比之下，基线VLN使用全景动作空间，其中代理对场景有完整的感知并直接执行高级动作。我们的框架是建立在基线VLN与全景视觉功能和全景动作空间。不同内存模块的影响：我们通过直接平均每个全景视图的视觉特征来禁用V-SVM模块。在选项卡中。2、Tab。3我们可以看到，当模型失去对先前导航步骤的视觉记忆时，性能下降。我们在这里使用平均特征的原因是平均特征比最后一个记忆特征更混乱和无用，因为较近的记忆比较早的记忆与当前状态更相关，这有助于我们在消融研究中禁用记忆模块的大部分功能。为了去除L-mapping模块，我们用最后一个问答句中的词级上下文替换语言交互的记忆感知表征。可以在Tab中看到。2、Tab。3.当去掉语言记忆模块时，我们的方法的性能显著下降，表明语言记忆对于理解Oracle指令是至关重要的。在选项卡中。3、我们还设置了输出关于代理做出的先前动作决定的信息结果表明，当跨模态记忆丢失时，模型的性能会下降。关于记忆中的时间顺序的讨论：如图所示。2，CMN通过恢复跨模态记忆e vlm来预测步骤s处的动作，该跨模态记忆evlm表示关于步骤s 1处的先前导航动作的决策的记忆。从这个角度来看，跨通道记忆的时间顺序的信息我们进一步考虑A更明确的方式，直接连接的顺序和内存功能的嵌入。性能与隐式方法相当。4.4. 定性结果为了了解我们提出的CMN如何执行可视化dilog导航任务，我们在图中可视化了两个定性示例。五、第一个示例包含一轮对话，其中包含八个导航步骤。我们可以看到，该智能体成功地达到了目标，从甲骨文的自然语言响应的全面理解，表明我们的方法也是兼容的VLN任务。在第二个例子中，导航器和oracle之间有五轮对话。在第一轮通信中，导航器向下移动两步到走廊，这要求导航器在理解语言指令的同时正确地识别视觉元素，包括床、走廊和楼梯在第三轮沟通中，神谕建议航海家我们的CMN探索通过参考对话历史来解决特定含义，即前面步骤的反向导航操作，以更好地在第三轮的步骤1中，导航器返回大厅。最后，它找到目标“毛巾”。由于我们提出的跨通道记忆可以帮助恢复先前步骤和交互的视觉和语言记忆，导航器可以解决模糊的指令5. 结论在这项工作中，我们提出了跨模态记忆网络（CMN），以解决具有挑战性的任务，视觉对话导航，通过探索跨模态记忆的代理。语言记忆可以帮助智能体更好地理解基于通信上下文的预言机的响应。视觉记忆旨在探索先前导航路径上的视觉基础信息，为视图提供时间相关性。本-我们的编码器（evlm图2）为零值以消除得益于视觉和语言的结合跨模态记忆上下文（VL-CSTR）。VL-导航可以被视为历史导航的高级抽象，记忆，CMN被证明是实现不断改进的流行基准视觉对话导航，特别是当推广到看不见的环境。10737图5：使用我们提出的跨模态记忆网络的视觉对话导航示例红色箭头表示预测的操作，黄色框表示目标。最好用彩色观看。谢谢。本工作得到国家重点研发计划项目资助，项目编号：2018 AAA 0100300，国家自然科学基金-国家自然科学基金U19A2073、61976233、61836012、61771447号和深圳市自然科学基金2019191361号。10738引用[1] Peter Anderson，Xiaodong He，Chris Buehler，DamienTeney，Mark Johnson，Stephen Gould，and Lei Zhang.自下而上和自上而下关注图像字幕和视觉问答。2018年IEEE/CVF计算机视觉和模式识别会议，第6077- 6086页，2018年。1[2] Peter Anderson，Qi Wu，Damien Teney，Jake Bruce，Mark Johnson ， Niko Sunderhauf ， Ian Reid ， StephenGould，and Anton van den Hengel.视觉和语言导航：在真实环境中解释视觉基础的导航指令。 2018 年IEEE/CVF计算机视觉和模式识别会议，第3674-3683页，2018年。一、二、五、六[3] Stanislaw Antol ， Aishwarya Agrawal ， Jiasen Lu ，Margaret Mitchell，Dhruv Batra，C.劳伦斯·齐特尼克和德维·帕里克Vqa：可视化问答。在2015年IEEE国际计算机视觉会议（ICCV），第2425-2433页，2015年。1[4] 艾罗·阿尔梅尼、萨沙·萨克斯、阿米尔·罗山·扎米尔和西尔维奥·萨瓦雷塞。结合2d-3d语意资料于室内场景理解。arXiv预印本arXiv：1702.01105，2017。2[5] MariuszBojarski ， DavideDelTesta ， DanielDworakowski ， Bernhard Firner ， Beat Flepp ， PrasoonGoyal ， Lawrence D. Jackel ， Mathew Monfort ， UrsMuller ， Jiakai Zhang ， Xin Zhang ， Jake Zhao ， andKarol Zieba.自动驾驶汽车的端到端学习。arXiv预印本arXiv：1604.07316，2016。2[6] Angel Chang、Angela Dai、Thomas Funkhouser、MaciejHal- ber 、 Matthias Niebner 、 Manolis Savva 、 ShuranSong、Andy Zeng和Yinda Zhang。Matterport3d：室内环境中rgb-d数据的学习。在2017年3D视觉国际会议（3DV），第667-676页，2017年。2[7] Abhishek Das、Samyak Datta、Georgia Gkioxari、StefanLee、Devi Parikh和Dhruv Batra。具身问答。2018年IEEE/CVF计算机视觉和模式识别研讨会（CVPRW），第12[8] Abhishek Das ， Satwik Kottur ， Khushi Gupta ， AviSingh ， Deshraj Yadav ， Jose M. F. Moura ， DeviParikh，and Dhruv Batra.可视化对话框。2017年IEEE计算机视觉与模式识别会议（CVPR），2017年。2[9] Daniel Fried 、 Ronghang Hu 、 Volkan Cirik 、 AnnaRohrbach 、 Jacob Andreas 、 Louis-Philippe Morency 、Taylor Berg- Kirkpatrick 、 Kate Saenko 、 Dan Klein 和Trevor Darrell。用于视觉和语言导航的说话者跟随者模型。NIPS 2018：第32届神经信息处理系统，第3314-3325页，2018年一、五、六[10] Akira Fukui ， Dong Huk Park ， Daylen Yang ， AnnaRohrbach，Trevor Darrell，and Marcus Rohrbach.多模态紧凑双线性池的视觉问题回答和视觉接地。2016年自然语言处理经验方法会议论文集，第457-468页，2016年。1[11] Chuang Gan，Yiwei Zhang，Jiajun Wu，Boqing Gong，and Joshua B.特南鲍姆看，听，做：去-面向视听体现导航。arXiv预印本arXiv：1912.11684，2019。2[12] Zhe Gan，Yu Cheng，Ahmed Kholy，Linjie Li，JingjingLiu，and Jianfeng Gao.视觉对话中经由循环双重注意的多步推理。在ACL 2019：第57届计算语言学协会年会，第6463-6474页，2019年。2[13] Saurabh Gupta、Varun Tolani、James Davidson、SergeyLevine、Rahul Sukthankar和Jitendra Malik。视觉导航的认知绘图与规划。arXiv预印本arXiv：1702.03920，2017。1[14] Jonathan Ho和Stefano Ermon。生成对抗性模仿学习。arXiv预印本arXiv：1606.03476，2016。2[15] Max Jaderberg 、 Volodymyr Mnih 、 Wojciech MarianCzar-necki、Tom Schaul、Joel Z Leibo、David Silver和Koray Kavukcuoglu。无监督辅助任务的强化学习。在ICLR 2017：2017年国际学习代表会议，2017年。2[16] 姜基天，林在修，张培德。视觉对话中视觉参考解析的双注意网络。2019年自然语言处理经验方法会议，第2024-2033页2[17] Micha Kempka ， Marek Wydmuch ， Grzegorz Runc ，Jakub Toczek，and Wojciech Jakowski. Vizdoom：一个基于Doom的人工智能视觉强化学习研究平台arXiv预印本arXiv：1605.02097，2016。2[18] Eric Kolve、Roozbeh Mottaghi、Daniel Gordon、YukeZhu、Abhinav Gupta和Ali Farhadi。ai 2-thor：一个交互式的3d环境。arXiv预印本arXiv：1712.05474，2017。2[19] Satwik Kottur ， Jos M. F. Daha ， Devi Parikh ， DhruvBatra，and Marcus Rohrbach.基于神经模块网络的视觉对话中的视觉共指消解。在欧洲计算机视觉会议（ECCV）的会议记录中，第160-178页，2018年。2[20] 放大图片作者：Timothy P. Hunt，Alexander Pritzel，Nicolas Heess，Tom Erez，Yuval Tassa，David Silver，and Daan Wierstra.深度强化学习的持续控制，2016年。2[21] Chih-Yao Ma ， jiasen lu ， Zuxuan Wu ， GhassanAlRegib，Zsolt Kira，richard socher，and Caiming Xiong.通过辅助进度估计的自我监控导航代理。在ICLR2019：2019年第七届学习代表国际会议。2[22] Piotr Mirowski、Matthew Koichi Grimes、Mateusz Ma-linowski、Karl Moritz Hermann、Keith Anderson、DenisTeplyashin 、 Karen Simonyan 、 Koray Kavukcuoglu 、Andrew Zisserman和Raia Hadsell。学会在没有地图的城市里导航。arXiv预印本arXiv：1804.00168，2018。2[23] Piotr Mirowski、Razvan Pascanu、Fabio Viola、HubertSoyer、Andy Ballard、Andrea Banino、Misha Denil、Ross Goroshin 、 Laurent Sifre 、 Koray Kavukcuoglu 、Dharshan Kumaran和Raia Hadsell。学会在复杂环境中导航在ICLR 2017：2017年学习代表国际会议，2017年。1[24] 放大图片作者：Volodymyr Mnih，Adri PuigdomnechBadia ， Mehdi Mirza ， Alex Graves ， Tim Harley ，Timothy P. Lillicrap，David Silver，Koray Kavukcuoglu.异步方法，10739深度强化学习在ICML2[25] Yulei Niu ， Hanwang Zhang ， Manli Zhang ， JianhongZhang，Zhiwu Lu，and Ji-Rong Wen. 视觉对话中的递归视觉注意。在IEEE计算机视觉和模式识别会议论文集，第6679- 6688页，2019年。2[26] Jeffrey Pennington，Richard Socher，Christopher D.曼宁Glove：单词表示的全局向量。在2014年自然语言处理经验方法会议（EMNLP）中，第15323[27] 放大图片作者： David P. 作者：李玉佳，李文 .Battaglia ， Demis Hassabis ， David Silver ， and DaanWierstra.用于深度强化学习的想象增强代理。神经信息处理系统的进展，第5690-5701页，2017年。2[28] John Schulman，Filip Wolski，Prafulla

下载后可阅读完整内容，剩余1页未读，立即下载