没有合适的资源?快使用搜索试试~ 我知道了~
1594一种用于现实世界视觉对话导航的自激励通信AgentYiZhu2*,YueWeng1*,FengdaZhu3,XiaodanLiang1†,QixiangYe4,YutongLu1,JianbianJiao41中山大学2诺亚3莫纳什大学4中国科学院大学摘要视觉对话导航(VDN)需要一个代理提出问题,并根据人类的反应进行导航,以找到目标对象。传统的方法只允许在预定义的位置上提问,这是建立在昂贵的对话注释上的,并且不方便真实世界的人与机器人的通信和合作。在本文中,我们提出了一个自激励的通信代理(SCoA),学习是否和什么沟通,以获得指导性的信息,实现对话注释自由导航和增强在现实世界中不可见的环境中的可移植性。具体来说,我们引入了一个是否要问(WeTA)政策,以及选择哪种行动的不确定性,以表明代理是否应该问一个问题。然后,提出了一个什么问(WaTA)的政策,其中,随着预言机的答案,代理学习评分的问题候选人,以便拿起最翔实的导航,同时模仿预言机的回答。因此,即使在人类帮助通常不可用的现实世界环境中,代理也可以以自我问答的方式SCoA通过在统一的模仿学习和强化学习框架中对通信和导航进行联合优化,在必要时提出问题,获得引导Agent以较少的通信代价向目标移动的提示在可见和不可见环境上的实验表明,SCoA不仅显示出优于没有对话注释的现有基线的性能,而且与基于丰富对话注释的对应物相比也显示出竞争结果。1. 介绍自然语言的丰富性和普遍性显着促进了导航任务的繁荣,其中鼓励智能体在室内环境中导航以到达目标[1,27,3,34]。特别是视觉对话导航(VDN)[26,35,20,18],其中*同等贡献。†通讯作者。是否要问?是的,我会的表问什么?问:走向桌子是正确的吗?A:是的,它是!表房间是否要问?不!不!不!目标:电视检测到的对象可导航节点图1:我们的自我激励通信代理(SCoA)学习是否以及如何与人类自适应地进行通信,以获取指导导航的指导信息,而无需使用任何对话框注释。可以以人机通信的方式进行问答对话,以便于导航,在视觉导航领域引起了越来越多的关注最前沿的实践是在大量对话框注释的前提下实现VDN,并且对话框在导航过程中出现在手工制作的位置。例如,[26,35]需要提前在环境的固定位置注释问答对,以帮助智能体训练。相反,Romanet al. [20]利用这些对话注释来预训练语言模型,然后将其插入导航模型,以在每个给定的步骤间隔生成对话在[18]中,只有当代理进入预先注释的助理区域时,对话才会发生,在该区域中,由oracle提供强语言指令和图像视图以引导代理向目标移动。尽管取得了进展,但现有研究中所需的大量对话注释导致了两个主要缺点,阻碍了经过训练的代理在现实世界中的部署:首先,通信是不灵活的,因为代理仅被允许在可能包含由注释者引起的偏见的预定义位置处提问,而不是在需要通信时提问。其次,学习成本是昂贵的,因为现有的方法是建立在大量的劳动密集型对话框注释。为了解决上述问题,我们认为,代理应该能够自适应地与oracle通信,如果必要的话,1595并且这样的通信应当建立在没有或更少的人工注释的对话上,以适合现实世界的应用。为此,我们提出了自我激励的通信代理(SCoA),其中,如图所示1、学习决定是否与人通信以及与人通信什么,以在不确定要去哪里时获得指导导航的指导性反馈如图2,我们的SCoA包括两个主要组件,包括一个是否要问(WeTA)模块,它学习预测是否与预言机通信,和一个问什么(WaTA)模块,它学习生成一个信息性问题,以走向目标。具体来说,WeTA的目标是学习一个概率,当不确定要采取哪种行动时,该概率用于建议代理与oracle通信。我们建议通过计算动作概率分布的熵来对不确定性进行至于WaTA,它首先基于一小组方向相关句子作为参考1来实时生成一些问题候选,以摆脱昂贵的对话注释。通过考虑目标的语言信息和视图的视觉信息的特征,我们建立了一个问题得分向量,以挑选出最有益的问题导航。通过考虑问题候选的特征和由预言机观察到的最佳下一步视图,进一步引入答案分数向量,其充当教师来指导问题分数的学习通过这种方式,我们的智能体可以以自我问答的方式导航,即使人类在现实世界中看不见的环境中也是不可见的。除了在每个导航步骤是否询问的不确定性约束之外,我们在统一的模仿学习和强化学习框架中制定了通信和导航,该框架还配备了通信频率惩罚和导航进度奖励。因此,代理可以以尽可能少的通信成本到达目标。本文的主要贡献有三个方面:• 我们的SCoA通过学习自适应地确定是否与人类通信以及与人类通信什么以获得导航的指导性反馈来解决现实世界视觉对话导航• 在模仿学习和强化学习的统一框架下,对通信和导航进行联合优化,以较少的通信代价驱动智能体到达目标位置.• 我们的SCoA的性能被证明是优于基线,而不使用对话注释,甚至与同行1我们的句子集的大小约为20,与现有研究中的一万个对话注释相比,这是一个数量级的减少。丰富的对话框注释,这证明了我们的SCoA生成导航信息问题的能力2. 相关工作视觉语言导航。 与以人机通信方式实现导航的VDN任务不同,视觉语言导航(VLN)[1,27,3,25,33,34,12]要求智能体解释一次性的自然语言指令以到达目标。为了促进社区发展,安德森等人。 [1]介绍了第一个VLN基准测试,同时考虑了照片般逼真的环境和人类自然语言。从那时起,已经提出了各种方法RCM [27]加强了跨模态接地,并结合了自监督模仿学习以增强泛化能力。为了克服有限的可见环境,Fried等人。 [3]引入了扬声器模型和全景表示来增强数据,而EnvDrop [25]产生环境,路径和指令的新的路径和指令以自我监督的方式生成。Hao等人[5]补充了大量图像-文本-动作三元组的预训练模型,用于视觉环境和语言指令的通用表示对象导航。对象导航需要智能体在不与人类用户合作的情况下准确有效地探索房间并找到目标对象[28],这也与机器人-人类VDN任务不同。 Shen等人 [23]设计了一种融合方案,用于实现包括RGB特征、深度特征、分割特征等在内的各种视觉表示。为了学习本地移动机器人导航的视点和目标不变视觉伺服,Li等人。[11]以端到端的方式训练基于Q学习的网络,这也有助于提高性能的鲁棒性。一个分层的两层结构,提出了叶等。 [31]其中高级层规划子目标,低级层规划原子动作以实现目标位置。在[14]中,3D知识图和子目标被集成到统一的强化学习框架中。通过提问学习。最近的进展是- yond导航也学会了通过问问题来完成他们的任务的oracle [16,10,21,30 , 20 , 2 , 22] 。 例 如 , Vries 等 人 [2] 引 入 了GuessWhat?!游戏通过询问一系列与物体相关的问题来定位给定图像中的未知物体。Shen等人 [22]通过生成与标题相关的问题来学习一生中的图片标题。一个决策者被引入到学习什么时候提出问题,通过隐式推理的不确定性的代理和专业知识的教师。类似于传统的VDN任务[26,18,35,20],这些开发也遭受不灵活的通信和昂贵的注释成本。相比之下,我们的SCoA与这些1596不不不Q˜˜∈∈i=1一联系我们联系我们在房间里找个床头柜目标当前状态���⨁WeTA指导行动解码器…视觉视图SCOA如果问WaTA反馈…一是的,你应该这样做。OracleWha tT oA sk(WaTA)问题候选人���图2:SCoA的培训概述在每个步骤中,WeTA学习预测询问的概率bt,由动作分布pa的熵监督,该熵测量代理对如果询问,WaTA首先生成问题候选,然后考虑语言嵌入to和视觉特征Xt来学习这些候选的问题分数αt。此外,由观察到最优下一步的预言者提供的问题的答案得分αA用于指导αQ。因此,我们的代理可以在一个自我问答的方式,即使在现实世界中的甲骨文是不可用不仅任务域中的方法,而且通信方案中的方法,其中是否与Oracle通信以及与Oracle通信什么是自适应的,而不涉及劳动密集型对话注释。3. 方法3.1. 预赛问题定义。 给定房屋扫描和起始位置,当智能体变得困惑并且不知道该做什么时,智能体需要通过与oracle通信来在目标区域中找到目标。在本文中,Agent需要在没有任何问题注释的情况下决定是否询问以及询问什么。 我们通过单词嵌入对目标to进行编码以获得特征toRdw,并且d w被设置为300。在第t个步骤,代理接收全景视图,然后根据它们的摄像机航向角和仰角将全景视图划分为N = 36个子图像。每个图像由特征向量t或xt , i 表 示从预先训练的Resnet-152 [6]中提取的R d f,附加有关于相机的航向和高度的嵌入。 df被设置为2048。 整个特征集表示为Xt=Xt,iNRN×df. 代理从动作集合t预测动作a t,该动作集合t由当前可导航的视点组成。另外,可以航行的风景-点 要 素 集 表 示 为 Zt=Zt , i|iA=|1R| 的 t| ×df ,也从ResNet-152中提取。学习框架。现有研究[26,35,20]中的VDN问题通常使用强化学习进行优化,其中仅导航动作预测它被组织成一个策略πµ(参见第二节)。3.3)。为了支持我们的自我激励通信的动机,以在现实世界的不可见环境中实现对话无注释导航,我们进一步引入了是否询问(WeTA)策略πι(参见第二节)。3.2.1)和问什么(WaTA)策略πκ(参见第3.2.1节)。3.2.2)。如图2、SCoA首先决定是否在不确定去哪里时通过WeTA策略寻求帮助如果询问,则代理经由WaTA策略生成要询问的问题在训练过程中,预言机提取其关于最佳下一步的知识,以指导智能体模仿预言机的回答。这使得我们的代理能够以自我问答的方式导航,在统一的模仿学习和强化学习框架中,通信与导航联合优化,驱动智能体以更少的通信成本到达目标第3.4段)。3.2. 自激励通信Agent现有工作中的代理[26,18,35,20]只允许在预定义的位置提问,不仅导致劳动密集型的学习成本,而且在现实世界的应用中不灵活的人机通信。为了让代理自适应地决定是否和问什么,我们提出了一个自我激励的通信方案,通过引入两个政策,是否要问,问什么。3.2.1是否要求为了适应现实世界的应用程序,代理应该被委托自适应地决定是否在过程中提出问题。(1个= 0…ToA sk(WeTA)问/不问不确定性度量状态MLP最优下一步…Q一[���。 ���、0.2、…、0.1]…[���。 ���,0.1,…,0.0]联系人AttnAttn问题评分答案分数Q我应该直接去沙发上吗?1597|联系我们Q˜|不x∈X。我们将α定义为:t,i t∈不∈··不不 ∈∈∈·∈∈不不Nt我∈不∈不不不t我i=1αt不αttt不不tt导航而不是手动预定义。为了达到这个效果,在第t步,我们的智能体学习预测提出问题的概率bt。0,1,基于其当前状态ht,具有是否询问策略πt(btht)2,其由多层感知器(MLP)构造,随后是Gumbel-Softmax(GS)[4,7]。bt被公式化为:在第t个导航步骤查看。为此,我们使用方向相关句子的小集合来训练编码器-解码器模型,而不是诉诸昂贵的对话注释,方向相关句子的小集合是通过将检测到的 关 键 词 填 充 到 问 题 模 板 ( 例 如 , “ 我 该 怎 么 办呢?”“)广泛用于问路3.然后如b= GS。MLP(h)(一)示于图2,我们通过词嵌入层对C t进行编码,然后是一层LSTM来生成问题特征在导航过程中,智能体需要选择一个动作,以便向目标移动。我们将第t步的动作概率分布表示为pa.直觉告诉我们,如果一个人Dt={dt,1,…dt,N} ∈ Rdl×N,并且dl被设置为512。我们实现了同时考虑语言和视觉信息的策略πκ(αtto,Xt,Dt)具体地说,αQ∈RN 是一个衡量重要性的问题得分向量,pt 往往是统一的在这种情况下,每个动作都有相同的概率被选择,这反而带来了更多的不确定性。在这种情况下,智能体会感到困惑,需要辅助信息来选择明智的行动。这启发我们,pa可以是指导学习我们的是否询问策略的有价值的提示。为此,我们引入熵作为度量[18]来模拟pa的不确定性,并定义不每个问题的特征dt,iDt来自两个方面:(1)语言信息,其测量问题候选和目标嵌入之间的相关性,以及(2)视觉信息,其测量问题候选和视图特征之间的Q不视觉信息t:Q. .。Σx`vTyt监督“是否询问”策略πyt=one_hot。[H(pa)ε]+Σ,(2)αt =σσDt(toW)+σ`Languagei nformationxDt(xt,iW)我、(四)其中,如果[]+的输入条件满足,则返回1,否则返回0; H()返回其输入的熵,并且ε [0,1]是预定义的阈值。这背后的动机是,高熵表明pa将更接近均匀分布。因此,代理被认为不确定选择哪个动作,因此需要与oracle通信以获得帮助。然后,其中,σ()表示softmax函数,WlRdw×dl和WvRdf×dl是可学习的权重。此外,我们还引入了一个答案得分αARN来度量预言机给出一个正答案嵌入st,iRdl的置信度(例如, 对于每个问题dt,iDt。具体而言,我们测量问题候选人和图像特征之间的相关性我们的是否询问策略π的学习是正则化的X选择={xopt}N∈RN×df 最佳全景通过bt和yt之间的交叉熵损失:在下一步骤中查看,由oracle给出,以计算αA为:argminLWeTA(bt,yt;π)=−EytΣlogbtΣ。(三)3.2.2该问01 -02 -03张晓波(Σi=1Dt(xoptWa)T),(5)我们的SCoA学会自适应地决定不仅要问,而且要问什么为此,WaTA首先在运行中生成问题候选集,然后选择要询问的最有益的问题,这显著区别于现有的工作[26,35,20],其中问题注释是提前手动给出的。其中WaRdf×dl是可训练权重。αA确实可以被看作是从神谕的观察中得到的关于未来步骤的知识因此,我们建议使用KL散度提取αA来帮助智能体学习问题得分αQ:arg minLWaTA(αQ,αA;πκ)我们训练了一个编码器-解码器模型[29],它生成πκ(六)针对当前全景中的每个图像块的问题风景编码器将图像块fea作为其输入=E Q Σ log αQΣ − E Q Σ log αAΣ。与 包 括 用 于 对 象 标 签 的 “[Obj]” 和 用 于 对 象 位 置 的“[Dir]”的两个关键字相关联注意,解码器产生一个问题˜πϕ1598i=10分我们的蒸馏的见解是双重的:首先,在训练期间,拥有关于最佳未来步骤的大量知识的oracle提供肯定的回答,充当教师来指导代理对问题进行第二、集合Ct={Ct,i}N对于全景中的子图像,通过优化KL发散,2当t=0时,状态h由目标特征t初始化。3请参阅补充材料了解更多详情。1599不|LL不t我˜˜←不(bt,yt),(αt,αt),(pt,pt);πθQ不∗不不不pt不不 不 不第t步的观察,A2 C算法com-不不不I=t不∈问题分数和答案分数被最小化。因此,我们认为,αQ不仅作为问题得分,而且还反映了政策不问问不问问题问问题对相应问题回答“是”的置信度通过这一点,我们的代理可以在一个自我问答的方式,而不参与的oracle在现实世界中的导航轨迹问0 −10 −1停止损失我们的自我激励沟通使代理能够奖励进展联合自适应地决定在与oracle通信时是否询问以及询问什么 接下来是主体应该采取什么行动(去哪里),以便使用策略π µ(a tht,a t−1,Xt,Zt)导航到目标。与现有的作品不同,我们的行动预测-tion首先考虑最高分问题特征和用于代理的对应答案嵌入,以将其当前状态ht更新为:图3:SCoA的优化。模仿学习决定了是否提问、问什么和问哪里在每个导航步骤。 强化学习(RL)以更少的通信成本驱动智能体向目标位置移动。(Best彩色视图)模仿学习。通过模仿学习训练智能体模仿由不确定性分数yt所建议的行为,其中不确定性分数yt表示是否询问oracle这表示要问什么,老师的动作p a * 这表示要问什么,老师的动作p a * 这表示要问什么,老师的ht←ht +bt,0·[d]t我;st,i]Wd,(七)不表示要去哪里为此,我们的目标为模仿S.T.i= argmaxαQ,我学习的定义是:.QAa a aΣD ∈R2dl×dl是可学习的权重。 这背后的基本原理是Q其中πθ={π, πκ,πµ},LIL=ΣLWeTA(bt,y;π)+问题得分向量αt在Sec.3.2.2重新LWaTA(αt,αA; π κ)+LNav(pa,pa; π µ)。我们的模仿通过融合语言和视觉信息来反映问题之间的相对重要性因此,与其他问题相比,被赋予最高分数的问题可以得到最积极的响应(例如,“Yes”) and is the mostinformative for moving towards the我们计算ht和Xt之间的注意力Xt,它与之前的动作a t−1和ht一起被视为LSTM模型的输入,以进一步更新状态ht为htLSTM([Xt;a t−1],ht)。根据具有可导航视点特征集Zt和更新的状态ht的softmax函数预测动作a t为:pa=σ(Z Wph),(8)t t t学习同时考虑通信和导航,其优化帮助代理学习是否询问、询问什么以及去哪里,以便最终向目标移动强化学习。我们使用Actor-Critic算法实现了策略上的强化学习[17]。参与者是策略πθ,参数为θ,它在环境中执行动作。评论家计算状态值Vπθ以帮助参与者学习。此外,我们引入了两种类型的奖励优化我们的政策模型。在第t步,我们按照[25]分配策略πκ和πµ一个进度奖励rp,并且策略πa一tt t惩罚(负奖励)rt,限制频率问问题具体来说,当ra被赋值为-1时,其中Wp∈Rdf×dl是可训练权重。然后,动作pat∈ At按照概率分布代理决定询问,否则为0;如果代理接近目标,则为rt分配+2,否则为-2。pa. 定义了动作解码器的目标函数接头不如:argminLNav(pa,pa*;πµ)=−Ea*ΣlogpaΣ,(9)µ因此,我们可以获得联合奖励为rt=rt+rt,其在每个导航步骤处具有四个状态(-3 、-2 、+1 和+2),如图1B所示。3 .第三章。然后,给定状态动作奖励(h,a,r联合)其中pa*是表示教师行为的独热向量计算累积奖励Rjoint=ΣTT−tγi−t(r关节)+3.4. 模型优化在本节中,我们详细介绍了我们的模型优化学习的自我激励代理,包括模仿学习,学习模仿给定教师的行为,强化学习,克服了误导γ V(hT+1),其中γ[0,1)是贴现因子,T是导航操作的最大数量。获得更高的奖励,智能体探索预测正确的导航动作,同时在我们的框架中提出更少的问题强化学习的目标定义为:arg minLRL(at,p,Rjoint,ht;πθ),(11)t tL其中[·;·]是级联运算,并且WargminILπθ、(10)π−2−2+2个+2个−2−3+2个+1个1600[25]如图所示。3 .第三章。πθ1601LL不不其中LRL=−Σat log(p)(Rjoint−Vπθ(ht))+不不不λRLΣ(Rj〇 int+γVπθ(ht+1)-Vπθ(ht))2,且λRL为平衡演员和评论家的砝码最后我们SCoA的总体目标可以表述为:arg minRL+ IL。(十二)πθ4. 实验4.1. 设置数据集。我们在CVDN [26]和REVERIE [19]上评估SCoA。CVDN包含2,050个人-人导航实例,分布在83个MatterPort房屋中。这些实例被进一步分成7k个较短的导航实例,包括用于训练的4,742个实例、用于可见验证的382个实例、用于不可见验证的907个实例以及用于测试的其他实例此外,CVDN中提供了三种类型的路径,包括:(1)由人类注释的导航器路径;(2)表示最短路径的Oracle路径;(3)混合路径,如果导航器和Oracle的端节点相同,则由导航器路径组成,否则由Oracle路径组成。我们实现大多数实验使用7K较短的导航实例,除了标签。2,050导航 至于REVERIE,它有21,702条指令,然后被划分为:一个训练集有10,466条指令,超过2,353个对象;一个可见验证集有4,944条指令,超过953个对象;一个不可见验证集有3,573条指令,超过525个对象。指标. 使用了四个指标,包括:(1)目标进展( GP ) ,表 示实现目标的 平均 进展 ; (2 ) 成功 率(SR),其表示到达目标三米内的位置的百分比。(3)Oracle成功率(OSR),表示到达最接近目标位置的百分比。(4)按路径长度(SPL)加权的成功率。实施详情。我们的模式是由我们-表1:我们用现有的(非)学习方法替换SCoA中的whether to ask(WeTA)模块,以分析其有效性。在[24,13]之后,我们使用oracle路径在CVDN上显示目标进度(m)。方法瓦尔·西恩(m)Val Unseen(m)最短路径RMMN=3[20]RMMN=3 + Oracle停止[20]32.814.016.829.35.68.9SCoA(我们的)19.5211.19表2:我们用现有的问题生成机制[20]替换SCoA中的“问什么”(WaTA)模块,在[20]之后,我们使用混合路径在CVDN上显示了2,050个导航实例的目标进度(m)Agent对非学习Agent和学习Agent的攻击。非学习代理:(1)Never:agent从不与oracle通信。(2)随机:预言机选择请求帮助的概率为0。4,这也是我们SCoA的统计结果。(3)总是:oracle在每个导航步骤请求帮助。学习代理:(1)IC3Net [24]:使用Pytorch并在Tesla P100上训练20,000次迭代。对于规划器路径,最大步数T和批量大小被设置为20和80;否则,我们将T设置为80,批大小设置为40。采用学习率为0.0001的Adam优化器[9]进行更新。4.2. 消融研究这部分的实验主要集中在评估我们的是否问模块(WeTA)和问什么模块(WaTA),分别的效果。 不失一般性,所有的实验进行CVDN使用的oracle路径,我们报告的性能w.r. t。 目标进度(GP)。注意,我们基于自Q A方式报告我们的SCoA的性能,其中在测试期间移除oracle以模拟真实世界环境。WeTA的影响。我们首先分析whether to ask模块。为此,我们比较了使用softmax层来指示是否询问。(2)When2com [13]:根据观察转换的关键字和查询之间的相关性选项卡. 1显示了我们的实验结果。我们的WeTA显着- cantly优于其他方法在可见和不可见的环境。此外,与非学习的“Always”相比与When2com [13]相比,必须建立一个复杂的多智能体感知系统,我们的WeTA优点在于简单而有效。WATA的效果。然后,我们从两个方面分析我们的“问什么”模块的效果:问题生成机制和所选择的问题。选项卡. 2显示了现有问题生成机制[20]与我们的WaTA之间的比较。“最短路径”用作预期性能的上限。可以观察到,与训练编码器-解码器的RMM [20]相比,方法瓦尔·西恩(m)Val Unseen(m)非学习Agent从未4.11.73随机5.031.74总是5.411.78学习代理IC3Net [24]4.831.76When2com [13]4.881.86SCoA(我们的)5.931.941602百分之七十百分之四十五……LLLLLL方法对话注释瓦尔·西恩Val Unseen未观察到的试验Oracle导航器混合Oracle导航器混合Oracle导航器混合最短路径✗8.297.639.528.367.999.588.068.489.76随机✗0.420.420.421.091.091.090.830.830.83仅视觉✗4.125.585.720.851.381.150.991.561.74SCoA(我们的)✗5.936.707.111.942.912.852.493.373.31Seq2seq [26]✓4.485.675.921.231.982.101.252.112.35CMN [35]✓5.476.147.052.682.282.972.692.262.95普雷瓦伦[5]✓---2.582.993.151.672.392.44表3:我们的SCoA和现有方法之间的性能比较我们使用所提供的三种类型的路径在CVDN上显示目标进度(m)百分百百分之六十五百分之六十百分之五十五百分之五十0%的百分比Iter 100 Iter 1k Iter 5k Iter 10k Iter 20k接近偏离图4:WaTA所选问题的效果。我们显示了引导代理在不同的训练迭代中接近(偏离)目标的选定问题的百分比(使用Oracle路径在CVDN上进行验证框架使用对话注释生成问题,我们的WaTA即使在oracle停止[20]与RMM结合时也会产生最高性能。这很好地证明了我们的问题生成使用一个小的方向相关的句子集的可行性和有效性为了分析每个选定问题的有效性,我们计算引导代理接近(偏离)目标的问题的百分比。如图4、“接近”的百分比随着网络训练而上升,表示我们的代理学会了挑选有益的问题。最后,一个高的百分比为62.4%的派生,表明我们的代理有很强的能力,以区分信息的问题向目标移动。损失正规化的影响节中3.2.1和第3.2.2,我们引入交叉熵损失WeTA和KL-散度WaTA来学习是否问和问什么的模块。在选项卡中。4、分别去掉其中的一个,并展示其性能。 可以看出,在没有WeTA或WaTA的情况下,SCoA的性能显著下降,这很好地证明了这些功能的重要性。两个损失限制在学习我们的自我激励代理。4.3. 性能分析在这一小节中,我们进行了一个实验比较与现有的VDN方法的CVDN和REVERIE。然后,我们将深入了解如何进行通信。表4:没有WeTA和WaTA的性能分析。我们使用oracle路径在CVDN上显示目标进度(m)我们的SCoA中的导航和通信是相互优化的。CVDN结果 我们首先构建三个基线方法:(1)最短路径Agent以到达目标的最短路径作为导航性能的上界。(2)随机代理选择一个随机的方向,每次向前移动5步。(3)“仅视觉”代理忽略语言输入。此外,还介绍了三种具有丰富对话框注释的现有竞争器,包括Seq2seq [26]、CMN [35]和PREVALEN [5],以进行比较。在选项卡中。3,我们的SCoA显示了压倒性的优势,在基线上没有对话框注释的可见和不可见的环境中,在不同类型的路径。特别地,SCoA甚至示出了与以对话注释作为输入的结果相当的结果此外,我们在测 试 期 间 添 加 oracle , 并 且 结 果 w.r.t. oracle 路 径 、navigator路径和混合路径在可见验证上进一步增加到6.74、7.00和8.02,在不可 见验证上进一 步增加到2.30、2.64和3.28。REVERIE上的结果。选项卡. 5显示了REVERIE上的性能比较。比较的方法将注释的指令作为训练集和验证集的输入,而我们的SCoA摆脱了指令。相反,它生成动态对话框。可以看出,与最近的进展[19]相比,我们的SCoA在所有三个评估指标中表现最好。渐进-抑制学习。在图5中,我们通过计算提问的数量和在不同导航步骤获得的联合奖励来我们观察到我们的SCoA学会方法瓦尔·西恩(m)Val Unseen(m)SCoAw/oLWeTASCoAw/oLWaTA5.495.785.931.871.861.9462.4%百分之五十九点五百分之六十点一56.0%百分之五十三点一1603方法Val UnseenSR↑OSR↑SPL↑随机1.7611.931.01R2R教师强迫[1]3.214.942.80R2R学生强迫[1]12.884.208.07RCM [27]9.2914.236.97自我监控[15]8.1511.286.44快速-短[8]10.0820.486.17[19]第十九话14.4028.207.19SCoA(我们的)16.9429.298.2表5:REVERIE的不可见确认的性能比较。引入了SR(%)、OSR(%)和SPL(%)三个度量第1001章索要报酬10.80.60.40.20EB一DC0 10 20 30 40 5060导航步骤图6:SCoA的轨迹可视化红色虚线表示智能体已经走过的轨迹,黄色星形表示目标位置。矩形框包含代理提出的问题及其对应的场景图像。数字表示每一步的联合奖励。(Best彩色视图)目标位置特别是,代理在A点感到困惑,然后问一个问题这图5:提问的标准化数量与在使用混合路径的推断期间,在不同导航步骤处对CVDN以渐进抑制的方式导航。具体来说,当我们的智能体被困在去哪里时,它往往会问更多的问题(例如:点A)。这导致奖励的增加(例如点B),这表明我们的代理正在逐步接近目标。然而,奖励的增加相反地抑制了智能体提出问题(例如,点C),以降低通信成本,因为它已经接收到关于其当前位置的周围环境的丰富知识然而,当智能体超越周围环境时,需要更多的辅助信息来支持正在进行的探索。否则,智能体将采取错误的行动,导致奖励减少(例如,奖励减少)。点D)。为了收回正确的方向,代理再次诉诸于问更多的问题(例如,点E)。因此,我们的SCoA在一个闭环中实现渐进抑制学习,直到代理以更少的通信成本到达目标。轨迹可视化。我们在图中可视化我们的SCoA的一个轨迹示例。6,以查看我们的SCoA如何执行VDN任务,以及得分最高的问题和联合奖励(见图2)。(3)第三章。如可以观察到的,当代理偏离所述目标时,代理接收负奖励然而仍然将代理引向错误的方向,因此接收到-3的惩罚。智能体一直在问问题,直到在B点选择正确的动作,返回+1的回报。然后,它在C点停止与oracle通信正在进行的移动导致智能体离开C点因此,智能体在点D处再问一个问题5. 结论在 本 文 中 , 我 们 提 出 了 自 我 激 励 的 通 信 代 理(SCoA),以解决现实世界的视觉对话导航的灵活性和注释依赖的通信的挑战性问题,通过学习自适应地决定是否和什么与人类进行通信,以获得指导导航的指导信息。通过共同学习沟通和导航,SCoA探索平衡沟通利益和成本。SCoA显着优于现有的基线方法没有对话框注释,甚至实现了相当的性能,曼斯的同行使用丰富的对话框注释作为输入。我们的SCoA摆脱了昂贵的语言注释的限制,并显示出巨大的潜力,在现实和开放式的环境中导航。B朝门的方向是正确的方向吗?+1个-3- -一3+1个+2个C+2+2+1D-2+2个我应该直走吗?规范化数量1604引用[1] Peter Anderson,Qi Wu,Damien Teney,Jake Bruce,Mark Johnson , Niko Sünderhauf , Ian Reid , StephenGould,and Anton Van Den Hengel.视觉和语言导航:在真实环境中解释基于视觉的导航指令。在IEEE计算机视觉和模式识别会议(CVPR)论文集,第3674-3683页,2018年。一、二、八[2] Harm de Vries、Florian Strub、Sarath Chandar、OlivierPietquin、Hugo Larochelle和Aaron Courville。你猜怎么着?!通过多模态对话的视觉对象发现在IEEE计算机视觉和模式识别会议(CVPR)中,第55032[3] Daniel Fried 、 Ronghang Hu 、 Volkan Cirik 、 AnnaRohrbach 、 Jacob Andreas 、 Louis-Philippe Morency 、Taylor Berg- Kirkpatrick 、 Kate Saenko 、 Dan Klein 和Trevor Darrell。用于视觉和语言导航的说话者跟随者模型在神经信息处理系统会议论文集,第3318-3329页一、二[4] 埃米尔·朱利叶斯·冈贝尔极值统计理论及一些实际应用:系列讲座第33卷1954. 4[5] Weituo Hao , Chunyuan Li , Xiujun Li , LawrenceCarin,and Jianfeng Gao.通过预训练学习用于视觉和语言导航的通用代理。 在IEEE计算机视觉和模式识别会议(CVPR)论文集,第13137-13146页,2020年。二、七[6] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习在IEEE计算机视觉和模式识别会议(CVPR)的会议记录中,第770-778页3[7] Eric Jang , Shixiang Gu , and Ben Poole. 使 用 gumbel-softmax 进行分 类重新参数 化。arXiv预印本arXiv:1611.01144,2016。4[8] Liyiming Ke,Xiujun Li,Yonatan Bisk,Ari Holtzman,Zhe Gan,Jingjing Liu,Jianfeng Gao,Yejin Choi,andSiddhartha Srinivasa.战术倒带:视觉和语言导航中通过回溯的自我纠正。在IEEE计算机视觉和模式识别会议论文集(CVPR)中,第6741-6749页,2019年。8[9] Diederik P Kingma和Jimmy Ba。Adam:随机最佳化的方法。arXiv预印本arXiv:1412.6980,2014。6[10] Jiwei Li,Alexander H Miller,Sumit Chopra,Marc通过对 话 学 习 , 通 过 提 问 互 动 . 国 际 学 习 表 征 会 议(ICLR),2017年。2[11] Yimeng Li和Jana Košecka。学习视角和目标不变视觉伺服导航。在机器人与自动化国际会议(ICRA)的会议记录中,第658-664页,2020年。2[12] Bingqian Lin,Yi Zhu,Yanxin Long,Xiaodan Liang,Qixiang Ye,and Liang Lin.以退为进:动态强化指令攻击 器 , 用 于 健 壮 的视 觉 导 航 . IEEE Transactions onPattern Analysis and Machine Intelligence( TPAMI) ,2021年。2[13] Yen-Cheng Liu , Junjiao Tian , Nathaniel Glaser , andZsolt Kira. When2com:通过通信图分组的多代理感知在IEEE计算机视觉和模式识别会议(CVPR)集,第4106-4115页6[14] Yunlian Lv,Ning Xie,Yimin Shi,Zijiao Wang,andHeng Tao Shen.关注三维空间关系的目标驱动视觉导航的改进。arXiv预印本arXiv:2005.02153,2020。2[15] Chih-Yao Ma , Jiasen Lu , Zuxuan Wu , GhassanAlRegib , Zsolt Kira , Richard Socher , and CaimingXiong.通过辅助进度估计的自我监控导航代理。arXiv预印本arXiv:1901.03035,2019。8[16] Ishan Misra 、 Ross Girshick 、 Rob Fergus 、 MartialHebert、Abhinav Gupta和Laurens Van Der Maaten。通过提 问 学 习 。 在 IEEE 计 算 机 视 觉 和 模 式 识 别 会 议(CVPR)集,第11-20页2[17] Volodymyr Mnih , Adria Puigdomenech Badia , MehdiMir
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Android圆角进度条控件的设计与应用
- mui框架实现带侧边栏的响应式布局
- Android仿知乎横线直线进度条实现教程
- SSM选课系统实现:Spring+SpringMVC+MyBatis源码剖析
- 使用JavaScript开发的流星待办事项应用
- Google Code Jam 2015竞赛回顾与Java编程实践
- Angular 2与NW.js集成:通过Webpack和Gulp构建环境详解
- OneDayTripPlanner:数字化城市旅游活动规划助手
- TinySTM 轻量级原子操作库的详细介绍与安装指南
- 模拟PHP序列化:JavaScript实现序列化与反序列化技术
- ***进销存系统全面功能介绍与开发指南
- 掌握Clojure命名空间的正确重新加载技巧
- 免费获取VMD模态分解Matlab源代码与案例数据
- BuglyEasyToUnity最新更新优化:简化Unity开发者接入流程
- Android学生俱乐部项目任务2解析与实践
- 掌握Elixir语言构建高效分布式网络爬虫
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功