没有合适的资源?快使用搜索试试~ 我知道了~
15450增强结构化状态演化的视觉语言导航陈金宇1,2,高晨1,2,孟二丽3,张琼3,刘思1,2*1北京航空航天大学人工智能研究院2北京航空航天大学杭州创新研究院3小米公司小米人工智能实验室https://github.com/chenjinyubuaa/SEvol摘要视觉和语言导航(VLN)任务需要一个具体的代理导航到远程位置遵循自然语言指令。以前的方法通常采用序列模型(例如,Transformer和LSTM)作为导航器。在这样的范例中,序列模型通过维护的导航状态来预测每个步骤处的动作,所述导航状态通常表示为一维向量。然而,关键的导航线索(即,对象级环境布局)被丢弃,因为所维护的向量基本上是非结构化的。在本文中,我们提出了一种新的结构化状态演化(SEvol)模型,以有效地保持环境布局的线索VLN。具体而言,我们利用基于图的特征来表示导航状态,而不是基于向量的状态。因此,我们设计了一个强化布局线索挖掘器(RLM),通过定制的强化学习策略来挖掘和检测长期导航的最关键的布局图。此外,提出了结构化演化模块(SEM),用于在导航过程中维护结构化的基于图的状态(一)(b)第(1)款说明:进入浴缸对面的门内。#t“1#t#t“1#tigation,其中状态逐渐演化以学习对象级时空关系。在R2R和R4R数据集上的实验表明,SEvol模型在很大程度上提高了VLN模型在R2R测试集上,NvEM的绝对SPL准确度为+3%,EnvDrop的绝对SPL准确度为+8%1. 介绍近年来,需要实体智能体完成任务的嵌入式人工智能(E-AI)引起了计算机界和自然语言处理界的广泛兴趣许多数据集[3,31]已被构建来模拟现实环境,以支持各种具体任务,如导航[31,42],交互式*通讯作者:刘思.图1. 在每个步骤t,(a)先前的方法预测动作at基于矢量的导航状态st,而对象级布局内存被丢弃;(b)我们提出SEvol来维护基于图的导航状态st,它可以通过结构化的状态演化来有效地记录布局内存。学习[6,33]和多智能体合作[25]等。E-AI最具吸引力的应用场景之一是视觉和语言导航(VLN)任务[2],其目标是让3D环境中的具体智能体按照自然语言指令导航到特定位置。如图1(a)所示,传统方法[8,21,22,34]通常采用序列模型(例如,Transformer和LSTM)来对顺序决策过程进行建模。在每个步骤t,根据导航状态st预测动作,其保持历史和当前环境信息。一般来说浴缸…门门式沙发…浴缸光镜窗口浴缸门门沙发窗地板...浴缸门沙发门…st-1)t“1St…模型序列模型序列SEvolSEvol沙发窗门地板光镜浴缸门st-1St…模型序列模型序列15451−导航状态以非结构化的一维向量的形式保持。每一步都有环境的线索,视觉和方位特征都被压缩并汇集到该非结构化矢量中。因此,结构化的对象级环境布局信息在该过程期间被丢弃然而,环境布局的线索是至关重要的体现VLN任务。如图1(a)所示,为了实现像“进入浴缸对面的门内”这样的指令门与浴缸相对),以做出正确的动作。因此,我们的目标是通过以下方式改进VLN范例:保持结构化导航状态,其中需要考虑三个(i)如何表示导航状态以包含结构化布局内存。(ii) 如何根据指令挖掘当前和未来决策的关键布局信息.(iii)如何在满足长短期记忆特性的前提下存储和更新结构化状态。为了实现上述目标,我们提出了如图1(b)所示的结构化状态演化(SEvol)模型,其中进行了多重创新(i)代替基于矢量的特征,我们提出采用基于图形的特征作为导航状态,其能够保持结构化布局存储器。(ii)本文设计了一个约束布局线索挖掘器(RLM)来挖掘最关键的布局信息.RLM学习从整个布局图中检测和采样基本子图,以当前导航状态和指令为条件,采样子图门、对面、浴缸>按语言在RLM中,我们定制了一个强化学习策略,使矿工既关注眼前利益,又关注子图采样的长期影响。(iii)为了在整个导航过程中有效地存储和更新结构化的基于图的状态,我们设计了一个结构化的进化模块(SEM)。具体而言,SEM将来自RLM的当前图形特征作为输入,以在每一步进化导航状态导航状态的演变是通过与存储结构化布局存储器的可学习矩阵D(如图1(b)所示)交互来实现的D通过矩阵形式的递归神经网络进行更新。因此,导航状态包含对象级的时空关系,它有助于动作决策,图1(b)中的“门对着浴缸”的关系在R2 R(Room-to-Room )[2]和R4 R(Room-for- Room )上的实验表明,所提出的SEvol模型显著提高了VLN模型综上所述,我们做出以下贡献:• 我们提出了一个简单而有效的SEvol模型,为VLN社区提供了新的见解的利用结构化导航状态来在导航期间维护对象级环境布局SEvol在R2R上实现了最先进的性能。• 我们设计了一个强化布局线索挖掘器(RLM)来学习如何从布局图中检测和采样最关键的子图特征,以用于当前和未来的行动决策。• 我们设计了一个结构化的进化模块(SEM),随着导航过程逐渐演变的结构化导航状态,保持一个长期的短期布局记忆。2. 相关工作视觉和语言导航(VLN)。学习在模拟的照片般逼真的环境中遵循人类注释的自然语言指令进行导航,即,VLN任务[2,18]近年来引起了学术界和工业界的极大兴趣多种方法[4,8,12,14,15,21,22,29,34,37已被提议用于VLN任务。早期的工作Speaker- Follower[8]设计了一种指令论证策略,EnvDrop [34]增加了合成训练样本的视觉多样性。此外,[21,47]引入辅助损失以进一步提高跨模态理解能力,[7,37]采用冗余图来保持全局导航记忆。最近,大多数VLN作品都集中在如何利用更强大的基于transformer的视觉语言模型来提高性能。CKR [9]采用变换器解码器来模拟顺序导航过程。VLN-BERT[23]和Airbert [11]利用在其他大规模视觉语言数据集[32]上预训练的视觉语言Transformer来进行指令轨迹匹配。其他作品[14,39]专注于定制基于transformer的模型,该模型专门针对VLN任务定制,并且可以继承预训练模型的能力然而,以往的VLN方法对非结构化导航状态的关注较少,无意中减少了关键的导航线索,即,对象级环境布局。动态图神经网络在数据挖掘领域,动态图神经网络是从随时间变化的基于图的数据序列中挖掘信息的有效工具(例如,社交网络)。一些方法[28,45]被设计用于从动态图中提取空间-时间关系[10,35]将动态图看作是在初始图上的连续变化,这有利于事件时间的预测。此外,[7,44]采用图的几个帧并利用GCN [19]/顺序模型[5]从随时间快速变化的图中提取特征。受数据挖掘领域的启发,我们提出SEM来维护15452CNNAttnLSTM动作预测普雷阿勒RLM光…浴缸…光浴缸门双开门Y不节点概率分布不SEMvt普布吕不不关于我们&$%1ℎ不+不环境评论家AttnAttn布局图生成$%1}∈G∈∈··F·E·FE··GGk=1l=1i=136O的G(一)说明:浴缸对面的门LSTM“1”关于我们&(b)第(1)款图2. 整个管道。(a)VLN方法的典型范例。(b)拟议的SEVol包含两个组成部分,即, RLM和SEM。RLM通过定制的强化学习策略,根据指令挖掘出关键布局图SEM演化结构化导航状态以在导航期间维持关键布局存储器。并更新基于图形的导航状态,其中不同的解码器更新其隐藏状态ht∈RNh×1:可以动态地提取对象级布局.ft=attn(ht−1,{ft我i=1);(一)3. 方法3.1. 问题设置和概述问题设置。在VLN [2]中,代理需要按照指令到达所描述的位置。在每个步骤t,代理观察全景RGB视图,被进一步分成36个离散视图{v}36。每个ht=L STM([f<$t,at−1],ht−1).请注意,我们在本文中将正常注意力机制表示为attn ( , ) 例 如 , attn ( x , Y ) =softmax( x<$Wa Y<$ ) Y , 其 中 xRN1×1 、 YRN2×N3 和 WaRN1×N3是可训练参数。在每个步骤t,SEvol首先产生布局图t从视觉观察。 如图2(a)所示,RLM旨在利用语言特征{wl}L(例如,t我 i=1在浴缸l=1视图通过具有其方向信息(航向θt,i,高度θt,i)的RGB图像vt,i来表示,其中i是视图索引。通常,每个视图的特征ft,i通过ft,i = [(v t,i),(θ t,i,θ t,i)] n获得,其中[,]表示拼接,()是图像特征提取器,()表示方向嵌入函数[ 34 ],其被定义为[ cos(θ t,i),sin(θ t,i),cos(θ t,i),sin(θ t,i)]。此外,在每个步骤t处存在可导航的Kt个候选视图。代理需要采取行动,即,从K个测试候选中选择一个移动到该位置。概况. VLN方法[1,34]的基本流水线如图2(a)所示。所提出的SEvol(如图2(b)所示)被设置为用于提供结构化导航状态的附加分支SEvol由两个部分组成,即,增强型布局线索挖掘器(RLM)和结构化演进模块(SEM)。’) to mine the key sub-graph ‘整个过程通过定制的强化学习策略进行优化,因为基于RL的目标可以使矿工们考虑了当前和未来的影响。RLM的报酬取决于智能体是否靠近或到达目标位置。接下来,SEM将来自RLM和布局存储器Dt−1的电流Gt′作为输入,演化结构化导航状态St,其中Dt-1是用于记录历史布局的可迭代矩阵记忆演化后的St被进一步用来预测最终的作用量at.在下文中,我们分别在3.2节和3.3节详细介绍3.2. 加固布局提示矿工布局图生成。 为了提取对象级增强布局,在每个步骤t,我们检测前K个显著性基本VLN流水线(图2(a))通过更快的R-CNN [30]利用双对象O t={ot,k}K,其中定向LSTM [16]对指令进行编码,ob-ot,k表示对象实体。我们就能产生一个完全一致的-获取单词级语言特征{wl}L,其中L是基于对象集的连接布局图Gt={Ot,At},长度wL是句子级别的特征,并且用作LSTM解码器的初始隐藏状态。在每个导航步骤t,当前视觉特征{ft,i}36被馈送到LSTM其中t是t的边集。为了将对象节点集t编码成节点特征矩阵Ot,我们考虑语义和关系位置信息。第k个物体15453普阿勒RMMGRU不E·不GG·不l=1不不一O首先,我们根据po选择前M个对象节点。′M不′′′A t={et,i j|ot,i∈Ot <$ot,j∈Ot<$et,ij∈A t}.(五)Ls=λ1Lsa+λ2Lsc+λ3Lsd,其中Lsa 优化对象选择,L不不不不--Lt,m特征Ot,k被定义为:Ot,k=[G(Ot,k),E(θOt,k,θOt,k)]n,(2)其中G(·)给出了ob的GloV e[27]嵌入M映射R重复矩阵乘法“1”ject的标签θ 奥特岛和ψ奥特岛是航向和海拔高度节点功能对象相对于代理的当前方向。()是3.1节中定义的方向嵌入函数。然后基于对象之间的空间关系,我们将邻接矩阵At定义为:At[i,j]=d(θot,i-θot,j),(3)其中d(·)是航向差的递减函数子图$邻接矩阵A′并在第4.1节中定义。子图挖掘。所生成的布局图T包含噪声(例如,导航无关对象关系)。因此,为了关注最关键的布局信息,我们提出了RLM来对包含M个对象节点的代表性子图进行采样,如图2(b)所示。直观地说,采矿过程应该依赖于指令。 因此,我们利用语言感知功能ht=attn(ht,wlL)来计算对象重要性对于子图挖掘:po=softmax(hoWO),ho=δ(Wh),(4)图3.我们的SEM模块的插图 SEM从RLM获取布局图t′以更新布局存储器D t并生成结构化导航状态St。评论家网络critic()估计状态值vt,RLM的每个动作奖励rt为:rt=γ(T−t)vT+rt, vt=critic(ho),(6)其中γ是衰减率,T表示轨迹的总步数。因此,每个动作奖励相对于状态值的优势是: 子图的作用t t2tt1tminer是从Ot中选择M个对象,目标是其中W1∈RN×Nh和W2∈RN×No是可学习的参数,基于A2C的函数[24]被公式化为:半径。N=100表示隐藏大小,δ(·)为导航过程中物体的重要性。采样ΣΣt=0m=0不ReLU激活功能。 po∈R1×K表示Lsa=−t logpo′;从Gt出发的子图Gt′ ={Ot′,A′t}包含两步.Σ因此,我们得到Ot的子集:Ot={ot,m}m=1,所选对象的重要性得分po′∈R1×M。t=0ΣΣ不L=M不KLsc=2;不(七)SC优化了15454−plogpo;其次,我们通过保持cor,选定对象之间的响应边:SDt=0k=0t,kt,k15455−−因此,本文研究了M-序图G′是O′∈RM×No和A′∈RM×M.15456G批评者模型,和SD旨在避免对象IM-重要性分数po退化到均匀分布。15457由于导航是一项长期规划任务,还应考虑未来的航行决策。 因此我们15458定制强化学习策略,以指导子图抽样过程 奖励对象15459节点选择基于导航动作反馈如图2(b)所示的环境在每一步15460t,代理人距离目的地的距离减少,奖励rt将是154611.一、 否则,它将是1。 (ii)当代理成功-完成导航任务,将获得丰厚的奖励15462rT=4,如果代理停在错误的位置,它将得到一个负的奖励值rT=2。导航重新-15463可以看作是对RLM的奖励在每个步骤t,15464λi(i=1,2,3)是控制相对值的加权因子每个术语的重要性。154653.3. 结构化演进模块对象级布局信息包含在15466生成的布局图。然而,导航是一个顺序过程,其中布局图动态地15467随着时间的推移而变化。 因此,我们提出了结构化的演变-15468动态处理布局图t′,以在每一步t处更新更新更新状态St。作为如图3所示,我们采用一个可学习的矩阵Dt来记录结构化布局内存。我们利用GRU的矩阵版本(MGRU)[26]来处理Dt∈RN×N,其中15469
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 李兴华Java基础教程:从入门到精通
- U盘与硬盘启动安装教程:从菜鸟到专家
- C++面试宝典:动态内存管理与继承解析
- C++ STL源码深度解析:专家级剖析与关键技术
- C/C++调用DOS命令实战指南
- 神经网络补偿的多传感器航迹融合技术
- GIS中的大地坐标系与椭球体解析
- 海思Hi3515 H.264编解码处理器用户手册
- Oracle基础练习题与解答
- 谷歌地球3D建筑筛选新流程详解
- CFO与CIO携手:数据管理与企业增值的战略
- Eclipse IDE基础教程:从入门到精通
- Shell脚本专家宝典:全面学习与资源指南
- Tomcat安装指南:附带JDK配置步骤
- NA3003A电子水准仪数据格式解析与转换研究
- 自动化专业英语词汇精华:必备术语集锦
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功