没有合适的资源?快使用搜索试试~ 我知道了~
15130- --面向对象导航的层次化对象-区域图张思贤1、2,宋新航1、2*,白玉兵1、2,李伟杰1、2,楚亚奎4,姜树强1、2、31中国科学院智能信息处理重点实验室北京计算技术研究所2中国科学院大学北京3中国科学院苏州智能计算技术研究所4北京华为应用创新实验室{sixian.zhang,xinhang.song,yubing.bai,weijie.li} @ vipl.ict.ac.cnchuyakui@huawei.com;sqjiang@ict.ac.cn摘要目标导航的目标是在未知环境中根据视觉信息到达预期目标。以前的工作通常实现深度模型来训练代理实时预测动作。然而,在看不见的环境中,当目标对象不是以自我为中心的观点,代理可能无法作出明智的决定,由于缺乏指导。在本文中,我们提出了一个层次的对象到区域(HOZ)图,以指导代理在一个由粗到细的方式,并提出了一个在线学习机制,更新HOZ根据实时观察在新的环境。HOZ图由场景节点、区域节点和对象节点组成通过预先学习的HOZ图、实时观察和目标,智能体可以不断地规划从一个区域到另一个区域的最佳路径。在估计的路径中,下一个潜在区域被视为子目标,也被馈送到深度强化学习模型中进行动作预测。我们的方法进行评估的AI 2-雷神模拟器。除了广泛使用的评估指标SR和SPL之外,我们还提出了一种新的SAE评估指标,该指标侧重于有效行动率。实验结果证明了该方法的有效性。该代码可在 https://github.com/sx-zhang/HOZ.git 上获得。1. 介绍视觉导航任务要求智能体达到一个特定的目标。常规方法通常需要空间布局信息,例如环境的地图,其可在可见环境中容易地获得,而在不可见环境中不可用。因此,如何在看不见的环境中有效地导航到目标通常具有挑战性。*通讯作者。路径规划:从区域到环境的区域到区域客厅区2目标当前区域区1区6区4目标区电视垃圾桶落地灯剂自我中心观目标对象图1.使用HOZ图进行对象导航的概述。开始时,智能体位于当前区域(区域6,蓝色),目标落地灯属于目标区域(区域4,红色)。HOZ图规划实时最优路径(区域6、区域1、区域2、区域4)。然后,座席的下一个子目标是区域1(绿色)。以同样的方式,代理不断更新子目标,直到它到达目标。请注意,每种颜色都意味着代理可以观察到类似视图的特定位置和方向。通过以自我为中心的观察的视觉输入,以前的作品[29,27,28]通过最大化奖励来学习深度强化学习策略。这些工作中的关键挑战是对看不见的环境的概括[38],特别是当目标不在视线中时。因此,最近的工作[40,9]试图嵌入先验知识,例如对象图和关系图,以提高导航模型特别地,Yang等人。 [40]构建了对象到对象图,其提供相关对象作为辅助信息以定位目标对象。它们的对象图过于通用,无法适应特定的环境。此外,Du等人 [9]提出学习对象关系图,它比一般的对象图更适合测试上述方法的重点是构建面向对象图,为目标不15131在视野中然而,由于对象关系和空间布局在不同的环境中通常是不一致的,上述方法的泛化能力仍然有限。为了提高导航模型的泛化能力,我们从两个方面进行了研究1) 学习适用于各种环境的自适应空间知识表示; 2)调整所学习的知识以在看不见的环境中引导导航。此外,在我们的知识中,更大面积的区域被认为是表示为区。与对象相比,较大的区域更可能被代理观察到因此,我们的导航引导的核心思想是区域。在本文中,我们提出了分层对象到区域(HOZ)图捕捉对象导航的场景布局的先验知识(见图1)。在训练过程中,我们从所有场景中构建一个通用的HOZ图,因为同一场景类别中的房间具有相同的空间结构。每个场景节点对应于一个场景HOZ图,其区域节点通过匹配和合并房间HOZ图来获得。对于每个房间方向的HOZ图,每个区域节点表示一组相关对象,并且每个区域边缘对两个区域的相邻概率进行建模。然后,我们在照片级逼真模拟器AI 2-Thor中通过深度强化学习训练区域到动作的LSTM策略[19]。对于每个情节,预先学习的HOZ图有助于规划从当前区域到目标区域的最佳路径子目标嵌入图卷积网络(GCN)来预测动作。考虑到不同的环境具有不同的区域布局,我们还提出了一种在线学习机制,根据当前未看到的环境更新一般的学习HOZ图。通过这种方式,初始HOZ图将朝着当前环境的特定布局发展,并帮助智能体成功导航。请注意,更新仅适用于一个事件,并且每个事件从初始HOZ图开始。除了广泛使用的评估指标成功率(SR)和成功加权路径长度(SPL),我们还提出了一个新的评估指标成功加权行动效率(SAE),考虑到效率的导航行动到SR。实验表明,HOZ图的性能大大优于基线图. 概括而言,我们的贡献如下:• 我们建议学习分层对象到区域(HOZ)图,捕获先验知识,以指导对象导航代理更容易的子目标。• 我们提出了一个新的评价指标命名为成功加权的行动效率(SAE)。• 通过将HOZ图集成到区域到动作策略中,导航性能可以在SR、SPL和SAE度量中显著改善。2. 相关工作基于几何的导航:传统的导航方法通常使用地图作为参考,无论其是预先构建的还是在视觉导航期间同时构建的。[16,3]利用基于度量的地图来感知环境,[10]在智能体的运动过程中不断更新概率棋盘表示相比之下,[34,5,4]采用粗粒度拓扑图,节点表示语义特征,边推理空间关系。[35,36]两者都集成了基于度量地图和拓扑地图以改进移动机器人导航。[23]构造了一个经验图来处理长期的外观变化。此外,[12]采用信念图作为空间记忆。而不是依赖于一个特定的地图,我们的HOZ图作为先验知识,以帮助导航在看不见的环境。基于学习的导航:深度学习在端到端本地化、探索等方面已经很受欢迎[12,34]。作为早期的尝试,[25]采用神经网络在室内导航中构建走廊跟随器模型现在,许多研究转向强化学习(RL)来帮助智能体做出行动决策[33,3,15]。为了提高泛化能力,[41,40,39]都采用了Actor-Critic模型[28]。此外,[6]在模仿学习中使用固有的覆盖奖励来学习探索策略。[22]训练任务生成器和元学习者以学习可转移的元技能。[7]使用具有概率框架的生成模型,以利于两个观测的相似性计算。[34,2]提出了一个航点导航,以找到更简单的子目标。[30]利用语义信息来促进更深入的理解。同时,[11]提出了一种基于内存的策略。他们将每个观察结果嵌入到一个记忆中,并在三个视觉导航任务上执行这种时空记忆。[26]提出了一种可达性估计器,其向导航器提供要遵循的目标观测序列这一系列工作主要将策略网络视为黑盒并通过RL对其进行训练,而我们的HOZ图包括对象,区域和场景的粗到细输入,这允许可解释的导航。目标驱动导航:这种导航是出于主观目的而进行的,主要通过自然语言指令或目标图像进行它可以区分为PointGoal导航[12,3]和ObjectGoal导航[27,11,38,30,40,39]。特别地,有时目标可以被呈现为图像[4,41]。我们的工作集中在看不见的室内环境中的对象导航。[38]提出了一种自适应视觉导航方法,通过元强化学习来帮助智能体学习在看不见的环境中学习。[9]提出了一种对象表示图来学习不同对象类别之间的空间相关性,并使用模仿学习来训练智能体。一个内存扩充的试探性策略网络被用来检测死锁状态。15132}{∈A∈A|联系我们联系我们ResN8场景层上一个操作隐藏状态视觉特征客厅场景嵌入Zones图层Faster RCNN更新子目标区GCNGCN当前区域Env.目标区对象层区域嵌入笔记本抽屉沙发GCN动作向量电视桌面框对象嵌入对象注意电视LSTMET1图2. 模型概述。我们的模型由分层对象到区域(HOZ)图和区域到动作LSTM组成。给定目标对象和当前观察结果,智能体首先识别场景类别,定位当前区域,并根据HOZ图推断下一个子目标区域基于对看不见的环境的观察,在每个时间戳处更新HOZ图区域到动作LSTM学习基于由HOZ图提供的级联信息来预测有效的动作并在测试过程中提供额外的操作指导。最近的工作已经将知识图应用于图像分类[24],分割[42],零拍摄识别[37]和导航[40,39]。[39]提出了贝叶斯关系记忆,它在训练期间捕获环境的房间到房间的先验布局,以产生用于语义目标视觉导航的子目标。[40]通过提取Visual Genome [20]中对象类别之间的关系建立对象到对象图。而在我们的工作中,我们进行在线学习分层对象到区域(HOZ)图作为先验知识的对象导航,它提供了更一般的区域信息。3. 初步记法考虑一组环境Q和对象P,在每个导航片段中,agent被初始化到一个随机位置l=x,z,θ偏航角,θ俯仰角在一个环境中x、z表示平面坐标,θyaw、θpitch表示(智能体的)偏航角和俯仰角。在每个时刻-tampt,agent学习策略函数π(a tot,p),其基于第一人称视图〇t和目标对象p P预测动作at。 离散动作空间=MoveAhead、RotateLeft、RotateRight、LookDown、LookUp、Done。请注意,动作Done是由Agent本身判断的,而不是由环境通知的。对象导航任务的成功需要Agent最终捕获并接近目标对象(小于阈值)。4. 分层对象到区域(HOZ)图我们的目标是在看不见的环境中,在没有精确地图的情况下,将代理导航到给定的目标。因此,在这样的任务中的巨大挑战是定位对象。以前的作品[9,38,40]直接以目标对象嵌入为目标来指导动作预测。然而,在没有关于未知环境的先验知识的情况下,这些作品中的智能体可能一开始就找不到路径,导致一些没有意义的动作,比如频繁地旋转和后退。为了提供更强的指导,我们的导航模型考虑了更广泛的范围内的目标对象可能位于,这是表示为区。每个区域通常由一组相关对象组成例如,微波炉,炊具和水槽通常出现在同一区域。因此,导航到微波可以首先要求定位这样的区域。由于在不可见环境中无法获得精确的地图信息,因此如何收集合适的区域信息并构建分层对象到区域(HOZ)图仍然具有挑战性。因此,我们从可见的场景开始构建HOZ图(第4.1节),然后在不可见的场景中导航时自适应地更新它(第4.2节)。我们考虑来自以下分层结构的区域。我们的环境由几个场景组成,如卧室,客厅和厨房等,每个场景包含几个房间。在每个房间i 1、2、. . .,n,我们得到房间方向HOZ图Ωi(Vi,E i),其区域节点15133←···--Σk←←←←←···||∈.ΣΣ。Σ≡∈⊆∈∈--|||||带k|∪γγ1 |+的|y γ − y ζ |≤ ε| ≤ ε0否则算法1场景式HOZ图构造输入:K:区域编号输入:(房间1,. . . ,同一场景类别的房间n)1:创建房间级HOZ图形集2:对于i 1到n,做3:获取特征和位置[(f1,l1),(fd,ld)]在房间i中由座席进行随机探索4:创建图Gr(Vr,Er)对于属于同一类别的对象,我们只记录一次。 N表示对象类别的数量,l=x,z,θ yaw,θ pitch表示第3节中定义的观察位置。然后,我们对特征f进行K-Means聚类以得到K个区域,形成房间方向HOZ图Ωi(Vi,E i)中的区域节点。我们使用v k和δ(v k)来表示第k个区域节点及其嵌入特征。嵌入要素表示聚类中心,5:(C1,···,CK)←K均值(f1,···,fd,K)通过δ(v)=1(f,l)∈zone fγ,其中6:Vr聚类中心(C1,,Ck)7:Er用等式18:向ΩiGr(Vr,Er)添加房间方向HOZ图第九章: 端十: 创建场景HOZ图Gs(Vs,Es)11:初始化Gs(Vs,Es)Ω112:对于i 2到n做13:创建加权二分图Gb(Vb,Eb)14:Vb←Vs(Gs的所有节点),Vi(Ωi的所有节点)15:ω(Eb)←通过等式216:完美匹配Ψ*←Kuhn-Munkres(ω(Eb))区域k是K均值之后的一组聚类的视觉元组特征(f,l),并且区域k是元素编号。每个维度区域laye,r中的边缘e(v,k,v,j)表示两个区域彼此相邻的概率,其可以如下计算:Σ Σ()下一页17:更新G←Avg(G,Ω,Ψ*)参见图3(fγ,l γ)∈区域kη(1γ,1ζ)f∈ j,l∈j区s sie(vk,vj)=|×|区|zone|18:结束.王空军η(lγ,1ζ)=(一)通过对以自我为中心的观察特征进行聚类而获得,并且边缘被定义为两个区域的相邻概率(追溯到每个所包含对象的同现概率然后将这些按场景分组的房间HOZ图进行融合,得到场景HOZ图Gs(Vs,Es).所有场景HOZ图具有相同的结构,并构成我们最终的HOZ图(第4.1节)。4.1. HOZ图的构造4.1.1房间HOZ图类似的场景(例如: 例如,当提到客厅时,我们的脑海中可能会出现一个由沙发、枕头和桌子组成的区域当搜索对象时,人类倾向于首先定位对象最可能出现的典型区域。在我们的工作中,我们表示为区域和嵌入区域引导代理等领域。为了获得这些代表性区域,我们采样房间周围的视觉特征,并对它们进行聚类。在特定的房间i中,我们首先让智能体探索房间以收集一组视觉元组特征(f,l),其中fRN×1是Faster-RCNN [32]获得的对象袋向量,表示当前视图中出现的对象。应该注意的是,我们使用由0和1组成的对象包向量来表示对象类别。如果当前视图包含多个对象,其中ε是超参数阈值。然后,我们使用所有的节点特征来识别场景类别。对于每个房间i,我们构造一个房间方向的HOZ图Ωi(Vi,Ei)。4.1.2场景HOZ图为了获得场景式HOZ图,我们通过场景类别对所有房间式HOZ图进行分组。 以一个场景为例,我们可以得到房间方向的集合Ω =Ω1(V1,E1),. . . ,Ωn(V n,E n)。由于区域编号K是固定的,因此每个房间方向的HOZ图具有相同的结构以用于稍后的匹配和合并。考虑到直接计算所有房间HOZ节点的最大匹配是昂贵的,我们提出了成对的完美匹配和合并的两个图,直到所有的图合并成最终的一个。Ωi(Vi,Ei)与Ωi+1(Vi+1,Ei+1)图之间的匹配可称为加权二部图匹配. 我们构造了一个二部图Gb=ViVi+1,Eb,其中Vi是以Ω i为单位设 置 的 节点,Vi=Vi+1,Eb表示所有全连通边。完美匹配是找到子集Ψ Eb,其中每个节点恰好有一条边入射在其上。最大完美匹配满足Ψ*=a rgmaxebΨωeb,其中ebeb(vk,vj)Ψ表示边匹配节点vk和vj,vk我,VJVi+1。权重函数ω(eb)计算两个节点的相似性为ω。eb(vk,vj)Σ=1/d(δk,δj)(2)K输出:场景式HOZ图Gs(Vs,Es)15134∈不KFC不子=λZ ft+我 λZ ZcV1-δ)+KJJ不 不 不不边界框位置,fs∈RN×1是置信度得分,≡≡.Σ∈以自我为中心的观点来看,在时间戳t。根据视觉特征ft,目标对象pP和HOZ图G(V,E),智能体计算当前区域Z。、目标区域Z t和子目标区域Z sub,这将在下文中详细描述。第5.1节。这些区域指示向量Z,Z,Z∈RK×1是只激活代表性的独热向量区界限 所提出的HOZ图G(V,E)被嵌入关于GCN在时间t= 0,输入矩阵δ.V0Σ ∈RK×N表示所有区域节点V的嵌入特征。然后,δ(Vt)将基于ft被更新,其可以被公式化为.tΣcT.−CTΣ . t−1Σ图3. 匹配和合并。左半部分用Kuhn-Munkres算法给出了加权二部图的完美最大匹配.右侧部分示出了将两个匹配的房间方向HOZ图合并成新的图的平均计算。例如,两个节点(红色)匹配,并与平均池合并(写为Avg)。相应地,这些节点之间的边与平均池化合并。并且d(δk,δj)被定义为其中λ是确定当前观测对一般HOZ图的影响的可学习参数 在[18]之后,我们对边E执行归一化并获得利用更新后的区域节点δ(Vt)和相邻关系E(),我们的GCN输出一个节点级别的表示Hz∈RK×N作为区域嵌入Hz=σ。Eδ.VtΣWzΣ(5)其中σ(·)表示ReLU动作函数,并且d(δ,δ)=(δK - δ)(δKJδTδ(三)其中δkδ(vk),δjδ(vj)。 α是平衡两 个距 离 的 参 数 。 我 们 利 用 Kuhn-Munkres 算 法[ 21,31 ]来解决这个完美的一旦得到完美匹配,我们平均地合并匹配的节点和边,如图3所示。新生成的边是新节点所涉及的节点之间的原始边的平均值通过这种方式,我们可以两两地融合房间HOZ图最后得到综合图,其通知代理关于下一个子目标区域及其与其它区域的相对位置。4.2.2对象嵌入在[9]之后,我们以对象为节点,对象之间的关系为边建立对象层,并使用GCN对其进行编码对于当前的自我中心观点,我们可以得到检测特征Ft=fb,fs,fv,其中fb∈RN×4为不定义为场景HOZ图Gs(Vs,Es)。算法1总结了场景HOZ图的构造。所有场景式HOZ图构成我们的最终HOZ图。4.2. HOZ图的更新与嵌入4.2.1区域更新和嵌入利用所有训练数据,我们可以获得所看到的环境的一般HOZ图G(V,E)。由于不同的环境具有各种布局,特别是在新的不可见环境中,因此很难从头开始构建精确的图因此,我们首先学习一个一般的HOZ图,然后提出一种在线学习的方法来更新当前区域节点根据代理以这种方式,初始HOZ图将朝向当前环境演变。请注意,区域更新仅适用于一个事件,并且每个事件从初始HOZ图开始。通过对象检测,智能体获得对象类别出现的对象袋特征ft∈RN×1ΩiΩ1 -1ei1eiei#112ei#$2ei3ei#$4Avgei4Avgeiei#$e3我55eie6我6Avg平均值25平均值Avg11平均值34平均值43平均(6,六、eiei#$平均值52二分图ViV i+1Eb完美匹配.zδ Vδ(四)Wz∈RN×N是GCN层的参数那我们就拿J+α编码矢量HT Z子作为区域层的输出,不15135ΣΣ∈不不 不∈∈vRN×512是物体的视觉特征。 如果多个属于相同类别的实例同时出现定义Xo=fb,fs,pRN×6作为GCN的输入,其中pRN×1是表示目标对象的独热向量。GCN输出H〇=σ(AX〇 W〇)(6)需要学习邻接矩阵A和GCN网络参数WoR6×N然后,我们将Hofv集成为对象嵌入,它提供了对象级的信息.5. 导航政策5.1. 区域定位和导航规划当前区域我们将当前视图对象袋向量ft与预先学习的HOZ图15136||L联系我们i=1i−1我·终止开始终止开始终止开始终止开始终止开始卫生间:电灯开关客厅:垃圾桶卧室:手机厨房:冰箱图4. 测试环境中的可视化。黑色箭头表示旋转。智能体的轨迹用绿色和蓝色箭头示出,其中绿色是开始,蓝色是结束。G(V,E),并将最相似的节点作为当前区域,其可以被公式化为Zc=XK。argmin(d(ft,δ(vk)Σ,vk∈V(7)其中XK(·)是产生独热向量XK(i)= [Xl,. . .其中xi= l,xi= 0。d()在等式3中定义。 然后,HOZ图由当前区域Z_c和实时特征f_t更新(等式4)。在得到Γ * 之后,我们可以得到子目标区域Z sub=χK(τ1*)。 当当前区域发生变化时,网络将自适应地重新规划最优路径和子目标区域。5.2. 政策学习传统工作[38,9,40,41]基于当前观察学习策略π(atot,p)而在我们的工作中,我们学习了一个区域到动作的LSTM动作策略πz(at St,p),其中St是当前观测值ot、子目标区域嵌入HT Zsub和对象嵌入Ho fv的联合表示。[41,27]z t目标区域我们将目标对象出现概率最高的节点作为目标区域。将此任务制定为强化学习问题,我们通过学习策略函数 的 异 步 优 势 Actor-Critic ( A3 C ) 算 法 [28] 优 化LSTM。Zt=χKargmaxK.δ(vk)TpΣΣ,vk∈V(8)通过最小化导航损失nav来最大化奖励。策略函数输出一个t,表示每个时刻的动作概率,值函数用于训练策略网络。子目标区域导航代理从当前区域到目标区域,我们搜索一条路径的最大连接概率。如果边缘具有更高的值,则两个相关区域更可能相邻,使得代理可以容易地到达。此外,当目标区域远离当前区域或在当前视图中不可见时,代理可能不会被很好地引导。因此,我们将从该路径上的当前区域开始的第二子区域作为子目标区域,其提供关于接下来去哪里的信息。 我们的目标是找到一条最优的最大连通性路径Γ = v τ0,v τ1,. . . ,v τT,其中τ i1,. . . ,K表示节点索引,并且vτ0表示当前区域并且vτT表示目标区域,使得沿着路径的连接概率被最大化为:Γ*=argmaxΠTe.(9)第一次见面Γ开始终止开始终止开始终止我们的方法基线K.15137不不完成提醒为了提醒agent在遇到目标对象时及时停止,我们提出了完成提醒。结合对象检测置信度fs和目标对象p,我们用βpTfs对αt进行加权,以表示所做动作的效果(β是可学习的参数)。这样我们就可以得到最终的动作输出at。6. 实验6.1. 实验装置我们在AI 2-Thor模拟器[19]上评估了我们的方法,该模拟器在3D室内场景中提供了近乎照片般真实的观察。AI 2-Thor包含4种类型的120个场景:客厅,厨房,卧室和浴室,其中空间布局,对象类型和外观都不同。15138NΣΣΣ不−≥不AANi=1max(Li,L*i)不Nn=1Σ表1. 与子目标区和目标区的比较(%)。在训练和测试期间,区域到动作LSTM的输入分别被设置为子目标区域(S)或目标区域(T)。方法培训S T测试S TSr所有SPLSAESrL≥5SPLSAE基线Hoz√√√√57.35 ±1。9270.57 ±1。1133.78 ±1。3340.84 ±1。1219.02 ±1。3627.19 ±1。9645.77 ±2。1761.52 ±1。4730.65 ±1。0140.46 ±0. 6320.04 ±1。8729.61 ±1。08HozHoz√√69.04 ±1。0769.16 ±1。1540.07 ±1。0439.05 ±0. 8826.19 ±0. 9526.04 ±0. 9159.27 ±1。3360.28 ±1。4239.12 ±0. 8338.61 ±0. 8628.34 ±1。2429.08 ±0. 98同时考虑成功率和路径长度。这是德-定义为SPL=1ΣNSuciL*i,其中Li是图5. 区域编号的消融结果。我们评估了区域号(簇号)对SR、SPL和SAE等导航指标的影响。实际路径长度,L*i表示模拟器提供的最短路径虽然SPL计算路径与最优路径之间的接近度,但它忽略了动作序列的效率。例如,不必要的旋转花费时间并降低效率,这在SPL中没有考虑。因此,我们提出了SAE度量来衡量所有动作的效率其配制SAE=1Ni=1 Suci不t=0不I(ai∈Achange),其中II(ai∈Aall)(·),确保每个场景包含至少四个对象。对于每个场景类型,我们选择20个房间用于训练,5个用于验证,5个用于测试。6.2. 实现细节基线是A3C [28]导航策略,具有简单的视觉嵌入层来编码输入。 我们用12个异步工人训练我们的模型,总共有600万个导航片段。 在策略学习中,代理接收0。每一步罚分01,成功则奖励5。 我们使用Adam优化器[17]来更新我们的网络参数,学习率为10- 4。在ImageNet [8]上预训练的ResNet18[13]被用作我们的主干来提取每个以自我为中心的视图的特征。 在HOZ图构建中,我们在AI2-Thor的50%训练数据上微调Faster-RCNN [32]架构。我们的模型中的超参数被初始化为ε = 0。25,α = 0。1且β= 0。六、为了评估,我们随机选择代理的初始起始位置和目标对象,并重复运行5个试验。我们报告的结果(平均值和方差)为所有的目标(所有)和一个子集的目标(L5)的最佳轨迹长度大于5。6.3. 评估指标我们使用成功率(SR )、路径长度加权成功(SPL)[1]和行动效率加权成功(SAE)指标来评估我们的模型。 SR是Agent找到目标对象的成功率,表示为SR=1NSucn,其中N是总的情节数,Suc n是指示第n个情节是否成功的指示函数. SPLcon-是指示函数,ai是智能体第一集,all是所有动作类别的集合,change是指那些可 以 改 变 agent 位 置 的 动 作 在 我 们 的 设 置 中 ,Achange={MoveAhead}。6.4. 消融研究子目标区的有效性正如5.1节所讨论的,除了目标区,我们还考虑子目标区。消融研究分别用子目标区和目标区训练策略网络,如表1第2行和第4行所示。 与焦油相比-得到区域,子目标区域可以更好的有效引导agent.在SR中,嵌入子目标区域的训练优于目标区域1.41/1.24,1.79/1.85和1.15/0.53SPL和SAE(ALL/L≥5,%)。区域数量的影响簇号是一个超参数,用于指定场景中的区域号。图5表明,当区域的数量太大或太小时,性能会降低。此外,当规划路径时,大的区域号需要大量的计算资源。结果表明,最佳的分区数为8。因此,在剩余的评价中,区域的数量被设置为8。其他消融研究我们将提出的HOZ图分解为不同的组件。表2中的消融研究证明了我们方法的每个组分的功效。具体而言,观察到对象层显著提高了基线性能。此外,场景和区域层可以大大提高SPL和SAE指标的性能。虽然完成根据[38]中的设置,22种对象的子集t=015139≥≥≥表2. 不同部件的消融研究(%)。我们评估了各个模块的效果。这些模块包括4.2节中的场景层(Scene)、区域层(Zone)、对象层(Object)和5.2节中的完成提醒(Reminder)。基线场景区对象提醒Sr所有SPLSAESrL≥5SPLSAE√57.35 ±1。9265.12 ±1。0365.81 ±1。1166.73 ±1。0170.57 ±1。1170.62 ±1。7033.78 ±1。3337.86 ±0.9338.83 ±0.5937.82 ±0.8340.84 ±1。1240.02 ±1。2519.02 ±1。3624.36 ±0.9122.45 ±0.9924.81 ±0.8427.19 ±1。9627.97 ±2。0145.77 ±2。1753.42 ±1。4357.23 ±0.9357.55 ±1。1961.52 ±1。4762.75 ±1。7330.65 ±1。0135.37 ±0.7136.25 ±0.6536.48 ±0.5240.46 ±0.6339.24 ±0.5620.04 ±1。8725.32 ±1。0425.53 ±0.8727.79 ±1。0729.61 ±1。0830.14 ±1。34√√√√√√√√√√√√√√√√√表3. 与相关工程的比较(%)。受空间限制,差异在补充资料中详细说明。方法Sr所有SPLSAESrL≥5SPLSAE非自适应方法随机3.561.730.410.270.07零点零六A3C(基线)57.35 33.7845.77 30.65 20.04SP [40]62.16 37.0150.86 34.17 24.35ORG [9]66.38 38.4255.55 36.26我们的(HOZ)70.62 40.02 27.9762.75 39.24自监督法SAVN [38]ORG-主题方案网络[9]63.32 37.6267.3139.5352.38 35.3157.41 38.27我们的(HOZ-TPN)73.1539.2239.80 30.92提醒降低SPL度量,它增加SR和SAE度量,指示添加完成提醒延长发作。总体而言,我们的方法优于基线模型,在SR,SPL和SAE(ALL/ L)中的增益分别为13.27/16.98,6.24/8.59和8.95/10.105,%)。的实验结果表明,我们的方法是能够有效地引导导航在看不见的环境。此外,考虑到场景HOZ图的构造可能由于房间HOZ图的不同合并顺序而不一致。我们测试了20种不同的合并顺序,得到SR、SPL和SAE(ALL/ L)的方差分别为0.83/0.81,0.78/0.81,0.81/0.825,%)。这些结果表明,合并相关的潜在的不一致性对导航性能的影响不大。6.5. 与最新技术水平的相关的工作可以分为非自适应模型[9,40]和自监督模型[38,9]。与表3中的非自适应方法相比,我们的方法在SR、SPL和SAE度量方面大幅优于现有技术。特别是在SR、SPL和SAE中,我们获得了 4.24/7.20,1.60/2.98,2.61/2.61(ALL/升5,%)超过最先进的模型[9]。与非自适应模型相比,自监督模型在测试中具有自监督更新这种自我监督可以提高表现15140而且还消耗额外的计算资源。我们还实现了我们的方法与自我监督(表示为HOZ-TPN)。与HOZ相比,HOZ-TPN改善了SR,但在SPL和SAE方面取得了等同的结果,这更能说明导航效率。HOZ和HOZ-TPN(以及ORG和ORG-TPN)之间的比较表明,虽然自我监督可能有助于成功导航到目标对象,但它也引入了额外的动作。更多的实验结果详见补充资料。案例研究图4定性地比较了我们的HOZ与基线模型。在这些场景中,代理被放置在无法看到目标对象的初始位置当目标对象不在视图中时,基线模型通常会发生旋转然而,我们的HOZ方法可以帮助代理定位当前区域,并提供从当前区域到目标区域的指导,因此代理具有更好的性能。值得注意的是,在子目标区域的指导下,配备有我们的HOZ图的智能体可以选择比基线方法更好的旋转方向。7. 结论我们提出了分层对象到区域(HOZ)图,捕获的对象在典型区域的先验知识。配备有HOZ的代理能够更新先验知识,定位目标区域并规划区域到区域的路径。我们还提出了一个新的评价指标命名为成功加权的行动效率(SAE),衡量行动的效率。实验结果表明,我们的方法优于基线的SR,SPL和SAE指标的大幅度提高。鸣谢:本工作得到了国家新一代人工智能重点研发项目2018AAA0102500的支持,部分得到了国家自然科学基金62032022、61902378和U1936203的支持。部分由北京自然科学基金L182054和Z190020资助,部分由联想杰出青年科学家计划资助,部分由国家创新人才博士后计划BX201700255资助。15141引用[1] PeterAnderson , AngelChang , DevendraSinghChaplot,Alexey Dosovitskiy,Saurabh Gupta,VladlenKoltun , Jana Kosecka , Jitendra Malik , RoozbehMottaghi,Manolis Savva,et al.嵌入式导航代理的评价。arXiv预印本arXiv:1807.06757,2018。6.3[2] Somil Bansal,Varun Tolani,Saurabh Gupta,JitendraMalik,and Claire Tomlin.结合最优控制和学习在新环境中的视觉导航。在Leslie Pack Kaelbling,Danica Kragic和Komei Sugiura,编辑,第三届机器人学习年会,CoRL 2019,日本大坂,2019年10月30日至11月 1日,Proceedings,机器学习研究论文集第100卷,第420-429页PMLR,2019年。2[3] Devendra Singh Chaplot , Dhiraj Gandhi , SaurabhGupta,Abhinav Gupta,and Ruslan Salakhutdinov.学习使用主动神经SLAM探索。在第八届国际会议上学习代表,ICLR 2020,亚的斯亚贝巴,埃塞俄比亚,2020年4月26日至30日。OpenReview.net,2020年。2[4] Devendra SinghChaplot , RuslanSalakhutdinov ,Abhinav Gupta,and Saurabh Gupta.用于视觉导航的神经拓扑SLAM。在2020年IEEE/CVF计算机视觉和模式识别会议,CVPR 2020,美国华盛顿州西雅图,2020年6月13日至19日,第12872-12881页。IEEE,2020年。2[5] KevinChen , JuanPablodeVicente , GabrielSepulveda,Fei Xia,Al v aroSoto,MarynelV a'zquez,andSilvioSavarese. 用图形局部化网络进行视觉导航的行为 方 法 在 Antonio Bicchi , Hadas Kress-Gazit 和 SethHutchinson,编辑,机器人:科学与系统XV,弗莱堡大学,弗莱堡im Breisgau,德国,2019年6月22日至26日。2[6] Tao Chen,Saurabh Gupta,and Abhinav Gupta.学习航海勘探政策。在第七届国际学习表征会议,ICLR 2019,新奥尔良,洛杉矶,美国,2019年5月6日至9日。OpenReview.net,2019年。2[7] 作者:Mark Cummins,Paul M.纽曼基于概率2007年IEEE机器人和自动化国际会议,ICRA 2007,2007年4月10-14日,意大利罗马,第2042IEEE,2007年。2[8] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi,and Fei-Fei Li. Imagenet:一个大规模的分层图像数据库。2009年IEEE计算机协会计算机视觉和模式识别会议(CVPR 2009),2009年6月20- 25日,美国佛罗里达州迈阿密,第248-255页,2009年。6.2[9] 杜鹤鸣、新宇、梁正。学习对象关系图及可视化导航的初步策略。在计算机视觉-ECCV 2020-第16届欧洲会议,格拉斯哥,英国,2020年8月23日至28日,会议记录,第七部分,第19-34页,2020年。1、2、4、4.2.2、5.2、3、6.5[10] 阿尔贝托·埃尔夫斯使用占用网格的移动机器人感知和导航。计算机,22(6):46-57,1989. 2[11] Kuan Fang,Alexander Toshev,Fei-Fei Li,and SilvioSavarese.用于具体化代理的在长期任务中。在IEEE计算机视觉和模式识别会议上,CVPR 2019,长滩,加利福尼亚州,美国,2019年6月16日至20日,第538-547页。计算机视觉基金会/ IEEE,2019。2[12] Saurabh Gupta,James Davidson,Sergey Levine,RahulSukthankar,and Jitendra Malik.视觉导航的认知绘图与规划。在2017年IEEE计算机视觉和模式识别会议上,CVPR 2017,檀香山,HI,美国,2017年7月21日至26日,第页 7272-7281.IEEE计算机学会,2017年。2[13] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在2016年IEEE计算机视觉和模式识别会议,CVPR 2016,美国内华达州拉斯维加斯,2016年6月27-30日,第770-778页,2016年。6.2[14] Hamid Izadinia、Fereshteh Sadeghi和Ali Farhadi。将场景上下文和对象布局结合到外观建模中。在2014年IEEE计算机视觉和模式识别会议,CVPR 2014,美国俄亥俄州哥伦布2014年6月23-28日,第232-239页,2014年。4.1.1[15] Gregory Kahn 、 Adam Villaflor 、 Bosen Ding 、 PieterAbbeel和Sergey Levin
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 十种常见电感线圈电感量计算公式详解
- 军用车辆:CAN总线的集成与优势
- CAN总线在汽车智能换档系统中的作用与实现
- CAN总线数据超载问题及解决策略
- 汽车车身系统CAN总线设计与应用
- SAP企业需求深度剖析:财务会计与供应链的关键流程与改进策略
- CAN总线在发动机电控系统中的通信设计实践
- Spring与iBATIS整合:快速开发与比较分析
- CAN总线驱动的整车管理系统硬件设计详解
- CAN总线通讯智能节点设计与实现
- DSP实现电动汽车CAN总线通讯技术
- CAN协议网关设计:自动位速率检测与互连
- Xcode免证书调试iPad程序开发指南
- 分布式数据库查询优化算法探讨
- Win7安装VC++6.0完全指南:解决兼容性与Office冲突
- MFC实现学生信息管理系统:登录与数据库操作
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功