没有合适的资源?快使用搜索试试~ 我知道了~
PONI:无交互学习的ObjectNav导航
18890×∼PONI:具有无交互学习的Santhosh Kumar Ramakrishnan1,2,Devendra Singh Chaplot1,Ziad Al-Halah2,Jitendra Malik1,3,Kristen Grauman1,21Meta AI2 UT奥斯汀3UC伯克利摘要最先进的ObjectGoal导航(ObjectNav)方法依赖于强化学习,通常需要大量的计算资源和学习时间。我们提出了潜在的功能ObjectGoal导航与互动自由学习(PONI),一个模块化的方法,解开的技能如何导航到(x,y)?我们的关键是看哪里?'可以被视为纯粹的感知问题,并在没有环境交互作用的情况下学习。为了解决这个问题,我们提出了一个网络,预测两个互补的潜在功能的条件下的语义地图,并使用它们来决定在哪里寻找一个看不见的对象。我们在自上而下的语义映射的被动数据集上使用监督学习来训练势函数网络,并将其集成到一个模块化框架中以执行ObjectNav。在Gibson和Mat-terport 3D上的实验表明,我们的方法达到了ObjectNav的最新水平,同时减少了高达1600的训练计算成本。代码和预先训练的模型是可用的。11. 介绍智能视觉导航是计算机视觉问题,其中智能体使用视觉感知来主动与世界交互并执行导航任务[2,3,6,51]。在过去的十年里,我们见证了体现视觉导航的实质性进展,这得益于大规模逼真的3D场景数据集的可用性[10,45,60],用于具体导航的快速模拟器[33,51,60]。ObjectNav近年来越来越受欢迎[2,6,50]。在这里,智能体进入新的且未映射的3D场景,并且被给予要导航到的对象类别(例如,椅子)。为了成功地解决任务,智能体需要有效地导航到对象,并在给定的时间预算内停在它附近。这对于需要关于世界的语义推理(例如,1网站:https://vision.cs.utexas.edu/projects/poni/电视在客厅,烤箱在厨房,椅子靠近桌子),它是更复杂的对象操作任务的先驱[33,55]。先前的工作通过将其制定为强化学习(RL)问题并开发有用的表示[21,62],辅助任务[63],数据增强技术[37]和改进的奖励函数[37],在这项任务上取得了良好的进展。尽管取得了这一进展,但端到端强化学习仍会产生高计算成本,样本效率低,并且往往无法很好地推广到新场景[8,13,37],因为像无碰撞移动,探索和在物体附近停止这样的技能模块化导航方法旨在解决这些问题,通过解开以及[13、36]。这些方法已经成为端到端RL的强大竞争对手,具有良好的样本效率,更好地推广到新场景,并模拟真实世界的传输[12,13]。怎么-怎么,从哪里找?'被公式化为具有基于交互式奖励的学习的RL问题,这些方法需要多天的大量计算资源(8个GPU)用于训练。我们假设对于一个看不见的物体的问题,从基于这一观点,我们介绍了一种简单而有效的方法,用于Ob-jectNav-P势函数的Ob-jectGoal N导航与无交互学习(PONI)。 势函数是在2D自顶向下语义图2的边界处定义的0-1值函数,即,位于已探索和未探索区域边缘的地图位置(见图1)。1,右)。它表示为了找到对象而访问每个位置的值(值越高越好)。有了势函数,我们就能决定从哪里找?'通过简单地选择最大可能位置。我们提出了潜在的功能网络,卷积编码器-解码器模型,估计潜在的功能,从部分填充的语义图。至关重要的是,我们建议使用以下数据集进行无交互训练:2D语义图包含每个地图位置的对象类别。18891××淋浴在哪里?部分语义图势函数网络预测势函数1.0关于语义地图的非交互式培训0.0淋浴的GT位置(代理商未知)地图边界图1. ObjectGoal Navigation with Interaction-Free Learning(PONI)的潜在功能。我们介绍一种方法来决定"在哪里看?'室内3D环境中看不见的物体。我们的关键见解是,这从根本上说是一个感知问题,可以在没有任何互动学习的情况下解决。我们通过定义一个势函数来解决这个问题,这个势函数是一个[0,1]值函数,它代表了为了找到对象而访问每个位置的值。给定势函数,我们可以简单地选择它的argmax位置来决定在哪里寻找对象。我们提出了一种势函数网络,该网络使用来自部分填充的语义图的几何和语义线索来预测感兴趣对象的势函数(例如,淋浴)。我们在语义地图的数据集上以非交互式的方式训练这个网络,并将其集成到执行ObjectNav的模块化框架从3D语义标注[10,60]获得的自上而下的语义图(见图1,中心)。这与先前的RL工作不同,RL通过使用相 同 的 语 义 注 释 设 计 奖 励 函 数 来 交 互 式 地 学 习ObjectNav策略[13,37,63]。具体来说,我们的网络通过利用语义图中的几何和语义线索来预测两个互补的潜在函 数环境布局、房 间-对象和对 象-对象关系)。面积势函数捕获地图中的未探索区域以进行有效探索,而对象势函数是基于测地线距离的函数,其帮助确定如何到达对象。训练完成后,我们将势函数网络部署在Ob-jectNav的模块化框架中,在该框架中,我们将区域和对象势预测结合起来,以决定在哪里寻找目标对象。我们在Gibson [60]和Matterport3D [10]的逼真3D环境上进行实验。我们提出的方法优于Gibson上最先进的模块化RL方法[13],具有较低的训练成本,以及MP3D上最先进的端到端RL方法[37],具有较低的训练成本。与以前公布的方法相比,我们的方法在HabitatObjectNav挑战排行榜上处于最先进的地位[62. 相关工作视觉导航。 先前的工作已经提出了各种视觉导航任务,例如PointNav [2,50,51],Object-Nav [6,50],RoomNav [2,50],ImageNav [1,49,65],Au-[15,16],指令遵循[3,34]和问题回答[19,24]。研究记忆模型,如递归网络[30,51,57],度量映射[18,25,29,46],拓扑图[14,49]和情景记忆[22]促进了这些任务的显著改善。在这项工作中,我们提出了一种新的策略来解决ObjectNav。ObjectGoal导航 最近在端到端RL方面的工作对于ObjectNav,提出了改进的视觉表示[40,62],辅助任务[63]和数据增强技术[37],以提高对新场景的泛化。改进的视觉表示包括语义分割[40],空间注意力图[38]和对象关系图[20,21,39,42,62,64]。之前的工作还学习了辅助任务,例如预测代理动态,环境状态和与ObjectNav同时进行的地图覆盖,并取得了有希望的结果[63]。最近,trea- sure hunt数据增强[37]通过使用人工插入的对象进行训练并提高RL奖励[37],在ObjectNav上实现了最先进的技术。ObjectNav的模块化RL方法也成为端到端RL的强有力竞争者[13,36]。它们依赖于用于语义映射、高级语义探索(即,去哪里看?)以及低级导航(即,如何导航到(x,y)?)语义探索模块是通过RL学习的,但由于模块化和较短的时间范围,它比端到端RL更具样本效率和泛化能力。我们提出了一种新的策略的语义探索模块。具体地说,我们决定去哪里找?'使用通过对语义图的数据集的监督学习而非交互地训练的势函数网络当集成到最先进的模块化流水线[13]中时,我们的方法实现了更好的性能,同时显著降低了训练的计算成本。非交互式导航学习。从被动(非交互式)数据中学习已经成为学习导航策略的一个很好的方法。行为克隆从专家动作监督中学习导航策略[3,18,19,25,56],但通常对于复杂的导航任务表现不佳[11,14],并且可能需要后续的RL微调[18,19]。先前的工作还集中在图像监督的预训练视觉表示[19,52],18892×A AA不不不不从视频中学习环境级表示[47],以及从视频中学习导航子例程[35]。然而,它们需要后续的策略学习来解决感兴趣的特定导航任务最近的自我监督导航工作使用被动图像[14]和视频[11,26]收集直接学习距离和语义评分函数,并使用ImageNav和ObjectNav的分析策略。相比之下,我们提出了一种监督策略来从2D se-mantic map的被动数据集学习ObjectNav策略,并展示了最先进的性能和高计算效率。基于航路点的导航。以前的工作基于航路点导航重复预测中间目标的路线上的目标,然后使用低层次的导航,以达到这些中间目标[5、12、17、23、41]。这些政策可以通过强化学习来学习[12,17,36,44,59],监督学习[5,23,54],或者只是分析规划而没有任何学习[61]。势函数可以解释为ObjectNav的Q值函数[36],但仅在边界上预测,并从自上而下的语义映射集合中以监督方式学习[54]中的方法学习预测PointGoal导航的前几层的值函数,即,到已知的(x,y)位置,在合成生成的迷宫和实验室平面图中。相比之下,我们解决了更具挑战性的ObjectNav任务,其中目标位置先验未知,并且我们专注于需要语义推理来找到目标的各种真实室内环境(例如,对象-对象和对象-房间关系)。我们引入面积势函数来鼓励探索和信息收集,并引入物体势函数来执行语义推理。我们凭经验证明这些组件的价值ObjectNav在秒。五、3. 方法接下来,我们正式定义ObjectNav任务并介绍我们的方法。3.1. ObjectNav定义代理的任务是导航到由其类别标签指定的对象在一个未开发的环境中[6]。在一集开始时,智能体在环境中随机的可导航位置产生。在每个时间步t,代理接收640 480RGB-D传感器读数st,(x,y,θ)里程表读数,以及目标类别o。里程计读数随时间聚合以获得代理代理然后执行一个动作at,其中包括向前移动、左转、右转和停止。要求座席在% d % s= 1内导航。0m,并执行stop以成功完成任务。当代理执行stop时,事件终止,或者超过T= 500步的时间预算。3.2. 方法概述我们提出了ObjectGoal Navigation(PONI)的潜在功能,PONI是一种用于解决Object-Nav的模块化架构(见图1)。2)。我们的模型由三个部分组成。语义映射器使用RGB-D和姿态传感器读数来构建世界的非中心语义地图(mt),该地图捕获哪些对象在地平面上的位置(图2)。2,左)。势函数网络(πpf)在语义图之上执行地理度量和语义推理,并对长期目标位置gt进行采样以探索以找到目标对象o。然后,本地策略使用分析路径规划将代理导航到长期目标,并且该过程重复直到事件结束。我们的关键在于πpf的设计和优化。接下来,我们讨论各个组件。3.3. 势函数网络势函数网络解决了“从哪里看?'对于一个看不见的目标对象o的问题。它使用语义映射m t和目标对象o来预测为Ob- jectNav提供补充信息的两个潜在函数(参见图11)。2,中心)。面积势函数Ua作为有效探测的指南,并帮助发现环境中未探测的区域。类似于RL中的探索奖励[13,37],它为ObjectNav提供了有用的探索偏差。当语义图没有信息时(例如,在情节开始时),Ua对于快速探索环境和收集信息至关重要对象势函数Uo用作有效地搜索目标对象o的指导。当语义图具有足够的信息量时,Uo对于执行语义推理和快速找到对象至关重要。势函数网络将这些势函数结合起来,对长期目标进行采样,有效地在探索环境和寻找目标之间进行权衡。我们首先定义区域和对象势函数,这些势函数在训练过程中使用环境的完整地图进行分析计算,然后描述势函数网络架构,该网络架构在给定不完整地图的情况下学习推断它们。在图3中,我们显示了一个示例语义映射及其相应的潜在函数。“完整语义地图”是环境的完整地图,而“部分语义地图”仅包含在环境中导航的智能体所观察到我们仅在地图边界处定义区域和对象潜力,即,在部分语义图上,被探索的自由空间(浅灰色)和未被探索的区域(白色)之间的边缘(图1)。3,第2栏)。边界上的势函数足以找到一个看不见的物体,因为通往任何其他未探测位置的路径必须通过边界(根据定义)。在我们18893不不不不不联系 我们不不不Ut(ot,x)=max不1−、0.0不不语义映射器势函数网络面电位译码器编码器()普雷特分析性地方政策( CNOL)目标电位解码器0.01.0不对象电位(mV$)语义图长期目标(长期)观察结果(RGBD)不面积潜力(#)目标对象类别(类)行动(行动)代理姿势(姿势)图2. PONI架构:我们的模型由三个部分组成。语义映射器使用RGB-D和姿态传感器读数来构建世界的非中心地图。势函数网络πpf使用语义图和目标对象类别ot来预测区域和对象势函数。对两个电位取平均值,并采样最大位置作为长期目标。本地策略πL使用分析路径规划将代理导航到长期目标gt。实验中,我们还发现,预测潜在的功能,只有在边界是 更 有 效 的 预 测 它 在 所 有 地 图 的 位 置 ( 见 节 。(五)。面积势函数(Ua)面积势Ua(f)地图编码器(E)它从语义地图中提取空间特征:et=E(m t),使用具有4个下采样卷积块的标准UNet编码器[48]。面积势解码器(DA)预测面积势,t t边界F测量剩余的自由空间的量,即,在部分语义图中未探索的可导航单元。为了在训练数据上计算U a(f),我们首先将未探测的自由空间单元分组为连接的分量C=c1,,c n使用OpenCV [7],然后将每个连接的组件ci与地图边界相关联。只有当c中的至少一个像素是f中某个像素的8-连通邻居时,分量c才与边界f相关联。对于每个边界f,我们可以计算面积势Ua(f),作为与f相关的连通分量的面积之和,由完整映射上的总自由空间归一化3为了得到地图的整体面积势函数Ua,我们将所有非边界像素设置为0,并将边界的面积势设置前沿像素(如图所示)3,第3栏)。物体势函数(Uo)物体o t的物体势函数Uo是边界位置x和o t之间的测地距离的函数。O.d g(o t,x)其中d g是x和1之间的测地线距离。0 m成功区域,围绕类别0t中最近的对象(类似于[6]),dmax是通过验证实验选择的Uode- cays到0的距离。该对象势函数有助于有效的对象搜索,并且让人想起A* 搜索中的启发式[27]。接下来,我们定义了势函数网络,它从局部语义图中引入区域和对象势函数。它由三个部分组成:语义映射编码器E、区域潜在解码器D a和对象潜在解码器D o,如图12所示。二、3对于MP3D,我们用一个固定的常数进行归一化,因为映射是巨大的。根据编码器特性确定的函数:U a=D a(e t)。 我们使用一个标准的UNet解码器,它由4个上采样卷积块组成,最后一层有一个sigmoid激活函数。输出是表示每个标测图位置的面积电位的单通道标测图。对象势解码器(D o)它预测以编码器特征为条件的所有有效对象类别的对象势函数:U o=D o(e t)。我们使用一个标准的UNet解码器,它由4个上采样卷积块组成输出是一个N通道图,表示每个位置处每个对象类别(1到N)为了获得特定对象类别o的势能,我们从Uo中选择相应的贴图通道。长期目标采样我们将区域和目标电位线性组合,以获得在发现未探索区域和找到目标之间进行权衡的整体 电 位 :Ut=αUa+ ( 1−α ) Uo ,(2)其中α=0。5是通过验证实验确定的。为了对长期目标进行采样,我们在所有探索的地图位置(边界除外)将Ut由于几何计算的地图边界在导航过程中可能会有噪声,因此我们保留了来自未探索位置的预测,为模型在确定边界边界时提供了一些灵活性。然后,我们对过滤后的Ut的最大位置进行采样,作为长期目标。3.4. 语义映射器语义映射器负责聚合来自各个RGB-D观测DMax(一)18894××···×DD12联系我们完全语义图厕所(未观察到)1.00.0Object PF for地图边界部分语义图1.00.0PF峰面图3. 势函数(PF)的一个例子。从左到右,我们展示了环境的完整语义图,仅包含代理观察到的部分的部分语义图,区域PF,以及类别“小精灵”的对象PF红色的区域和对象PF定义在边界上,并覆盖在部分语义图上红色的强度表示PF的值虽然区域PF对于导致环境的更多未探索区域的边界是高的,但是对象PF对于最接近对象的边界是高的请注意,在训练过程中,这些映射会通过随机平移和旋转进行增强(参见第2节)。3.6)。从时间0到t转换为非中心语义图mt。我们使用来自最先进的语义探索方法的映射过程[13]。深度观测用于计算点云,该点云使用主体的姿势(p 0,,p t)配准到allocentric坐标系通过使用最先进的分割模型[28,31]分割相应的RGB图像,将点云中的每个点分类为N个对象类和1个通过使用可微几何运算[29]将点云投影到自顶向下的地图空间以获得(N+2)MM语义地图mt。通道1和2对应于障碍物和探索区域,其余包含N个对象类别。3.5. 地方政策局部策略πL将智能体导航到由势函数网络采样的长期目标。它使用快速行进方法[53]来计算从当前位置pt到长期目标gt的最短路径,使用来自语义地图mt的障碍通道。然后,本地策略采取确定性操作,沿着该最短路径导航代理。这被认为是有效的作为一个学习的地方政策在以前的工作[12,13]。3.6. 势函数网络的训练障碍物和探索区域,以及对象的N个通道(见图1中的第1列)。(3)第三章。从这个完整的语义映射m c中,我们创建了一个训练数据元组(m p,U a,U o),它由部分语义映射以及区域和对象势函数组成(参见图2中的列2到4)。(3)第三章。部分地图mp是mc的子集,并且充当具体化的代理在3D环境中导航时将观察到的语义地图的代理。其计算如下。我们初始化一个全零然后,我们在mc上随机选择两个自由空间位置,并使用经典规划器计算它们之间的最短路径。 对于最短路径上的每个位置x,我们设置一个以x为中心的S S正方形补丁为1,表示地图的这些部分已经被探索过。我们仅针对在m e中设置为“已探索”的位置,将值从mc复制到mpmp中的其余位置未被探索。从边界到每个物体的距离mp是在完整地图mc上使用最短路径规划[27,53]获得的。面积和物体势函数的计算方法见第二节。三点三给定从3D场景获得的一组完整的语义图mc,mc,我们创建用于训练势函数网络的数据集,如上所述:啪啪啪我们的关键见解是,“在哪里看?' ObjectNav的问题可以被视为纯感知问题,并且在模拟的3D环境中无需任何交互即可具体来说,我们训练势函数网络D={(m1,U1,U1),(m2,U2,U2),···}(3)然后训练势函数网络以使用从mp预测(Ua,Uo)。给定部分地图mp,地图编码器提取特征e,以及面积和ob。πpf 在预先计算的语义地图的数据集上,4对象电位解码器分别推断电位U_ a和U_ o,活泼地使用损失对模型进行端到端训练从3D场景数据集中的语义注释[10,60]。首先,我们使用来自Semantic MapNet的公开代码将3D场景的语义点云注释投影到每层2D语义地图[9]。然后我们申请L=L a+L c,其中L a和L c是面积势函数和物体势函数的逐像素均方误差。L=1mm Ua(x)−U a(x).. 第二(四)条一随机平移和旋转的地图作为一种形式数据扩充这给出了3D场景的增强且完整的语义图mc,其具有两个通道,18895C|F|N2|F|2x∈FNL=1mmUo(x,n)−U o(x,n).. 2(五)4大多数ObjectNav方法使用相同的语义注释x∈Fn=118896F在这里, 是边界像素的集合,并且N是对象类别的数量。这里训练的势函数网络二、4. 实验装置我 们 使 用 Habitat simulator [51] 对 Gibson [60] 和Matter-port 3D(MP 3D)[10]数据集进行实验。Gibson和MP3D都包含真实世界环境的对于Gibson,我们使用来自Gibson微小分裂的25个train / 5 val场景,这些场景具有相关的语义注释[4]。对于MP 3D,我们使用61火车/ 11 val / 18测试场景的标准分割。我们使用在Sec中定义的ObjectNav设置。第3.1条这些设计选择与CVPR 2021 Object- Nav Challenge [6]一致。请注意,深度和里程表在模拟中是无噪声的。只有语义映射器依赖于深度和姿态,并且这在现实世界中表现出良好的工作效果,在先前的工作中具有嘈杂的姿态和深度[13]。对于Gibson实验,我们使用来自SemExp [ 13 ]的ObjectNav数据集,它由6个目标类别组成:“椅子”、“沙发”、“盆栽”、“床”、“摇篮”和“电视”。对于MP3D实验,我们使用Habitat ObjectNav数据集[51],该数据集由21个目标类别组成(在补充中列出)。用于训练势函数网络的语义映射也使用这些类别。评估指标我们使用四个指标来衡量ObjectNav的性能。成功率是方法成功的事件的比率。SPL是通过路径长度加权的成功,并测量代理路径相对于Oracle最短路径长度的效率是在情节结束时智能体与目标对象的成功阈值的距离(以m为单位)[6]。SoftSPL是SPL的一个软版本,它基于目标的进展(即使成功率为0)来衡量效率。它是在人居2020 PointNav挑战中引入的。4.1. 基线我们使用三种类型的基线:非交互式,端到端RL和模块化。非交互式基线。BC:我们使用行为克隆来训练基于ResNet-50的 re-current策略[57],该策略使用RGB-D,代理姿势和目标对象类别作为输入。Predict-θ:它将方向分类到最近的对象。从0°到360°的方向被离散为8类。在ObjectNav过程中,它沿着预测的方向。Predict-xy:它预测最近对象的(x,y)地图位置(与[13]相同的动作空间)。在Object- Nav期间,它导航到预测的(x,y)位置。Predict-A:它对要采取的导航操作进行分类,沿着最短的路径到达最近的物体。在ObjectNav期间的每一步都执行预测的操作。Predict-* 基线是通过改变我们的PONI模型中的势函数网络的输出参数化来获得的(见图1)。2)。这些都是在来自Sec的语义地图的相同数据集上训练的。三点六端到端RL基线。DD-PPO[57]:它代表了在多个节点上进行分布式训练的香草端到端RL。Red-Rabbit[63]:它 通过 多个 辅助 任务 增强 了 DD-PPO,提高了样本效率并将其推广到不可见的环境。这是CVPR 2021举办的Habitat ObjectNav挑战赛的获奖THDA[37]:它引入了模块化基线。SemExp[13]:这是ObjectNav最先进的模块化方法。它使用基于RL的交互式训练来学习用于对长期目标进行采样的策略。它是CVPR 2020举办的ObjectNav挑战赛的获胜作品。FBE[61]:这是一种经典的基于边界的探索方法,可以构建世界的2D占用地图并导航到最近的地图边界。当语义分割模型检测到目标对象时,它使用分析本地策略导航到目标并执行停止。ANS[12]:这是一个模块化的RL策略,经过训练可以最大化区域覆盖。它使用与FBE相同的启发式算法进行目标检测和停止。FBE 和 ANS 执 行 与 目 标 无 关 的 探 索 , 并 帮 助 对ObjectNav的目标驱动行为的价值进行对于DD-PPO,Red-Rabbit , THDA 和 SemExp , 我 们 使 用 HabitatObjectNav 挑 战 排行 榜 上 公开 的 MP 3D 结 果 。对 于Gibson和ANS上的SemExp,我们评估了作者发布的预训练模型。4.2. 实现细节在Gibson上,我们对来自Gibson tiny的训练分割图像的COCO预训练的Mask- RCNN[28]进行微调,其中包含来自[13]的15在MP3D上,我们使用在[37]中训练的RedNet[31]分割模型,并预测21个对象类别。势函数网络使用基于UNet的编码器-解码器架构[48]。该模型在语义地图的数据集上进行训练,如第2节所述。三点六对于Gibson,我们从Gibson tiny中的每个楼层提取63个列车/ 13个val映射。对于MP 3D,我们从每个楼层提取153个火车/ 21个val映射。对于每个数 据 集 , 我 们 预 先 计 算 400 , 000 个 train/1 , 000val(mp,Ua,Uo)元组,如前所述节中三点六我们使用PyTorch [43]训练模型,时代我们使用亚当优化器[32]学习18897−××××吉布森(val)MP3D(val)方法成功 ↑SPL↑↓成功 ↑SPL↑DTS ↓BC12.28.33.903.82.17.5预测-A预测-θ14.769.913.635.73.451.442.729.01.610.67.85.7预测-xy66.934.21.6929.410.75.5DD-PPO[57]15.010.73.248.01.86.9[63]第六十三话---34.67.9-THDA[37]---28.411.05.6FBE[61]64.328.31.7822.77.26.7ANS[12]67.134.91.6627.39.25.8SemExp[13]71.739.61.39---PONI(我们的)73.641.01.2531.812.15.1表1. Gibson和MP3D上的ObjectNav确认结果。我们用3个种子进行训练,并报告平均表现。相应论文中未报告缺失结果。吉布森MP3D请注意,PONI优于Predict-θ和Predict-xy,即使它们都是在具有相同编码器主干的相同语义映射数据集上训练的。这表明,它是更好地明确预测的区域和对象的潜在功能的导航,而不是直接预测的对象。BC和Predict-A表现不佳,表明直接学习分类最短路径动作是不够的.与端到端RL基线的比较。PONI在端到端RL方面的性能也优于最先进的技术(参见表5 - 7中的行)。1)。在Gibson(val)和MP 3D(val)上,PONI在DD-PPORed-Rabbit和THDA使用辅助任务、数据增强和更好的奖励设计等技术改进DD-PPO与这些相比,PONI实现了更有效的导航,在MP3D(val)上SPL和竞争成功率高出14%与模块化基线的比较。PONI是ObjectNav的最佳模块化方法(参见表8 - 11中的行)。1)。PONI在所有指标和数据集上都令人信服地优于目标不可知的基线FBE和ANSPONI也优于SemExp,以前的最先进的模块化方法,在吉布森(val),即使他们依赖于相同的非交互式基线端到端RL基线模块基线PONI(我们的)语义映射器和分析性本地策略。这证实图4. ObjectNav性能与培训成本。我们使用用于训练模型的#PONI实现了最先进的性能,降低了高达1600注:MP3D图对X轴使用对数标度。率为0。001,其在2个时期之后衰减10倍在ObjectNav传输过程中,我们发现以T=1步的频率对PONI的长期目标进行采样是有益的(基于val性能)。这与先前的模块方法[12,13,44]不同对于Predict-θ和Predict-xy,我们发现T=25效果更好。5. 结果选 项 卡 . 1 介 绍 了 Gibson 和 MP3D 验 证 分 割 上 的ObjectNav性能。我们将基线分为非交互式(第1 - 4行)、端到端RL(第5 - 7行)和模块化方法(第8 - 10行)。与非交互式基线的比较。PONI是学习ObjectNav而无需交互的最佳方法(参见表1中的第1 - 4、11行)。1)。在Gibson(val)上,PONI优于下一个最好的非交互式方法(即,预测-θ),其中3。7%的成功率,5。2%的SPL,和0。19米低,在MP 3D(val)上,PONI超出-我们的假设是,问题可以从根本上说,这是一个感知问题,在没有任何互动的情况下学习。见图5用于PONI的定性可视化。计算成本分析。在图4中,我们绘制了不同方法的ObjectNav SPL作为训练计算成本我们使用有效GPU小时数(即,#GPU训练时间)。[5]见图4。PONI在Gibson(val)和MP3D(val)上达到了最先进的水平,同时具有最低的训练计算成本。特别是,PONI在Gibson(SemExp)上的训练成本比之前的SoTA低7,在MP3D(THDA)上的训练成本比之前的SoTA低1600 降低培训成本。这凸显价值观的治疗作为一个认知问题。在人居排行榜上的表现。我们向人居挑战领导委员会提交了表现最好的模型。结果在Tab中。二、在提交时,我们的方法相对于先前发表的条目达到了最先进的水平,证实了我们的验证结果。消融研究。 我们进行了消融研究,以了解PONI不同成分的影响。 有三个关键组成部分有助于我们的业绩:物体势函数(U o)、面积势函数(U a)以及它们仅 在形成次佳方法(即,预测-xy),其中2。百分之四更高的成功率,1。4%的SPL,和0。4m下斜。5对于端到端强化学习,我们使用论文中报告的培训成本。18898图5. 使用势函数导航的定性示例。我们在Gibson(val)上可视化ObjectNav事件的部分,从T=1开始,直到智能体找到目标对象(床)。对于每一步,我们展示了以自我为中心的RGB视图,预测的语义图,对象和区域的潜在功能。我们使用PF地图上的蓝叉表示智能体导航到的最大位置,负责最大值。在事件开始时(T=1至65),智能体由区域PF引导,该区域PF在导致未探索区域的边界附近很高,允许其探索和收集信息。PF对象在这里起着有限的作用在收集了信息之后代理使用来自对象PF的新信号进入卧室并在T=84处找到床。这突出显示了两个潜在函数的价值以及它们如何组合以执行ObjectNav。更多例子请参见补充材料PONI(我们的)THDA[37]8.82 17.088.75 16.968.689.2020.0121.08[63]第六十三话6.22 12.149.1423.67SemExp[13]7.07 14.508.8217.85DD-PPO[57]0.00 0.9410.320.00表2. Habitat ObjectNav挑战结果。我们报告了EvalAI排行榜上表现最好的已发表方法的测试标准结果(截至2021年11月14日)。PONI在4个指标中的3个指标上都是最先进的。PONI消融吉布森(val)MP3D(val)Uo仅限FUaGT†成功↑SPL↑↓成功↑SPL↑↓通过奖励[13,37]和绑定策略[63]对ObjectNav进行年龄 探 索 在 第5 行 中 , 我 们 使 用 地 面 实 况 语 义 分 割(GT)来增强我们的完整模型。我们观察到,在所有情况下,性能显着提高由于图像分割影响语义映射和本地策略的停止行为,因此分割失败是PONI的主要错误来源。6. 结论我们介绍了PONI,一种ObjectNav的模块化方法我们的核心思想是处理“在哪里寻找一个看不见的纯粹是一个感知问题,并在没有任何互动的情况下解决它。为此,我们提出了势函数网络,这是一种编码器-解码器模型,它预测两个互补的势函数来决定✓目标对象的指针。我们提出了一种新的策略来训练这种✓✓✓✓86.551.50.7658.227.5第3.4节表3.PONI的消融研究。 我们研究了目标势函数Uo、区域势函数Ua、仅在边界定义势函数的选择(仅F)以及地面实况图像分割(GT)的影响。[2]这是一种特权。边界(仅限F)。我们还研究了使用地面实况图像分割(GT)的影响。在选项卡中。3(第1-4行),我们将完整模型的性能与缺少一个或多个组件的变体进行比较。具有3个组件的完整模型实现了最佳性能(表4第4行)。(3)第三章。当Uo被移除时(第3行,选项卡3),成功率和SPL都有很好的下降,表明PONI中目标导向搜索的价值。当Ua被移除时(第2行,表1),3),性能下降更多,这表明了探索ObjectNav的重要性,呼应了最近的工作结果,鼓励-使用从3D语义注释获得的语义映射的数据集以监督的方式建模,这与现有的ObjectNav方法不同,该方法为基于RL的策略学习设计了奖励函数。通过在Gibson和Matterport3D上的实验,我们证明了我们的方法在显著降低训练成本的同时达到了ObjectNav的最新水平。我们希望,我们的工作将刺激未来的研究到计算效率的培训体现导航。7. 确认UT Austin部分由IFML NSF AI研究所(FRL Cog)支持。Sci. DARPA L2M。K.G是Meta AI的研究科学家。我们感谢CVPR评审员和荟萃评审员的宝贵反馈和建议。我们感谢VincentCartiller分享MP3D图像分割模型。找到目标了MP3D(测试标准)方法SPL ↑ SoftSPL ↑成功↑目标:✓58.834.92.1830.511.65.1✓ ✓65.137.91.7630.812.05.272.739.41.2031.111.85.3✓ ✓73.641.01.2531.812.15.118899引用[1] Ziad Al-Halah , Santhosh K. Ramakrishnan 和 KristenGrauman。零经验要求:用于语义视觉导航的即插&即用 模 块 化 迁 移 学 习 。 在 计 算 机 视 觉 和 模 式 识 别(CVPR),2022年IEEE会议上。IEEE,2022年。2[2] PeterAnderson , AngelChang , DevendraSinghChaplot,Alexey Dosovitskiy,Saurabh Gupta,VladlenKoltun , Jana Kosecka , Jitendra Malik , RoozbehMottaghi,Manolis Savva,et al.嵌入式导航代理的评价。arXiv预印本arXiv:1807.06757,2018。一、二[3] Peter Anderson,Qi Wu,Damien Teney,Jake Bruce,MarkJohnson,NikoSünderhauf,IanReid,StephenGould,and Anton Van Den Hengel.视觉和语言导航:在真实环境中解释视觉基础的导航指令。在IEEE计算机视觉和模式识别会议论文集,第3674- 3683页,2018年。一、二[4] Iro Armeni ,Zhi-Yang He, JunYoung Gwak ,Amir RZamir , Martin Fischer , Jitendra Malik , and SilvioSavarese. 3D场景图:统一语义、三维空间和摄像机的结构。在IEEE计算机视觉国际会议论文集,第5664-5673页6[5] Somil Bansal,Varun Tolani,Saurabh Gupta,JitendraMalik,and Claire Tomlin.结合最优控制和学习在新环境中的 视觉导 航。机器 人学习 会议 ,第 420-429页。PMLR,2020年。3[6] Dhruv Batra、Aaron Gokaslan、Aniruddha Kembhavi、Olek-sandr Maksymets 、 Roozbeh Mottaghi 、 ManolisSavva、Alexander Toshev和Erik Wijmans。Objectnav重新访问:对实体化的代理人导航到对象的评价。arXiv预印本arXiv:2006.13171,2020。一二三四六[7] G.布拉德斯基OpenCV库。Dobb博士4[8] Tommaso Campari , Paolo Eccher , Luciano Serafini ,and Lamberto Ballan.利用场景特定功能进行目标导航。欧洲计算机视觉会议,第406-421页。Spri
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- IEEE 14总线系统Simulink模型开发指南与案例研究
- STLinkV2.J16.S4固件更新与应用指南
- Java并发处理的实用示例分析
- Linux下简化部署与日志查看的Shell脚本工具
- Maven增量编译技术详解及应用示例
- MyEclipse 2021.5.24a最新版本发布
- Indore探索前端代码库使用指南与开发环境搭建
- 电子技术基础数字部分PPT课件第六版康华光
- MySQL 8.0.25版本可视化安装包详细介绍
- 易语言实现主流搜索引擎快速集成
- 使用asyncio-sse包装器实现服务器事件推送简易指南
- Java高级开发工程师面试要点总结
- R语言项目ClearningData-Proj1的数据处理
- VFP成本费用计算系统源码及论文全面解析
- Qt5与C++打造书籍管理系统教程
- React 应用入门:开发、测试及生产部署教程
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功