没有合适的资源?快使用搜索试试~ 我知道了~
15691ROBUST NAV:在具体导航中走向基准鲁棒性Prithvijit Chattopadhyay1,2*Judy Hoffman1Roozbeh Mottaghi2,3Aniruddha Kembhavi2,31佐治亚理工学院2艾伦人工智能研究所3华盛顿大学{prithvijit3,judy}@ gatech.edu{roozbehm,anik}@allenai.orgprior.allenai.org/projects/robustnav摘要作为一种尝试,对评估的鲁棒性体现导航代理,我们提出了ROBUSTNAV,一个框架,以量化的表现体现导航代理时,暴露于各种各样的视觉- 影响RGB输入-和动态-影响转变动态-损坏。视觉导航中的最新努力通常集中在推广到具有相似外观和动态特性的新目标环境。与R OBUST N AV,我们发现,一些标准的体现导航代理显着下执行(或失败)在视觉或动态corruptions的存在。我们系统地分析了这种代理人在腐败情况下运作时的行为中出现的那种白痴-疯狂。最后,对于R OBUST N AV中的视觉腐蚀,我们表明,虽然标准技术,以提高鲁棒性,如数据增强和自我监督的适应提供了一些零拍电阻和导航性能的改善,还有很长的路要走,在恢复失去的性能相对于干净的“非腐败”设置,保证在这个方向上进行更多的研究 。 我 们 的 代 码 可 在 www.example.com 上 获 得https://github.com/allenai/robustnav。1. 介绍人工智能社区的长期目标是开发用于具体化代理的算法除了能够表现出这些能力之外,同样重要的是,这样的具体化的代理能够以稳健和可推广的方式这样做。Embodied AI中的一个主要挑战是确保代理可以泛化到具有不同外观统计和运动动态的环境,而不是用于训练这些代理的环境。例如,一个代理*PC在AI2担任研究实习生时完成的部分工作。Agent在RoboTHOR场景中的操作(b)第(1)款MOVE_AHEADMOVE_AHEAD(with漂移)(一)(c)第(1)款动态腐败代理-LoCoBot损坏理想视觉损坏相机裂缝清洁框架图1. ROBUSTNAV. (a)在干净环境中预先训练的导航代理被要求在存在(b)视觉和(c)基于动力学的腐蚀的情况下导航到看不见的环境中的目标。视觉损坏(例如相机裂缝)影响代理平移中的漂移)影响看不见的环境中的转变动力学。被训练为在“晴朗”天气中导航的代理应该继续在雨中操作,尽管外观发生了剧烈变化,并且被训练为在地毯上移动的代理应该在硬木地板上时果断地导航,尽管摩擦力不同。虽然潜在的解决方案可以是针对特定的目标环境校准代理,但是它不是可扩展的解决方案,因为可能存在各种各样的看不见的环境和情况。一个更鲁棒,高效和可扩展的解决方案是装备代理的能力,自主适应新的情况下,互动,而不必训练每一个可能的目标场景。尽管嵌入式AI取得了显着进展,特别是在嵌入式导航[59,46,48,54,7]方面,大多数努力都集中在将受过训练的代理推广到看不见的环境中,但严格地假设在训练和测试环境中具有相似的外观和动力学属性。作为评估体现代理的通用鲁棒性的第一步,我们提出了ROBUST NAV,一个框架来量化体现导航代理的性能时,暴露于各种常见的视觉(可见光)和动态(动态)腐败-15692动力学,分别。我们设想ROBUST NAV作为一个测试平台,用于在不同的感知和驱动特性之间调整代理行为。虽然在机器人社区中已经研究了评估对环境中的变化(随机或其他)的鲁棒性[32,13,14,21],但ROBUSTNAV的模拟性质使从业者能够探索对丰富且非常多样化的变化集的鲁棒性,同时继承了在模拟中工作的优点ROBUST NAV由两个广泛研究的具体导航任务组成,点 目 标 导 航 ( POINTNAV ) [2] 和 对 象 目 标 导 航(OBJECTNAV)[4] -根据标准协议,代理使用一组训练场景进行学习,并在一组保持的测试场景内进行评估,但不同的是,ROBUSTNAV测试场景受到各种逼真的视觉和动态损坏。这些损坏可以模拟真实世界的场景,例如故障相机或漂移(见图1)。①的人。由于零拍摄适应测试时间的腐败可能是我们目前的算法无法达到的,我们提供了一个固定的“校准预算”(互动的数量)在目标世界的无监督适应代理。这模仿了真实世界的模拟,其中允许运输机器人通过执行合理数量的无监督交互来适应环境中的变化。校准后,使用标准导航指标在corrupted测试环境中对代理的两个任务进行评估我们的广泛分析表明,POINT_N_AV和OBJECT_N_AV代理在整个损坏范围内都经历显著的性能下降,特别是当多个损坏一起应用时。我们表明,这种退化减少了一个干净的深度传感器的存在我们发现,数据增强和自我监督的适应策略提供了一些零拍摄阻力和改善降级的性能,但无法完全恢复性能的差距。有趣的是,我们还注意到,视觉corruptions影响体现的任务不同于静态任务,如对象识别最后,我们分析了几个有趣的行为,我们的代理在腐败的存在总的来说,我们的贡献包括:(1)我们提出了ROBUST N AV-一个用于基准测试和评估嵌入式导航代理对视觉和动力学损坏的鲁棒性的框架。(2)我们的研究结果表明,目前的导航代理人在模拟训练下执行严重时,在腐败的目标环境进行评估。(3)系统地分析了错误的种类,并对错误的原因进行了分析。当在这样的破坏下操作时,采用具体化的导航代理(4)我们发现,虽然标准的数据增强技术和自我监督的自适应策略提供了一些改进,还有很多工作要做,在完全恢复失去的性能。ROBUST NAV提供了一个快速的框架来开发和测试强大的具体政策,然后才能部署到真正的机器人上。虽然ROBUST NAV目前支持导航重任务,但支持的损坏可以很容易地扩展到更多任务,因为它们在Embodied AI社区中很受欢迎。2. 相关工作视觉导航。近年来,涉及基于自我中心视觉输入的导航的任务已经取得了令人兴奋的进展[48,10,24,8,19,9]。在该领域中广泛研究的一些任务包括POINTNAV[2]、OBJECTNAV[4]和目标驱动导航,其中目标 由 目 标 图 像 指 定 [59] 。 解 决 POINT_NAV 和OBJECT_NAV的方法可以大致分为两类-(最近的研究也集中在评估在模拟中训练的警察转移到在物理空间中操作的真实世界机器人的能力[33,12]。稳健性基准。近年来,评估深度神经模型的鲁棒性受到了相当多的关注[30,45,31,3]。与我们的工作最相关和最接近的是[30],其中作者表明计算机视觉模型容易受到几种合成视觉损坏的影响,正如在提出的ImageNet-C基准测试中所测量的那样。在[34,39]中,作者研究了标准静态基准上的语义分割和对象检测的类似视觉损坏的影响ROBUST NAV集成了来自[30]的几个视觉破坏,并在相机镜头中添加了诸如低照明和裂缝之类的视觉破坏,但在具体场景中。我们的发现(见第二节)。5)表明视觉腐败影响体现任务不同于静态任务,如对象识别。在[50]中,作者重新调整了ImageNet验证分裂的目的,将其用作评估自然分布变化的鲁棒性的基准(与[30]中介绍的不同),[17]确定了相同的统计偏差。最近,[29]提出了三个广泛的基准,评估对图像风格,地理位置和相机操作的鲁棒性。在[37]中也探索了具体代理的对抗鲁棒性,其中作者利用时空上下文来制作对抗扰动,以改变具体QA[10]和具体视觉识别[56]中对象的3D属性(形状和纹理)真实世界的RL套件。在[16]中已经做出了类似于ROBUST NAV的努力,其中作者将9种不同的挑战形式化,这些挑战阻碍了RL在现实世界中的使用-15693∼转延迟和其他。相比之下,ROBUST NAV专注于视觉丰富领域的挑战和与视觉观察相关的复杂性。最近,Habitat [48]还为导航任务引入了致动(来自[40])和视觉噪声相比之下,ROBUST NAV被设计为对模型针对各种视觉和动态损坏(P〇 INT NAV和OBJECT NAV两者的7vis和4dyn损坏)的鲁棒性进行基准测试适应视觉电机政策。已经取得了重大进展的问题,适应政策与RL培训从源到目标环境。与RO-BUSTNAV不同,这种转移设置中涉及的主要假设是访问目标环境中的任务监督[23]或访问来自源和目标环境的配对数据[22,51]。域随机化(DR)[1,44,36,41]是训练对各种环境因素鲁棒的策略的另一种常见方法。值得注意的是,[36]在策略网络的视觉编码器中早期扰动特征,以便模仿DR,并且[41]基于从现实世界获得的稀疏数据在训练期间选择最佳DR参数。在没有任务监督的情况下,另一种常见的方法是优化目标中的自我监督目标[54,47],并已用于使策略适应视觉差异(见第2节)。5)在新的环境中[26]。为了适应过渡动态的变化,一种常见的方法是在广泛的动态模型家族上进行训练,并执行系统识别(例如:在目标环境[55,58]中使用域分类器[18[33,12]研究了具体化的导航代理从模拟环境转移在这些方法中,我们研究了两种最流行的方法-3. ROBUST NAV我们提出了ROBUST NAV,一个基准来评估的鲁棒性体现代理常见的视觉(可见光)和动态(动态)腐败。ROBUST NAV建立在ROBO THOR之上[11]。在这项工作中,我们研究的影响corruptions有两种体现导航代理-虽然我们将实验局限于导航,但在实践中,我们的视觉和动态损坏也可以扩展到共享相同模态的其他具体任务,例如涉及与对象交互的任务。在ROBUST NAV中,代理在训练场景内进行训练,并在“损坏”的不可见目标场景上进行评估。目标场景中的损坏来自一组预定义的vis和dyn损坏。与模拟中任何形式的损坏(或噪声)建模的情况一样[32,11],当将vis和dyn损坏与其真实世界比较时,总会存在近似误差。清晰散焦模糊运动模糊飞溅相机裂缝低照明低FOV斑点噪声图2. 视觉腐蚀。视觉腐败ROBUST NAV支持在看不见的目标环境.左上角显示一个干净的RGB帧,其余部分显示相同的损坏版本。三部分我们的目标是确保ROBUSTNAV基准作为一个垫脚石,实现更大的目标,获得强大的代理,准备部署在现实世界中。为了适应一个腐败的目标场景,我们提供了一个“校准预算”的代理的这样做是为了模仿真实世界的模拟,其中允许装运的机器人我们对校准预算的定义是基于当在完全监督下进行微调时,代理在最严重损坏的环境中合理恢复降级性能所需的步骤数(见表)。第三章- 设置为166k步骤用于我们所有的实验。 我们试图了解当允许在该校准预算下进行调整时,自监督自适应方法[26]是否会提高性能5、抵制腐败)。我们现在详细描述ROBUSTNAV中存在的vis和dyn损坏。视觉腐蚀。视觉损坏是降低导航代理的以自我为中心的RGB观察的伪影(参见图1B)。2)的情况。我们在ROBUSTNAV内提供了七种视觉损坏,其中四种来自[30]中提出的损坏和扰动的集合-飞溅模拟图像中由于灰尘颗粒、水滴等造成的遮挡。驻留在相机镜头上。运动模糊模拟模糊的图像,由于抖动运动的机器人。当RGB图像失焦时,会出现散焦模糊。斑点噪声模拟固有存在于相机中的颗粒干扰,并降低相机获得的图像的质量(建模为加性噪声,噪声与原始像素强度成比例)。每一种腐败都可以表现为五种严重程度。视觉降解程度增加(1 →5)。除了这些之外,我们还添加低光照(目标环境中的低光照条件,具有相关联的严重性级别1 - 5)、较低FOV(与训练期间使用的摄像机视场相比,代理以较低的摄像机视场操作,79◦→39)。5◦)和相机裂缝(随机15694∼max(l,p)MOVE_AHEAD理想损坏(每集均匀采样)旋转_右理想损坏(每集均匀采样)(a)运动偏置(恒定)旋转操作不起作用(d)电机故障向左旋转旋转_右(c)运动漂移剂理想损坏(偏移角度)偏向旋转_右MOVE_AHEAD(b)运动偏差(随机)(每步采样)理想损坏旋转_右理想损坏MOVE_AHEAD(每步采样)图3. 动力学腐败。我们展示了ROBUSTNAV中支持的各种动态损坏。 运动偏差(C& S)被建模以模拟摩擦。“运动漂移”(Motion Drift)模拟平移动作略微偏向向右(或向左)旋转的设置。在“Motor Failure(电机故障)”中,旋转动作之一失败。相机镜头中的裂缝)。对于相机裂缝,我们使用固定的随机种子用于15个验证场景,其指示相机镜头上的裂缝的位置和种类。动力学腐败。动态损坏影响目标环境中的代理的转换动态(参见图2)。(3)第三章。我们考虑三类动力学corruptions-运动偏差,运动漂移和电机故障。我们的动态损坏是由机器人运动中众所周知的系统和/或随机漂移(由于误差累积)和偏差引起的[35,5,20,42]。在现实世界中观察到的一种常见的动力学腐败是摩擦。不幸的是,ROBOTHOR还没有原生地支持场景内的多个摩擦区,如在真实物理环境中通常可以观察到的(例如,房屋中的厨房地板可以具有光滑的瓷砖,而卧室可以具有粗糙的硬木地板)。 作为替代,我们将介绍- 腐败的偏见。 在没有腐败的情况下,向前移动动作将代理向前移动0。25米,旋转向左旋转和向右旋转动作分别将代理旋转30◦左右运动偏置可以引起(a)均匀绘制的恒定从B d={±0. 05,±0. 1,±0. 15}m或Bθ={±5◦,±10◦,±15◦}或(b)从N(0. 25m,0. 1 m)和N(30. 0◦,10◦)。1“运动漂移”模拟了一种设置,其中智能体具体地说,是向前移动动作,而不是将代理向前移动0。25米的方向(预期行为),随机向左或向右方向漂移(对于一个事件)α= 10◦,并将其带到偏离α的位置垂直于原始航向的方向,最大值为0。043米电机故障是指在整个评价事件中左旋转或右旋转除了运动偏置(S)(随机版本)之外,代理还在如从[ 12 ]中的LoCoBot校准的最近,PyRobot [40]还引入了LoCoBot校准的噪声模型,用于演示扫射和漂移。虽然我们主要依赖于[11]中校准的噪声模型,但为了完整性,我们还包括PyRobot噪声模型的结果。任务ROBUSTNAV由两个主要的具体化导航任务组成在POINTNAV中,代理在环境中的随机产卵位置和取向处被初始化,并且被要求导航到相对于代理的位置指定的目标坐标代理必须仅基于来自RGB(或RGB-D)和GPS +指南针传感器的传感输入来导航。如果代理在0内停止,则事件被声明为成功。2米的目标位置(通过故意调用结束动作)。 在OBJECTNAV中,代理反而被要求导航到指定对象类别的实例(例如,电视,总共12个对象类别中的1个)仅给予以自我为中心的感官输入- RGB或RGB-D。如果代理在1内停止,则事件被声明为成功。0米的目标对象(通过调用结束动作),并在其自我中心的视图中具有由于缺乏完美的本地化(没有GPS+指南针传感器)和在其视野内使指定对象接地的隐含需要,与POINTNAV相比,OBJECT NAV2)的情况。指标. 我们报告了过去工作中报告的以下成熟导航指标的性能SR表示成功发作的分数。SPL根据代理的长度与从产卵位置到目标的最短路径的接近程度为代理的路径提供分数如果Isuccess表示事件是否成功(二进制指示符),l是最短路径长度,p是代理的路径长度,则SPL =Isuccessl场景ROBUST NAV建立在ROBO THOR场景之上[12]。ROBO THOR由60个训练和15个验证环境组成,这些环境基于从不同布局绘制的室内公寓场景。为了评估在存在损坏的情况下的鲁棒性,我们在1100(和1095)个不同难度(容易、中等和困难)2的情节上评估P0INTNAV(和0BJECTNAV)在15个val场景中的表现。基准。目前体现的导航代理通常在没有任何损坏的情况下进行训练。但我们1(a)运动偏置(C)旨在对场景级摩擦、不同的目标环境中的地板材料;(b)运动偏置(S)旨在对场景中的高摩擦区域和低摩擦区域进行包括更复杂的摩擦模型是ROBUST NAV的功能路线图。2基于最短路径长度-(1)POINT N AV:0。00- 228简单,2。29- 439为中等,4. 40- 961为硬的;(2)OBJECTNAV:0。00- 150为容易,1。51- 3 78为中等,3. 79比9 00为硬15695×个NN不腐败前1项累积↑前5项累积↑rt=R。I成功−∆Geo+λ不1清洁69.76 89.08s'ucessrewaxrdrewa`rdshxapingslac`krewxard2摄像头裂缝†57.71±5.8280.27±4.543下视野*45.44 69.534低照度35.7658.545飞溅19.7339.346运动模糊10.1122.667散焦模糊9.3922.258斑点噪声7.7918.84表1. ImageNet性能下降。在ImageNet(用作代理的视觉编码器)上训练的ResNet-18 [28]的视觉损坏下ImageNet验证分割的分类性能下降。2-8中的腐蚀存在于R 0-胸部N AV。 *由于模仿较低FOV需要访问凸轮-era intrinsic,对于静态数据集不可用,我们通过积极的中心裁 剪 来 模 仿 相 同 的 内 容 。 † 对 于 相 机 裂 纹 , 我 们 报 告ROBUSTNAV中存在的所有可能的裂纹设置的性能。预期研究人员可以在训练时将腐败作为增强来提高其算法的鲁棒性,以便在我们的ROBUST-NAV框架上取得进展。出于公平基准测试的目的,我们建议使用R_OBUST_N_AV的未来比较不从为目标场景保留的损坏集合中提取4. 实验装置剂我们的POINTNAV代理有4个动作可供他们使用-即,前进(0。25m),向左旋转(30◦),向右旋转(30◦)并结束。动作结束表示智能体认为它已经达到目标,从而终止情节。在评估期间,我们允许代理执行最多300个步骤-如果代理在300个对于OBJECTNAV,除了上述动作之外,智能体还具有向上看或向下看的能力-指示在前向相机地平线之上或之下的代理接收224 224大小的以自我为中心的观察(RGB或RGB-D)。所有代理在来自[12]-(0. 25m,0. 005米)的翻译和(30◦,0. (5)旋转。我们的代理架构(类似于[53])由一个CNN头组成,用于处理输入观察结果,然后是一个循环(GRU)策略网络(更多细节请参见第二节)。1.3的补充)。训练我们使用DD-PPO [53]如果R= 10。0表示在成功事件结束时获得的终端奖励(其中I成功是指示事件是否成功的指示符变量),ΔGeo表示在时间步长t处到目标的测地距离的变化从t−1和λ= −0。01表示对en的松弛惩罚。我们使用AllenAct [52]框架来训练我们的代理5. 结果和发现在本节中,我们示出了POINT_NAV和OBJECT_NAV代理的性能在存在损坏的情况下降低(参见表1)。2)的情况。我们首先强调视觉破坏如何不同地影响静态视觉和具体导航任务(见表1)。在此之后,我们分析了行为,出现在这些代理人时,在存在的视觉,动态,和视觉+动态腐败的操作。最后,我们研究了标准数据增强和自监督适应[26]技术是否有助于恢复降级的性能(见表3)。5.1. 性能下降我们现在展示我们的发现,相对于在干净(无损坏)目标环境中评估的代理,性能下降(表中的第1行)。2)的情况。视觉损坏对静态任务和具体任务的影响不同。在表1中,我们报告了在ImageNet [15]训练分裂上训练并在损坏的验证分裂上评估的模型的对象识别性能。在表2中,我们报告了POINT_NAV和OBJECT_NAV代理在损坏(行1,干净行2-8损坏)下的性能降级。重要的是要注意,任务的性质(一次性预测与顺序决策)是足够不同的,使得用于分类的破坏的难度可能不指示用于导航的破坏的难度。我们通过比较表1和表2中的结果来验证该假设,此外,对于在AI 2-THOR图像上训练的Mask-RCNN [ 27 ],我们注意到检测(分割)3mAP0。五比零从62降到95。93(66. 29)至7。96(8. 64)和6. 56(6. 68)-与表2中的行28不同,其中这种相对退化的差异表明,静态设置中的视觉适应或鲁棒性的技术可能不会开箱即用地转移到具体化的任务,从而保证在该方向上进行更多的研究。并不是所有的腐败都同样糟糕。虽然我们注意到POINTNAV和OBJECTNAV代理遭受来自干净设置的性能下 降 , 但 并 非 所 有 损 坏 都 同 样 严 重 。 例 如 , 在POINTNAV-RGB中,虽然低光照、运动模糊和运动偏置(C)(表2中的第2、3、9行)导致SPL中10%的最坏情况绝对下降(以及SR中10%),但是像飞溅和电机故障(第8、13行)这样的损坏更极端且显著<<勇气效率,则代理在时间步长T可以表示为,3对于12 OBJECTNAV目标类15696∼∼--转P点 NAVO对象 NAVRGB RGB-D RGB RGB-D#腐败↓VDSR↑SPL↑SR↑SPL↑SR↑SPL↑SR↑SPL↑1清洁98.8283.1398.5484.6031.0514.2635.6217.202低照明✓94.3675.1599.4584.9710.784.5921.649.983运动模糊✓95.7273.3799.3685.3610.594.0320.278.294相机裂缝✓82.0763.8395.7281.217.213.5724.2912.505散焦模糊✓75.8953.5599.0985.545.022.4219.187.906斑点噪声✓67.4248.5798.7384.669.043.6618.637.527下视野✓42.4931.7389.0873.599.773.909.864.778飞溅✓33.5824.7298.9184.816.762.9321.109.069运动偏差(C)✓92.8177.8393.3679.4631.5114.0931.9615.3810运动偏差(S)✓94.7276.9596.7279.0830.8714.1535.6216.3911运动漂移✓95.7276.1993.3675.0829.6813.5834.0617.0312[40 ]第40话:你是谁?= 1.0✓96.0067.7995.4569.2732.5111.2636.3513.6213电机故障✓20.5617.6320.5617.624.202.436.393.6714散焦模糊+运动偏移(S)✓✓76.5251.0897.1879.465.572.0018.547.2315斑点噪声+运动偏移(S)✓✓62.6943.3195.8178.277.853.7318.548.1616飞溅+运动偏差(S)✓✓33.3023.3395.8178.857.853.0921.289.2617散焦模糊+运动漂移✓✓74.2550.9995.5476.664.571.9317.356.9718斑点噪波+运动漂移✓✓64.4244.7394.3675.238.493.6719.828.6119飞溅+运动漂移✓✓32.9423.4495.4576.616.852.6819.548.86表2. POINTNAV和OBJECTNAV性能。当在R OBUST NAV中存在的vis和dyn损坏下进行评估时,预训练的POINTNAV(训练75M帧)和OBJECTNAV(训练300M帧)代理的任务性能下降。POINTNAV代理可以额外访问GPS-Compass传感器。对于具有可控严重性级别的视觉损坏,我们报告严重性设置为5(最差)的结果。绩效是通过不同难度的任务(简单,中等和困难)来衡量的。基于RGBPOINTNAV代理的SPL值对行进行排序。成功和SPL值报告为百分比。(V =视觉,D =动力学)影响任务表现(SPL绝对下降>57%SR中>65%)。然而,对于OBJECTNAV,性能的下降在整个损坏过程中更为渐进(部分原因是这“干净的”深度传感器有助于抵抗退化。我们在表2(对应 的 RGBRGB-D 列 ) 中 比 较 了 经 训 练 的 POINT_NAV 和OBJECT_NAV代理的RGB和RGB-D我们观察到,包括一个“干净”的深度传感器始终提高了两个P OINT N AV的抗vis、dyn和vis + dyn损坏能力 和OBJECT NAV。对于P点 NAV,我们注意,虽然RGB和RGB-D变体具有可比较的干净性能(行1),但是在严重损坏(Spatter、Lower-FOV和Speckle-Noise)的情况下,RGB-D计数器大约领先36的绝对裕度。09 60. 09%SPL。我们进一步观察到,除了例外情况,POINTNAVRGB-D代理通常受损坏的影响最小-例如,低照明和运动模糊几乎不会导致性能的任何下降。我们假设这可能是因为与RGB对应物相比,RGB-D导航代理在OBJECT NAV中,附加深度传感器通常改善清洁性能(表2中的第1行),这可能是增加抗损坏性的主要贡献因素。不同模态的传感器可能在不同的情况下劣化深度传感器可以在低照明设置中继续感知细节所获得的结果表明,添加多个传感器,虽然昂贵,但可以帮助训练鲁棒的模型。额外的传感器也可以有助于在校准阶段期间的无监督自例如,在存在“干净的”深度传感器的情况下基于具有目标环境中的预期里程读数的自运动估计来推断动态变化vis+dyn损坏的存在进一步降低性能。表2中的行14-19指示当存在vis+dyn损坏时性能降级的程度。除少数情况外,正如预期的那样,与仅存在vis或dyn损坏相比,性能下降稍微更明显。相对于P0INT_ N_AV,从vis_vis+dyn的性能的相对下降对于OBJECT_N_AV更明显。RGB代理的导航性能随着事件难度的增加而不断降低回想一下,我们评估了不同难度水平的epsisodes的导航性能(见第2节)。(3)第三章。我们根据发作差异水平对POINTNAV OBJECT NAV药物的性能进行了细分(见第2节)。第1.5条补充)。在“干净”设置下在损坏情 况 下 , 我 们 注 意 到 , 与 RGB-D 对 应 物 不 同 ,POINTNAV-RGB代理的性能随着情节变得更难而一致地确定。OBJECTNAV(均为RGBRGB-D)代理显示出导航性能随着发作难度增加而5.2. 视觉导航代理我 们 现 在 研 究 这 些 试 剂 ( POINTNAV-RGB 和OBJECTNAV-RGB)所表现出的特性(参见图4),这导致它们的性能下降。代理往往更频繁地发生冲突。图4(第一列,基于损坏类型进行颜色编码的条形图)显示了损坏设置下失败操作的平均数量在我们的框架中,失败的行动是由于以下原因而发生的156970.760.70.460.480.270.251.691.610.840.79转转转转转转失败的操作最小距离到目标(m)停止-失败。(阳性)(%)停止-失败(阴性)(%)21.09201510501.21.00.80.60.40.20.0570.7 560.6550.5540.4530.30.2520.1510.0 5013.211210864202.01.51.00.50.02.01.959085807570656055100959085807570图4. 代理行为分析。为了了解代理行为,我们报告了四个指标的细分:通过“失败操作”(第一列)观察到的冲突数,座席最接近目标(按Min. Dist.目标(第二列),以及超出范围时未能适当结束和发作-停止-失败(Pos)(第三列),或在范围内-停止-失败(Neg)(第四列)。在干净的和五个损坏的设置内,针对P_OINT_N_AV(顶行)和O_BJECT_N_AV(底行)RGB代理两者报告每个行为:散焦模糊(D.B.)斑点噪声(S.N.),运动漂移(医学博士),散焦模糊+运动漂移和斑点噪波+ 运动漂移是干净的,是可见的腐败,是动态的腐败和是可见+动态的腐败。第2栏中的蓝线表示射程内目标的距离阈值。S.N.的严重度和db设置为5(最差)。与物体、墙壁等碰撞。虽然损坏通常导致增加的碰撞,但是我们注意到,除了可见损坏之外,添加动态损坏(D.B.D.B. + M.D. &S.N. S.N. + 医学博士)增加了相对于VIS或动态破坏的冲突数量动态破坏特工们往往离目标更远。图4(第二列)示出了在发作过程中距目标的最小距离。虽然我们注意到,随着腐败变得越来越严重,代理人往往会在远离目标的地方终止(见第二节)。1.4图4(第二列)表明,在一个事件中,代理与目标的总体接近度降低-与目标的最小距离随着我们从清洁开始而增加 vis或dyn;vis或dynvis+dyn。虽然这在dyn损坏的情况下可能是直观的,但值得注意的是,这一趋势也与vis损坏一致(清洁→D.B.或S.N.)。损坏损坏OBJECT NAV停止机制。回想一下,对于POINTNAV和OBJECT NAV,成功取决于“意向性”的概念在图4(最后两列)中,我们的目的是了解破裂如何影响这种停止机制。具体来说,我们看两个定量措施-(1)停止失败(积极的),代理调用结束行动时,目标是不是范围的比例;以及(2)停止-失败(负),当目标在范围内时,智能体不调用结束动作的次数在目标在范围内的次数中的比例。4我们观察到,过早地调用结束操作是一个错误。4 POINT NAV的目标在射程标准检查目标是否在阈值距离内。对于OBJECTNAV,这包括附加的可见性标准。仅对OBJECT NAV(图4(第三列))是D.B.或S.N.;M.D.D.B. + M.D. 或 S.N. + M.D. ) 。 类 似 地 , 与POINT_N_AV 相 反 , 主 体 不 能 调 用 结 束 动 作 对 于O_BJECT_N_AV也更明显(图4(第四列))。要调查这在多大程度上影响代理我们发现,这仅对OBJECT NAV-绝对值+7产生显著差异。12%用于清洁,+7。医学博士76% +13。D.B.的88%+医学博士我们-证明给智 能体配备鲁棒 的停止机制 可以显著提高ROBUST-NAV的性能。例如,为代理配备对可见光损坏鲁棒的进度监视器模块[38](根据距离估计朝向目标取得的进度)可以潜在地帮助决定何时在目标环境中显式地调用结束5.3. 抵制腐败为了帮助近期的进展,我们调查了一些标准的方法,以训练强大的模型或适应视觉差异,可以帮助抵抗在校准预算下的视觉腐败3)5在任务监督下通过微调可达到的改进程度。作为在校准预算下可实现的改进的轶事上限,我们还报告了在完全任务监督下进行微调时可以重新覆盖降级性能的程度。我们在表3(第7行)中报告了可见光损坏的这些结果。我们注意到,与较低FOV不同,代理能够5基于步骤的数量,当与完整的任务监督进行微调时,代理在损坏的环境中合理地发现性能下降。14.5914.7711.838.632.571.231.151.080.970.250.1155.38 55.0753.9854.1154.253.038.496.93六点四十七4.913.9680.078.8575.273.5361.8461.31产品介绍95.7895.1192.6891.679.0478.11公司简介15698∼∼∼接近视觉损坏清洁低FOV散焦模糊相机裂纹飞溅SR↑SPL↑SR↑SPL↑SR↑SPL↑SR↑SPL↑SR↑SPL↑1导航损失98.8283.1342.4931.7375.8953.5582.0763.8333.5824.722导航损失+ AP98.4583.2845.6835.1483.3561.5172.7056.8220.3815.703导航丢失+ AP + SS-适应37.3131.0332.9426.0940.9533.3557.8746.7214.1910.294导航损失+ RP98.7382.5344.9532.7432.2122.4767.0653.7023.4818.635导航损失+ RP + SS-适应94.6377.2550.5936.1079.1662.7460.4249.3761.0647.166导航损失+数据8月98.4581.0871.7054.5481.2661.3288.4471.5723.9318.417Finetune导航目标损失--72.8861.8297.1880.3296.5480.9291.8177.38表3. 抵制视觉腐败。为了帮助近期的进展,我们研究了训练视觉鲁棒模型或适应视觉差异的标准方法是否有助于抵抗视觉腐败。行1-7中的所有代理是针对75 M帧预先训练的POINTNAVRGB代理。 代理行3 - 5已获得通过运行适应166k步骤。 第7行中的代理提供了一个轶事上限,指示在校准预算(设置为166k步)下与任务监督进行微调时可实现的改进对于具有可控严重性级别的视觉损坏,我们报告严重性设置为5(最差)的结果。对于散焦模糊、照相机裂纹和飞溅的最大恢复性能3,行1、7)。数据扩充策略有帮助吗?在表3中,我们研究了数据增强策略是否改善了对可见光损坏的零激发电阻我们将用 随 机 裁 剪 、 随 机 移 位 和 颜 色 抖 动 训 练 的POINT_N_AV RGB代理(第6行)与普通版本(第1行)进行比较,并且发现虽然数据增强(第6行)相对于降级的性能(第1行)提供了一些改进(飞溅是例外),但是绝对改进(22. 81% SPL,29. 21%SR),(7. 77%SPL,5. 37%SR)对于散焦模糊和(7. 74%SPL,6. 37%SR)的摄像头-裂纹,获得的性能仍然是显着低于清洁设置(行1,清洁col).与其他FOV相比,Lower-FOV的改进更为明显(可能是由于随机移位和随机裁剪)。我们注意到,数据增强仅为可见损坏的子集提供改进,并且当它这样做时,所获得的改进仍然不足以恢复丢失的性能。自我监督的适应方法有帮助吗 在目标环境中缺乏奖励监督的情况下,Hansen等。[26]提出了在部署期间的策略适应(PAD)-我们调查的程度,PAD有助于适应ROBUSTNAV的目标环境。所采用的自我监督任务是(1)动作预测(AP)-给定轨迹中的两个连续观察,预测中间动作,以及(2)旋转预测(RP)-在将输入观察馈送到智能体之前将其旋转0◦、90◦、180◦或270◦,并通过预测旋转来分配额外的辅助头。我们在表中报告了AP(第2、3行)和RP(第4、5行)的数量3 .第三章。 对于AP,我们发现(1)预训练(第2行与第1行)导致性能下降(最大绝对改善为7)的改善很少或没有改善。96%SPL,7. 46%SR(散焦模糊)和(2)校准下的进一步调整(第3行与第2、1行)预算总是会降低性能。对于RP,我们观察到(1)除清洁和较低FOV外,预训练(第4行vs第1行)导致性能以及(2)虽然在破坏下的自监督自适应相对于预训练提高了性能(行5对行4),但它仍然显著低于Clean设置(行1,Clean col)-最小绝对间隙20。39% SPL,19.散焦模糊(第5行)和清洁(第1行)之间的SR为66%。虽然对降级性能的改进可能突出PAD(具有AP /RP)作为潜在的无监督适应方法的效用,但是在缩小干净设置与损坏设置之间的性能差距方面还有很长的路要走。6. 结论总之,作为评估体现导航代理的通用鲁棒性的一步,我们提出了RO-BUSTNAV,一个具有挑战性的框架,非常适合于基准标记体现导航代理的鲁棒性,具有各种各样的视觉和动态损坏。为了在ROBUSTNAV上取得成功,代理必须对corruptions不敏感,并且还能够以最小的交互适应新环境我们发现,标准POINTNAV和OBJECTNAV代理在存在损坏的情况下显著表现不佳(或失败),并且虽然用于提高鲁棒性或适应具有视觉差异的环境的标准技术(数据增强、自监督适应)提供了一些改进,但是在完全重新发现丢失的导航性能方面仍然存在很大的改进空间。最后,我们计划在腐败的复杂性和多样性方面发展ROBUSTNAV,因为在底层模拟器中支持更多功能。我们在ROBO THOR中发布ROBUST NAV,并希望我们的研究结
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 最优条件下三次B样条小波边缘检测算子研究
- 深入解析:wav文件格式结构
- JIRA系统配置指南:代理与SSL设置
- 入门必备:电阻电容识别全解析
- U盘制作启动盘:详细教程解决无光驱装系统难题
- Eclipse快捷键大全:提升开发效率的必备秘籍
- C++ Primer Plus中文版:深入学习C++编程必备
- Eclipse常用快捷键汇总与操作指南
- JavaScript作用域解析与面向对象基础
- 软通动力Java笔试题解析
- 自定义标签配置与使用指南
- Android Intent深度解析:组件通信与广播机制
- 增强MyEclipse代码提示功能设置教程
- x86下VMware环境中Openwrt编译与LuCI集成指南
- S3C2440A嵌入式终端电源管理系统设计探讨
- Intel DTCP-IP技术在数字家庭中的内容保护
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功