腿式机器人视觉与本体感觉的耦合导航

158 浏览量更新于2023-10-26 收藏 1.95MB PDF 举报

机器人导航

视觉感知

身份认证购VIP最低享 7 折!

30元优惠券

17273腿式机器人视觉与本体感觉的耦合导航傅子鹏*1阿希什·库马尔*2阿南耶·阿加瓦尔1郝志琦2吉滕德拉·马利克2迪帕克·帕塔克11卡内基梅隆大学2加州大学伯克利分校摘要我们利用视觉和亲prioception的互补优势，开发了一个点目标导航系统的腿式机器人，称为VP导航。腿式系统能够穿越比轮式机器人更复杂的地形，但为了充分利用这种能力，我们需要在导航系统中的高级路径规划器，以了解在不同环境中低级运动策略的步行我们通过使用本体感受反馈来实现这一点，以通过感测玻璃墙等意外障碍物、地面光滑度或柔软度等地形属性以及视觉可能错过的额外有效载荷等机器人属性来确保计划路径的安全性导航系统使用机载摄像机来生成占用地图和相应的成本地图以达到目标。然后，快速行进规划器生成目标路径，速度命令生成器将其作为输入来生成步行策略所需的安全顾问模块将感测到的意外障碍物添加到占用地图，并将环境确定的速度限制添加到速度命令生成器。我们表现出优越的性能相比，轮式机器人基线，消融研究，有不相交的高层次的规划和低层次的控制。我们还展示了真实世界的部署 VP-Nav 的四足机器人与板载传感器和计算。https视频//navigation-locomotion.github.io1. 介绍吉布森有一句名言：不过，更准确地说，我们看到和感觉是为了移动。视觉和本体感觉是互补的感觉。视觉是一种距离感，它使我们能够避开静态和动态的障碍物。然而，视觉是缓慢的，并且不能直接感知地形的物理性质，诸如柔软度与粗糙度。硬度，光滑与粗糙。本体感觉（对代理人自身身体的了解，如关节角度、身体方向、足部接触等）快速，并给出物理环境特性的直接测量。在本文中，我们将集中在开发互补优势的视觉和* 平等贡献图1.示例部署方案，我们提出的点目标导航系统的腿式机器人。在通往目标的道路上，不同的地形要求规划者了解机器人的运动能力。运动控制器和导航规划器之间的本体感受耦合允许机器人感测视觉可能错过的环境的属性（光滑的地形、玻璃障碍物等）。腿机器人导航的本体感觉目标是通过开发其运动关节的低级控制来训练腿机器人以在地形上行走（即，运动）以及高级路径规划以通过自主地避开沿途的任何障碍物来到达某些目标位置（即，导航）。运动和导航：传统上，运动和导航作为单独的问题进行研究，然后作为单独的模块放在机器人上[28，50，79，83]。然而，为了真正支持复杂地形下的动态目标达成例如，机器人通过光滑的补丁导航到目标可能会降低其行走速度或完全围绕它行走，这取决于它的运动能力。为了促进高层和低层之间的这种通信，现有的工作通常从机载视觉传感器推断规划者的成本图，所述机载视觉传感器仅能够检测清晰可见的物体。17274→→的t图2.我们的导航系统（VP-Nav）由一个速度调节的步行策略，一个安全顾问模块，和一个规划模块。速度调节步行策略将命令速度和本体感觉机器人状态作为输入，以输出在各种复杂设置中行走所需的动作。一旦我们在模拟中学习了步行策略，我们然后训练安全顾问模块，也在模拟中，该模块估计步行策略的安全约束。它使用本体感觉来估计两个概率：（1）机器人是否发生碰撞，（2）机器人是否即将摔倒，这用于更新地图和速度估计，以在其环境中安全行走。规划器使用车载摄像机计算输入点目标的导航成本图，并从安全顾问模块中获取安全约束以计算期望的步行速度和方向。所有模块在机器人上异步运行。障碍物和难以穿越的区域，例如台阶和坡道[13，81，83，86]。然而，从视觉上预测其他几种地形属性是非常具有挑战性的，例如表面的光滑度，不均匀度，颗粒度或可变形度。这些直接影响步行机器人的能力，以遵循计划。此外，如图1和图5所示，环境还可以包含对仅视觉规划者不可见的障碍物，例如，玻璃墙或地面上不平坦的隆起物-机器人在穿过它们时可以很容易地感觉到的东西本体感受反馈：我们的见解是利用这个机器人此外，这种运动与导航的耦合也提高了运动效率例如，一个知道运动能力的规划者可以指导机器人切换低级步态（步行小跑驰振），用于在路径是直的时增加其速度，而在弯曲路径上切换到另一方向以降低速度我们认为，从视觉和本体感觉的导航计划的适应但是，怎么做？耦合视觉和本体感觉：我们在图2中显示了我们的整个系统VP-Nav（用于导航的视觉和本体感觉）的高级说明。它由三个子系统组成：一个速度调节的行走策略，一个安全顾问模块，和规划模块，其中，一起协同使用的视觉和本体感觉的腿式机器人的导航在最低层，我们的速度-通过强化学习来训练条件运动控制器，以允许机器人以不同的速度和不同的方向行走。该方法将机器人的线速度和角速度作为输入，并结合机器人我们通过基于能量的奖励在模拟中训练这个基础控制器，以允许以不同速度进行无缝步态切换[17，88]，然后通过快速运动自适应[ 46 ]转移到现实世界，该运动自适应[46]使用在模拟中训练的自适应模块来估计环境外部因素。一旦我们在模拟中学习了包括基本策略和自适应模块的步行策略，我们就冻结它并训练安全顾问（SA）模块，该模块也在模拟中学习估计步行策略的安全约束。它使用本体感觉来估计（1）机器人是否与视觉上未检测到的物体（如玻璃墙）发生碰撞（2）机器人在当前地形中行走的安全速度限制，这些地形可能是柔软，光滑，颠簸等。在部署过程中，行走策略（基本策略和自适应模块）和SA（安全顾问）模块保持冻结并与规划器交互，如图2所示。规划器使用车载摄像机来计算用于点目标的输入的导航成本图，并且从安全顾问模块中获取两个位的安全约束以计算目标线速度和角速度，该目标线速度和角速度被给予步行策略以进行跟踪。该规划器还确保线性和角命令速度都在步行策略的可行范围内。计划模块不断更新成本图占据图开销图xt atω，v偏不不公司简介政策（100赫5Hz视觉规划器10HzFMM距离+障碍物SDF适配模块（75Hz）速度限制跌倒预测器xt−20。at−2.冲突检测器-是的xt at当地职业地图深度（30 Hz）跟踪（200 Hz）步行政策安全顾问（10 Hz）速度指令发生器（10 Hz）17275∈∈ΣΣt=0|--以及安全约束，以在机器人移动时产生用于行走速度的目标速度。所有模块在机器人上异步运行。模拟和真实世界评估：我们在具有挑战性的导航设置中评估我们的系统VP-Nav（例如，图1）复杂地形、隐形玻璃障碍物、防滑表面、可变形地面和具有挑战性的户外场景。请访问https：locomotion.github.io观看视频此外，我们还进行了一系列的仿真实验.为此，我们将 Habitat [68] 和 Gibson [84] 中使用的真实世界Matterport 3D [7]地图导入RaiSim，以创建用于联合导航和腿部运动的受控研究的模拟基准。我们发现，建议的系统是7%-15%，优于基线与不相交的规划和控制回路，在不同的地形和设置无形的障碍。我们发现，最大限度地减少时间到目标可能会导致更多的能量消耗行为，可以通过使用有效的运动策略与紧急步态补偿。我们还显示了腿系统的重要性超过轮式同行在穿越具有挑战性的地形，并实证表明，连续的速度条件的政策是更有效的时间比其离散的。2. 速度调节步行策略我们的速度调节步行策略是[17，46]中方法的实现我们在这里提出一个审查步行策略包含一个基本策略，该策略将指令速度和机器人状态作为输入，并预测目标关节角度。它还将外部向量作为输入，该输入由自适应模块估计，并能够快速在线适应变化的环境条件[46]。基本策略：我们首先训练基本策略在不同地形上模拟行走，并跟踪命令的线速度和角速度。基本策略π采用当前的优先级状态（包括关节角度、关节速度、身体行角度、身体俯仰角度和脚接触指示器）xt∈R30 ，命令速度 [vcmd ， ωcmd]∈R2 ，前一个动作at−1R12，以及外部向量ztR8来预测目标关节位置at，将其转换为PD控制器的转矩。外部向量是环境条件（如有效载荷、摩擦等）的编码。这使得基本策略能够适应不同的环境条件，而不是对其盲目。外部向量zt由环境编码器µ来自特权环境信息et∈ R19，如下：z t= µ（e t）和a t= π（x t，a t−1，z t）。我们使用无模型强化学习联合训练π和µ端到端，以最大限度地提高贴现率。预期收益J（π）=Eτp（·|π）<$T−1γ t r t，其中τ =（x0，a0，r0），.，（x T-1，a T-1，r T-1）是机器人在仿真中执行策略π时的采样轨迹，p（τ π）表示π下轨迹的似然性。我们使用PPO [69]来最大化这个目标。RL奖励：奖励鼓励策略准确跟踪命令的线速度和角速度，同时惩罚更高的能耗[17]。我们将线速度表示为v，将方向表示为θ，并且将角速度表示为ω，所有这些都在机器人的基坐标系中我们另外定义关节角度为q，关节速度为qstec，关节扭矩为τ。在时间rt处的奖励被定义为以下量的总和（具体见补充材料）：• 速度匹配：−|vx−vcm d|−|ωyaw−ωcm d|• 能源消耗：−τTqstec• 横向移动：−|v y|2• 髋关节：−qhip2训练计划：与[46]类似，我们在分形地形上训练我们的智能体，而不需要任何额外的人工奖励来获得步行间隙或外部推动。对于目标速度，我们从两个设置中的一个进行采样：联合跟踪线速度和角速度（曲线跟踪），或原地转弯。就地转向对于处理非常杂乱的环境非常重要。有关范围的详细信息，请参见补充资料。适配模块：由于我们在部署期间没有特权的环境信息，因此我们使用RMA [ 46 ]来训练模拟本身中的适配模块，以从本体感受状态估计extrinsic z t，这在部署期间可用。具体地说，自适应模块使用机器人的状态xt-k：t-1和动作at-k：t-1的最近历史来生成z t，它是真实外因向量z t的估计。这是通过监督学习训练的，因为我们可以访问本体感受历史和模拟中的真实外部向量。3. 安全顾问模块安全顾问模块捕获使机器人能够安全行走的约束为此，我们在模拟中训练两个安全顾问：（1）碰撞检测器Mc来检测碰撞，（2）跌倒预测器Mf来预测未来的跌倒，两者都来自本体感受，其中包括状态（xt-k：t-1）和动作（at-k：t-1）的最近历史（类似于[46]）。在部署期间，安全顾问模块使用这两个顾问的预测，以告知步行策略的安全操作约束的规划者碰撞检测器（M c）：碰撞检测器使用本体感受（M c（x t−k：t−1，a t−k：t−1））估计机器人当前是否处于碰撞的概率。如果碰撞概率高于阈值（0.5），则安全顾问模块将固定尺寸的障碍物块（9cm × 3cm，大约为A1的头部尺寸）添加到机器人当前位置前方的成本地图以指示障碍物，其中3cm的一侧在机器人的17276不不−不不其可能被视觉系统错过（例如，玻璃墙）。跌倒预测器（M f）：跌倒预测器使用本体感觉（M f（x t-k：t-1，a t-k：t-1））对步行策略是否可能在接下来的1秒内跌倒进行概率预测。如果跌倒概率高于阈值（0.5），则安全顾问模块将速度限制（vmax）减小0.2m/s，否则其将速度限制增大0.05m/s。规划器使用vmax生成步行策略的线速度命令这使得规划者能够在危险的设置中减慢机器人，例如柔软或光滑的地形，重的有效载荷等。模块培训：我们在模拟中以自我监督的方式培训安全顾问Mf和Mc我们在随机采样的环境和命令下收集数据，并在（1）机器人当前处于碰撞（2）上记录二进制标签，如果策略在接下来的1秒内导致跌倒。然后，我们通过最小化二进制交叉熵损失来训练安全顾问。详情载于补充资料。4. 视觉规划器视觉规划器使用机载摄像机来生成自上而下的2D成本地图，并使用它来规划到达目标的路径它还使用由安全顾问估计的安全约束来生成被馈送到步行策略的命令速度具体地，视觉规划器包括（1）映射模块，其从机载相机生成自上而下的2D占用地图，（2）使用快速行进方法（FMM）和符号距离场的成本地图生成步骤，（3）基于PID的规划器，其使用来自安全顾问模块的成本地图和安全约束来生成用于步行策略的线性和角速度命令。4.1. 可视占用地图我们首先生成一个自上而下的2D视觉占用地图，通过增量累积点云从船上4.2. 成本图生成2D成本图是目标距离图（到目标的测地线距离）和障碍物距离图（以保持与障碍物的安全裕度）的总和从该成本图中的任何起点遵循最陡下降的方向，给出了到达目标的无障碍路径。目标距离图：我们使用快速行进法（FMM）[70]来计算每个起始位置（x，y）到点目标的测地线距离dgoal（x，y）。障碍物距离图：我们首先计算每个点（dsdf（x，y））到最近障碍物的有符号距离（L1范数），然后计算障碍物距离图max（0，α1dsdf（x，y）），其中α1是距离阈值。只有当机器人在障碍物的α1范围内时，我们才对它进行惩罚。该逆符号距离场用于两个目的：1)它惩罚机器人太靠近障碍物; 2）即使在（否则不可微的）物体边界处也给出平滑的可微成本图，这使得能够进行平滑的连续路径规划。成本图：最终成本图为C（x，y）=dgoal（x，y）+α2max（0，α1−dsdf（x，y））（1）这里，α2是权衡两个成本的比例因子在部署期间，如果碰撞检测器（MC）预测到碰撞，则安全顾问模块异步地将附加的局部障碍物添加到成本图4.3. 速度命令生成给定机器人我们可以计算出这个最佳航向或目标方位将机器人θ目标的归一化n g在成本图− kC（x t，y t）的i v e梯度处。角速度：我们使用 PD 控制器来计算命令角速度（3），然后将其剪切到可行范围（在补充说明中指定）：ωcmd=Kp·（θtarget−θt）+Kd·（ωtarget−ωt）（2）英特尔实感D435深度摄像头[37]随着机器人移动。t t t使用来自机载跟踪摄像头（Intel RealSense T265）的姿态信息将点云转换为世界参考系变换后的点云被最大感兴趣高度覆盖，然后动态地投影到水平2D帧中以形成占用图，其中每个网格具有从0到1的值以指示是自由空间的概率。使用阈值将占用图二值化以用于路径规划0.5.我们使用英特尔实感的开源实现来计算可视占用地图[66]。我们将其转换为一个配置空间的机器人大小建模为一个正方形和扩张的占用地图。线性速度：我们在成本图中从机器人当前位置（xt，y t）开始沿θ方向进行线性搜索，以获得短期目标位置（x′t，y t′）。关键在于，只要成本不断降低，机器人就应该尽可能地沿着当前的方向前进（图3）。目标线速度vcmd为1α0，其中α0从图3a中的优化问题获得。较大的T将导致更保守的目标线速度，而较小的T将更激进。发送到机器人的命令是目标速度的指数平滑平均值。我们维持一个单独的指数移动平均值，用于加速和减速。17277不−∇××--自顶向下布局生成环境机器人图3.最佳方向是沿着成本图中最陡下降的方向C.通过PD控制计算最佳方向和当前方向v之间的误差e的角速度。线性速度的大小通过找到沿水流方向的最远点α0来确定，使得成本不断下降。（rt：机器人当前位置，dt：单位方向上的向量θt，vmax：来自跌倒预测器M f的最大线性行走速度，T：前瞻时间）5. 实验装置物理硬件：我们使用来自Unitree的A1机器人，具有18-DoF（12可致动）。其本体感觉传感器包括关节电机编码器、IMU传感器的滚动和俯仰以及二值化的脚接触指示器。我们还安装了英特尔实感深度D435和跟踪T265摄像头。部署的策略使用联合位置控制。运动策略：对于运动策略，我们使用与[17，46]类似的架构和训练细节，并在补充中列出确切的安全顾问模块：与自适应模块类似，碰撞检测器和跌倒预测器模块共享相同的架构，并使用线性层将状态和动作嵌入到32维向量中。然后，我们使用3层1D卷积，输入通道，输出通道和步幅[32，32，8，4]，[32，32，5，1]，[32，32，5，1]。公寓-然后，将增强的特征通过具有8个隐藏单元得到1个sigmoid输出作为预测概率值。我们通过在具有随机采样的不可见障碍物、摩擦、地形粗糙度和有效载荷值的环境在模拟测试时，我们以5Hz的频率运行碰撞检测器和跌倒预测器，而对于机器人上的部署，我们只使用最后的0来训练轻量级版本。2s的观察历史，并以10 Hz运行。更多详情载于补充资料。FMM规划器和PID控制器：在成本图生成期间，我们选择α1=0。3m，α2=0. 五、为了控制角速度，我们设置增益K p=1，K d=0。02，ω目标设置为0。在运行时，我们将线搜索提供的线速度裁剪为由下降预测器确定的最大命令速度。为了便于就地盘车，如果线速度小于0。2，我们将角速度剪切到范围[0。四，零。[8]。规划器在仿真和机器人中以10Hz的频率运行图4.自顶向下视图房间布局和相应生成的模拟环境的示例。模拟环境：我们使用habitat- sim [68，75]从房间扫描网格生成自上而下的视图房间布局。网格来自Gibson环境[84]和matterport3D [7]。然后，我们选择200个具有挑战性的房间布局作为我们的验证集。对于每个房间布局，我们抽取10个导航目标，并将初始点设置为距离目标最远的点然后我们将房间布局转换为RaiSim模拟环境[31]。分辨率为每像素0.1米。我们在图4中展示了一个自顶向下布局的示例和生成的环境。在复杂地形上演示我们的导航系统雨，我们构建以下变量：• 平面：摩擦系数µ = 0的平面。8.• RoughTerrain：我们将8个z-scale 0.05的补丁和尺寸0.8米0.8米沿着从初始位置到目标位置的路径。粗糙的地形是使用RaiSim [31]内置的地形生成器构建的• 2x/4x/8x Inv-Obstacle：我们放置了2/4/8个0.2m 0.2m障碍物，这些障碍物无法被视觉传感器检测到。• 随机化：我们沿着从初始位置到目标位置的路径放置8个粗糙和光滑的补丁粗糙块的z尺度为0.05。滑片的摩擦系数每隔5秒，将8kg的有效载荷（A1本身为12kg）放置在机器人顶部或从机器人顶部移除。6. 实验结果我们在模拟和现实世界中测试我们的方法6.1. 仿真实验在模拟中，我们假设代理可以访问地面实况占用地图，我们只改变地形和导航策略。我们模拟实验的目的是回答以下问题：• 本体感觉反馈有多大帮助？• 最大限度地减少时间目标需要更积极的步行和更多的能量。一个不同的步态政策可以补偿一些能源消耗？我们还评估了以下更广泛的问题：• 双腿运动能促进目标达成吗？• 连续速度调节比离散速度调节好吗？Baseline和Bit：我们使用LoCoBot [1]作为我们的（一）（b）第（1）款17278××图5.碰撞检测器：顶部行显示部署的机器人，第二行显示占用图的状态，底部两行显示碰撞检测器的预测和机器人的步态图机器人与玻璃墙发生碰撞，但机载摄像头没有看到，之后，碰撞检测器通过本体感受检测到这一点，并指示错过的障碍物。地图会在本地进行更新以表明这一点，机器人会重新规划其周围的路径。步态图显示，在碰撞检测器检测到玻璃墙并更新地图之前，机器人被卡住了几分之一VP-Nav以100%（8/8）的成功率绕过玻璃墙，而仅视觉基线甚至一次也无法穿过它。轮式机器人基线，因为它广泛用于视觉导航[4，8，9，21] 。我们导入 PyRobot URDF 模型 [60] 。 VP-Nav 和LoCoBot都使用100 Hz的控制频率和10 Hz的规划频率。我们使用以下指标评估我们的系统：1）成功率2）成功率（归一化倒数）路径长度（SPL）加权[3]（3）实现目标的平均时间如果智能体未能达到目标，我们为失败事件添加恒定的超时惩罚（220秒）; 4）成功事件的平均能耗[17]。本体感受耦合的改进：我们分别分析了两个安全顾问（碰撞检测器和跌倒预测器）的重要性。碰撞检测器：我们一致地方 2/4/8 0.2m和0.2m的障碍物，并在有/没有本体感觉反馈的情况下运行VP-Nav在自上而下的视图地图中没有标记障碍物，以模拟不完美的视觉传感器无法捕获的玻璃或其他物体。在表1中，我们注意到，添加不可见的障碍物使得导航任务非常困难，这从所有方法的性能下降中可以看出使用本体感受碰撞检测器模块比不使用本体感受碰撞检测器模块的基线方法的成功率提高了5.7分。当环境变得更具挑战性时，性能提高甚至更大，比基线提高了15分。跌倒预测器：在表2中，我们示出了学习的跌倒预测器使得能够在涉及光滑表面、粗糙地形和有效载荷变化的组合的具有挑战性的我们把八个2.4米2.4米的补丁与不均匀的光滑表面沿路径从初始和目标位置。每5秒将8 kg有效载荷放置/移除到机器人上。使用本体感觉跌倒预测来调整机器人的速度，在没有本体感觉的情况下，比基线高出7分的目标达成成功率。补偿由最小化目标时间引起的更高的能量消耗：最小化目标时间导致攻击性运动行为和增加的能量消耗。为了补偿能源消耗的一些增长，我们表明，一个有效的步态政策，[17]与固定步态仅小跑策略相比，能耗降低10%（表3）。VP-Nav的成功率也略高，因为与固定步态策略相比，它在穿越复杂设置时以低速切换到更稳定的步态。VP-Nav自动切换步态，以优化不同速度下的稳定性和能量腿部与轮子：我们还在表4中比较了VP-Nav和LoCoBot的视觉导航。在平坦地形上，LoCoBot的性能略低，因为LoCoBot更容易陷入FMM地图的局部最小值（参见转发击中障碍物现场车削转发冲突检测器开销图17279导航系统地形类型成功 ↑SPL↑能量（K）↓（一）仅Trot平坦93.800.77252.56（b）第（1）款VP-Nav（我们的）平坦95.200.79233.05表3. 能源效率我们的政策与不同的步态消耗更少的能源相比，单步态的政策。表1. 本体反馈有助于导航与无形的障碍。当有两个无形障碍物存在时，通过本体感觉反馈，成功率提高5点以上。在更具挑战性的环境中，性能改进提高到15点。导航系统地形类型成功 ↑SPL↑时间（s）↓（一）无专有权平坦95.200.7980.28（b）第（1）款无专有权随机80.250.66105.68（c）第（1）款VP-Nav（我们的）随机87.400.73117.65表2. 本体感觉反馈有助于在复杂地形中导航。如果没有本体感受反馈，在存在光滑、粗糙表面和突然的有效载荷变化的组合的情况下，成功率降低7个点，这不能从仅视觉系统中推断出来。但有了本体感觉，规划者可以很容易地详情请补充）。然而，在环境中添加粗糙的地形（5厘米海拔）会导致LoCoBot的目标达成性能显着下降。此外，我们还尝试了规划方案，该方案围绕粗糙的地形进行规划，同时假设地面实况可以访问其位置。虽然成功率有所提高，但时间成本仍然明显低于我们的腿式机器人基线，由于其强大的行走能力，它能够保持类似的成功率和目标时间。简而言之，虽然节能，但轮式机器人在不平坦的地形上挣扎，而腿式机器人则更不受地形影响。连续速度调节与离散：我们将连续规划器与通常用于视觉导航的离散规划器进行比较[21，47，56，67]。我们的离散规划器仅命令四个动作：1）以0.6 m/s前进;2）以0.8 rad/s左转; 3）以0.8 rad/s右转; 4）停止，而在线速度和角速度的连续范围内规划能够实现更平滑的轨迹和更短的目标时间。在表5中，我们看到我们的系统VP-Nav比离散规划器的时间效率高27%，因为机器人可以同时转弯和前进。6.2. 现实世界的实验看不见的障碍物：我们测试了碰撞检测器与看不见的障碍物，如玻璃门，人类突然走进机器人我们发现，来自安全模块的反馈在所有这些设置中提供了更高的成功率玻璃导航系统地形类型成功 ↑SPL↑时间（s）↓（一）无专有权平坦95.200.7980.28（b）第（无专有权2x Inv-Obstacle68.450.57119.80导航系统地形类型成功 ↑SPL↑时间（s）↓（一）LoCoBot-Proceed平坦90.650.81102.98（b）第VP-Nav（我们的）平坦95.200.7980.2817280表4. 腿对于实现目标的重要性。LoCoBot即使只有5厘米高，也不能轻易通过崎岖的地形成功率降至15.7（LoCoBot-Proceed）。即使LoCoBot可以访问粗糙地形补丁的位置，并可以计划避免它（LoCoBot-Avoid），成功率仍然明显低于我们的时间成本更高。导航系统地形类型成功 ↑SPL↑时间（s）↓（一）LoCoBot-Dis平坦86.450.77178.27（b）第（1）款LoCoBot-Cts平坦90.650.81102.98（c）第（1）款VP-Nav-Dis平坦95.350.80110.27（d）其他事项VP-Nav-Cts（我们的）平坦95.200.7980.87表5. 离散规划器（-Dis）与连续规划器（-Cts）的比较.连续规划器的使用使得导航系统达到目标所需的时间更少。一旦机器人与门碰撞，通过本体感受反馈检测到对机载摄像机不可见的墙壁。错过的障碍物会在地图中更新到碰撞的位置，机器人会在障碍物周围重新规划路径。突然闯入机器人路径的人类突然从外部出现到视场中的这种障碍物使得轨迹预测方法无用[28]。通过本体感受碰撞检测器，我们的机器人可以推理这些粗糙的滑塌地形：我们在具有挑战性的地形（包括散落在地板上的可移动木板和滑塌地形）下测试了跌倒检测器，如图6和补充资料所示。在粗糙光滑的地面上，跌倒预测器利用本体感觉来估计跌倒的风险，并相应地降低速度以确保安全。其他复杂的室内导航：我们在具有挑战性的环境中部署VP-Nav，并与使用纯视觉而没有跌倒预测和本体感受反馈碰撞检测的基线进行比较，并在所有环境中进行5次试验（图6）。我们发现，使用视觉和前感知耦合导航和运动，在所有这些设置提供了更高的成功率。在图6的左边，我们有2个室内任务，需要在地板上散落木板的情况下绕道而行，17281绕道用木板本地最小狭窄的道路成功率遇到的障碍数量VP-Nav（我们的）百分百0.2唯一愿景百分之八十0.2成功率阻塞后恢复时间VP-Nav（我们的）百分百0.9唯一愿景0%的百分∞图6.真实世界实验：我们将VP-Nav与纯视觉方法（没有来自安全顾问的本体感受反馈VP-Nav在所有这些设置中提供了更高的成功率。在左边，我们有2个室内任务，地板上散落着木板，狭窄的小路杂乱不堪。在这两种设置中，无纹理的墙壁，透明面板，大型棕色包装盒可能会被视觉错过。根据安全顾问的本体感受反馈，我们更新了占用地图并重新规划，尽管遇到了相同数量的障碍物。在右边，我们用一个快速的人体障碍物进行了测试通过安全顾问的本体感受反馈，机器人在一秒钟内恢复此外，在如右下角所示的具有挑战性的地形上，预测器检测到的可能跌倒可以用于降低安全速度限制，并提高稳定性和成功率。在这两种设置中，都有视觉系统很容易错过的物体，包括没有纹理的白色墙壁，透明的桌面侧板和昏暗光线下的棕色大包装盒。通过本体感受安全顾问，我们的机器人可以推理这些机器人也会在散落在地面上的不稳定木板上减速。7. 相关工作视觉导航：主要研究了轮式机器人的视觉导航，包括链式映射、定位和规划.一旦创建了2D地图，就可以使用图搜索技术找到到达目标的最佳路径[24，44，48，74]，水平集方法[43]或势场方法[39，40]等。该地图是通过使用经典[18，59，77]或学习方法[4，8，12，15，21，38，55，62，82，94，95，97]同时本地化和映射构建的，假设可以接近完美的低级别控制。在我们的基准中，我们从常见的导航数据集中导入地图，包括Habitat [68]，Gibson [84]和Matterport3D [7]。腿式机器人的导航：早期的作品将运动和导航解耦，这将应用限制在简单的地形[83]。该解耦框架已扩展为包括用于杂乱环境导航的学习模块[28，50，79]。[11]描述了通过从海拔地图估计立足点放置的耦合导航和运动框架。立足点得分可以通过经验估计[13，16，34，42，54，81]或学习[36、45、52、53、80]。其他方法放弃明确的立足点操作-最小化和学习可扩展性图[10，22，86]。几个作品补充基于视觉的状态估计通过使用联系信息[25而不是仅仅依赖于视觉，我们通过耦合视觉和本体感觉将导航和运动腿部运动：这通常是使用控制理论来实现的[2，5，6，20，29，32，33，35，41，57，65，73，89]手工制作的动力学模型。最近，RL已成功地用于在仿真中学习此类策略[19，51，58，69]在现实世界中，sim2real方法[23，30，61，63，76，76，78，85]。或者，在模拟中学习的策略可以在测试时进行调整，以便在真实环境中工作[14，17，46，64，71，72，87，908. 结论和限制用腿式机器人代替轮式机器人，拓宽了视觉导航在复杂地形和环境中的应用在本文中，我们结合低层次的运动与高层次的导航规划，使目标达到的腿四足机器人。我们的方法，VP-Nav，紧密耦合的视觉和本体感受，利用其互补优势，在存在干扰，透明的障碍物和复杂的地形，可能无法单独检测到VP-Nav重量轻，仅使用低成本A1四足机器人的适度机载计算和存储。我们的系统的一个限制是，低级别的运动模块通过安全模块与导航规划器通信，并且不直接取决于视觉因此，机器人可以绕过障碍物，但不能攀爬或跳过障碍物。我们把视觉引导的运动留给未来。致谢我们感谢 Aravind Sivakumar 、 Kenny Shaw 和Shivam Duggal在现实世界的实验中提供的帮助这项工作得到了DARPA机器常识计划的支持，部分得到了Good AI研究奖的支持。意外的人为障碍粗糙的滑地成功率遇到的障碍数量VP-Nav（我们的）百分之八十0.6唯一愿景百分0.6成功率滑数VP-Nav（我们的）百分百3.2唯一愿景百分之八4.017282引用[1] 机器人http://www.locobot.org/网站。 5[2] Aaron D Ames，Kevin Galloway，Koushil Sreenath，andDaughy W Grizzle.快速指数稳定控制李雅普诺夫函数与混合零动态。IEEE Trans-actions on Automatic Control，2014。8[3] PeterAnderson ， AngelChang ， DevendraSinghChaplot，Alexey Dosovitskiy，Saurabh Gupta，VladlenKoltun ， Jana Kosecka ， Jitendra Malik ， RoozbehMottaghi，Manolis Savva，and Amir R.扎米尔嵌入式导航代理的评价。arXiv：1807.06757，2018。6[4] Somil Bansal ， Varun Tolani， Saurabh Gupta ，JitendraMalik，and Claire Tomlin.结合最优控制和学习在新环境中的视觉导航。在CoRL，2019年。六、八[5] Monica Barragan，Nikolai Flowers，and Aaron M.约翰逊MiniRHex：一个小型、开源、完全可编程的步行六足机器人。在RSS研讨会，2018年。8[6] Gerardo Bledt ， Matthew J. Powell ， Benjamin Katz ，Jared Di Carlo，Patrick M Wensing，and SanguelKim.猎豹3：设计和控制一个强大的，动态的四足机器人。在IROS，2018年。8[7] Angel Chang、Angela Dai、Thomas Funkhouser、MaciejHal- ber 、 Matthias Niessner 、 Manolis Savva 、 ShuranSong、Andy Zeng和Yinda Zhang。Matterport 3d：从室内环境中的rgb-d数据中学习。在3DV，2017年。三、五、八[8] Devendra Singh Chaplot ， Dhiraj Gandhi ， SaurabhGupta，Ab-hinav Gupta，and Ruslan Salakhutdinov.学习使用主动式神经撞击进行在ICLR，2020年。六、八[9] Devendra Singh Chaplot，Dhiraj Prakashchand Gandhi，Abhi- nav Gupta，and Ruslan Salakhutdinov.使用面向目标的语义探索的对象目标在NeurIPS，2020年。6[10] ROmarChavez-Garcia，Je'roRummeGuzzi，LucaMGambardella，and Alessandro Giusti.从模拟中学习地面可穿越性。RA-L，2018年。8[11] 乔尔·切斯特纳特。腿式机器人。卡内基梅隆大学，2007年。8[12] Hao-Tien Lewis Chiang ， Aleksandra Faust ， MarekFiser，and Anthony Francis.使用autorl学习端到端的导航行为。RA-L，2019年。8[13] AnnettChilian和Hei k oHirsch müller. 基于立体摄像机的移动机器人崎岖地形导航。在IROS，2009年。二、八[14] 放大图片作者：Krista Clavera ，Anusha Nagabandi，Simin Liu ， Ronald S. Fearing ， Pieter Abbeel ， SergeyLevine，and Chelsea Finn. Learning to adapt in dynamic，real-worldenvironmentsthroughmeta-reinforcementlearning. 2019年，在ICLR。8[15] Samyak Datta，Oleksandr Maksymets，Judy Hoffman，Stefan Lee，Dhruv Batra，and Devi Parikh.整合自我为中心的定位更现实的点目标导航代理。 arXiv ：2009.03231，2020。8[16] Pe'terFankhauser ， Mark oBjelonic ， CDarioBellicoso ，Takahiro Miki，and Marco Hutter.四足机器人在崎岖地形下的鲁棒性在ICRA，2018年。817283[17] Zipeng Fu，Ashish Kumar，Jitendra Malik，and DeepakPathak.最小化能量消耗导致腿式机器人步态的出现。在CoRL，2021年。二三五六八[18] 豪尔赫·富恩特斯-帕切科、何塞·鲁伊斯·阿森西奥和胡安·曼努埃尔·伦德·奥恩曼查。视觉同时定位与映射研究综述。人工智能评论，2015年。8[19] Scott Fujimoto，Herke Hoof，and David Meger.解决行动者-批评者方法中的函数近似误差。在ICML，2018。8[20] Hartmut Geyer，Andre Seyfarth，Reinhard Blickhan.弹跳步态中的正力反馈？伦敦皇家学会B辑：生物科学，2003年。8[21] Saurabh Gupta，James Davidson，Sergey Levine，RahulSuk-thankar，and Jitendra Malik.视觉导航的认知绘图与在CVPR，2017年。六七八[22] 我是古兹，奥马尔·查维斯-加西亚，米尔·科·纳瓦，卢卡·玛丽亚·甘巴德拉和亚历山德罗·朱斯蒂。路径规划与局部运动估计。RA-L，2020年。8[23] 乔赛亚·汉娜和彼得·斯通仿真中用于机器人学习的接地动作变换。InAAAI，2017. 8[24] 彼得·E·哈特，尼尔斯·J·尼尔森，伯特伦·拉斐尔。最小费用路径的启发式确定的形式基础。IEEE transactionson Systems Scienc

下载后可阅读完整内容，剩余1页未读，立即下载