具有深度可微分规划器的真实世界导航的研究

99 浏览量更新于2023-10-25 收藏 13.55MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

173270朝着具有深度可微分规划器的真实世界导航0Shu Ishida João F. HenriquesVisual Geometry Group Universityof Oxford0{ishida, joao}@robots.ox.ac.uk0摘要0我们训练具有体验性的神经网络来规划和导航未知的复杂3D环境，强调真实世界的部署。规划器学习建模状态转换和奖励，而不需要对代理或环境有先验知识。为了避免强化学习中潜在的危险的试错过程，我们专注于可微分的规划器，如值迭代网络（VIN），它们从安全的专家演示中进行离线训练。尽管它们在小规模模拟中表现良好，但我们解决了阻碍它们部署的两个主要限制。首先，我们观察到当前可微分规划器在具有高分支复杂性的环境中很难进行长期规划。虽然它们理想上应该学会将低奖励分配给障碍物以避免碰撞，但这些惩罚不足以保证无碰撞操作。因此，我们对值迭代施加了结构约束，明确学习建模不可能的动作和噪声运动。其次，我们扩展了模型，以在平移和微小旋转下规划具有有限视角摄像头的探索，这对于真实机器人的部署至关重要。我们的提议显著改进了几个2D和3D环境中的语义导航和探索，在其他可微分规划器具有挑战性的设置中取得了成功。据我们所知，我们是第一个成功将它们应用于困难的主动视觉数据集的人。01. 引言0机器人技术的不断进步使得机器人能够应用于各种场景，从工厂制造和家庭清洁到自动驾驶车辆和无人机配送等新兴应用[2]。提高机器人的自主性面临许多挑战，其中之一是从不确定的感知数据进行规划的困难。在经典机器人学中，规划的研究有着悠久的传统。01 代码可用：https://github.com/shuishida/calvin0图1.（第一列）我们的方法在AVD（第5.2.2节）上运行时看到的输入图像。这个具有体验性的神经网络已经学会了高效地探索和导航未知的室内环境，以寻找给定类别的对象（在最后一张图像中突出显示）。（第二列-第三列）对于每个空间位置的预测奖励和值（分别为较亮的值）。未知的最佳轨迹为虚线，而机器人的轨迹为实线。0tion[44]，使用对机器人的配置和传感器的详细知识，几乎不强调从数据中学习。另一种方法是使用深度学习，这是一种强调数据驱动的非参数方法[11]。现代深度神经网络在模式识别方面表现出色[40]，尽管它们不能直接用于规划应用。一种方法是将场景解析为预定义的元素（例如对象类别和它们的姿态），然后传递给更经典的规划器，而端到端的方法则可以通过数据进行改进，并适应没有手动调整的新颖环境。由于数据驱动的设置，深度网络有潜力学习利用环境的偏差，例如某些类型的房间的可能位置。值迭代网络（VIN）[43]通过定义一个可微分的计划，将经典规划和数据驱动的深度网络巧妙地融合在一起。173280神经元。作为深度网络的其他元素一样，具有次可微性的神经元允许规划器包含可学习的元素，这些元素可以从示例数据中进行端到端的训练。例如，它可以学习识别和避免障碍物，并识别和寻找目标对象的类别，而无需明确标记的示例。然而，VIN的理想化公式与现实机器人场景之间存在差距，一些研究对此进行了处理[12,21]。基于CNN的VIN[43]认为整个环境是可见的，并且可以表示为2D网格。因此，它没有考虑到在3D空间中的具体（第一人称）观察、未探索和部分可见的环境，以及视角观察和理想化的世界空间离散状态之间的不匹配。在本文中，我们解决了这些挑战，缩小了当前可微分规划器与现实机器人导航应用之间的差距。我们的贡献是：01.基于约束的值迭代的转移模型，遵循严格的概率形式化，明确地模拟非法动作和任务终止（第4.1节）。这是我们的主要贡献。02.通过机器人的平移和旋转进行体验规划的3D状态空间（第4.2.1节）。经过细粒度旋转的规划经常被忽视（第2节），需要更好的过渡建模先验（第4.1.2节）。03.解决导航训练分布不平衡性的轨迹重新加权方案（第4.1.5节）。04.我们首次证明了可微分规划器可以学习在复杂的3D迷宫和具有来自真实机器人平台的图像的具有挑战性的主动视觉数据集[1]中导航（第5.2.2节）。因此，我们的方法可以通过离线收集的有限数据进行训练，而不是像以前的工作那样从模拟器中获取无限数据。0第2节讨论了相关工作，第3节简要介绍了可微分规划，第4节介绍了我们的技术提议，第5节对其进行了评估。02. 相关工作0规划和强化学习。对于完全已知的确定性状态空间，规划问题部分地通过图搜索算法得到解决[10, 15, 22-24,41]。马尔可夫决策过程（MDP）[3,42]考虑了概率转移和奖励，使得可以在随机模型和嘈杂环境中进行规划。在已知MDP的情况下，值迭代可以得到最优解[3, 42]。强化学习（RL）专注于未知MDP[29, 29, 36, 45,46]。无模型RL系统是反应性的；在长时间的试错过程中构建策略（即通用计划），并且将特定于训练环境（没有在线规划）。这使得它们对于机器人来说不太理想，机器人必须避免风险性失败，并且必须在新环境中即时创建新的计划（策略）。基于模型的RL0方法试图学习一个MDP，并经常在在线规划中使用它[9, 13,14, 19,20]。在这两种情况下，环境被假设为在每一步都提供奖励信号。用于导航的深度网络。有几项工作在训练深度网络用于导航方面取得了进展。神经地图[34]是一个A2C[29]代理（因此是反应性的），它可以读取和写入可微分的内存（即地图）。类似地，Mirowski等人[28]训练了针对特定环境的反应性策略。价值预测网络[33]从数据中学习MDP及其状态空间，并在短期内进行单次展开计划。Hausknecht等人[16]将深度Q学习与循环相结合，以解决部分可观察的环境问题，但仅考虑单帧遮挡。有几项工作将规划视为一个不可微分的模块，并专注于训练导航系统的其他方面的神经网络。Savinov等人[37]通过组合同样网络和在代理任务上训练的值估计器来实现这一点，并使用从环境中步行录像建立的初始地图。主动神经SLAM[6]训练了一个定位和映射组件（输出自由空间和障碍物），一个策略网络来选择非可微分计划的目标，以及另一个用于执行低级控制。随后的工作[5]通过语义分割来补充这个地图。这个地图与我们的地图不同，我们的地图由可微分的规划器学习得到，因此不受限于对应于注释标签。后两项工作在大型3D扫描环境的大型模拟中成功导航，并被转移到真实机器人上。模仿学习。为了避免通过试错学习，模仿学习使用专家轨迹。逆强化学习（IRL）[18, 31,48,49]通过学习最能解释专家轨迹的奖励函数来实现这一点。然而，这通常会导致一个困难的嵌套优化问题，并且是一个不适定的问题，因为许多奖励函数可以解释相同的轨迹。可微分规划。Tamar等人[43]引入了用于模仿学习的值迭代网络（VIN），它通过值迭代在线生成计划，并通过计划向后传播错误来训练奖励估计器（第3.1节）。Karkus等人[21]还将VIN应用于部分观测的定位，但假设了环境的完整地图。Lee等人[25]用LSTM替换了VI公式中的动作最大化，但假设每个格状状态都有一个完全已知的四向视图，这在实践中通常是不可用的。一个微妙的区别是他们通过将线性策略层应用于2D状态空间网格的隐藏通道来处理旋转，这比我们的3D平移旋转网格更不可解释。以前大多数将VIN部署到机器人上的工作[32,38]假设占用地图和目标地图，而不是从数据中学习地图嵌入和目标本身。with the highest action-state value. While the sum in Eq. 1resembles a convolution, the filters (P) are space-varying(depend on s = (i, j)), so it is not directly expressible assuch. Eq. 1 represents the “ideal” VI for local motion on a2D grid, without further assumptions.3.1. Value Iteration NetworkWhile VI guarantees the optimal policy, it requires thatthe functions for transition probability P and reward R areknown (e.g. defined by hand). Tamar et al. [43] pointedout that all VI operations are (sub-)differentiable, and assuch a model of P and R can be trained from data by back-propagation. For the case of planning on a 2D grid (naviga-tion), they related Eq. 1 to a CNN, as:Q(k)a,s =�δ∈K�P Ra,δ �Rs+δ + P Va,δV (k−1))s+δ�,∀a ∈ A,withV (k)s= maxa∈A Q(k)a,s,(2)where P R, P V ∈ RA×|K| are two learned convolutionalfilters that represent the transitions (P in Eq. 1), and �R isa predicted 2D reward map. Note that A is independent ofs, i.e. all actions are allowed in all states. This turns outto be detrimental (see next paragraph). The reward map �Ris predicted by a CNN, from an input of the same size thatrepresents the available observations. In Tamar et al.’s exper-iments [43], the observations were a fully-visible overheadimage of the environment, from which negative rewards suchas obstacles and positive rewards such as navigation targetscan be located. Each action channel in A corresponds to amove in the 2D grid, typically 8-directional or 4-directional.Eq. 2 is attractive, because it can be implemented as a CNNconsisting of alternating convolutional layers (Q) and max-pooling along the actions (channels) dimension (V ).Motivating experiment. Since the VIN allows all actionsat all states (A does not depend on s), collisions must bemodelled as states with low rewards. In practice, the VINdoes not learn to forbid such actions completely, resulting in173290据我们所知，Gupta等人的认知映射器和规划器（CMP）[12]是唯一一个使用端到端学习的映射嵌入在真实数据上评估可微分规划器的工作。CMP使用分层VIN[43]在更大的环境中进行规划，并更新一个自我中心的地图。它将旋转处理为VIN之外的一种扭曲操作（即它在2D平移状态空间而不是3D平移旋转空间中进行规划）。每次更新时扭曲自我中心的地图实现了可扩展性，但会逐渐模糊嵌入。CMP仅针对90°的旋转和确定性运动进行评估，而不是嘈杂的平移和旋转。我们的3D平移旋转空间和学习的转移模型允许平滑的轨迹和更精细的旋转。CMP还需要在训练期间在线收集新的轨迹（使用DAgger[35]），而我们仅使用一组固定的训练轨迹进行训练，避免了模拟器和相关领域差距的需求。03. 背景0马尔可夫决策过程（MDP）[3, 42]形式化了顺序决策。它由状态s ∈S（例如位置）、每个状态可用的动作a ∈ A(s)、要最大化的奖励函数R(s, a,s')（例如到达目标）和转移概率P(s' | s,a)（给定当前状态s和动作a，下一个状态s'的概率）组成。代理的目标是学习一个策略π(a |s)，指定在任何状态s下选择动作a的概率，以最大化每个时间步t的预期回报Gt。回报是折现奖励的总和，Gt = ∑∞k=0 γkRt+k+1，其中折现因子γ ∈ (0,1)防止无限和的发散。值函数Vπ(s) = Eπ[Gt | st =s]评估从一个状态开始的未来回报，而动作值函数Qπ(s, a) = Eπ[Gt | st = s, at =a]同时考虑状态和采取的动作。一个最优策略π�应该最大化所有状态的预期回报，即�s ∈S，v�(s) = maxπ vπ(s)。值迭代（VI）[3,42]是一种通过在每次迭代k中交替改进值（V）和动作值（Q）函数估计来获得最优策略的算法。当s和a是离散的时，Q(k)0而V(k)可以实现为简单的表格（张量）。特别地，我们将状态定义为2D网格的单元格，对应于环境中的离散位置，即s= (i, j) ∈ S = {1, ...,N}2。此外，转移是局部的（仅限于由δ ∈ K = {−1, 0,1}2偏移的坐标）：0Q(k)a,s =∑0δ ∈ K0P a,δ,s × R a,δ,s +γV(k-1)s+δ ×0对于A(s)中的每个a，其中V(k)s = max a∈A(s)Q(k)a,s，(1)0注意，为了避免重复的符号，s和δ是2D索引，因此V是一个2D矩阵，而R和P都是5D张量。策略π(k)s =argmax a∈AQ(k)a,s简单地选择具有最高动作-状态值的动作。虽然公式1中的求和类似于卷积，但滤波器（P）是空间变化的（取决于s = (i,j)），因此不能直接表示为卷积。公式1表示了在2D网格上进行局部运动的“理想”值迭代，没有进一步的假设。0图2.（左）一个2D迷宫，目标用黄色表示。（中）VIN为每个2D状态生成的值（动作朝最高值方向进行）。数值越大，颜色越亮。正确的轨迹为虚线，当前轨迹为实线。由于下方的局部最大值，代理（橙色圆圈）被困住了。（右）我们的方法CALVIN生成的相同数值。没有虚假的极大值，并且正确地将墙壁的值视为低（暗色）。propagation of values from states which cannot be reacheddirectly due to collision along the way. We verified this ex-perimentally, by training a VIN according to Tamar et al. [43]on 4K mazes (see Sec. 5 for details). We then measured, foreach state, whether the predicted scores for all valid actionsare larger than those for all invalid actions (i.e. collisions).Intuitively, this means the network always prefers free spaceover collisions. Surprisingly, we found that this was not truefor 24.6% of the states. For a real-world robot to work reli-ably, this is an unacceptably high chance of collisions. As acomparison, for our method (Sec. 4) this rate is only 1.6%.In the same experiment, the VIN often gets trapped in localminima of the value function and does not move (Fig. 2),which is another failure mode. We aim to fix these issues,and push VINs towards realistic scenarios. An alternativewould be to employ online retraining (DAgger) [35], whichcannot use solely a fixed set of offline trajectories.4. Proposed methodWe propose a transition model that accounts for illegalactions and termination. We then extend it to embodied plan-ning (rigid 3D motion and partially-observed environments).4.1. Augmented navigation state-action spaceIn this section we will derive a probabilistic transitionmodel from first principles, with only two assumptions andno extra hyper-parameters. The first assumption is local-ity and translation invariance of the agent motion, whichwas introduced in the VIN to allow efficient learning withshared parameters. Unlike the VIN, we will decompose thetransition model P(s′|s, a) into two components: the agentmotion model �P(s′ −s|a), which is translation invariant andshared across states (depending only on the spatial differ-ence between states s′ − s); and an observation-dependentpredictor �A(s, a) ∈ [0, 1] which evaluates whether action ais available from state s, to disqualify illegal actions.In robotics, it is essential that the agent understands thatthe current task has been completed to move on to the nextone. Since in small environments there is a high chance thata randomly-acting agent will stumble upon the target, An-derson et al. [2] suggested that an explicit termination actionmust be taken at the target to finish successfully. Therefore,in addition to positional states, we assume a success state W(“win”) that is reached only by triggering a termination ac-tion D (“done”), and a failure state F (“fail”) that is reachedupon triggering an incorrect action. We denote the reward forreaching F as RF , and the translation-invariant rewards as�R(a, s′ − s). For simplicity, we consider the reward for suc-cess a special case of �R(a, s′−s) where a = D and s′ = W.With these assumptions, the reward function R(s, a, s′) is:R(s, a, s′) =� �RF ,s′ = F�R(a, s′ − s),s′ ̸= F.(3)P(s′|s, a) =1 − �A(s, a),s = FA(s, a)P(s′ − s|a),s′ ̸= F.(4)R(s, a) =�s′P(s′|s, a)R(s, a, s′)(5)= RF (1 − A(s, a)) + A(s, a)�s′P(s′ − s|a)R(a, s′ − s)Q(s, a) = R(s, a) + γIa∈A�s′P(s′|s, a)V (s′)(6)= R(s, a) + γA(s, a)Ia̸=D�s′P(s′ − s|a)V (s′)minP , A, R1|T |t∈T wtL (Q(st), a∗t ) ,(7)̸173300结合智能体运动模型 � P ( s ′ − s | a ) ，行动有效性预测器 �A ( s, a ) 和失败状态 F 的定义，过渡模型 P ( s ′ | s, a )可以由方程4推导得到：0根据上述，我们通过对邻近状态 s ′ 进行边际化计算奖励 R (s, a )：0最后，将方程5代入方程1中，得到我们提出的值迭代的Q(s,a)：0其中 I是一个指示函数。方程5和6本质上表示了一个受限制的值迭代，它模拟了在具有未知非法状态和目标状态终止的网格上的MDP情况。该模型的输入是三个可学习函数——运动模型� P ( s ′ − s | a ) ，行动有效性 � A ( s, a )（即障碍物预测）和奖励函数 � R ( a, s ′ − s ) 和 � R F。它们被实现为带有观察作为输入的CNN（� R F是一个单一的学习标量）。所有的约束都来自于一个定义良好的世界模型，具有非常可解释的预测量，与之前的方法[25,43]不同。我们将这种方法命名为避碰长期值迭代网络（CALVIN）。04.1.1 训练0与Tamar等人[43]类似，我们使用softmax交叉熵损失函数L来训练我们的方法，将示例轨迹{ ( s t , a � t ) : t ∈ T}与预测的行动评分Q ( s, a ) 进行比较：0其中Q ( s )是一个包含每个行动元素（Q ( s, a )）的向量，wt是一个可选的权重，可以用来调整损失函数的偏置（如果wt � =1）（第4.1.5节）。示例轨迹是从随机起点到目标的最短路径（也随机选择）。注意，学习的函数可以根据输入观测条件化。这些观测是2D特征网格，与所考虑的状态空间（即观测地图）具有相同的大小，这很方便，因为它使得� P ，� A 和�R 可以作为CNN实现。1733104.1.2 过渡建模0与VIN（方程2）类似，运动模型� P ( s ′ − s | a)被实现为卷积滤波器� P ∈ R |A|×| K|，因此它仅依赖于两个状态s和s ′之间的相对空间位移s ′ −s。我们可以使用已观察到的示例轨迹中的转换来约束模型，通过为示例轨迹中的每一步添加交叉熵损失项L ( � P ( a � t ) ,s t +1 − s t )。训练后，滤波器� P ( s ′ − s | a)将包含每个行动的可能状态转换的分布（在图5中可视化）。04.1.3 行动可用性0尽管可用的行动�A在理论上可以完全端到端地学习，但实际上我们发现需要额外的正则化。如果我们有每个行动被采取的可靠的对数概率� A logit ( s, a )，那么通过在某个点� A thresh ( s)对其进行阈值处理，我们可以区分可用和不可用的行动。使用sigmoid函数�作为软阈值，我们可以将其写成：0� A ( s, a ) = σ ( � A logit ( s, a ) − � A thresh (0� A logit ( s, a )和� A thresh ( s)都是由网络预测的，给定每个时间步的观察。为了使每个动作被采取的概率有依据，我们鼓励� A logit ( s t)与示例轨迹动作a � t在所有步骤t上匹配，使用额外的交叉熵损失L ( � A logit ( s ), a � )。请注意，没有额外的地面真实监督 -我们严格使用与VIN相同的数据。04.1.4完全可观测与部分可观测环境0一些先前的工作[25,43]假设整个环境是静态的和完全可观测的，这通常是不现实的。部分可观测的环境涉及未知场景，需要探索以收集信息，因此更具挑战性。我们通过一个简单但重要的修改来解决这个问题。请注意，Eq. 7中的Q ( s t )取决于通过Eq.6计算的学习函数（CNNs）� P，� A和�R，而这些函数又是根据观察计算的。我们通过确保Q ( s t |O ≤ t )仅依赖于时间t之前的观察O ≤t，即每个时间步重新计算一次计划（因为观察不同），而不是一次计划整个轨迹，将VIN扩展到部分观察的情况。未观察到的位置将其特征设置为零，因此在实践中，在专家演示期间逐渐建立对环境的了解，从而能够学习到探索行为。04.1.5轨迹加权0探索提供了相同位置在不同时间的观察O ≤t（第4.1.4节）。因此，我们可以在Eq. 7中增加如下内容0使用这些部分观察样本。在Eq. 7中的求和变为�0t ∈ T 1: t ′ w t L ( Q ( s t | O ≤ t ′ ) , a � t)。对于长轨迹，训练数据在探索（目标不可见）和开发（目标可见）之间严重不平衡，前者的比例很大（在第5.1.2节中的数据中占90%）。我们通过重新加权样本来解决这个问题。在Eq. 7中，我们设置w t = β d t / max j ∈ T β dj，即与目标的拓扑距离d t成比例的几何衰减。由于专家轨迹是最短路径，这简化为w t= β | T |− t。04.2.在3D环境中的具身导航0像机器人这样的具身化智能体在3D空间中具有姿态，对于非完整性机器人来说，它们的可用动作（例如前进或旋转）和观测受到限制。04.2.1具身姿态状态（位置和方向）0为了解决第一个限制，我们在2D状态空间中增加了一个额外的维度，该维度对应于Θ离散化的方向：S = {1, ..., N}2 × {1,..., Θ}。这可以通过直接在Eq.5和6中的每个空间张量中添加一个额外的维度来实现。附录A中有一个张量大小的表格。请注意，更大的状态空间使得长期规划更加困难。我们观察到，当以这种方式天真地增加状态空间时，模型无法学习到正确的运动核函数P(s' - s |a)。这进一步强调了辅助运动损失（第4.1.2节）的必要性，并可能解释了为什么先前的工作没有通过细粒度旋转进行规划。04.2.2用于几何推理的3D嵌入0为了将图像信息（CNN嵌入）聚合到VIN执行规划的2D网格（地图）上，我们采用了与MapNet[17]相同的策略。通过投影几何，每个嵌入与世界空间中的一个3D点相关联，假设相机姿态和深度已知（如先前的工作所假设的[4, 12, 25, 26,43]，可以从单目视觉[30]估计）。所有过去帧中落入世界空间2D网格的每个单元的3D点的嵌入通过平均池化进行聚合。由于在格子的单元上使用了PointNet[7]聚合，我们将其命名为LatticePointNet（LPN）。附录A中有一个自包含的描述。在我们的导航背景下，LPN具有一些吸引人的特性：1）它允许推理远离、观察但尚未访问的位置；2）它融合了来自不同视角或不同时间的同一位置的多次观察。内存高效的映射。在推导过程中进行的时间聚合可以递归地计算为e t,i,j,k /nt,i,j,k，其中e t,i,j,k = e t − 1,i,j,k + e ′ t,i,j,k，n t,i,j,k = n t− 1,i,j,k + n ′ t,i,j,k，其中e ′ t,i,j,k是求和的嵌入。Full obs. 75.6±20.6 91.3±8.199.0±1.077.5±26.696.6±4.099.7±0.5Partial3.6±0.68.5±3.548.0±5.21.7±1.711.25±3.792.2±1.3Embod.11.0±1.014.5±2.190.0±7.915.2±3.628.5±3.593.7±6.2173320表1.在未见过的2D迷宫上的导航成功率（到达目标的轨迹比例）。部分观察（逐渐探索环境）和具身导航（平移-旋转状态空间）是朝着完整的3D环境迈出的重要而具有挑战性的步骤。0标准损失重新加权损失（我们的）0环境 VIN GPPN CALVIN VIN GPPN CALVIN0时间t的单元格（i，j，k）中的点数为nt，i，j，k，nt，i，j，k是每个单元格的点数。只需保留先前的地图et−1，i，j，k和先前的计数nt−1，i，j，k，而不是所有过去的观察结果。因此，在运行时，内存成本随时间保持恒定，允许无限操作（不像没有显式地图的方法[37]）。04.3. 限制0我们的主要贡献是改进VIN算法本身（第3.1节），具有正确的终止、转换和可用性概率模型，这与在VIN之上构建的工作是正交的。我们假设代理的姿态、深度图像和相机参数是已知的。环境中的其他动态对象没有建模。05. 实验0在本节中，我们将逐渐提高我们的方法的能力，使用第4节的建议将其与各种基线在越来越具有挑战性的环境上进行比较，并逐步过渡到未见过的真实3D环境。05.1. 2D网格环境0我们从2D环境开始，其中观察是整个场景的俯视图，因此不需要处理透视图像（第4.2.2节）。由于Tamar等人在他们的2D环境中获得了接近完美的性能，在重现他们的结果后，我们将重点放在2D迷宫上，这要困难得多，因为如果需要探索，它们需要频繁地返回以导航。使用Wilson算法[47]生成15×15的迷宫，示例可以在图3中可视化。允许的移动A是到单元格的8个邻居之一。如第4节所讨论的，必须在目标处触发终止动作D才能成功完成任务。目标放置在随机选择的自由单元格中，其与（随机）起始位置的最小拓扑距离等于环境大小，以避免平凡任务。0图3.我们在2D迷宫上的方法（第5.1.3节）。（左）输入可视化：未探索的单元格为暗色，目标为黄色（代理刚刚找到），黑色箭头显示代理的位置和方向。（中）左侧面板中白色矩形内的预测奖励的近景（较高的值更亮）。显示3D状态空间（位置/方向），每个单元格（位置）内的8个方向的奖励以径向模式显示。探索的单元格具有较低的奖励，目标的奖励最高。（右）预测值的近景。面向目标的方向较高。障碍物（黑色边框）的值较低。05.1.1 完全已知环境与位置状态0基线和训练。对于第一个实验，我们将我们的方法（CALVIN）与其他可微分的规划器进行比较：VIN[43]和最新的GPPN[25]，在完全观察到的环境中。除了使用迷宫而不是凸障碍物，此设置与Tamar等人的[43]接近。VIN、GPPN和CALVIN都使用2层CNN来预测它们的输入（详见附录A）。所有网络都使用4K个示例轨迹在相同数量的不同迷宫中进行训练，使用Adam优化器和从{0.01，0.005，0.001}中选择的最佳学习率，直到收敛（最多30个时期）。报告具有最小验证损失的时期的导航成功率（到达目标的轨迹比例）。我们的重新加权损失（第4.1.5节）对所有可微分的规划器都同样适用，因此我们报告有和没有的结果。结果。表1（第一行）显示了导航成功率，平均值在3个随机种子上（和标准偏差）。VIN的成功率较低，表明它不能扩展到大型迷宫。GPPN实现了较高的成功率，CALVIN表现接近完美。这可以解释为GPPN的容量较高，因为它包含了更多参数的LSTM。然而，CALVIN具有更受限制的架构，因此其更高的性能暗示了更好的导航归纳偏差。有趣的是，所提出的重新加权损失对所有方法都有积极影响，而不仅仅是CALVIN。通过正确的数据分布，任何具有足够容量的方法都可以适应目标。这表明解决数据不平衡性是一个重要的、互补的因素。05.1.2 部分可观察环境0设置。接下来，我们在未知环境中比较相同的方法，其中观察地图仅包含障碍物。3 × 398.7±1.981.0±26.990.3±3.191.3±4.797.7±1.78 × 823.6±4.914.7±6.241.2±9.533.3±8.669.2±5.3173330表2.在未见的3D迷宫（MiniWorld）上的导航成功率。请注意，基线方法不能推广到更大的迷宫。0CNN骨干网络LPN骨干网络（我们的方法）0尺寸A2C PPO VIN GPPN CALVIN（我们的方法）0到当前时间步骤为止的观察特征（第4.1.4节）。为了模拟局部观察，我们进行射线投射，以识别从当前位置可见的单元格，最多2个单元格。附录A中有示例观察。0结果。在这种情况下，与直接路径到目标相比，代理需要采取更多的步骤进行探索。从表1（第2行）可以看出，部分可观察性导致大多数方法发生灾难性失败。唯一的例外是CALVIN与重新加权损失（提出的方法），其表现良好。请注意，为了成功，代理必须获得几种复杂的行为：将探索引导到大的未见区域；从死胡同中回溯；并在看到时寻找目标。我们的方法显示了所有这些行为（请参见附录A进行可视化）。虽然模型最初将高值分配给所有未探索的状态，但一旦目标出现在视野中，模型将高值分配给目标状态及其邻居。由于只有CALVIN和重新加权损失的组合才能成功，我们推断正确的归纳偏差和平衡的数据分布对于成功都是必要的。05.1.3 具有方向的具体导航0设置。现在我们考虑具体导航，其中转换取决于代理的方向（第4.2.1节）。我们在所有方法（第4.2.1节）的状态空间中增加了8个方向，每个方向间隔45°，并允许4个移动动作A：向前、向后和向任一方向旋转。0结果。在表1（第3行）中，我们观察到VIN和GPPN的表现稍微好一些，但仍然成功的机会很低。CALVIN以较大的优势胜过它们。我们还在图3中展示了一个典型的运行情况（有关更详细的分析，请参阅标题）。CALVIN在图2和图3中展示的一个优点是，值和奖励是完全可解释的，并在值迭代中起到了预期的作用（参见公式1）。较少受限制的架构[25,43]插入了与值迭代公式不符的运算符，因此失去了作为奖励和值的可解释性（参见附录A）。05.2. 3D环境0在验证了具体导航和探索之后，我们现在将Latti

下载后可阅读完整内容，剩余1页未读，立即下载