没有合适的资源?快使用搜索试试~ 我知道了~
2616的90°微分层次规划器的90°视觉导航Saurabh Gupta1,2詹姆斯·戴维森2Sergey Levine谢尔盖·莱文1,2Rahul Sukthankar2Jitendra Malik1,21加州大学伯克利分校2谷歌12{sgupta,svlevine,malik}@ eecs.berkeley.edu,{jcdavidson,sukthankar}@ google.com摘要我们介绍了一个神经架构导航在新的环境。我们提出的架构学习地图从第一人称的观点和计划的行动序列的目标在环境中。认知映射器和规划器(CMP)基于两个关键思想:a)用于绘图和规划的统一联合架构,使得绘图由规划者的需求驱动,以及b)具有在给定关于世界的不完整观测集的情况下进行规划的能力的空间存储器。CMP构建了一个自上而下的世界信念图,自运动自运动行动的90°微分层次规划器行动神经网络规划器在每个时间步产生下一个动作。世界的累积信念使代理能够跟踪环境的访问区域我们的实验表明,CMP优于反应式策略和标准的基于内存的架构,并在新的环境中表现良好。此外,我们表明,CMP也可以实现语义指定的目标,如1. 介绍作为人类,当我们在新的环境中航行时,我们会借鉴以前在类似条件下的经验我们的理由自由空间,障碍物和地形学的环境,由常识规则和指南导航。例如,从一个房间到另一个房间,我必须先退出初始房间;要进入大楼另一端的房间,进入走廊比进入会议室更容易成功;厨房更有可能位于建筑物的开放区域而不是厨房的中间。本文的目标是设计一个学习框架来获得这样的经验,并证明这是在新的环境中的机器人导航的问题。然而,传统的导航方法很少使用这种常识模式。基于经典SLAM当S.古普塔曾是谷歌的实习生项 目 网 站 视 频 , 附 录 : https://sites.google.com/view/cognitive-mapping-and-planning/.图1:整体网络架构:我们的学习导航网络由映射和规划模块组成。映射器写入对应于环境的自我中心地图的潜在空间记忆地图不是明确监督的,而是从学习过程中自然出现的。方法[14,57]首先使用LIDAR,深度或运动结构构建3D地图,然后在此地图中规划路径。这些地图纯粹是几何学上的,在被明确观察之前,什么都不知道,即使有明显的模式。这成为目标导向导航的问题。例如,人类通常可以猜测他们在哪里会找到一把椅子,或者一条走廊可能会通向另一条走廊,但经典的机器人代理充其量只能进行不知情的探索。测绘和规划之间的例如,映射器可能会在走廊中的无纹理区域上失败,导致整个系统失败,但如果机器人必须保持直线行驶,则甚至不需要精确的几何形状受此推理的启发,最近人们越来越关注基于端到端学习的方法,这些方法直接从像素到动作[45,48,64],而无需经过显式模型或状态估计步骤。因此,这些方法具有从经验中学习行为的能力。但是,有必要仔细设计能够捕获当前任务结构的体系结构。例如Zhuet al. [64]使用反应式无内存前馈架构自我中心坐标框架自我中心坐标系微分映射器微分映射器的90°目标2617相比之下,Tolman [58]的实验表明,即使是老鼠在导航时也会以“认知地图”的形式建立复杂的空间表示这激发了我们的认知映射和规划(CMP)视觉导航方法(图1)。CMP由a)一个空间存储器来捕捉世界的布局,和b)一个规划器,可以规划路径给定的部分信息。映射器和规划器被放在一起成为一个统一的架构,可以训练以利用世界的规则。映射器融合的信息从输入视图观察代理随着时间的推移,以产生一个度量自我中心的多尺度信念的世界在一个自上而下的视图。规划者利用这种多尺度的自我中心信念来规划通往指定目标的路径,并输出要采取的最佳行动。这个过程在每个时间步重复,以将代理传递到目标。在每个时间步,智能体通过以下方式更新来自前一时间步的世界的信念:a)使用自我运动将来自前一时间步的信念转换到当前坐标框架中,以及b)结合来自世界的当前视图的信息来更新信念。这使得智能体在移动时可以逐步改进其世界模型。与之前的工作最显著的对比是,我们的方法是端到端的训练,以在世界上采取良好的行动为此,我们没有分析计算信念的更新(通过经典的运动结构),而是将其视为学习问题,并训练卷积神经网络,以根据观察到的第一人称视角预测更新我们使信念转换和更新操作变得不同,从而允许端到端的训练。这使得我们的方法能够适应真实室内场景中的统计模式,而无需对映射阶段进行任何明确的监督。我们的规划器使用通过上述映射操作获得的世界的度量信念来规划到达目标的路径。我们使用价值迭代作为我们的规划算法,但关键是使用可训练的,可微分的和分层的价值迭代版本这有三个优点,a)是可训练的,它通过显式地学习何时何地探索来自然地处理部分观察到的环境,b)是可微分的,它使我们能够训练映射器进行导航,以及c)是分层的,它允许我们在时间复杂度中规划到遥远目标位置的路径,该时间复杂度在到达目标的步骤数中是对数的。我们的方法让人想起导航中的经典工作,导航中也涉及构建地图,然后在这些地图中规划路径以到达所需的目标位置。然而,我们的方法在以下重要方面不同于经典工作:除了保持度量信念的架构选择之外,其 他 一切都是学习的from data数据.这导致了一些非常理想的特性:a)我们的模型可以以任务驱动的方式学习室内环境的统计规划,b)联合训练映射器和规划器使得我们的规划器对映射器的错误更鲁棒,以及c)我们的模型可以以在线方式在新的环境中使用,而不需要预先构造的地图。2. 相关工作导航是移动机器人中最基本的问题之一。标准方法是将问题分解为两个独立的阶段:(1)绘制环境,以及(2)规划通过所构建的地图的路径[17,37]。以这种方式分解导航允许每个阶段独立开发,但防止每个阶段利用另一个阶段的特定需求在[57]中可以找到对制图和规划的经典方法的全面调查。在计算机视觉和机器人技术中,映射已经以来自运动的结构和同步定位和映射的形式得到了很好的研究[20,30,33,55],具有各种感测模态,例如距离传感器,RGB相机和RGB-D相机。这些方法采用纯几何方法。基于学习的方法[26,61]孤立地研究问题,因此只学习通用的任务无关图。这些推断地图中的路径规划也得到了很好的研究,Canny [11],Kavraki等人的 开 创 性 工 作 。 [36][ 44 ][45][46][47][48]][49][49][18,19]等著作研究了地图和规划的联合虽然这通过在导航时递增地更新地图而放松了对预映射的需要,但是仍然将导航视为纯几何问题,Konolige等.[41]和Aydemiret al. [6]提出了利用语义进行更明智导航的方法。Kuipers等人[43]介绍了一种使用地图分层抽象的认知地图模型语义学也更普遍地与3D环境相关联[23,42]。作为分离离散映射和规划阶段的替代方案,强化学习(RL)方法直接学习机器人任务的策略[38,40,51]。使用RL完成这项任务的一个主要挑战是需要处理复杂的感官输入,例如相机图像。深度强化学习(DRL )最近的工作是以端到端的方式学习策略[48],从像素到动作。后续工作[22,47,54]建议对日间行车线进行改进算法,[29,47,50,60,63]研究如何将记忆纳入这种基于神经网络的模型。我们建立在塔玛等人的工作。[56]他们研究如何将明确的计划纳入这种代理,但不考虑第一人称视觉导航的情况,也不提供记忆或映射的框架[50]研究这些算法在新环境2618的90°对上一个时间步的世界的信心和信念对上一个时间点的世界的信心和信念,用自我运动扭曲过去框架与自我运动更新的信心和关于世界的自我运动结合带剩余连接的解码器网络编码器网络(ResNet具有ReLU的全微分翘曲图2:映射器的架构:映射器模块处理来自机器人的第一人称图像,并将观察结果集成到潜在记忆中,该潜在记忆对应于环境俯视图的自我中心地图。映射操作没有明确的监督除了填充障碍物,映射器还在地图中存储置信度值,这使得它能够通过利用学习到的模式对地图中未观察到的部分进行概率预测。他们没有受过训练。在导航的背景下,学习和DRL已被用于获得策略[4,12,13,21,35,50,56,59,64]。其中一些作品[21,35],集中在学习控制器的问题,有效地操纵周围的障碍物直接从原始传感器数据。其他人,如[9,50,56],专注于与全状态信息下导航相关的规划问题[56],通过情景控制设计更快学习的策略[9],或将神经网络纳入DRL算法以便于推广到新的环境。大多数研究(除了[64])都集中在合成迷宫中的导航上,这些迷宫几乎没有结构。假设这些环境是随机生成的,策略学习随机探索策略,但在布局中没有统计规律,可以利用。我们在从真实建筑物中获得的布局上进行了测试,并表明我们的架构始终优于之前工作中使用的前馈和LSTM模型。与我们的工作最直接相关的研究是朱等人的当代工作。[64]第一章。与我们类似,Zhuet al.还研究了在更真实的环境中使用宏动作而不是合成迷宫的第一人称视图导航。Zhu等提出了一种前馈模型,当在一个环境中训练时,该模型可以在另一个环境中进行微调。这样的无记忆代理不能映射,计划或探索环境,而我们的表达模型自然会这样做。Zhu等也不考虑对先前看不见的环境的零拍摄生成,并且关注于其中地标的记忆是可行的较小的世界。相比之下,我们显式地处理新的、以前从未见过的内部的泛化,并表明我们的模型成功地泛化到训练期间未见过的平面图。与当代工作的关系。 自从进行这项研究以来,许多研究视觉导航的其他作品已经问世。其中最值得注意的是Sadeghi和Levine [53]的工作,该工作表明模拟的移动政策可以转移到现实世界中。Mirowski等人[46]研究辅助监督的来源,以便使用RL进行更快的培训。Bhatti等人[8] incorpo-率SLAM为基础的地图,以提高性能,在玩毁灭战士。Brahmbhatt和Hays [10]使用前馈模型研究城市中的导航。Zhang等人[62]和Duanet al.[16]展示如何加快相关任务的学习。[8,16,46]显示了合成迷宫中的结果,只有[10,53,62]显示了真实图像的结果。虽然所有这些作品都研究视觉导航,但它们都没有利用映射和规划模块或提出端到端的架构来联合映射和规划,这是我们工作的重点。3. 问题设置为了能够专注于高层次的映射和规划-宁的问题,我们消除了混淆因素所产生的低层次的控制进行我们的实验,在模拟现实世界的室内环境。在仿真中研究这个问题可以使我们更容易地进行详尽的评估实验,而使用扫描的真实世界环境可以使我们保留真实场景的丰富性和复杂性。我们也只研究静态版本的问题,虽然扩展到动态环境将是有趣的探索在未来的工作。我们将机器人建模为具有固定半径和高度的圆柱体,配备有安装在固定高度并朝向2619t tt不固定的音高机器人配备有提供相对高水平的宏动作Ax、θ的低水平控制器。这些宏动作是a)保持原位,b)向左旋转θ,c)向右旋转θ,以及d)向前移动xcm,分别用a0,a1,a2和a3我们进一步认为,环境是一个网格世界,机器人使用它的宏操作在这个图上的节点之间移动机器人还可以获得精确的自我运动。这相当于假设完美的视觉里程计[49],它本身可以学习[25],但我们将联合学习问题推迟到未来的工作。我们想了解这个机器人在新的环境,它以前没有遇到过。自由空间表示,而是可以替代地用作一般的空间存储器。该模型学习在地图中存储任何对生成可靠计划最有用的信息然而,为了使本节中的描述具体化,我们假设映射器预测自由空间。映射器架构如图2所示。在每个时间步t,我们保持机器人坐标系中自由空间ft的累积估计。ft被表示为多通道2D特征图,其度量地表示世界的自顶向下视图中的空间。ft是使用以下更新规则从当前图像It、来自前一时间步长ft-1的累积估计以及最后一步和该步之间的自运动et我们研究了两个导航任务,一个是几何任务,要求机器人到达机器人坐标系中指定的目标位置向前250厘米,向左300厘米)和语义任务,其中要求机器人去到感兴趣的对象(例如,椅子)。这些任务是在新的环境中执行的,机器人既不能获得精确的环境地图,也不能获得其拓扑结构。我们的导航问题定义如下。在给定的时间步长t,让我们假设机器人处于全局位置(世界坐标系中的位置)Pt。在每个时间步,机器人接收环境的图像作为输入元素E,It=I(E,Pt)和在元素E,I t = I(E,P t)的坐标系中指定的目标位置(xg,yg,θg)(或语义目标)。机器人导航问题是学习一种策略,在每个步骤使用这些输入(当前图像,egomo- tion和目标规范)输出的动作,将传达机器人的目标尽快。实验测试台。我们进行我们的实验上的斯坦福大学的大规模三维室内空间(S3DIS)数据集介绍亚美尼亚等。[5]的文件。该数据集由收集在6个大的3D扫描(以纹理网格的形式)组成,规模的室内区域,源于3个不同的教育和办公楼使用。使用Matterport扫描仪收集数据集[2]。来自2个建筑物的扫描被用于训练,并且在来自第3个建筑物的扫描上对代理进行测试。我们对网格进行预处理,以计算机器人可穿越的我们还预先计算了一个-由机器人可以访问的作为节点的位置的集合和基于机器人可用的动作集合Ax,θ的连接结构组成的矩形图Gx,θ,更多详情见附录[1]。4. 映射我们描述了我们学习网络的映射部分如何请注意,与分析映射系统不同,我们模型中的映射相当于潜在的表示。由于它被直接馈送到学习的规划模块中,因此它不需要纯粹编码。f t=U(W(f t−1,e t),ft)其中,ft=φ(I t).(一)这里,W是根据最后一步e t中的自运动变换来自前一时间步ft-1的自由空间预测的函数,φ是将当前图像I t作为输入并基于来自当前位置的环境视图(由f ′表示)输出自由空间的估计的函数。U是将来自当前视图的自由空间预测与来自先前时间步的累积预测进行累积的函数。接下来,我们描述如何实现函数W、φ和U中的每一个函数W使用双线性采样来实现。给定自运动,我们计算一个后向流场ρ(et)。这个反向流将当前自由空间图像ft中的每个像素映射到它应该来自的前一个自由空间图像ft-1中的位置这个反向流ρ可以从自我运动Δp-pentrance [1]中解析计算。函数W使用双线性采样来将该流场应用于来自前一帧的自由空间估计。双线性采样允许我们从ft到ft−1反向传播gra-ratio[34],这将使端到端训练这个模型成为可能。函数φ由卷积神经网络实现由于我们选择始终在机器人的坐标系中表示自由空间,这成为一个相对容易学习的函数,因为网络只需在当前坐标中输出自由空间,而不是在迄今为止由机器人的累积自运动确定的任意世界坐标系直观地,网络可以使用语义线索(诸如像地板和墙壁的场景表面、像椅子和桌子的常见毛皮对象的存在)以及关于常见对象的大小和形状的其他学习先验来生成自由空间估计,即使对于可能仅部分可见的对象也是如此。附录[1]中的定性结果显示了一个例子,我们提出的映射器能够对尚未观察到的空间进行预测实现函数φ的神经网络架构如图2所示。它是由一个convo-2620不不t t第10级目标融合世界、目标和粗尺度值地图融合世界、目标和粗尺度值地图比 例 2 的 上采样值映射Q值图l迭代更新的价值地图比 例 1 的 上采样值映射Q值图l迭代更新的价值地图值迭代模块值迭代模块比例尺1下的映射器输出比例尺比例为0的映射器输出0级定影器定影器行动具有ReLU的全连接层图3:分层规划器的架构:分层规划器采用映射器输出的世界的以自我为中心的多尺度信念,并使用表示为卷积和通道最大池的值迭代来输出策略。规划器是可训练和可微分的,并且将梯度反向传播到映射器。规划器在问题的多个尺度(尺度0是最精细的尺度)上操作,这导致规划的效率使用残差连接[27]并在2D图像空间中产生场景表示的lutional编码器。这种表示通过完全连接的层被转换为以自我为中心的2D自顶向下视图使用上卷积层(也具有残差连接)对该表示进行上采样,以获得对来自当前帧的关于世界的信念的更新。除了产生对自由空间的估计之外从当前视图f′来看,模型还产生了一个不确定性,输入。值迭代可以被认为是Dijkstra算法的推广这很好地发挥与2D网格世界导航问题,这些操作可以用小的3×3内核实现,然后在通道上进行最大池化。 Tamar等人[56]显示这种价值迭代的重新表述也可以用来特菲登斯角 这个估计也被扭曲函数W,并随时间累积为ct。这种估计允许我们简化更新函数,并且可以被认为是在门控递归单元中扮演更新门的角色。 更新函数U接收元组(ft−1,ct−1)和(f′,c′),并产生(ft,ct)如下:学习规划器(卷积层的规划者)通过为每个状态的最优动作提供监督因此,规划可以通过非常深的卷积网络(具有信道明智的最大池化)以可训练和可微分的方式完成对于我们的问题,映射器产生世界的2D顶视图,不不ft= ft−1ct−1+f′c′ct−1+c′ct=ct−1 +c′(二)共享与上述相同的2D网格世界结构并且我们使用价值迭代网络作为可训练和可区分的规划器。我们选择了一个分析更新功能,以保持整体架构简单。这可以用LSTM [31]实现的更有表现力的函数来代替。映射器性能孤立。为了证明我们提出的映射器架构的工作原理,我们测试它在隔离的自由空间预测的任务。附录[1]显示了定性和定量结果。5. 规划我们的规划器是基于Tamar等人提出的价值迭代网络。[56],他观察到称为值迭代[7]的特殊类型的规划算法可以实现为具有交替卷积和通道最大池化操作的神经网络,允许规划器相对于其分层规划。[56](v2)中提出的价值迭代网络对于任何长期规划问题都是不切实际的。这是因为规划步长与动作步长相结合,从而导致a)运行时的高计算复杂度,以及b)由于梯度必须回流同样多的步骤而导致的困难学习问题为了缓解这个问题,我们扩展了[56](v1)中提出的我们的分层规划器计划在多个空间尺度。我们从k倍空间下采样环境开始,并在该下采样环境中进行l值迭代该值迭代过程的输出被中心裁剪、上采样,并且用于以更精细的尺度进行值迭代。重复这个过程以最终达到原始问题的解决方案。这个过程允许2621我们计划的目标是尽可能远的L2K步骤,而执行(和反向传播通过)只有LK规划迭代。这种效率的提高是以近似规划为代价的。在部分观察到的环境中进行规划。价值迭代网络只有在充分观察到环境的情况下才被评估,即.整个地图在规划时是已知的。然而,对于我们的导航问题,地图只是部分观察。因为规划器不是手工指定的,而是从数据中学习的,所以它可以学习自然地将部分观察到的地图考虑在内的策略。请注意,规划者不仅产生了对世界的信念,而且产生了不确定性,规划者知道地图的哪些部分已经被观察到,哪些还6. 联合架构我们最后的架构,认知映射和规划(CMP)将上面描述的映射器和规划器放在一起。在每个时间步,映射器基于当前观察更新其这个更新的信念被输入到计划器,计划器输出要采取的行动。如前所述,网络的所有部分都是可微的,并且允许端到端训练,并且没有额外的直接监督用于训练映射模块培训程序。我们使用DAGGER[52]对CMP网络进行了完全监督训练我们通过在图Gx,θ上的任意开始和目标位置进行采样来生成训练轨迹。我们产生监督-通过计算图上的最短路径进行训练。我们使用DAGGER的在线版本,在每一集期间,我们根据代理的当前策略或专家策略中的动作对下一个状态进行采样我们使用预定的采样和退火的概率,从专家的政策,使用逆S形衰减的采样。请注意,这项工作的重点是研究不同的导航架构。我们提出的架构也可以用替代范式来训练,用于学习这样的策略,例如强化学习。我们选择DAG-GER来训练我们的模型,因为我们发现它在我们的领域中具有更高的样本效率和稳定性,使我们能够专注于架构设计。7. 实验我们所有的模型都是使用Tensor-Flow [3]使用16个并行GPU工作器和16个参数服务器异步训练的。我们使用ADAM [39]来优化损失函数,并训练了60K次迭代,学习率为0的情况。001,每20K迭代下降10倍(我们发现这对于跨部门的一致培训是必要的)平均第75位成功率%年龄方法RGB深度RGB深度RGB深度几何任务初始25.325.330300.70.7无图像LSTM20.820.828286.26.2反应性(1帧)20.917.028268.221.9反应性(4帧)14.48.8251831.456.9LSTM10.35.921553.071.8我们的(CMP)7.74.814162.578.3语义任务(聚合)初始16.216.2252511.311.3反应性14.214.2222323.422.3LSTM13.513.4202323.527.2我们的(CMP)11.311.0181934.240.0表1:导航结果:我们报告的平均距离目标位置,第75百分位数的距离目标和成功率后,执行的政策为39个时间步。上半部分给出了在目标在机器人坐标系中的位置方面几何地指定目标的情况下的结果。下面的部分呈现了在语义上以“去椅子”(或门或桌子)的形式指定目标的情况下的不同的运行)。 我们使用0的权重衰减。0001正则化网络并使用batch-norm [32]。我们使用在ImageNet [15]上预训练的ResNet-50 [28]来表示RGB图像。我们使用从训练集中的网格渲染的RGB-D图像对之间的交叉模态蒸馏[24]将监督从RGB图像转移到深度图像,以获得预训练的ResNet-50模型来表示深度我们将我们提出的CMP架构与其他替代架构(如反应式代理和基于LSTM的代理)进行了比较。由于本文的目标是研究用于导航的各种架构,因此我们使用DAGER[52]以相同的方式训练所有这些架构,如前所述。几何任务。我们首先提出的任务,其中的目标是指定的几何位置的目标在机器人 该任务的问题是通过首先对图上的开始节点进行采样,然后对距离开始节点32步内的结束节点进行采样,最好是在另一个房间或走廊中(我们使用来自数据集的房间和走廊注释[5])。在训练和测试期间使用相同的采样过程我们对4000个问题进行了测试,这些问题在我们比较的不同算法中仍然是固定的我们在运行针对发作长度(39个时间步长)的学习策略后,使用到目标的距离来测量性能。我们报告了多个错误度量,目标的平均距离,目标的第75百分位数距离和成功率(如果智能体在事件结束时距离目标位置在三步之内,则智能体成功)。表1报告了事件结束时的这些指标,而图4则将其绘制在时间步长上。我们报告测试集上的所有数字。测试集由训练集中未包含的完全不同的建筑物的楼层组成(See数据集网站和附录[1]用于环境可视化。2622RGB深度目标平均距离30v/s第25步2015105第75%距离球门30v/s第25步201510510080604020成功率v/s步骤数反应式LSTMCMP目标平均距离30v/s第25步2015105第75%距离球门30v/s第25步201510510080604020成功率v/s步骤数反应式LSTMCMP00 5 10 15 20 25 30 35步骤编号00 5 10 15 20 25 30 35步骤编号00 510 152025 3035步骤编号00 5 10 15 20 25 30 35步骤编号00 5 10 15 20 25 30 35步骤编号00 510 152025 3035步骤编号图4:我们报告了到目标的平均距离,到目标的第75百分位距离(越低越好)和成功率(越高越好),作为4帧反应代理,基于LSTM的代理和我们提出的基于CMP的代理的步骤数的函数,当使用RGB图像作为输入时(左三个图)和当使用深度图像作为输入时(右三个图)。我们注意到,CMP在这两种情况下都优于两个基线,并且通常使用深度图像作为输入比使用RGB图像作为输入具有更好的性能我们还显示了当使用深度图像作为输入时,来自代理的不同随机初始化的五次重新训练的性能差异(实线绘制了中值性能,周围的阴影区域表示五次不同运行的最小值和最大值我们注意到,所有模型的性能变化都相当小,CMP始终优于两个基线。图5:CMP的典型成功和失败案例:我们可视化了CMP的一些典型成功和失败案例的轨迹。深灰色区域显示已占用空间,浅灰色区域显示空闲空间。智能体从蓝点开始,需要到达绿星(或以浅灰色显示的语义区域)。代理的轨迹由红色虚线表示。当我们在顶视图中可视化轨迹时,请注意智能体只接收第一人称视图作为输入。左图显示几何任务的成功案例我们看到,智能体能够跨越多个房间到达目标位置,绕过障碍物,并迅速解决它需要前往下一个房间而不是当前房间的问题。最后两个图显示了代理成功回溯的情况。中心图显示几何任务的失败情况:在狭窄的空间中导航的问题(通过部分打开的门进入,并被卡在角落里(间隙不够大,无法通过)),错过会导致更短路径的开口,在空间中颠簸而没有取得进展。右图显示了“去椅子”语义任务的轨迹。第一个图显示了一个成功的案例,而右边的图显示了一个典型的失败案例,其中代理直接穿过椅子区域。最近邻轨迹转移:为了量化训练和测试环境之间的相似性,我们使用视觉最近邻(在RGB ResNet-50特征空间中)将最佳轨迹从训练集转移到测试集该转移如下进行。在每个时间步,我们选择训练集中的位置,这导致与代理在当前时间步看到的视图最然后,我们计算将机器人传送到训练环境中与该位置相同的相对偏移的最佳动作,并在当前时间步执行该动作在每个时间步重复该过程这种转移导致非常差的结果。到目标的平均距离和中位距离分别为22步和25步,突出了训练和测试环境之间的没有图像,只有LSTM的目标位置:这是指我们忽略图像并简单地使用相对目标位置(在机器人的当前坐标系中在输入到LSTM之前,相对目标位置通过具有ReLU非线性的全连接层嵌入到K正如预期的那样,它做得相当糟糕。反应式策略,单帧:我们接下来与使用第一人称世界观的反应式代理进行比较如上所述,我们使用ResNet-50来提取特征。这些特征通过几个完全连接的层,并与用于预测最终动作的相对目标位置的表示相结合。我们试验了加法和乘法组合策略,两者的表现相似。请注意,这个反应性基线能够在训练环境中表现良好这表明反应性智能体能够有效地记住它被训练的环境,但不能概括到新的环境,这并不奇怪,因为它没有任何形式的记忆来允许它映射或计划。我们还尝试在这个模型的全连接层中使用Drop Out,但发现这会损害训练集和测试集的性能。反应策略,多帧:我们还考虑反应策略除了当前视图之外还接收3个先前帧考虑到机器人的步长相当大,我们考虑后期融合架构并融合从ResNet-50提取的信息。请注意,此架构与[64]中使用的架构类似。主要区别是:目标是根据相对偏离来指定的目标平均距离第75%距离球门成功率(%)目标平均距离第75%距离球门成功率(%)2623集合(而不是图像),训练使用DAGGER(利用更密集的监督)而不是A3C,测试在新的环境中完成。这些调整是必要的,使我们的任务进行解释性的比较使用额外的帧作为输入可以大大提高性能,特别是在使用深度图像时。基于LSTM的代理:最后,我们还将其与使用基于LSTM的内存的代理进行比较。我们在乘法组合图像和相对目标位置表示上引入LSTM单元。这样的架构还使LSTM能够访问智能体的自我运动(通过相对目标位置如何在连续步骤之间变化因此,该模型可以访问我们的方法使用的所有信息。我们还试验了其他基于LSTM的模型(没有自我运动的模型,更明确地输入自我运动的模型等),但这种基于LSTM的模型能够持续地优于反应性基线。我们将这些基线与我们提出的方法进行比较。CMP能够在RGB和深度图像情况下的所有指标上CMP实现了更低的第75个目标距离(14和1,而LSTM为21和5 ) , 并将 成 功 率从 53.0% 和 71.8% 提 高 到62.5% 和78.3%。我们还报告了针对深度图像案例的3种最具竞争力的方法(4帧反应,LSTM CMP)的网络的不同随机初始化的五次重新训练的性能差异。图4(右)显示了性能,实线显示了中间度量值,周围的阴影区域表示五次重新训练的最小和最大度量值所有型号的性能变化都相当小,CMP导致了显着的改进。消融术。我们还研究了我们的亲烧蚀版本,置位法我们总结了关键的外卖,一个学习映射器比分析映射器具有更好的导航性能,规划是至关重要的(特别是当使用RGB图像作为输入时),单尺度规划比多尺度规划工作得稍好,但规划成本增加。更多详情见附录[1]。LSTM和CMP之间的比较 我们还进行了额外的实验,以进一步比较LSTM基线与我们的模型在最具竞争力的场景中的性能我们在此总结了关键结论,并在附录[1]中提供了更多细节。我们研究了当目标距离更远(64个时间步长)时,per-pitch如何变化在这个测试场景中,我们看到LSTM和CMP我们还比较了CMP和LSTM在不同难度问题上的性能,并观察到CMP在所有硬度值上通常更好,但对于RGB图像,特别是对于高硬度的情况更好。我们还评估了这些模型在单个场景上训练时以及在跨数据集传输时的泛化能力我们发现,与LSTM相比,CMP的性能下降较小。更多详情见附录[1]。图5显示并讨论了CMP的一些代表性成功和失败案例,视频示例可在项目网站上获得语义任务。在这里,我们提出的实验中指定的目标语义。我们考虑三项任务:“去椅子”、“去门”和“去桌子”。代理接收一个one-hot向量,指示它必须去的对象类别,如果它可以到达所指示的对象类别的任何实例,则认为成功。我们使用来自S3DIS数据集[5]的对象注释来标记节点在图Gx,θ中有对象范畴。请注意,这样做只是为了生成对最佳操作的监督,进行培训,并在测试时评估代理人的表现。这种监督是不使用的代理以任何方式,它必须学习外观模型的椅子联合政策,以达到他们。我们初始化代理,使其在指定类别的至少一个实例的32个时间步长内,并训练它向最近的实例移动。表1(底部)报告了到最近类别实例的平均和第75% ile距离以及在跨来自所有三个类别的任务执行固定数目的步骤(39个步骤)之后的成功率我们将我们的方法与几何导航任务1中表现最好的反应式和基于LSTM的基线模型进行了比较。这是一项具有挑战性的任务,特别是因为智能体可能从所需对象不可见的位置开始,并且它必须学会探索环境以找到所需对象。CMP能够实现比基线更高的成功率。图5显示了CMP的此任务的一些示例轨迹。每个类别的性能和更多分析见附录[1]。目前,Per的性能受到网络识别对象的能力有限的阻碍,而结合更强的外观模型可能会提高性能。可视化。我们还分析了我们的网络学习的映射表示和值映射。我们发现映射器表示捕获自由空间,并且值映射指示代理的行为。更多详情见附录[1]。致谢:我们感谢Shubham Tulsiani、David Fouh e y和ChristianHanéne对手稿进行的有益讨论和反馈,以及Marek Fiser和Ser- gio Guadarrama对Google基础设施和Tensorflow的帮助。1这个LSTM是贫乏的,因为它不再接收代理的egomo作为输入(因为目标不能被指定为相对于机器人的我们用一个LSTM模型做了实验,该模型接收自我运动作为输入,但2624引用[1] 阑尾可在项目网站上找到。四五六八[2] 马特波特https://matterport.com/网站。4[3] M. Abadi、A.Agarwal,P.Barham,E.Brevdo,Z.陈先生,C. 西特罗湾S. Corrado,A.Davis,J.Dean,M.Devin,S.盖 - 马 瓦 特 岛 。 Goodfellow , A.Harp , G.Irving ,M.Isard,Y.贾,R. 约瑟夫·奥维茨湖Kaiser,M.Kudlur,J.L evenber g,D.妈妈,R. Monga、S.穆尔,D.默里角奥拉山舒斯特J. Shlens , B. 施 泰 纳 岛 Sutskever , K. Talwar , P.Tucker,V. Vanhouc k e,V. Vasud ev an,F. Viegas,O. Vi nyals,P. 等等,M。Wattenberg,M.Wicke,Y.Yu和X.郑张量-流量:异构系统上的大规模机器学习,2015年。软件可从tensorflow.org获得。6[4] D. 亚伯 A. 阿加瓦尔 F. 迪亚兹 A. 克里希那穆提,R. E.夏皮尔探索性梯度提升用于复杂域中的再学习。arXiv预印本arXiv:1603.04119,2016。3[5] I. 阿尔梅尼岛 Sener,A. R. Zamir,H. 江岛,澳-地布里拉基斯M. Fischer和S. Savarese大规模室内空间的三维语义解析。在CVPR,2016年。四、六、八[6] A.Aydemi r, A. Pronobis , M.Gobelbeck e r和 P.Jensfelt 使用不确定语义的未知环境中主动视觉目标搜索。IEEE Transactions on Robotics,2013。2[7] R. 行李员马尔可夫决策过程技术报告DTIC文件,1957年。5[8] S. Bhatti , A. 德 迈 松 岛 Miksik , N. Nardelli , N. Sid-dharth,和P. H.乇玩大满贯增强深度强化学习。arXiv预印本arXiv:1612.00380,2016年。3[9] C.布伦德尔湾Uria,A. Pritzel,Y. Li,长穗条锈菌A.Ruderman,J. Z. Leibo,J. Rae,D. Wierstra和D.哈萨比斯无模型情节控制。 arXiv预印本arXiv:1606.04460,2016年。3[10] S. Brahmbhatt和J.海斯Deepnav:学习在大城市中导航。arXiv预印本arXiv:1701.09135,2017。3[11] J·坎尼机器人运动规划的复杂性。麻省理工学院出版社,1988年。2[12] C. Chen,中国山核桃A. Seff,A. Kornhauser和J.萧深度驾驶:自动驾驶中的直接感知学习启示。在ICCV,2015年。3[13] S. Daftry,J. A. Bagnell和M.赫伯特单目反应式微型飞行器控制的学习转移策略。InISER,2016. 3[14] A. J. Davison和D. W.默里使用主动视觉的移动机器人定位。《欧洲儿童保育公约》,1998年。1[15] J. Deng,W.东河,巴西-地索赫尔湖J. Li,K. Li和L.飞飞。ImageNet:一个大规模的分层图像数据库。CVPR,2009。6[16] Y. Duan,J. Schulman,X.陈炳良巴特利特岛Sutskever和P.阿比尔RL2:通过慢速强化学习实现快速强化学习。arXiv预印本arXiv:1611.02779,2016。3[17] A.精灵 基于声纳的真实世界地图和导航。RA,1987年。2[18] A. 精灵使用占用网格进行移动机器人感知和导航。计算机,1989年。22625[19] F.弗劳恩多夫湖Heng、黑腹叶蝉D. Honegger,G. H.利湖,澳-地梅尔P. Tanskanen和M.波勒菲斯使用四旋翼微型飞行器的基于视觉的自主测绘和探索。InIROS,2012. 2[20] J. Fuentes-Pacheco,J. Ruiz-Ascencio和J. M. 去吧 ,曼查。视觉同步定位和标测:调查。人工智能评论,2015年。2[21] A. Giusti ,J. Guzzi,D. C. Cires Escherichan ,F.- L.He,J. P. Rodr 'ıguez,F.丰塔纳湾费斯勒角Forster,J.Schmidhu-ber,G.Di Caro,et al.移动机器人视觉感知森林路径的机器学习方法RAL,2016. 3[22] S. Gu,T.利利克拉普岛Sutskever和S.莱文基于模型加速的持续深度q学习。InICML,2016. 2[23] S. 古普塔山口 Arbe la'ez和J. 马利克基于RGB
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 多功能HTML网站模板:手机电脑适配与前端源码
- echarts实战:构建多组与堆叠条形图可视化模板
- openEuler 22.03 LTS专用openssh rpm包安装指南
- H992响应式前端网页模板源码包
- Golang标准库深度解析与实践方案
- C语言版本gRPC框架支持多语言开发教程
- H397响应式前端网站模板源码下载
- 资产配置方案:优化资源与风险管理的关键计划
- PHP宾馆管理系统(毕设)完整项目源码下载
- 中小企业电子发票应用与管理解决方案
- 多设备自适应网页源码模板下载
- 移动端H5模板源码,自适应响应式网页设计
- 探索轻量级可定制软件框架及其Http服务器特性
- Python网站爬虫代码资源压缩包
- iOS App唯一标识符获取方案的策略与实施
- 百度地图SDK2.7开发的找厕所应用源代码分享
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功