基于点云感知的导航模型研究与分析

126 浏览量更新于2023-10-19 收藏 1.1MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

6659基于点云感知Erik Wijmans1 <$，Samyak Datta1 <$，Oleksandr Maksymets2 <$，Abhishek Das1，Georgia Gkioxari2，Stefan Lee1，Irfan Essa1，DeviParikh1，2，Dhruv Batra1，21 Georgia Institute of Technology2 FacebookAI Research1{etw，samyak，abhshkdz，steflee，irfan，paradise，dbatra}@ gatech.edu2{maksymets，gkioxari}@fb.com摘要为了帮助弥合互联网视觉风格问题与具体感知的视觉目标之间的差距，我们在照片逼真的环境（Matterport 3D）中实例化了一个大规模的导航任务--我们深入研究了利用3D点云、RGB图像或其组合的导航策略。我们对这些模型的分析揭示了几个关键发现。我们发现，由于[1]提出的评估设置的特定选择，两个看似幼稚的导航基线（仅向前和随机）是强大的导航器，并且具有挑战性我们发现了一种新的损失加权方案，我们称之为拐点加权是重要的训练时，经常性的导航模型与被克隆或克隆，并能够执行基线与这种技术。我们发现，点云提供了比RGB图像更丰富的信号来学习障碍物规避，激励使用（和继续研究）3D深度学习模型来实现导航。1. 介绍想象一下，问一个家用机器人‘嘿，你能去看看我的笔记本电脑在我的桌子上吗？’如果是的话，把它拿给我。”为了取得成功，这样的智能体需要一系列人工智能（AI）技能-最近在这些领域的大部分成功都是由于大型神经网络在从网络收集的大量人工注释数据集上进行了训练然而，这种“互联网视觉”的静态范式由于其性质，这些†表示同等贡献图1：我们将QuestionedQA [1]扩展到photorealstic环境，我们的代理在感知和语义上新颖的环境中产生，并负责回答有关该环境的问题。我们检查代理的代理人参与主动感知然后需要的是丰富的注释，照片般逼真的环境，在那里代理可以了解他们的行为对未来感知的后果，同时执行高层次的目标。为此，最近的一些工作提出了目标驱动的，基于感知的任务，位于模拟环境中开发这样的代理[1虽然这些任务是在语义上真实的环境中设置的（即，具有逼真的布局和对象出现），大多数都基于合成环境（基于SUNC [11]或Unity 3D模型[12]），这些环境在感知上与现实世界中体现的代理可能体验到的完全不同。首先，这些环境在纹理、照明和对象几何形状的保真度方面以及在ob的丰富的类内变化方面都缺乏视觉真实感66602001年。其次，这些问题通常通过2D感知（RGB帧）来解决，尽管在实际的机器人平台上广泛使用深度传感相机（RGB-D）[13捐款. 我们通过以下方式解决这些断开点：在使用最短路径专家执行行为克隆时，这是一种有效的技术。我们相信，这种技术将是广泛有用的任何时候，一个经常性的模型是训练长序列与不平衡的符号连续与符号转移概率，即。当P（Xt=x|实例化大规模的基于语言的导航任务Xt−1=x）>> P（XtX|Xt−1= x）。通过开发具有点云感知功能的端到端可训练模型（从原始3D点云到目标驱动的导航策略），我们可以在逼真的环境中实现这一点具体而言，我们将最近提出的Em- bodied QuestionQuestioning（Em- bodied QA）[1]任务（最初在合成SUNC场景中提出[11]）推广到来自Matterport 3D（MP3D）的照片级逼真3D重建[16]。在这个任务中，一个智能体在一个新的环境中的随机位置产生（例如，一栋房子），并被要求回答一个问题（“车库里的车是什么颜色的？' ）.为了成功，智能体需要仅从以自我为中心的视觉（没有环境地图）导航，定位有问题的实体（我们介绍了MP 3D-EQA数据集，由83个环境中的1136个问题和答案组成。与[1]类似，我们的问题是从MP 3D中提供的注释（对象，房间及其关系）上的功能程序生成的;但是，MP 3D缺少对象的颜色注释，我们从 Amazon Mechanical Turk 收集这些注释以生成“What color. . .？' 问题. MP3D环境为我们的智能体提供了更具挑战性的环境，因为视觉变化增加了。我们提出了一个大规模的设计决策的详尽评估，训练共16个导航模型（2个架构，2种语言变体，4种感知变体），3个视觉问答模型，和2个感知模型-通过这一全面的分析，我们展示了这些测试模式的互补优势，并突出了在测试QA实验环境中令人惊讶的强大基线。我们的分析表明，看似幼稚的基线，仅向前和随机，是[1]中提出的错误评估设置中的强大导航器，并且具有挑战性，为在这个领域工作的其他人提供了洞察力，模型可以在不学习任何有意义的行为的情况下表现得非常好。我们还发现，点云提供了一个更丰富的信号比RGB图像学习避障，激励继续研究利用深度信息在具体的导航任务。我们发现了一种新的加权方案，我们称之为拐点加权-[1]要歪曲托尔斯泰的话，每盏丑灯都有它自己的丑。据我们所知，这是第一个探索端到端可训练的3D感知，以实现逼真环境中的目标驱动导航。通过使用点云和逼真的室内场景，我们的工作为体现视觉和目标驱动导航之间更紧密的联系奠定了基础，为基准3D感知模型提供了一个测试平台，并希望使在模拟上训练的体现代理更接近配备2.5D RGB-D相机的真实机器人。2. 相关工作代理商和环境。端到端的学习方法-直接从原始图片预测动作-ELS [17]-最近表现强劲。Gupta等人[2]学会通过地图和规划导航Sadeghi等人[18]使用模拟数据教代理飞行甘地等人[19]收集无人机坠毁的数据集，并训练自我监督的代理人避开障碍物。已经提出了一些新的具有挑战性的任务，包括基于导航的导航[6，7]，目标驱动的导航[2，4]，体现/交互式问题，[1][9][10][11][12][13][ 14][15]具身感知的一个普遍问题是缺乏标准化的、大规模的、多样化的、真实世界的基准已经引入了许多合成3D环境，例如DeepMind Lab [21]和VizDoom [22]。最近，出现了更多视觉刺激和复杂的数据集，其包含3D室内场景的可动作复制品[3，23这些努力利用合成场景[25，26]，或扫描真实的室内房屋[16，27]，并配备了各种输入方式，即。RGB、语义注释、深度等。与我们的工作最接近的是Daset al的QuestionedQA工作。[1]，谁训练代理预测行动从自我为中心的RGB框架。虽然RGB数据集对于“互联网视觉”来说是可以理解的流行，但值得退一步问一问-为什么在3D环境中导航的实体代理必须被限制使用单个RGB相机进行感知？我们的经验表明，点云representations是更有效的导航在这项任务中。此外，与使用合成环境的[1，9]相反，我们将任务扩展到来源于[16]的真实环境。3D表示和架构。深度学习对3D计算机视觉的影响比2D计算机视觉要慢，部分原因是表示3D数据的复杂性增加。初步的成功是看到与体积6661(a) RGB全景(c)点云(b) 网格重建(d)RGB-D渲染图2d示出了为正在观看图2a所示场景的智能体渲染的点云。2a.模拟器为了使代理能够在MatterPort3D环境中导航，我们开发了一个基于MINOS的模拟器[23]。除此之外，MINOS还提供了占用检查、网格的RGB帧渲染和最短路径计算（尽管我们重新实现了这一点，以获得更高的精度和速度）。但是，它不提供对底层点云的访问。为了渲染2.5D RGB-D帧，我们首先从数据集的环境中提供的所有点云构建全局点云然后，代理图2：网格构建错误和点云能够纠正的错误的图示。请注意平面的扭曲，颜色的极端差异，以及反射的纹理伪影。CNN这些网络首先用体积表示离散化3D空间，然后应用2D CNN中常见的3D操作变体-卷积最近关于3D深度学习的工作提出了直接在点云上操作的架构。点云是深度学习的一个具有挑战性的输入，因为它们自然是一组没有规范排序的点。为了克服排序问题，一些人利用对称函数PointNet（++）[31，32]和A-SCN [33]。其他人使用了聪明的内部表示，如SplatNet [34]，Kd-Net [35]和O-CNN [36]。3. 环境问题在这项工作中，我们从Matterport3D数据集[16]中在现实环境中实例化了问答（EQA）[13.1. 环境Matterport 3D数据集由90个家庭环境组成，这些家庭环境是通过Matterport Pro相机拍摄的一系列全景RGB-D图像捕获的（参见图1中的全景图示例）。2a）。将得到的点云对齐并用于重建3D网格（如图10所示）2b）然后用语义标签注释。Matter-port 3D数据集使用语义段进行了密集注释，40个对象类别的站点，用于150，000个实例。客房类型注释超过2050个独立的房间。这些重建提供了高度的感知现实主义，但并不完美，但有时会出现变色和不寻常的几何形状，如表面上的洞。在这项工作中，我们研究在这些环境中的RGB和RGB-D感知。对于RGB，我们从网格重建中获取渲染，对于点云，我们直接在对齐的点云上操作。图2c和和纵横比），并且网格重构被用于确定哪些点在其视图内。关于这方面的全部细节，见补充材料。3.2. 问题在[1]之后，我们基于Matterport3D注释以编程方式生成模板化问题，生成以下三种类型的问题：location：位于哪个房间？color：OBJ>是什么颜色<？房间颜色：房间里的<是什么颜色？虽然EQA [1]包括第四个问题类型的介词，但我们发现MP3D中的这些问题相对较少，其答案存在很强的偏见，因此我们不包括它们。虽然支持上述三种问题类型的房间和对象注释和位置在MP3D中可用，但对象颜色的人类名称不可用。为了证明这一点，我们从 Amazon Mechanical Turk（AMT）上的工人们被要求为每个物体选择24种颜色中的一种。调色板是从肯尼斯·凯利的22种最大对比度的颜色开始创建的总体而言，报告最多的颜色是灰色。对于每个对象，我们收集5个注释并进行多数投票，根据对象颜色先验打破联系我们在补充资料中包括AMT接口的详细信息。遵循[1]中的协议，我们过滤出在跨环境的答案分布中具有低熵的问题，即：峰值回答先验“淋浴在哪个房间”的答案' 几乎都是- 确保数据集中的问题需要智能体导航和感知，以准确回答。我们移除不明确的房间或物体（例如： “墙”对象）。下面是我们生成的问题中出现的对象和房间：对象：架子、图片、水槽、衣服、电器、门、植物、家具、壁炉、五斗柜、座椅、沙发、桌子、窗帘、淋浴、毛巾、靠垫、百叶窗、柜台、凳子、床、椅子、浴缸、马桶、橱柜6662KKm=11Ni+11Ni1Ni家园地板总Qns。唯一Qns。火车57102767174Val101613088测试1628239112表1：Matterport3D房间：家庭室，衣柜，水疗中心，餐厅，休息室，健身房，客厅，办公室，洗衣房，卧室，门厅，浴室，厨房，车库，娱乐室，会议室，走廊，电视室总共，我们在83个家庭环境中生成了1100个问题（7个环境在过滤后没有问题）。请注意，与[ 1 ]中的每个场景12个问题-答案对相比，每个环境有13个问题-答案对。颜色房间问题占大多数问题。这些问题需要搜索环境以在指定房间中找到指定对象。然而[1]要求对象和房间在环境中是唯一的，我们只要求（对象，房间）对是唯一的，从而给导航器关于对象的位置的信息明显更少我们使用与MINOS中相同的train/val/test环境分割[23]。请注意，在[1]中，测试环境仅在对象的布局上与train不同;这些物体本身在训练中已经被看到。在MP3D-EQA中，代理在全新的房屋上进行测试，因此可能会遇到全新的对象-选项卡. 图1显示了房屋、楼层和问题在这些分割中的分布我们将代理开始位置限制为与问题目标位于同一楼层，并将剧集限制为单层。4. 感知被感知的代理问答代理必须理解给定的问题，感知和导航他们的周围环境收集信息，并正确回答，以获得成功。考虑一个基于过去观察和动作的轨迹预测在每个时间步t的动作a t来进行导航的QA代理，σt−1=（s1，a1，s2，a2，. ......、 st-1，at-1）、当前状态s t和问题Q。对于这样的模型，有许多重要的设计决策-动作选择策略、问题表示、轨迹编码和观察表示。在这项工作中，我们专注于观察表示-即。感知-在本节中，我们将描述我们的方法并回顾现有模型的细节。4.1. 学习点云表示考虑一个点云P2P，它是三维空间中具有相关颜色的无序点集，即P=一种观察表示。为此，我们利用广泛使用的3D架构PointNet++[32]。PointNet++。在高级别上，PointNet++在空间聚类和特征汇总之间交替-这种方法类似于标准卷积神经网络中的卷积层和池化层。更具体地，令{pi，...，pi}是N i 的集合PointNet++体系结构第i层的点，{hi，.，h}是它们的相关联的特征表示（例如输入级别的RGB值为了构造第i+1层，Ni+1个质心{pi+1，.，pi+1}经由迭代最远点采样（FPS）从级别i采样-确保前一层的均匀表示。这些质心将构成水平i+1中的点并表示它们的局部区域。对于每个质心pi+1，找到最大半径内的K个最接近的点，并将由一系列逐点操作（基本上是1乘1卷积）和终端最大池操作组成的对称可学习神经架构[31]应用于这组关联点以产生汇总表示hi+1。这些聚类和汇总步骤（在[ 32 ]中称为集合抽象）可以任意重复多次。在这项工作中，我们使用一个3级架构与N 1= 1045，N 2=256，和N 3= 64。我们用一组1乘1卷积和一个第三级点特征上的最大池来计算最终特征，并将该网络表示为f（·）。给定一个输入点云Pt从代理的观点在时间t，我们产生一个表示s t = f（P t），其中s t 2 R 1024。然而，点云有一个有趣的属性-当智能体导航环境时，它所感知的点的数量是不同的。这可能是由于传感器的限制（例如，离物体太近或太远）或观察表面的特性（例如，镜面反射）。虽然编码器f对于输入点的数量是不变的，但是从很少的支持点绘制的表示不太可能是场景的良好表示。对于导航或问答代理，这意味着没有办法区分自信和不自信或错误的观察。为了解决这个问题，我们将跨越任何给定点云中可能数量的点的范围-现在，给定一个点云，|Pt|点，我们重新得到其相应的稀疏嵌入ct，并产生- 最终编码[st，ct]2R1056，其由代理用于导航和问题回答。视觉预训练任务。为了训练编码器架构以提取语义和空间上有意义的表示，{（xm，ym，zm，Rm，Gm，Bm）}M.为了使神经代理视图的情况下，我们介绍了三个预训练任务要想用点云智能体感知世界，就要学习一个函数f：P！将点云映射到基于Matterport3D中提供的注释具体-具体而言，这些任务是：6663点云我i=1我i=1我我我产出目标产出目标语义自动编码深度语义自动编码深度语义语义色色结构构造PC编码器图3：视觉编码器使用三个相关任务进行训练，以将其场景表示与语义（分割），颜色（自动编码）和结构（深度）有关的信息融合在一起。所有解码器头共享相同的编码器。RGB的上采样（Up #）是用双线性插值完成的。点云的上采样（FP #）通过特征传播层实现[32]。在预训练之后，解码器被丢弃，并且编码器被视为静态特征提取器。– 语义分割，其中模型根据求和表示si= f（P）预测每个点的对象注释 ys 。我们训练了一个PointNet++特征传播网络gs（·），以最小化ys和ys之间的交叉项y=gs（f（P））[3 2]。这个恩-问题回答时，对于具体化的代理来说，理解它正被赋予回答的任务的查询是重要的。我们使用128维隐藏状态的两层LSTM对问题进行编码.导航和问答的问题编码是分开学习的。鼓励编码器f（·）包括关于哪些对象在帧中的信息– 颜色自动编码反映了语义分割任务。然而，网络gc （ · ）现在被训练为最小化 yc 和 yfc=gc （ f（P））之间的平滑L1损失。此任务鼓励编码器f（·）捕获关于场景中的颜色的整体信息。– 结构自动编码，其中点坐标必须从汇总表示中恢复，即。{（xi，yi，zi，Ri，Gi，Bi）}N！{（xi，yi，zi）}N.我们实现了这个解码器作为一个多层感知器，回归到N×3空间坐标。在[38]中，我们使用推土机距离作为损失函数。我们在图中展示了这些任务3 .第三章。这些任务鼓励模型特征表示颜色、对象和空间信息，包括自由空间和深度，这些对于导航至关重要。我们使用我们的模拟器从Mat-terport 3D收集100，000帧，并训练点云引擎。代码为这些任务。我们在训练后丢弃解码器网络，并使用编码器f作为固定特征提取器。RGB图像表示。我们利用ResNet50 [39]使用类似的一组任务（语义分割，自动编码和深度预测）进行训练，以学习以自我为中心的224×224RGB图像的表示，如[1]所示。我们发现ResNet50能够更好地处理增加的Matterport3D环境的视觉复杂性比Das等人使用的浅CNN模型。我们在补充中提供了关于感知模型和解码器架构的进一步细节。4.2. 导航和提问现在，我们提供了我们在这项工作中使用的导航和问题回答模型的概述问题编码。为了成功地航行，问题搜索模型。我们用三类问答模型进行了实验：– 我们研究了[1]中提出的仅限问题的基线-一个小型分类网络，仅使用问题编码来我们还研究了[40]中最近提出的仅限问题的基线-一种– 注意这是[1]中性能最好的VQA模型。它根据智能体之前观察到的最后五帧的特征计算问题引导的注意力。停止，然后是关注特征和要回答的问题编码之间的元素乘积;以及– 空间注意力利用[40]中提出的词袋编码器来计算最后一帧的空间注意力。我们在特征图上使用缩放的点积注意力[41]，执行元素乘积，在参与特征和问题特征之间，并预测答案。此模型仅使用RGB输入。导航模型。我们考虑两个基线导航器：– Forward-only（Fwd），总是预测未来。– 随机的，在每个时间步均匀地选择向前、左转和右转之一。我们考虑两种导航架构：– Reactive（R）是一个简单的前馈网络，它将五个最近的视觉观察的嵌入串联起来作为输入来预测动作。因此，这是一个无记忆的导航仪。– Memory（M）是一个两层GRU-RNN，它将当前观察和先前动作的编码作为输入来预测当前动作。对于每个导航架构，我们检查我们的4个不同的感知变化的组合，无（即。一RGB跳过连接RGB编码器跳过连接集合抽象2剩余区组2剩余区块1转换1Res Blcok 3第4号决议上涨1上涨1上涨1上升2上升2上升2上涨3上涨3上涨3上涨4上涨4上涨4集合抽象1设置Abs。3SA 4FP 1FP 1FP 2FC 1FP 2FC 2FP 3FP 3FP 4FC 3FP 46664盲模型，如Mesquason等人所建议的。[42]）、PC、RGB和PC+RGB，有两种不同的语言变体，无和问题。对于利用问题的反应模型，我们通过与视觉嵌入的连接将问题嵌入。对于记忆模型，问题嵌入是GRU的额外输入由于我们的智能体在训练过程中看到的高度相关的观察结果，我们在导航模型中使用了组归一化层[43]。我们所有导航模型的操作空间都是向前、向左转、向右转和停止。4.3. 专家轨迹为了训练我们的模型，我们首先通过基于从代理产卵位置到感兴趣对象的最佳视图的最短路径生成训练集来创建代理轨迹的静态数据集。例如，如果一个问题问“客厅里的沙发是什么颜色的？”，我们生成一个沿着地面实况轨迹步进并重复此过程。这种方法的一个挑战是，相对不智能的策略可以在没有真正学习任何有用的东西的情况下实现有希望的验证损失不知不觉中，这些模型实现了非常高的动作预测验证精度，但错过了动作之间的每一个过渡！拐点权重。为了解决这个问题，并鼓励年龄代理专注于重要的决定沿轨迹，我们引入了一种新的加权方案，我们称之为反射加权。从概念上讲，如果地面实况动作与前一个动作不同，也就是说，如果时间步是轨迹中的反射点，则我们对时间步的预测权重更大更正式地说，我们定义一个每时间步长的权重（N代理随机地在与目标对象-沙发-相同楼层的环境中的最佳视图wt=nIat−16=at1其他（一）通过穷尽目标对象的合理半径内的所有可能的观看位置来确定SOFA视图的质量由预定边界框和目标的分割掩模在标准化的图像坐标中，其中N/nI是拐点的频率倒数（在我们的数据集中约为5.7）。然后，我们可以将预测序列Y和地面实况轨迹A之间的拐点加权损失写为：XT盒子0.6和0.5的宽度我们使用这个度量，而不是简单地最大化片段中可见像素的数量`IW（Y，A）=PTt=1wtt=1wt`（yt，at）（2）图面遮罩，以保持对象周围环境的上下文。提供足够的数据来克服复杂的在Matterport 3D环境中，我们总共生成了11，796条这样的路径（对应于每个问题-环境对大约115集，每一集都有不同的代理的生成位置）。为了提高大型Matterport3D环境中的计算效率，我们使用LazyTheta* [44]计算Perception. 我们使用第4.1节中描述的冻结的预训练感知模型。对于PC+RGB模型，我们简单地连接两个视觉特征。问题解答。问题回答模型被训练为使用交叉熵损失从53个答案的列表中预测地面真相答案。具有视觉的模型在训练期间使用地面实况导航器。4.4. 有效地模拟长轨迹所有的导航模型都是用行为克隆训练的，在那里它们被用来模仿地面实况，最短路径代理轨迹。也就是说，智能体通过地面实况轨迹观察相应的帧（尽管反应模型仅保留最后五个），直到给定的时间步，然后进行动作预测。无论决定如何，代理人将其中`（·，·）是我们设置中的任务损失-交叉熵。我们定义第一个动作t=1为拐点。在实践中，我们发现拐点加权导致循环模型的性能显着提高。拐点加权可以被看作是类平衡损失方法的推广，这些方法通常用于严重不平衡类分布下的监督学习（例如，在语义分割[45]中），用于“类”的特定定义5. 实验和分析我们严格遵循Das等人的实验方案。[1]的文件。这里的所有结果都是在新的测试环境中报告的。代理人的性能进行评估，10，30，或50个基本的行动远离问题的目标，相应的距离分别为0.35，1.89，和3.54米。一个微妙但重要的点是，为了实现这些距离，首先在环境中随机产生代理，然后代理沿着最短路径走到目标，直到它与目标的距离达到所需的距离（10，30或50步）。我们对设计决策进行了详尽的评估，总共训练了16个导航模型（2个架构，2个语言变体和4个感知变体），3个视觉问答模型和2个感知模型。166651 .一、51 .一、0dT（米，↓更好）0的情况。1250的情况。1000的情况。0750的情况。050IoUT（↑更好）0的情况。400的情况。350的情况。30QA准确度（↑更好）前1名（%）空间+RGB+Q46.2关注+RGB+Q40.0关注+PC+RGB+Q38.4关注+PC+Q36.1lstm-question-only32.8[40]第 45话图4：有记忆的模型显著优于无记忆的模型。令人惊讶的是，基线，随机和只向前，以及一个有记忆的无视觉导航器表现得非常好。二、0[40]第383话为了比较导航器之间的QA性能，我们使用性能最好的模块报告所有QA结果– spatial+RGB+Q导航我们使用以下符号来指定我们的1 .一、51 .一、0dT（米，↓更好）0的情况。150的情况。100的情况。05IoUT（↑更好）0的情况。400的情况。350的情况。30QA准确度（↑更好）模型：对于基本架构，R表示反应模型，M表示存储器模型。然后，基础架构会增加其输入类型，+PC、+RGB和+Q。因此，使用点云（但毫无疑问）的内存模型表示为M+PC。除非另有说明（通过前缀NoIW），否则模型将使用拐点权重进行训练我们将两个基线导航器（仅向前和随机）分别表示为Fwd和Random。图5：使用变形加权交叉熵损失训练的模型显著优于未加权交叉熵对应模型和基线。5.1. 度量问题解答。为了测量问题回答的性能，我们报告的前1名的准确性，即。智能体的预测答案是否导航对于导航，我们报告到目标对象的距离（从代理产生的位置（d0））以供参考，在导航完成时测量到目标对象的距离dT（越低越好），以及导致与障碍物碰撞的动作百分比%碰撞（越低越好）。所有的距离都是测地线，即。沿最短路径测量。我们提出了一个新的度量，IoUT（越高越好），以评估代理在导航结束我们计算地面实况目标分割与用于在数据集生成期间选择视图的相同居中边界框之间的交集-联合（IoU）得分（参见第4.3节）。为了补偿对象大小，我们除以目标对象的最佳我们将IoUT定义为最后N个IoU分数中的最大值。当VQA模型接收到最后5帧时，我们将N设置为5。5.2. 结果和分析问题解答。使用地面实况导航器的验证集上的不同应答模块的前1准确度如下所示。由于大量的结果，我们在这里提出关键的发现和分析（与T-30），并为勇敢的读者提供完整的表格（与300+数字！）在补充。我们提出以下意见：只向前是一个很强的基线。在[1]中提出的评估程序的副作用之一是，代理人通常是面向正确的方向时，它是手控制。这意味着要取得进展，正确的做法是向前迈进。因此，一个只向前的导航器做得很好，见图。4.第一章由于其“功能性停止”，仅向前也倾向于不会过冲太多我们的无视觉反应模型（R/Fwd和R+Q/Fwd）只学习预测最频繁的动作。图4还示出随机基线是具有欺骗性的强基线。由于缺乏向后的动作，左和右在期望中相互抵消，导致随机本质上变成只向前。拐点加权改善导航。我们发现，对于训练导航模型，最短路径专家的行为克隆是至关重要的;参见图5。虽然我们看到大多数模型的拐点加权有一些改进，但内存模型获得的好处– 在dT和IoUT上都有显著改善。有趣的是，这些收益并没有转化为QA准确性的提高。虽然我们只是利用这种损失的行为克隆，我们怀疑从拐点加权看到的改进将转移到通过重新增强学习进行微调的模型，因为它们开始具有更好的性能。记忆会有帮助图4表明，有记忆的模型比被动的对应部随机右/前MR+PCM+PC右/前NoIW-R+PC+QR+PC+QNoIW-M+PC+QM+PC+Q6666分更好地导航。意外-66671 .一、51 .一、00的情况。2500的情况。1250的情况。400的情况。35dT（米，↓更好）%碰撞（↓更好）IoUT（↑更好）0的情况。30QA准确度（↑更好）右/前R+RGBR+PCR+PC+RGBMM+RGBM+PCM+PC+RGB图6：视觉通常会损害基于距离的导航指标。然而，依赖于导航器在特定方向上查看的能力（IoUT和QA）的度量通常会改善，并且模型与环境的冲突较少。1 .一、251 .一、000的情况。75dT（米，↓更好）0的情况。20的情况。1IoUT（↑更好）0的情况。400的情况。350的情况。30QA准确度（↑更好）M+PC和M+RGB和M+PC+RGB有和没有问题（Q）。有趣的是，我们在为模型提供问题时没有看到大的改进。考虑到色彩空间在我们的数据集中占主导地位，似乎有理由期望告诉导航模型去哪个房间会有很大的好处。我们怀疑，由于行为克隆的限制，我们的模型无法正确利用这些信息。用克隆训练的模型永远不会看到错误或探索，因此图7：内存导航模型与而且毫无疑问有趣的是，添加问题实际上，具有记忆的无视觉导航器在基于距离的导航度量方面表现得非常好。与无视觉反应导航器（仅向前）一样，无视觉导航器只能学习数据集中最短路径的先验知识，但内存允许模型进行计数，因此它能够停止和转向。视觉有助于注视方向度量。图6显示了将视觉添加到反应和记忆模型的效果。视觉的增加导致了IoUT和QA的改进，然而，IoUT的改进并不直接转化为QA的改进。这可能是由于幼稚的VQA模型。具有视觉的模型也倾向于较少地与环境发生碰撞，如通过碰撞百分比通常较低可以看出的。视觉伤害距离度量。令人惊讶的是，增加视觉会损害基于距离的导航指标（DT）。对于反应式模型，添加视觉会导致模型碰撞的频率明显降低，从而导致只向前使用的“功能停止”的丢失不断碰撞，直到达到步长极限对于记忆模型来说，这个故事并不那么清楚;然而，有视觉的记忆模型比无视觉的记忆模型停止的频率更低，因此具有更高的平均片段长度，这导致它们更经常过冲。我们怀疑这是因为他们学习了一个比无视觉记忆模型使用的简单计数方法更复杂的停止函数，并且该函数在导航过程中处理错误的能力较低。提问有点帮助。图7提供了一个比较从不学习纠正错误或探索。PC+RGB提供了两全其美的效果。图6还提供了三种不同视觉模态的比较。一般趋势是点云提供了更丰富的避障信号（对应于较低的碰撞%值），而RGB提供了更丰富的语义信息（对应于较高的IoUT和QA）。将点云和RGB相结合，可以改进避障和利用语义信息。6. 结论我们提出了一个扩展的任务，利用Matterport 3D数据集的真实感环境，并提出MP 3D-EQA v1数据集。然后，我们提出了一个彻底的研究2导航基线和2个不同的导航架构与8个不同的输入变量。我们开发了一个端到端的可训练导航模型，能够直接从3D点云学习目标驱动的导航策略我们提供了分析和洞察的因素，影响导航性能，并提出了一种新的加权方案我们证明了两个导航基线，随机和只向前，在[1]提出的评估设置下相当强。我们的工作是朝着弥合互联网视觉风格问题和具体感知目标之间的差距迈出的一步。鸣谢。这项工作得到了 NSF （ Grant # 1427300 ）， AFRL ，DARPA，Siemens，Samsung，Google，Amazon，ONR YIPs和ONRGrants N 00014 -16-1-{ 2713，2793}的部分支持。本文所包含的观点和结论是作者的观点和结论，不应被解释为必然代表美国政府的官方政策或认可，无论是明示的还是暗示的。政府或任何赞助商。M+RGBM+RGB+QM+PCM+PC+QM+PC+RGBM+PC+RGB+Q6668引用[1] Abhishek Das、Samyak Datta、Georgia Gkioxari、StefanLee、Devi Parikh和Dhruv Batra。具身问题回答。在CVPR，2018年。一二三四五六七八[2] Saurabh Gupta，James Davidson，Sergey Levine，RahulSuk-thankar，and Jitendra Malik.视觉导航的认知绘图与规划。在CVPR，2017年。一、二[3] Yi Wu，Yuxin Wu，Georgia Gkioxari，and YuandongTian. 建立一个现实的和丰富的三维环境的通用代理在ICLR研讨会，2018年。一、二[4] Yuke Zhu 、 Roozbeh Mottaghi 、 Eric Kolve 、 Joseph JLim、Ab-hinav Gupta、Li Fei-Fei和Ali Farhadi。使用深度强化学习的室内场景中的目标驱动视觉导航。在ICRA，2017年。一、二[5] Yuke Zhu，Daniel Gordon，Eric Kolve，Dieter Fox，LiFei-Fei ， Abhinav Gupta ， Roozbeh Mottaghi ， and AliFarhadi. 使用深度后继表示的可视化语义规划。InICCV，2017. 一、二[6] DevendraSinghChaplot、KanthashreeMysoreSathyendra 、 RamaKumarPasumarthi 、 DheerajRajagopal和Ruslan萨拉赫季诺夫门控注意面向任务的语言基础架构。arXiv预印本arXiv：1706.07230，2017。一、二[7] Peter Anderson，Qi Wu，Damien Teney，Jake Bruce，MarkJohnson，NikoSünderhauf，IanReid，StephenGould，and Anton van den Hengel.视觉和语言导航：在真实环境中解释视觉基础的导航指令。在CVPR，2018年。一、二[8] Karl Moritz Hermann，Felix Hill，Simon Green，FuminWang ， RyanFaulkner ， HubertSoyer ， DavidSzepesvari，Wo- jtek Czarnecki，Max Jaderberg，DenisTejerashin，et al.在模拟的3d世界中学习语言。arXiv预印本arXiv：1706.06551，2017. 1[9] Daniel Gordon ， Aniruddha Kembhavi ， MohammadRaste-gari，Joseph Redmon，Dieter Fox，and Ali Farhadi.IQA：交互式环境中的可视化问答。在CVPR，2018年。一、二[10] Abhishek Das 、 Georgia Gkioxari 、 Stefan Lee 、 DeviParikh和Dhruv Batra。基于神经网络的智能问答系统。机器人学习会议（CoRL），2018年。1[11] Shuran Song、Fisher Yu、Andy Zeng、Angel X Chang、Mano-lis Savva和Thomas Funkhouser。语义场景完成从一个单一的深度图像。在CVPR，2017年。一、二[12] Arthur Juliani、Vincent-Pierre Berges、Esh Vckay、YuanGao、Hunter Henry、Marwan Mattar和Danny Lange。Unity：智能代理的通用平台，2018年。1[13] 阿尔伯特S黄，亚伯拉罕Bachrach，彼得亨利，迈克尔Krainin，丹尼尔Maturana，迪特尔福克斯和尼古拉斯罗伊。使用rgb-d相机进行自主飞行的视觉里程计和绘图。在机器人研究。2017. 2[14] Andy Zeng ， Shuran Song ， Kuan-Ting Yu ， ElliottDonlon，Francois Robert Hogan，Maria Bauza，DaolinMa， Orion Taylor， Melody Liu ， Eudald Romo ， NimaFazeli ， Ferran Alet ， Nikhil Chavan Dafle ， RachelHolladay ， Isabella Morona ， Prem Qu Nair ， DruckGreen，Ian Taylor，Weber Liu，6669托马斯·芬克豪泽和阿尔贝托·罗德里格斯机器人拾取和放置新的物体在混乱与多启示把握和跨域图像匹配。在ICRA，2018年。2[15] Shiqi Zhang，Yuqian Jiang，Guni Sharon，and PeterStone.时间不确定性下的多机器人符号规划。在第16届国际会议上 Au-Agents 和 Multiagent Systems（AAMAS），2017年5月。2[16] Angel Chang 、 Angela Dai 、 Thomas Funkhouser 、Maciej Hal- ber、Matthias Niessner、Manolis Savva、Shuran Song、Andy Zeng和Yinda Zhang。Matterport3D：从室内环境中的RGB- D数据中学习2017年3D视觉国际会议。二、三[17] Sergey Levine ，

下载后可阅读完整内容，剩余1页未读，立即下载