几何感知递归网络：移动视觉场景的3D特征图学习与预测

186 浏览量更新于2023-10-19 收藏 1.6MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

2595基于几何感知递归网络小渔鱼东1号 Ricson Cheng2陈嘉玲Katerina Fragkiadaki11卡内基梅隆大学2优步先进技术集团{htung，katef}@ cs.cmu.edu，ricsonc@uber.com摘要我们将两个强大的想法，几何和深度视觉表示学习，到经常性的网络架构移动视觉场景的理解。所提出的网络学习“提升”并随着时间的推移将2D视觉特征整合到场景的潜在3D特征图中。它们配备了可微的几何操作，如投影，反投影，自运动估计和稳定，以计算世界场景和它们的3D潜在特征状态之间的我们训练所提出的架构来预测新的相机视图，给定短帧序列作为输入。他们的预测强烈地推广到具有新颖数量的物体、外观和配置的场景;它们大大优于不考虑自运动稳定性或空间感知潜在特征状态的先前工作。我们训练所提出的架构，以检测和分割对象的3D使用潜在的3D特征图作为输入，而不是每帧的功能。所得到的对象检测随着时间的推移而持续存在：即使对象被遮挡或离开视场，它们也会继续存在我们的实验表明，提出的空间感知的潜在特征记忆和自我运动稳定的卷积是必不可少的建筑选择空间常识出现在人工体现的视觉代理。1. 介绍目前最先进的视觉系统[11]可以准确地检测到我们许多人罕见和不熟悉的物体类别，例如gyromitra，一种特殊的蘑菇属（图1左上）。然而，他们忽视了物体永久性或空间意识的基本原则，这是一个一岁的孩子已经发展起来的：一旦摄像机转过去，或者一个人走到陀螺仪前面，它的检测就消失了，取而代之的是在新的视觉帧中检测到的物体。我们认为，目前的视觉系统能够检测到稀有和精致的物体类别，*表示平等贡献†在CMU图1. 互联网视觉与机器人视觉。人类拍摄的照片（顶行）（并上传到网络上）是训练有素的代理人（人类摄影师）的视觉感知输出内容是巧妙的框架和对象出现在规范的规模和姿态。由移动代理拍摄的图片，例如NAO机器人在机器人足球比赛期间（底行），是这种视觉感知的输入这些物体通常被部分遮挡，并且出现在各种各样的位置、尺度和姿势中。我们提出了后者的递归神经架构，随着时间的推移整合视觉信息拼凑在一起的视觉故事的场景。执行基本空间推理的原因是，它们被训练为使用单个帧作为输入从静态互联网照片（在ImageNet和COCO数据集中）标记对象类别。我们对互联网照片的过度接触使我们忘记了移动代理捕获的图片是什么考虑图1。互联网上的照片是由人类摄影师巧妙地捕捉的，它们被很好地框住，并以规范的位置、比例和姿势（顶行）显示未被遮挡的相反，NAO机器人在足球比赛中拍摄的照片显示了各种规模、姿势、位置和遮挡配置的物体（底行）。在这类图像中，标记物体甚至没有意义，因为大多数物体只能看到一半。在互联网视觉的情况下，图片是一个训练有素的视觉代理人，人类摄影师的视觉识别的输出在移动机器人视觉的情况下，图片是这种视觉感知的输入因此，对于每一个，可能需要不同的架构提出了一种几何感知的递归神经网络2596查看预测？逆投影3DGRU内存R，t自运动估计稳定R，t3D MaskRCNN不3DGRU内存这是完全相同的视图预测损失，但不使用自运动稳定卷积或3D潜在空间。我们认为，强泛化能力是一个必要条件，要求空间的原因。此外，我们展示了GRNN支持场景算法的学习表示：从特定视点添加/减去潜在场景3D特征图并对其进行解码与添加/减去3D世界场景的结果直接匹配。我们以监督的方式训练GRNN，以检测和分割3D中的对象，给定短帧序列作为输入（图2）。我们使用潜在的3D特征图作为maskRCNN [11]的3D版本的输入，这是一种最先进的2D对象检测器/分割器。所得到的3D对象检测和3D体素分割在时间上持续，尽管存在瞬时遮挡和解除遮挡：在当前帧中不可见的对象仍然存在于潜在3D特征图中。通过将检测到的3D物体投影到2D中，我们获得了非模态[20]物体盒和分段。图2. 几何感知递归神经网络GRNN网络（GRNNs）将视觉信息随时间推移整合到视觉场景的3D几何一致的深度特征记忆中。在每一帧中，RGB图像未被投影到相应的3D特征张量中，这些特征张量被定向到迄今为止构建的内存映射的坐标框架（第二行）。然后使用自运动稳定的特征作为输入来更新3D卷积GRU存储器架构，我们称之为GRNN，它学习它们随时间更新三维潜在特征状态：潜在特征向量被布置在3D网格中，其中网格的每个位置编码场景中的3D物理位置。潜在状态更新与每个新的输入帧使用egomotion-stabilized卷积，如图2所示。GRNN学习以可区分的方式将2D输入视觉特征映射到3D潜在特征映射，并返回。为了实现世界场景和3D潜在特征状态之间的这种可区分的和几何一致的映射，它们配备有可区分的几何操作，例如自运动估计和特征稳定、3D到2D投影和2D到3D非投影，如图2所示。除了空间感知之外，我们不会对学习到的表示施加任何其他约束：它们可以自由地编码与下游任务相关的任何内容。我们以自监督的方式训练GRNN，以短帧序列作为输入，从新的相机视角预测图像视图。我们的经验表明，GRNN学习预测新的观点，并强烈推广到新的场景与不同的数量，外观和配置的对象。它们的表现大大超过了以前的作品中的几何无意识网络，这些网络是在没有经过训练的情况下训练的即使在严重闭塞的情况下。因此，GRNN的视觉识别表现出对象持久性，这是一种对人类来说毫不费力的道具，并且迄今为止对于2D视觉检测器来说是不可能的。GRNN架构借鉴了SLAM（同时定位和映射）方法，正如我们在第3节中讨论的那样。GRNN最终学会了“想象”场景中缺少的内容，而无需从多个视点进行视觉检查。数据集和代码可以在我们的项目页面 https://ricsonc.github.io/grnn/ 上找到。2. 相关工作深度几何同时定位和映射（SLAM）[23，16]方法是纯粹的几何方法，在估计相机运动的同时构建场景的3D点云地图。相反，我们的方法构建了多个深度特征图，这些特征图捕获了场景的几何特征和语义。最近，人们对整合学习和几何结构以进行单视图3D对象重建[25，28]、来自视频的3D对象重建[18]、来自帧对的深度和自运动估计[27，32]、来自立体图像的深度估计[8]以及来自2D关键点热图的3D人体关键点估计[29，26]产生了极大的兴趣这些作品中的许多作品使用配备有某种形式的不同相机投影的神经网络架构，以便可以直接使用2D量来监督3D期望的估计。例如，Tulsianiet al.[25]，Wuet al.[28]和Zhouet al.[32]使用单个图像帧作为输入来预测单个对象的3D重建，或整个场景的2D深度图。这些工作使用多个视图仅以深度重投影误差的形式获得预测的额外正则化。学习立体机器（LSM）[15]将RGB信息沿着随机相机视点序列整合到潜在的3D特征记忆张量中，2597不i，j，k，：V不一种自我运动稳定的方法，类似于我们的方法。然而，他们的目标是3D重建一个单一的对象，而不是检测和3D重建多个对象，我们的模型。他们假设自运动是给定的，而我们也提出了一种方法来估计自运动。它们只能在对象3D重建任务中进行监督训练，而GRNN可以通过视图预测进行自我监督训练LSM的工作对本文提出的模型具有启发意义。MapNet [12]，认知映射和规划[10]，IQA [9]和神经地图[19]通过考虑观察者的自我运动来构建场景的2D开销地图，类似于我们的方法。MapNet进一步估计自运动，而其他方法则假设它是已知的。在IQA中，在每帧中检测对象，并将检测结果聚合在鸟瞰图中，而我们直接使用3D特征图作为输入来检测对象。最接近我们的工作是程等人的工作。[3]，它考虑了自运动稳定卷积和3D潜在映射，用于像我们一样在3D中分割对象。然而，他们假设自运动是已知的-而我们学习估计它-他们的对象检测管道使用离散化，以便通过离散化连续体素分割嵌入来具有独立移动对象的场景是未来工作的明确3. 几何感知递归网络GRNN是递归神经网络，其潜在状态mt∈Rw×h×d×c，t=1· · ·T学习视觉场景的3D深度特征图。我们可互换地使用术语4D张量和3D特征图，以表示一组特征通道，每个通道都是三维的。内存映射以几何上一致的方式用每个新的相机视图更新，使得来自对应于相同3D物理点的2D像素投影的信息在存储张量中结束在附近，如图3所示。这允许随后的卷积操作在帧之间具有相应的输入，而不是随着观察者的运动我们认为这是性别化的关键GRNN的主要组件如图3所示，并在下面详细说明。在每个时间步，我们将输入RGB图像It馈送到具有跳跃连接的2D卷积编码器-解码器网络（2D U-net[22]），以获得一组2D特征映射Ft∈Rw×h×c。然后我们把所有的fea-他们通过度量学习获得的。相反，我们训练3D真实地图以创建4D特征张量∈Rw×h×d×c区域建议和细分网络。最重要的是，他们没有考虑通过视图预测的自监督学习，这是这项工作的核心贡献之一。相反，他们只专注于使用模拟器提供的地面实况3D体素占用的监督体素标记。自监督视觉特征学习研究人员已经考虑了许多自我监督的任务来训练没有人类标签的视觉表示。例如，[13，1]的作品通过预测连续帧之间的自我运动来训练视觉表示，[6，24]的作品预测场景的新颖视图。特别是，生成查询网络（GQN）[6]的作者认为，GQN学会了在没有任何人类标签的情况下解开颜色，照明，形状和空间排列。我们在第4节中与他们的模型进行了比较，结果表明GRNN可以很强地泛化到训练集之外，而GQN不能。如此强烈的如下所示：对于索引的3D要素网格中的每个通过（i，j，k），我们计算从当前相机视点看，单元中心投影到的2D像素位置（x，y）[x，y]=[f·i/k，f·j/k]，其中f是相机的焦距。然后，用该像素位置（x，y）处的双线性内插的2D特征向量填充V1。沿着从相机中心投射的相同射线的所有体素将被填充有几乎相同的图像特征向量。我们进一步将输入的2D深度图Dt解投影到二进制体素占用网格D∈ {0，1}w×h×d中，该网格包含从当前相机视图直接可见的体素的薄壳。我们来-填充所有未投影深度值等于网格深度值的体素当深度传感器不可用时，我们学习使用将RGB图像作为输入的2D U- net来估计深度图。我们将特征的每个三维通道张量VI与二元占位网格VD，以得到fi-一般化表明，三维潜在空间和自我运动-稳定是空间不最终4D特征张量Vt∈Rw×h×d×c不. 未预测的推理出现。3D物体检测当LiDAR输入可用时，许多最近的作品尝试使用LiDAR和RGB流直接检测3D中的物体[33，17，31]。它们大多使用单个帧作为输入，而所提出的GRNN随着时间的推移整合视觉信息。将GRNN扩展为张量Vt以跳跃方式进入3D编码器-解码器网络连接（3D U-网）以产生结果特征量V<$t∈Rw×h×d×c。自我运动估计和稳定我们的模型定向的3D特征记忆具有0°仰角使用第一个相机视图的绝对仰角。我们假设这个值是给定的，但它也可以使用2598类IdV′′VV电话+1Mt不不不不·，i，j，k，：不不t+ 1图3. GRNN架构。在每个时间步长t，RGB图像It是2D U网的输入。所得到的2D深度特征图未投影到4D张量V t，4D张量Vt又被输入到3D U网（为了清楚起见，我们没有示出与未投影深度图的可选组合）。所得到的3D深度特征图V′被定向为消除当前视点和深度特征点之间的相对相机运动3D GRU存储器状态mt-1的坐标系，如由自运动估计模块估计的。所得到的定向3D深度特征图V't'更新3D G R U存储器状态和输出m t。GR U模块的更新状态然后从特定的视点，并解码成相应的RGB图像用于视图预测，或馈送到3D MaskRCNN中以预测3D对象边界框和对象体素占用。2D convnet. 这基本上使内存始终覆盖方位角和仰角对：与地平面平行。3D特征存储器的方位角被选择为第一视图的方位角，ρ<$t（r）=mt−1 ∗V¯ 腐（r，：，：，：），r∈1···L·K输入帧序列。我们假设相机不平移，仅通过改变两个自由度（仰角和方位角）来旋转。在每个时间步长t，我们估计当前帧的视点和特征记忆之间的相对仰角和方位角请注意，我们也可以直接从每个输入视图预测（绝对）高程，而不需要匹配到目前为止构建的内存。对于方位角，由于我们需要估计与第一视图的相对方位角，因此这种跨视图比较是必要的。具体-张量V<$t以不同的方位角旋转，在旋转特征张量的堆叠中，将方位角和俯仰角与结果V<$rot∈R（L·K ）×w×h×d×c 进行比较，其中L、K是所考虑的方位角和俯仰角的总数离散化后，与取消投影期间使用的双线性插值类似，用于填充每个要素ρt=softmax（ρ<$t），其中λ表示矩阵内积。由此产生的旋转r<$t通过方位角和仰角的加权平均获得，其中权重单位为ρt。最后，我们定向张量V<$t以抵消相对于我们的3D记忆mt−1的相对旋转r<$t，我们将定向张量表示为V′。递归映射更新一旦特征张量被正确定向，我们将V′作为输入馈送到3D卷积。函数门控递归单元[4]层，其隐藏状态是记忆mt−1∈Rw×h×d×c，如图3所示。该状态更新输出mt。隐藏状态在帧序列的开始处被初始化为零为我们的视图预测实验（第4节），我们使用固定了视图T的数量，我们发现一个变量，即T=1V′w同样可以很好地使用G R U-日期方程，同时要快得多。旋转张量V<$rot中的vox el，我们计算3D lo-阳离子（X，Y，Z），其中它是从旋转，并插入双-从原始张量Vt线性插值的特征值。然后，我们使用矩阵内积将每个旋转的特征图与我们当前的3D特征记忆mt−1∈Rw×h×d×c进行比较，以产生概率分布投影和解码给定3D特征记忆mt和期望的视点q，我们首先旋转3D特征存储器，使得其深度轴与查询相机轴对齐然后，我们为每个深度值k生成相应的投影特征图pk∈Rw×h×c。具体逆投影3DUnet特征存储器3D查询视图视图预测Vt−1*稳定mt−1V′不RPN3DMaskRCNNXV′3DUnet对象掩模ROIsVtmmtGRU更新自我运动预测2599通常，对于每个深度值，通过首先获得像素位置（x，y）处的投影特征向量从其投影的3D位置并且然后从4D张量m的对应切片插入双线性内插值来计算像素位置（x，y）处的投影特征向量。这样，我们得到d个不同的投影图，每个尺寸为w×h×c。深度范围从D−1到D+1，其中D是到特征图中心的距离，并且是等距的。请注意，我们并不试图在这个投影阶段确定特征的可见性投影映射的堆栈通过2D卷积运算进行处理，并使用残差convLSTM解码器（类似于[6]中提出的解码器）我们不直接监督可视性。网络隐式地学习确定可见性，并从投影特征图的堆栈中选择适当的深度切片。3.1. 视图预测移动代理可以访问他们的自我运动，并可以观察他们的运动和交互的感官结果训练感官表征来预测这样的结果是一种有用的监督形式，不受人类注释的限制，因为“标签”是由具体的代理人自己提供的，所以称为自我监督空间常识，物体和场景的概念，几何形状，可见性和遮挡关系，可以在移动和观察世界的移动代理中以自我监督的方式出现吗？我们训练GRNN来预测智能体从一个新的视角看到的图像，给定一个短的视图序列作为输入。给定3D特征存储器和查询视点，我们将地图定向到查询视点，我们将其投影到2D并将其解码为RGB图像，如上所述。我们使用标准的交叉熵像素匹配损失来训练我们的视图预测，其中像素强度已经被压缩到范围[0，1]中。我们的模型是端到端可区分的。对于视图预测，我们没有使用深度作为输入，也没有使用2D U网来估计它。我们也没有将内存设置为与地平面平行。为了与现有技术进行公平的比较，我们仅使用RGB输入并将存储器的坐标系设置为与非投影后的第一相机视图的坐标系相匹配。我们在第4节中表明，GRNN在视图预测方面大大优于alter- native geometry-unaware RNN架构，并在训练集之外强烈推广到具有不同数量对象，外观和排列的新场景。培训和实施细节包含在补充文件中。3.2. 3D目标检测和分割我们以监督的方式训练GRNN，以预测3D对象边界框和3D对象分割掩码，使用来自模拟器的groundtruth3D对象框和3D体素我们适应MaskRCNN [11]，一个国家-现有技术的对象检测器/分割器，具有3D输入和输出，而不是2D。具体来说，我们将3D内存中的每个网格位置（X，Y，Z）视为候选3D框质心。在每个时间步，3D特征存储器m_t被馈送到3D区域提议网络以预测正锚点质心，以及对框中心位置和框尺寸、宽度、高度和深度的相应调整。我们的3D边界框编码类似于VoxelNet [33]中提出的编码我们使用非最大抑制来过滤所提出的框以拒绝高度重叠的框。我们使用分类和回归损失的组合进行训练，遵循完善的检测器训练方案[21，11]。具有高于特定阈值的与对应的地面实况对象框的交集（IoU）的所提出的3D边界框被表示为感兴趣区域（ROI），并且用于汇集来自其内部的特征以预测3D对象体素占用，以及预测的3D框位置和尺寸的第二细化。物体恒存即使一个物体不可见在当前摄像机视点中，其特征存在于3D特征存储器中，并且我们的检测器检测并分割它，如我们在图6的第二列中所示。换句话说，对象检测通过由相机运动引起的视场的遮挡和变化而持续将检测器应用于场景的潜在3D模型而不是2D视觉帧是有益的。潜在的3D模型遵循3D不相交和物体永久性的物理定律，而2D视觉观察则不遵循。4. 实验“空间常识”一词感知和理解几乎所有人所共有的（“共有的”）关于空间布置和运动的特性和规律的能力。这样的常识包括物体具有3D形状而不是漂浮的2D表面的事实、场景由物体组成的事实、3D非相交原理、物体不会自发消失的事实以及许多其他事实[7]。我们在这项工作中提出的模型的目标是理解静态场景，即不包含任何独立移动的对象，并在一个潜在的移动观察者下观看的场景因此，我们将术语空间常识限制为指在静态世界中可以感知的规则和规则我们的实验旨在回答以下问题：1. GRNNs能学习空间常识吗？2. 几何结构偏差是空间常识出现的必要条件吗？3. GRNN在自运动估计和3D物体检测方面的表现如何？2600莫与场景泛化长应力train/test统计数据4.1. 视图预测我们考虑以下模拟数据集：i) 来自[3]的ShapeNet排列，其中包含具有来自ShapeNet[ 2 ]的合成3D对象模型的场景，这些模型排列在桌面上。该数据集中的对象属于四个对象类别，即杯子、碗、头盔和相机。我们遵循ShapeNet的相同训练/测试分割[2]，以便出现在训练场景中的对象实例不会出现在测试场景中。每个场景包含两个对象，每个图像都是从一个观察球体它有3 × 18个可能的视图，具有3个相机仰角（20°，40°，60°）和18个方位角（0°，20°，. . . ，340）。训练集中有300个不同的场景，在测试集里有新的物体。ii) Shepard-metzler形状数据集来自[6]，其中包含七个彩色立方体以随机排列粘在一起的场景。我们使用[6]的训练和测试分割。iii) 来自[6]的Rooms-ring-camera数据集，其中包含具有随机地板和墙壁颜色的房间，其中有不同形状和颜色的可变数量的对象。我们将GRNN与Eslami等人最近的“塔”架构进行比较。[6]，在类似视图预测损失下训练的2D网络。在每个时间步，塔式架构将2D RGB图像作为输入，并对其执行一系列卷积。拍摄图像的相机姿势沿着宽度和高度轴平铺，然后在第三次卷积后与特征图连接。最后，来自所有视图的特征图通过平均池化进行组合。我们的模型和基线都使用相同的自回归解码器网络。为了比较的公平性，我们使用groundtruth egomotion输入视图v1、v2、v3查询GTGRNNs（我们的）塔（基线）而不是在所有视图预测实验中估计的自运动，并且对于我们的模型和塔基线都只有RGB输入（没有深度估计的深度输入在基线和我们的模型中，我们没有使用任何随机单位来简化和提高训练速度在两者中添加随机单位是我们未来工作的一部分。我们的模型的测试结果和ShapeNet排列和Shepard-metzler数据集的测试图像的基线如图4所示。ShapeNet排列测试集的重建测试误差如表1所示。GRNN的重建测试误差比塔基线低得多。在图4中，在前四行中，测试场景的分布与训练场景的分布相匹配。我们的模型在视觉保真度方面优于基线。在图4中，在最后四行中，测试场景分布与训练场景分布不匹配：我们在具有四个对象的场景上测试模型都是在只有两个物体的场景下训练的在这在这种情况下，我们的模型表现出很强的泛化能力和优越性。形成了[6]的几何无意识基线，后者拒绝看到两个以上的对象存在。我们图4. 查看建议的GRNN和Eslami等人的塔模型的预测结果。[6]的文件。从左到右的列显示了三个输入视图，来自查询视点的地面实况图像，GRNN和塔基的视图预测线前两行来自[3]的ShapeNet排列测试集，接下来的两行来自[6]的Shepard-Metzler测试集，接下来的两行来自[6]的Rooms-ring-camera最后四行显示了对ShapeNet排列数据集中具有四个对象的场景的泛化，而两个模型仅在具有两个对象的场景上进行训练。GRNN的性能远远优于基线，并且在不同数量的对象下具有很强的认为空间推理的能力不应该受到场景中存在的物体数量的影响。我们的结果表明，几何不知道的模型可能只是记忆视图与小插值能力，而不是学习空间的原因。场景运算GRNN的学习表示能够进行场景运算，如图5所示。强的泛化相同的统计训练/测试2601塔（基线）GRNNs（我们ShapeNet0. 109± 0。029 0. 084 ±0.017谢巴德-梅茨勒0. 081± 0. 0170. 073 ±0.014仅通过添加和减去其相应的潜在表示来添加和减去3D场景中的单个对象的能力表明，我们的模型将什么从哪里分离出来。换句话说，我们的模型学习将对象特定的信息存储在与场景中相应对象的空间位置相对应的存储器区域中实施细节和更多定性视图预测结果包含在补充文件中。#视图一两三avg.GRNNs8.6/17。8五、6/16。8五、6/6。6六、6/13。7表2.使用不同视图数的ShapeNet排列测试集的GRNN在仰角和方位角方面的自运动估计误差。随着更多的视图集成到内存中，误差减小。模块使用来自模拟器的groundtruth egomotion，使用ShapeNet排列数据集。在表2中，我们显示(A)（B）（C）查询gt（A-B+C）GRNNs（我们的）塔（基线）仰角和方位角中的自运动估计误差。我们的模型通过更多的视图来提高其自我运动估计，因为从那时起，将更完整的特征记忆与每个输入的未投影张量进行比较。4.3. 3D目标检测和分割我们使用ShapeNet排列数据集和[3]的训练/测试场景分割我们使用平均精度（mAP）来对模型的性能和3D对象检测和3D分割的基线进行评分。Mean AveragePrecision是精确率-召回率曲线下的面积。我们将预测与地面实况3D框和遮罩之间的交集对并集（IoU）的截止阈值分别更改为0.33、0.5和0.75。我们考虑模型的四种消融：所使用的预测自运动（PEGO）与地面实况自运动（ GTEGO ）的关系，以及预测深度（PD）与地面实况深度（GTD）的关系用作输入。我们使用后缀来表示我们使用的模型。我们与以下2D基线模型进行比较，我们称之为2D-RNN：我们去除了非投影，自我运动估计和稳定以及投影操作。图 5. 基于 GRNN 的场景算法和 Eslami 等人的模型。 [6]（塔）。每一行都是一个单独的“等式”。我们从最左边一列的场景表示开始，然后减去第二列中的场景（的表示），并在第三列中添加场景（的表示）。我们将结果表示解码为图像。地面实况图像显示在第四列中。它在视觉上更类似于GRNN的预测，而不是塔基线。表1. 查看双对象测试场景的ShapeNet排列测试集的预测损失和标准差。我们的模型和基线是在包含两个具有不同对象实例的对象的场景上训练的。4.2. 自运动估计在本节中，我们量化了自运动估计组件的误差。我们训练自我运动估计，从我们的模型。基线将图像和对应的深度图作为输入，将其馈送到具有跳过连接的2D编码器-解码器网络以获得2D特征张量。用于该视图的相机参数作为附加通道连接到2D特征张量，并且它们一起被馈送到另一个2D编码器-解码器网络以获得用于2D GRU分类更新的2D特征张量然后，我们将2D记忆特征张量馈送到额外的2D编码器-解码器网络，并将其输出的通道维度重新整形为d个特征向量，长度7（一个值用于锚框预测，六个值用于3D边界框调整）以形成大小为w×h×d×7的4D张量作为预测。我们展示了3D物体检测的平均精度和我们的模型的3D分割以及表3中的基线，并在图6中可视化来自GRNN（GRNN-gtego-gtd）的预测3D边界框和分割。GRNN明显优于2D-RNN。Groundtruth深度输入显著有助于3D分割。这表明，使用[15]中的成本量推断深度可能有助于深度推断，而不是依赖于无法访问多个视图的每帧深度网络[5]来改善其预测。执行a2602视图1视图11 23不 t=3预测的3D框和分割输入视图预测的3D框（俯视图）View1gt视图2gt1 23不t=3预测的3D框和分割输入视图预测的3D框（俯视图）View1gt视图2gt图6.使用GRNN进行3D对象检测和分割。在左边的第一行和第二行中，我们显示了输入图像，时间以及它们对应的顶视图的对象检测结果。蓝色体素表示地面实况对象，预测的边界框以红色和绿色显示。在右边，我们显示了第三个时间步的分割结果，从两个视图中可视化结果预测的3D框及其相应的预测蒙版以红色和绿色显示，我们以蓝色显示相应的最好看的颜色检测2DRNN-gtego-gtdGRNN-格泰戈-PDGRNN-gtego-gtdGRNN-PEGO-GTD分割2DRNN-gtego-gtdGRNN-格泰戈-PDGRNN-gtego-gtdGRNN-PEGO-GTD图d0的情况。3640的情况。9640的情况。9980的情况。4710的情况。9640的情况。9940的情况。8160的情况。9980的情况。9990的情况。5490的情况。9830的情况。999地图m0的情况。0030的情况。1040的情况。2440的情况。0240的情况。2460的情况。4290的情况。0580的情况。3380的情况。4850的情况。0230.2490.384图d地图m图d地图m表3.在ShapeNet排列测试集[3]上，针对三种不同的交集大于并集（IoU）阈值（0.75，0.5，0.33）的3D对象检测和3D分割的平均精度（mAP）。补充文件中包含了更多的细节和定性结果。5. 结论我们提出 GRNN，复发性神经网络配备可微几何操作来估计自运动并构建3D深度特征图，用于移动视觉代理上的视觉场景理解。GRNN为以前的递归模型的潜在空间添加了一个新的维度，并确保潜在状态和3D世界场景之间的几何一致性映射。我们发现，当以自监督的方式进行训练以进行新视图预测时，GRNN中出现了空间常识。它们可以预测场景中物体的排列、可见性和遮挡我们还表明，作为一种损失的视图预测不足以使空间常识出现，因为以前的作品的二维模型不能很好地概括。到目前为止，GRNN已经在模拟场景上进行了训练和测试。在更现实的环境中部署我们的模型-这是今后工作的一个明确途径。我们期望在模拟环境中进行预训练，以帮助在现实世界中的表现。此外，目前的模型的一个局限性是它是在静态场景上操作的。将所提出的架构扩展到动态场景，除了相机运动之外还具有独立移动对象的场景最后，利用我们的4D张量的稀疏性来节省GPU内存是将我们的模型扩展到大型场景的重要方向。GRNN为通过观察和在世界中移动来学习视觉表征和心理模型的具身代理铺平了道路：这些代理自主学习并开发幼儿的推理能力，而不是仅仅使用人类超视将像素映射到标签。确认我们要感谢Xian Zhou在训练和测试3D MaskRCNN方面的帮助。这项工作的部分资金来自谷歌教师奖。2603引用[1] P. Agrawal，J. Carreira和J.马利克学习通过移动来观察。CoRR，abs/1505.01596，2015年。[2]A. X. 张， T. 放克豪瑟 L. 吉巴斯 P. 汉拉汉Q. Huang，Z. Li，S. Savarese，M. Savva，S.宋，H. 苏肖湖，加-地Yi和F. Yu. ShapeNet：一个信息丰富的3D模型库。技术报告arXiv：1512.03012 [cs.GR]，斯坦福大学-普林斯顿大学-芝加哥丰田技术研究所，2015年。[3] R.郑，Z. Wang和K.弗拉基亚达基用于主动视觉识别的几何感知递归神经网络。在NIPS，2018年。[4] K. 乔湾，巴西-地 vanMerrienboe r，C. Gu？l cehre，F. 布加雷斯，H. Schwenk和Y.本吉奥。使用RNN编码器-解码器学习短语CoRR，abs/1406.1078，2014。[5] D.艾根角Puhrsch和R.费格斯。使用多尺度深度网络从单个图像进行深度图预测。在Z. Ghahramani，M.威灵角Cortes，N. D. Lawrence和K.Q. Weinberger，编辑，《神经信息处理系统进展》27，第2366Curran Asso-ciates，Inc.，2014年[6] S. M. A. Eslami，D.希门尼斯·雷兹韦尔，F. Besse，F.Viola，A.S. 莫尔科斯湾Garnelo，A.Ruderman，A.A. 如苏I. Danihelka，K. Gregor，D.赖克特湖Buesing，T. We-ber，O. Vinyals，D. Rosenbaum，N. Rabinowitz，H. 国王C. Hillier，M. Botvinick，D. Wierstra，K. Kavukcuoglu和D. 哈萨比斯神经场景表示和渲染。Sci- ence， 360（6394）：1204[7] C. E. Freer，D. M.罗伊和J. B.特南鲍姆通过条件模拟实现常识推理：图灵在人工智能中的遗产。CoRR，abs/1212.4799，2012年。[8] C.戈达尔湖，澳-地Mac Aodha和G. J·布罗斯托具有左右一致性的无监督单目深度估计CoRR，abs/1609.03677，2016。[9] D. Gordon，A. Kembhavi，M. Rastegari，J. Redmon，D.Fox和A. 法哈迪。IQA：交互环境中的视觉问答。CoRR，abs/1712.03316，2017。[10] S. Gupta，J. Davidson，S.莱文河Sukthankar和J.马力。视觉导航的认知绘图与规划。在IEEE计算机视觉和模式识别会议论文集，第2616-2625页[11] K. 他，G. Gkioxari，P. Dol la'r和R. B. 娘娘腔。面罩R-CNN。CoRR，abs/1703.06870，2017年。[12] J. F. Henriques和A.维达尔迪Mapnet：一个用于地图环境的非中心空间存储器。在IEEE计算机视觉和模式识别会议上，2018年。[13] D. Jayaraman和K.格劳曼学习图像表示与自我运动等变。CoRR，abs/1505.02206，2015。[14]M. B. A. J. D.约翰·麦考马克，罗纳德·克拉克，S.罗伊特内格Fusion++：体积对象级猛击。在arXiv：1808.08378。2018年。[15] A. 卡尔角 H a？ne和J. 马利克学习多视角立体声机。CoRR，abs/1708.05375，2017。[16] C. Kerl，J. Sturm，and D.克莱姆斯用于RGB-D相机的密集视觉SLAM。InIROS，2013.[17] M.梁湾，澳-地Yang，S. Wang和R.乌塔松多传感器三维目标检测的深度连续融合。在欧洲计算机视觉会议（ECCV）上，2018年9月[18] D. 不，D。 Larlu s，和A. 我爱你通过观察周围的物体来学习3d物体的CoRR，abs/1705.03951，2017。[19] E. Parisotto和R.萨拉赫季诺夫神经地图：用于深度强化学习的结构化记忆。CoRR，abs/1702.08360，2017年。[20] L. Regolin和G.瓦洛提加拉幼雏对部分遮挡物体的感知Perception Psychophysics，57（7）：971[21] S. Ren，K.赫利河B. Girshick和J.太阳更快的R-CNN：朝向使用区域建议网络的实时对象检测。 CoRR ，abs/1506.01497，2015。[22] O.龙内贝格山口Fischer和T.布洛克斯U-net：用于生物医学图像分割的卷积网络。CoRR ， abs/1505.04597 ，2015。[23] T. Sch opps，J. Engel和D. 克莱姆斯智能手机上AR的半密集视觉ISMAR，2014年。[24] M. Tatarchenko，A. Dosovitskiy和T.布洛克斯单视图到多视图：用卷积网络重建看不见的视图。CoRR，abs/1511.06702，2015年。[25] S. Tulsiani，T. Zhou，中国古柏A. A. Efros和J.马利克通过可微射线一致性进行单视图重建的多视图监督。CoRR，abs/1704.06254，2017。[26] H. F. Tung、黄毛菊A. Harley，W. Seto和K.弗拉基亚达基逆图形网络：学习2d到3d提升和图像到图像的翻译与不成对的监督。ICCV，2017年。[27] S. Vijayanarasimhan ， S. 里科角，澳 - 地施密德河Sukthankar和K.弗拉基亚达基Sfm-net：从视频中学习结构和运动。arXiv预印本arXiv：1704.07804，2017。[28] J.Wu，Y. Wang，T. Xue，X.太阳，W。T. Freeman和J.B. 特南鲍姆 Marrnet ：通过 2.5d 草图重建 3d 形状。CoRR，abs/1711.03129，2017。[29] J.Wu，T.作者：J. J. Lim，Y. Tian，J. B. Tenenbaum，A.Torralba和W.T. 弗里曼。3d解释器网络为观众为中心的线框建模。 International Journal of Computer Vision（IJCV），2018。[30] Y. Xiang和D.狐狸. Da-rnn：与数据相关的递归神经网络的语义映射。机器人：科学与系统（RSS）2017年。[31] B.杨，M. Liang和R.乌塔松Hdnet：利用hd贴图进行3d物体检测。以. Billard，A.德拉甘J. Peters和J. Morimoto，编辑，第二届机器人学习会议论文集，机器学习研究论文集第87卷，第146-155页。PMLR，2018年10月29日[32] T. Zhou，M.布朗，N。Snavely和D. G.洛从视频中进行深度和自我运动的非监督学习。在CVPR，2017年。[33] Y. Zhou和O.图泽尔Voxelnet：基于点云的3D对象检测的端到端学习。IEEE计算机视觉和模式识别会议（CVPR），2018年。

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

几何感知递归网络：移动视觉场景的3D特征图学习与预测

递归级联：无监督的医学图像配准.docx

递归神经网络使用场景

递归算法：皇帝的遗产

采用递归树求解以下递归方程：T(1)=1 T(n)=4T(n/2)+n

递归看不懂，如何学习递归

pl/sql存储过程中的递归调用有哪些

c++数据结构树的二叉树的前序中序后序遍历的递归与非递归代码包括输入与输出

全场景轨迹预测深度学习算法

编写递归算法：求二叉树的高度。

基于卷积递归网络的语音增强算法的优点

二叉树进行先序，中序和后序的递归遍历

利用递归方法求5!。 提示：递归公式：f(n)=f(n-1)*n

编写程序实现在二叉树的中序遍历和后序遍历递归和非递归算法。

预测模型递归特征消除

Python 递归函数如何控制递归结束

递归算法常见应用场景

java 编写递归程序

递归成群的奶牛c语言

R语言预测模型递归特征消除

最新资源

利用递归方法求5!。提示：递归公式：f(n)=f(n-1)*n