单色图像中的足迹和自由空间预测

147 浏览量更新于2023-10-23 收藏 2.11MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

11(d)物体轮廓现有技术(b)可见光地面像素分割(d)深度预测(f)无足迹的路径规划(g)轨迹规划(e)隐藏地面几何(c)足迹和自由空间掩模估计我们的足迹预测单色图像的足迹和自由空间杰米·沃森1迈克尔·菲尔曼1阿隆·蒙兹1加布里埃尔·J。Brostow1，21Niantic2 UCLwww.github.com/nianticlabs/footprints摘要从单色图像中理解场景的形状是一项艰巨的计算机视觉任务。然而，大多数方法旨在预测相机可见的表面的几何形状，这在规划机器人或增强现实代理的路径时用处有限。这样的代理只能移动时，地面上的可遍历的表面，我们定义为一组类，人类也可以走，如草地，人行道和人行道。预测视线之外的模型通常用体素或网格来参数化场景，这在机器学习框架中使用可能是昂贵的。我们引入了一个模型来预测可见和遮挡的可穿越表面的几何形状，给定一个单一的RGB图像作为输入。我们从立体视频序列中学习，使用相机姿势，每帧深度和语义分割来形成训练数据，用于监督图像到图像网络。我们从KITTI驾驶数据集、室内Matterport数据集以及我们自己随意捕捉的立体镜头中训练模型。我们发现，一个令人惊讶的低酒吧的训练场景的空间覆盖率是必要的。我们验证我们的算法对一系列强基线，并包括我们的预测路径规划任务的评估。1. 介绍计算机化的代理，例如街道清洁机器人或增强现实角色，需要知道如何探索可见和隐藏的，看不见的世界。对于AR代理，所有路径都必须在没有摄像机自运动的情况下规划和执行，因此当角色移动时，不会显示真实场景的新区域。这使得在未知[65，74]和动态环境中进行路径规划的典型方法不太有效。我们介绍足迹，一个模型，用于估计可见和隐藏的遍历几何给定的只是一个单一的彩色图像（图1）。这使智能体能够知道他们可以在立即可见的表面之外的地方行走或滚动重要的是，我们不仅对表面进行建模(a) 输入：单个RGB图像图1. 封装概述：给定单色图像（a），现有方法可以估计人类或虚拟角色可以穿过哪些可见像素的分割（b）以及每个像素的深度（d）。我们介绍足迹，一种方法来估计范围（c）和几何（e），包括隐藏的可行走的表面。例如，我们的预测可以用来规划穿过世界的路径。在这里，我们计划一条从A→B→C→D使用地面预测，使用A* 算法[26]。基线路径（f）采用仅粘附于可见地面的不现实的路线。我们的隐藏几何预测使物体后面的现实路径被发现（g）。所有形状和几何形状[21，22]，但也包括场景中的移动和静态对象排除行走的地方。我们把这些被占据的区域，12物体的脚印。以前的方法依赖于边界框估计[27，36，57]，其仅限于长方体对象预测。估计缺失几何的其他方法需要完整的静态训练环境，这些训练环境要么是小规模的[10]，要么是合成的[6，63]。令人惊讶的是，我们的方法可以创建合理的预测隐藏的表面，在训练时只给出部分视图的真实移动场景。我们做出三个贡献：1. 我们介绍了一个轻量级的表示隐藏的几何估计从一个单一的彩色图像，从视频深度数据的方法来学习。2. 我们提出了一种算法，从视频中学习与移动对象和不完整的观察场景，通过掩蔽移动对象，先验的丢失数据，并使用深度提供额外的信息。3. 我们已经为KITTI测试集中的所有697张图像生成了人类注释的隐藏表面标签[16]。这些都可以从项目网站下载我们还介绍了这项任务的评价方法。2. 相关工作我们的方法涉及到以前的工作，在机器人，路径规划，几何估计和重建。2.1. 占领地图和路径规划如果场景的多个摄像机视图可用，则可以找到摄像机姿势并且可以重建静态场景的3D模型[45]。添加分割算法可以找到地板表面几何形状[1，41]。在我们的工作中，我们只给一个单一的图像作为输入的地板几何预测。其他多视图方法包括2D [58]和3D [46，67，75]中的占用图，其中新的观察被融合到单个地图中。在已知几何形状的环境中规划虚拟角色或机器人的路径是一个研究得很好的问题[5，18，33，54，66]。我们对视线之外的可行走表面的预测与允许在并非所有几何都可以观察到的环境中进行路径规划的工作共享概念[65，74]。Gupta等人[24]学习使用类似于我们的世界模型的可步行几何信念地图规划路径，而[34]通过观看视频学习机器人的潜在导航然而，在我们的工作中，我们不是直接规划路径，而是直接学习和预测几何形状，这对路径规划等非常有用。2.2. 你可以看到一个很好的研究任务的几何估计是预测的深度图给定的单色图像作为输入。这里最好的结果来自监督学习，例如。[9、14]。然而，获取用于几何估计的监督数据是困难的，因此流行的方法是自监督学习，其中训练数据可以是单眼[20，52，79]或立体[15，19，49，76]图像。通过最小化目标图像和扭曲的源视图之间的重投影损失来学习深度。像这些作品一样，我们也从任意视频中学习来预测几何，但我们的几何预测超出了相机。2.3. 预测你看不到的几何形状我们属于预测输入视图中不可见的场景部分的几何形状的作品类别。例如，[48，64]执行视图外推，其中预测相机截头体外部的语义和几何形状。相比之下，我们预测的几何体，这是内部的相机截头体，但它是occluded后面的对象在场景中。几何完成从单个视图预测未观察到的体素的占用是隐藏几何预测的一种流行表示[6，10，63]。然而，密集场景完成的训练数据很难获得，通常需要合成数据[6，63]。此外，体素可能处理缓慢，并且计算难以缩放以用于几何预测，使得它们难以实时或在移动平台上使用。网格是一种更轻量级的表示[61]，但将网格纳入学习框架仍然是一个活跃的研究课题;典型的方法是通过中间体素表示，例如。[17 ]第10段。信息的补充来源是物理稳定性，作为完成场景的线索[59]。分层完成最近的作品已经采取了一种轻量级的方法来预测隐藏的场景结构，通过将可见图像分解为立即可见场景后面的颜色和深度层[8，40，60，68]。类似地，非模态分割[12，51，80]旨在预测延伸到视线之外的重叠语义实例掩码。然而，非模态分割不标记接触点需要知道的对象的位置。非模态分割将在汽车或人下方将“可穿越表面”标记楼层地图预测类似于非模态分割，是从单色图像预测楼层地图的方法，例如[55，71]。类似地[21，22]分别在室外和室内场景中完成支撑表面。这些方法的目的是预测支撑表面，就好像所有物体都不存在一样（图2（c）），类似于非模态分割，而我们的目标是预测考虑障碍物的可行走地板表面（图2（d））。曼哈顿布局假设可以用于帮助推断室内场景中的地面（例如，[27，35，36，57]），无论如何，是不太适用于户外。我们的任务是由以前的工作[72]，虽然我们的方法是新颖的。13JJ(a) 输入图像(c)地面非模态分割(b) 可见地分割场景自由空间汽车足迹(d)占用空间和自由空间估计可穿越的可见然而，为了了解智能体如何在视线之外的场景中移动，我们还需要对被物体遮挡的地面的几何信息进行建模。为此，我们的表示还包含两个通道，用于对隐藏的可遍历表面进行建模：图2.对于输入图像，分割（b）仅捕获从该视点可见的可穿越表面，而非模态分割（c）未能描绘由于对象的存在而不能穿越的地面的哪些部分。我们的目标（d）是捕捉场景中自由的、可穿越的空间和排除运动的物体的足迹。检测方法估计部分观察对象的完整范围的一种方法是通过3D检测，例如3D边界框[32，37，39，53，62]。通用对象边界框检测器已被用于估计室内自由空间[28，36，57].边界框只为图像中的“事物”提供凸轮廓3. 隐藏的地面分割掩码S*，其表示整个可穿越的地板表面的范围在摄影机视锥体内，包括被遮挡的部分。如果与像素j相关联的摄影机光线与可行走曲面在任何点（甚至在此视图中可见的对象后面）相交，则每个像素s∈S为1，否则为0这也可以被看作是一个自上而下的楼层地图重新投影到相机视图中[24]。4. 深度图D给出了隐藏的地面的几何形状。每个d∈D包含从相机到（可见或隐藏）地面的深度，像素j。如果像素j任何可穿过的表面（即，s=0），则d为0。“东西”[ 2 ]的几何形状，灌木丛据我们所知，目标检测还没有有效地结合非模态分割，灰给遍历表面。我们比较了最近的对象检测基线，并表明我们的方法更适合我们的任务（第5节）。另一种检测方法是拟合3D人体模型以帮助估计隐藏的布局[13，42]，而我们的目标也与[23]相似，他们的目标是恢复场景中人类可以站立，坐下和到达的地方。这些方法通常在静态场景假设下操作，并且当整个场景已经被人类“探索”时效果最好与这些相关的工作相比，我们预测隐藏和可见的3. 我们的足迹世界模型我们的目标是预测一个单一的彩色图像It的可见和隐藏的可遍历表面。一个表面被定义为可穿越的，如果它是视觉上可识别的一组预定义的语义类，在我们的柔性材料中列出可见的可穿越表面可以用两个单通道贴图表示：1. 可见地分割掩模S.如果在像素j处看到的表面来自可遍历类，则每个sj∈S为1，否则为0。S可以用例如[25、77]。2. 可见深度图D给出了从相机到场景中每个可见像素的距离，例如[19 ]第10段。一起，{D，S}对所有我们的四通道表示{S，D，S，D}是一个丰富的世界模型，它可以实现机器人和增强现实中的许多任务，同时是轻量级的，能够预先由我们的标准图像到图像网络决定。我们的模型与地面分割有什么关系语义分割算法也给我们智能体可以在其上行走的像素，但仅是摄像机可见的那些像素（即，S）。我们的模型还代表了可行走的地面表面的位置，这些表面对相机不可见。为什么我们不能装一架飞机？假设地板表面是平面的，将平面拟合到可见地面将给出可行走表面的几何形状然而，这个平面模型没有给出可行走表面的范围，这意味着穿越场景的智能体将行走到对象中。为什么不使用voxel模型？我们的图像空间预测是轻量级的，内存效率高，而且输出与输入空间像素对齐。考虑到我们的主要关注点是我们可以在哪里行走，我们的表示是最小的必要表示。为什么不在自上而下的空间中进行预测呢？我们可以用自上而下的视图来表示世界，而不是用重新投影的相机空间。虽然这将使我们能够对摄像机截头体之外的世界进行建模，但我们会增加复杂性，需要更复杂的训练和依赖良好的测试时摄像机姿态估计。14SIt+1i=1D*不输入立体声对...T S可遍历分割可遍历像素的3D点图3. 从多个视图生成训练数据：对于帧It中，直接从图像估计可见可穿越表面图St，而从立体对估计深度D t。关于目标帧的隐藏地表面信息从源帧It+ n生成。来自这些源帧的分割掩模是亲-被射回目标帧，并用于生成Sˆ∗可穿越Dt。It+n将3D点向前扭曲到目标视图It目标框不PDt+nSt+n可穿越鲁棒聚合方程(1)、（二）DtSt4. 学习预测足迹可以使用现成的预测模型来估计{S，D}，例如[31 ]第30段。然而，训练模型来估计{S，D}需要额外的信息源人工标记是昂贵的，而且很难大规模因为我们要求注释器标记场景的遮挡部分。相反，我们利用两个现成的信息来源：自由捕获的视频和深度数据。我们使用这些将来自每个训练图像的像素分成三个不相交的集合。Stransversable包含被认为是可遍历的像素的索引;Suntraversable我们确信不能被遍历的像素的索引，并且S未知我们没有信息的像素的索引。这些未知的预测来自于我们自由地使用在源帧It+1和目标帧It之间。然后，我们将可遍历像素的深度值从源帧向前扭曲[56，70]到目标帧。这导致稀疏深度图Pt+i→−t，表示几何形状。框架中可见的可穿越地面的宽度和范围I t+i从I t的观点呈现。我们对N个相邻帧重复这种前向扭曲，获得集合Pt={Pt+i→-t}N -是的由于地板分割、深度图、和摄像机姿态，许多重新投影的楼层地图图像Pt+i→-t会有错误。因此，我们执行一项多个噪声分割的鲁棒聚合，深度图以形成单个训练图像。我们的可遍历标签集Stransversable由至少k个重投影深度图包含非零值的像素形成，即，拍摄视频进行培训;现场的一些区域从未被观察到，我们也没有关于这些区域是否可穿越的信息。S可遍历=.j ∈ J|.ΣP∈PtΣ[pj>0]Σ> k，（1）4.1. 从视频数据学习S可遍历自由捕获的视频很容易获得，并使我们能够为可见对象后面的几何体生成训练数据我们使用视频中的其他帧，通过将每个帧的观察结果投影回来，其中[]是Iverson括号，J是该图像中的所有像素索引的集合，并且pj是P中的第j个pixel。有关概述，请参见图3。随后，当且仅当在该位置处存在有效深度值时，我们通过取与每个像素j相关联的中值深度值（忽略零）来获得我们的地面深度图D_ j对准目标摄像头我们使用现成的工具来估计相机的固有特性D..=中位数ΣΣP ∈ Pt|P>0（二）以及每个帧的深度图和相对相机姿势我们用一个大的对数L1损失来监督我们的预测D.15JJJJJJJJJJJs dd(a) 输入图像图4. 移动对象和深度遮罩：对于训练图像（a），我们的移动对象掩模（b）识别与移动对象相关联的像素。不可遍历的像素集合S（c）使用训练深度图像来捕获小且薄的对象的足迹。4.2. 深度掩蔽以找到S不可遍历虽然Pt是从多个源图像的深度图像构建的，但是单独在Pt上训练的模型通常不正确地估计对象足迹边界，通常完全错过诸如杆和行人之类的薄对象的足迹。这种错误是由于摄像机姿态跟踪、可遍历的分割掩模和可见深度图的不准确性，导致有时重投影例如，虽然很难学习移动车辆的几何形状，但我们可以学习停放汽车的形状，并在测试时将这些知识应用于移动汽车。同样，人的脚印也可以通过观察那些在训练中相对静止的脚印来学习.我们计算每个像素的二进制掩码M，其中μj∈M对于描绘非静态对象的像素为零。计算对于帧t，我们使用Dt和摄像机运动计算了从帧t到t+1的诱导流[69，81]这估计像素将移动到假设静态场景。我们还分别估计帧到帧的光流。感应流和光流不同的像素是移动物体上的-10个像素;如果两个流图的端点相差超过τ=3个像素，则将μj设置为0，否则设置为1图4（b）中示出了M4.4. 最后训练损失我们的训练损失包括四个部分，每个输出通道{S，D，S，D}一个。隐藏的可穿越表面损失ls-进入目标帧，不排除我们强大的ag-分离方法为了解决这个问题，我们利用深度简体中文 log（s）如果j∈S可穿越（3a）来自目标图像It的数据估计S不渡海，集ls=-log（1−s）ifj∈S不渡海（3b）图像中绝对不可遍历的像素。随后，我们重新定义Stransversable以不包括S untransversable中的像素。为了找到S不可遍历，我们首先将所有点投影到深度上将Dt从相机空间映射到世界空间。接下来，我们安装一个平面到使用RANSAC [11]在我们的分割掩模St然后，我们将世界上的每个点否则，（3c）其中（3a ）鼓励S中可遍历的像素被标记为 s=1;（3b）鼓励S中不可遍历的像素被标记为 s=0;以及（3c）将先验λ1应用于保守地鼓励他们被贴上不可穿越的标签。他们在飞机上，现在躺在飞机上，并可见可穿越表面损失ls- 这是监督在结果位置周围的小网格。在将这些点重新投影回相机空间之后，我们应用滤波步骤（细节参见补充材料）来移除错误区域，并且获得不可遍历的像素集合S。图4（c）中示出了一个示例。4.3.在训练时S可转换和D可转换的计算使用多个帧，并假设我们的训练数据来自静态世界，使用标准的二进制交叉熵损失。观察到的深度损失l d-对于预测可见像素的深度图的通道，我们遵循 [29 ， 73] 并使用 ld=l 〇 g（|dj−dj|+1）。隐藏深度损失ld-隐藏深度也用logL1损失来监督，但我们仅对可遍历的像素∈S应用损失。我们的最终损失是所有像素上每个子损失的总和事实上，许多物体将在Σ∗L=ls∗+l+l +l.（四）帧It和It+i。为了解决这个问题，我们识别并删除来自我们的训练损失的像素，其与移动对象相关联我们可以使用语义分割来去除非静态对象类，比如汽车;然而，这将阻止我们了解任何汽车的隐藏几何形状，包括停放的汽车。我们可以在静态场景上训练[38]，但会受到现有通用数据集可用性的限制相反，我们观察到大多数类的移动对象至少在某些时候是静态的。对于前-j j j jJ4.5. 实现细节为了生成KITTI和我们偶然捕获的立体数据的训练信号，使用ORB-SLAM 2 [44]来估计相机外部和内部，而使用[4]从立体对中推断深度图。分割掩模估计使用一个简单的图像到图像的网络训练(b)移动对象（不渡海16自由空间评估。足迹评估。(a) 测试图像（b）人类注释的地面实况(c) ‘Footprints’图5. 评价区域：对象足迹在人类注释的地面多边形内的所有像素上进行评估（a），而对于自由空间评估，我们使用整个图像（b）;参见第5节。使用ADE20K [78]和Cityscapes [7]数据集，使用[30，47]估计光流我们的网络架构是基于[20]，修改为预测四个sigmoided输出通道。我们调整我们的训练分辨率以匹配训练图像的纵横比Matterport数据集为512×640，KITTI为192×640，我们自己的立体数据为256×448对于Matterport来说，摄像机的内在特性、相对位置和深度图都是有利的。vided。因此，我们只需要估计分割掩码，并使用相同的预训练网络在5，000个标记的Matterport图像的一小部分上进行微调除了在某些消融中，我们设置λ= 0。二十五5. 实验我们验证我们的场景表示和相关的学习方法实验。我们通过以下方式做到这一点：a) 量化我们在室内和室外预测的准确性（Matterport和KITTI），b) 在不同的场景中展示他们的质量，c) 评估不同设计决策的益处，以及d) 举例说明使用足迹进行路径规划的用例（第6节）。我们在这里集中我们的评估在隐藏的可穿越表面估计上，在补充材料中，我们对S、D和D进行了S：S预测有两个方面是有趣的：（1）估计图像中的可穿越自由空间的总体范围的能力，以及（2）以估计场景中必须避免的对象的足迹基础。为了捕捉这一点，我们引入了两个评估设置。第一，自由空间评估，解决(1)通过使用标准的二进制检测方法评估我们对图像中所有像素的S的IoU和F1的Rics。第二个是足迹评估广告（2），其中我们专注于通过仅在地面区域内评估来评估对象足迹。为了同等地评估所有方法，我们在真实地面分割（KITTI）和真实可见地面（Matterport）的凸包内进行评估-参见图5。表1. 在KITTI数据集上评估对象足迹和自由空间检测：每个类别中最好的方法用粗体表示;第二好的方法用下划线表示。我们的方法优于所有基线。自由空间评估。足迹评估。IOUF1IOUF1项目下降基线0.3440.5060.0820.144我们的w/o移动对象遮罩0.7950.8780.2270.347如上所述，w/o方程（3b）0.7970.8790.2180.333我们的无等式（3b）0.7930.8770.2250.343我们的（λ= 0）0.3550.5190.2170.335我们的（λ= 0. 第五章）0.7870.8730.2320.355我们的（λ= 1. 0个）0.7760.8650.2340.356我们0.7970.8800.2390.363表2. 在KITTI数据集上验证我们的方法：我们的消融验证了我们的方法;去除我们的方法的组件给出了相等的自由空间分数，但是在检测对象足迹方面明显更差。基线：我们与几个基线进行比较，以证明我们的方法在任务中的有效性：仅可见-S设置为可见地面遮罩S。凸包-我们将S_x估计为可见地面掩模S的凸包。3D边界框-使用室外场景的3D边界框检测器[43]和室内场景的3D边界框检测器[50]估计对象的足迹;我们评估了[ 50 ]中的从凸包基线中减去估计的对象足迹以进行最终预测。与我们的方法不同，[50]在测试时访问结构光推断的深度图进行预测;我们包括他们的最先进的结果作为边界框方法可以实现的上限。体素预测-在室内场景中，我们使用[63]从深度输入中估计体素化场景。估计为“地板”的体素向下投影-我们在训练时只使用深度图像来训练模型来估计足迹，而不使用我们的多帧重投影。为此，我们训练一个二元分类器来预测它是否期望每个像素都是S不可遍历的成员或者不，并从凸包中减去这些像素5.1. KITTI基准我们首先使用本征分裂[9]在完善的KITTI基准[16]上进行训练和评估。为了定量评估，我们为整个测试集生成人工注释。标签人员被指示绘制多边形IOUF1IOUF1凸包0.7900.8760.1450.230边界框0.7940.8790.1870.292无可遍历（S=0）0.0000.0000.0890.153所有可遍历的（S=1）0.3440.5060.0000.000可见底布0.7700.8600.2310.356我们0.7970.8800.2390.36317输入地面实况我们的我们的无深度掩码边界框[43]图6. KITTI结果：每一行显示一个输入图像和来自我们模型的预测的S掩码，我们的模型没有深度掩码和最强的基线。我们发现比基线更广泛的对象的足迹，并且更好地捕捉可遍历空间的整体形状第1行和第4行显示了深度遮罩对薄对象的好处最后一行显示失败，无法预测汽车后面的可步行空间;我们面向前方的训练视频意味着我们的网络很少看到一些物体后面可视地面（S）自由空间评估。足迹评估。0.505 0.628 0.404 0.542限制隐藏和可见的可行走表面，并分别标记场景中每个遮挡对象的覆盖区。由于我们的任务的性质，标签必须估计许多对象的隐藏范围，这似乎是一个容易出错的任务。然而，这遵循了非模态标记的工作，其中发现标记之间的一致性相当高[51]。这些说明可在项目网站上查阅。我们在表1中列出了我们方法的定量结果以及基线。在这里我们展示了表3. Matterport [3]上的S语言评估：我们是所有金属材料的自由空间和足迹评估歌词最后一行显示了优于我们的消融，表明仔细选择超参数可以进一步提高性能。标记为†的方法可以在测试时访问结构光深度数据体素SSCNet（+）的几何估计在178个场景上失败;我们在求平均值时忽略这些。(a) 输入（b）我们的无屏蔽(c)我们的隐藏几何预测（d）我们的隐藏表面预测图7. 立体声捕获结果：预测我们的模型在手持立体镜头上训练，用于使用手机拍摄的图像。在这里，我们看到了使用我们的完整方法（c），（d）与既没有深度掩蔽也没有移动对象掩蔽（b）。我们能够更好地捕捉行人的足迹。我们的方法在自由空间和足迹评估的性能。定性结果见图6。我们看到，我们发现的足迹，更广泛的各种对象比边界框，因为我们不限于predefined类。我们还可以更好地捕捉可穿越地面的整体形状。此外，我们在表2中消除了我们的方法，表明我们的完整方法有助于改善结果。5.2. 室内评价我们使用Matterport数据集[3]对室内场景进行训练和评估。这里，提供了相机姿态和结构光深度图，并且从数据集的语义注释网格表示渲染地面实况地板掩模和几何形状我们只对他们钻机上的前向和下向摄像头的图像进行我们对测试集中的前500张图像进行评估。结果如图8和表3和表4所示，我们再次优于所有基线。SSCNet [63]表现不佳，因为这种方法主要是在合成数据上训练的，其中对象的足迹不是从地平面单独因此，我们创建了一个他们的方法的改造，SSCNet+。在这里，IOUF1IOUF1无可遍历（S=0）0.0000.0000.1860.291所有可遍历的（S=1）0.4800.6110.0000.000凸包0.4540.5620.2890.421边界框†[50]（扫描网）0.4500.5570.3330.469边界框†[50]（Sun RGBD）0.4510.5590.3150.450[63]第六十三话0.4920.6150.0870.136体素SSCNet+†0.4180.5470.1070.173我们0.6520.7670.4260.557我们的（λ= 0. 第五章）0.6630.7760.4520.58518表4. Matterport隐藏深度（D）评估：我们的方法优于基线，即使是人工提升的方法，最后一行可以访问地面实况可见地面分段和地面实况深度。预处理推断[63]第63话4366边界框[50]-0.417Bounding box [43]-0.520我们-0.074表5. 单幅图像推理速度对比：我们的图像到图像网络比其他现成的3D几何估计方法要快得多。表6. Matterport数据集上的路径规划评估：“碰撞”是每条路径在空间中花费的总分数的平均值，该空间被标记为地面实况不可穿越，而如果一条路径在任何一个点离开地面实况可穿越空间，则该路径是“失败”的。在这两列中，分数越低越好。图8. Matterport结果：我们预测物体的几何形状，这些物体不属于现成的物体检测器可检测的类别，例如。最左边的柱子最右边的一列演示了我们如何预测可穿越表面通过门道的延续。由于布局估计失败，未计算第三列的SSCNet+结果。对于每个Matterport测试图像，我们选择地面真实“可见地面”遮罩上的随机像素我们在两者之间规划了一条道路，A*[26]，其中遍历像素j的成本是1-s，其中s是椅子、床、沙发、桌子和电视都投射到地板上。并减去以给出更准确的足迹估计。SSCNet+比SSCNet获得更高的占用空间分数，但自由空间分数较低。5.3. 手持摄像机拍摄的训练我们还使用立体摄像机从城市环境中捕获了98，002帧视频数据集。在此数据集上训练的模型使我们能够对不同日期从手机摄像头捕获的图像做出合理的预测（图1和图7）。5.4. 推理速度表5将我们的推理速度与竞争方法进行了比较。为了进行公平比较，所有方法均以1个批量进行评估。我们简单的映像到映像架构比其他替代方案快得多，更易于移动部署。6. 用例：路径规划我们的系统的一个重要用例是帮助规划路径，例如。一个增强现实的角色。无阈值sigmoid输出。如果出现以下情况，则计划路径它在任何点离开地面实况可穿越区域;我们还对每个路径中离开地面实况可穿越区域的像素的分数进行计数，作为“碰撞”。结果见表6，计划路径示例见图1和补充材料。7. 结论在这项工作中，我们提出了一种新的表示预测场景几何超出视线，我们已经展示了如何学习预测这种几何只使用立体或深度相机视频作为输入。我们展示了我们的系统未来的工作可以解决时间一致性或持续预测。致谢感谢Eugene Valassakis帮助准备本作品还要特别感谢Galen Han和Daniyar Turmukhambetov帮助捕获、校准和预处理我们的手持摄像机镜头，并感谢Kjell Bronder为数据集注释提供便利。输入B. [第50话]我们SSCNet+地面实况的1RMSEABS.rel.平方rel.[63]第六十三话0.0696.6891.43414.667RANSAC平面0.3591.7130.3070.865我们0.5771.1010.2060.292RANSAC（oracle*）0.3511.6930.3060.821失败路径碰撞SSCNet [63]0.6430.207凸包0.6080.180边界框[50]（扫描网）0.5690.157边界框[50]（Sun RGBD）0.5750.162预计可见地面0.5120.126无可遍历（S=0）0.6160.198我们0.4980.109地面实况0.2550.04019引用[1] S. Y. Bao，中国古猿A.富兰湖Fei-Fei和S. Savarese从多个图像中理解杂乱房间的3D布局InWACV，2014.[2] H. Caesar，J. Uijlings，and V.法拉利COCO-stuff：上下文中的东西和东西类。在CVPR，2018年。[3] A. Chang，A.戴氏T.Funkhouser M.Halber，M.尼斯纳M. Savva ， S. Song ，中国黑杨 A. Zeng 和 Y. 张某Matterport3D：从室内环境中的RGB-D数据学习。在3DV，2017年。[4] J. - R. Chang和Y. S.尘金字塔立体匹配网络。在CVPR，2018年。[5] J. W. S. Chong，S.翁氏A. Y. Nee和K.尤瑟夫尤米使用增强现实的机器人编程：规划无碰撞路径的一种交互式方法。机器人比较-积分制造，2009年。[6] C. B. Choy，D. Xu，J. Gwak，K. Chen和S. Savarese 3D-R2 N2：用于单视图和多视图3D对象重建的统一方法。在ECCV，2016年。[7] M.科德茨，M。奥姆兰，S。拉莫斯，T.雷费尔德，M。恩茨韦勒R.贝南森，美国弗兰克，S。罗斯和B。席勒用于语义城市场景理解的cityscapes数据集。在CVPR，2016年。[8] H. Dhamo，K.塔泰诺岛Laina，N. Navab和F. Tombari窥视物体背后：从单个图像进行分层深度预测模式识别快报，2018年。[9] D.艾根角Puhrsch和R.费格斯。使用多尺度深度网络从单个图像进行深度图预测。NeurIPS，2014。[10] M. Firman，O. Mac Aodha，S. Julier和G. J·布罗斯托来自单个深度图像的未观察体素的结构化预测。在CVPR，2016年。[11] M. A. Fischler和R. C.波尔斯随机样本一致性：模型拟合的范例，应用于图像分析和自动制图。 Commun.ACM，1981年。[12] P. 福尔马纳河Ko¨nig，P.H. Rtinger，M.Kl奥斯特曼，以及T. 博特格河学习看到不可见的信息：端到端可训练的非模态实例分割。在WACV，2019年。[13] D. F.作者声明：A.古普塔A。A.埃夫罗斯岛Laptev和J.西维克观看者：作为单一视图几何体提示的人类行为。IJCV，2014年。[14] H.傅，M。贡角，澳-地Wang，K. Batmanghelich和D.涛.用于单目深度估计的深度有序回归网络。在CVPR，2018年。[15] R. Garg，V. Kumar BG，and I.里德用于单视图深度估计的无监督CNN：几何学拯救了我们。在ECCV，2016年。[16] A. Geiger，P. Lenz，和R.盖革，等.乌塔松我们准备好了吗？KITTI Vision Benchmark Suite。CVPR，2012。[17] J. J. Georgia Gkioxari，Jitendra Malik. 网格R-CNN。在ICCV，2019。[18] G. Gerstweiler，K. Platzer和H.考夫曼DARGS：室内环境动态AR引导系统。Comp. ，2018年。[19] C. 戈达尔湖，澳-地Mac Aodha和G.J. 布罗斯托具有左右一致性的无监督单目深度估计。在CVPR，2017年。[20] C.戈达尔湖，澳-地Mac Aodha，M. Firman和G. J·布罗斯托深入研究自我监督的单目深度估计。在ICCV，2019年。[21] R. Guo 和 D. 霍伊姆视线之外：标记下面的曲面。ECCV，2012年。[22] R. Guo 和 D. 霍伊姆支持室内场景中的表面预测。InICCV，2013.[23] A.古普塔河Satkin，A. A. Efros，和M。赫伯特从3D场景几何到人类工作空间。CVPR，2011。[24] S. Gupta，J. Davidson，S.莱文河Sukthankar和J.马力。视觉导航的认知绘图与规划。在CVPR，2017年。[25] A. Harakeh，D. Asmar和E.夏马斯识别用于自监督自由空间估计的良好训练数据。在CVPR，2016年。[26] P. E. Hart，N. J. Nilsson和B.拉斐尔最小费用路径的启发式确定的形式基础IEEETrans. System Sci.赛博，1968年。[27] 诉Hedau，D.Hoiem和D.福赛斯恢复杂乱房间的空间布局。ICCV，2009年。[28] V. Hedau ， D. Hoiem 和 D. 福赛斯从单幅图像恢复CVPR，2012。[29] J. Hu，M. Ozay，Y. Zhang和T.冈谷重温单图像深度估计：实现具有准确对象边界的更高分辨率地图在WACV，2018。[30] T.- W. Hui，X. Tang和C. C.洛伊Liteflownet：一种用于光流估计的轻量级卷积神经网络。在CVPR，2018年。[31] A. Kendall，Y.Gal和R.西波拉使用不确定性来权衡场景几何和语义损失的多任务学习在CVPR，2018年。[32] J. Ku，A. D. Pon和S. L.瓦斯兰德单目3D物体检测利用准确的建议和形状重建。在CVPR，2019年。[33] J·J·库夫纳。使用实时路径规划和控制的动画角色目标导向导航。在Intell。车间队长技术道德Env. ，1998年。[34] A.库马尔，S。Gupta和J.马利克通过观看视频学习导航子程序. arXiv：1905.12612，2019。[35] C.- Y. Lee，V. Badrinarayanan，T. Malisiewicz和A. 拉比 - 诺维奇。 Roomnet ：端到端的房间布局估计。InICCV，2017.[36] D. C. Lee，A.古普塔，M。Hebert和T.卡纳德使用物体和表面的体积推理来估计房间的空间布局InNeurIPS，2010.[37] P. Li，X. Chen和S.沈用于自动驾驶的基于立体R-CNN的3D对象检测。在CVPR，2019年。[38] Z. Li，T.德凯尔，F。科尔河Tucker，N.斯内夫利，C.刘翔的成功W. T.弗里曼。通过观察冷冻人来学习感动人的深度。在CVPR，2019年。[39] D. Lin，S.Fidler和R.乌塔松使用RGBD相机进行3D对象检测的整体场景InICCV，2013.20[40] C. Liu，P.Kohli和Y.古川通过遮挡CRF进行分层场景在CVPR，2016年。[41] J. McCormac，A. Handa，A. Davison和S.罗伊特内格语义融合：使用卷积神经网络的密集3D语义映射。在ICRA，2017年。[42] A.蒙斯帕尔山口Guerrero，D. Ceylan、E. Yumer和N. J.Mitra iMapper：交互引导的联合场景和单目视频的人体运动映射。TOG，2018。[43] A. Mousavian，D. Anguelov，J. Flynn和J。科塞卡使用深度学习和几何的3D边界框估计。在CVPR，2017年。[44] R. Mu r-Artal和J. D. 塔尔多。ORB-SLAM 2：一个开源的 SLAM 系统，用于单目、立体和 RGB-D 相机。Transactions on Robotics，2017。[45] R. A. Newcombe和A. J·戴维森用一个移动的摄像机进行实时的高密度反射。CVPR，2010。[46] R. A.纽科姆，S。Izadi和O.希利格斯运动融合：实时密集表面映射和跟踪。InUIST，2011.[47] S. 尼克劳斯 LiteFlowNet的重新实现-使用PyTorch。https://github.com/sniklaus/pytorch-liteflownet，2019年。[48] B. Pan，J. Sun，A. Andonian，A. Oliva和B.舟用于感知环境的跨视图语义分割arXiv：1906.03560，2019年。[49]

下载后可阅读完整内容，剩余1页未读，立即下载