实时地图视图语义分割的跨视图变换器

90 浏览量更新于2023-10-25 收藏 16.85MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

…137600实时地图视图语义分割的跨视图变换器0Brady ZhouUT Austin0brady.zhou@utexas.edu0Philipp Kr¨ahenb¨uhlUT Austin0philkr@cs.utexas.edu0摘要0我们提出了一种高效的基于注意力的跨视图模型，用于从多个相机进行地图视图语义分割。我们的架构使用相机感知的跨视图注意机制，将各个相机视图隐式地映射到规范的地图视图表示。每个相机使用依赖于其内在和外在校准的位置嵌入。这些嵌入允许变换器在从未明确建模几何关系的情况下学习不同视图之间的映射。该架构由每个视图的卷积图像编码器和跨视图变换器层组成，用于推断地图视图的语义分割。我们的模型简单、易于并行化，并且可以实时运行。所提出的架构在nuScenes数据集上表现出最先进的性能，推理速度提高了4倍。代码可在https://github.com/bradyz/cross_view_transformers上找到。01. 引言0自动驾驶车辆依赖于强大的场景理解和在线地图制作来导航世界。为了安全驾驶，这些系统不仅需要推理周围环境的语义，还需要空间理解，因为导航具有几何性质。许多先前的方法直接对几何和不同视图之间以及规范地图表示之间的关系进行建模[2，14，15，16，20，29，35]。它们需要明确的[2，15，16，20，35]或概率性的[14，29]图像或地图视图深度估计。然而，这种明确的建模可能很困难。首先，基于图像的深度估计容易出错，因为单目深度估计与观察者的距离缩放效果不佳。其次，基于深度的投影是一个相当不灵活和刚性的瓶颈，用于在视图之间进行映射。在这项工作中，我们采用了一种不同的方法。我们学习使用跨视图变换器架构从相机视图映射到规范的地图视图表示。变换器不执行任何明确的几何推理，而是学习在视图之间进行映射。0跨视图变换器0地图视图嵌入0相机感知0嵌入0图1.我们引入了一种从多个视图中感知地图视图的架构。我们的模型通过交叉注意图像特征来构建地图视图表示。相机感知的位置嵌入可以在几何上将相机和地图视图连接起来。0通过几何感知的位置嵌入。多头注意力然后学习使用学习的地图视图位置嵌入将相机视图的特征映射到规范的地图视图表示。我们为所有相机学习一个单独的地图视图位置嵌入，并在所有视图之间执行注意力。因此，该模型学习将不同的地图位置链接到相机和每个相机内的位置。我们的跨视图变换器通过多个注意力和MLP块来改进地图视图嵌入。跨视图变换器允许网络隐式地并直接从数据中学习任何几何变换。通过尽可能准确地执行下游任务，它通过相机相关的地图视图位置嵌入学习了隐式的深度估计。0我们模型的简单性是其关键优势。该模型在nuScenes[3]数据集上的车辆和道路分割的地图视图中表现出最先进的性能，并且在单个RTX 2080 Ti GPU上以实时（35FPS）的速度运行。该模型易于实现，并且可以在内部训练。13761032GPU小时。学习的注意机制直接从数据中学习相机和地图视图之间的准确对应关系。02. 相关工作0地图视图的语义分割处于三维识别、深度估计和建图的交叉点上。0单目三维物体检测。单目检测旨在在场景中找到物体，估计它们在三维场景中的实际大小、方向和放置。最常见的方法是将问题简化为二维物体检测，并推断单目深度[25,47]。CenterNet[47]直接预测每个图像坐标的深度。ROI-10D[25]使用深度估计将二维检测提升到三维，然后回归三维边界框。基于伪激光雷达的方法[24, 43, 44,45]使用深度估计将图像投影到三维点上，并利用基于三维点的架构（例如[18, 30,42]）进行二维标签。这类算法直接受益于单目深度估计和三维视觉的进展。单目三维物体检测比从多个摄像头进行建图更容易，但也更困难。整体问题设置只涉及一个摄像头，不需要合并多个输入源。然而，它严重依赖于一个良好的显式单目深度估计，这可能更难获得。0深度估计。深度是许多多视图建图方法的核心要素。经典的运动结构方法[1, 7, 20, 35,37]利用极线几何和三角测量来显式计算相机外参和深度。立体匹配找到对应的像素，从而可以显式计算深度[15]。最近的深度学习方法直接从图像中回归深度[6, 8, 11, 12, 31,46]。虽然方便，但显式深度在下游任务中很难利用。它依赖于相机，并需要准确的校准和融合多个噪声估计。我们的方法避开了显式的深度估计，而是允许一个带有位置嵌入的注意机制来代替。我们的跨视图transformer在训练过程中学习将相机视图投影到一个公共的地图表示中。0地图视图中的语义映射。在越来越大的三维识别数据集[3, 5,10, 13,38]的推动下，许多工作都集中在地图视图中的感知问题上。这个问题特别具有挑战性，因为输入和输出位于不同的坐标系中。输入是在校准的相机视图中记录的，输出被栅格化到地图上。大多数之前的工作在转换方式上有所不同0被建模。一种常见的技术是假设场景大部分是平面的，并将图像到地图视图的转换表示为一个简单的单应性变换[2, 9,16, 22, 36,48]。第二类方法直接从输入图像中产生地图视图预测，没有显式的几何建模。VED[23]使用变分自动编码器[17]从单目摄像机视图中产生语义占用网格。0与我们的方法在精神上密切相关的VPN[28]学习了一个跨多个视图的共同特征表示，他们提出的视图关系模块-一个从所有视图的输入中输出地图视图特征的多层感知机。VED和VPN都表明，经过精心设计的网络在有足够的训练数据的情况下可以共同学习地图视图的转换和预测。然而，这些方法确实存在一些缺点，因为它们没有对场景的几何结构进行建模。它们放弃了校准相机设置中包含的内在归纳偏差，而是需要学习一个将相机校准的隐式模型嵌入到网络权重中。我们的跨视图transformer使用从校准的相机内参和外参导出的位置嵌入。transformer可以学习一个依赖于相机校准的映射，类似于原始的几何变换。0最近，表现最好的方法重新回到了显式的几何推理[14, 27,29, 32, 33,34]。正交特征变换（OFT）[33]通过从与地图视图中的柱子对应的二维投影中对图像特征进行平均池化，创建了一个地图视图的中间表示。这个池化操作放弃了显式的深度估计，而是对地图视图对象可能采取的所有可能的图像位置进行平均。Lift-Splat-Shoot（LSS）[29]以类似的方式构建了一个中间的地图视图表示。然而，他们允许模型学习一个软深度估计，并使用学习的深度估计相关权重对不同的bin进行平均。他们的下游解码器可以考虑深度的不确定性。这种加权平均操作与transformer中使用的注意力非常相似。然而，他们的“注意力权重”是从几何原理中推导出来的，而不是从数据中学习的。原始的Lift-Splat-Shoot方法考虑了单个时间步内的多个视图。最近的方法进一步扩展了这一点，从先前的时间步中获取聚合特征，并使用多视图、多时间步的观测来进行运动预测[34]。0在这项工作中，我们展示了隐式几何推理与显式几何模型一样有效。我们隐式处理几何的附加好处是推理速度比显式模型更快。我们只需学习一组位置嵌入，注意力将重新投影相机到地图视图。…137620查询跨视图0多相机图像图像特征0位置嵌入0嵌入解码器0编码器0跨视图0注意力0卷积0图2.我们提出的地图视图分割架构的概述。对于每个图像，我们在多个尺度上提取图像特征。使用已知的相机姿态和内参，我们构建了一个相机感知的位置嵌入。我们学习了一个地图视图的位置嵌入，通过一系列跨注意力层从所有视图中聚合信息。每个跨注意力都会细化地图视图的位置嵌入并查询更准确的图像位置。03. 跨视图变换器0在本节中，我们介绍了我们提出的多相机视图中的语义分割架构。在这个任务中，我们给出了一组 n 个单目视图 ( I k ,K k , R k , t k ) n k =1 ，其中包括输入图像 I k ∈ R H × W× 3 ，相机内参 K k ∈ R 3 × 3，以及相对于自车中心的外参旋转 R k ∈ R 3 × 3 和平移 tk ∈ R 3。我们的目标是学习一个高效的模型，从多个相机视图中提取信息，以预测正交地图视图坐标系中的二进制语义分割掩码 y ∈ { 0 , 1 } h × w × C 。0我们为地图视图语义分割设计了一个简单而有效的编码器-解码器架构。图像编码器生成每个输入图像的多尺度特征表示。然后，跨视图跨注意力机制将多尺度特征聚合到共享的地图视图表示中。跨视图注意力依赖于一个位置嵌入，该位置嵌入了场景的几何结构，并学习匹配相机视图和地图视图位置。所有相机共享相同的图像编码器，但使用依赖于它们各自相机标定的位置嵌入。最后，一个轻量级的卷积解码器上采样了精细化的地图视图嵌入，并产生最终的分割输出。整个网络是端到端可微分的，可以联合学习。图2显示了完整架构的概述。0在第 3.1节中，我们首先介绍了整个架构的核心跨视图注意力机制和位置嵌入。然后，在第 3.2节中，将多个跨视图注意力层组合成最终的地图视图分割模型。03.1. 跨视图注意力0跨视图注意力的目标是将地图视图表示与图像视图特征链接起来。对于任何世界坐标 x ( W ) ∈ R 3，透视变换描述了其对应的图像坐标 x ( I ) ∈ R 3 ：0x ( I ) � K k R k ( x ( W ) − t k ) . (1)0这里，�表示等式成立，x ( I ) = ( ∙ , ∙ , 1)使用齐次坐标。然而，在相机视图中没有准确的深度估计或在地图视图中没有准确的地面上高度估计的情况下，世界坐标 x ( W )是不确定的。我们没有学习深度的显式估计，而是将任何深度不确定性编码到位置嵌入中，并让变换器学习深度的代理。我们首先将世界坐标和图像坐标之间的几何关系重新表述为用于注意力机制的余弦相似性。0sim k(x(I),x(W))=0�R−1kK−1kx(I)�∙�x(W)−tk�0∥R−1kK−1kx(I)∥∥(x(W)−tk∥. (2)0这种相似度仍然依赖于精确的世界坐标w(W)。接下来，我们用可以学习几何和外观特征的位置编码替换这种相似度的所有几何组件。0相机感知位置编码。相机感知位置编码从每个图像坐标x(I)i的未投影图像坐标dk,i=R−1kK−1kx(I)i开始。未投影图像坐标dk,i描述了从相机k的原点tk到深度1处的图像平面的方向向量。该方向向量使用世界坐标。137630我们使用MLP（在所有k个视图中共享）将这个方向向量dk,i编码为一个D维位置嵌入δk,i∈RD。在我们的实验中，我们使用D=128。我们将这个位置嵌入与图像特征ϕk,i结合在我们的跨视图注意机制的键中。这允许跨视图注意机制使用外观和几何线索推理不同视图之间的对应关系。接下来，我们展示如何为地图视图查询构建一个等效的表示。这个嵌入不能再依赖于精确的几何输入，而是需要在Transformer的连续层中学习几何推理。0地图视图潜在嵌入。几何相似度度量中的地图视图组件在方程2中包含世界坐标x(W)和相机位置tk。我们将两者都编码为单独的位置嵌入。我们使用MLP将每个相机位置tk转换为嵌入τk∈RD。我们在我们的Transformer中通过多次迭代逐步构建地图视图表示。我们从学习的位置编码c(0)∈Rw×h×D开始。地图视图位置编码的目标是产生道路每个元素的3D位置的估计。最初，这个估计在所有场景中是共享的，并且可能学习每个场景元素在地面平面上的平均位置和高度。然后，Transformer架构通过多轮计算来改进这个估计，得到新的潜在嵌入c(1)，c(2)，...。每个位置嵌入能够更好地将地图视图坐标投影到3D环境的代理中。根据方程2中的几何相似度度量，我们将地图视图嵌入c和相机位置嵌入τk之间的差异作为Transformer中的查询。0跨视图注意机制。我们的跨视图Transformer通过跨视图注意机制结合了两种位置编码。我们允许每个地图视图坐标关注一个或多个图像位置。关键是，并非每个地图视图位置在每个视图中都有对应的图像块。前置摄像头看不到后面，后置摄像头看不到前面。我们允许注意机制在对应的地图视图和相机视图透视图之间选择每个相机和位置。为此，我们首先将所有视图的相机感知位置嵌入δ1，δ2，...组合成一个单一的键向量δ=[δ1，δ2，...]。同时，我们将所有图像特征ϕ1，ϕ2，...组合成一个单一的值向量ϕ=[ϕ1，ϕ2，...]。我们将相机感知位置嵌入δ和图像特征ϕ组合起来计算注意力键。最后，我们在键[δ，ϕ]、值ϕ和地图视图查询c−τk之间执行softmax交叉注意力[41]。softmax注意力使用余弦相似度计算0将键和查询作为基本构建块0sim(δk,i,ϕk,i,c(n)j,τk)=(δk,i+ϕk,i)∙�c(n)j−τk�0∥ δ k,i + ϕ k,i ∥∥ c ( n ) j −τ k ∥ . (3)0这个余弦相似度遵循方程2中的几何解释。这种跨视图注意力形成了我们跨视图Transformer架构的基本构建块。03.2. 跨视图Transformer架构0网络的第一阶段为每个输入图像构建了一个摄像机视图表示。我们将每个图像I i 输入到特征提取器(EfficientNet-B4[39])中，并得到一个多分辨率的补丁嵌入{ ϕ 1 1 , ϕ 2 1 , . .. , ϕ R n }，其中R是我们考虑的分辨率数量。我们发现R =2的分辨率足够产生准确的结果。我们分别处理每个分辨率。我们从最低分辨率开始，使用跨视图注意力将所有图像特征投影到地图视图中。然后我们对地图视图嵌入进行细化，并重复这个过程以处理更高的分辨率。最后，我们使用三个上卷积层生成完整分辨率的输出。这个架构的详细概述如图2所示。最终的网络是端到端可训练的。我们使用地面真值语义地图视图注释和焦点损失[19]训练所有层。04. 实现细节0架构。我们使用（并微调）预训练的EfficientNet-B4[39]来计算两个不同尺度的图像特征 - (28, 60)和(14,30)，分别对应8倍和16倍的降采样。初始的地图视图位置嵌入是一个学习的参数张量w × h × D，其中D =128。为了计算效率，我们选择w = h =25作为交叉注意力函数的网格大小，因为交叉注意力函数的计算复杂度随着网格大小的增加呈二次增长。编码器由两个交叉注意力块组成：一个用于每个尺度的补丁特征。我们使用4个头的多头注意力和嵌入大小d head =64。解码器由三个（双线性上采样 +卷积）层组成，将潜在表示上采样到最终的输出尺寸。每个上采样层将分辨率增加2倍，直到最终的输出分辨率为200× 200。这对应于以自车为中心的100 × 100米区域。0训练。我们使用焦点损失[19]对所有模型进行训练，每个GPU的批量大小为4，共进行30个epochs。我们使用AdamW[21]优化器，学习率为1e-2，权重衰减为1e-7。在4个GPU的机器上，训练收敛时间为8小时。137640设置1 设置2 参数数量(M) FPS0PON [32] 24.7 - 38 30 VPN [28] 25.5 - 18 - STA[34] 36.0 - - - Lift-Splat [29] - 32.1 14 25 FIERY [14]37.7 35.8 7 8 我们的方法 37.5 36.0 5 350表1.nuScenes上的车辆地图视图分割。设置1是Roddick等人提出的100m× 50m，25cm分辨率的设置。设置2是Philion和Fidler提出的100m ×100m，50cm分辨率的设置。两个设置都使用交并比(IoU)指标进行评估。数值越高越好。为了公平比较，我们只使用单时间步模型。特别地，我们与FIERY static[14]进行比较。在这两个设置中，我们的跨视图Transformer以更小的模型运行，并在推理过程中运行速度提高了4.5倍，达到了最先进的水平。05. 结果0我们在nuScenes [3]和Argoverse[4]数据集上评估了我们的跨视图Transformer在车辆和道路地图视图语义分割上的性能。0数据集。nuScenes[3]数据集是一个包含1000个不同场景的集合，这些场景在各种天气、时间和交通条件下收集。每个场景持续20秒，包含40帧，总共有40k个样本。记录的数据捕捉了自车周围360°的全景视图，由6个摄像机视图组成。每个摄像机视图在每个时间步长上都有校准的内参K和外参(R,t)。除非另有说明，我们将每个图像调整为224×448的大小。Argoverse[4]数据集包含10k个帧。场景中的车辆和其他物体在帧之间进行跟踪，并使用LiDAR数据注释了3D边界框。根据自车的姿态，我们生成了地面真值标签y，即在分辨率为(200,200)的地面平面上通过正交投影3D边界框注释生成的二进制车辆占用掩码，遵循标准实践[14, 29]。0评估。对于地图视图车辆分割，有两种常用的评估设置。设置1在车辆周围使用100m×50m的区域，以25cm的分辨率对地图进行采样。这个设置由Roddick等人[32]推广，是与之前的工作进行主要比较的设置。设置2[29]在车辆周围使用100m×100m的区域，以50cm的采样分辨率。这个设置由Philion和Fidler[29]推广，是与Lift-Splat-Shoot[29]和FIERY[14]进行比较的设置。我们在所有消融实验中使用设置2。在这两个设置中，我们使用模型预测和地图视图标签之间的交并比（IoU）得分进行评估。0车辆可行驶区域0OFT [33] 30.1 71.7 Lift-Splat [29] 32.172.9 我们的模型 36.0 74.30Monolayout [26] 32.1 58.3 PON [32]31.4 65.4 我们的模型 35.2 73.60表2.与执行车辆和可行驶区域的地图视图分割的模型进行的额外比较。顶部和底部行分别对应于nuScenes[3]设置2和Argoverse[4]数据集。0以地图视图标签作为主要性能指标。我们还报告在RTX2080 Ti GPU上测得的推理速度。05.1. 与之前的工作进行比较0我们将我们的模型与五种最具竞争力的在线地图制作方法进行比较。为了公平比较，我们只使用单时间步模型，不考虑时间模型。我们与金字塔占据网络（PON）[32]、正交特征变换（OFT）[33]、视图解析网络（VPN）[28]、时空聚合（STA）[34]、Lift-Splat-Shoot[29]和FIERY[14]进行比较。PON、VPN、STA只在设置1中报告数据，而Lift-Splat-Shoot只使用设置2。在这两个设置中，我们的跨视图变换器和FIERY在所有替代方法中都表现出显著的优势。我们的跨视图变换器和FIERY的性能相当。我们在设置2中稍微领先，FIERY在设置1中领先。我们模型的主要优势是简单和推理速度，以及相应的模型大小优势。我们的模型训练速度显著提高（32个GPU小时对比96个GPU小时），推理速度提高4倍。0没有相机感知嵌入 δ 31.0 没有图像特征 ϕ在注意力中 33.2 没有地图视图嵌入细化33.60完整模型 36.00表3.跨视图注意力机制的消融实验。第一行与不使用相机感知位置嵌入的模型进行比较，因此只使用图像特征作为注意力键。第二行不在注意力机制的键中使用任何图像特征。第三行在相机视图中使用完整的注意力计算，但不对地图视图的位置嵌入进行细化。所有部分模型都有一定程度的性能下降，表现低于完整模型。02550750102030012320253035137650我们故意使用与FIERY相同的图像特征提取器（EfficientNet-B4）[39]和类似的解码器架构。这表明我们的跨视图变换器能够以更高效的方式结合多个视图的特征。05.2. 跨视图注意力消融实验0我们方法的核心要素是跨视图注意力机制。它将相机感知嵌入和图像特征作为键，学习到的地图视图位置嵌入作为查询。地图视图嵌入可以在多次迭代中进行更新，而相机感知嵌入包含一些几何信息。表3比较了注意力机制的每个组成部分对最终地图视图分割系统的影响。对于每个消融实验，我们使用等效的实验设置从头开始训练模型，逐个更改单个组件。0我们系统中最重要的组件是相机感知的位置嵌入。它赋予了注意力机制推理场景的几何布局的能力。没有它，注意力机制必须依赖图像特征来揭示自己的位置。网络可能会通过感受野的大小和图像边界的零填充来学习这种定位。然而，仅仅依靠图像特征很难正确地连接地图视图和相机视图。它还需要明确推断每个图像面对的方向以消除不同视图之间的歧义。另一方面，单纯的几何相机感知位置嵌入也是不够的。网络很可能使用语义和几何线索来对齐地图视图和相机视图，特别是在地图视图嵌入经过细化之后。最后，使用单一固定的地图视图嵌入也会降低模型的性能。最终模型在所有的注意力组件都使用时表现最佳。0方法 IoU0无 31.0 每个摄像头学习的 34.4摄像头感知 + 随机傅里叶 35.8摄像头感知 + 线性投影 36.00表4.摄像头感知的位置嵌入的消融实验。第一行与不使用摄像头感知的位置嵌入的模型进行了比较，因此只使用图像特征作为注意力键。第二行为每个摄像头使用了学习的嵌入。第三行使用了具有随机傅里叶投影的摄像头感知的位置嵌入。最后一行使用了具有线性投影的摄像头感知的位置嵌入（默认）。0最小距离（米）0IoU0我们的方法 FIERY0图3.模型性能与距离的比较。每个条目显示了至少距离d的注释的平均交并比准确性。05.3. 摄像头感知的位置嵌入0正如我们之前所看到的，摄像头感知的位置嵌入在跨视图变换器的成功中起着重要作用。表4比较了该嵌入的不同选择。我们消融了位置嵌入，保持所有其他模型和训练参数不变。不使用任何位置嵌入的性能较差。注意机制很难定位特征并识别摄像头。每个摄像头使用一个学习的嵌入的性能出奇地好。这可能是因为摄像头校准基本保持静态，学习的嵌入只是将所有几何信息固定在内。使用线性或随机傅里叶投影的摄像头感知嵌入性能最好。这并不令人意外，因为两者都可以学习到直接捕捉场景几何的紧凑嵌入。05.4. 准确性与距离的关系0接下来，我们评估我们的模型在与自车距离增加时的性能。对于这个实验，我们测量交并比准确性，但忽略了与自车距离较近的部分。0# 删除的摄像头数0IoU0图4. 当我们随机丢弃m ∈ {0, 1, 2,3}个摄像头时，我们模型的性能下降。随着删除的摄像头数量线性减少，观察区域也大致线性减少。137660图5.在具有不同遮挡程度的场景上的定性结果。左侧显示了围绕车辆的六个摄像头视图。前三个视图是面向前方的，后三个视图是面向后方的。右侧是我们对车辆和可行驶区域的预测地图视图分割。右二是参考的地面真值分割。自车位于地图中心。0忽略与自车距离小于某个特定距离的所有预测。图3与我们最接近的竞争对手FIERY进行了比较。0两个模型具有几乎相同的错误模式。随着与摄像头的距离增加，模型的准确性降低。这可以通过图5中的实际定性结果最容易解释。远离的车辆通常（部分）被遮挡，因此更难检测和分割。0我们的方法在近距离下的性能下降较慢，但在较远距离下略低于FIERY。0部分遮挡的远距离样本具有较少的对应图像特征，因此直接从地图视图到摄像头视图的映射更加困难：训练数据较少，几何先验较少可靠。我们预计更多数据可以弥补这种差异。137670图6.跨视图注意力的可视化。我们从地图视图坐标中计算注意力，并可视化前置摄像头视图中相应的注意力值。请注意，网络通过这种注意力机制学习几何对应关系。05.5. 对传感器丢失的鲁棒性0我们采用在所有六个输入上训练的模型，并通过在验证集中随机删除m个相机来评估交并比（IoU）指标。图4显示了性能随删除相机数量线性下降的情况。这是非常直观的，因为不同的相机之间只有轻微的重叠。因此，每个删除的相机线性减少可见区域，并降低了未观察到区域的性能。请注意，基于变换器的模型对于这种相机丢失通常非常稳健，并且整体性能不会降低到场景的未观察部分。05.6. 定性结果0图5显示了各种场景的定性结果。对于每一行，我们展示了六个输入相机视图和预测的地图视图分割以及地面真实分割。我们提出的方法可以准确地分割附近的车辆，但对远处或遮挡的车辆感知效果不佳。05.7. 跨视图注意力中的几何推理0我们的定量实验表明，跨视图注意力可以学习一些几何推理。在图6中，我们可视化了地图视图中几个点的图像视图注意力。每个点对应于车辆的一部分。从定性证据来看，注意机制可以突出显示密切对应的地图视图和相机视图位置。06. 结论0我们提出了一种基于跨视图变换器架构的新型地图视图分割方法，该方法基于相机感知的位置嵌入。所提出的方法实现了最先进的性能，实现简单，并且实时运行。0致谢。本文基于国家科学基金会的资助，合同号为IIS-1845485和IIS-2006820。[12] Cl´ement Godard, Oisin Mac Aodha, Michael Firman, andGabriel J Brostow. Digging into self-supervised monoculardepth estimation. In CVPR, 2019. 2[13] John Houston, Guido Zuidhof, Luca Bergamini, YaweiYe, Long Chen, Ashesh Jain, Sammy Omari, VladimirIglovikov, and Peter Ondruska. One thousand and one hours:Self-driving motion prediction dataset. In CoRL, 2021. 2[15] Takeo Kanade and Masatoshi Okutomi. A stereo matchingalgorithm with an adaptive window: Theory and experiment.TPAMI, 1994. 1, 2[18] Alex H Lang, Sourabh Vora, Holger Caesar, Lubing Zhou,Jiong Yang, and Oscar Beijbom. Pointpillars: Fast encodersfor object detection from point clouds. In CVPR, 2019. 2[19] Tsung-Yi Lin, Priya Goyal, Ross Girshick, Kaiming He, andPiotr Doll´ar. Focal loss for dense object detection. In CVPR,2017. 4[20] H Christopher Longuet-Higgins. A computer algorithm forreconstructing a scene from two projections. Nature, 1981.1, 2[21] Ilya Loshchilov and Frank Hutter. Decoupled weight decayregularization. In ICLR, 2017. 4[22] Abdelhak Loukkal, Yves Grandvalet, Tom Drummond, andYou Li. Driving among flatmobiles: Bird-eye-view occu-pancy grids from a monocular camera for holistic trajectoryplanning. In WACV, 2021. 2[23] Chenyang Lu, Marinus Jacobus Gerardus van de Molen-graft, and Gijs Dubbelman.Monocular semantic occu-pancy grid mapping with convolutional variational encoder–decoder networks. Robotics and Automation Letters, 2019.2[24] Xinzhu Ma, Zhihui Wang, Haojie Li, Pengbo Zhang, WanliOuyang, and Xin Fan. Accurate monocular 3d object detec-tion via color-embedded 3d reconstruction for autonomousdriving. In ICCV, 2019. 2[25] Fabian Manhardt, Wadim Kehl, and Adrien Gaidon. Roi-10d: Monocular lifting of 2d detection to 6d pose and metricshape. In CVPR, 2019. 2[26] Kaustubh Mani, Swapnil Daga, Shubhika Garg, Sai ShankarNarasimhan, Madhava Krishna, and Krishna Murthy Jataval-labhula. Monolayout: Amodal scene layout from a singleimage. In WACV, 2020. 5[27] Zak Murez, Tarrence van As, James Bartolozzi, Ayan Sinha,Vijay Badrinarayanan, and Andrew Rabinovich. Atlas: End-to-end 3d scene reconstruction from posed images. In ECCV,2020. 2[28] Bowen Pan, Jiankai Sun, Ho Yin Tiga Leung, Alex Ando-nian, and Bolei Zhou.Cross-view semantic segmentationfor sensing surroundings. Robotics and Automation Letters,2020. 2, 5[29] Jonah Philion and Sanja Fidler. Lift, splat, shoot: Encodingimages from arbitrary camera rigs by implicitly unprojectingto 3d. In ECCV, 2020. 1, 2, 5[30] Charles R Qi, Hao Su, Kaichun Mo, and Leonidas J Guibas.Pointnet: Deep learning on point sets for 3d classificationand segmentation. In CVPR, 2017. 2[31] Ren´e Ranftl,Katrin Lasinger,David Hafner,KonradSchindler, and Vladlen Koltun. Towards robust monoculardepth estimation: Mixing datasets for zero-shot cross-datasettransfer. TPAMI, 2020. 2[32] Thomas Roddick and Roberto Cipolla. Predicting semanticmap representations from images using pyramid occupancynetworks. In CVPR, 2020. 2, 5137680参考文献0[1] Sameer Agarwal, Yasutaka Furukawa, Noah Snavely, IanSi- mon, Brian Curless, Steven M Seitz, and Richard Szeliski.Building rome in a day. Communications of the ACM, 2011.20[2] Syed Ammar Abbas and Andrew Zisserman. A geometricapproach to obtain a bird’s eye view from an image. InICCV Workshops, 2019. 1, 20[3] Holger Caesar, Varun Bankiti, Alex H. Lang, Sourabh Vora,Venice Erin Liong, Qiang Xu, Anush Krishnan, Yu Pan, Gi-ancarlo Baldan, and Oscar Beijbom. nuScenes: A multi-modal dataset for autonomous driving. In CVPR, 2020. 1, 2,0[4] Ming-Fang Chang, John Lambert, Patsorn Sangkloy, Jag-jeet Singh, Slawomir Bak, Andrew Hartnett, De Wang, PeterCarr, Simon Lucey, Deva Ramanan, et al. Argoverse: 3dtracking and forecasting with rich maps. In CVPR, 2019. 50[5] Marius Cordts, Mohamed Omran, Sebastian Ramos, TimoScharw¨achter, Markus Enzweiler, Rodrigo Benenson, UweFranke, Stefan Roth, and Bernt Schiele. The cityscapesdataset. In CVPRW, 2015. 20[6] David Eigen, Christian Puhrsch, and Rob Fergus. Depthmap prediction from a single image using a multi-scaledeep net- work. NeurIPS, 2014. 20[7] Jan-Michael Frahm, Pierre Fite-Georgel, David Gallup,Tim Johnson, Rahul Raguram, Changchang Wu, Yi-Hung Jen,Enrique Dunn, Brian Clipp, Svetlana Lazebnik, et al. Build-ing rome on a cloudless day. In ECCV, 2010. 20[8] Huan Fu, Mingming Gong, Chaohui Wang, Kayhan Bat-manghelich, and Dacheng Tao. Deep ordinal regression net-work for monocular depth estimation. In CVPR, 2018. 20[9] Noa Garnett, Rafi Cohen, Tomer Pe’er, Roee Lahav, andDan Levi. 3d-lanenet: end-to-end 3d multiple lane detection.In ICCV, 2019. 20[10] Andreas Geiger, Philip Lenz, and Raquel Urtasun. Are we

下载后可阅读完整内容，剩余1页未读，立即下载