学习联合2D-3D表示用于深度完成

178 浏览量更新于2023-10-12 收藏 1.69MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

10023学习联合2D-3D表示用于深度完成Yun Chen1 Bin Yang1，2 Ming Liang1 Raquel Urtasun1，21Uber Advanced Technologies Group2多伦多大学{yun.chen，byang10，ming.liang，urtasun}@ uber.com摘要本文研究了RGBD数据的深度补偿问题。为了实现这一目标，我们设计了一个简单而有效的神经网络块，学习提取联合2D和3D特征。具体来说，该块由两个特定于域的子网络组成，它们对图像像素应用2D卷积，对3D点应用连续卷积，其输出特征在图像空间中融合。我们简单地通过堆叠所提出的块来构建深度补全网络，这具有学习在多个级别上在2D和3D空间之间完全融合的层次表示的优势。我们证明了我们的方法在具有挑战性的KITTI深度完井基准上的有效性，并表明我们的方法优于最先进的方法。1. 介绍在过去几年中，包含图像信息以及深度的传感器的使用它们通常用于诸如自动驾驶车辆、机器人操纵以及游戏等应用中。虽然像相机这样的无源传感器通常生成密集数据，但是像LiDAR（光检测和测距）这样的有源传感器因此，世界的这种半密集表示在接近对象边界的区域可能是不准确的一种解决方案是使用具有更高数据密度的高端深度传感器，但它们通常非常昂贵。一种更经济实惠的替代方法是深度完成（如图1所示），它将稀疏深度观察和密集图像作为输入，并估计密集深度图。在实践中，深度补全通常被用作下游感知任务（诸如检测、语义分割或实例分割）的前体尽管多次尝试解决该问题，深度完成仍然没有解决。诸如从图像中提取深度的固有模糊性以及非结构化稀疏深度观测中的噪声和不确定性之类的挑战使得深度完成成为一项重要任务。稀疏深度输入RGB图像输入密集深度输出图1. 深度完井任务的图示。该模型将稀疏深度图（LiDAR点云的投影）和密集RGB图像作为输入，并生成密集深度图。许多方法[33，7，21，26，34]仅通过将3D点云投影到2D图像空间来在2D空间中推理。卷积神经网络（CNN）通常用于学习2D空间中的多模态表示。然而，由于度量空间在相机投影之后失真，因此此类方法难以捕获精确的3D几何线索。因此，添加了表面法线估计等辅助任务，以更好地监督特征学习[26]。其他方法[32]仅通过提取3D特征在3D空间中进行推理（例如，截断符号距离函数[24]），并应用3D CNN来学习3D表示并在3D中密集地完成场景缺点是缺乏对密集图像数据的利用，密集图像数据可以提供有区别的外观线索。相比之下，在本文中，我们利用在2D和3D空间的表示，并设计一个简单而有效的架构，融合这些表示之间的信息具体来说，我们设计了一个2D-3D的熔丝块，在2D中获取特征图10024图像空间作为输入，分支成两个子网络，分别通过多尺度2D卷积和连续卷积[37]学习2D和3D空间中的表示，然后融合回2D图像空间。得益于模块化设计，我们可以通过简单地按顺序堆叠2D-3D熔断器模块来创建各种模型尺寸的网络。与其他基于多传感器融合的表示[38，17]相比，通常在整个网络中仅融合来自每个传感器的特征因此，虽然块内的域特定子网络分别提取专用2D和3D表示，但将这样的块堆叠在一起导致分层联合表示学习，其充分利用两个传感器模态之间的互补信息。我们在具有挑战性的KITTI深度完井基准[33]上验证了我们的方法，并表明我们的方法在深度均方根误差（RMSE）方面优于所有以前的最先进方法。请注意，我们的模型仅使用KITTI训练数据从头开始训练，并且仍然优于利用外部数据或多任务学习的其他方法。这进一步展示了所提出的模型在学习联合2D- 3D表示方面的优越性。我们还进行了详细的消融研究，以调查模型的每个组件的效果，并表明，我们的模型实现了更好的权衡精度与模型大小相比，最先进的。2. 相关工作在本节中，我们回顾了之前关于RGB数据的深度估计、RGBD数据的深度完成以及RGBD数据的表示学习的热门文献2.1. 基于RGB数据的深度估计早期的方法[20，14，15，28]通过将概率图形模型应用于手工制作的特征来估计单个RGB图像的深度。随着深度卷积神经网络（CNN）在图像识别Eigen等人[6]设计了一个多尺度深度网络，用于从单个图像进行深度估计。Laina等人[16]我们在一个尺度上解决了这个问题--深度全卷积神经网络Liu等[18]将深度表示与连续条件随机场（CRF）相结合，以获得更平滑的估计。Roy和Todorovic [27]提出将深度表示与随机森林相结合，并在预测平滑度和效率之间实现了良好的权衡。最近的无监督方法[9，10]利用视图合成作为监督信号，而一些[22，35，40]进一步将该想法扩展到视频。然而，由于固有由于来自图像的深度的模糊性，这些方法难以产生高质量的密集深度。2.2. RGBD数据深度完井与深度估计不同，深度完成的任务试图利用稀疏深度图（例如，深度图）。来自LiDAR传感器的点云扫描）以及可能的图像数据来预测高分辨率密集深度。早期的工作[11，19]采用小波分析来从稀疏样本生成密集的深度/视差。最近，深度学习方法在深度完成方面取得了优异的性能Uhrig等人[33]提出了稀疏不变CNN，仅从稀疏输入中提取更好的表示。Ma等人[23]提出将稀疏深度与RGB图像连接在一起，并馈送到基于CNN的编码器-解码器中进行深度完成。类似的方法也适用于自我监督设置[21]。而不是使用CNN，程等。[2]使用递归卷积来估计深度完成的亲和矩阵。除了网络架构方面，其他方法利用多任务学习的语义上下文。Schneider等人[29]用于更清晰的深度估计的前对象边界线索。还利用语义分割任务来共同学习场景的更好语义特征[13，34]。Qiu等[26]在深度完井中增加了表面法线估计的辅助任务。Yang等[39]通过在大规模模拟数据上进行训练来学习图像的深度先验。与这些方法相比，这些方法专注于更好的网络架构，并利用更多的上下文或其他数据集和标签的先验知识我们的方法通过学习更好的表示来提高这是通过专门为RGBD数据设计的新神经网络块我们在实验中表明，我们能够学习强大的联合2D-3D表示从RGBD数据与所提出的方法，并实现最先进的性能，在深度完成。2.3. RGBD数据的表示Song等人[30]从深度图像中提取多个手工制作的特征（TSDF [24]，点密度，3D法线，3D形状）用于3D对象检测。在[31]中，基于RGBD的联合表示是通过将3D CNN应用于深度图像的3D体积和2D CNN应用于RGB图像并将它们连接在一起来学习的。Chen等人[1]通过将2D CNN应用于3D点云的多视图投影并结合ROI级别的图像特征来提取3D特征。Xu等[38]使用了类似的方法，但采用了PointNet [25]来直接提取原始点上的3D特征在[36]中，通过融合像素特征和点特征，将相同的表示进一步扩展到像素级。Liang等人[17]首先将稀疏LiDAR点离散化为密集的鸟瞰视图体素表示，并应用2D CNN提取BEV表示。的10025（C，H，快捷Conv（3、1、（C，H，（C，H，（C，H，（C，H，（C、H/2、W/2）Conv（3，2，C）Conv（3，1，C）双线性上采样z（N，z（N，Conv（3、1、yyXX提取点连续特征卷积卷积稀疏图像的连续（C，H，图2. 2D-3D保险丝盒的架构。 2D-3D熔丝块由两个分支组成，多尺度2D卷积分支和3D连续卷积分支。Conv（k，s，c）表示具有内核大小k、步幅s和输出通道c的2D卷积。括号中的灰色数字表示特征的形状。多尺度2D分支具有两个尺度。一个具有与输入相同的尺度，并且由一个卷积组成。另一个通过步幅2卷积进行下采样，然后进行卷积，然后以2进行双线性上采样。在3D分支中，我们首先在点的投影位置处提取点特征作为图像特征，然后应用两个连续卷积，最后将点投影到图像空间以形成稀疏图像特征图。连续卷积使用K-Nearest-Neighbors算法来找到每个点的邻居。在图中，我们以K=3为例，仅显示红点上的卷积运算。注意，2D空间中的相邻点在3D空间中不一定彼此接近。所有卷积之后都是批量归一化和ReLU。通过连续卷积[37]将2D图像特征密集地融合回BEV空间与这些方法相比，我们的方法使用特定领域的网络进行2D和3D表示学习，并且两个特征在整个网络的多个级别上融合回2D图像空间，而不是只融合一次。因此，我们能够从RGBD数据中学习更密集的融合表示。3. 学习联合2D-3D表示我们解决了RGBD传感器的深度完成问题现有的方法通常依赖于2D或3D表示来解决这个任务。相比之下，在本文中，我们利用这两种类型的表示和设计一个简单而有效的架构，融合这些表示之间的信息在多个级别- els。特别是，我们提出了一个新的构建块的神经网络上运行的RGBD数据。它是由两个分支，生活在不同的度量空间。在一个分支中，我们使用传统的2D卷积从2D度量空间中的密集像素中提取在另一个分支中，我们使用连续卷积[37]来捕获3D度量空间中稀疏点的几何依赖性。我们的方法可以被视为将特征传播到2D和3D度量空间，学习外观和每个度量空间中的几何特征，然后将它们融合在一起。我们简单地通过堆叠2D-3D熔丝块来构建深度完井网络。这种模块化设计有两个好处。首先，网络能够学习在多个级别（所有块）完全融合的联合2D第二，网络架构简单且便于修改，以实现性能和效率的期望折衷本节的其余部分组织如下：我们首先介绍我们的2D-3D熔丝块。然后，我们给出了部署所提出的块来构建用于深度完成的神经网络的示例。最后，我们提供了我们的深度补全网络的训练和推理细节。3.1. 2D 3D积木我们在图2中示出了所提出的2D-3D熔丝块的示意图。该块将形状为C×H×W的2D特征图和形状为N×3的一组3D点作为输入。我们假设我们也被给予投影矩阵，利用该投影矩阵我们可以从3D度量空间投影点到2D特征图。块的输出是具有与输入相同分辨率的2D特征图，这使得通过堆叠块来构建网络变得简单，以用于像素级预测任务，如深度补偿。在街区内部，它的建筑可以分为两部分10026图3. conv（3，1）、conv（3，2）和连续卷积的感受野示例。在2D卷积中，相邻者在图像网格上定义，并且在3D空间中不一定彼此接近。感受野可以覆盖前景和背景物体。在所示的示例中，卷积在红色像素处执行。绿色像素在近车上，黄色像素在远车上。相比之下，连续卷积中的邻居基于精确的3D几何相关性。子网：多尺度2D卷积网络和3D连续卷积网络。将输入特征分布到每个子网络中并在每个子网络中进行处理，并且将它们的输出与简单的融合层相结合。我们请读者参阅图2，以了解我们的方法。多尺度2D卷积网络：我们使用2D卷积网络来提取外观特征。我们将2D卷积层表示为conv（k，s，c），其中k表示k×k滤波器大小，s表示卷积步长，C表示输出通道的数量我们采用两分支网络结构，以便提取多尺度特征。第一个分支与输入具有相同的分辨率，我们简单地应用conv（3，1，C）。第二分支由conv（3，2，C）、conv（3，1，C）和upsample（2）组成，其中第一层将特征图下采样2，最后一层经由双线性插值将特征图上每次卷积后使用批归一化和ReLU非线性。两个分支的输出具有相同的形状C×H×W作为输入，我们通过逐元素求和将它们3D连续卷积网：我们直接在3D点上利用连续卷积[37]来学习3D度量空间中的几何特征。连续卷积的关键概念与传统的2D卷积相同，因为每个点的输出特征是几何空间中相邻点的变换特征的加权和。但是他们使用不同的方法来找到邻居并执行加权和。对于2D卷积，数据是网格结构的，因此使用周围像素作为中心像素的邻居是很自然的。此外，每个近邻具有其对应的权重，该权重用于在求和之前对其特征进行变换。然而，3D点可以任意放置，并且它们的邻居不像网格数据那样自然。在连续卷积中，我们使用K- Nearest-neighbors算法来基于欧氏距离找到点的K个邻居。我们还使用多层感知器（MLP）参数化加权函数。在实践中，我们使用以下连续卷积的实现Σhi=W（MLP（xi−xk）⊙fk）（1）K其中，i是点的索引，k是邻居的索引，x表示点的三维位置，fk和hi表示特征，W是权重矩阵，并且k表示逐元素乘积。注意，MLP的输出具有fk的形状。该实现可以被视为可分离卷积的连续形式所述MLP和加权和执行深度卷积，而线性变换类似于1×1卷积。我们进行这种分离，以减少内存和计算开销。在我们的块中，我们首先通过将点投影到2D特征图并在投影像素处提取特征来查询每个3D点的特征。在此步骤之后，我们得到形状N×3的3D点以及形状的点特征N×C。然后，我们将两个连续卷积应用于点特征我们使用两层MLP，其隐藏特征-实际尺寸和输出特征尺寸分别为C/2和C。每个连续卷积之后是批量归一化和ReLU非线性。然后将N×3个3D点投影回空的2D要素映射并将N×C点特征分配到相应的投影像素通过这种方式，我们获得稀疏的2D特征映射作为3D子网络的输出。输出具有与2D子网络的输出相同的形状。融合：由于2D和3D子网络的输出特征图具有相同的形状，因此我们只需通过元素求和来融合它们然后我们应用conv（3，1，C）层来获得2D-3D熔丝块的输出以促进10027Conv（3，1，16）Concat2D-3D保险丝盒（C=64）Conv（3，1，32）X NConv（3，2，32）ConcatConv（3，2，16）Conv（3，1，1）Conv（3，1，32）图4. 基于2D-3D熔丝块的深度完井网络。2D-3D融合网络将图像和稀疏深度作为输入，并预测密集深度输出。网络的主要部分是N个2D-3D熔丝块的堆叠我们还在输入和输出阶段应用了一些卷积在训练中，当它们具有相同的特征尺寸时，我们还添加了从输入到输出的快捷连接。图3显示了2D卷积和连续卷积的感受野虽然2D卷积在网格结构的图像特征图上的相邻像素上操作，但连续卷积基于3D几何空间中的距离来查找相邻像素通过融合两个分支的输出，学习的表示在两个空间中捕获映射。在物体边界，深度估计通常很难用于基于2D卷积的方法，我们的方法有可能捕获非平滑的表示。3.3. 学习与推理我们使用在所有具有深度标签的图像像素上平均的202损失和平滑201损失的加权和作为我们的默认目标函数。L=2+γ1（2）其中γ是控制两种损耗之间平衡的系数像素i的平滑1损失被定义为：.0的情况。5（di− li）2如果|di− li|<1通过杠杆进行更精确的形状重建-在3D空间中老化几何特征。我们将在实验中表明，我们的模型预测更清晰，更明确的博尔-1（di，li）=|-0。| − 0. 5否则，（三）比其他的2D表示方法。3.2.将2D 3D块堆叠到网络我们的2D-3D保险丝盒可用作构建网络的基本模块。我们简单地在输入和输出阶段堆叠一组块加上一些卷积层，以获得我们的深度完成模型。在图4中，我们展示了一个具有N个2D-3D熔丝块的示例网络的架构。网络的输入包括深度图像和RGBD图像。我们首先将两个卷积层分别应用于每个输入。对于深度图像，我们使用conv（3，2，16）和conv（3，1，16）。对于RGBD im-我们使用conv（3，2，32）和conv（3，1，32）。然后，我们将两个输出连接起来，并将它们馈送到一个N2D-3D保险丝盒。从深度图像获得3D点并由块使用我们对块的输出进行上采样最后，我们应用另外两个卷积层以获得输出的密集深度图像。通过堆叠块，深度网络能够同时捕获大规模上下文和局部规模线索，并且几何和外观特征在多个层次上完全融合。其中di和li是预测深度和地面实况深度，分别注意，一些其他方法使用多任务目标函数，其利用诸如语义分割的其他任务来改进深度完成。虽然我们期望多任务目标函数的进一步性能增益，但我们选择单任务损失，因为目标函数与这项工作正交。在训练和推理过程中，我们预先计算所有三维点的最近邻指数进行连续卷积，并将网络应用于RGBD数据，得到预测结果。不需要后处理。4. 实验评价我们在KITTI深度完成基准[33]上进行了大量实验具体来说，我们通过提交到KITTI评估服务器的测试集上与其他深度完成方法进行比较，并表明我们的方法超越了所有以前的最先进的方法。我们还对验证集进行了广泛的消融研究，以比较和分析不同的模型变体。最后，我们提供了一些定性的结果，我们的方法。100284.1. 实验环境数据集：KITTI深度补全基准[33]包含86，898帧用于训练，1，000帧用于验证，1，000帧用于测试。每一帧都有一个扫描的激光雷达扫描和RGB图像从相机时代。LiDAR和相机已经用已知的变换矩阵进行了校准。对于每一帧，通过将3D LiDAR点云投影到图像来生成稀疏深度图像深度完成的地面实况表示为密集深度图像，其通过累积LiDAR扫描的多次扫描并投影到图像而生成。请注意，通过在训练和评估期间忽略相应的像素，从地面实况中移除与立体视差标签[12]不一致的深度离群值（由遮挡、动态对象或测量伪影引起）我们使用RGB图像和稀疏深度图像作为模型的输入。评价指标：KITTI深度补全基准报告了四个度量，分别是深度的均方根误差和平均绝对误差（ RMSE ，MAE）和逆深度（iRMSE，iMAE）。在所有这些指标中，我们主要关注RMSE，因为它直接在深度上测量错误，并在较大的错误上惩罚更多。KITTI排行榜还基于RMSE对方法进行排名。此外，我们进行了消融研究，其中我们用不同的目标函数优化了模型，并表明不同指标的权衡可以由不同的目标函数控制。寻找深度完井的最佳目标函数超出了本文的范围，我们方法RMSE（毫米）Mae（毫米）iRMSE（1/km）iMAE（1/km）SparseConvs [33]1601.33 481.274.941.78NN+CNN [33]1419.75 416.143.251.29MorphNet [4]1045.45 310.493.841.57CSPN [2]1019.64 279.462.931.15[13]第十三话917.64234.812.170.95NConv-CNN-L1 [7]859.22207.772.520.92[39]第三十九话832.94203.962.100.85NConv-CNN-L2 [7]829.98233.262.601.03Sparse2Dense [21]814.73249.952.801.21[26]第二十六话775.52245.282.791.25[34]第三十四话772.87215.022.190.93我们的保险丝网752.88221.192.341.14表1.在KITTI深度完井基准测试集上与最先进的方法进行比较，通过RMSE进行排名。*表示使用附加数据和标签训练的模型。4.2. 与最新技术我们在KITTI测试集上评估了我们最好的单个模型，该测试集在网络中顺序堆叠了N=12个块，每个块具有C=64个特征通道。我们在表1中显示了与KITTI深度完井基准上的其他最先进方法的比较结果。为了公平比较，我们标记了除了KITTI训练数据之外还使用外部训练数据和标签的方法。例如， DDP [39] 利用Virtual KITTI数据集[8]来学习给定图像的密集深度的条件先验。DeepLiDAR [26]在CARLA模拟器[5]生成的合成数据集上预训练模型，把它留给以后的工作。实施详情：KITTI验证集和测试集中的所有图像都已经被裁剪为1216 × 352的统一大小，而训练图像则没有。因此，我们在训练过程中将训练图像（RGB，稀疏深度和密集深度）随机裁剪为1216×352的大小。由于拟议模型的模块化设计，我们可以通过改变网络的宽度（特征通道的数量C）和深度（块的数量N）来创建不同的变体对于所有模型变体，我们随机初始化网络权重，并在16个GPU上训练，批量大小为32帧。训练时间表如下。我们首先训练模型，损失为100个epoch，初始学习率为0.0016，分别在65，80，85，90 epoch衰减0.1。然后，我们用50个epoch的损失和平滑的损失之和对模型进行微调在2D-3D熔丝块的3D连续卷积分支中，我们随机采样10，000个点，并应用K-D树预先计算每个点的9个最近邻的索引学习密集深度和曲面法线任务。融合-Net [34]在Cityscapes数据集[3]上使用预训练的语义分割网络。这些方法依赖于更多的数据和各种类型的标签来学习用于深度完成的良好表示相比之下，我们的模型仅在KITTI训练数据上训练，大大优于所有这些这显示了所提出的模型在从RGBD数据学习联合2D-3D表示方面优于其他方法。具体而言，我们的模型显着优于第二个最好的方法，有/没有外部数据的RMSE分别为20/62 mm。我们还在仅在KITTI数据上训练的方法中的其他三个指标中取得了最先进的结果4.3. 消融研究我们对KITTI深度完成基准的验证集进行了广泛的消融研究，以证明拟议模型中的我们首先比较了2D-3D熔丝块的不同变体，然后分析了不同网络结构和目标函数的效果。为了加快实验速度，10029表2.连续卷积分支中最近邻数的消融研究网络配置：C =32，N = 9。920900880860表3. 2D-3D融合块结构的消融研究。网络配置：C=32，N= 12。损失RMSEMaeiRMSEiMAEℓ2光滑17908392321972.512.231.160.912，7852172.361.08表4.目标函数的消融研究网络配置：C=64，N=12。我们仅用100个训练时期对不同的网络配置进行消融研究连续回旋支感受野840820800780250 500 1，000 2，000 5，000参数数量（K）图5.通过改变网络的特征通道数C和块数N，网络配置：我们通过改变网络的宽度（特征通道的数量C）和深度（块的数量N）来比较不同的网络配置。因此，我们能够实现不同的权衡之间的性能和模型的大小。我们在图5中绘制了与其他方法相比的结果，其中我们表明，与其他方法相比，我们的模型以较小的模型大小实现了更好的性能。目标函数：我们注意到，提出的2D-3D熔丝块由三个分支组成，一个2D卷积分支，另一个步长为2的2D卷积分支，以及一个3D连续卷积分支。由于我们通过明确列举两个不同的尺度（步幅1和步幅2）来改变2D卷积的感受野，因此我们想知道如何选择3D连续卷积分支的感受野，其由最近邻的数量控制我们在表2中显示了消融结果，从中我们可以看到该模型对该超参数非常稳健。在实践中，我们使用K=9个最近邻。2D-3D保险丝盒的架构：我们在表中比较了2D-3D保险丝盒的不同架构设计3 .第三章。特别是，我们想知道每个卷积分支有多少：步幅1和步幅22D卷积以及连续卷积对最终性能有贡献。如表3所示，多尺度2D卷积和连续卷积是互补的。我们依靠步长1卷积来提取局部特征，并依靠连续卷积来获得3D几何特征。此外，我们需要步幅2卷积来提取更好的全局特征，并将稀疏的3D几何特征传播到更大的区域。结果表明，这三个组成部分都是必要的设计的2D-3D熔丝块的深度完成。可以通过采用不同的损失函数来控制度量，选项。直观上，通过102损失可以实现更好的RMSE度量，而通过101损失可以实现更好的MAE度量。我们通过比较分别使用100个epochs训练的模型和平滑的100个epochs训练的模型来验证这一点。结果示于表4中。为了在所有四个指标上获得更好的平衡，我们最好的单个模型首先使用100个 epoch的102损失进行训练，然后使用102损失和平滑101损失的总和进行训练，再进行50个epoch。4.4. 定性结果我们在KITTI深度完井基准测试集上与两种最先进的方法NConv-CNN [7]和Sparse 2Dense [21]进行了如图6所示，由于使用了连续卷积来捕获准确的3D几何特征，我们的方法在近距离和远距离区域都能产生更清晰、更清晰的对象边界。我们得到了显着更好的结果，为遥远的物体，2D卷积几乎不能处理，由于有限的外观线索。这表明在深度完成任务中，3D中尺度不变几何特征的描述是非常重要的，并且所提出的2D-3D融合块提供了一种简单而有效的解决方案来学习联合2D和3D表示。方法#PARAM（K）RMSE（MM）BC[A] Sparse2Dense [21][B] [13]第十三话[C] NConv-CNN-L2 [7][D] FusionNet [34]FuseNet-C32-N6FuseNet-C32-N9FuseNet-C32-N12FuseNet-C32-N15FuseNet-C64-N125540∼530035520913224455686921898857917872811830810803799785一DFuseNetK最近邻3691215RMSE813810810816812RMSE（MM）步幅1conv步幅2conv续convRMSE（毫米）CC840CC826CC817CCC80310030[21]第七届中国国际汽车工业展览会图6.定性结果与两种最先进的方法比较（更好地查看颜色）。我们的模型产生了更清晰的物体边界，特别是在长距离。5. 结论在本文中，我们提出了一个简单而有效的架构，融合信息之间的二维和三维表示在多个层次。我们已经证明了EF-我们的方法在具有挑战性的KITTI深度完井基准上的有效性，并表明我们的方法超越了最先进的水平。在未来，我们计划将我们的方法扩展到融合其他传感器和视频序列的原因。10031引用[1] Xiaozhi Chen，Huimin Ma，Ji Wan，Bo Li，and TianXia.用于自动驾驶的多视角三维物体检测网络。在CVPR，2017年。2[2] Xinjing Cheng，Peng Wang，and Ruigang Yang.通过卷积空间传播网络学习的亲和力进行深度估计。在ECCV，2018。二、六[3] Marius Cordts ， Mohamed Omran ， Sebastian Ramos ，Timo Rehfeld，Markus Enzweiler，Rodrigo Benenson，Uwe Franke，Stefan Roth，and Bernt Schiele.用于语义城市场景理解的cityscapes数据集。在CVPR，2016年。6[4] Martin Dimitrievski，Peter Veelaert和Wilfried Philips。学习形态学算子进行深度补全。智能视觉系统的先进概念，2018年。6[5] Alexey Dosovitskiy 、 German Ros 、 Felipe Codevilla 、Antonio Lopez和Vladlen Koltun。卡拉：一个开放的城市驾驶模拟器。在CoRL，2017年。6[6] David Eigen、Christian Puhrsch和Rob Fergus。使用多尺度深度网络从单个图像进行深度在NIPS，2014。2[7] Abdelrahman Eldesokey ，Michael Felsberg ，and FahadShah- baz Khan.通过cnns的置信度传播用于引导稀疏深度回归。arXiv预印本arXiv：1811.01791，2018。一、六、七、八[8] Adrien Gaidon ， Qiao Wang ， Yohann Cabon ， andEleonora Vig.虚拟世界作为多对象跟踪分析的代理。在CVPR，2016年。6[9] Ravi Garg ，Vijay Kumar BG ，Gustavo Carneiro ，andIan Reid. 用于单视图深度估计的无监督CNN几何学拯救了我们。在ECCV，2016年。2[10] Cle' mentGodard，OisinMacAodha，andGabri elJBros-tow.具有左右一致性的无监督单目深度估计。在CVPR，2017年。2[11] Simon Hawe Martin Kleinsteuber和Klaus Diepold来自稀疏视差测量的密集视差图见ICCV，2011年。2[12] 海科·赫希穆勒基于半全局匹配和互信息的立体图像处理TPAMI，2008年。6[13] Maximilian Jaritz，Raoul de Charette，Emilie Wirbel，Xavier Perrotton，and Fawzi Nashashibi.使用cnns的稀疏和密集数据：深度完成和语义分割。在3DV，2018年。二六七[14] Kevin Karsch，Ce Liu，and Sing Bing Kang.深度转移：使用非参数采样从视频中提取深度。TPAMI，2014年。2[15] Janusz Konrad，Meng Wang，and Prakash Ishwar.通过从示例学习深度的2d到3d图像转换。载于CVPRW，2012年。2[16] Iro Laina、Christian Rupprecht、Vasileios Belagiannis、Federico Tombari和Nassir Navab。使用全卷积残差网络进行更深的深度预测。在3DV，2016年。2[17] Ming Liang ， BinYang ， Shenlong Wang ， and RaquelUrtasun.多传感器三维目标检测的深度连续融合在ECCV，2018。210032[18] Fayao Liu ， Chunhua Shen ， Guosheng Lin ， and IanReid.使用深度卷积神经场从单目图像学习深度。TPAMI，2016. 2[19] Lee-Kang Liu，Stanley H Chan，and Truong Q Nguyen.从稀疏样本进行深度重建：表示、算法和采样。TIP，2015年。2[20] Miaomiao Liu，Mathieu Salzmann，and Xuming He.从单个图像进行离散-连续深度估计CVPR，2014。2[21] Fangchang Ma ， Guilherme Venturelli Cavalheiro 和Sertac Karaman。自监督稀疏到密集：激光雷达和单目相机的自我监督深度完成。在ICRA，2019年。一二六七八[22] Reza Mahjourian，Martin Wicke，and Anelia Angelova.使用3d几何约束从单目视频进行深度和自我运动的无监督学习。在CVPR，2018年。2[23] Fangchang Mal和Sertac Karaman。稀疏到密集：从稀疏深度样本和单个图像进行深度预测。在ICRA，2018年。2[24] RichardANewcombe 、 ShahramIzadi 、 OtmarHilliges 、 David Molyneaux 、 David Kim 、 Andrew JDavison 、 Pushmeet Kohi 、 Jamie Shotton 、 SteveHodges和Andrew Fitzgibbon。运动融合：实时密集表面映射和跟踪。2011年一、二[25] Charles R Qi，Hao Su，Kaichun Mo，and Leonidas JGuibas.Pointnet：对点集进行深度学习，用于3D分类和分割。在CVPR，2017年。2[26] Jiaxiong Qiu ， Zhaopeng Cui ， Yinda Zhang ， XingdiZhang ， Shuaicheng Liu ， Bing Zeng ， and MarcPollefeys.深度：由稀疏激光雷达数据和单色图像进行深表面法线引导的室外场景深度预测。在CVPR，2019年。一、二、六[27] Anirban Roy和Sinisa Todorovic使用神经回归森林进行单目深度估计。在CVPR，2016年。2[28] Ashutosh Saxena、Sung H Chung和Andrew Y Ng。从单个单目图像学习深度。在NIPS，2006年。2[29] Nick Schneider ， Lukas Schneider ， Peter Pinggera ，Uwe Franke，Marc Pollefeys，and Christoph Stiller.语义引导的深度上采样。在2016年德国模式识别会议上2[30] 宋舒然和肖健雄。用于深度图像中的3d对象检测的滑动形状。2014年，在ECCV。2[31] 宋舒然和肖健雄。rgb-d图像中非模态3d目标检测在CVPR，2016年。2[32] Shuran Song 、 Fisher Yu 、 Andy Zeng 、 Angel XChang、Mano-lis Savva和Thomas Funkhouser。语义场景完成从一个单一的深度图像。在CVPR，2017年。1[33] Jonas Uhrig，Nick Schneider，Lukas Schneider，UweFranke，Thomas Brox，and Andreas Geiger.稀疏不变cnn。在3DV，2017年。一、二、五、六[34] Wouter Van Gansbeke ， Davy Neven ， Bert DeBrabandere，and Luc Van Gool.具有rgb制导和不确定性的稀疏和噪声激光雷达完成。2019年国际机器视觉应用会议（MVA）。一、二、六、七10033[35] Chaoyang Wang，Jose 'Miguel Buenaposada，Rui Zhu，and Simon Lucey.使用直接方法从单眼视频学习深度。在CVPR，2018年。2[36] Chen Wang，Danfei Xu，Yuke Zhu，Roberto Mart´ın-Mart´ın，Cewu Lu，Li Fei-Fei，and Silvio Savarese.致密化：基于迭代密集融合的6D目标姿态估计。在CVPR，2019年。2[37] Shenlong Wang ， Simon Suo ， Wei-Chiu Ma ， AndreiPokrovsky，and Raquel Urtasun.深度参数连续卷积神经网络。在CVPR，2018年。二、三、四[38] Danfei Xu，Dragomir Anguelov，and Ashesh Jain.点融合：三维包围盒估计的深度传感器融合。在CVPR，2018年。2[39] Yanchao Yang，Alex Wong，and Stefano Soatto.基于单幅图像和稀疏范围的稠密深度后验在CVPR，2019年。二、六[40] Tinghui Zhou ， Matthew Brown ， Noah Snavely ， andDavid G Lowe.视频深度和自我运动的无监督学习。在CVPR，2017年。2

下载后可阅读完整内容，剩余1页未读，立即下载