基于稀疏范围的深度学习系统：单幅图像与激光雷达测量相结合

135 浏览量更新于2023-10-19 收藏 1.76MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

3353基于单幅图像和稀疏范围的Yanchao Yang，Alex Wong，Stefano SoattoUCLA Vision Lab加州大学洛杉矶分校，CA 90095{yanchao.yang，alexw，soatto}@ cs.ucla.edu摘要我们提出了一个深度学习系统，通过利用稀疏距离测量（例如来自激光雷达）来推断与图像相关联的密集深度图的后验分布虽然激光雷达可以为一小部分像素提供深度值，但我们利用在训练集中反射的图像来完成地图，以便为图像中的每个像素提供深度概率。我们利用一个条件先验网络，它允许关联的概率，以每个深度值给定的图像，并将其与使用稀疏测量的似然项。可选地，我们还可以在训练期间利用立体声的可用性，但在任何情况下，在运行时只需要单个图像和稀疏点云我们使用KITTI基准测试了无监督和有监督深度完成的方法，并改进了两者的代码可以在：https：//github上找到。com/YanchaoYang/致密-深度-后部1. 介绍有许多密集的深度图与给定的图像和稀疏的点云兼容。因此，任何点估计都严重依赖于事先作出的解释.理想情况下，人们会计算深度图的整个后验分布，而不是点估计。后验提供了关于置信度的推理，随着时间的推移整合了激励应用程序。在自主导航中，来自激光雷达的稀疏点云可能不足以做出规划决策：1（中间，放大后看得更清楚）布满坑洞，还是表面光滑？投影到相邻像素上的在图像拓扑中附近的点在场景中可以任意远。例如，跨越遮挡边界的像素对应于场景中的大深度间隙。虽然激光雷达可能无法测量每个像素，但如果我们如果知道它投射到树上，树木往往会从地面突出，这会告知场景的拓扑结构。另一方面，跨越照明边界的像素，如树木投射的阴影，很少对应于大的深度不连续性。深度完成是为每个像素分配深度值的过程。虽然有几种基于深度学习的方法可以做到这一点，但我们希望对深度进行整个稀疏距离测量用于在度量空间中建立后验估计。然后，这可以由下游的决策和控制引擎使用。图1.一个图像（上图）不足以确定场景的几何形状;单独的点云（中间）类似地是不明确的。激光雷达回波显示为彩色点，但黑色区域不提供信息：黑色区域是路面上的洞，还是由于辐射吸收？结合单个图像、激光雷达点云和先前看到的场景，可以推断出高置信度的密集深度图（底部）。颜色条从左到右：从零到无穷大附带信息。如果通过单独处理给定图像和稀疏点云来获得密集深度图，则所得到的决策或控制动作的质量可以3354++j=1+图2. (A)条件先验网络（CPN）的架构，用于学习给定单个图像的密集深度的条件。(B)我们提出的深度完成网络（DCN）用于学习从稀疏深度图和图像到密集深度图的映射。为了简单起见，省略了每个编码器/解码器块内的连接- 在假设的深度图d下观察到的稀疏点云z的似然性，以产生后验概率，并且从后验概率产生深度图的最大后验（MAP）估计，用于基准评估：d=argmax P（d|I，z）P（z|d）PD（d|I）的第10条。（一）D设D→R2是图像域，在N×M维的规则格上采样，I：D→R3是彩色图像，其范围被量化为有限的颜色集，d：D→R+是定义在格D上的稠密深度图，我们用符号表示为维MN的向量：d∈RNM.k是图像域的稀疏子集，基数K=| Ω|其中函数d取值d（k）=z∈RK。Fi-nally，D={dj，Ij}n是图像Ij及其如果原始数据被馈送到下游（数据处理不等式），则不会更好。然而，如果深度补全可以利用来自先前看到的图像和对应的密集深度图的先前或聚合经验，则假设训练集是代表性的，则所得到的密集深度图有可能提高为了分析深度补全算法，重要的是要理解正在利用什么先验假设、假设或边信息。目标. 我们寻求方法来估计给定图像，稀疏深度图和由图像和相关的密集深度图组成的训练数据体的场景的几何和拓扑。我们的假设是，所看到的图像和相应的深度图的分布代表了当前的数据（图像和稀疏点云），一旦被限制到稀疏域。我们的方法在深度图上产生完整的后验，这比任何点估计都要强大得多。例如，它允许对置信区间进行推理我们选择最简单的点估计，这是最大的，以评估后验的准确性。然而，应该注意的是，当存在具有相似后验的多个更复杂的点估计，例如，考虑到记忆，或空间分布，非最大值抑制等。可以考虑，但在这里我们只限于最简单的一个。关键的想法。虽然单独的图像不足以确定深度图，但是在给定图像和先前看到的数据集的情况下，某些深度图比其他深度图更有可能。我们的方法的关键是一个条件先验模型P（d|I，D），其基于先前观察到的数据集D对每个密集深度图d与给定图像I的兼容性进行评分。这是使用条件先验网络（CPN）[36]结合一个模型，对应的稠密深度图dj∈RNM。因为我们不把D当作一个随机变量，而是一组给定的数据，所以我们把它写成下标。在某些情况下，我们可能有额外的-在训练过程中可用的数据，例如立体图像，在这种情况下，我们将其包括在数据集中，并详细讨论如何利用它在节。三点三结果我们训练了一个深度神经网络模型，以产生给定图像和稀疏点云（稀疏范围图）的密集深度图的后验分布的估计，该模型利用条件先验网络来重新估计深度图。严格的假设空间，加权一个经典的似然项。我们使用一个简单的最大后验（MAP）估计来评估我们在基准数据集上的方法，包括KITTI无监督，其中密集深度图是在给定图像和具有5%像素覆盖率的点云的情况下预测的我们在这两个方面都取得了最好的成绩我们还验证了补充材料中的其他数据[37]。2. 相关工作半致密深度完井。结构光传感器通常提供约20%缺失值的密集深度测量;在这个密度下，问题类似于使用形态操作[ 18，24 ]的修复[2，20，27]。我们感兴趣的机制涉及更稀疏的点云（>90%的缺失值）。监督深度完井。给定单个RGB图像及其相关的稀疏深度测量以及密集的地面实况，基于学习的方法[7，15，25，29，38]最小化预测和地面实况深度之间的相应损失。[29]使用稀疏卷积层训练深度网络回归深度，该稀疏卷积层对输入中的无效深度测量进行折扣，而[15]提出了稀疏不变上采样层，稀疏不变求和以及联合稀疏不变级联和卷积。[7]将二进制有效性图视为置信度图，并采用归一化卷积。3355通过层的置信度传播的解决方案。[5]使用反调和均值（CHM）滤波器实现形态算子的近似[23]，并将其作为一个层集成到U-Net架构中以实现深度完成。[4]提出了一种深度递归自动编码器，以模仿用于深度完成的压缩感知的优化过程，其中字典嵌入在神经网络中。[38]从RGB图像预测表面法线和遮挡边界，这给出了场景结构的粗略表示。预测的表面法线和遮挡边界作为约束被纳入由稀疏深度引导的全局优化框架无监督深度完井。在这个问题集中，密集的地面实况深度不可用作监督，因此强先验是关键。[21]提出基于单个图像深度预测中的类似公式，最小化具有二阶平滑先验的图像序列之间的光度一致性损失[22，30，39]。[21]使用Perspective-n-Point（PSENS）[19]和Random Sample Consensus（RANSAC）[9]来获得姿势，而不是使用单独的姿势网络或使用直接的视觉里程计方法。我们利用最近引入的方法来学习条件先验[36]，以考虑场景语义，而不是使用局部平滑假设。立体声作为监督。视图合成[10，33]和无监督单图像深度预测[8，12，13，32]中的最近工作提出使用视图合成通过重建损失来使新视图图像产生幻觉。在立体对的情况下，[12，13，32]提出训练网络，通过重建立体对的不可见右视图来预测输入图像的视差。除了光度重建损失之外，还假设局部平滑;[13]另外提出了边缘感知平滑性和左右一致性。虽然在推理过程中，我们假设只给出一个图像，但在训练时，我们可能有立体图像可用，我们在Sect.三点三在这项工作中，我们只纳入立体摄影重建项。尽管我们的网络预测深度和网络[12，13，32]预测深度，但我们能够将这种训练方案无缝地纳入我们的方法中。年龄[16]还以多任务学习的形式训练U-Net进行联合深度完成和语义分割，以努力将语义纳入学习过程。为了解决上下文线索和场景语义，[36]介绍了光流上下文中的条件先验网络（CPN），它作为一种学习方案，用于推断给定单个图像的光流矢量分布。我们利用这种技术，并制定深度完成作为一个最大的后验问题，通过factoriz- ING到一个可能性项和一个有条件的先验项，使之有可能明确建模的语义诱导的规律性的一个单一的图像。尽管我们的方法可以应用于光流的稀疏到密集插值，其中稀疏匹配可以使用[35，34]获得，但在这里我们将测试集中在深度完成任务上。3. 方法为了利用先前观察到的数据集D，我们在我们的框架中使用条件先验网络（CPN）[36]。条件先验网络推断概率一个单一的图像的光流。在火车上-ing，对地面实况光流进行编码（图1B中的上分支）。2-A），与图像的编码器（下分支）级联，然后解码为输入光流的重构在我们的实现中，上分支对密集深度进行编码，与图像的编码相连接，以在解码器处产生深度的密集重建，以及可以用作后验分数的归一化似然。我们认为CPN是一个函数，在给定图像（下分支输入）的情况下，该函数将任何样本推定深度图（上分支输入）映射到正实数，该正实数表示给定图像的输入密集深度图的条件概率/先验。我们将CPN中的参数的集合表示为wCPN;滥用符号，我们将解码深度表示为d′=wCPN（d，I）。当使用施加在编码器上的瓶颈（上分支）进行训练时，重建误差与条件分布成比例：利用语义和上下文线索。虽然方法[7，15，21，25，29，38]学习表示，Q（d，I;wCP N）=e−wCPN（d，I）−dηP （d|（二）通过地面实况监督的深度完成任务，它们不具有场景语义的任何显式建模。最近，[26]通过深度网络预测对象边界和语义标签，并使用它们来构建局部平面元素，作为深度完成的全局能量最小化的输入，探索了这个方向。[3]提出通过具有递归卷积网络的各向异性扩散来完成深度，其中亲和矩阵是从IM局部计算的其中η表示用于计算Q的特定范数。在第4.2节和第5节中，我们展示了CPN的训练细节，并且还定量地展示了范数η的不同选择的效果。在下文中，我们假设训练了wCPN，并且Q将用作条件先验。为了证明由CPN计算的Q表示如在Eq.（2）请参阅[36]。为了获得深度的后验估计，CPN需要与似然项相结合。D3356X3.1. 监督单图像深度完成密集深度的监督学习假设地面实况密集深度图的可用性。在KITTI深度完井基准[29]中，这些是通过累积相邻的稀疏激光雷达测量值生成的。即使它被称为地面实况，密度也只是图像域的约30%，而无监督基准的密度为约5%。监督模态中的训练损失只是预测误差：ΣN假设的深度图D：P（z|d）e−z−d（）γ（4）这仅仅是假设深度周围的高斯分布，当γ= 2时，仅限于稀疏子集λ。总损失为：ΣNLu（w）=−logP（dj|Ij，zj，D）j=1ΣNΣNL（w）=<$φ（z，I;w）−d<$γ（3）=<$zj−dj（k）<$γ+α <$wCPN（dj，Ij）−dj<$ηj j jj=1j=1j=1其中φ是从稀疏深度z和图像I到密集深度的映射，由具有在监督训练中固定的参数w和γ= 1的深度神经网络实现我们的φ网络结构在图中详细描述 2-B，其具有对称的两分支结构，每个分支编码不同类型的输入：一个是稀疏深度，另一个是图像;ΣNαj=1ΣN=<$zj−φ（zj，Ij;w）（）<$γ+j=1wCPN（φ（zj，Ij;w），Ij）−φ（zj，Ij;w）<$η（5）对两个分支启用跳过连接。请注意，我们的网络结构在KITTI深度补全基准测试中的所有顶级性能中是独一无二的：我们不使用专门设计的稀疏输入层，例如稀疏不变层[15，29]。我们的深度将融合推迟到解码，而不是稀疏深度和图像的早期融合，这需要更少的可学习参数，详见[37]。在[16]中提出了一个相关的想法;我们使用更常见的ResNet块[14]，而不是更复杂的NASNet块[40虽然比竞争方法简单，我们的网络实现了最先进的性能（节。（五）。3.2. 无监督的单图像深度完成监督学习需要地面实况密集深度，这是很难得到的。即使是KITTI基准测试中提供的当只有稀疏的独立深度测量可用时，例如来自激光雷达，覆盖率小于10%（例如，KITTI为5%），我们称之为无监督的深度完成，因为唯一的输入是来自图像和测距设备的传感数据，而不需要对数据进行注释或预处理。我们的方法的关键是使用CPN来对每个密集深度图d与给定深度图的兼容性进行注意，γ、η控制在训练期间使用的实际范数以及似然和条件分布的建模。我们在5.1节中对这些参数进行了实验，并在那里展示了我们的定量分析。3.3. 差异监督有些数据集带有立体图像。我们希望能够利用它，但不需要在推理时要求它的可用性。我们利用深度和视差之间的强关系。除了稀疏深度z和图像I之外，我们还得到第二图像I′作为立体对的一部分，其被校正（标准预处理）为一阶，我们假设存在位移s=s（x），x∈D使得I（x）<$I′（x+s）（6）这是强度恒定性约束。我们再次简单地将视差s建模为s=FB/d，其中F是焦距，B是相机的基线（光学中心之间的因此，我们可以从预测的密集深度d中合成大小的视差s，从而约束3D场景几何形状的恢复更具体地说，我们将给定I，d的情况下看到I′的可能性建模为：I（x）−I′（x+s（d（x）<$图像I基于先前观察到的数据D。在某些情况下，我们可能有额外的感官数据，P（I′|I，d）e−δ2（7）训练例如用具有已知相对姿态（例如立体）的相机拍摄的第二图像。在这种情况下，我们将来自第二摄像机的读数包括在训练集D中，如Sect.三点三当仅给出单个图像时，CPN Eq.（2）与模型相结合下观察到的稀疏点云z的可能性然而，强度恒定性解释的有效性受到诸如相干性、透明性、互反射等复杂现象的影响。为了消除假设中的误差，我们还可以使用结构相似性感知度量（SSIM）[31]。对应3×3斑块p（x），p′（x）∈3357+JJ方法iRMSE iMAE RMSE MAE秩验证集测试集迪米特里耶夫斯基[6]3.841.571045.45310.4913.0损失RMSEMaeiRMSEiMAERMSEMae[3]第三次世界大战2.931.151019.64279.467.5马[21]1384.85358.924.071.571299.85350.32黄[15]2.731.13841.78253.476.0Lu1325.79355.863.691.371285.14353.16马[21]2.801.21814.73249.955.5Ls（λc）1320.26353.243.631.341274.65349.88埃尔德索基[7]2.601.03829.98233.264.75Ls（λc，λs）1310.03347.173.581.321263.19343.46[16] 2.17 0.95 917.64 234.81 3.0我们的2.12 0.86836.00205.40 1.5表1.监督KITTI深度完成基准的定量结果。我们的方法实现了三个指标，iRMSE，iMAE和MAE的最先进的性能。[21]在RMSE指标上比我们好2.6%;然而，我们在所有其他指标上的iRMSE、iMAE和MAE上分别超过[ 21 ] 24.3%、28.9%和17.8%。最后一列是所有四个指标的平均排名。R3×3分别在I和I′中以x为中心，以衡量它们的局部结构相似性。分数越高表示相似性越大;因此我们可以从1中减去分数，以形成等式的鲁棒版本。（七）、我们使用Praw（I′|I，d）和Pssim（I′|I，d）表示I′g iv en I，d的概率分别以原始光度值和SSIM评分测量，活泼地当立体声对可用时，我们可以通过应用条件独立性如下形成条件先验：P（d|I，I′，D）P（I′|I，d，D）P（d|I、D）=P（I′|一、d）|I）（八）类似于训练损失Eq。（5）对于无监督的单图像深度完成设置，我们可以如下导出立体设置的损失：ΣNLs（w）=−logP（dj|Ij，I′，zj，D）j=1Σ=Lu（w）+β<$Ij（x）−I′（x+s（dj（x）<$（9）j，x其中dj=φ（zj ，Ij;w），Lu是等式中定义的损失。（五）、注意，上述求和项是Praw（I′）的实例|I，d），其也可以由SSIM对应物代替。而不是选择一个或另一个，我们用可调参数βc和βs组合这两个，我们对于立体声设置深度完成的最终损失是：Ls（w）=Lu（w）+βcc+βss（10）其中，ΔIc表示等式中的原始强度求和项。（9），以及SSIM对应物。接下来，我们elab- orate我们的实施细节，并评估我们提出的方法在不同的深度复杂的设置perfor-曼斯。3358表2.无监督KITTI深度完井基准的定量结果。我们使用CPN作为正则化器的基线方法在测试集上的iRMSE，iMAE和RMSE指标上优于[21]，而[21]在MAE上的表现略好于我们0.8%。我们注意到[21]使用光度监督实现了这一性能。当包括我们的pho- tometric术语时（等式我们在每个指标上都优于[21]，并实现了最先进的性能。4. 实现细节4.1. 网络架构我们通过用密集深度图替换编码分支的输入来修改CPN [36]的公共实现两个分支的融合只是编码的串联。编码器只有卷积层，而解码器由转置卷积层组成，用于上采样。我们提出的网络，不像基本CPN，如图所示。图2-A中所示的网络包含深度编码器的层与对应的解码器层之间的跳过连接，这使得网络对称。我们还在编码器中使用ResNet块[14]而不是纯卷积。步长2用于编码器中的下采样以及每次编码层为[64k，128k，256k，512k，512k]。在所有的实验中，我们使用k= 0。深度分支为25，k= 0。75，考虑到RGB图像具有三个通道，而深度图仅具有一个通道。我们的网络参数比基于早期融合的那些（例如，[21]共使用了2780万个参数;因为我们只使用18.8M）。我们提供了一个例子，比较我们的网络架构和[21]补充材料[37]。4.2. 训练过程我们首先详细介绍CPN的训练过程。一旦学会了，我们将CPN作为训练损失的一部分，在推理过程中不需要它。为了学习给定图像的密集深度图的条件先验，我们需要一个包含图像和相应的密集深度图的数据集。我们不知道任何符合我们标准的户外场景的真实数据集。因此，我们使用 VirtualKITTI数据集训练CPN [11]。它包含了50个高分辨率的单目视频，总共21260帧，以及地面真实的密集深度图，在不同的光照和天气条件下从五个不同的虚拟世界中生成虚拟KITTI IM-3359图3.该图显示了分别在似然项和条件先验项中对范数γ、η的选择的实证研究。每条曲线都是通过改变方程中的α来生成的。（5）固定γ，η.性能以RMSE衡量。年龄有1242×375的大分辨率，这是太大了，以饲料到一个正常的商业GPU。因此，我们将其裁剪为768×320，并使用批量大小4进行训练。初始学习率设置为1e-4，每50，000步减半，总共300，000步。我们使用TensorFlow [1]实现我们的方法。我们使用Adam [17]来优化我们的网络，使用与CPN训练相同的我们应用直方图均衡化，并随机裁剪图像为768×320。我们还应用了垂直和水平的随机在在无监督训练的情况下，我们还对稀疏深度输入和相应的有效性映射在3×3我们使用α= 0。045，β= 1。20为Eq。式（9），并且在βc= 0时应用相同的α。15，βs= 0。425.第425章我的（十）、我们选择γ= 1和η=2，但正如人们可能会注意到，在方程。（2），实际的条件先验也取决于范数η的选择。为了说明我们的选择背后的原因，我们将在图中展示一个实证研究3通过评估每个模型的RMSE度量来显示具有不同α的不同范数配对的影响在下一节中，我们报告了有监督和无监督基准测试中的代表性5. 实验我们在KITTI深度完成基准上评估我们的方法[29]。该数据集提供了1080k原始图像帧和相应的稀疏深度图。稀疏深度图是Velodyne激光雷达传感器的原始输出，每个密度约为5%。地面实况深度图是通过累积相邻深度来创建的11个原始激光雷达扫描，大约30%的像素被注释。我们使用官方选择的1，000个样品进行验证，并将我们的方法应用于1，000个测试样品，并将其提交给KITTI官方网站进行评估。我们还在补充材料 [37]中对NYUv2室内数据集[28]的输入深度测量5.1. 规范选择如在Eq中看到的（5），γ，η分别控制应用于似然项和条件先验项的实际范数（惩罚函数），这反过来又决定了我们如何模拟分布。常规选项来自二元集合{1，2}。即{L1，L2}，然而，目前对于哪一个更适合于深度完井任务没有一致意见。[21]表明γ= 2对他们的网络有显著的改善，而[29，16]都声称当应用γ= 1时具有更好的性能在我们的ap-在Eq.中的后向近似。（5），范数的选择变得更加复杂，因为条件先验的建模（范数）也将取决于似然模型。目前，关于如何做出最佳选择没有明确的指导，因为它也可能取决于网络结构。在这里，我们尝试探索不同规范的特征，至少对于我们的网络结构，通过使用γ和η的不同组合对我们的深度补全网络的简单版本（特征的通道数量减少）进行实证研究。如图3、KITTI深度完井验证装置的性能随γ、η的不同而变化范围较大。显然对于我们的深度在完备网络中，L1在相似项上总是优于L2当对条件先验项也应用L2时，达到最低的RMSE因此，耦合是γ= 1，η= 2，（五）、5.2. 监督深度完井我们评估建议的深度完井网络节中描述的。3.1KITTI深度完井基准。我们展示了我们的方法与Tab中基准测试中表现最佳的方法之间的定量比较。1.一、我们的方法在三个指标上达到了最先进的水平，表现优于[7，16]，他们在基准测试的不同指标上都达到了最先进的水平。我们在iRMSE和iMAE中分别改进了[16] 2.3%和9.5%，在MAE中改进了[7] 11.9%。[21]在RMSE度量上的表现更好2.6%;然而，我们表现出色，[21] 在 iRMSE 、 iMAE 和 MAE 指标上分别提高了24.3%、28.9%和17.8%。请注意，在KITTI深度补全基准测试1的在线表格中，所有方法都仅通过RMSE度量进行排名，这可能无法完全反映每个方法的性能。因此，我们建议通过对每个度量的排名数字进行平均来对所有方法进行排名，总体排名显示在Tab的最后一列中。1.一、毫不奇怪，我们的深度补全网络获得了最小的排名数，因为它在所有指标上都表现良好。图4显示了我们的方法与KITTI基准测试集上性能最好的方法的定性比较。我们看到我们的方法产生的深度1http://www.cvlibs.net/datasets/kitti/eval_depth.php?基准=深度完井3360图4.与Ma et al.[21] KITTI深度完井测试集在监督设置。稀疏测量的图像和有效性图（第1列），[21]的密集深度结果和相应的误差图（第2列）以及我们的结果和误差图（第3列）。误差图中颜色越暖表示误差越大。黄色矩形突出显示区域以进行详细比较。请注意，我们的网络在精细和远距离结构上始终表现得更好，我们完成的密集深度图具有更少的视觉伪影。与具有较少伪影的场景更一致（例如，网格状结构[21]，对象中的孔[7]）。此外，我们的网络在精细和远结构上的表现始终更好，这些结构可以是路边的交通标志和杆，它们为安全驾驶提供关键信息，如图2中的第二行所示。4.第一章更多详情见附件[37]。5.3. 无监督深度完井我们表明，我们的网络也可以应用于无监督设置，只使用训练损失方程。（5）达到国际先进水平。我们注意到，网络最小化数据项的最简单方法是直接将稀疏输入复制到输出，这将使学习效率低下。为了便于训练，我们将第一层的步幅从1更改为2，并将解码器的最后一层替换为最近邻上采样。我们展示了一个定量的比较（表。2）我们的方法和[21]的方法之间的差异，以及我们对我们的消融研究损失函数我们注意到，[21]的结果是使用其完整模型实现的，其中包括其多视图摄影项。我们的方法只使用Eq。（5）在每个指标上都能超过[21]，除了MAE，其中[21]略微超过我们0.8%。通过应用我们的重建损失方程。（9），我们在每个指标上都优于[21]。此外，我们的完整模型Eq.（10）进一步改进了所有其他变体，并且在无监督深度完成中是最先进的我们在图5中给出了我们的方法与[21]的方法之间的定性比较。在视觉上，我们观察到[21]的结果仍然包含之前看到的伪影。这些文物，即。圆，如图所示。5，是由于缺乏语义规则性，他们的网络可能过度拟合输入稀疏深度的迹象。然而，我们的方法不会受到这些伪影的影响;相反，我们的预测是全局正确的，并且与场景几何形状一致。3361图5.与Ma et al.[21] KITTI深度完井测试设置在无监督设置。稀疏测量的图像和有效性图（第1列），[21]（第2列）和我们的（第3列）的密集深度结果和相应的误差图。误差图中颜色越暖表示误差越大黄色矩形突出显示区域以进行详细比较。再次注意，我们的网络在精细和远距离结构上始终表现得更好，我们完成的密集深度图具有更少的视觉伪影（这包括其预测中心的圆圈，第1行，第2列）。6. 讨论在这项工作中，我们已经描述了一个系统来推断一个poster- rior概率在场景中的点的深度对应于每个像素，给定的图像和稀疏对齐的点云。我们的方法利用条件先验网络，允许基于单个图像将概率与每个深度值相关联，并将其与稀疏深度测量的似然项相结合。此外，我们利用立体图像的可用性，在构建一个光度重建长期，进一步约束预测的深度，坚持场景的几何形状。我们已经在监督和无监督环境中测试了这种方法。应该指出的是，KITTI基准中的“监督”和“无监督”之间的差异更多的是定量而不是定性：前者在深度测量中具有约30%的覆盖率，后者约5%。我们在Tab中显示。1和2，我们的方法在KITTI基准上的监督和无监督深度完成中实现了最先进的性能。尽管我们在测量与地面实况的偏差的评分度量上优于其他方法，但我们要强调的是，我们的方法并不简单地产生深度的点估计，而是提供了可用于更多下游处理的置信度度量，例如用于规划、控制和决策。我们已经探索了各种超参数的影响，并且正在将测试扩展到真实世界环境，在真实世界环境中，由于距离传感器和摄像机之间或两个摄像机之间（当立体声可用时）可能随时间变化的未对准，可能存在额外的误差和不确定性，错误的固有摄像机校准以及不可避免地存在于现场的其他干扰变化，在KITTI等评估基准中被仔细淘汰。这个实验是几年的事，远远超出了本文的范围。在这里，我们已经证明了一个适当修改的条件先验网络可以成功地从先验数据（包括合成数据）中转移知识，为输入范围值提供上下文，以推断缺失数据。这对于下游处理是重要的，因为上下文可以例如帮助区分点云中的间隙是自由空间还是光度均匀的障碍物，如在图1中的激励示例中所讨论的。1.一、致谢研究由ARO W 911 NF-17-1-0304和ONR N 00014 -19-1-2229支持。3362引用[1] M. 阿巴迪山口Barham，J.Chen，Z.Chen，中国山核桃A.Davis，J.迪恩M. Devin，S.盖马瓦特湾Irving，M. Isard等人张量流：一个大规模机器学习系统。在OSDI，第16卷，第265-283页，2016中。6[2] M. Camplani和L.萨尔加多kinect深度图的有效时空在三维图像处理（3DIP）和应用Ii，卷8290，页82900 E中。国际光学与光子学会，2012年2[3] X. Cheng，P.Wang和R.杨通过卷积空间传播网络学习的仿射深度估计在欧洲计算机视觉会议上，第108125. Springer，Cham，2018. 三、五[4] N.霍多什角Wang和S. 露西用于激光雷达深度测量的深度卷积压缩传感。arXiv预印本arXiv：1803.08949，2018。3[5] M. Dimitrievski，P. Veelaert和W.飞利浦学习形态学算子进行深度补全。在智能视觉系统高级概念国际会议上，第450-461页。Springer，2018. 3[6] M. Dimitrievski，P. Veelaert和W.飞利浦学习形态学算子进行深度补全。智能视觉系统的先进概念，2018年。5[7] A. Eldesokey，M. Felsberg和F. S.汗王通过cnn传播置信度用于稀疏数据回归。 arXiv 预印本 arXiv ：1805.11913，2018。二三五六七[8] X. Fei、A. Wong和S.索阿托地理监督视觉深度预测。IEEE Robotics and Automation Letters，4（2）：1661-1668，2019。3[9] M. A. Fischler和R. C.波尔斯随机样本同意：一个范例模型拟合与应用程序的图像分析和自动制图。Communications of the ACM，24（6）：381-395，1981.3[10] J. Flynn，I. Neulander，J. Philbin和N.很聪明深立体声：学习从世界的图像中预测新的观点。在IEEE计算机视觉和模式识别集，第5515-5524页，2016年。3[11] A.盖东，Q. Wang，Y. Cabon和E.维格虚拟世界作为多目标跟踪分析的代理。在CVPR，2016年。5[12] R.加格BG、G. Carneiro和我里德用于单视图深度估计的无监督CNN：把几何图形放回休息室。欧洲计算机视觉会议，第740-756页。施普林格，2016年。3[13] C. 戈达尔湖，澳-地Mac Aodha和G.J. 布罗斯托具有左右一致性的无监督单目深度估计。在CVPR，第2卷，第7页，2017年。3[14] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。在 Proceedings of the IEEE conference oncomputer vision and pattern recognition，pages 770-778，2016中。四、五[15] Z. Huang，J. Fan，S. Yi，X. Wang和H.李HMS-net：用于稀疏深度完成的高性能多尺度稀疏不变网络。arXiv预印本arXiv：1808.08685，2018。二三四五[16] M. 亚里茨河 De Charette，E. Wirbel，X. 佩罗顿，以及F. Nashashibi 稀疏和密集数据与cnn：深度完成和语义分割。在2018年3D视觉国际会议（3DV）上，第52-60页。IEEE，2018年。三、四、五、六[17] D. P. Kingma和J. BA. Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。6[18] J. Ku，A. Harakeh和S. L.瓦斯兰德为经典图像处理辩护：在CPU上快速完成深度CoRR，abs/1802.00036，2018。2[19] 诉Lepetit，F.Moreno-Noguer和P.呸Epnp：pnp问题的精确O（n）解。国际计算机视觉杂志，81（2）：155，2009。3[20] S. Lu、X. Ren和F.刘某通过低秩矩阵完成的深度增强。在Proceedings of the IEEE conference on computer visionand pattern recognition，pages 3390-3397，2014中。2[21] F.妈，G. V.Cavalheiro和S.卡拉曼自监督稀疏到密集：来自激光雷达和单目相机的自我监督深度补偿。arXiv预印本arXiv：1807.00275，2018。三五六七八[22] R. Mahjourian，M. Wicke和A.安杰洛娃使用3d几何约束的单眼视频深度和自我运动的无监督学习。arXiv预印本arXiv：1802.05522，2018。3[23] J. Masci，J. Angulo和J.施密特胡博一种基于反调和均值的形态学算子学习框架。数学形态学及其在信号和图像处理中的应用国际研讨会，第329-340页。Springer，2013. 3[24] C. 普雷梅比达湖Garrote，A.Asvadi，A.P. 里贝罗，还有联合努内斯使用双边滤波器的高分辨率激光雷达深度映射。arXiv预印本arXiv：1606.05614，2016。2[25] M. Ren，中国茶条A.波克罗夫斯基湾Yang和R.乌塔松Sbnet：用于快速推理的稀疏块网络。在IEEE计算机视觉和模式识别会议论文集，第8711-8720页，2018年。二、三[26] N. 施奈德湖Schneider，P.平格拉湾U.Franke，M.Polle-feys和C.斯蒂勒语义引导的深度上采样。德国模式识别会议，第37施普林格，2016年。3[27] J. Shen和S.- C. S.张结构光rgb-d相机的层深度去噪与完成。在Proceedings of the IEEE Conference on ComputerVision and Pattern Recognition中，第1187-1194页，2013年。2[28] N. Silberman，D. Hoiem、P.Kohli和R.费格斯。室内分割和支持从rgbd图像推断。欧洲计算机视觉会议，第746Springer，2012. 6[29] J. Uhrig，N.施奈德湖施奈德U. Franke，T. Brox和A.盖革稀疏不变cnn。2017年3D视觉国际会议（3DV），第11-20页，2017年。二三四六[30] C. Wang，J.M. 拉帕波萨达河zhu和S.露西使用直接方法从单眼视频学习深度。在IEEE计算机视觉和模式识别会议上，第2022-2030页，2018年。33363[31] Z. Wang，中国山核桃A. C. Bovik，H. R. Sheikh和E.西蒙·切利。图像质量评估：从错误可见性到结构相似性。IEEE图像处理学报，13（4）：600-612，2004年。4[32] A.黄湾，英-地W. Hong和S.索阿托用于无监督单细胞深度预测的双边循环约束和自适应正则化arXiv预印本arXiv：1903.07309，2019。3[33] J. Xie，R. Girshick和A.法哈迪。Deep3D：使用深度卷积神经网络进行完全自动化的2D到3D视频转换。在欧洲计算机视觉会议上，第842-857页。施普林格，2016年。3[34] Y.杨，Z. Lu和G. Sundaramoorthi。从粗到精的区域选择和匹配。在IEEE计算机视觉和模式识别会议论文集，第5051-5059页，2015年。3[35] Y. Yang和S.索阿托S2f：慢到快插值器流程。在IEEE计算机视觉和模式识别会议论文集，第2087-2096页3[36] Y. Yang和S.索阿托光流的条件先验网络。在欧洲计算机视觉会议（ECCV）的会议记录中，第271-287页，2018年。二三五[37] Y. Yang，杨树A. Wong和S.索阿托基于单幅图像和稀疏范围的稠密深度后验。 arXiv 预印本 arXiv ：1901.10034，2019。二四五六七[38] Y. Zhang和T.放克豪瑟一幅rgb-d图像的深度完成在IEEE计算机视觉和模式识别会议论文集，第175-185页，2018年。二、三[39] T. Zhou，M.布朗，N。Snavely和D. G.洛从视频中进行深度和自我运动的非监督学习。在CVPR，第2卷，第7页，2017年。3[40] B. Zoph，V. V

下载后可阅读完整内容，剩余1页未读，立即下载