稀疏辅助网络:单目深度预测与完成的统一

79 浏览量更新于2024-01-22 收藏 1.87MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

111078稀疏辅助网络用于统一的单目深度预测和完成Vitor Guizilini Rares， Ambrus， Wolfram Burgard Adrien Gaidon丰田研究所（TRI），Los Altos，CA{first.lastname}@ tri.global摘要从具有成本效益的传感器获得的数据中估计场景几何形状在本文中，我们研究了从一个单一的RGB图像（monodepth）与可选的稀疏测量低成本的有源深度传感器的预测密集深度的问题。我们介绍了稀疏辅助网络（SAN），一个新的模块，使单深度网络执行这两项任务深度预测和完成，这取决于在推理时是否只有RGB图像或稀疏点云可用。首先，我们使用稀疏卷积将图像和深度图编码阶段解耦，以仅处理有效的深度图像素。其次，我们将此信息（当可用时）注入深度预测网络的跳过连接中，以增强其功能。通过对一个室内（NYUv2）和两个室外（KITTI和DDAD）基准测试进行广泛的实验分析，我们证明了我们提出的SAN架构能够同时学习这两项任务，同时在深度预测方面取得了新的进展。1. 介绍可以使用有源传感器（例如，LiDAR、结构光）或从RGB相机估计（例如，通过立体匹配、运动恢复结构、单目深度网络）。这两种方法具有互补的优势和故障模式（例如，雨或低光）。因此，一个强大的感知系统必须利用这两种模式，同时在只有一种模式可用时仍然保持功能性在本文中，我们提出了一种学习算法和模型，可以满足这些需求，用一个简单的传感器套件：一个单目RGB相机与任何低成本的有源深度传感器相结合，每个场景只返回几个3D点。单目深度预测正在成为RGB相机无处不在的广泛机器人应用的基石能力[23，49，51]。最近，自-图1：我们提出的联合任务学习SAN架构从单个图像（预测）中产生最先进的单目深度估计，这可以通过提供稀疏深度图（完成）而无需更改模型来进一步改进。仅在原始视频上训练的监督方法证明，具有单个摄像头的机器人可以学习和预测密集的深度信息[2，14，15，17，58，60]，特别是随着数据量的增加[18]。然而，在实践中，有源距离传感器通常是可用的，并且可以用于在训练时间[7，9，10，30，53]或在推理期间[24，33，39]提供进一步的监督，在称为深度完成的任务中。即使稀疏，最近的工作[20]已经表明，即使是包含有效深度信息的几个像素也足以提高性能，因此不应该被丢弃。重要的是，这两个任务，深度预测和完成，被视为不同架构的单独问题。到目前为止，没有方法解决在训练和推断时间使用可从两种模态获得的所有信息的问题，包括如果仅部分可用（例如，由于传感器断电、阻塞或环境条件）。我们的主要贡献是一种新的架构，稀疏辅助网络（SAN，cf。图2），这使得单目深度预测网络也能够在推理时存在可选的稀疏3D测量的情况下执行深度完成请注意，相同的111079并且权重可以根据稀疏深度测量的存在与否在推断时间动态地我们的模型依赖于一个稀疏的深度卷积编码器注入深度信息，当可用时，到国家的最先进的编码器-解码器网络的跳过连接深度预测。我们的第二个贡献是对三个室外（KITTI [12]和DDAD [18]）和室内（NYUv2 [40]）数据集进行彻底的实验评估，证明我们的SAN架构提高了单目深度预测性能，并在这项任务。2. 相关工作2.1. 深度预测单目深度预测在机器人领域中已经越来越流行，其中方法通常根据用于导出学习信号的数据而分为不同的类别。自监督学习方法旨在通过对时间上相邻的帧[59]或相应的立体图像[14]施加光度损失来直接从单目图像预测深度。由于其简单性和原始数据的广泛可用性，广泛的工作已经解决了这个问题，将其与光流[54，57]，不确定性估计[37]，语义分割[19，44]，实例分割[2]，关键点估计[41]和视觉里程计[51，52]。相比之下，监督学习方法通过最小化均方误差[7]或通过有序回归[9]使用地面实况深度监督来应用除了标准回归损失之外，方法还使用平面补丁作为指导[30]，施加3D几何约束[53]，使用表面法线作为正则化[38，50]，利用深度，法线和语义分割之间的任务一致性约束[56]，或使用语义指导[26，35]。许多方法使用运动恢复结构（Structure-from-Motion）[27]或立体声根据连续层[8]，或使用内容相关和空间变化的引导卷积[42]。也可以使用替代信息源，包括置信掩码和对象线索[47]以及利用RGB和深度编码器[31为了避免通常由标准MSE损失引起的深度混合，使用交叉熵损失训练的分箱深度表示已经被证明是有效的[24]。当额外的时间相邻帧可用时，可以导出代理光度损失以进一步约束密度[33，55]，而在此设置中，只要4个LiDAR光束就足以提供有意义的监督信号[20]。请注意，我们提出的方法没有明确地对两种输入模态（RGB和深度）之间的任何关系进行建模，而是在特征级别上学习这些关系。3. 方法3.1. 单目深度估计预测. 单目深度预测的目的是学习函数f P：I →D，该函数将图像I作为输入，并针对每个像素elp ∈ I（即，密集深度图）。在监督设置中，我们可以在训练时访问稀疏地面实况深度D由独立的传感器获取并投射回照相机因此，我们将单目深度估计纯粹视为回归问题，并通过求解来学习由θP={θI}参数化的估计量fPθP=argminLsup（fP（I;θP），D）.（一）θP建成在单目深度完成任务中，我们还可以访问稀疏地面实况深度D，并进行推理（通常是D的子集[40]，或者由噪声更大/更稀疏的传感器收集[11]）。该信息可以与I结合使用，以生成完整的密集深度图DfC=fC（I（p），Df C（p）），其中fC是估计器pa。用θC={θI，θD}表示，通过求解：信息[21]在训练期间用作监控信号ing.我们的方法在概念上类似于[19]，其中作者使用像素自适应卷积来提取特征θθC=argmiinLsupθC.ΣfC（I，D;θC），D.（二）从语义分割网络。相反，我们提出了新的稀疏残差块，它利用Minkowski卷积[4]，并且专门设计用于解释我们的监督信号的稀疏性质。2.2. 深度完井虽然存在大量纯粹关注深度数据的方法，从双边滤波器[43]到最近的CNN致密化方法[45]，但我们将专注于依赖RGB图像作为附加信息的方法。在注意，f C包含f P，在这个意义上，它使用相同的参数θ I来处理输入图像I，同时并入θD来处理输入深度图D 。这种设计选择是本文的核心见解之一，因为它使深度预测和完成任务之间的特征共享成为可能（见图1）。2）的情况。训练损失。我们的监督目标是标度不变对数损失（SILog）[7]，由方差和对数空间中误差的加权平方均值之和组成：在深度信号稀疏的情况下（例如，激光雷达），方法通常依赖于基于RGB的外观作为指导，并额外设计自定义卷积和传播卷积。L（D，D）=1NΣ2布吕德d∈Dλ-N2.Σ2Σ布吕德d∈D、（3）111080(a) 建议的PackNet-SAN体系结构。残差、打包、解包和卷积块以及逆深度层在[18]中详细描述。稀疏残余块在图2b中详细描述，稀疏化和致密化层在方程2b中定义。6和7，w和b是在等式6和7中定义的可学习参数。8 .第八条。(b) 稀疏残差块（SRB）。每个Spar-seConv2D层都是Minkowski 2D卷积[4]，BN是批量归一化 [25] ， ReLU 是整流线性单元[13]。图2：我们提出的用于单眼深度预测和完成联合学习的SAN架构，使用PackNet [18]作为深度预测网络（最佳可视化颜色）。其中N是D中有效像素的数量（无效像素被屏蔽掉并且在优化期间不被考虑系数λ决定了最小化的重点或时空推理[4]）。在该框架内，稀疏张量S被写为坐标矩阵C和特征矩阵F：误差的方差。根据以前的工作[30]，我们使用λ= 0。85在所有实验中为了同时训练这两个任务，我们将两个输出深度图相对于相同的地面真实值产生的损失相加，C=0u1v1s1uN vN sNf1， F=0.fN（5）L（D，DP，DC）=L（D，DP）+L（D，DC）。（四）3.2. 稀疏辅助网络（SAN）图像是由相机捕获的信息的密集2D表示，这使得卷积成为大多数计算机视觉任务中的自然选择[29]。然而，深度图非常稀疏，通常包含不到1%其中{un，vn}是像素坐标，sn是批中的样本索引，fn∈RQ是相应的特征向量。为简单起见，在不失去一般性的情况下，我们认为-将批大小设置为 1 并忽略批索引。通过收集输入W×H×1深度图D的有效像素（即，正值）作为坐标，深度值作为特征，例如：具有有用信息的有效像素[20]，因此使卷积成为次优选择，因为：（i）大量计算能力浪费在无信息区域;（ii）空间S= 、、、（u，v），D（u，v）、u，v∈D|D（u，v）>0（六）依赖关系将包括来自这些类似地，一个解析张量S={C，F}可以加密信息量不足的地区;和（iii）共享过滤器仍将平均从整个输入深度图中损失梯度。为了避免这些缺点，我们建议使用通过将其像素坐标和特征值分散到密集的W×H×Q矩阵P中，使得：.稀疏卷积来处理输入深度图，而RGB图像仍然使用标准卷积来处理。更具体地说，我们使用Minkowski卷积-P（n ，vn）=fn，如果{un，vn}∈C∈.0，否则。（七）tions [4]，最近引入的一种高效的广义稀疏卷积，以解决高维问题。在这项工作中，我们专注于Minkowski卷积.111081的2D应用（图像处理），并留下潜在的高维应用（即，多视图[16]一旦输入深度图被稀疏化，其信息就通过一系列新颖的稀疏残差块（SRB）进行编码，如图2b所示。每个SRB由三个并行分支组成，这些分支在初始最大池化阶段之后处理相同的输入，每个分支具有不同数量的稀疏111082卷积块这些分支的输出被相加，并以较低的空间分辨率用作下一个SRB的输入。请注意，整个操作链是稀疏的，因此可以有效地执行投影[7]或采样[40]深度图的高稀疏性。在每个块之后，致密化层（Eq. 7）被并行使用以生成这些稀疏特征的密集表示，然后将其注入到RGB模块的跳过连接中，如下一节所详述的。3.3. 建议的体系结构我们提出的用于单目深度预测和完成的联合学习的架构如图2所示。它由两个模块组成，一个用于处理密集图像（ RGB ），另一个用于处理稀疏深度图（SAN）。密集RGB模块可以是使用跳过连接的任何编码器-解码器深度预测网络[9，15，18，30]。在我们的工作中，我们考虑了两种基线最先进的网络架构：Pack-Net[18，20]和BTS[30]。稀疏深度模块使用我们在第3.2节中描述的新颖的稀疏残差块来编码稀疏深度图，该深度图用作与RGB图像结合的输入。按照第3.1节中介绍的符号，RGB模块由参数θI定义，深度模块由θD定义。如果使用单个图像I，则仅激活RGB模块，并且输出将是预测的深度图fP（I;θI）=DP。可替代地，如果还提供稀疏深度测量值D，则其用作到SAN模块的输入，在SAN模块中，它们通过一系列SRB（图2b）被编码以产生越来越低分辨率的稀疏深度特征。这些分辨率被设计为与RGB编码器的分辨率相匹配，使得在致密化之后，通过简单地添加两个特征图，可以将稀疏深度特征注入到密集RGB特征中。由于网络除了利用密集的RGB图像之外还利用了这种稀疏的深度信息，因此其输出将是完整的深度图fC （I，D<$ ;θI，θD）=D<$C。根据经验，我们已经确定，在跳过连接级别注入此信息是最佳的，以确保这两个任务仍然可以由同一网络执行，而不会降级。在该配置中，RGB编码器仅处理图像特征，而RGB解码器处理来自RGB编码器的特征，该特征用来自深度编码器的稀疏特征来为了进一步调节跳过连接并启用任务之间的切换，我们还引入了可学习的参数w和b作为SAN模块的假设Ki是来自RGB编码器的特征图，用作尺度分辨率i处的跳过连接，则在引入来自Pi的稀疏深度信息之后的增强跳过连接被定义为：Ki=wi×Ki+bi+Pi（8）注意，如果没有稀疏深度信息可用，则不使用这些参数。这使得跳过连接能够以正在执行的任务为条件，并且可以更好地适应来自SAN模块的附加信息的引入，从而最小化梯度干扰。一个详细的研究，以确定我们提出的架构的每个组成部分的贡献可以在表中找到3 .第三章。4. 实验方案4.1. 实现细节我们的模型1使用Pytorch [36]实现，并在8个V100GPU上进行训练，每个GPU的批量大小b= 4。我们使用AdamW优化器[32]，其中β1= 0。9，β2= 0。999，开始学习率lr= 10−4，权重decay wd= 10−2。我们的训练计划包括30个时期，其中仅训练深度预测网络，随后是20个时期，其中深度预测编码器被冻结，并且仅训练深度完成编码器和共享解码器。随着训练的进行，学习率在每20个epoch之后衰减2倍。作为基线深度预测网络，我们考虑 BTS[30] 和PackNet[18]，使用其官方Py- torch实现。通过BTS，我们评估了我们的架构请注意，我们提出的稀疏辅助网络（SAN）可以同样适用于任何其他架构，以受益于速度，内存使用和性能的潜在改进。4.2. 数据集凯蒂我们使用KITTI基准[11]并在本征分裂上进行训练，本征分裂由23，488个训练，888个验证和697个测试图像组成（其中只有652个包含累积的地面实况深度图[46]）。此外，我们在KITTI公开排行榜上展示了测试结果，该排行榜分别由500帧和1,000帧组成，用于测试深度预测和完井方法。按照标准程序[30]，在训练时，使用352×704，并添加了随机水平翻转和颜色抖动。DDAD。自动驾驶的密集深度（DDAD）[18]是一个城市驾驶数据集，包含多个同步相机和高达250米的深度范围。它总共有12，560个训练样本，我们从中选择了相机1/5/6/9，总共有50，600张图像和地面真实深度图。验证集包含3，950个样本（15，800张图像）和地面实况深度图。福尔-按照标准程序[18]，输入图像被下采样到640×384分辨率，为了评估，我们1代码可在：https://github.com/TRI-ML/packnet-sfm111083预测方法输入越低越好↓Abs.Rel Sqr.Rel RMSE RMSElog SILog越高越好↑δ<1。25 δ<1。25 2δ<1。253Kuznietsov等人[28]第二十八届RGB0.1130.7414.6210.189-0.8620.9600.986Gan等人[10个国家]RGB0.0980.6663.9330.173-0.8900.9640.985Guizilini等人[20]RGB0.0780.3783.3300.121-0.927--Fu等[9]第一章RGB0.0720.3072.7270.120-0.9320.9840.994Yin等人[五十三]RGB0.072-3.2580.117-0.9380.9900.998Lee等人[30]RGB0.0590.2452.7560.096-0.9560.9930.998BTS-SANRGB0.0570.2292.7040.0928.9260.9610.9940.999RGB+D0.0210.0381.0940.0373.7490.9960.9991.000PackNet-SANRGB0.0520.1752.2330.0837.6180.9700.9960.999RGB+D0.0150.0280.9090.0323.1490.9970.9991.000改进RGB百分之十一点九百分之二十八点五百分之十八点九百分之十三点五-百分之一点四0.0%0.0%表1：KITTI数据集上的深度估计结果，用于本征测试分割[7]和高达80 m的距离。改进行表示我们的最佳模型（PackNet-SAN）和当前技术水平（BTS，Lee等人[30]，下划线）之间的百分比改进考虑距离高达200米，没有任何作物。使用所有四个摄像机训练单个模型，并对每个摄像机单独进行评估。NYUv2. 为了评估我们在其他领域提出的方法，我们还提供了NYUv2数据集的结果[40]。它由从464个场景中收集的RGB+D数据组成，其中249个用于训练，215个用于测试。我们遵循[30]并从训练序列中均匀采样帧，生成大约36k个训练RGB+D图像。对于深度预测，我们在尺寸为640×480的图像上训练，PackNet-SAN11.542.35% 9.12% 12.38而对于深度完成，我们首先对原始数据进行下采样，最终帧减半，中心裁剪为304×228，以符合相关方法所遵循的协议ods [33].此外，对于深度完成，我们使用分别具有200或500个有效点的输入深度图，从原始深度图像中随机采样，遵循该数据集的标准训练协议[33]。我们将每个测试预测上采样到原始测试图像分辨率，并在相关工作[1，9，30]之后使用654帧的官方测试分割对中心裁剪进行评估。KITTI3D。为了进一步分析由我们提出的SAN架构预测的深度图的准确性，我们还评估了它们在作为伪LiDAR点云的单目3D对象检测的下游任务中的性能。具体来说，我们使用KITTI3D数据集[12]，由3，712个训练和3，712个验证图像组成。预训练。根据相关工作[30，33，47]，我们发现预训练可以提高网络性能。对于我们的KITTI实验，我们在DDAD的更大分割上进行预训练，而对于纽约大学的实验，我们在Scannet数据集[5]上进行预训练，对大约250kRGB+D帧进行采样，而没有任何额外的裁剪或过滤。我们在Tab中消除了预训练的效果。3 .第三章。表2：相对于其他已发布方法，官方KITTI测试集基准的深度估计结果，用于预测和完成任务（粗体指标用于排行榜评分）。请注意，在两次提交中使用了相同的模型，仅修改了输入信息（RGB用于预测，RGB+D用于完成）。5. 实验结果5.1. 深度预测与完井凯蒂在Tab。1我们提出了定量结果的任务，深度预测和完成，考虑本征测试分裂。我们注意到BTS-SAN，即BTS archi，完成方法SILogSqRelAbsRel iRMSE[26]第二十六话15.305.00% 百分之十三点二九15.80SDNet [35]14.683.90% 百分之十二点三一15.96VGG26-UNet [21]13.412.86% 百分之十点六15.06[第56话]13.082.72% 百分之十点二七13.95方法RMSEiRMSE MAE iMAE[第24话]1109.042.95234.011.07CSPN [3]1019.642.93279.461.15[22]第二十二话962.283.10257.541.09[33]第三十三话954.363.21288.641.35[55]第五十五话943.891.39304.171.39[31]第三十一话807.422.73253.981.33FusionNet [47]772.872.19215.020.93[42]第四十二话736.242.25218.830.99PackNet-SAN914.352.78 298.04 1.36111084方法[9]第九章PackNet-SANAP3D@easy AP3D@medium AP3D@hard34.8/35.135.5/35.722.0/22.022.6/22.819.5/19.619.9/20.1(a) 预测(b) 完成图3：使用PackNet-SAN在KITTI基准测试中的定性深度预测和完井结果具有我们提出的SAN模块的结构[30]改进了深度预测任务的基线数字，同时如果稀疏深度图也作为附加输入提供，则能够实现深度完成。通过使用PackNet [18]作为底层深度预测网络，进一步改进了这些结果，从而为这项任务建立了一个新的最新技术水平。我们还在官方KITTI测试集基准上评估了我们提出的PackNet-SAN体系结构，将同一模型的结果提交给深度预测和完成领导委员会（见表1）。2）的情况。尽管在这种具有挑战性的环境中操作，但在公布时，我们的方法在所有公布的方法中排名第一，用于SILog度量的深度预测任务（用于确定排名），同时显示出良好的深度完成率。我们展示了从KITTI排行榜中获得的定性结果。3 .第三章。DDAD。在Tab。5我们展示了使用我们的基线深度预测网络（Pack-Net）及其扩展（使用我们提出的SAN架构）获得的DDAD数据集的结果，以实现深度预测和完成的联合任务学习。从这些结果中，我们注意到，联合任务学习的引入显著提高了深度预测结果，与KITTI实验中观察到的结果相似（定性结果见图4）。此外，如果稀疏深度图可用作输入，则它们还可以用于生成深度补偿结果，从而进一步提高性能。我们注意到，DDAD上的RGB+D实验是在输入深度图的稀疏度为20%的情况下进行的-我们提供了稀疏度如何影响消融部分性能的详细分析（见图1）。6）。表3：KITTI数据集上的消融分析，将本征测试分割[7]和PackNet[18]视为深度预测网络。SRB xX使用具有较少分支的稀疏残差块;Unfreeze Pred. Encoder还在训练的第二阶段期间更新预测编码器;Freeze Pred. Decoder还在训练的第二阶段期间冻结预测解码器;w/oWi和Bi移除每个跳过连接的共享参数;Train from scratch不使用预先训练的模型;并且Prediction和Completion仅针对该特定任务进行训练。NYUv2. 我们的NYUv2结果总结在表中。6，观察到与其他数据集相同的趋势。所提出的架构PackNet-SAN在基线PackNet [18]上进行了改进，实现了该数据集上深度预测的新的最当在推理时使用RGB+D数据时，我们的方法与最先进的方法相比具有竞争力，在大多数metrics上实现了相似的数字我们在图中显示了NYUv2的定性结果。五、5.2. 单目3D目标检测为了进一步分析我们提出的SAN架构预测的深度图的准确性，我们评估了它们在单目3D表4：使用PatchNet [34]和不同的单目点云（无输入稀疏深度）对汽车类别的KITI3D验证集进行3D对象检测的结果，用于验证分割。在这两种情况下使用相同的检测架构和学习超参数方法输入绝对相对值↓ RMSE ↓ SILog ↓δ<1。25↑SRB x1RGB0.0572.4838.0640.966RGB+D0.0190.9943.3430.997SRB x2RGB0.0552.3287.8620.966RGB+D0.0170.9493.2870.997解冻RGB0.0552.3067.9780.967Pred. 编码器RGB+D0.0210.9653.3330.996冻结RGB0.0542.3187.9010.968Pred. 解码器RGB+D0.0241.0703.8050.995W/oWi和RGB0.0562.3748.3240.962bi参数RGB+D0.0190.9583.3950.995火车从RGB0.0622.8889.5790.955划痕RGB+D0.0191.0493.6310.996预测RGB0.0542.4768.0810.966完成RGB+D0.0150.8783.2380.997PackNet-SANRGB0.0522.2337.6180.970RGB+D0.0150.9093.1490.997111085PAckN et-SANPackNetRGBRGBAvg. 即兴表演5.45%百分之十点四七3.44%2.96%2.01%1.71%0.78%1.54%RGB+D表5：使用PackNet-SAN的DDAD深度估计结果，在四个相机上训练相同的模型，考虑高达200米的距离。对于RGB+D实验，20%的稀疏度水平用于输入深度图（见图1）。6）。图4：使用PackNet-SAN的DDAD的定性深度结果。显示了单个样本，每列对应于单个相机。在所有四个相机上训练相同的模型，用于深度预测（中间行）和完成（底部行）的任务，如Tab中所示。五、对象检测，使用最近提出的 PatchNet 架构 [34] 。PackNet-SAN预测的深度图使用地面实况相机固有函数作为伪LiDAR在Tab。4我们展示了KITTI3D数据集上的结果，并表明通过对我们的点云进行操作，我们在使用DORN [9]深度估计时，相对于先前的技术水平，在所有难度阈值下提高了对象检测性能。注意，为了公平比较，使用KITTI的相同本征5.3. 消融分析在Tab。我们进行了一项全面的消融研究，显示了我们提出架构，以及它们如何为这些改进做出贡献。特别是，我们表明，两个任务的联合学习实际上提高了深度预测性能相对于单一任务学习，而不会降低深度完成性能。我们还证明了增加稀疏编码器的复杂性（即引入更多稀疏残差块）对这两项任务都有好处，因为它有助于RGB和深度特征的解耦，而不会使共享解码器过载。我们还试验了不同的参数冻结时间表，并确定在初始深度预测学习阶段之后冻结密集编码器会产生最佳结果。此外，在图6中，我们分析了DDAD数据集上输入深度图中稀疏性具体来说，我们通过随机采样来稀疏化输入深度图有效输入深度像素（使用的深度图）的百分比完成RGB预测010.0831.57510.6930.18517.7670.9110.9670.987050.1271.86310.2100.26324.9660.8410.9310.973060.1452.30710.4930.29827.4910.8040.9110.968090.1191.97912.0100.25624.2950.8440.9360.978输入相机Abs.Rel越低越好↓Sqr.Rel RMSE日志SILog越高越好↑δ<1。25 δ<1。25 2δ<1。253010.0881.76011.3310.19518.4990.8990.9600.981050.1302.02510.4720.26825.2730.8320.9270.960060.1512.48510.6800.30728.0070.7910.9040.944090.1322.36212.4970.26124.5510.8210.9250.962010.0520.9338.6830.15314.9200.9550.9780.987050.0721.0977.9500.20720.3750.9280.9580.973060.0811.2557.9940.23222.6750.9220.9550.969090.0671.1319.0520.18918.4810.9340.9660.979111086深度预测方法AbsRel RMSE δ<1。25 δ<1。25 2δ<1。253Qi等人[38个]0.1280.5690.8340.9600.990Alhashim等人[1]第一章0.1230.4650.8460.9740.994Fu等[9]第一章0.1150.5090.8280.9650.992Yin等人[五十三]0.1080.4160.8750.9760.994Lee等人[30个]0.1100.3920.8850.9780.994[第18话]0.1100.3970.8860.9790.995PackNet-SAN2019 - 03 - 22 00：00：00 00：00深度完井- 200个样本Ma等人[33]0.0440.2300.9710.9940.998NConv-CNN [8]†0.0270.1730.9820.9960.999Tang等人[第四十二届]0.0240.1420.9880.9981.000PackNet-SAN0.027 0.155 0.989深度完井- 500个样本(a) 投入（b）预计（c）已完成图5：使用PackNet-SAN在NYUv 2上获得的定性深度结果。我们的联合任务学习方法能够生成最先进的预测深度图，可以通过使用稀疏深度图作为额外的输入来进一步改进，而无需更改架构。图6：使用PackNet-SAN对DDAD数据集进行稀疏性分析。我们显示了深度预测（红色）和完成（蓝色）结果，与基线预测网络（黑色）相比，具有不同的稀疏度水平监督和评价的内容没有修改）。正如预期的那样，性能随着可用输入深度点的百分比而增加有趣的是，我们也观察到了深度预测结果的类似趋势，进一步证明了深度预测和完成的联合任务学习能够进一步改善结果，即使在测试时只使用RGB图像。PackNet-SAN0.0190.1200.9940.9991.000表6：NYUv2数据集测试分割的深度估计结果。相对于其他公开的方法，对于深度预测和完井任务两者。请注意，两次提交中使用了相同的模型，唯一的修改是输入信息（RGB用于预测，RGB+D用于完成）。[42]的结果6. 结论本文介绍了一种新的方法，单目深度估计，结合深度预测和完成到一个单一的架构的任务。我们提出了一种中级融合方法，用于两个任务的联合学习，使用标准的深度预测网络，并添加稀疏编码器来处理输入深度图。稀疏深度特征在被馈送到共享的密集解码器之前被添加到每层处的图像编码器的跳过所得到的架构可以用于执行这两个任务，而无需任何进一步的训练，简单地通过修改RGB和RGB+D之间的输入信息或控制输入深度图的稀疏度水平。通过对不同基准点的广泛分析，我们证明了我们提出的统一SAN架构在单目深度预测方面取得了新的进展作为未来的工作，我们将探索多帧扩展（例如，立体声对或节奏环境），以及开发进一步提高SAN设置中的深度完成性能的方法。Ma等人[33个]0.0430.2040.9780.9960.999[39]第三十九话0.0220.1150.9930.9991.000[8]第八届全国政协委员0.0170.1230.9910.9981.000CSPN [3]0.0160.1170.9920.9991.000Tang等人[第四十二届]0.0150.1010.9950.9991.000111087引用[1] 阿尔哈希姆和彼得·旺卡。通过迁移学习进行高质量单目深度估计。arXiv预印本arXiv：1812.11941，2018。五、八[2] 卞佳旺，李志超，王乃燕，詹黄英单目视频的无监督尺度一致深度和自我运动学习。arXiv预印本arXiv：1908.10553，2019。一、二[3] Xinjing Cheng，Peng Wang，and Ruigang Yang.通过卷积空间传播网络学习的亲和力进行深度估计。在欧洲计算机视觉会议（ECCV）中，第103-119页，2018年。五、八[4] ChristopherChoy ， JunYoungGwak ， andSilvioSavarese.4D时空卷积神经网络：Minkowski卷积神经网络。在IEEE计算机视觉和模式识别会议论文集，第3075-3084页，2019年。二、三[5] 安吉拉戴，天使X。Chang，Manolis Savva，MaciejHal- ber，Thomas Funkhouser，and Matthias Nießner.扫描：室内场景的丰富注释3d重建。在proc 计算机视觉与模式识别（CVPR）IEEE，2017年。5[6] 劳尔·迪亚兹和阿米特·马奎尔。有序回归的软标签。在IEEE计算机视觉和模式识别会议论文集，第4738-4747页，2019年。5[7] David Eigen，Christian Puhrsch，Rob Fergus。使用多尺度深度网络从单个图像进行深度神经信息处理系统的进展，第2366-2374页，2014年一、二、四、五、六[8] Abdelrahman Eldesokey ，Michael Felsberg ，and FahadKhan.基于cnn的引导稀疏深度回归的置信度传播。IEEETransactionsonPatternAnalysisandMachineIntelligence，PP：1-1，2019年7月。二、八[9] 傅欢，龚明明，王朝辉，Kayhan Bat- manghelich，陶大成.用于单目深度估计的深度有序回归在IEEE计算机视觉和模式识别会议集，第2002-2011页，2018年。一、二、四、五、六、七、八[10] Yukang Gan，Xiangyu Xu，Wenxiu Sun，and Liang Lin.具有亲和力、垂直池化和标签增强的单目深度估计。在ECCV，2018年。第1、5页[11] Andreas Geiger ， Philip Lenz ， Christoph Stiller ， andRaquel Urtasun. Vision meets robotics：The kitti dataset.国际机器人研究杂志，32（11）：1231-1237，2013。第二、四节[12] Andreas Geiger，Philip Lenz，and Raquel Urtasun.我们准备好自动驾驶了吗？Kitti Vision基准套件。在计算机视觉和模式识别会议，2012年。第二、五条[13] Xavier Glorot、Antoine Bordes和Y.本吉奥深度稀疏整流神经网络。 Proceedings of the 14th InternationalConferenceonArtificialIntelligenceandStatistics（AISTATS），pages 315-323，2011. 3[14] Cle mentGodard，OisinMacAodha，andGabri elJBros-tow.无监督单目深度估计正确的一致性。在CVPR，第2卷，第7页，2017年。一、2[15] Cle mentGodard ， OisinMacAodha ， MichaelFirman 和Gabriel J. Brostow。深入研究自我监督的单目深度预测。在ICCV，2019年。1、4[16] Zan Gojcic ， Caifa Zhou ， Jan D Wegner ， Leonidas JGuibas，and Tolga Birdal.学习多视点三维点云配准。2020年计算机视觉与模式识别国际会议（CVPR）。3[17] Ariel Gordon ， Hanhan Li ， Rico Jonschkowski ， andAnelia Angelova.野外视频的深度：来自未知相机的无监督单目深度学习。在IEEE计算机视觉国际会议的Proceedings中，第8977-8986页，2019年。1[18] 维托尔·吉齐里尼，拉雷斯·安布鲁斯，苏迪普·皮莱，艾伦·雷文托斯，阿德里安·盖东。用于自监督单目深度估计的3d包装。2020年计算机视觉与模式识别国际会议。一、二、三、四、六、八[19] Vitor Guizilini，Rui Hou，Jie Li，Rares Ambrus，andAdrien Gaidon.语义引导的表示学习，自我监督的单眼深度。arXiv预印本arXiv：2002.12319，2020。2[20] Vitor Guizilini，Jie Li，Rares Ambrus，Sudeep Pillai，and Adrien Gaidon.鲁棒半监督单目深度估计与重新投影距离。在机器人学习会议（CoRL），2019年10月。一、二、三、四、五[21] Xiaoyang Guo，Hongsheng Li，Shuai Yi，Jimmy Ren，and Xiaogang Wang.通过提取跨域立体网络学习单目深度。在欧洲计算机视觉会议（ECCV）的会议记录中，第484- 500页，2018年。第二、五条[22] Hamid Hekmatian ， Jingfu Jin ， and Samir Al-Stouhi.Conf- net：通过误差图预测实现高置信度密集3D点云。arXiv预印本arXiv：

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

稀疏辅助网络: 单目深度预测与完成的统一

最新资源

稀疏辅助网络: 单目深度预测与完成的统一

单目深度估计与伪雷达点云

稀疏PCA网络：一种核自适应的卷积神经网络.pdf

要是想提高对稀疏网络的链接预测呢

推荐10个以上比较好的SLAM深度学习模型？

matlab实现稀疏贝叶斯概率预测

稀疏 capon 深度学习

密集预测和稀疏预测的区别

orbslam3 单目稠密建图

如何实现稀疏BP神经网络

预测稀疏分解 tensorflow

稀疏辅助信号去噪( SASD )算法

matlab深度学习稀疏分解

深度强化学习中稀疏回报如何处理

使用js完成把稀疏数组变为不稀疏数组

matlab稀疏矩阵存储

深度强化学习的稀疏奖励

深度压缩感知lista代码

如何为UNet网络加入稀疏表示模块

无监督深度图像先验(DIP)全程

两阶段检测器使用密集预测还是稀疏预测

最新资源