没有合适的资源?快使用搜索试试~ 我知道了~
基于深度法线约束的深度图补全方法
2811基于深度法线约束徐燕1,2,3朱新戈2石建平1张国峰3鲍虎军3李洪生21商汤科技2香港中文大学3浙江大学CAD CG国家重点实验室摘要深度补全的目的是从稀疏的深度测量中恢复密集的深度图。它对自动驾驶的重要性越来越大,并引起视觉界越来越多的关注。现有的大多数方法直接训练网络来学习从稀疏深度输入到密集深度图的映射,这在利用3D几何约束和处理实际传感器噪声方面存在困难。在本文中,为了正则化深度完成并提高对噪声的鲁棒性,我们提出了一个统一的CNN框架,该框架1)在扩散模块中对深度和表面法线之间的几何约束进行建模,2)预测稀疏Li-DAR测量的置信度具体来说,我们的编码器-解码器骨干预测表面正常,粗糙的深度和信心的激光雷达输入simul-simulation,随后输入到我们的扩散细化模块,以获得最终完成的结果。在KITTI深度补全数据集和NYU-Depth-V2数据集上的大量实验表明,我们的方法达到了最先进的性能。进一步的烧蚀研究和分析对所提出的方法有了更深入的了解,并证明了模型的推广能力和稳定性。1. 介绍广泛使用的深度传感器(诸如LiDAR、RGB-D相机和TOF相机)由于有限的感测范围、来自环境的干扰和经济考虑而通常生成稀疏的深度测量例如,顶级LiDAR传感器Velodyne HDL-64 E的成本约为100,000美元,但只能提供垂直分辨率/角分辨率为100,000的稀疏测量。0.4 0.00008岁。另一方面,密集深度图在许多高级应用中需要,包括语义这项工作是在严旭在商汤科技实习时完成的。图1:从稀疏LiDAR测量和彩色图像(a-b)中,我们的模型首先推断粗略深度和法线(c-d)的地图,然后通过强制执行深度和法线之间的约束来递归地细化初始深度估计此外,为了解决实际LiDAR测量中的噪声(g),我们采用解码器分支来预测稀疏输入的置信度(h)以用于更好的正则化。最好在屏幕上观看。分割、3D重建、SLAM等。为了减轻稀疏和密集深度图之间的差距,深度补充,即,从稀疏的深度测量生成密集的深度图已经被广泛采用。随着深度学习方法的进步,已经提出了许多这些方法的主流是直接将稀疏深度图(具有/不具有彩色图像)输入到编码器-解码器网络中并预测密集深度图[26,16,36,15,10,23,2]。 这些黑盒方法迫使CNN学习从稀疏深度测量到密集地图的映射,这通常是一项具有挑战性的任务,并导致不满意的完成结果,如图所示。第1段(c)分段。我们认为,适当的几何约束应纳入到端到端的框架,以规范的完成过程,使其更具可解释性。深度和表面法线是3D中两个强相关的因素(a)LiDAR输入(c)深度粗预测(e)最终结果(b)RGB输入(d)正态预测(f)GroundTruth(g)噪声未对准(h)可信度预测2812世界和它们之间的局部线性正交性可用于深度完井。Zhang等人[46]以法线图(由CNN框架预测)为指导,并通过单独优化线性系统获得密集深度图。尽管与忽略3D几何约束的方法相比,他们的方法在后处理室内RGB-D数据方面表现更好,但它仍然存在巨大的运行时间成本和对驾驶场景的推广有限。此外,它们的正常预测训练和密集深度的优化是孤立的,这禁止以数据驱动的方式进行联合优化。为了用三维几何约束正则化深度完井结果,本文提出在平面-原点距离空间(从相应的切平面到原点的距离,即,在我们的情况下,相机中心我们首先采用基于CNN的主干来估计表面法线和深度(来自稀疏LiDAR测量和彩色图像)。 然后,我们将预测的深度和法线变换到平面-原点距离空间,并通过扩散模型在该空间中进行细化过程以加强几何约束。与对2D空间中的深度变化进行建模并假设分段恒定深度的先前工作[21,2]相比,我们基于3D结构由分段平面构成并且平面原点距离因此分段恒定的假设对3D空间中的几何约束进行建模。通过对平面-原点距离的转换,在训练过程中加强了深度和法线之间的约束,提高了推理的完成精度和稳定性此外,为了减轻传感器噪声的影响,这是不可避免的边界或移动对象,如图所示。1(g),在我们的框架中引入置信分支来预测来自传感器的稀疏深度测量的不确定性。我们的贡献主要体现在三个方面:1. 基于3D场景由分片平面构成的假设,将深度补全的焦点从二维空间转移到三维空间。具体地说,在平面原点距离空间中共轭深度和表面法线,并通过递归扩散模块对深度和表面法线进行细化,从而在深度补全过程中加强深度和表面法线之间的约束。2. 基于这一见解,我们提出了一个统一的两阶段CNN框架,以实现从非常稀疏的输入,LiDAR测量。为了提高实际传感器对噪声的鲁棒性,我们进一步引入了置信度预测分支来阻止与噪声相关的信息的传播。3. 我们的框架可以以端到端的方式进行训练,大量的实验结果表明,我们的模型在保持良好泛化能力的同时,达到了最先进的性能。2. 相关工作深度完井。自有源深度传感器出现以来,深度完井技术一直受到人们的广泛关注。现有的方法主要针对两类传感器的不完全深度测量,即:结构光扫描仪和激光雷达。结构光扫描仪的方法广泛应用于三维重建后处理,而Li-DAR的方法通常需要在机器人导航和自动驾驶场景中实时响应经典方法通常采用手工制作的特征或内核来完成缺失值[13,1,8,12,27、40、19、25、17]。这些方法大多是针对特定任务的,通常面临性能瓶颈,由于有限的推广能力。最近,基于学习的方法在深度补全方面表现出了良好的性能.这些方法中的一些仅基于稀疏深度测量来实现深度完成。Uhrig等人[36]提出了一个稀疏不变的卷积层,以增强LiDAR的深度测量另外,在文献[11]的工作中,他们对置信度传播进行了分层建模,减少了模型参数的数量。但是,其他方式的援助,彩色图像,可以显著提高完成精度。Ma等人将稀疏深度和彩色图像连接为现成网络的输入[26],并进一步探索了自监督Li-DAR完成的可行性[23]。此外,[14,16,33,4]提出了不同的网络架构,以更好地利用编码器-解码器框架的潜力。然而,编码器-解码器架构倾向于一致地预测深度图,但未能集中于局部区域。为了缓解这个问题,Chenget al.[2]提出了一种卷积空间传播细化网络(受[22]工作的启发),用于对具有相邻深度值的深度完成结果进行后处理。它们简单地基于深度值局部恒定的假设在2D深度空间中进行细化。然而,与分割任务[22]不同,这种假设对于深度完成是次优的,并且它们在户外场景中的性能仍然勉强令人满意。此外,现有的方法忽略了LiDAR测量中不可避免的噪声深度和正常。在以前的工作中,深度和表面法线之间的关系已经以各种方式被利用,以提高深度精度[45,41,28]。对于单目深度估计任务,[41,28] com-从深度求法线,然后从法线逆恢复深度,以加强它们之间的约束。深度补全也可以受益于这样的几何约束。Zhang等人[46]建立了一个基于几何约束的线性方程组,并用Cholesky分解法求解 然而,线性系统的优化-2813n2预测网络正态预测NSparse InputD引导功能G粗深度D彩色图像I置信度M平面原点距离变换Sparse InputD稀疏平面-原点距离P改进网络置信度M引导功能G正态预测NkP> 0 MP+ 1 −kP> 0 M P细化深度Dr正常预测N精化平面原点距离P平面原点扩散块距离P粗深度D通道式级联到平面原点距离到深度图2:我们提出的框架概述。预测网络首先预测表面法线N、粗略深度D和稀疏深度输入的置信度M的映射,其中共享权重编码器和独立解码器。然后,稀疏深度输入D'和粗略深度D被变换到平面原点距离空间作为P'和P,使用等式 (五)、因此,细化网络(各向异性扩散模块)在平面原点距离子空间中细化粗略深度图D在细化期间,扩散电导取决于引导特征图G中的相似性(参见等式(1))。(七))。最后,当扩散完成时,将细化的P逆变换回来以获得细化的深度图DrTEM难以在端到端框架中使用并实现联合优化。此外,虽然他们的方法适合于对RGB-D相机数据进行后处理,但很难实现实时处理。各向异性扩散各向异性扩散最初是对平衡浓度差异而不产生或破坏质量的物理过程进行建模,例如:热扩散各向异性扩散已广泛用于图像去噪[43,42,5],深度完成[21,32,2],分段[18,22,44,37,38,31]等。以前的经典方法仅基于扩散空间或指导图中的相似性来定义扩散电导(例如,彩色图像),这限制了性能。在我们的工作中,我们利用CNN的特征提取能力3. 方法在本文中,我们假设3D场景由分段平面构成,并且这些平面与原点之间的距离(平面-原点距离)因此是分段常数。基于这一假设,我们提出了一个两阶段的端到端深度学习框架,它使用深度和表面法线之间的约束来规范深度完成过程。如示于图2,我们的框架主要由两部分组成,即,预测网络和精化网络。预测网络通过共享权重的编码器和独立的解码器来估计表面法线图、粗略深度图和稀疏深度输入的置信度。然后,稀疏的将输入深度图和粗深度图转换到具有法线估计的平面原点距离子空间。接下来,细化网络,一个扩散模型,递归地细化平面原点距离,这强制执行分段平面约束并正则化深度完成。与许多假设分段恒定深度的先前工作[21,2]相比,我们的方法利用深度和表面法线之间的几何最后,通过逆变换得到精确的深度,而不损失精度。3.1. 预测网络预测网络将稀疏深度D和相应的彩色图像I作为输入,并且经由单独的解码器预测表面法线图N、粗略深度完成D和置信度图M(稀疏输入的)。我们采用广泛使用的U-Net [29]架构进行预测网络,即,使用ResNet-34变体作为编码器,级联上采样层作为解码器。补充材料中包含了具体的架构。我们将L2反射损失应用于粗深度完井D,即, LD=1X||D(x)−D(x)||2,其中n是像素数。对于正常预测,我们生成-将正常目标从深度地面真相中剔除,即,为每个位置选择一组最近的3D点,并基于它们通过主成分分析(PCA)计算法线方向[30]。然后,[9]提出的负余弦损失用于正态预测,即L=−1<$N(x)·N<$(x),(1)NnX2814XJXin2相机坐标系图3:在相机坐标系中,深度和法线之间的关系其中,N是正常预测,而N表示如上所述计算的正常目标的信心图M是为了减轻噪声在实际LiDAR测量中引起的负面影响,如图2所示。1.一、由于置信度没有基础事实,因此我们在训练期间使用一个函数对其进行建模,该函数受拉普拉斯分布的概率密度函数的启发,由.Σ图4:提出的可微分扩散块。在每个细化迭代中,高维特征向量(例如,通过两个不同的函数f和g(建模为两个卷积层,后面是正常的卷积层)独立地变换。M=exp|D¯−D∗|−、(二)化)。然后,每个位置x的电导为(在B其中D<$是噪声稀疏输入,D表示深度地面实况,b是在建模置信度时控制误差容限的参数我们应用L2损失d,记为LC,以得出接近M的预测:LC=1X||M(x)−M(x)||2,其中n是像素同时,下面的细化网络也可以通过反向传播影响置信度预测,以达到更好的性能。3.2. 循环精化网络上述预测网络从稀疏深度输入估计编码器-解码器架构不利用深度和表面法线之间的几何约束来正则化估计深度,并且难以充分利用稀疏输入。为了解决这个问题,我们建议通过各向异性扩散模块[39]在新的平面原点距离子空间中进一步细化完成结果,这是基于场景的3D表面由分段平面构成并且平面原点距离分段恒定的假设3.2.1平面原点距离如示于图3,设X是3D点,x是其在图像平面上的投影2D点。3D点X处的表面法线N(x)被定义为从X开始并垂直于切平面F的向量。平面F的点法线方程可以写为:N(x)·X-P=0(3)平面原点距离图P)到其相邻K个像素(xj∈ Ni)的距离使用等式(1)计算。(七)、最后,通过与由先前计算的电导定义的核的卷积运算来执行扩散。通过这种扩散,深度完井结果是规则的。通过深度和法线之间的约束来放大。因此,对于同一平面上的所有3D点,值P=N(x)·X应该是恒定的。由于P是平面和原点(在我们的情况下是相机中心)之间的距离,为了简单起见,我们在本文中将P称为平面原点距离。通过采用针孔相机模型,可以用其深度值D(x)和2D图像位置来重建3D点XX=D(x)·C−1x,(4)其中,C表示摄像机内参数矩阵,并且2D点x是齐次形式。通过进一步替换Eq.(4)转换为等式(3),我们有平面原点距离P和深度D(x)之间的关系:P(x)= D(x)N(x)C−1x。(五)请注意,在这里我们还使用P来表示所有像素的平面原点距离的映射,这稍微滥用了标记法。在平面原点距离图已经被细化(将在下一小节中讨论)之后,细化的深度图D(x)可以逆获得为D(x)=P(x)/(N(x)C−1x)。N(xXXFO深度D xWPNi扩散块粗P深度像素普通像素约束扩散块N × H × W ×1N × H × W ×32g:1 × 1卷积电导率函数w精制PN × H × W ×64规格:1 × 1N × H × W ×KN × H × W ×32特征变换指引特征G相似度评价2815=2我2σnx1∗23.2.2平面原点距离扩散法深度细化如前所述,对于与Xi在同一局部平面上的所有3D点Xj,我们建模P(xj)= P(xi),其中xj和xi分别是Xj和Xi的投影2D位置。 为了在深度完成中强制执行该几何约束,我们在平面原点距离图P上进行各向异性扩散:平面原点距离,获得P¯和P(等式(5)),然后执行扩散细化(等式(5))。(6))。在扩散过程中,我们将稀疏平面原点距离图P<$中的置信像素作为种子,并在每次迭代时用它们来细化P中的值,其可以表示为P(x)←[P<$(x)>0]M(x)P<$(x)+(1−[P<$(x)>0]M(x))P(x),(8)ΣP(x)←(1−w(x,x))P(x)其中,[P<$(x)>0]是表示ii jixj∈N(xi)Σ+w(xi,xj)P(xj)xj∈N(xi)(六)位置x处的P<$(也称为稀疏深度D<$),M表示稀疏深度输入的预测置信度。置信图M在很大程度上防止了稀疏测量中的噪声传播,同时允许置信稀疏深度输入和来自U的预测深度图在扩散过程中,像素xi接收信息,从邻域N(xi)中的周围像素的距离,而w(xi,xj)测量xi和xj位于同一平面上的可能性。一些经典方法,如[21],仅基于颜色图像空间中的相似性来定义扩散电导w由于CNN强大的特征学习能力,我们能够在高维特征空间中测量相似性我们采用由预测网络生成的几何特征图G(如图11所示)。2)模拟xi和x i之间的扩散电导,xj∈N(xi).如果xi和xj处的两个要素在几何上相似,则它们很可能位于同一平面上,P(xi)和P(xj)具有相似的值。有了这种直觉,Net是相辅相成的。此外,该策略在训练过程中将深度和法线耦合,这加强了法线深度约束并导致更好的准确性。算法1细化过程1:对于所有x,2:P<$(x)←D<$(x)N(x)C−1x3:P(x)←D(x)N(x)C−1x4:结束5:i←06:whileimax iterationdo7:对所有x做8:P(x)←P(x)>0M(x)P(x)+(1−[P<$(x)>0]M(x))P(x)9:结束10:对于所有x做11:使用Eq. (六)我们模拟xi之间的电导,.xj为12:结束13:i←i+1第14章:结束w(xi,xj)=1S(xi)exp(1−f(G(xi))Tg(G(xj)2-2σ2。(七)15:对于所有x做16:D(x)←P(x)/(N(x)C−1x)17:结束我们采用了两种不同的特征变换函数f和g分别为xi和xj。因此,从xi到xj和从xj到xi的电导是不对称的,即,w(xi,xj)w(xj,xi).这种不对称性为扩散提供了更多的灵活性。例如,具有置信稀疏深度输入的位置可能拒绝来自其他位置的信息,并且具有不可靠值的位置(例如,天空)可以阻止它们传播给其他人。 f和g是不-3.3. 损失函数我们提出的网络是端到端训练的除了上述的损失函数L_D、L_N、L_C外,第3.1条对于细化网络,我们还应用L2损失来监督细化结果Dr的学习,即, L Dr||D r(x)−D r(x)||. 我们总损失函数可以写为实现为卷积层,随后是跨信道维度的L24.第一章L=LD+αLDr+βLN+γLC,(9)此外,σ是一个可学习的参数(根据经验初始化为0.1),用于全局控制扩散强度,其中α、β和γ调整损失函数中不同项之间的权重。在我们的实验中,我们根据经验设定S(x)=0j∈Niexp(−(1−f(G(x))Tg(G(x)2我2j)是一个或-α= 1,β = 1,γ = 0。1 .一、理想化术语28163.2.3平面原点细化和深度恢复如算法1和图2所示,我们的细化框架首先将稀疏深度输入D和粗略深度图D(来自先前的预测网络)变换为4. 实验我们进行了大量的实验来评估我们的模型的有效性。在本节中,我们将首先简要介绍我们实验中采用的数据集和评估指标,然后讨论我们的实验。2817表1:KITTI深度完井基准测试集评价结果。均方根误差(RMSE)和平均绝对误差(MAE)的单位为毫米,而反向RMSE和反向MAE的单位为1/公里。826824822820818816814812KITTI1.00.80.60.40.2101 100101B0.00 2 4 6 8 10绝对误差/m4.1. 数据集和指标RGB-D数据在许多现有数据集中可用,e.G. [6、24、36、34]。我们对KITTI深度完成基准[36]进行了广泛的实验,以评估实际稀疏LiDAR数据的性能。此外,为了证明其泛化能力,我们还在室内数据集上进行了实验,即,[34]第三十四话KITTI深度预测数据集。KITTI深度复杂数据集[36]包含超过93k的注释深度图,具有对齐的稀疏LiDAR测量和RGB图像。我们在训练分割上训练我们的模型,并在官方验证集和测试集上对其进行评估。NYU-Depth-v2数据集。NYU-Depth-v2数据集图5:改变方程中公差参数b的影响(二)、左图展示了具有不同b值的RMSE,右图绘制了模型化置信度地面实况的曲线,M是稀疏输入和深度地面实况之间的绝对差表2:不同消融变体在KITTI基准验证集上的性能比较。方法RMSEMaeiRMSEiMAE不正常846.51256.713.071.35无细化836.20255.042.621.24无更换825.85258.52.561.26无信心836.66248.182.591.25w/相同f,g832.93273.712.631.33欧氏距离843.34238.552.891.57w/点积818.41249.952.761.37充分811 07236 67二、451 .一、114.3. 与最新技术收集的成对RGB图像和深度图列表464个不同的室内场景。我们采用官方的数据分割策略,并使用与[26]相同的实验设置从训练数据中采样约43k个同步的RGB深度对。而且,预处理是用官方工具箱来执行的。 奥里-尺寸为640×480的GIN图像被下采样到一半,然后中心裁剪到304 ×224的尺寸。评估指标。对于KITTI数据集的评估,我们采用与KITTI基 准 : 均 方 根 误 差 ( RMSE ) 、 平 均 绝 对 误 差(MAE)、反向深度的均方根误差(iRMSE)和反向深度的平均绝对误差(iMAE)。在纽约大学做的实验v2d样本集,我们采用1)RM SE,2)平均相对误差(rel):我们评估我们的模型的KITTI深度完井基准测试集,并比较我们的方法与其他方法。表1列出了与其他高级方法的比较结果。我们的方法排名第一,这些同行评议的方法,根据RMSE米- ric。我们进一步与一些竞争方法进行定量比较,如图所示。六、我们的结果得益于几何约束,即中间法线预测和深度估计应该是一致的,这大大减少了错误,恢复更多的细节相比,这些竞争的方法。例如,在Tele-graph极点的区域中的异常值(在图1B的最后一列中)。6)通过几何感知的扩散细化被大部分消除。1|D|X|D(x)−D(x)|/D(x)和3)δ t:∗4.4. 消融研究满足max(D(x),D(x))t的深度估计,<其中t∈ {1. 25,1。25 2 2253}。4.2. 实验装置D(x)D(x)为了验证每个组件的有效性,我们进行了广泛的消融研究,从我们提出的框架中删除每个组件。除此之外,我们还研究了不同配置的我们的框架在PyTorch库上实现,并在具有16GB内存的NVIDIA Tesla V100 GPU上进行训练。该网络针对KITTI/NYU进行了30/20个epoch的训练,批量大小为16,初始学习时间为4×10- 4的速率。我们的模型是用ADAM opti- mizer训练的,它用poly策略衰减学习率我们提出的扩散电导函数(方程)。(7)),即具有相同的特征变换函数(设f=g)或将嵌入的余弦相似性改变为欧几里德距离/点积。定量结果如表2所示,所有消融变体的性能均降低与我们的完整模型相比。RMSE/mmb=0.1b=0.5b=1.0b=2.0b=5.0M*方法RMSEMaeiRMSEiMAE我们七七七。05235 17 二、421 .一、13[23]第二十三话814.73249.952.801.21NConv-CNN [10]829.98233.262.601.03[16]第十六话917.64234.812.170.95HMS-网络[14]937.48258.482.931.14CSPN [3]1019.64279.462.931.15Morph-Net [7]1045.45310.493.841.572818S(x)S(xi)(a) 彩色图像+LiDAR测量(b) CSPN(c) 神经网络(d) 疏密(e) 我们图6:与其他方法的定量比较。对于每种方法,我们都提供了完整的完成结果以及细节和错误图的放大视图,以便更好地进行比较。为了更好的说明,我们还提供了我们的方法的正态预测和几何约束的有效性。为了验证我们的平面原点距离扩散的几何约束的有效性。我们首先仅使用深度分支(w/o法线)评估我们的预测网络,并进一步从完整模型中移除我们的细化网络以及置信分支(w/o细化),以查看编码器-解码器是否单独具有利用几何约束(深度和法线之间)的能力此外,我们还尝试在不替换种子P<$(w/o替换)的情况下进行扩散细化,几何约束。扩散细化模块的研究。我们调查我们提出的扩散模块的配置。首先,我们尝试在等式中使用相同的变换函数。(7)计算相似度,即, 采用对称电导函数,令f=G.如表2所示,使用sym-度量电导(w/相同f,g)劣于所提出的非对称电导(Full)。然后,我们还对不同的相似性函数进行了实验: w(xi,xj)=||f(G(x))−g(G(x))||2性能提升的来源。 所示mfi在表2中,两种变体的性能都下降,1exp(−我我2σ2j2)(w/欧几里德距离)但并且w(xi,xj )=1exp(f(G(xi))Tg(G(xj)(w/点积)。可以发现,所提出的电导函数比这些变体执行得更好2819KITTI605040302010025810 12 15 18 20细化迭代120100806040200(一)纽约大学epoch=5epoch=10epoch=1525810 12 15 18 20细化迭代2500225020001750150012501000750KITTIepoch=10epoch=20epoch=300.20.40.60.81.0采样比(b)第(1)款450400350300250200150纽约大学epoch=5epoch=10epoch=150.20.40.60.81.0采样比图7:稳定性分析。(a)我们的方法w.r.t. KITTI和NYU验证集上的细化迭代次数。在这里,我们通过减去最小值来移动每条曲线,以便更好地演示。(b)我们的模型w.r.t.稀疏深度输入的不同采样率。表3:对NYU-Depth-v2数据集的评价。均方根误差(RMSE)以毫米为单位,并且所有方法都是用相同的深度输入稀疏度来评估的(即,500个样本)。方法RMSErelδ 1。25δ 1。252δ 1。253[21]第二十一话1.2310.20289.191.294.3跨双边滤波器[35]0.7480.10690.193.193.9彩色化[20]0.1850.03997.297.998.1CSPN [3]0.1170的情况。01699.299.9100.0Ma等人[26日]0.2300.04497.199.499.8我们的(ResNet-34)0.1190.02199.499.9100.0我们的(ResNet-50)0的情况。1120.018九十九。5九十九。9一百块0信心预测的有效性。 我们可以看到,具有较低置信度预测的区域(图1)。6(e))主要集中在运动物体或物体边界的区域,这与图6(e)中的噪声发生情况基本一致。(见第6(a)段)。我们进一步从我们的框架中删除了置信预测方案,以验证置信图M在扩散模型中的必要性。表2中的性能此外,我们研究了置信度模型中参数b的不同值的影响(等式2)。(2)译注。如图5、a太大或b太小都会降低性能。 这是因为太大的b使模型对噪声过于宽容,而太小的b使模型过于保守,无法将高置信度分配给有效测量(图中的右图)。5示出了具有不同b值的一组置信曲线)。4.5. 泛化能力与稳定性分析对室内场景的泛化能力。 虽然 我们主要关注室外应用场景,我们也在室内场景上训练我们的模型,即,NYU-Depth- v2数据集。由于NYU-Depth-v2数据集通过Microsoft Kinect提供了相对密集的深度测量,因此我们对深度图进行了均匀采样,以获得之前工作的稀疏版本[26,14]。我们将我们的结果与最新的基于CNN的方法[26,2]以及经典方法[21,35,20]进行了比较,如表3所示,我们的方法也达到了最先进的性能。此外,我们的模型甚至使用了ResNet-34编码器(称为与之前使用ResNet-50的方法相比,性能更好[26,2],并且在我们的框架中采用ResNet-50编码器(表示为稳定性分析为了评估我们提出的循环细化网络的细化稳定性,我们选择了来自不同时期的模型快照,这些模型快照都是用5的内核大小和8的细化迭代进行但是,对于推理,我们使用不同的迭代次数执行细化如图如图7(a)所示,随着执行更多的细化迭代(甚至超过训练阶段中的细化迭代),误差减小并变得稳定此外,我们还通过对KITTI中的原始LiDAR输入或NYU中的采样深度图进行子采样来验证我们的模型如图如图7(b)所示,当采样率按预期降低时,性能下降,但即使使用原始稀疏输入的1 / 10,模型仍然可以提供合理的结果。5. 结论在本文中,我们提出了一个由两个模块构成的统一框架,预测网络和细化网络,以解决从稀疏输入中完成深度的问题。我们遵循深度的3D性质将焦点从2D空间转移到3D空间,并利用深度法线约束通过平面原点距离空间中的扩散模型来正则化深度提出的扩散模型根据顶点在高维特征空间中的相似性自适应地调整顶点对之间的距离。此外,我们还通过引入解码器分支来预测稀疏输入的置信度,并阻止细化模块中的误差传播,从而处理LiDAR测量中的噪声大量的实验表明,我们的方法在室外和室内数据集上都达到了最先进的性能。鸣谢本研究部分由商汤科技集团有限公司支持,部分由香港研究资助 局 的 通 用 研 究 基 金 资 助 , 资 助 项 目 为 CUHK14202217 、CUHK14203118、CUHK14205615、CUHK14207814、CUHK14213616、CUHK14208417、香港中文大学14239816,部分由香港中文大学直接资助,部分由中央大学基金研究基金(编号:14239816)资助。2018FZA 5011)。epoch=10epoch=20epoch=30RMSE/mmRMSE/mmRMSE/mmRMSE/mm2820引用[1] Marcelo Bertalmio ,Andrea L Bertozzi ,and GuillermoSapiro.纳维尔斯托克斯,流体动力学,图像和视频修复。计算机视觉与模式识别会议。,第1卷。IEEE,2001年。[2] Xinjing Cheng,Peng Wang,and Ruigang Yang.通过卷积空间传播网络学习的亲和力进行深度估计。在欧洲计算机视觉会议(ECCV)中,第103-119页[3] Xinjing Cheng,Peng Wang,and Ruigang Yang.使用卷积 空 间 传 播 网 络 学 习 深 度 。 arXiv 预 印 本 arXiv :1810.02695,2018。[4] Nathaniel Chodosh,Chaoyang Wang,and Simon Lucey.用于激光雷达深度补偿的深度卷积压缩感知亚洲计算机视觉会议,第499-513页。Springer,2018.[5] Ulrich Clarenz,Udo Diewald,and Martin Rumpf. 曲面处理中的各向异性几何扩散。IEEE,2000年。[6] Marius Cordts , Mohamed Omran , Sebastian Ramos ,Timo Rehfeld,Markus Enzweiler,Rodrigo Benenson,Uwe Franke,Stefan Roth,and Bernt Schiele.用于语义城市场景理解的cityscapes数据集在IEEE计算机视觉和模式识别会议(CVPR)上,2016年。[7] Martin Dimitrievski,Peter Veelaert和Wilfried Philips。学习形态学算子进行深度补全。在关于智能视觉系统的高级概念的国际会议中,第450-461页。Springer,2018.[8] David Doria和Richard J Radke。通过修复深度梯度填充激光雷达数据中的大洞。在计算机视觉和模式识别研讨会(CVPRW),第65IEEE,2012。[9] David Eigen和Rob Fergus。使用通用多尺度卷积架构预测深度、表面法线和语义标签。在Proceedings of theIEEE international conference on computer vision , 第2650-2658页,2015年。[10] Abdelrahman Eldesokey ,Michael Felsberg ,and FahadShah- baz Khan.通过cnns的置信度传播用于引导稀疏深度回归。arXiv预印本arXiv:1811.01791,2018。[11] Abdelrahman Eldesokey ,Michael Felsberg ,and FahadShah- baz Khan.通过cnn传播置信度用于稀疏数据回归。arXiv预印本arXiv:1805.11913,2018。[12] David Ferstl 、 Christian Reinbacher 、 Rene Ranftl 、Matthias Ruüther和HorstBischof。使用各向异性总广义变分的图像引导深度上采样在IEEE计算机视觉国际会议论文集,第993-1000页[13] Dani e lHerrera,JuhoKannala,JanneHe i krera é ,etal.基于二阶平滑先验的深度图修复。在斯堪的纳维亚图像分析会议上,第555566. Springer,2013.[14] Zixuan Huang , Junming Fan , Shuai Yi , XiaogangWang,and Hongsheng Li.HMS-Net:分层多尺度稀疏-用于稀疏深度完成的不变网络。arXiv预印本arXiv:1808.08685,2018。[15] Zilong Huang,Xinggang Wang,Lichao Huang,ChangHuang,Yunchao Wei,and Wenyu Liu. CCNet:语义分割的交叉注意. arXiv预印本arXiv:1811.11721,2018.[16] Maximilian Jaritz,Raoul de Charette,Emilie Wirbel,Xavier Perrotton,and Fawzi Nashashibi.使用cnns的稀疏和密集数据arXiv预印本arXiv:1808.00769,2018。[17] Martin Kiechle,Simon Hawe,and Martin Kleinsteuber.深度图超分辨率的强度深度联合稀疏分析模型。在Proceedings of the IEEE International Conference onComputer Vision,第1545-1552页,2013年。[18] Gunhee Kim , Eric P Xing , Li Fei-Fei , and TakeoKanade.基于各向异性扩散子模优化的分布式共分割。计算机视觉国际会议,第169-176页。IEEE,2011年。[19] Jason Ku,Ali Harakeh,and Steven L Waslander.在捍卫经典的图像处理:在cpu上快速完成深度。第15届计算机和机器人视觉会议(CRV),第16-22页。IEEE,2018年。[20] Anat Levin,Dani Lischinski和Yair Weiss。使用最佳化着色。在ACM transactions on graphics(tog),第23卷,第689-694页中。ACM,2004年。[21] 刘俊义和龚小劲。通过各向异性扩散的引导深度增强在关 于 多 媒 体 的 环 太 平 洋 会 议 上 , 第 408-417 页 。Springer,2013.[22] Sifei Liu , Shalini De Mello , Jinwei Gu , GuangyuZhong,Ming-Hsuan Yang,and Jan Kautz.通过空间传播网络学习亲和力神经信息处理系统的进展,第1520-1530页,2017年[23] Fangchang Ma,Guilherme Venturelli Cavalheiro和SertacKaraman。自监督稀疏到密集:激光雷达和单目相机的自我监督深度完成。arXiv预印本arXiv:1807.00275,2018。[24] 马跃新,朱新格,张思博,杨瑞刚,王文平,和迪内什·马诺查.Trafficpredict:异构交通代理的轨迹预测。在AAAI人工智能会议论文集,第33卷,第6120-6127页[25] Oisin Mac Aodha,Neill DF Campbell,Arun Nair,andGabriel J Brostow.基于块的单深度图像超分辨率合成欧洲计算机视觉会议,第71-84页。Springer,2012.[26] Fangchang Mal和Sertac Karaman。稀疏到密集:从稀疏深度样本和单个图像进行深度预测。2018年IEEE机器人与自动化国际会议(ICRA),第1-8页IEEE,2018年。[27] 松尾清和青木义光。使用局部切平面近似的深度图像增强在IEEE计算机视觉和模式识别会议的Proceedings,第3574-3583页[28] Xiaojuan Qi , Renjie Liao , Zhengzhe Liu , RaquelUrtasun,and Jiaya Jia. Geonet:用于联合深度和表面法线估计的几何神经网络。InProceedings of the2821IEEE计算机视觉和模式识别会议,第283-291页[29] Olaf Ronneberger,Philipp Fischer,and Thomas Brox. U-net:用于生物医学图像分割的卷积网络。医学图像计算和计算机辅助干预国际会议,第234-241页。施普林格,20
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索数据转换实验平台在设备装置中的应用
- 使用git-log-to-tikz.py将Git日志转换为TIKZ图形
- 小栗子源码2.9.3版本发布
- 使用Tinder-Hack-Client实现Tinder API交互
- Android Studio新模板:个性化Material Design导航抽屉
- React API分页模块:数据获取与页面管理
- C语言实现顺序表的动态分配方法
- 光催化分解水产氢固溶体催化剂制备技术揭秘
- VS2013环境下tinyxml库的32位与64位编译指南
- 网易云歌词情感分析系统实现与架构
- React应用展示GitHub用户详细信息及项目分析
- LayUI2.1.6帮助文档API功能详解
- 全栈开发实现的chatgpt应用可打包小程序/H5/App
- C++实现顺序表的动态内存分配技术
- Java制作水果格斗游戏:策略与随机性的结合
- 基于若依框架的后台管理系统开发实例解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功