没有合适的资源?快使用搜索试试~ 我知道了~
遮罩引导的分层深度细化方法
1https://sooyekim.github.io/MaskDepth/with �with � � �38550带有遮罩引导的分层深度细化0Soo Ye Kim 1 Jianming Zhang 2 Simon Niklaus 2 Yifei Fan 20Simon Chen 2 Zhe Lin 2 Munchurl Kim 101 韩国科学技术院 2 Adobe公司, 美国0摘要0深度图在从3D渲染到2D图像效果(如背景虚化)的各种应用中被广泛使用。然而,由单张图像深度估计(SIDE)模型预测的深度图往往无法捕捉到物体中的孤立空洞,或者具有不准确的边界区域。与此同时,使用商业自动遮罩工具、现成的分割和抠图方法甚至手动编辑,获得高质量的遮罩要容易得多。因此,在本文中,我们提出了一个新颖的问题,即利用通用遮罩来细化SIDE模型的深度预测的遮罩引导深度细化。我们的框架执行分层细化和修复,将深度图分解为由遮罩和反遮罩表示的两个单独的层。由于同时具有深度和遮罩注释的数据集很少,我们提出了一种自监督学习方案,使用任意遮罩和RGB-D数据集。我们通过实验证明,我们的方法对不同类型的遮罩和初始深度预测具有鲁棒性,在内部和外部遮罩边界区域准确细化深度值。我们还通过消融研究分析了我们的模型,并展示了在真实应用中的结果。更多信息可以在我们的项目页面上找到。01. 引言0近年来,深度学习的进展使得可以从单个RGB图像中预测出相当可靠的深度图[20,31, 32,47]。然而,尽管单张图像深度估计(SIDE)模型中使用了专门的网络架构[11, 29,31]和训练策略[32,46],但估计的深度图在以下方面仍然不足:(i)深度边界模糊不准确;(ii)细小结构(如杆子和电线)经常丢失;(iii)狭窄或孤立的背景区域(例如人体部位之间)的深度值通常不准确,如图1中的初始深度估计所示。在单个SIDE模型中解决这些问题非常具有挑战性,原因是模型容量有限且缺乏高质量的RGB-D数据集。因此,我们采用了一种新颖的方法,利用高质量遮罩的附加线索来细化由SIDE方法预测的深度图。提供的遮罩可以是硬遮罩(二进制)或软遮罩(例如抠图),可以是物体或图像的其他部分(如天空)。由于现在非常容易获得高质量的自动遮罩工具,因此可以使用商业工具(如removebg [33]或Photoshop)或现成的分割模型[14, 30, 52,57]轻松获得这些遮罩。分割遮罩也可以由人工注释[7, 41,49],而且相比RGB-D数据,准确的数据集更容易获得,这有助于训练自动遮罩模型。0RGB / 遮罩0我们的细化深度分层输出0初始深度0图1. 我们的分层深度细化结果基于DPT[31]的初始预测。在使用自动遮罩工具[33]生成的高质量遮罩M的辅助下,我们的方法能够准确地细化遮罩边界并纠正身体部位之间孤立空洞区域的深度值。我们使用分层方法分别对M和1-M中的区域进行细化和修复。0由于模型容量有限且缺乏高质量的RGB-D数据集,因此在单个SIDE模型中解决这些问题非常具有挑战性。因此,我们采用了一种新颖的方法,利用高质量遮罩的附加线索来细化由SIDE方法预测的深度图。提供的遮罩可以是硬遮罩(二进制)或软遮罩(例如抠图),可以是物体或图像的其他部分(如天空)。由于现在非常容易获得高质量的自动遮罩工具,因此可以使用商业工具(如removebg[33]或Photoshop)或现成的分割模型[14, 30, 52,57]轻松获得这些遮罩。分割遮罩也可以由人工注释[7, 41,49],而且相比RGB-D数据,准确的数据集更容易获得,这有助于训练自动遮罩模型。�� � ��� � �38560我们的分层深度细化结果基于DPT[31]的初始预测。在使用自动遮罩工具[33]生成的高质量遮罩M的辅助下,我们的方法能够准确地细化遮罩边界并纠正身体部位之间孤立空洞区域的深度值。我们使用分层方法分别对M和1-M中的区域进行细化和修复。0图2.在高质量掩码的引导下细化的深度图。(b)初始深度预测[31]具有模糊的边界,并且错过了人体部分之间孤立的空洞区域。(c)通过在配对数据集[34]上进行训练直接细化改进了初始深度,但仍然具有模糊的边界。分层细化通过使用掩码进行最终合成步骤,使得边缘锐利,尽管(d)naivein/outpainting[36]在背景中生成了伪影。(e)我们的方法成功地纠正了不准确的深度值,同时在每个区域中根据掩码的引导进行了in/outpainting。分层模型的中间输出显示在右上方。0然而,即使有如此准确的掩码,如何有效地训练深度细化模型仍然是一个悬而未决的问题。如图2(c)所示,直接将掩码作为输入通道添加到细化模型中仍然会导致边界比给定的掩码模糊。因此,我们提出了一种分层细化策略:掩码(M)和反向掩码(1-M)区域分别进行处理,以插值或外推超出掩码边界的深度值,从而得到两层深度图。如图2(e)所示,细化输出是使用掩码M的两层的合成,完全保留了掩码的边界细节,并为孤立的背景区域填充了正确的深度值。分层深度细化的一个朴素基线是使用现成的修复方法为M和1-M生成深度图层。不幸的是,如图2(d)所示,通用修复方法可能无法很好地填充深度图中的大洞。此外,基于掩码的不完美初始深度预测的合适修复区域是一个非平凡的问题。修复区域通常需要扩展以覆盖沿掩码边界的不确定区域,否则错误的深度值可能在洞中传播。然而,过度扩展会使填充洞的任务变得更加困难,因为它可能会覆盖场景中的原始深度结构(参见图2(d)中的1-M层)。为了解决这个挑战,我们提出了一个适应退化的分层深度补全和细化框架,它学会根据掩码和图像的上下文来识别和纠正不准确的区域。我们的框架不需要额外的输入或启发式来扩展填充洞的区域。此外,我们设计了一种自监督学习方案,使用RGB-D训练数据而无需配对的掩码注释。通过在合成数据集和野外真实图像上进行实证验证,我们证明了我们的方法在各种条件下的稳健性。0提供真实世界下游应用的结果。我们的贡献有三个方面:•我们提出了一种新颖的基于掩码引导的深度细化框架,通过通用高质量掩码引导SIDE模型的深度估计结果的细化。•我们提出了一种新颖的分层细化方法,在没有额外输入或启发式的情况下生成具有挑战性区域的清晰准确结果。•我们设计了一种自监督学习方案,使用RGB-D训练数据而无需配对的掩码注释。02. 相关工作0单图深度估计单图深度估计(SIDE),也常被称为单目深度估计,旨在从RGB图像预测深度图。一种常见的方法是在RGB-D数据集上训练深度神经网络,学习从RGB到深度的非线性映射[20,31, 32,47]。至于模型架构,卷积神经网络(CNNs)是一个流行的选择[32,47],最近还提出了一种基于transformer的模型[31],以克服CNNs的有限感受野大小。Transformer模型[10,37]利用自注意力[39],在每个级别上将感受野扩展到整个图像。我们的模型架构也基于transformer,以从扩大的感受野中获益。对于训练SIDE模型,通常会使用合成数据集[4,27, 43, 44, 50]和从立体图像计算出的相对深度[20, 40,46]进行数据增强。已经提出了许多监督方案[1, 5, 12, 13,24, 26, 45, 53, 55, 56]和损失函数[17, 19, 20,47]来优化SIDE模型的训练。一些方法[26, 42,56]尝试利用图像分割和SIDE之间的关系,Zhu等人[56]提出了在损失函数中使用分割图边界来规范深度边界,以强制结果深度图中的边缘更加锐利。然而,即使有复杂的框架设计,能力仍然受限。������������������������ ������� ������������������ ����������������������������������������������������������������������������������������������������������������������������������depth refinement model is challenging as datasets containingmasks along with the RGB-D information are scarce. Hence,we devise a data generation scheme that does not requirepaired depth and mask annotations. Specifically, a compositedepth map D′ is randomly synthesized from two arbitrarydepth maps D1 and D2 using an arbitrary binary mask Mwith mij ∈ {0, 1}, by D′ = M · D1 + (1 − M) · D2.Likewise, the corresponding composite RGB image I′ iscomputed by I′ = M ·I1 +(1−M)·I2, where I1 and I2 arethe RGB images corresponding to D1 and D2, respectively.Examples of D′ and I′ are shown in Figure 3(a). Applyingperturbations to D′ leads to P(D′), and the mask-guidedrefinement model Rm can then be trained with L( ˆD′, D′),where ˆD′ = Rm(P(D′), I′, M).38570由于问题的不适定性和缺乏像素完美的地面真实深度数据,捕捉高精度深度边界仍然是一个挑战。0深度修复在3D摄影的新视图合成中,常常需要对深度图进行修复以自然地填充不可见区域[16, 27,35]。这些方法在靠近物体边缘的背景区域应用联合RGB和深度修复。另一方面,深度补全旨在从稀疏已知注释中填充未知深度值。Imran等人[15]提出了一种分层方法,从LiDAR数据中分别外推前景和背景区域。在我们的深度细化方法中,掩码和反掩码区域都进行了修复/修补,同时纠正不准确的深度值,并在合并后获得准确的边界。0深度细化在一项有启发性的工作中[25],Mian-goleh等人提出通过合并多个不同分辨率的深度预测来提升SIDE结果中的高频细节,利用了CNN的有限感受野大小。然而,他们的合并算法往往会在前景对象中生成不一致的深度值,并且随着最近的变换器架构的出现,其细化效果下降,因为它基于与CNN相关的基本假设。此外,捕捉非常细的边界并在孔区域生成准确的深度值仍然具有挑战性。在本文中,我们探索了一种使用通用掩码作为深度细化指导的新方向。与以前的方法不同,我们不是放大或增强整个深度图中的细节,而是专注于掩码的边界和孔区域的精细细化。处理这样的区域通常在下游应用中很重要,例如Bokeh效果合成。我们的方法是通用的,可以细化由任何SIDE模型生成的深度图,无论模型架构如何,只要提供的掩码比初始深度图具有更好的边界。请注意,我们的方法在逆深度空间中操作,与许多先前的工作[25, 31,32]一样,尽管我们继续使用深度这个术语。03. 提出的方法0我们提出了一种分层深度细化框架,利用准确度较高的掩码和RGB图像的指导来增强SIDE模型的初始深度预测。03.1. 数据生成0随机合成使用由RGB图像I和其深度图D组成的RGB-D数据集,可以通过在D上应用随机扰动P来自我监督地优化通用深度细化模型,P反向模拟初始深度预测。然后可以训练神经网络R来预测经过细化的深度图ˆD = R(P(D), I),并使用适当的损失函数L(ˆD,D)。然而,收集用于训练掩码引导的深度细化模型的数据集具有挑战性,因为包含掩码和RGB-D信息的数据集很少。因此,我们设计了一种数据生成方案,不需要成对的深度和掩码注释。具体而言,使用任意二进制掩码M和两个任意深度图D1和D2随机合成复合深度图D',其中mij∈{0, 1},通过D' = M∙D1 +(1−M)∙D2计算相应的复合RGB图像I',其中I1和I2分别是与D1和D2对应的RGB图像。图3(a)显示了D'和I'的示例。对D'应用扰动得到P(D'),然后可以使用掩码引导的细化模型Rm通过L(ˆD', D')进行训练,其中ˆD' = Rm(P(D'), I',M)。通过这种方式,我们可以获得合成的深度图D'。0图3.数据生成方案。使用任意二进制掩码随机合成RGB-D块。应用扰动以模拟深度估计,导致孤立区域被覆盖和细小结构丢失。0从任何RGB-D数据集和任意掩码对齐到M的RGB图像I'和深度图D'。可以混合使用各种类型的掩码,包括分割数据集[21,54]中的对象和材料掩码。此外,我们可以轻松获取修复/扩展(D1和D2)的真实值,这对于我们的分层细化方法至关重要,下一节将详细介绍。扰动如图3(b)所示,我们应用了三种扰动����������� � ��������������������������������������������������������������������������������������������� ��������� ��������� ��������� ������ � �� � ��� � �� � �� � ���� � �� � �� � �� � ���������������������� �����������������������������38580图4. 所提出的两阶段训练策略概述。在第一阶段,通过随机提供M或1-M并优化L(Rm(D', I', M), D1)或L(Rm(D', I', 1-M),D2)来训练模型Rm进行图像补全。请注意,单个模型同时用于修复和扩展深度输入,以始终完成由给定掩码M或1-M指定的具有0的区域。然后在第二阶段,我们添加扰动P,并使用M和1-M两次运行网络,得到由M和1-M给出的两个输出ˆD1和ˆD2,如下所示0在D'上模拟SIDE模型预测的典型不准确性的各种扰动。首先,随机膨胀和腐蚀以随机顺序应用,使扰动的深度图缺少细小结构,并且其深度边界不总是与RGB图像或掩码对齐。在图3(b)中,可以观察到细小结构(人的手)丢失,并且在随机膨胀和腐蚀后,孤立区域被覆盖(在手臂和椅子主框架之间)。其次,我们对深度图应用随机数量的高斯模糊,因为估计的深度图往往具有模糊的边界。最后,我们设计了一种人体孔扰动方案,该方案检测孤立区域,并在孔的周围和原始孔内部的平均深度值之间分配随机值,模拟估计深度图中常见的缺失孤立区域。有关扰动方案的更多详细信息,请参见补充材料。03.2. 训练策略0分层细化的两阶段训练尽管使用提出的数据生成方案获得了数据对,从而可以看出使用准确的掩码进行深度细化似乎是直接的,但是直接从连接的RGB-D和掩码输入中预测细化的深度图会导致次优结果,如图2所示。为了明确从准确的掩码中受益,我们提出了一种分层细化方法,该方法分别细化由M和1-M指定的区域,并基于M合并两个单独的结果。通过这种方式,模型可以专注于校正深度值。0在每个区域中,掩码边界可以在合并阶段后完全保留。我们在两个阶段中训练我们的模型,如图4所示。在第一阶段,模型Rm通过随机提供M或1-M并优化L(Rm(D', I', M),D1)或L(Rm(D', I', 1-M),D2)进行图像补全训练。请注意,单个模型同时用于修复和扩展深度输入,以始终完成由给定掩码M或1-M指定的具有0的区域。然后在第二阶段,我们添加扰动P,并使用M和1-M两次运行网络,得到由M和1-M给出的两个输出ˆD1和ˆD2,如下所示0ˆ D1 = Rm(P(D'), I', M) and (1) ˆ D2 =Rm(P(D'), I', 1 - M). (2)0合理的ˆ D1和ˆD2从第二阶段开始生成,因为模型已经在第一阶段进行了修复/补全的预训练。最后,ˆ D1和ˆD2被合并以产生精细化的输出ˆ D',如下所示:0ˆ D' = M ∙ ˆ D1 + (1 - M) ∙ ˆ D2. (3)0我们的模型在这个阶段使用三个损失进行优化:L(ˆ D1,D1),L(ˆ D2, D2)和L(ˆ D',D')。因此,网络学习在统一的框架下去除扰动,同时生成完成的深度图。尽管在训练过程中只使用复合深度图作为输入,但是合成的方式(随机深度图与随机掩模)和随机扰动使得模型对真实深度估计和多样化掩模具有很好的泛化能力。���38590方法0�� � � � ��0模型架构0�� � � � ��0� � � � � � � �0� ��������������������� � ���������������� � �������0� �0�0������������������0图5. 我们的网络架构,使用DPT[31]作为骨干模型。我们添加了一个低级编码器和一个用于RGB输入的分支。0通过在第一阶段训练500K次迭代,然后在第二阶段再训练500K次迭代来训练我们的模型,按照...0损失函数 L包括三个不同的损失项,以单位比例求和:L1损失、L2损失和具有四个尺度级别的多尺度梯度损失[20]。梯度损失用于强制深度边界清晰。03.3. 模型架构0我们的模型架构基于密集预测变换器(DPT)[31],具有四个变换器编码器级别[10] l ∈ {1, 2, 3,4}和四个融合解码器级别。在每个编码器级别上,提取重叠的补丁并嵌入到维度 d l ∈ {64, 128, 320,512}中,并分别输入到具有自注意力、LayerNorm[3]和MLP层的 t l ∈ {3, 4, 18,3}个变换器层中。空间分辨率在每个级别上按比例因子 s l ∈{4, 2, 2,2}进行降低。在解码器方面,特征与每个融合级别处的残差卷积单元进行融合,然后在末尾进行单眼深度估计。如图5所示,我们在原始骨干网络中插入了一个额外的编码器分支,具有单个变换器级别,以便将 D'(或 P(D'))和 M(或1-M)进行连接并输入到主分支中,以及将 I' 与 M(或1-M)进行连接并输入到额外的分支中。在第一个变换器级别之后,输出简单地进行求和。此外,引入了一个轻量级的低级编码器来编码输入深度图的低级特征。这些特征与主解码器分支的特征进行连接,并输入到头部,确保网络不会忘记初始深度值。04. 实验04.1. 实现细节0我们在第一阶段训练500K次迭代,然后在第二阶段再训练500K次迭代,按照...进行训练。0在第3.2节中描述的训练策略。我们使用了320×320的训练补丁大小和批量大小为32。模型使用AdamW[22]进行优化,初始学习率为10^-4,在总迭代次数的60%和80%处降低1/10。我们的模型使用PyTorch实现,并在4个NVIDIA V100GPU上进行训练。对于数据增强,我们对输入深度图和RGB图像应用随机水平翻转和调整大小。RGB图像还通过随机对比度、饱和度、亮度、JPEG压缩和灰度转换进行增强,使我们的模型对各种类型的输入更加鲁棒。我们的模型在多样化的室内外自然RGB-D图像上进行训练,其中深度图按照[51]的方式缩放到[0, 10],RGB图像使用ImageNet[9]的均值和标准差进行归一化。此外,为了从支持多样化掩模类型的自监督学习方案中获益,我们从多样的物体掩模中采样50%的掩模,从天空掩模中采样20%,从人体掩模中采样30%,在训练过程中,50%的时间选择带有孔洞的人体(占所有掩模的15%)进行训练。04.2. 评估数据集0为了进行定量评估,需要具有深度和掩膜注释的数据集,以排除由于不准确的掩膜引起的潜在错误。此外,地面真实深度应准确以进行对细边界和物体孔洞的可靠评估。因此,我们使用最近发布的合成数据集Hypersim(CC-BY SA3.0许可证)[34]和TartanAir(3-ClauseBSD许可证)[44],它们包含密集且准确的深度值,并且还具有实例分割图。我们选择Hypersim中每个场景的每个相机轨迹的第一帧,以及TartanAir中每个Easy难度环境中每个轨迹的第100帧作为测试集,这样在Hypersim和TartanAir中总共有456张图像和206张图像。其他数据集,如Cityscapes[8],由于地面真实深度噪声大,边缘周围经常不准确且缺少细小结构,因此不适合作为评估数据集。此外,我们使用自动掩膜工具[33]在来自网络的各种自由许可图像上进行了定性评估。零样本跨数据集转移我们遵循[32]中的实验协议进行评估。在训练过程中,比较的方法和我们的方法都没有看到Hypersim [34]或TartanAir[44]中的RGB-D图像。预测使用l2最小化进行缩放和平移以匹配地面真实深度。使用分割图进行推理为了在基于掩膜的框架中使用分割图,我们采取以下步骤:(i)为每个实例i计算二进制掩膜Mi,该实例在实例分割图中的像素总数超过1%,(ii)使用Mi运行模型N次,(iii)通过|D'-ˆDi|的l2最小化合并每个像素的重新调整输出ˆDi,其中D'是初始深度。R3 ↑MBE↓εacc ↓εcomp ↓WHDR↓RMSE↓R3 ↑MBE↓εacc ↓εcomp ↓WHDR↓RMSE↓where N bi is the number of boundary pixels for each instancei. With εacc, εcomp and MBE, we can comprehensivelymeasure the boundary accuracy of the refined depth map:εacc and εcomp focusing on depth boundaries and MBE onthe mask boundaries of depth maps. Furthermore, we defineR3 (relative refinement ratio) as the ratio of the number ofpixels improved by more than a threshold t to the number ofpixels worsened by more than t, in terms of absolute error.We set t = 0.05 and compute R3 of refined results overinitial results by base models [31,32]. R3 is a meaningfulindicator for assessing the refinement performance.To evaluate the refinement performance, we apply ourmethod to the initial depth predictions of two SIDE models:CNN-based MiDaS v2.1 [32] and SOTA transformer-basedDPT-Large [31]. Since there are no existing methods that per-form mask-guided depth refinement, we set up the following• Direct-composite produces the refined output withoutlayering and is trained on the same dataset as ours (withcomposite images and the mask).• Direct-paired also refines without layering but is trainedon paired RGB-D and masks in Hypersim [34]. Hence,we only evaluate on TartanAir [44] for this method.• Layered models (Layered-propagation and Layered-ours) either apply a propagation-based image comple-tion algorithm [36] or use our model from stage I train-ing, once with the dilated mask for inpainting and thesecond time with the eroded mask for outpainting. Theinpainted/outpainted results are then merged with themask, similar to our proposed approach.4.5. Analysis38600方法 Hypersim [34] TartanAir [44]0MiDaS v2.1 [32] - 0.0973 2.521 7.074 0.1496 0.0966 - 0.0596 3.483 6.913 0.1207 0.05330+ 直接-复合 3.771 0.0941 1.915 6.233 0.1490 0.0961 5.897 0.0594 3.183 6.363 0.1209 0.0534 + 直接-配对 - - - - - - 3.507 0.0575 3.153 6.304 0.11960.0525 + 分层-传播 1.097 0.1044 1.942 6.284 0.1629 0.1028 3.642 0.0608 3.128 6.358 0.1255 0.0550 + 分层-我们的方法 2.332 0.1000 1.871 6.3960.1560 0.0999 6.939 0.0580 3.243 6.437 0.1230 0.0539 + 我们的方法(提出的) 5.209 0.0906 1.888 5.931 0.1481 0.0958 16.569 0.0579 2.851 6.2720.1207 0.05380DPT-Large [31] - 0.0936 2.071 6.190 0.1347 0.0911 - 0.0496 2.574 5.677 0.1091 0.04140+ 直接-复合 2.574 0.0891 1.599 5.411 0.1339 0.0903 4.773 0.0486 2.462 5.480 0.1086 0.0411 + 直接-配对 - - - - - - 2.413 0.0485 2.519 5.394 0.11050.0412 + 分层-传播 1.188 0.1007 1.792 5.636 0.1502 0.0986 2.347 0.0524 2.579 5.527 0.1162 0.0442 + 分层-我们的方法 1.996 0.0954 1.606 5.6050.1433 0.0953 5.626 0.0484 2.447 5.342 0.1116 0.0423 + 我们的方法(提出的) 4.455 0.0840 1.491 5.087 0.1333 0.0896 8.767 0.0474 2.282 5.2450.1078 0.04080表1. 在Hypersim [34]和TartanAir [44]上比较基于掩膜的深度优化模型的定量结果。最佳值用粗体表示。04.3. 评估指标0我们使用RMSE和加权人类不一致率(WHDR)[6]在随机抽样的10K个点对上测量输出深度图的整体误差。为了评估边界质量,我们报告了深度边界误差[18]的准确性(ε acc)和完整性(ε comp)。此外,我们提出了两个指标,掩膜边界误差(MBE)和相对优化比率(R 3)。所有指标都在逆深度空间中测量。MBE计算了N个实例上掩膜边界像素的平均RMSE。掩膜边界Mb i通过将腐蚀后的Mi从Mi中减去并用5×5的卷积核膨胀得到。然后MBE由下式给出:0MBE = 10N0� N0i =10�01 Nb i04.5.分析0为了评估细化性能,我们将我们的方法应用于两个SIDE模型的初始深度预测:基于CNN的MiDaS v2.1[32]和基于SOTA变压器的DPT-Large[31]。由于没有现有的方法可以执行基于掩模的深度细化,因此我们设置了以下内容。0其中Nbi是每个实例i的边界像素数。通过ε acc,εcomp和MBE,我们可以全面地衡量细化深度图的边界准确性:ε acc和εcomp关注深度边界,MBE关注深度图的掩模边界。此外,我们将R3(相对细化比率)定义为改善程度超过阈值t的像素数与绝对误差超过t恶化的像素数之比。我们设置t =0.05,并通过基准模型[31,32]计算细化结果相对于初始结果的R3。R3是评估细化性能的有意义的指标。����������������������������������������������������[32]+ BMF0.77840.09742.5747.0891.0320.05973.4896.947+ [25]4.6710.09231.5515.8374.7210.06023.6057.287+ Ours5.2090.09061.8885.93116.5690.05792.8516.272[31]-0.09362.0716.190-0.04962.5745.677+ BMF0.94440.09372.0946.2030.68750.04972.6675.836+ [25]1.8430.09051.6815.6334.0130.04962.4145.569+ Ours4.4550.08401.4915.0878.7670.04742.2825.24538610(Mbi∙D−Mbi∙ˆD)2,(4)0In Table 1 , we provide the quantitative results on mask- guided re�nement methods. Our method improves both MiDaS v2.1 [ 32 ] and DPT-Large [ 31 ] on all edge-related metrics ( ε acc , εcomp and MBE) and results in high R 3 values of at most 16 . 569 . WHDR and RMSE values are not very discriminative between mask-guided re�nement methods0In Table 1 , we provide the quantitative results on mask- guided re�nement methods. Our method improves both MiDaS v2.1 [ 32 ] and DPT-Large [ 31 ] on all edge-related metrics ( ε acc , εcomp and MBE) and results in high R 3 values of at most 16 . 569 . WHDR and RMSE values are not very discriminative between mask-guided re�nement methods0图6. Hypersim[34]上的定性结果。相对改进图可视化了改进方法相对于初始深度估计[32]或[31]的位置。我们的方法专注于边缘和孔洞区域,准确细化细微结构。0因为它们测量了所有像素的平均误差,而基于蒙版的细化方法旨在沿着蒙版边界进行细化,并将大多数内部区域保持不变。我们的方法在R3和MBE方面优于所有基线,展示了我们分层细化方法的优势。在表2中,我们将其与没有蒙版指导的自动深度细化方法进行比较。传统的图像滤波无法增强与边缘相关的度量。Miangoleh等人的方法[25]在全局边缘度量(ε acc和εcomp)上有时更好,因为它增强了深度图中的所有边缘。然而,由于它也存在扭曲原始值的风险,与我们相比,R3值往往较低,我们大多数情况下沿着蒙版边界进行细化并保持其他区域不变。此外,由于[25]严重依赖基础模型的行为,其对于其他架构类型(如transformer[31])的泛化能力有限。我们的方法不论基础模型架构如何都能很好地工作,并且在两个数据集上都具有很好的泛化能力,与[31]结合时可以获得最佳的度量值。在图6中,我们展示了在Hypersim[34]上的定性结果。我们还可视化了相对改进图,显示与基础模型MiDaS v2.1 [32]或DPT[31]相比绝对误差减小的位置。我们的方法专注于细化边缘和孔洞区域,并保持大多数其他区域不变。0Hypersim [34] TartanAir [44] R 3 ↑ MBE ↓ ε acc ↓ ε comp ↓ R 3 ↑ MBE ↓ εacc ↓ ε comp ↓0BMF:双边中值滤波0表2.与自动细化方法的比较。我们的方法细化蒙版边界并保持其他区域不变,而[25]细化所有区域,存在扭曲原始值的风险。0保持不变的区域,而Miangoleh等人的方法[25]经常使均匀区域变差。与其他基线相比,我们在统一框架内的分层细化方法能够有效地纠正低级细节。0野外图像我们进一步在野外真实图像上评估我们的模型,以评估其泛化能力和鲁棒性。与基线的比较结果显示在图2中,更多结果显示在图1、7和8中。我们的方法能够生成与实际图像一致的清晰深度图。��������������������������������������������������������������� � ������������� � �38620图7. 使用各种蒙版的真实图像上的细化结果。0阶段I 阶段II HP R 3 ↑ MBE ↓ ε acc ↓ ε comp ↓0DPT-Large [31] - 0.0936 2.071 6.190 � 1.996 0.0954 1.6065.605 � 2.016 0.0890 1.915 5.320 � � 2.613 0.0861 1.6705.161 � � 5.384 0.0846 1.438 5.100 � � � 4.455 0.0840 1.4915.0870HP:孔洞扰动0表3. Hypersim [34]上的消融研究。粗体表示最佳值。0各种真实图像的蒙版。所有肖像图像都是来自unsplash[38]和pixabay [28]的免费许可图像,并使用removebg[33]生成蒙版。天空图像由Adobe Stock[2]许可,其蒙版使用商业照片编辑工具进行注释。0消融研究我们在表格3中提供了对我们的模型进行消融研究的结果,通过在我们的框架中删除不同的组件。第一阶段有助于从更好初始化的参数开始,第二阶段对于在统一框架下对我们的模型进行分层细化训练是必要的。删除其中任何一个都会导致性能下降。尽管带有孔扰动和不带孔扰动的定量结果相似,但孔扰动对于改善人体中的孔洞至关重要。在下游应用中的结果更准确的深度图可以改善下游应用的结果。在图8(a)中,我们使用我们的改进深度图在新视角的点云表示中改善了边缘和孔洞。在图8(b)中,我们使用初始深度图和改进深度图应用了Bokeh效果[48]。初始预测中不准确的深度值导致了一个不自然的锐利背景区域。通过我们的改进深度图,它被纠正并变得模糊。关于遮罩质量的分析我们使用不同的遮罩进行了视觉比较,并在补充
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- C++多态实现机制详解:虚函数与早期绑定
- Java多线程与异常处理详解
- 校园导游系统:无向图实现最短路径探索
- SQL2005彻底删除指南:避免重装失败
- GTD时间管理法:提升效率与组织生活的关键
- Python进制转换全攻略:从10进制到16进制
- 商丘物流业区位优势探究:发展战略与机遇
- C语言实训:简单计算器程序设计
- Oracle SQL命令大全:用户管理、权限操作与查询
- Struts2配置详解与示例
- C#编程规范与最佳实践
- C语言面试常见问题解析
- 超声波测距技术详解:电路与程序设计
- 反激开关电源设计:UC3844与TL431优化稳压
- Cisco路由器配置全攻略
- SQLServer 2005 CTE递归教程:创建员工层级结构
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功