雾体积表示的立体匹配

11 浏览量更新于2023-10-25 收藏 18.25MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

. . .. . .Fog. . .Fog130430FoggyStereo：具有雾体积表示的立体匹配0姚成堂 1,2 ，于立东 201 北京理工大学智能信息技术实验室，2 蔚来自动驾驶算法0yao.c.t@bit.edu.cn0摘要0在有雾场景中进行立体匹配是具有挑战性的，因为雾的散射效应会使图像模糊并使匹配变得模糊不清。之前的方法将雾视为噪声，并在匹配之前将其丢弃。与它们不同，我们提出利用雾中的深度提示来改进立体匹配。深度提示的探索是从渲染的角度设计的。渲染是通过反向大气散射过程进行的，并在所选深度范围内去除雾。渲染图像的质量反映了所选深度的正确性，因为它越接近真实深度，渲染图像就越清晰。我们引入了雾体积表示来收集来自雾的这些深度提示。我们通过堆叠使用从视差候选计算得到的深度进行渲染的图像来构建雾体积。我们将雾体积与代价体积融合以纠正雾造成的模糊匹配。实验证明，我们的雾体积表示在有雾场景中将SOTA结果提高了10%到30%，同时在晴朗场景中保持了可比较的性能。01. 引言0立体匹配是一项像素级的标注任务，依赖于具有区分性特征以实现准确结果。在晴朗场景中，现有方法可以很好地提取区分性特征[3,4,7,15,16]。然而，在现实世界中不可避免地会遇到有雾或类似有雾的场景。雾会使图像模糊，并使特征对于立体匹配变得不可区分。雾造成的模糊匹配结果限制了立体匹配的应用。之前的方法将雾视为噪声并将其丢弃以改善匹配结果[12,26,27,36]。与它们不同，我们提出利用雾并探索深度提示进行立体匹配。直观的观察来自于雾的渲染过程。在渲染过程中，雾是0地面真实值0有0(0(050图像0图像0150图0图0图000(a程和0深度=15米深度=10米深度=5米0地面真实值0深度0有雾的图像0(a) 渲染的过程和结果。0(b) �� ~ �� 的分布。05米的雾雾雾 10米0深度=0米0图像块0图像块0深度=10.2米015米的雾0渲染的0图像块0渲染的0图像块0渲染的0图像块0反向大气散射过程0相机物体相机物体相机物体相机相机0雾 0m0物体0（b）SSIM � 深度的分布。0图1.雾中深度提示的可视化。（a）我们通过去除不同深度范围中的雾来反向大气散射过程。只有接近真实深度的深度会导致清晰的图像。我们将这个观察称为深度提示。（b）我们进一步说明了深度中渲染图像质量的分布。我们通过结构相似度（SSIM）度量来衡量图像质量。我们发现，深度候选越接近真实深度，渲染图像质量越好。0在物体和相机之间沿光线路径积累的光线会遵循物理大气散射过程[24, 34,38]。不同的深度会导致不同的亮度，并以不同程度模糊图像。因此，当我们通过反向大气散射过程渲染图像时，雾会在所选深度范围内被去除。如图1a所示，只有接近真实深度的深度会导致清晰的图像。换句话说，渲染图像的质量表明了在渲染中使用的深度的正确性。130440处理过程，如图1b所示。基于上述观察，我们引入了雾体积表示来收集来自雾中的深度提示。雾体积是与代价体积一起构建的，使用相同的视差候选。当我们为代价体积采样一个视差候选时，我们还通过雾体积验证其正确性。雾体积表示分为三个步骤构建。我们首先从左图像中学习大气散射过程的参数，包括全局大气光和大气衰减系数。然后，我们通过反向大气散射过程，使用大气参数和采样的视差候选渲染一系列左图像。最后，将渲染的图像堆叠在一起构建我们的雾体积。我们在雾区域使用3D卷积网络对雾体积进行学习，以验证采样的视差。我们的雾体积在雾天区域提供了很好的深度提示，而现有的代价体积由于图像退化而失去了效果。相反，代价体积更适用于良好可见区域[3, 7,11]。为了充分利用这两种体积，我们通过体积不确定性将它们融合在一起。体积不确定性是通过沿视差维度的两个体积的方差计算得到的。我们在合成和自然雾天场景上验证了我们的方法。我们的方法在雾天场景中的性能比现有方法提高了10%以上，同时在晴天场景中保持了可比较的性能。我们测试了我们的方法在不同深度范围和雾厚度下的能力，以展示我们的方法在实际世界中的潜在应用。02. 相关工作02.1. 立体匹配0立体匹配已经研究了几十年，以获得准确和密集的匹配结果[21, 29, 37]。传统方法[1, 15, 17, 33,40]主要使用手工设计的特征，并依靠优化/聚合和细化来获得准确的密集对应关系。近年来，最先进的方法[3, 4, 7, 13,16, 30,39]主要使用深度神经网络来学习判别特征，并依靠3D代价体积来矫正匹配结果。尽管传统方法和基于深度学习的方法都取得了显著的改进，但它们的性能主要在晴天场景中得到保证。当面对雾天或类似雾天的场景时，它们的匹配结果严重降级。02.2. 雾天中的立体匹配0为了解决雾引起的模糊匹配问题，先前的方法主要将雾视为噪声，在立体匹配之前丢弃它。它们旨在从图像中去除雾或学习一个抗噪声模型来计算0第一种方法通常使用去雾方法[26, 27]或专门设计的硬件[12,36]丢弃左右图像中的雾。它们认为可以获得清晰的图像，并且恢复后可以保持图像质量的左右一致性。第二种方法侧重于设计优化方法来学习一个抗噪声的立体匹配模型[28,35]。这些方法假设可以在合成数据中学习到一个抗噪声模型，并快速适应真实世界。然而，上述方法只将雾视为噪声，忽视了从雾中获取有益的深度提示，即附近物体比远处物体更清晰。与它们相比，一些方法注意到雾可以帮助立体匹配。它们主要利用雾在两种方法中的优势：特征融合和目标函数。第一种方法同时进行立体匹配和去雾任务，假设深度提示在特征学习过程中被探索[19, 31]。另一种方法[2,25]将大气散射参数的学习与立体匹配集成到优化的目标函数中作为附加约束。在本文中，我们提出了一种探索雾的深度提示的新视角。我们发现通过反转大气散射过程，我们可以检查渲染图像的质量并验证视差的正确性。因此，我们的雾体积表示明确地收集这些深度提示，并有助于视差估计的学习。02.3. 体积雾渲染0雾或类似有雾的场景通常根据大气散射过程的物理模型进行渲染[6, 9,38]。当一个三维物体投影到图像平面时，雾粒子的散射光沿着光线路径累积，称为体积光线行进。最近，基于神经体积的方法[18,20]在散射介质中取得了良好的性能。它们使用可微分的光线行进算法来学习可渲染的体积。在本文中，我们通过反转大气散射过程来构建雾体积表示。它从雾中收集深度提示，并与代价体积融合以改进模糊区域的视差估计。03. 方法0如图2所示，我们从经过校准的相机拍摄的左右图像中提取特征。我们从左图像中估计大气光L∞和衰减系数β。然后，我们将提取的特征进行变换，基于采样的视差{Di}i=N−1i=0构建代价体积。视差也被转换为深度{Zi}i=N−1i=0，并用L∞和β渲染图像。我们收集一组渲染图像并将它们连接起来构建雾体积。然后将雾体积与代价体积融合以修正匹配结果。T(Zx) = e−� Zx0β(z)dz,(1)Lt(x) = L∞ ρ(x) T(Zx).(2)Lc(x) = L∞(1 − T(Zx)),(3)I(x) = Lt(x) + Lc(x)= J(x)T(Zx) + L∞(1 − T(Zx)),(4)R(x, Zix) = I(x) − L∞(1 − T(Zix))T(Zix).(5)R(x, Zix) = e� Zix0β(z)dzI(x) − L∞(e� Zix0β(z)dz − 1). (6)130450图2.我们方法的概述。我们从左右图像中提取特征，通过变换w�构建代价体积。我们从左图像中预测大气光L∞和衰减系数β，用不同深度Zi渲染一系列图像。渲染的图像沿通道维度连接起来，并与代价体积融合以进行视差估计。0在接下来的内容中，我们将重点介绍雾体积构建、代价体积和雾体积的融合以及损失函数。有关其他具体架构，请参阅我们的补充材料。03.1. 雾体积表示0如前所述，我们发现渲染图像的质量可以指示渲染过程中使用的深度的正确性。基于这一观察，我们提出了一种雾体体积表示来探索雾的深度提示。雾体积是通过堆叠一系列使用不同深度渲染的图像构建的。渲染我们通过反转大气散射过程来渲染图像。在有雾或类似有雾的场景中，光子和颗粒在传输介质中的相互作用会导致大气散射效应[24, 34,38]。大气散射效应导致从物体反射的光的衰减和环境光的积累。衰减和积累共同决定图像质量的降低。从物体到相机的衰减T通常由Beer-Lambert-Bouguer定律测量：0其中 Z x 是相机与像素 x 上物体点之间的距离，β ( ∙ )是衰减系数。在像素 x 上投影的衰减光 L t 然后计算为：0L ∞ 是大气光，ρ ( x ) 是像素 x上物体表面的反射率。环境光的积累使得物体的亮度随着深度的增加而增加：0其中 L c ( x ) 是投影到像素 x上的累积光。然后，相机捕获的最终强度 I 被表示为 L t 和L c 的和：0其中 J ( x ) = L ∞ ρ ( x ) 代表清晰场景中的数据，I ( x )代表雾场景中的数据。公式（4）表明雾场景中的图像退化与场景深度 Z相关。因此，我们通过反转大气散射过程并使用不同的深度候选 Z i x来渲染图像，以探索雾的深度线索，其中深度候选越接近真实值，渲染图像的质量越好。这个过程表示为0这个过程是大气散射过程的自然表达，但是通过这个方程学习图像的渲染是困难的，因为 R ( x, Z i x ) 随着 Z i x的增加呈指数级变化：R(x, Zix) = ln(|I(x) − L∞|) +� Zix0β(z)dz.(7)R(x, Zix) = ln(|I(x) − L∞| + ϵ) + βZix,(8)Vf(x, Z) = [R(x, Z0x), R(x, Z1x), · · · , R(x, ZN−1x)], (9)(10)130460一旦我们选择了一个较大的深度候选，梯度就会爆炸，学习变得不稳定。为了解决这个问题，我们在一个对数空间中进行学习：0在接下来的内容中，通过公式（7）计算渲染图像以构建雾体积表示。散射参数估计如公式（7）所示，我们使用两个散射参数来渲染图像，包括大气光 L ∞ 和衰减系数β。根据之前的方法[24,34]，在单一光源和均匀传输介质的条件下，我们将 L ∞ 和β设置为全局参数。我们通过完全卷积网络从左图像中学习全局参数。网络包含一个基本特征提取模块，如图2所示的两个分支。每个分支输出大气光参数和衰减系数。视差候选采样我们采样视差候选来构建成本体积和雾体积。具体来说，我们使用一个网络来预测每个像素的最小视差候选 D min x和最大视差候选 D maxx，遵循DeepPruner[7]的方法。然后我们在 N次中均匀采样视差候选 D i x，其中 D i x 在 D min x 和 Dmax x 之间。在获得视差候选 {D i x} i = N − 1 i =0后，我们根据相机的焦距和基线使用极线几何计算深度候选{Z i x} i = N − 1 i =0。渲染图像收集由于我们将 L ∞ 和 β设置为全局参数，对于不同的深度，β变为常数。公式（7）更新为0其中 ϵ是数值稳定性的常数。然后根据公式（8）渲染一系列带有采样深度的图像，并通过堆叠渲染的图像构建雾体积表示 Vf ：0其中[∙]表示连接操作。如图2所示，雾体积随后输入到3D卷积网络中，通过渲染图像质量的变化来探索雾的深度提示。03.2. 融合0在有雾的场景中，成本体积在清晰区域中效果良好，可以很容易地学习到有区分度的特征，但在模糊区域中效果较差。在这些区域，雾体积提供了雾的深度提示，渲染图像的质量可以验证视差候选。为了充分利用这两种体积的优势，0我们将它们融合在一起，并引导网络在清晰区域依赖成本体积，在模糊区域使用雾体积纠正模糊匹配。具体而言，我们使用不确定性来衡量不同区域中成本体积和雾体积的置信度。我们计算成本体积Vc和雾体积Vf沿视差维度的方差σ作为不确定性：0σ(x, Di) =0i - 0i=0 P(x, Di)(Di - µD)2,0µD = 10i - 0i=0 Di,0其中P(x, Di)是体积V的概率体积：0P(x, Di) = eV(x,Di)0�i = N - 1 i=0 eV(x,Di), (11)0然后，通过以下方式实现Vc和Vf的融合：0˜V(x, Di) = [σc(x, Di)Vc(x, Di), σf(x, Di)Vf(x, Di)].0（12）如图2所示，融合的体积˜V随后输入到3D卷积网络中，共同利用两个体积的有益信息进行视差估计。03.3. 损失函数0在上述章节中，我们估计了用于图像渲染的散射参数L∞和β，并预测了最终输出的视差图D。本节介绍了我们用于引导L∞、β和D学习的损失函数。预测的视差图D通过地面真实视差图D使用L1损失进行监督：0L0 = L1(D, �D). (13)0对于L∞和β，我们以有监督的方式使用清晰图像的重建损失。我们首先根据公式（8）使用预测的密集视差图生成渲染图像R，并通过对左侧清晰图像J进行对数变换：0J'(x) = ln(|J(x) - L∞|). (14)0然后，我们使用J'(x)通过L1损失函数同时在RGB空间和灰度空间对渲染图像进行监督：0L1 = L1(�R, J') + L1(�Rgray, J'gray). (15)0我们还为L∞设计了一种无监督学习策略。当Zx很大时，L∞近似等于I(x)。因此，我们计算了视差小于1.5的像素的平均强度作为L∞的伪地面真值。results.130470测试指标立体联合顺序我们的方法 PSMNet* [3] DeepPruner* [7] SDNet [32] SSMDNet [31] 4Kdehazing [41] + DeepPruner [7]0清晰EPE 0.99 0.98 - - 1.19 0.8103px（%）4.1 5.30 - - 6.2 4.50有雾EPE 1.27 3.77 2.68 2.23 1.49 1.0403px（%）8.1 14.10 26.43 9.71 10.30 7.20表1. 在SceneFlow数据集上的算法比较。我们比较了在清晰数据和有雾数据上的结果。*表示我们重新实现的结果。0方法0KITTI 2015 KITTI 20120有雾清晰有雾清晰03px（%）EPE 3px（%）EPE 3px（%）EPE 3px（%）EPE0立体 PSMNet* [3] 1.3 0.54 1.0 0.49 3.3 0.84 3.3 0.860DeepPruner* [7] 3.7 0.88 8.8 1.66 4.3 0.94 5.0 1.090Joint SDNet [32] 13.4 1.73 - - 11.0* 1.63* 10.7* 1.60*0SSMDNet [31] 10.8 1.23 - - 9.7* 1.55* 9.5* 1.53*0Sequential 4Kdehazing [41] + DeepPruner [7] 7.3 0.951 1.1 0.49 3.2 0.91 3.2 0.890我们的方法 1.2 0.51 1.1 0.47 2.7 0.77 2.7 0.780表2. KITTI 2015和2012数据集上算法的比较。*表示我们的重新实现结果。0然后用L1损失来监督学习L∞：0L2 = L1(¯L∞, �L∞). (16)0最终损失是L0、L1和L2的加权和，权重为γ0和γ1：0L = γ0L0 + γ1(L1 + L2). (17)04. 实验04.1. 数据集0Sceneflow Sceneflow[22]是一个合成数据集，包含超过39000个分辨率为960×540的立体图像帧。它提供了从清晰场景中渲染出的密集地面真实视差。该数据集包含三个场景，其中35454个图像对用于训练，4370个图像对用于测试。KITTI 2012和2015KITTI 2012 [10]和2015[23]是具有1240×376图像分辨率和由激光雷达收集的稀疏地面真实视差的真实世界数据集。在KITTI2012中，有194对训练图像和200对测试图像。在KITTI2015中，分别使用200对图像进行训练和测试。PixelAccurateDepth PixelAccurateDepth[11]是一个真实世界数据集，其中构建了四个典型的汽车户外场景，包括行人区域、住宅区域、建筑区域和高速公路。该数据集收集了1600个分辨率为1730×734的样本，这些样本在受控的天气（晴天、雨天、雾天）和照明（白天、夜晚）下进行，其中雾中分为17个可见度级别（以5m为步长，从20m到100m）。04.2. 实现细节0我们以DeepPruner[7]作为基线，并在其上实现我们的方法。因此，我们的网络在特征提取和代价聚合方面与DeepPruner具有类似的架构。有关更多详细信息，请参阅我们的补充材料和代码1。雾景合成我们使用在清晰场景中收集的数据集，包括Sceneflow、KITTI 2012和KITTI2015来合成雾景图像。雾景图像在左右视图中进行训练和测试的合成。我们使用Eq. (4)按照之前的方法[8,31]进行合成。我们在Sceneflow数据集中使用密集的地面真实视差图进行合成。至于只包含稀疏地面真实视差的KITTI 2012和2015数据集，我们使用LEAStereo[5]和他们的预训练模型生成雾数据合成的伪密集视差图。训练我们使用两种裁剪尺寸，256×512和512×512，在β1 =0.9和β2 =0.999的Adam优化下进行训练。在训练过程中，我们首先将图像归一化为[0, 1]，然后随机合成L∞ ∈ (0.7, 1)和β ∈(0,0.1)的雾景图像，适用于所有数据集。清晰数据和雾数据的数量比例设置为7:3。我们使用超参数γ0 = 1.0，γ1 =0.05适用于所有数据集。我们在Sceneflow数据集上从头开始训练模型，进行100个epochs，初始学习率为0.001。然后，我们使用在Sceneflow数据集上预训练的模型，并在KITTI2015训练集上进行1000个epochs的微调，初始学习率为0.0001。至于PixelAccurateDepth数据集，我们使用在KITTI2015数据集上预训练的模型。按照PixelAccurateDepth数据集的训练协议，我们进行微调01https://yaochengtang.github.io/FoggyStereo-Stereo-Matching-with-Fog-Volume-Representation/results.130480方法 RMSE ↓ tRMSE ↓ MAE ↓ tMAE ↓ logRMSE ↓ SRD ↓ ARD ↓ SIlog ↓ δ 1 (%) ↑ δ 2 (%) ↑ δ 3 (%) ↑0SGM [14] 1.90 1.40 0.96 0.86 0.14 0.27 8.12 13.32 90.74 98.44 99.500PSMNet [3] 2.75 1.96 1.44 1.22 0.18 0.56 9.91 16.07 89.14 97.21 98.800DeepPruner* [7] 1.81 1.37 0.80 0.70 0.12 0.21 5.52 11.78 93.57 98.08 99.500联合 SDNet* [32] 1.89 1.53 1.03 0.94 0.13 0.26 7.94 12.87 92.52 98.22 99.570SSMDNet* [31] 1.95 1.53 1.00 0.90 0.12 0.22 7.05 12.17 92.75 98.53 99.680顺序 4K去雾 [41] + DeepPruner [7] 1.79 1.32 0.77 0.67 0.11 0.19 5.12 10.95 94.41 98.45 99.660Lidar（int.）[11] 1.89 1.36 0.70 0.59 0.13 0.23 4.78 12.58 93.62 98.13 99.360RGB+Lidar [11] 3.05 2.04 1.61 1.29 0.26 0.53 10.85 24.01 84.69 94.77 97.050我们的方法 1.82 1.31 0.75 0.64 0.11 0.20 5.01 11.11 94.07 98.45 99.560表3. 在PixelAccurateDepth数据集的清晰数据上的算法比较。*表示我们的重新实现结果。0方法 RMSE ↓ tRMSE ↓ MAE ↓ tMAE ↓ logRMSE ↓ SRD ↓ ARD ↓ SIlog ↓ δ 1 (%) ↑ δ 2 (%) ↑ δ 3 (%) ↑0SGM [14] 3.00 1.81 1.56 1.20 0.21 1.00 14.02 20.75 84.34 94.91 97.220PSMNet [3] 3.01 2.10 1.65 1.35 0.19 0.61 11.10 16.94 84.95 96.34 98.650DeepPruner* [7] 2.61 1.75 1.30 1.00 0.16 0.40 8.10 15.16 87.24 95.61 98.920联合 SDNet* [32] 2.63 1.88 1.48 1.22 0.18 0.47 10.67 16.86 85.83 95.70 98.500SSMDNet* [31] 2.69 1.83 1.42 1.13 0.17 0.42 9.23 16.12 87.42 96.13 98.540顺序 4K去雾 [41] + DeepPruner [7] 3.32 1.81 1.69 1.06 0.23 0.76 9.91 20.71 85.08 92.13 95.010Lidar（int.）[11] 3.67 2.01 1.68 1.13 0.39 0.91 12.21 35.19 80.57 87.27 91.660RGB+Lidar [11] 3.81 2.52 2.34 1.83 0.35 0.91 16.88 28.67 69.77 85.16 92.740我们的方法 2.55 1.64 1.19 0.91 0.15 0.38 7.38 14.77 89.28 96.33 98.66 我们的方法（像素精确深度清晰） 1.74 1.20 0.80 0.61 0.10 0.22 4.50 9.04 93.14 97.4299.720表4. 在PixelAccurateDepth数据集的雾霾数据上的算法比较。*表示我们的重新实现结果。0在Gated2Depth数据集的训练集上使用预训练模型，而没有进行任何雾霾图像合成。0评估我们在四种设置下评估了我们方法的性能，(a)在Sceneflow数据集上进行训练和测试，(b)在KITTI2015上进行微调和测试，(c)在KITTI2015上进行微调并在KITTI2012上进行测试，(d)在Gated2Depth数据集上进行微调并在PixelAccurateDepth数据集上进行测试。在每个测试阶段，我们分别评估清晰场景和雾霾场景的结果，没有进行任何领域适应或后处理。在前三个设置中，我们使用端点误差（EPE）和3像素（3px）错误率作为评估指标。在最后一个设置中，我们遵循PixelAccurateDepth[11]中使用的指标，包括均方根误差（RMSE），均方根阈值误差（tRMSE），平均绝对误差（MAE），平均绝对阈值误差（tMAE），均方根对数误差（tRMSE），均方根对数误差（logRMSE），平方相对距离（SRD），绝对相对距离（ARD），尺度不变对数误差（SIlog）和阈值指标δi<1.25i，其中i∈{1,2,3}。0与SOTA方法的比较我们主要与三种方法进行比较，分别是针对清晰场景设计的立体匹配方法[3, 7]，联合学习立体匹配和去雾的方法[31,32]，以及顺序学习去雾和立体匹配的方法[41]。我们用'Stereo'表示第一种方法，'Joint'表示第二种方法，'Sequential'表示最后一种方法。需要注意的是，我们实现了4K去雾[41]+ DeepPruner[7]的方法。0在“Sequential”方法中进行公平比较。0图3.三种体积的可视化。顶部展示了地面真实视差图和对应的雾天图像。在雾天图像中，红色点表示融合体积结果最好，而雾体积的结果优于代价体积。左侧行展示了从每个体积计算得到的视差图。右侧展示了圈出区域视差候选的概率分布，其中通过不同颜色的垂直线来表示地面真实值和最终预测值。04.3. 基准性能0Sceneflow如表1所示，在雾天场景中，与“Stereo”、“Joint”和“Sequential”方法相比，我们的方法在EPE上至少提高了20%。此外，我们在晴天场景中保持了良好的性能，而“Sequential”方法的性能明显下降。130490图4.EPE误差率分布在深度上的可视化。EPE是在将预测和地面真实视差转换为深度后计算得到的。‘OURS’表示我们方法的分布结果。‘JOINT’表示SSMDNet [31]的结果。‘SEQ’表示4Kdehazing[41] + DeepPruner [7]的结果。‘STEREO’表示DeepPruner[7]的结果。0我们还发现，PSMNet在雾天场景中比DeepPruner要好得多。原因是DeepPruner在第一次视差候选生成中使用了PatchMatch，而PatchMatch的功能和稳健性不如PSMNet中使用的完整代价体积。尽管使用了相同的视差候选采样方法，我们的方法在雾体积下的准确性几乎提高了3倍，相比DeepPruner，这显示了雾体积在雾天场景中的强大作用。KITTI 2012和2015我们使用带有合成雾的KITTI2012和2015数据集来验证我们的方法在真实世界中的效果。如表2所示，在雾天场景中，我们取得了最好的结果，在晴天场景中取得了可比较的结果。与Sceneflow上的结果类似，PSMNet的性能要比DeepPruner好得多，这显示了混合晴天和雾天数据中的学习稳定性问题。相反，我们的方法在KITTI2012中提高了30%的DeepPruner，并且比PSMNet几乎提高了10%，这表明雾体积表示在很大程度上可以缓解这个问题。有关学习稳定性的更多细节，请参阅补充材料。PixelAccurateDepthPixelAccurateDepth是一个具有不同能见度的真实世界数据集。我们在该数据集上与SOTA方法进行比较，以说明我们的方法在真实雾天场景中的泛化能力。如表3所示，除了“Sequential”方法之外，我们的方法几乎是最好的。在晴天场景中，“Sequential”方法的性能更好，这是由于在Gated2Depth数据集上进行了微调。我们在没有任何雾天数据的情况下对4Kdehazing +DeepPruner进行端到端的微调。在这种情况下，4Kdehazing逐渐成为特征提取并提高了DeepPruner的性能。然而，在雾天场景中，“Sequential”方法比DeepPruner更差，如表4所示，而我们的方法是所有方法中最好的。这一现象证明了我们的方法能够保留从中学到的知识。0图5.EPE误差率分布在雾厚度上的可视化。雾厚度定义为衰减系数β。虚线表示四种方法的分布情况。为了更好的可视化，我们用实线表示我们方法的详细EPE分布。‘OURS’表示我们方法的结果。‘JOINT’表示SSMDNet [31]的结果。‘SEQ’表示4Kdehazing [41]+ DeepPruner [7]的结果。‘STEREO’表示DeepPruner[7]的结果。0即使在不同数据集上进行长时间学习后，我们的方法仍然可以保留先前数据的信息。我们还展示了在PixelAccurateDepth数据集的清晰数据上微调后的结果。如表4所示，我们进一步取得了很大的改进，这意味着我们使用合成数据的方法可以很好地推广到真实的雾天场景中。04.4. 消融研究和分析0融合的影响为了验证融合的有效性，我们提供了雾体、代价体和融合体的可视化。如图3所示，雾体在红色区域的表现优于代价体。根据视差候选的概率分布，从融合体计算得到的最终视差更接近于真实值。在数量比较方面，我们使用融合的方法比基准方法DeepPruner要好得多，如表1至表4所示。深度范围的影响为了展示我们的方法在不同深度范围下的鲁棒性，我们在清晰和雾天场景中可视化了EPE误差率在深度上的分布。如图4所示，我们的方法在清晰和雾天场景中取得了类似的性能，而其他方法在这两种场景中通常有非常不同的曲线，特别是在较大深度的情况下。雾厚度的影响为了展示我们的方法在不同雾厚度下的鲁棒性，我们将雾的厚度定义为衰减系数β，并在不同β下呈现EPE误差率的分布。如图5所示，我们的方法在不同β下取得了最佳性能，而DeepPruner[7]在雾厚度增加时得到了更差的结果。我们还发现，我们的雾体表示方法在β∈[0.05,0.06]的区间内效果最好。如图5所示，我们的方法的性能首先变得更好，然后稍微变差。这种性能变化是由于剪切引起的。130500图6. 在具有真实雾天场景的PixelAccurateDeth数据集上的深度图可视化。0颜色值的存储通常为8位，当雾的亮度累积过多时，颜色值将被截断，导致信息丢失。我们在PixelAccurateDeth数据集中提供了深度图的可视化，以展示我们的雾体对远处物体的能力。如图6所示，Lidar（int）在清晰场景中取得了很好的结果，但在雾天场景中失去了效果。基于深度学习的方法比Lidar（int）更具鲁棒性，而我们的方法是最好的。04.5. 限制和讨论0如上述实验所示，我们在雾天场景中的立体匹配方面取得了巨大的进展。然而，我们的方法也存在一些限制，例如对大气参数的假设。我们假设当前阶段的大气参数是全局常数。这种假设在具有不均匀散射的场景中并不完全适用。0通过中值和多光源的方法，我们可以进一步扩展我们的想法，尽管本文只关注雾天场景，但我们的想法可以通过调整物理模型（如雾、雨、水等）灵活地扩展到其他散射介质。05. 结论0在本文中，我们证明了雾对于雾天场景中的立体匹配具有有益的深度线索。我们提出了雾体表示方法来收集这些深度线索。我们的雾体表示方法通过逆向大气散射过程来探索雾的深度线索，并验证用于代价体的每个视差候选。通过将我们的雾体与代价体融合，探索到的深度线索可以帮助代价体纠正雾引起的模糊匹配。实验证明，我们的雾体可以稳定学习并改善雾天场景中的视差估计，而不会牺牲在清晰场景中的性能。[1] Stan Birchfield and Carlo Tomasi. Depth discontinuities bypixel-to-pixel stereo. International Journal of Computer Vi-sion (IJCV), 35(3):269–293, 1999. 2[2] Laurent Caraffa and Jean-Philippe Tarel. Stereo reconstruc-tion and contrast restoration in daytime fog. In Asian Con-ference on Computer Vision (ACCV), pages 13–25. Springer,2012. 2[3] Jia-Ren Chang and Yong-Sheng Chen.Pyramid stereomatching network. In Proceedings of the IEEE Conferenceon Computer Vision and Pattern Recognition (CVPR), pages5410–5418, 2018. 1, 2, 5, 6[4] Shuo Cheng, Zexiang Xu, Shilin Zhu, Zhuwen Li, Li ErranLi, Ravi Ramamoorthi, and Hao Su. Deep stereo using adap-tive thin volume representation with uncertainty awareness.In Proceedings of the IEEE Conference on Computer Visionand Pattern Recognition (CVPR), pages 2524–2534, 2020.1, 2[5] Xuelian Cheng, Yiran Zhong, Mehrtash Harandi, YuchaoDai, Xiaojun Chang, Hongdong Li, Tom Drummond, andZongyuan Ge.Hierarchical neural architecture search fordeep stereo matching. Advances in Neural Information Pro-cessing Systems (NeurIPS), 33:22158–22169, 2020. 5[6] Yoshinori Dobashi, Tsuyoshi Yamamoto, and TomoyukiNishita.Interactive rendering of atmospheric scatteringeffects using graphics hardware.In Proceedings of theACM SIGGRAPH/EUROGRAPHICS Conference on Graph-ics Hardware, pages 99–107, 2002. 2[7] Shivam Duggal, Shenlong Wang, Wei-Chiu Ma, Rui Hu,and Raquel Urtasun. Deeppruner: Learning efficient stereomatching via differentiable patchmatch.In Proceedingsof the IEEE International Conference on Computer Vision(ICCV), pages 4384–4393, 2019. 1, 2, 4, 5, 6, 7[8] Raanan Fattal. Single image dehazing. ACM Transactionson Graphics (TOG), 27(3):1–9, 2008. 5[9] Ignacio Garcia-Dorado, Daniel G Aliaga, Saiprasanth Bha-lachandran, Paul Schmid, and Dev Niyogi.Fast weathersimulation for inverse procedural design of 3d urban models.ACM Transactions on Graphics (TOG), 36(2):1–19, 2017. 2[10] Andreas Geiger, Philip Lenz, and Raquel Urtasun. Are weready for autonomous driving? the kitti vision benchmarksuite. In Computer Vision and Pattern Recognition (CVPR),2012 IEEE Conference on, pages 3354–3361. IEEE, 2012. 5[11] Tobias Gruber, Mario Bijelic, Felix Heide, Werner Ritter,and Klaus Dietmayer. Pixel-accurate depth

下载后可阅读完整内容，剩余1页未读，立即下载