深度立体匹配中的不确定性自适应采样网络

152 浏览量更新于2023-10-13 收藏 2.63MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

6311UASNet：用于深度立体匹配的不确定性自适应采样网络毛亚民1刘志华1李伟明1戴玉超2王强1 金润泰3李洪锡31北京三星研究中心2西北工业大学3三星高等技术摘要最近的研究表明，级联成本体积可以在深度立体匹配中发挥重要作用，以实现高分辨率深度图，高效的硬件使用。然而，如何构建良好的叶栅容积以及对其进行有效采样仍在深入研究中。先前的基于级联的方法通常基于方差在预测的视差范围中执行均匀采样，这容易错过地面真实视差并且降低视差图精度。在本文中，我们提出了一个不确定性自适应采样网络（UAS-Net），具有两个模块：不确定性分布引导的距离预测（URP）模型和基于不确定性的视差采样器（UDS）模块。URP探索更具鉴别力的不确定性分布，以处理复杂的匹配模糊性并改善视差范围预测。UDS自适应地调整采样间隔以提高精度定位视差。使用所提出的模块，我们的UASNet学习构建级联成本体积并直接预测全分辨率视差图。大量的实验表明，该方法实现了最高的地面真值覆盖率相比，其他级联成本体积的立体匹配方法。我们的方法在SceneFlow数据集和KITTI基准测试中都达到了最佳性能。1. 介绍从立体图像中推断视差（或深度）是许多应用中的基本任务，例如机器人[19]，自动驾驶[20]和增强现实[29]。现有的立体匹配算法根据其代价体积的表示方法可以分为两类一种是在整个视差搜索范围[2][27][4][5][30][8]中构建4D成本体积，另一种是构建具有窄视差范围[7][24][3][12][13][17]的级联成本体积。如今，级联成本体积方法是流行的，因为它们可以以有效的硬件使用来实现高分辨率的深度图。图1. 最近的方法[7]（中间列）和我们提出的UASNet（右列）之间的视差估计结果的比较。基线方法[7]估计红框所描绘的区域中的错误视差，其中相似的纹理导致立体匹配模糊。相比之下，我们的UASNet基于我们的URP的新设计来估计正确的差异，以改善视差范围预测和UDS，以改善视差采样（详见文本）。串级成本量法的一个重要组成部分是缩小差异范围的方法。先前的方法[7][24]通过简单地将恒定偏移添加到初始预测视差来缩小视差范围。这为所有像素分配相同的偏移，并且当预测误差如图1所示较大时，可能会错过地面实况视差。最近，UCS-Net [3]基于方差预测每像素视差范围。然而，仅仅使用统计方差和手动设计的规则来预测偏移量是不足以处理复杂的匹配模糊度。举例来说，若干不同匹配分布可产生不足以预测视差范围的相同方差。对于预测的视差范围，另一个关键挑战是视差采样的设计。受成本体积构造实现的约束，每像素视差范围的样本数量必须相同。以前的方法[3][6]利用均匀采样，这很容易错过大视差范围内的地面真实视差。如图2所示，均匀采样导致采样点（红色圆圈）远离6312图2. 两种视差采样方法的比较。黑色蓝色曲线描述了沿着视差维度的匹配概率分布。子图（a）示出了均匀视差采样。采样点（红色圆圈）可能远离真实视差（红色虚线）。子图（b）显示了我们提出的UDS。采样点在高匹配确定性的间隔中是密集的，这显著增加了获得真实视差样本的机会。从真实视差（红色虚线）。为了解决上述问题，本文提出了一种不确定性自适应采样网络（UASNet），以构建级联体与改进的视差范围预测以及有效的采样。我们的方法的关键是，我们提出了一种新的不确定性分布引导的范围预测（URP），以精确地估计每像素的视差范围和基于不确定性的视差采样器（UDS），以自适应地调整采样间隔，以定位视差，提高精度。具体而言，URP探索更具鉴别力的不确定性分布来处理复杂的匹配歧义。它利用深度学习模块从不确定性分布学习每像素视差范围。视差范围监督被添加到网络中，以学习区分性特征，从而改善视差范围预测。UDS根据匹配不确定性离散化每像素的预测候选范围以这种方式，样本在高匹配确定性范围内是密集的，并且变得容易获得后续阶段的真实视差样本。利用所提出的模块，构造级联代价体，得到全分辨率视差图。图1显示了最近的级联成本体积方法[7]和我们的UASNet之间的比较可以看出，在[7]中，交通标志的顶部区域上的一些像素和由红色框表示的路缘石的一部分不能找到正确的匹配。相比之下，右列中的UASNet可以通过改进的范围预测和准确的基于不确定性的采样来学习正确的差异总而言之，我们的网络通过提出的具有级联成本体积表示的UASNet提高了立体匹配精度。我们的贡献总结如下：我们提出了一个URP模块来探索不确定性分布，以处理复杂的匹配歧义，并提高视差范围预测。它实现了最高的地面实况覆盖率与其他距离预测方法[7][3][6]进行了比较。• 我们提出了一个UDS策略来自适应调整根据匹配不确定度确定每个像素的采样间隔，在高匹配确定度范围内实现了密集采样，从而易于为后续阶段获得我们提出的方法在SceneFlow数据集[15]和KITTI基准测试[16]上都达到了最佳性能。2. 相关工作2.1. 深度立体匹配立体匹配问题已经被深入研究了很长一段时间，并在最近几年取得了重大进展[27][1][25][32][22]。大多数立体匹配过程可以总结为四个步骤[2][18]，例如特征提取、成本构建、成本聚合和视差计算。与传统方法[9][11][10]相比，深度立体匹配在特征提取和成本聚合过程中显示出巨大的潜力，这显著提高了立体基准的匹配精度[21][31]。深度立体匹配的早期工作是由Zbon-tar和LeCun[28]开始的，他们提出了一种深度网络来匹配图像块，然后是传统的成本正则化。后来，GC-Net[14]将立体匹配的所有组件合并到单个端到端学习模型中。继GC-Net之后，PSM-Net[2]提出了一种堆叠的3D卷积沙漏结构来聚合成本体积。为了进一步提高匹配精度，CSPN[4]提出了一个卷积空间传播网络来聚合非本地成本信息，GANet[30]引入了一个半全局聚合层来进行成本聚合。后来，GwcNet[8]通过引入分组相关成本量提出了增强的成本量值得注意的是，这些方法在整个视差搜索范围内构建成本然而，由于高的计算和存储成本，他们必须构建低分辨率成本卷，这限制了进一步提高匹配精度。··6313图3. 我们提出的UASNet的管道在级联成本体积表示。我们首先通过URP计算每个像素的视差范围，以及基于不确定性的自适应样本UDS。然后，我们应用基于自适应样本的特征扭曲来构建稀疏成本体。最后，我们从成本体积回归视差图。在我们的实验中，我们构建了有效的三级级联成本卷的空间分辨率从1/16，1/4到1倍的原始分辨率的变化。2.2. 粗到精立体匹配为了处理计算和存储器成本的问题，已经提出了从粗到细的立体匹配方法，以利用有效的硬件使用来逐步构建高分辨率成本体积[24][23][12][13][7][3]。 AnyNet[24]通过在初始视差上添加一个小的固定偏移量，构建了一个缩小视差范围的高分辨率成本体积。一个早期的工作与级联成本量法[7]利用前一阶段中的预测视差来逐渐减小搜索范围。这两种方法为所有像素分配相同的视差范围，并且如果在粗略阶段中预测误差较大，则可能容易错过正确的匹配。所有基于级联的立体方法必须解决的固有设计问题是如何选择视差范围和采样以构建级联成本体积。最近的工作[6][3]预测每像素视差范围以解决范围选择问题。DeepPruner[6]使用可区分的PatchMatch层来修剪每像素范围。UCS-Net[3]基于概率分布的方差提高了预测范围的准确性。然而，使用简单的一维方差来估计视差范围仍然是不够的，特别是对于具有匹配模糊的复杂场景。同时，在大视差范围中，在上述方法[6][3]中执行的均匀采样导致稀疏采样，其容易错过真实视差。不同于以往的工作，在这里，我们探讨了更多的信息不确定性分布预测的差距通过基于不确定性的视差采样对每个像素的范围进行离散化。值得注意的是，我们提出的模块可以插入到任何现有的级联成本体积网络，以提供准确的视差范围预测和采样策略。在这里，我们选择级联成本量法[7]和迭代立体深度估计方法[6]作为骨干。3. 方法图3展示了我们网络的管道。它由三级级联成本卷组成，其空间分辨率从原始分辨率的1/16、1/4到1倍增加。该网络首先通过特征金字塔模块提取多尺度特征。在第一阶段中，我们的方法通过在整个视差搜索范围内扭曲右特征图并将其与左特征图连接来构建低分辨率成本体积。然后，从成本量中学习概率量以预测相应的视差图。在第二阶段中，上采样的视差图和概率体积通过URP和UDS以生成精细自适应视差样本。基于样本，建立高分辨率成本体积以预测视差图。在最后阶段中，基于所估计的更精细样本来构建全分辨率成本体积，并且对全分辨率成本体积进行回归以预测全分辨率视差图。以下部分将介绍我们提出的URP、UDS和损失函数。6314.ΣΣ.Σ--.Σ.Σ−我我我我1n..Σ。ΣΣ将不确定度与偏移量进行比较，如等式2所示（二）、这里，不确定性是指视差样本的匹配概率。uol−1。sl−1Σ=pl−1。sl−1Σ*。sl−1−dl−1Σ2（2）图4.不确定性分布引导的距离预测过程。该模块输入来自l-1级的基于不确定性的偏移向量uol-1sl-1，并通过编码器-解码器网络学习每像素偏移ol输出视差范围rl由偏移〇l和l-1级的上采样视差图^dl-1计算3.1. 不确定性分布引导的距离预测在立体匹配问题中，视差一般由概率体积p和视差样本集S. 其可表示为视差样本集的概率加权平均(1))[14]第10段。Snd=d×p（d）（1）d=s1这里，d（表示回归差，s=si ，…，是视差样本的集合，并且p（d）是视差等于d的概率。实际上，视差样本的概率对于纹理化区域中的像素，概率分布是单峰分布。在一些实施例中，真实视差通常对应于峰值分布并且真实视差通常对应于峰值。对于纹理较少或重复纹理区域中的像素，由于模糊特征匹配，概率分布倾向于具有多个对于遮挡区域中的像素，概率分布是平坦的，因为没有正确的匹配。为了描述概率分布的不确定性，UCS-Net[3]利用方差进行不确定性估计。UCS-Net考虑每个像素的不确定性，并使用统计方差来预测每个像素的偏移。实际上，不同的分布可以对应相同的方差。在补充材料（图S2）中，我们示出了产生相同方差的六种不同分布，其中四种情况不能正确地估计视差范围，并且另外两种情况预测比真实视差和预测视差之间的偏移更大的视差范围为了处理这个问题，我们提出的URP探索了更多信息的不确定性分布来预测每像素的视差范围。代替如[3]中使用一维方差信息，我们利用每个像素的多维不确定性分布。视差样本si与经回归视差di之间的偏移也影响这里，uol−1和pl−1表示基于不确定性的f set和阶段l −1处的sam p l esi的概率。 dl−1是阶段l−1的回归视差。对于每个像素，我们得到一个多维不确定性为基础的偏移向量uol−1 sl−1=uol−1sl−1 ， ...uol-1sl-1对应于样本集s 。然后，我们的URP模型使用深度学习模块从uol-1sl-1学习每像素视差偏移，而不是像[3]中那样手动设计规则。视差范围损失监督网络学习判别特征，以解决复杂的匹配歧义，并预测一个紧凑的范围，以覆盖真正的视差。图4显示了URP过程。给定基于每像素不确定性的偏移向量uol-1sl-1，编码器-解码器结构被应用于学习信息特征并预测阶段l处的每像素偏移。最后，我们通过从回归的视差图dl−1中减去f set的每个像素来计算每个像素的下限，并通过对f set和dl−1求和来计算上限。3.2. 基于不确定性的视差采样器为了成功地构建规则成本体积，每个像素的样本的数量必须相同。然而，均匀采样容易在大的搜索范围内错过真实视差。为了解决这个问题，我们提出的UDS离散每像素的预测候选范围的匹配不确定性的基础上，这使得采样点分布与匹配概率分布一致。这样，密集样本位于高匹配确定性范围内，并且易于在后期获得真实视差样本。图5显示了我们提出的UDS流程。输入上采样的概率量pl-1和预定义的采样数N，估计的范围rl被离散化为Nl个部分。首先，我们沿着视差维度对范围rl内的概率进行归一化。然后，从下限开始，如果累积概率直方图的面积相应地达到i/（N-1），其中i=0，1，…N-1，则每个端点被认为是样本岛最后，我们获得N个样本s0，s1，…sN−1。这样，样本在高概率区域中是密集具体地，视差样本si计算如下：如果p（d≤dk−1）i/（N−1）≤p（d≤dk）：最终偏移估计。因此，我们通过乘-s=d+N−1−p（d≤dk−1）i k−1 p（dk），k= 1，2，…K（三）6315KGT我松弛最小值我EPEdgt，d我GTminGTMax图5. 基于不确定性的视差采样器的示例。我们截断每个像素的概率分布与预测的范围rl和规范化。然后，通过均衡累积概率来获得视差样本。这里，dk=dmin+k=dmax-dmin是指视差值地面真相在范围rl内，K是固定常数，并且dmin 和d最大分别是范围rl的下限和上限。活泼地下限dmin是样本s0。p（d≤dk）=L松弛min=γ·L1（dgt，dmin），若dmin≤dgt（1−γ）·L1（dgt，dmin），否则克赖斯特彻奇pl−1（d）是累积概率y。.γ·L1（dgt，dmax），当dgt≤ dmax时d=dminL松弛max=（1−γ）·L1（dgt，dmax ），否则（六）3.3. 损失函数视差损失。具有光滑L1的终点误差（EPE）用于计算视差损失。EP E.dgt，dΣ=L smooth.dgt−dΣ（4）这里，d>是指地面实况视差，并且d>是预测的视差。我们监督所有阶段的视差输出和我们的网络的总预测视差损失如下：其中γ是权重并且小于0。1在实验中L 1指L 1损失。L_relax_min和L_relax_max分别约束下限和上限，这允许视差范围足够大以覆盖地面实况。然而，太大的范围降低了在地面实况差异处采样的可能性。为了解决这个问题，使用EPE绝对损耗来强制范围不会变得太大。因此，我们的设计将Lrelaxmin，Lrelaxmax，EPE（dgt，dmin）和EPE（dgt，dmax）结合在一起，以保证合理的预测范围。3 43L显示 =ΣwlΣλi·EPE。dl，dlΣ（5）Lrang eloss =Σ（αl·. LlL松弛最小值（七）l=1i=1L=2其中.ll Σ是指第h个视差的损失+β1·。EPE.dl，dl Σ+EPE.dl，dl）在阶段l处的预测，并且Wl和λi是指它们对应的损失权重。每个级具有来自预沙漏模块和三个堆叠的3D沙漏模块的四个输出。在我们的训练过程中，每个阶段都输出视差图，并且损失被反向传播。对于测试过程，只有最后一级输出视差图。视差范围损失。为了学习每个像素的紧凑搜索空间，我们使用视差范围损失[6]。这种损失包括两部分：弛豫损失和绝对损失。松弛损失旨在确保视差范围足够大以覆盖地面实况视差，并且绝对损失将视差范围约束为尽可能小。当量(6)引入弛豫损耗。如果下限大于地面实况差异，则实施大的惩罚以鼓励下限小于地面实况。相反，对于预测的上限，弛豫损失鼓励它大于+LΣ6316其中，α1和β1是阶段1处的两个平衡权重，并且较大的β意味着较小的覆盖范围。这里，我们只需要预测阶段2和阶段3的视差范围总损失函数总损失函数定义为： L=L位移+L范围损失。4. 实验在本节中，我们描述了实验的细节，包括数据集，评估指标，训练设置，并进行消融研究，以验证所提出的网络组件。然后，我们将我们的结果与公开数据集上的SOTA方法进行了比较。4.1. 数据集和实施详细信息SceneFlow[15]是一个大型合成数据集，包含35，454对训练图像和4，370对测试图像。Finalpass版本用于训练我们的模型，因为它是6317×× ××× × × × ××方法范围采样EPSceneFlowUnif UDS E↓[px]CR↑[%]方法级联成本1成本2成本31/16 1/4 1范围采样统一UDSSceneFlow KITTI2015EPE↓[px] CR↑[%]所有↓[%]CR↑[%]Cas2[7]2CC修复C0.64999.042.099.35Cas2+变量[3]2CCVANC0.64597.721.9198.62Cas2 +Ours（URP）2CCURPC0.62399.391.8799.70Cas2+我们的（URP+UDS）2CCURPC0.61999.351.8699.73Cas3[7]3CCC修复C0.58197.361.7598.66Cas3 +Ours（URP）3CCCURPC0.55498.711.6999.28Cas3+我们的（URP+UDS）3CCCURPC0.52798.701.6699.34表1. SceneFLow和KITTI2015基准的消融研究这里，FIX、VAN和URP分别指具有固定偏移、基于方差和基于URP的模块的距离预测方法CR是指覆盖率。DeepPruner*[6]PRUC0.99698.34DeepPruner*+Ours（URP）URPC0.93498.99DeepPruner*+我们的（URP+UDS）URPC0. 90198.97表2. SceneFLow数据集上的消融研究。这里，PRU和URP指的是修剪范围和基于URP的预测范围。Unif是指均匀采样。CR是指覆盖率。接近具有运动模糊和散焦的真实场景该网络使用Adam优化器训练了64个 epoch初始学习率是0.001，并且在时期10、12、14之后按比例缩小2，并且在1处结束。25e-4。在训练过程中，我们将输入图像随机裁剪为512 256块。视差损失中的系数Wl和λ i与[7]相同。对于视差范围损失，系数α2、β2被设置为4.0、0.7，并且α3、β3被设置为4.0、2.8。KITTI[16]. KITTI 2012数据集由194个训练图像对和195个测试图像对组成。KITTI 2015数据集包含200张训练图像和200张测试图像。在我们的实现中，我们将KITTI 2012与2015数据集结合在一起，总共有394个立体图像对。我们随机选择347张图像进行训练，其余的用于验证。SceneFlow数据集上的预训练模型在KITTI上进一步微调600个epoch。前200个epoch的学习率为0.001，其余epoch的学习率为1e-4由于KITTI的地面实况直接由激光扫描仪捕获，因此它比SceneFlow数据集稀疏得多，因此我们增加了HSM-Net等数据[26]。具体而言，使用非对称色度增强来提高网络的鲁棒性以处理不同的照明和曝光条件。我们还应用非对称遮挡增强，通过用整个图像的平均值替换左侧图像上随机选择的矩形区域，这有助于遮挡区域中的视差估计。图6. SceneFlow数据集的定性比较结果。我们所提出的方法更好地工作在无纹理的区域，如黑色边框突出显示的区域，而基线方法预测错误的视差，由于固定偏移和均匀采样方法。4.2. 消融研究在本节中，我们进行消融研究，以验证我们提出的URP和UDS的改进在Scene-Flow数据集和KITTI2015基准测试中，我们使用我们提出的模块改进了Cas 2和Cas 3方法[7]，并将它们表示为Cas 2 + Ours（URP），Cas 2 +Ours（URP+UDS），Cas 3 +Ours（URP）和Cas 3 +Ours（URP+UDS）。Cas2是两级叶栅成本体积模型，成本体积的大小分别为H/4W/4C12和H/2W/2C/212对于Cas 3，额外的HWC/48成本体积被构造以直接输出全分辨率视差图。此外，我们将我们的模型与当前SOTA范围预测方法[3][6]进行了比较。具体来说，对于UCS-Net [3]，我们用UCS-Net中基于方差的方法替换Cas 2中的范围预测模块，并将其命名为作为Cas2+方差。对于DeepPruner*[6]，我们将DeepPruner* 的范围预测模型替换为我们的6318方法SceneFlowEPE↓[px]KITTI2012Bad2.0 ↓Bad3.0 ↓参考2.0 ↓参考3.0↓noc[%]noc[%]noc[%]noc[%]KITTI2015D1-bg ↓D1-fg↓ ALL↓Noc↓所有[%]noc[%]PSMNet[CVPR18'][2]1.092.441.4913.778.361.864.622.322.14DeepPruner*[ICCV19'][6]0.86----1.873.562.151.95GwcNet[CVPR19'][8]0.772.161.3212.497.801.743.932.111.92Cas[CVPR20’][7]0.62----1.594.032.001.78GA-Net[CVPR19'][30]0.841.891.1910.756.221.483.461.811.63[32]第三十二话0.871.831.1711.176.931.513.801.891.72CSPN [TP0.781.791.19-6.921.512.881.741.61LEASheo[NIPS20'][5]0.781.901.139.665.351.402.911.651.51UASNet（我们的）0.531.811.188.024.551.442.791.661.51秩123112121表3.与SOTA方法进行定量比较UASNet（Ours）是指Cas3 +Ours（URP+UDS）。URP，并将其命名为DeepPruner*+Ours（URP）。这里，DeepPruner* 是指DeepPruner-Best模型。为了公平比较，DeepPruner*+Ours（URP）的模型大小略小于DeepPruner* 。此外，我们将 UDS 添加到DeepPruner*+Ours （ URP ）中，并将其命名为DeepPruner*+Ours（URP+UDS）。预测差异精密度的评价。如表1 中所示，Cas2+Ours（URP）将EPE误差降低4%，并且将ALL误差（对于所有标记的像素具有3像素阈值的坏像素比率）降低 6 。 5% ，与 Cas2 相比。 Cas3 +Ours（URP+UDS）将EPE误差降低9. 3%，所有误差为5。1%，与Cas3相比。此外，Cas2 +Ours（URP）具有比Cas2+变异更低的EPE和ALL误差[3]。如表2所示，DeepPruner*+Ours（URP）将EPE误差减小6。2%，覆盖率从98。34%至98。与DeepPruner*相比，99%。DeepPruner*+Ours（URP+UDS）将EPE误差降低了 9。比DeepPruner* 高5% 。这里，Deep-Pruner * 的EPE结果略高于[6]中所述的结果，因为我们使用了SceneFlow数据集这比CleanPass版本更硬。图 6 显示了 Cas2[7] 和 Cas2 +Ours （ URP+UDS ）在SceneFlow数据集上的比较结果。我们的方法在一些具有挑战性的区域中执行更好的视差估计，例如用黑色边界框突出显示的区域，其中基线方法由于固定偏移和均匀采样而预测错误的视差。在补充材料（图S3）中，我们将均匀采样和我们的UDS方法在KITTI 2015基准上的一些比较结果可视化。实验结果表明，UDS算法能够自适应地调整采样间隔，从而准确地估计出图像的视差，特别是对于细长结构。预测差异范围的评价。我们量化的像素比例，预测的视差范围覆盖地面真实视差的图像，命名为覆盖率（CR）。结果表明，CAS2+Ours（URP）和CAS2+Ours（CAS2 +Ours，URP）的CR值分别为0.001和0.0001，差异有显著性（P <0.01）。Cas3 +Ours （ URP ）达到 99. 39% ， 98. 71% 在SceneFlow和99. 70%，99. 28%，这验证了我们的预测范围可以覆盖几乎所有的地面实况差异。这里，阶段3的CR低于阶段2，因为我们在视差范围损失中使用更大的β以确保紧凑的范围。当在具有960*540图像分辨率的场景流数据集上进行评估时，我们的URP方法可以比Cas方法另外分别覆盖阶段2和阶段3的1814像素和6998像素的地面真实差异。此外，与固定偏移方法[7]、基于方差的范围预测方法[3]和范围修剪方法[6]相比，我们的URP方法实现了最高的地面实况覆盖率。图7可视化了我们预测的阶段2和阶段3的视差范围。可以看出，在大多数情况下，预测范围很小，这大大减少了构建成本卷的计算和存储负担同时，几乎所有的地面实况差异位于上限曲线和下限曲线之间4.3. 与SOTA方法的比较表3定量比较了我们的方法与包含PSM-Net[2]，DeepPruner*[6]， GwcNet[8]，Cas[7]， GA-Net[30]，AcfNet[32]，CSPN[4]的SOTA方法。”[5]《礼记》：“礼也。其中，LEASereo是一种神经架构搜索（NAS）方法。我们的方法在SceneFlow测试数据集上实现了最佳性能，并在KITTI Stereo 2012和2015基准测试中实现了最佳性能。图8显示了我们的方法和SOTA方法的比较。KITTI2015排行榜上发布的三张图片被展示和比较。请注意，我们的方法在前景对象边界上具有更好的性能，例如道路标志，这些边界在图像中由黄色方块突出显示，并且误差图被放大以实现更好的可视化。6319图7. 阶段2和阶段3的预测视差范围可视化。预测的视差范围（红线：上限;蓝线：下限）大到足以覆盖地面实况差异（黑点），并且小到足以减少成本体积构建的计算和存储器负担。图8.我们的结果与SOTA方法的可视化比较结果是从KITTI生成的彩色视差图5. 结论在本文中，我们提出了一个不确定性自适应采样网络（UASNet）构建级联成本体积与改进的视差范围预测以及有效的通过实验，我们验证了每个设计组件的有效性，这些组件一起工作以改善我们的UASNet性能，优于最近的SOTA方法，例如级联成本体积[7]和DeepPruner*[6]。进一步的实验表明，我们的方法达到了在三个立体匹配基准测试中表现出色：SceneFlo w[15]、KITTI2012和KITTI2015 [16]。6. 致谢戴玉超部分获得国家重点研究发展计划（ 2018AAA0102803 ）和国家自然科学基金（61871325）资助。6320引用[1] Abhishek Badki，Alejandro Troccoli，Kihwan Kim，JanKautz，Pradeep Sen，and Orazio Gallo. Bi3d：通过二进制分类的立体深度估计。在CVPR中，第1600- 1608页[2] 张嘉仁和陈永生。金字塔立体匹配网络。在CVPR中，第5410-5418页[3] Shuo Cheng，Zexiang Xu，Shilin Zhu，Zhuwen Li，LiErran Li，Ravi Ramamoorthi，and Hao Su.深使用具有不确定性感知的自适应薄体积表示的立体。在CVPR中，第2524-2534页[4] Xinjing Cheng，Peng Wang，and Ruigang Yang.使用卷积空间传播网络学习深度。TPAMI，2019。[5] Xuelian Cheng ， Yiran Zhong ， Mehrtash Harandi ，Yuchao Dai ， Xiaojun Chang ， Tom Drummond ，Hongdong Li，and Zongyuan Ge.用于深度立体匹配的分层神经架构搜索。在NeurIPS，2020年。[6] Shivam Duggal ， Shenlong Wang ， Wei-Chiu Ma ， RuiHu，and Raquel Urtasun. Deeppruner：通过可区分的patchmatch学习有效的立体匹配。在ICCV，第4384[7] Xiaodong Gu，Zhiwen Fan，Siyu Zhu，Zuozhuo Dai，Feitong Tan，and Ping Tan.级联成本体积高分辨率多视图立体和立体匹配。在CVPR，第2495[8] Xiaoyang Guo ， Kai Yang ， Wukui Yang ， XiaogangWang，and Hongsheng Li.分组相关立体网络。在CVPR中，第3273-3282页[9] 海科·赫希米勒利用半全局匹配和互信息进行立体处理。TPAMI，30，2007.[10] 海科·赫希穆勒通过半全局匹配和互信息进行精确和高效的立体在CVPR，第2卷，第807-814页[11] Asmaa Hosni ， Christoph Rhemann ， Michael Bleyer ，Carsten Rother，and Margrit Gelautz.快速的成本-体积过滤，用于视觉对应和超越。TPAMI，35（2）：504[12] Yinlin Hu，Rui Song，and Yunsong Li.用于大位移光流的有效的粗到细块匹配。在CVPR中，第5704-5712页[13] Tak-Wai Hui ， Xiaoou Tang ， and Chen Change Loy.Liteflownet：用于光流估计的轻量级卷积神经网络在CVPR中，第8981-8989页[14] Alex Kendall、Hayk Martirosyan、Saumitro Dasgupta、Peter Henry、Ryan Kennedy、Abraham Bachrach和AdamBry。深度立体回归的几何和上下文的端到端学习在ICCV，第66-75页[15] Nikolaus Mayer ， Eddy Ilg ， Philip Hausser ， PhilippFischer ， Daniel Cremers ， Alexey Dosovitskiy ， andThomas Brox.用于训练卷积网络的大型数据集，用于视差，光流和场景流估计。在CVPR，第4040[16] Moritz Menze和Andreas Geiger。自动驾驶车辆的对象场景流。在CVPR，第3061-3070页[17] Anurag Ranjan和Michael J Black。使用空间金字塔网络的光流在CVPR中，第4161- 4170页[18] Zhibo Rao，Mingyi He，Yuchao Dai，Zhidong Zhu，and Renjie He. Nlca-net：一个用于立体匹配的非局部上下文注意网络。APSIPA Trans.信号信息过程，9，2020.[19] Korbinian Schmid，Teodor Tomic，Felix Ruess，HeikoHirschm üller，andMichaelSuppa.基于立体视觉的飞行机器人室内外导航。在IROS，第3955[20] Sayanan Sivaraman和Mohan M Trivedi。综述了基于视觉的车辆检测技术的最新进展。在IEEE IV，第310-315页[21] 萧嵩、徐昭、方良吉、胡汉文、益州余。Edgestereo：一个用于立体匹配和边缘检测的有效多任务学习网络。Int J Comput Vis，128（4）：910[22] 萧嵩、赵旭、胡汉文、方良吉。Edgestereo：用于立体匹配的上下文集成残差金字塔网络。在ACCV，第20-35页[23] Alessio Tonioni ， Fabio Tosi ， Matteo Poggi ， StefanoMattoccia和Luigi Di Stefano。实时自适应深度立体声。在CVPR，第195-204页[24] Yan Wang，Zihang Lai，Gao Huang，Brian H Wang，Laurens Van Der Maaten，Mark Campbell，and Kilian QWeinberger.移动设备上的随时立体图像深度估计。在ICRA，第5893-5900页[25] Haofei Xu和Juyong Zhang。Aanet：用于高效立体匹配的自适应聚合网络。在CVPR中，第1959[26] 杨庚山，约书亚·马内拉，迈克尔·哈波德，德瓦·拉曼南。高分辨率图像上的分层深度立体匹配。在CVPR中，第5515-5524页[27] Zhichao Yin，Trevor Darrell，and Fisher Yu.用于匹配密度估计的分层离散分布分解。在CVPR中，第6044-6053页[28] Jure Zbontar和Yann LeCun。用卷积神经网络计算立体匹配代价。在CVPR中，第1592-1599页[29] Nadia Zenati和Noureddine Zerhouni应用于增强现实的密集立体匹配。在ICSPC，第1503-1506页[30] Feihu Zhang，Victor Prisacariu，Ruigang Yang，and PhilipH. S.乇Ga-net：用于端到端立体匹配的引导聚合网络。在CVPR，第185-194页[31] Feihu Zhang ， Xiaojuan Qi ， Ruigang Yang ， VictorPrisacariu，Benjamin Wah，and Philip Torr.域不变立体匹配网络。参见ECCV，第420-439页[32] Youmin Zhang，Yimin Chen，Xiao Bai，Suihanjin Yu，and Kuiyuan Yang.用于深度立体匹配的自适应单峰成本体积滤波在AAAI，第34卷，第12926- 12934页

下载后可阅读完整内容，剩余1页未读，立即下载