引导立体匹配：稀疏输入的改进深度学习算法在立体声中的应用

39 浏览量更新于2023-10-17 收藏 1.22MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

193.21%4.36%引导立体匹配Matteo Poggi，DavidePallotti，Fabio Tosi，Stefano Mattoccia意大利{m.poggi，fabio.tosi5，stefano.mattoccia}@ unibo.it(a)（b）（c）图1. 引导立体匹配。（a）来自KITTI 2015 [20]的参考图像和（b）iResNet估计的视差图[14]在合成数据上训练[19]，或（c）由稀疏深度测量（5%密度）指导误差率（>3）叠加在每个地图上。摘要立体声是一种从图像中推断密集深度图的突出技术，深度学习进一步推动了最先进的技术，当有足够的数据可用于训练时，端到端架构无与伦比。然而，深度网络在处理新环境时的准确性会显著下降。因此，在本文中，我们介绍了引导立体匹配，一种新的范例，利用少量的稀疏，但可靠的深度测量从外部源检索，使改善这一弱点。我们的方法所需的附加稀疏线索可以用任何策略获得（例如，LiDAR），并且用于增强与对应的视差假设相关联的特征。我们的公式是通用的，完全可微的，因此能够利用预先训练的深度立体声网络中的额外稀疏输入，在三个标准数据集和两个最先进的深度架构上的广泛实验表明，即使使用一小组稀疏输入线索，i）所提出的范例也能够显著改进预先训练的网络。此外，委员会认为，ii）从头开始的训练显著地增加了对域转移的准确性和最后，iii）它是适合和有效的，甚至与传统的立体声算法如SGM。1. 介绍获得密集和准确的深度估计是有效解决计算机中更高级别任务的共同第一作者。视觉，如自动驾驶，3D重建和机器人技术。它可以采用主动传感器，如激光雷达，或从标准相机获得的图像进行。前一类设备受到一些限制，这取决于部署到更深处的技术。例如，基于结构光的传感器具有有限的工作范围，并且在户外环境中无效，而LiDAR虽然非常流行且准确，但仅提供稀疏的深度测量，并且在处理反射表面时可能具有缺点。另一方面，基于标准相机的无源传感器潜在地允许在任何环境和应用场景中获得密集的深度估计。Stereo [28]依赖于两个（或多个）校正图像，通过匹配沿水平对极线的相应像素来计算视差，从而能够通过三角测量来立体声的最新趋势包括在大量（合成）立体声对上训练端到端卷积神经网络（CNN）[19]，以直接推断密集视差图。然而，当变换域时，例如从用于初始训练的合成数据[19]移动到真实目标图像时，深度立体架构会受到影响。因此，深度网络在目标环境中进行微调，以改善域转移问题。尽管如此，用于评估立体声精度的标准基准[7，20，27，29]给出了关于这种范例的一些有趣的见解。虽然当大量数据可用于微调时，它是无与伦比的，就像KITTI数据集[7，20]的情况一样，但是当没有足够的数据可用时，混合学习和传统管道的方法[35]仍然与深度网络竞争，尤其是Middlebury v3 [27]和ETH3D [29]数据集。979980在本文中，我们建议利用一小部分稀疏深度测量，通过深度立体声网络，在任何环境中获得密集和准确的估计。值得指出的是，我们的建议不同于深度融合策略（例如，[17，21，5，1]），旨在将有源传感器的输出与立体算法（如半全局匹配[10]）相结合。事实上，这些方法主要旨在使用适当的框架从多个可用的深度测量中选择最可靠的深度测量，而我们的建议具有完全不同的目标。特别地，给定深度网络和小集合（例如，小于整个图像点的5%）的精确深度测量值：我们能在不重新训练的情况下提高网络的总体准确性吗？我们能减少域转移问题吗？我们从头开始训练网络以利用稀疏测量是否会得到更好的结果？为了实现这些目标，我们提出了一种新的技术，在功能层面上发挥作用，并与任何国家的最先进的深度立体声网络部署。我们的策略增强了与稀疏输入提供的视差假设相对应的特征，保持了原始深度网络的立体推理能力它是通用的，适合于提高预训练模型的准确性，以及从头开始训练新实例，以实现更好的结果。此外，它还可以用于提高SGM等传统立体声算法在所有情况下，我们的技术增加了一个可以忽略不计的计算开销的原始方法。值得注意的是，有源传感器，特别是基于LiDAR的传感器和标准相机都可用作大多数自动驾驶设置中的标准设备此外，由于LiDAR的成本正在下降并且固态设备已经可用[26]，稀疏和精确的深度测量似乎不限于特定的应用领域。因此，独立于用于推断稀疏深度数据的技术，据我们所知，本文首次成功尝试利用外部深度源来提高最先进的深度立体声网络的准确性。我们报告进行了广泛的实验与两个顶级性能的体系结构与源代码，PSMNet常等人。[3]和Liang 等人的 iResNet。[14]和标准数据集KITTI[7 ，20]，Middlebury v3 [27]和ETH3D [29]。这种评估的结果支持这项工作的以下三个主要主张：• 给定稀疏（5%密度）深度输入，将我们的方法应用于预先训练的模型总是会提高其准确性，无论是当网络仅在合成数据上训练还是在目标环境上进行微调时。<• 从头开始训练一个由稀疏输入引导的网络大大增加了它的泛化能力，显著减少了由于域转移引起的差距（例如，当从合成图像移动到真实图像时）。• 所提出的策略可以无缝地应用到传统的立体声算法，如SGM。在图1中，我们可以注意到如何在KITTI 2015 [20]的一个非常具有挑战性的立体声对上（a）在合成数据上训练的最先进的深度立体声网络产生不准确的视差图（b），同时使用我们的方法仅部署5%的稀疏深度数据来引导它，尽管域偏移，但可以获得更准确的结果（c）。2. 相关工作立体声在计算机视觉中有着悠久的历史，Scharstein和Szeliski [28]根据执行的不同步骤将传统算法分为两大类，即局部和全局方法：i）成本计算，ii）成本聚集，iii）视差优化/计算，以及iv）视差细化。虽然局部算法通常是快速的，但它们在低纹理区域的存在下是无效的。另一方面，全局算法以更高的复杂度为代价执行得更好。Hirschmuller利用机器学习进行立体声的早期尝试旨在利用基于学习的置信度测量[25]来检测离群值或提高视差准确性[34，23，24]。属于后一类的一些作品修改了成本卷，这是两个图像中像素之间匹配关系的中间表示，通过替换获胜匹配成本[34]或在置信度估计的指导下调制其分布[23深度学习的传播也打击了立体匹配。早期的工作集中在传统立体声管道的单个步骤上，例如通过CNN学习匹配函数 [44，4，16]，改进了所进行的优化通过SGM [30，31]或细化视差图[8，2]。后来，合成数据[19]的可用性使得能够训练端到端架构以用于体现上述所有步骤的视差估计。去年，出现了大量的框架，在KITTI基准上达到了越来越高的准确性[7，20]。所有这些算法都可以根据它们如何表示沿极线的像素之间的匹配关系而大致分为两大类，类似于传统立体算法的成本体积计算。第一类由计算属于左帧和右帧的特征之间的匹配分数的网络组成。结果是特征图，链接到dispar- ity假设，沿着通道维度连接。该体积通过2D卷积处理，通常由编码器-解码器架构处理。DispNetC作者：Mayeret al. [19]是文献中提出的第一个端到端网络，表明了这种模式。较新的架构981z平均值=3.364平均值=0.594密度= 3.37%(a)（b）（c）（d）（e）图2. 改进泛化的示例。（a）来自Middlebury [ 27 ]的参考图像，通过（b）iResNet获得的视差图[14]在SceneFlow合成数据集上训练[19]，（c）在SceneFlow上训练的iResNet用于引导立体声，（d）从（e）地面真实深度获取的我们强调的事实是，（b）和（c）仅在合成图像上训练获得[22]，[23]，[24]，[25]，[26]，[27]，[28]，[29]，此外，其他框架，如EdgeStereo [32]和SegStereo [42]联合处理立体声与其他任务，分别是边缘检测和语义分割。第二类由构建3D成本体积（实际上，考虑到特征尺寸为4D）的框架组成，该框架通过左右特征之间的级联[12]或差异[13]获得。这种数据结构通过3D卷积处理，并且最终的视差图是可微分赢家通吃（WTA）策略的结果Kendall等人的GC-Net[12]是遵循这一战略的第一个作品，也是第一个达到KITTI排行榜顶端的端到端架构以下基于GC-Net构建的架构提高了准确性，增加了特定的聚合模块[15]和空间金字塔池[3]，或者通过设计一个微型模型[13]提高了效率。尽管采用了不同的策略，但这两个类都以某种方式将对应点的表示编码在类似于传统手工制作的立体声算法的成本体积的数据结构因此，使用深度立体网络和常规算法，我们将作用于这样的数据结构，以指导具有稀疏但准确的深度测量的视差估计。3. 引导立体匹配鉴于从外部来源（如LiDAR或任何其他手段）收集的稀疏但精确的深度信息，我们的主要目标是利用这些线索来帮助最先进的深度学习框架进行立体匹配。为此，我们引入了一种特征增强技术，通过峰值化与外部测量所建议的深度值直接相关的特征，直接作用于CNN内部处理这可以通过精确地在成本量的等效表示可用的地方采取行动来实现。这种方法的主要目标是进一步增加CNN产生的已经高度准确的视差图的可靠性。此外，我们还旨在减少由域转移引入的问题。通过在训练过程中将稀疏深度测量值输入深度网络，我们还希望它能够学习一起利用这些信息对于图像内容，如果在移动到完全不同的域时将这种测量馈送到网络，则补偿域偏移（例如，从合成图像到真实图像）。我们的实验将突出显示，遵循这种策略，给定一个非常稀疏的值分布，我们将大大提高CNN的泛化能力。图2显示了部署3.36%密度的稀疏深度输入如何足以将iResNet的平均误差从3.364降低到0.594。3.1. 特征增强传统的立体算法将立体对中的两个图像上的潜在对应像素之间的关系收集到成本体积中，编码相似性或相异性函数。我们提出的想法是在这种表示上采取适当的行动，仍然在现代CNN中编码，采用来自两个图像的特征之间的相关性或连接，有利于稀疏输入所暗示的差异。遵循第一种策略的网络[19，14，42，32，22]使用相关层来计算最有可能匹配的像素的相似性得分，而基于第二种策略的网络依赖于3D体积的关联特征。传统立体声算法的成本体积具有维度H×W×D，其中H×W是输入立体声对的分辨率，D是所考虑的最大视差位移，而代表性的最先进的深度立体声网络分别依赖于维度H×W×（2D+1）[19]和H×W×D×2F [12]的数据结构，其中F是来自一个立体声对的特征的数量。单个图像。给定稀疏深度测量z，我们可以通过知道用于获取立体对的设置的焦距f和基线b，将它们容易地转换为视差d，因为d=b·f·1。利用视差域中稀疏外部数据的可用性，我们可以利用它们来使与这些稀疏提示所建议的假设相关的相关性得分或特征激活达到峰值，并抑制剩余的相关性得分或特征激活。例如，给定视差值k，我们将增强相关层的第k个通道输出或4D体积的第k个切片出于我们的目的，我们引入了两个新的输入，大小都是H×W：（稀疏）矩阵982IJIJ2G，传送外部提供的视差值;以及二进制掩码V，指定G的哪些元素是有效的（即，如果v ij= 1）。对于参考图像中具有坐标（i，j）的每个像素，使得v i j=1，我们基于已知的视差值gij 来改变如前所述的特征。另一方面，每个v ij= 0的点都保持不变。因此，我们依靠深度网络的能力来推理立体声，并联合利用稀疏输入传达的额外信息。在文献中，提出了一些技术来修改传统立体算法的成本体积，利用先验知识，如每像素置信度得分[25]。一个简单而有效的方法是硬替换匹配成本（在我们的例子中是特征）。在[34]，赢得差距的匹配成本被设置为预先训练的深度立体声网络。所提出的高斯增强在深度网络已经学习的特征上平滑而有效地起作用通过调整超参数k和c，我们将证明我们的方法可以提高预先训练的最先进网络的准确性。从头开始训练深度立体网络。与残酷的零乘积方法不同，高斯函数引入的阻尼机制仍然允许梯度流动，使这种技术适合在CNN内部部署，即使在训练时，这样它就可以从头开始学习如何更好地利用额外的线索。具体地，G相对于权重W的梯度将被计算如下：最小值和剩余的最大值，仅针对那些在优化之前具有高置信度分数的像素。在我们的领域中，GW=.−1−vij+vij·k·e（d−g））2美元2c2·W（三）在于将对应于视差d的每个元素归零，使得gij=d。然而，这种策略有一些限制：它不适合CNN，无论是当注入到预先训练的网络中时-大量的零值会积极地改变其行为-还是当在新模型的从头开始的训练期间插入时-这将导致梯度不会在已经插入零的特征上反向传播。此外，在子像素输入视差的情况下没有定义默认行为，除非以精度损失为代价对它们进行舍入相反，我们建议使用以gij为中心的高斯函数进行调制，使得对应于视差d=gij的单个子像素的核心或2个F特征乘以函数的峰值，而任何其他元素逐渐乘以较低的因子，直到他们的另一个人来自GIJ。具体来说，我们的调制函数将是-（d−gij）2因此，从头开始训练一个利用稀疏输入数据是可能的。传统的立体匹配算法。这些方法基于手工制作的管道，也可以通过利用稀疏深度线索来提高其准确性来利用我们的建议。有时候他们不使用相似性度量（例如，零均值归一化互相关）来对匹配成本进行编码，到目前为止所描述的相同策略适用于该匹配成本，但是使用像素之间的相异性度量来构建成本量（例如，绝对差/平方差之和或汉明距离[43]）。在这两种情况下，获胜的差距分配采用WTA策略。当部署相异性度量时，与接近gij的差异相对应的成本应该被降低，而其他差异则被放大。我们可以通过选择作为常数k和具有相同高度的高斯函数之间的差的调制函数来容易地适应高斯增强，从初始成本F获得增强的体积G，（1）第二节其中c确定高斯的宽度，而k表示其最大幅度并且应该大于或等于1。因此，为了通过以下步骤获得新的特征体积G，ΣG=1−vij+vij·k·.−1 −e（d−g））2张2c2·F（4）乘以整个相关性或3D体积F，而不考虑vij的值，我们应用图3（右）显示了该制剂的效果。4. 实验结果.Σ（d−g））的方式G= 1−vij+vij-ij·k·e2c2·F（2）在本节中，我们报告了证明引导立体匹配范例有效性的详尽实验使得当Vij=0时权重因子等于1。图3中给出了我们的调制效果的一个例子（左）。3.2. 引导立体声我们现在将重点介绍我们的技术的一些值得注意的应用，将在实验结果部分详细讨论表明所提出的特征增强策略总是显著地提高预训练或新训练的网络的准确性。此外，当从头开始训练网络时，我们的建议增加了泛化到新环境的能力，从而能够更好地处理域转移。演示源代码可在https://github.com/mattpoggi/guided-stereo获得。983图3. 建议的特征增强的应用。在蓝色中，用于d=gij附近的像素i，j的特征F，在黑色中，调制函数，在红色中，用于vij= 1的增强特征G，应用于相关特征（左）或相异性函数（右）。iResNet [14]PSMNet [3]Ck=1K=10K=100k=1K=10K=1000.12.0541.8812.3774.7114.3914.32611.8851.3386.8574.5403.9004.286101.6241.66432.3294.5393.9259.951表1. 高斯超参数k和c的调整。iResNet（左）和PSMNet（右）的实验在合成数据上进行了训练，并在KITTI 2015上进行了测试（无调制的平均误差：1.863和4.716）4.1. 培训和验证协议我们在PyTorch中实现了框架对于我们的实验，我们选择了两个代表到目前为止所描述的两个类别的最先进的模型，并且其源代码是可用的，分别是基于相关性的架构的iResNet [14]和 3D CNN的PSMNet [3这两个网络都是按照作者的指示在合成数据上进行预训练的[19]：PSMNet的10个epoch [3]和iResNet的650k迭代[14]。唯一的区别是用于PSMNet的批量为3，因为它是最大的拟合-KITTI、Middlebury和ETH3D数据集。最后，我们指出，KITTI基准包括深度完成评估。然而，它的目的是评估与有源传感器耦合的单目相机系统的性能（即，LiDAR），因此基准不提供我们的目的所需的立体声对。4.2. KITTI评价首先，我们在KITTI 2015数据集上评估了我们的提案的性能[20]。表2收集了在不同配置中训练和测试的iResNet和PSMNet获得的结果。对于每个实验，我们强调了在训练期间使用的图像，分别是单独的SceneFlow数据集[19]或用于微调的KITTI 2012 [7]（此外，我们报告了将我们的特征增强应用于预训练网络的结果（即，仅在测试时，对于每个实验，我们将误差率报告为具有大于阈值的视差误差的像素的百分比，其在2和5之间变化，以及平均av。在一个单一的泰坦Xp GPU用于这项研究。这些网络的建议指导版本相应地按照相同的协议进行训练。根据原始作品的指导方针对现实数据集进行微调。特别是，这两篇论文都报告了KITTI数据集的结果和详细的训练方案[3，14]，而Middlebury [27]和ETH3D [29]的训练细节没有提供，尽管结果在两个基准上都存在。以下部分将报告我们实验中使用的每个训练协议的准确细节。为了调整k和c，我们对在合成数据上训练并在KITTI 2015训练集上测试的iResNet和PSMNet模型进行了初步实验[20]。表1显示了平均误差如何随k和c的不同值而变化。根据这个结果，对于这两个网络，我们将在下面的所有实验中将k和c分别固定为10和1为了模拟稀疏深度线索的可用性，我们从地面实况视差图中随机采样像素用于训练和测试。因此，所有评估都将在以下提供的培训片段上进行：所有像素上的平均误差与可用的地面实况。为了获得稀疏测量，我们随机采样具有密度的像素，在整个图像上计算，在场景流上为5%[19]。在KITTI上，我们保持15%的密度，然后重新移动未标记的像素以再次获得相对于具有可用地面实况的图像的下部的5%220×1240像素网格）。从表2中，我们可以注意到两个基线架构，当仅在Scene-Flow数据集上训练时，tures（第1行和第7行）会产生较大的错误特别地，PSMNet似乎比基于相关性的技术iRes- Net遭受通过将所提出的特征增强应用于这两个网络，我们可以合理地改善所有指标，从而首次改善网络的泛化能力。特别是，通过查看>3的错误率，通常作为KITTI中的参考指标，与基线网络相比，iResNet-gd和PSMNet-gd在这种情况下，我们再次指出，我们只修改了预先训练好的网络的特征，只改变了下面几层用来处理的东西。尽管如此，我们的984平均值=2.82>3 = 27.6%平均值=1.56>3 = 3.0%模型训练数据集引导误差率（%）avg.（px）SceneFlowKITTI 12火车测试>2个>3>4>5iResNet [14]C21.15711.9597.8815.7441.863iResNet-gdCC15.1468.2085.3483.8811.431iResNet-gd-trCCC7.2663.6632.3881.7540.904[14]第十四话CC9.7954.4522.7301.9381.049iResNet-ft-gdCCC7.6953.8122.5241.8910.994iResNet-ft-gd-trCCCC4.5772.2391.4761.0990.735PSMNet [3]C39.50527.43520.84416.7254.716PSMNet-gdCC33.38623.12517.59814.1013.900PSMNet-gd-trCCC12.3103.8962.2391.6081.395PSMNet-英尺 [3]CC6.3413.1222.1811.7521.200PSMNet-ft-gdCCC5.7073.0982.2661.8421.092PSMNet-ft-gd-trCCCC2.7381.8291.5131.3380.763表2. KITTI 2015数据集上的实验结果[20]。标记“-gd“表示仅在测试时引导网络，“-tr“表示训练模型来利用指南，图4. PSMNet的变体之间的比较[3]。从上到下，来自000022对（KITTI 2015 [20]）的参考图像，由PSMNet [3]和PSMNet-gd-tr获得的视差图，两者均仅在合成图像上训练。该建议保留了基线架构的学习行为，同时提高了其总体准确性。当使用我们的技术从头开始训练网络以处理稀疏输入时，与基线模型相比，iResNet-gd-tr和PSMNet-gd-tr在错误率和平均错误方面实现了显着下降。两者都达到了与KITTI 2012上微调的原始网络（iResNet-ft和PSMNet-ft）相当的准确度，而无需在这种真实图像上进行实际训练，只需通过我们的技术利用少量深度样本（约5%）。此外，我们还可以将特征增强范例应用于微调的模型.从表2中，我们可以再次注意到我们的技术如何应用于微调模型仍然提高了它们的准确性。尽管如此，微调预训练的网络以利用特征增强导致所有配置的最佳结果，与iResNet-ft和PSMNet-ft已经很低的错误率相比，分别绝对降低了约2.2%和1.3%。最后，图4显示了不同PSMNet变体的输出之间的比较，突出了与基线模型相比PSMNet-gd-tr4.3. 关于Middlebury我们还评估了我们在Middlebury v3 [27]上的提案，因为该数据集对于端到端架构来说更具挑战性，因为与KITTI相比，可用于微调的图像非常少，并且构建的场景更加异构。表3收集了这些实验的结果。我们使用相同的符号，KITTI实验。所有数字都是在四分之一分辨率下处理额外的图像分割时获得的，因为更高分辨率的立体对不适合单个Titan Xp GPU的内存。对训练分割进行微调。我们计算错误率的阈值为0.5，1，2和4，通常报告的在线基准。稀疏输入以5%的密度从地面实况数据中随机采样。我们可以注意到，在两个预训练模型上应用特征增强或从头开始训练新实例如何逐渐减少KITTI实验中观察到的有趣的是，我们指出，虽然这种趋势对于iResNet-gd和iResNet-gd-tr是一致的，但对于PSMNet-gd- tr发生了不同的行为。特别是，我们可以注意到将阈值设置为>2和>4的错误率大大降低。另一方面，具有较低视差误差的像素的百分比> 0的情况。5和>1会更高。因此，使用PSMNet，使用指导输入训练的架构似乎是正确的以增加小错误的数量为代价的最错误的模式。尽管如此，平均误差总是显著降低。关于微调，我们为每个基线架构运行了大约300个epoch，在这个阶段之后，我们可以观察到iResNet的微小改进，而PSMNet的准确性大幅提高。Mi- nor，但iResNet-ft- gd和PSMNet-ft-gd产生了一致的改进。最后，我们对iResNet-ft-gd-tr和PSMNet-ft-gd-tr进行了大约30个epoch的微调，足以达到最佳性能。同样，与所有其他配置相比，主要改进总是由以下方面产生：985模型训练数据集引导误差率（%）avg.（px）SceneFlow培训Q火车测试>0.5>1个>2个>4iResNet [14]C69.96750.89330.74216.0192.816iResNet-gdCC62.58140.83122.15410.8892.211iResNet-gd-trCCC44.38525.55512.5055.7761.470[14]第十四话CC69.52649.02728.17814.1262.682iResNet-ft-gdCCC60.97936.25519.55810.1362.130iResNet-ft-gd-trCCCC31.52617.0458.3164.3070.930PSMNet [3]C54.71733.60320.23913.3045.332PSMNet-gdCC53.09031.41618.61912.5884.921PSMNet-gd-trCCC83.43354.1477.4723.2081.732PSMNet-英尺 [3]CC45.52325.99315.2038.8841.964PSMNet-ft-gdCCC44.00425.15114.3378.6761.894PSMNet-ft-gd-trCCCC32.71515.7246.9373.7561.348表3.Middlebury v3的实验结果[27]。“-gd“表示仅在测试时引导网络，“-tr“表示训练模型，杠杆指南中，模型训练数据集引导误差率（%）avg.（px）SceneFlowETH3D火车测试>0.5>1个>2个>4iResNet [14]C57.01136.94420.38012.4535.120iResNet-gdCC50.36129.76716.49510.2932.717iResNet-gd-trCCC26.81510.6733.5551.3120.537[14]第十四话CC48.36026.21211.8654.6780.997iResNet-ft-gdCCC47.53922.6398.1532.4450.820iResNet-ft-gd-trCCCC23.4338.6942.8030.8760.443PSMNet [3]C45.52223.93612.5507.8115.078PSMNet-gdCC43.66721.14010.7737.0814.739PSMNet-gd-trCCC96.97671.9702.7300.5121.266PSMNet-英尺[3]CC28.56011.8954.2721.5600.560PSMNet-ft-gdCCC25.70710.0953.0841.1230.505PSMNet-ft-gd-trCCCC17.8654.1951.3600.8170.406表4. ETH3D数据集上的实验结果[29]。 “为了利用guide，引导两个网络。4.4. ETH3D评价最后，我们评估了我们的方法在ETH3D数据集上的性能[29]。在这种情况下，我们分割训练数据集，使用来自交付区域1l、交付区域1s、electro 1l、electro1s、立面1s、森林1s、操场1l、操场1s、露台1s、地形1l、地形1s的图像进行微调，其余的用于测试。对于-ft模型，我们执行与Middlebury数据集相同数量的训练时期，表4收集了之前考虑的相同配置的我们可以注意到类似于以前实验中报告的行为。通过引导iResNet，我们实现了重大改进，平均误差几乎减半，而PSMNet的增益不太明显，尽管在所有指标上都是有益的训练iResNet-gd-tr和PSMNet-gd-tr导致我们在Middlebury上的实验期间注意到的相同结果特别地，PSMNet-gd-tr仍然以误差大于0.5和1的大量像素为代价来抽取大于2和4的平均误差和误差百分比。使用此数据集，微调基线模型可以实现以下功能：显著地提高了两者的精度，特别是将平均误差从超过5个像素减少到小于1.然而，即使在这种情况下，我们的技术也很有用，当仅在测试时使用时，可以实现微小但一致的改进，并显著提升iResNet-ft-gd-tr和PSMNet-ft-gd-tr，大幅提高所有指标。4.5. SGM评估为了证明我们的建议的有效性，即使与传统的立体匹配算法，我们评估它与SGM [10]。为此，我们使用了[33]提供的代码，并在迄今为止考虑的所有数据集上进行了测试。如第3.2节所指出的，特征增强可以如等式4所述适时地进行修改，以处理相异性度量。我们在开始扫描线优化之前应用这个公式.与之前的任何实验一样，我们按照第4节所述对稀疏输入进行采样，获得低于5%的平均密度。表5报告了SGM与其在KITTI2012 [7]（上）和KITTI 2015 [20]（下）上使用稀疏输入线索（SGM-gd）的成本增强型对应物之间的比较。有了这两个数据集，我们可以在所有指标上看到巨大的改进特别是986Alg.错误率（%）avg.（px）>2个>3>4>5[第10话]SGM-GD11.8455.6578.5534.6017.1094.1626.2613.8922.7402.153[第10话]SGM-GD15.0496.7538.8434.2946.7253.6255.6453.2822.2261.680表5.KITTI的实验结果。比较KITTI 2012（上）和2015（下）的原始[10]和指导SGMAlg.错误率（%）avg.（px）>0.5>1个>2个>4[第10话]SGM-GD62.42856.88232.84924.60820.62012.65515.7869.9094.0182.975[第10话]SGM-GD64.26459.59631.96624.85618.74111.30714.6758.9604.9783.815[第10话]SGM-GD58.99454.05127.35620.15610.6854.1695.6322.4591.4331.032表6.Middlebury v3和ETH3D的实验结果数据集。原始[10]和引导SGM之间的比较培训（上）、附加（中）[27]和ETH3D [29]（下）。对于更高的误差界限，>2的异常值的量减半以上，并且绝对值减少约4%、3%和2%。表6报告了Middlebury训练（顶部）和额外（底部）分割 [27] 以及整个ETH3D训练集[29]的实验。在Middlebury上进行的实验是以四分之一分辨率进行的，以获得均匀性，而先前的实验是在第节四点三。对于> 0，错误率降低约5.5%。在三个实验中，对于>1，减少了约7.5%，在Middlebury上几乎减少了一半，在ETH3D上减少了2.5倍，> 2，和6，6和3%的>4。最后，Middlebury和ETH3D的平均误差分别SGM的评估强调了我们的技术如何被视为一种通用策略，能够在不同的环境中实现显着的改进，从最先进的深度学习框架到立体声算法。4.6. 激光雷达测量实验最后，我们使用来自Velodyne传感器的原始和噪声测量作为指导来评估所提出的范例[40]，以进一步强调所提出的解决方案的实际可部署性。表7报告了KITTI原始数据集序列2011 09 26 0011的实验[6]。我们比较我们的框架与融合策略提出的马丁斯等人。[18]Marinet al. [17]，将立体声网络的输出分别与单眼估计相结合（使用Guo等人的网络）。[9]）和激光雷达，报告了[17]中的理想结果。用于评估的地面实况标签由[39]提供。我们的建议始终优于融合方法，在所有像素（All）上进行评估，并排除激光雷达（NoG），以强调我们的方法所产生的改进表7. KITTI Velodyne上的实验，seq. 2011年09月26日0011。与融合技术相比，不限于具有相关激光雷达测量的像素[17]。5. 结论在本文中，我们提出了引导立体匹配，这是一种新的范例，可以使用外部源提供的一小组稀疏深度测量作为额外的输入线索，来提升针对密集视差推断训练的最先进的深度架构。通过增强对左右图像像素之间的匹配关系进行编码的特征，我们可以提高精度和对域偏移的鲁棒性。我们的特征增强策略可以与预训练模型无缝结合使用，从而显著提高准确性。更重要的是，由于其完全可微的性质，它甚至可以用于从头开始训练CNN的新实例，以充分利用输入指南，从而显着提高深度网络域转移的整体准确性和鲁棒性最后，我们的建议可以部署，甚至与传统的立体匹配算法，如SGM，产生显着的改善以及。未来工作的重点例如，选择利用置信度测量的可靠深度标签[25] -谢谢。我们衷心感谢NVIDIA公司的支持，捐赠了用于本研究的Titan Xp GPU。型号/算法<百分之二avg.所有NoG所有NoGiResNet [14]18.4218.371.281.28iResNet+Martinset al. [18个国家]18.1418.091.261.26iResNet+Marinet al. （可选）15.2018.371.071.28iResNet-gd11.1210.991.041.03iResNet-gd-tr5.385.270.770.77[14]第十四话5.295.300.810.81iResNet-ft +Martinset al. [18个国家]5.265.280.800.80iResNet-ft +Marinet al. [17]（可选）4.485.300.670.81iResNet-ft-gd3.143.130.640.64iResNet-ft-gd-tr1.911.880.550.55PSMNet [3]38.6038.862.362.37PSMNet+Martins等. [18个国家]38.3238.582.332.34PSMNet+Marin等. [17]（可选）34.8538.861.992.17PSMNet-gd33.4733.742.072.08PSMNet-gd-tr21.5721.301.601.59PSMNet-ft [3]1.711.730.720.72PSMNet-ft +Martinset al. [18个国家]1.821.830.720.72PSMNet-ft +Marinet al. [17]（可选）1.521.730.660.72PSMNet-ft-gd1.131.150.600.61PSMNet-ft-gd-tr0.670.670.470.47987引用[1] Gianluca Basti ， Ludovico Minto ， Giulio Marin ， andPietro Zanuttigh.立体和tof数据融合中置信度信息的深度学习。在IEEE计算机视觉和模式识别会议论文集（工作室），第697-705页，2017年。2[2] 康斯坦丁诺斯·巴索斯和菲利波斯·莫多海Recresnet：一种用于视差图增强的递归残差cnn结构。在3D视觉国际会议（3DV），2018年。2[3] 张嘉仁和陈永生。金字塔立体匹配网络。在IEEE计算机视觉和模式识别会议（CVPR），2018年6月。二、三、五、六、七、八[4] Zhuoyuan Chen，Xun Sun，Liang Wang，Yinan Yu，and Chang Huang.立体匹配代价的深度视觉对应嵌入模型。在IEEE计算机视觉国际会议（ICCV），2015年12月。2[5] 卡洛·达尔·穆托，皮埃特罗·扎努泰，圭多·玛丽亚·科尔特·拉佐. 基于混合像元测量模型的概率与立体数据融合IEEEtransactionsonpatternanalysisandmachineintelligence，37（11）：22602[6] Andreas Geiger ， Philip Lenz ， Christoph Stiller ， andRaquel Urtasun.视觉与机器人技术的结合：Kitti数据集。 InternationalJournalofRoboticsResearch（IJRR），2013。8[7] Andreas Geiger，Philip Lenz，and Raquel Urtasun.我们准备好自动驾驶了吗？Kitti Vision基准套件。在计算机视觉和模式识别（CVPR），2012年IEEE会议上，第3354-3361页。IEEE，2012。一、二、五、六、七[8] 斯派罗·吉达里斯和尼科斯·科莫达基斯检测、替换、重新定位：用于逐像素标记的深度结构化预测。在IEEE计算机视觉和模式识别会议（CVPR），2017年7月。2[9] Xiaoy

下载后可阅读完整内容，剩余1页未读，立即下载