基于深度学习的立体声置信度估计方法的研究

120 浏览量更新于2023-10-15 收藏 2.36MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

基于深度学习Fabio Tosi、Matteo Poggi、Antonio Benincasa和Stefano Mattoccia博洛尼亚大学，Viale del Risorgimento 2，博洛尼亚，意大利{fabio.tosi5，m. poggi，stefano. mattoccia} @unibo.ithttp://vision.disi.unibo.it/~ftosi{mpoggi，smatt}抽象。近年来，立体声的置信度度量由于其检测离群值的能力的提高以及利用这些线索的应用数量的增加而受到欢迎。在该领域中，与文献中的其他已知技术相比，卷积神经网络通过处理局部信息以区分视差分配与离群值来实现最佳性能。尽管取得了如此出色的成绩，但所有方法都依赖于用小的感受野提取的线索，从而忽略了大部分的整体图像内容。因此，在本文中，我们建议利用附近和更远的线索，从图像和视差域，以获得更准确的置信度估计。虽然局部信息对于检测高频模式是非常有效的另一方面，扩大接受野允许包括来自更远区域的线索，但产生更平滑的不确定性估计，当处理高频模式时不是特别准确。出于这些原因，我们在本文中提出了一个多级级联网络，结合最好的两个世界。使用三种流行的立体声算法在三个数据集上进行的大量实验证明，所提出的框架优于最先进的置信度估计技术。关键词：置信度，立体匹配，深度学习1介绍立体是一种流行的技术，用于推断由两个相机感测的场景的3D结构，并且因此部署在若干计算机视觉应用中。立体设置通常由两个同步相机组成，并且在同源点之间建立对应关系允许通过简单的三角测量来推断深度因此，立体声文学是非常庞大的，因为它的日期早在60年代，并在此作为一个新的流行。除了这一点和研究活动之外，由于其不适定性质，旨在找到立体对应的算法可能导致不准确的结果。特别是在处理遮挡、透明或反射表面、无纹理区域时。因此，一方面，我们需要精确的深度估计算法。另一方面，在一项研究中，2F. Tosi，M.Poggi，A.Benincasa、S.马托恰(a)（b）第（1）款(c)（d）其他事项Fig. 1. 置信度估计示例。(a)来自KITTI 2015数据集的参考图像[7]，（b）用MC-CNN [8]获得的视差图，（c）用局部方法（CCNN [2]）估计的置信度，以及（d）提出的局部-全局框架，后一种方法提供更可靠预测的高亮度区域（红色边界框）。给定深度或视差图，我们需要一种精确的方法来推断每个点的可靠程度该任务被称为置信度估计，并且在处理深度数据时是至关重要的。在许多置信估计提出的文献中，最近审查和评估Poggi等人。在[1]中，仅使用从视差域提取的提示信息作为输入的方法[2，3，4]被证明是特别有效的。与依赖于从成本量或文献中已知的其他策略中提取的线索的方法相比，这些方法目前代表了最先进的技术水平。在视差域中工作的方法的另一个显著优点，特别是[2，4]，是它们处理由立体系统推断的深度数据的能力，而不向用户暴露成本量，诸如基于闭源软件或商业立体相机的那些。不管这个事实如何，机器学习从Haeusler等人的开创性工作[5]在一个随机森林框架内，结合传统的置信测度，推导出一个置信后来，其他作品成功地遵循了这一策略，最近，基于卷积神经网络（CNN）的方法通过推断视差图的每个像素的置信度得分来获得出色的结果[1]，并将其作为深度网络的中心。与基于CNN的方法[3]和基于随机森林的方法相比，CCNN [2]完成了这项任务，而不依赖于事先定义的任何手工特征。目前，CCNN代表了最近在[1]中强调的置信度估计的最新技术水平。在[6]中，通过向CNN馈送输入参考图像来扩展这种策略，其中输入参考图像具有有希望的结果，但是部署了大量的训练样本。无论采取的策略，所有这些方法估计的信心与一个相对较小的感受野固有的地方补丁为基础的性质。在这些方法中增加这样的参数并不能显著地改善。立体置信度3也可能导致不良后果。因此，现有技术的方法不利用整个图像和视差内容。尽管该策略无疑是有效的，但另一方面，似乎清楚的是，通过查看整个参考图像和视差图对于不确定性估计是重要的通过观察图1中突出显示的区域，可以很容易地看出这一事实特别地，考虑对整个图像和视差内容的更全局的推理可以改进对更不可能发生的视差值的预测（例如，非常接近相机的对象），代价是更平滑的预测。该任务可以由具有大接收场的架构（诸如编码器-解码器模型）来承担，因此在高频噪声（例如，诸如AD-CENSUS或其他匹配函数的立体算法的输出上的异常值另一方面，在补丁上工作的网络可以很好地检测到这种离群值，但它们无法捕获更多信息因此，在本文中，我们提出通过结合两个世界的最佳来克服这种限制基于小和大感受野的网络）。我们通过部署基于CNN的架构来实现这一点，该架构能够在RGB和视差域中提取以获得更准确的置信度估计。通过训练多模态级联架构，我们首先通过分别对本地和更远的线索进行推理来获得两个置信度预测，然后进一步对其进行详细说明以获得最终的更准确的预测。图1定性地显示了该策略如何能够估计更可靠的置信度分数。据我们所知，我们的建议是第一个能够i）利用更多的全球背景学习信心预测和ii）将这种新技术与本地方法相结合，以设计一个有效的本地-全球信心措施。从现在开始，我们将定义为全球性的，滥用的语言，一种策略，超越传统的相邻边界通常采用的置信度估计领域。我们在三个流行的数据集上广泛评估了所提出的框架，KITTI 2012 [9]，KITTI2015 [7]和Middlebury v3[10]分别使用该领域中使用的三种流行算法AD-CENSUS [11]，MC-CNN-fst匹配成本[8]和SGM [12]。这种详尽的评估清楚地表明，我们的建议是最先进的。2相关工作在本节中，我们回顾了有关置信度测量的文献，它们的应用以及使用深度学习进行立体匹配的最新进展，这些领域都与我们的建议相关。立体声的置信度测量。Hu和Mordohai [ 13]以及Poggi等人对置信度进行了广泛的审查。[1]最近包括基于机器学习的方法。虽然第一次审查使用标准局部算法使用绝对差和（SAD）和归一化互相关（NCC）作为Middlebury 2002数据集[14]的匹配成本来评估置信度，但第二次审查考虑了最近的状态。4F. Tosi，M.Poggi，A.Benincasa、S.马托恰在KITTI 2012 [9]，KITTI 2015上，最先进的置信度测量并使用三种流行的算法（AD-CENSUS [11]，MC-CNN [8]和SGM [12][7]和Middlebury v3 [10]是这个领域和其他相关领域的标准数据集。两项工作都遵循 [13] 中定义的评价方案，包括 ROC 曲线的曲线下面积（AUC）分析。如[1]中所报道的，与传统策略相比，机器学习能够获得更准确的置信度估计。从Hausler et al.[5]，其他方法将手工制作的特征馈送到随机森林分类器[5，15，16，4]。最近，通过利用CNN获得了更准确的置信度估计。在CCNN [2]中，Poggi和Mattoccia用参考图像的原始视差图训练网络，而在PBCP [3]中，Seki和Pollefeys用与参考和目标图像有关的预处理视差图训练网络。根据[1]中报告的广泛评估，后两种方法，特别是CCNN，优于任何其他已知的置信度测量。Poggi和Mattoccia [17]还提出了一种有效的策略，通过利用局部一致性来改进置信度度量。在[18]中，提出了一种通过使用CNN来改进用于置信度融合的基于随机森林的方法[15，16，4]的方法。Fu等人[6]通过将原始RGB图像作为输入添加到CCNN网络来扩展CCNN [2]。当在更大量的训练数据上进行训练时，该策略改善了最终预测（94个立体声对vs 20个非立体声对）。典型地如[1]中那样与CCNN-起部署的年龄）。一些作品通过研究特征增强来深入研究置信度度量的学习过程[19]或通过设计自我监督技术来在静态视频序列[20]或立体声对[21]上训练它们。后一种技术被证明是有效的，即使与基于CNN的置信度测量CCNN。最后，在[22]中，提出了针对嵌入式系统的传统置信度度量及其简化的评估。信任措施的应用。虽然传统上置信度测量用于从视差图中滤除离群值，但是在过去几年中已经部署了一些更高级别 Spyropoulos 和Mordohai [15]使用估计的置信度来检测非常可靠的视差分配（即，地面控制点），并为它们设置Park和Yoon [16]提出了一种基于置信度的成本调制函数，该函数在SGM优化之前应用于中间DSI（视差空间图像），Poggi和Mattoccia [4]修改了SGM管道，以通过惩罚低置信度假设来减少沿每条扫描线的条纹效应。Seki和Pollefeys [3]根据估计的置信度对SGM的P1和P2惩罚进行调整除了这些方法，在立体声算法中起作用以改善其最终输出，其他应用涉及传感器融合[23]和视差图融合[24]。Shaked和Wolf [25]在深度模型立体匹配中嵌入了置信度估计最后，还部署了用于立体匹配的深度模型的无监督适应的置信度度量[26]或基于机器学习的措施的无监督训练[21]，因此不需要难以获得差异地面实况标签。立体置信度5立体匹配的深度学习。在立体匹配中使用深度学习的第一次尝试是在Zbontar和LeCun [27]的开创性工作中提出的，旨在通过处理图像块来推断CNN的匹配成本。这种技术被称为MC-CNN，现在被许多立体声管道部署，如KITTI和Middlebury v3基准测试所报告的那样。通过仅在小图像块上工作（即，9× 9），基于深度学习的置信度测量[2，3，6]与这种方法相似，所有这些方法都基于小的感受野。立体声的最新进展包括部署嵌入传统管道的所有步骤的深度网络。这些模型的特征通常在于编码器-解码器架构，从而实现极大的接收场，并且因此能够合并大部分全局图像内容。在这个方向上的第一个开创性工作是Mayer等人的DispNet。[28]，随后是GC-Net [29]和CLR [30]。因此，尽管已经成功地提出了在图像块上工作的深度学习置信度度量[2，3，6]，但文献缺乏用于此任务的全局方法因此，受基于用于视差估计的编码器-解码器架构[28，30，29]和用于置信度估计的局部方法的成功尝试的启发，在本文中，我们结合两种策略，通过利用从局部和全局上下文推断的线索来实现更鲁棒的置信度测量3方法概述在本节中，我们将介绍我们的局部-全局置信度估计框架。受最近通过仅在视差域中处理线索获得的置信度测量的成功驱动，特别是那些基于深度学习的置信度测量[2，3，6]，我们超越了这些方法为每个像素考虑的小局部邻域，并且我们分析了RGB和视差域的全局上下文以获得更一致的置信度估计。局部和全局的方法，其特征在于互补的优势，分别是前者是非常有效的检测高频模式，而后者可以从周围的像素包含更多的线索，我们认为，将它们结合起来，可以进一步提高置信度估计，克服了特定的限制，单一的方法。为此，我们将部署两个主要架构，分别负责流程本地和全局上下文。然后，将这两个网络的输出组合以获得最终预测。在第3.1节中，我们描述了局部网络，为此我们选择了最先进的CCNN测度[2]及其在[6]中提出的扩展。在第3.2节中，我们介绍了一种用于全局置信度估计的新架构，称为ConfNet，其灵感来自端到端立体匹配[28]。最后，在节3.3我们概述了我们的整体局部-全局框架，结合了局部和全局方法产生的线索。6F. Tosi，M.Poggi，A.Benincasa、S.马托恰3*3Conv+ReLU1*1Conv+ReLU(a)（b）第（1）款图二. 局部架构，分别为（a）CCNN [2]、（B）EFN [6]和（c）LFN [6]。网络使用3× 3（蓝色）和1× 1卷积层，除了最后一个之外，所有卷积层后面都是ReLU。3.1地方做法对于局部方法，我们指的是旨在通过查看位于小的局部邻域上的附近像素来估计单个像素的置信度得分的方法PBCP [3]，CCNN [2]和多模态方法[6]属于这一类。我们在我们的框架中使用后两种技术，如图2所示，因为第一种技术[1]实现了卓越的离群值检测性能，在某些情况下，通过多模态网络[6]进一步改进。使用基于CCNN的网络的另一个原因是，两者都可以在不需要PBCP [3]所需的正确视差图的情况下进行计算，如先前所强调的，在某些情况下并不总是可用的。CCNN。该置信度通过通过浅层网络处理视差图来获得，该浅层网络由4个卷积层组成，每个卷积层具有3× 3内核，在每个级别产生64个特征图，然后是2个卷积层，具有1× 1内核，产生100个特征图，最后1× 1卷积，然后是Sigmoid激活，以获得[0，1]区间的置信度得分所有其他层后面都是ReLU非线性。前4层不对其输入应用任何显式填充，因此在高度和宽度上将输入大小减小2个像素（即，每侧1个像素）。这使得单像素置信度预测绑定到以其为中心的9 × 9局部块，即网络的感受野。该模型的完全卷积性质允许对图像块进行训练，并且然后如果适当地填充（即，在每一侧上应用4个像素填充）。多模态网络。在[6]中，作者提出通过从RGB参考图像向网络提供附加信息来改进CCNN [2]为此，Fu等人提出了两种融合策略，分别是早期融合网络（EFN）和后期融合网络（LFN）。在EFN中，RGB和视差补丁被连接以形成4通道输入，由具有相同CCNN结构的浅网络处理，但是每个浅网络处的通道数目不同。（c）第（1）款立体置信度7编码器解码器跳过连接图三. ConfNet架构。编码块（灰色）是通过3× 3卷积，然后进行批量归一化，ReLU和最大池化。解码块（黄色）包含3× 3去卷积和3× 3卷积，以减少网格伪影。层（即，3× 3卷积为112，1× 1卷积为384在LFN中，来自两个域的信息被处理成两个不同的流，通过构建由四个3× 3卷积核组成的两个塔来获得，而不共享它们之间的权重，以便学习域特定的特征表示。然后将两个塔的输出连接并通过最终的1× 1卷积进行处理最终输出通过与CCNN相同的Sigmoid激活通道数量与EFN型号相同。这两个模型都经过了训练，并与CCNN进行了比较，证明了当使用比数量（即，94立体声对与20）通常部署在这个领域[1]。两个网络的感受野与CCNN（9 ×9）相同。3.2拟议的全球办法在本节中，我们描述了设计用于通过查看整个图像和视差内容来推断置信度预测的网络架构ConfNet.受立体匹配[28，30，29]中最近的工作的启发，我们设计了一种编码器/解码器架构，该架构能够实现大的感受野，并且同时保持输出置信度图的相同输入维度。图3显示了ConfNet架构的概述。在连接由RGB参考图像和视差图的3× 3卷积层计算的它们中的每一个都由3× 3卷积层ReLU激活和2× 2最大池组成，用于抽取输入维度，从而增加感受野。更准确地说，在第四个块之后，原始分辨率降低了16倍，使得3× 3卷积实际上处理初始输入的48× 48感受野不同块中的卷积层的信道的数量分别为64、128、256和258。8F. Tosi，M.Poggi，A.Benincasa、S.马托恰CCNN/LFNConfNet3 * 3 Conv +ReLU1 * 1 Conv + ReLU见图4。LGC网络架构。给定输入参考图像及其视差图，它们被转发到本地（CCNN或LFN，橙色）和全局（ConfNet，绿色）网络，其输出和视差由3个独立的塔处理，连接以最终推断输出置信度图。512，在每个最大池化运算符之后加倍。然后，四个解码块跟随，以恢复原始分辨率的输入之前，获得最终的置信图。每个块使用步长为2的3× 3解卷积层，然后是3×3卷积层，处理与以相同分辨率从编码部分获取的特征级联的解卷积输出。这减少了由解卷积层引入的网格伪影，如[28]中所建议的，并且使得能够在编码部分中的下采样之前保持精细细节对于解卷积层和卷积层两者，每个块中的信道的数量分别为256、128、64和32。最后的3× 3卷积层产生最终的全分辨率置信度图，然后是Sigmoid算子以获得归一化的置信度值。更大的感受野使得能够在计算每像素分数时包括更多的信息，但也充当正则化器，产生更平滑的置信度估计，并且这导致在处理高频模式时准确性差。3.3局部-全局方法为了有效地结合局部和全局线索，我们引入了一个最终模块，通过处理它们的输出和初始视差图，在前两个网络之后以级联方式起作用。负责组合这些线索的模块由分别处理局部图、全局图和视差图的三个塔组成。塔之间不共享权重以从三个域中提取不同的特征每个塔由四个卷积层组成，其内核为3×3和64个通道，然后将其输出连接并转发到两个最终的1× 1卷积层，每个卷积层产生100个特征图，最后的1×1卷积负责最终的置信度估计，通过立体置信度9穿过S形层。图4描述了总体框架，称为本地全球信任网络（LGC-网络）。4实施细节和培训方案我们使用TensorFlow框架实现了模型特别是，我们使用[2]中提出的相同配置部署了CCNN，EFN和LFN：分别为64和100个通道用于3×3和1×1卷积，我们在下一节中报告了大量的实验结果。虽然整个框架从输入到输出是完全可区分的，因此可以以端到端的方式进行训练，但我们首先分别训练本地和全局网络，然后训练级联模块。正如[30]中已经强调的那样，以端到端的方式训练级联模型可能会导致网络收敛于局部最小值，而每个模块的合理训练可以实现更好的整体性能。本地网络培训时间表。根据[ 1]中提供的指南，我们从KITTI 2012训练数据集[9]中的前20个立体对中提取9 × 9图像块，这些图像块集中在具有用于获得置信度地面实况的可用地面实况视差的像素上（更多细节请参见第5节）。1），得到约270万个样本。我们使用一批维度128训练了[2，6]中提出的14个epoch，导致近300k次迭代。我们使用随机梯度下降优化器（SGD）来最小化二进制交叉熵（BCE）[2，6]，学习率为0.003，在11个时期之后下降了10倍，动量为0.9。ConfNet培训时间表。我们在256× 512图像上训练ConfNet，估计每个像素的置信度值，这与局部方法不同，局部方法仅估计补丁中中心像素的置信度（因此需要将邻域集中在具有可用地面真实值的像素尽管训练像DispNet这样的复杂架构需要大量的数据，这些数据通常来自合成数据集[28]，但我们发现，从KITTI训练相同的20张图像足以有效地学习置信度。这可能是由于网络面临的任务更简单事实上，在差异图中找到异常值（即，像素的二进制分类）与从立体对推断深度相比要容易得多此外，视差域比其RGB对应物更少杂色。尽管RGB数据与ConfNet内部的视差一起处理，但与后者相比，它起的作用很小。在Middlebury v3数据集[10]上进行交叉验证，室内图像与训练时观察到的室外环境截然不同，将证实这一事实。我们训练ConfNet 1600个epoch，从训练立体对中提取随机作物值得注意的是，在训练时，本地网络产生一个单像素预测，而ConfNet提供的是256× 512对于单次迭代，最小化损失函数对来自局部网络的128个像素的贡献进行编码（即，一个用于批次中的每个样本）和216用于ConfNet，处理512×数据量。因此，与300k的局部方法相比，ConfNet只需32k次迭代就足以收敛。视差地面实况不可用的像素是10F. Tosi，M.Poggi，A.Benincasa、S.马托恰在计算损失函数时被屏蔽。我们使用SGD和BCE作为本地网络，初始学习率为0.003，在1k个时期后除以因子10。LGC-Net最终训练时间表。最后，我们在冻结局部和全局网络的权重后训练级联模块。我们运行额外的14个时期处理图像补丁提取的差异，局部和全局的信心估计。同样的20张图像，SGD，BCE损失，学习率时间表和动量也用于此训练。5实验结果在本节中，我们报告了大量的实验结果，这些结果支持所提出的LGC网络与最先进的技术相比所实现的卓越准确性。我们评估了新提出的框架，该框架估计从该领域[ 1]中的三种流行算法标准获得的视差图的置信度，分别是AD-CENSUS [11]，MC-CNN-fst匹配成本[8]和SGM[12]。对于后一种算法，与[1]相比，我们将更好的P1和P2惩罚调整为3和0.03，在KITTI数据集上获得更准确的差异，略微降低了Middleburyv3数据集的准确性。在第5.1节中，我们概述了我们遵循的验证我们的方法的评估协议，在第5.2节中，我们报告了KITTI 2012数据集[9]的结果（即，在第5.3节中，我们在Middlebury v3 [10]上进行了交叉验证，正如最近的工作[1]所做的那样，以测量置信度测量在与部署用于训练的数据完全不同的数据上的表现5.1评价方案评估置信度的标准任务是离群值检测[13，1]。它包括根据其估计的不确定性为每个视差分配分配介于0和1之间的分数。遵循指南在标准评估基准[9，7，10]中，如果图像的每个像素p的视差d（p）和其地面实况标签d（p）的距离小于阈值τ，则认为其被正确分配，即，|d（p）−d~（p）|<τ.阈值根据数据集规范分配，特别是对于KITTI 2012和2015τ，通常为3，对于Middlebury v3，为1 [1]。使用相同的标准来产生用于训练的置信度地面实况标签，用得分1编码正确的像素，用0编码异常值因为在我们的实验中总是在KITTI 2012数据集的20个图像上进行，τ被设置为3、生成标签。为了定量评估置信度测量如何处理这一任务，ROC曲线分析代表了该领域的标准[13，1]。通过将异常值的百分比ε绘制为从视差图采样的像素的量的函数，以降低置信度的顺序，我们可以计算曲线下面积（AUC）并在整个评估数据集上对其进行平均。AUC值越低，用于离群值检测目的的置信度估计越准确。单个视差图上的下界根据其误差率ε获得为立体置信度11AUCopt=∫ε1−εp−（1−ε）dp=ε+（1−ε）ln（1−ε）（1）p5.2KITTI数据集为了评估LGC-Net的有效性，我们在KITTI 2012数据集的前20张图像上训练了网络，并报告了同一立体数据集的其余174张图像[9]以及整个KITTI 2015数据集[7]的广泛实验结果。该第二数据集描绘了与第一数据集类似的室外环境，但是添加了另一个数据集中不存在的动态对象。我们评估由独立模块提供的置信度度量（即，CCNN、EFN、LFN和全局架构ConfNet）以及由完全局部-全局框架在分别通过部署CCNN [2]或多模态架构[6]作为局部网络获得的两种配置中产生的那些。为了进行公平比较，所有评估的模型都是按照第4节中描述的相同协议从头开始训练的。源代码可在 www.example.com 获得https://github.com/fabiotosi92/LGC-Tensorflow。表1报告了KITTI 2012的实验结果。每行指的是三种考虑的算法之一，分别是AD-CENSUS、MC-CNN和SGM，每列指的是置信度，报告整个数据集的平均AUC值粗体表示每种算法的最佳AUC。首先考虑单个网络，我们观察到多模态网络LFN的性能与CCNN相似，后者的性能仅优于AD-CENSUS。与CCCN和LFN相比，EFN网络的性能一直较差这些结果突出表明，与从视差域推断出的信息相比，在这种配置中利用LFN和EFN网络，处理RGB图像不提供附加信息。查看ConfNet，我们可以观察到处理全局信息如何仅导致如预期的那样， AD-CENSUS提供的噪声视差图的结果不太准确，但它的性能相当好，并且比EFN更好，SGM和MC-CNN生成的视差图更平滑。特别地，它总是优于CCNN和LFN。根据这些结果，也通过以下评估确认，当处理精细细节时，全局方法单独失去准确性，尽管在编码器和解码器部分之间部署了跳过连接，而局部方法在这些情况下表现得非常好。观察LGC-Net结果，两种配置都优于所有其他评估的技术，突出了来自局部和全局网络的两个互补线索如何有效地组合以提高置信度估计，从而为所有三种立体声算法向前移动一步通过直接比较两种配置的LGC-Net，分别使用CCNN或LFN作为局部网络，没有明确的赢家强调RGB图像对小邻域的贡献事实上，它在两个版本之间的平均AUC方面产生了0.0001的差异，有利于AD-CENSUS上的第一种配置和MC-CNN上的第二种配置，12F. Tosi，M.Poggi，A.Benincasa、S.马托恰KITTI 2012 [9](174图像）中国新闻网[2]欧洲货币基金组织[6]LFN [6] ConfNet LGC-Net（CCNN）LGC-Net（黎巴嫩）最佳选择[第11话]0.12070.12610.12010.12950.11740.11760.1067MC-CNN [8]0.02910.03160.02940.03110.02790.02780.0231[12]第十二话0.01940.02290.01980.01990.01760.01750.0088表1. KITTI 2012数据集上的实验结果[9]。从上到下，关于AD-CENSUS[11]、MC-CNN [8]和SGM [12]算法的评估。对于每一列，在整个数据集上实现的平均AUC（即，194个立体声对中的174个）。2015年KITTI展会[7](200图像）中国新闻网[2]欧洲货币基金组织[6]LFN [6] ConfNet LGC-Net（CCNN）LGC-Net（黎巴嫩）最佳选择[第11话]0.10450.10870.10260.11280.09990.10040.0883MC-CNN [8]0.02890.03190.02920.03150.02810.02780.0213[12]第十二话0.02010.02390.02090.02160.01930.01900.0091表2. KITTI 2015数据集上的实验结果[7]。从上到下，关于AD-CENSUS[11]、MC-CNN [8]和SGM [12]算法的评估。对于每一列，在整个数据集上实现的平均AUC（即，200个立体声对）。SGM这些实验强调，主要的好处是通过所提出的策略，利用本地和全球的上下文信息。表2报告了KITTI 2015数据集[7]上的实验结果，其中AUC值在具有地面实况的可用200个立体对上平均。首先，我们观察到KITTI 2012观察到的相同趋势也在这种情况下得到证实，CCNN仅在AD-CENSUS上略优于LFN与EFN相比，CCNN和LFN总是提供更准确的估计精度，而ConfNet在更平滑的MC-CNN和SGM视差图上的表现优于后者。最后，两个LGC-Net版本在该数据集上实现了整体最佳性能，与KITTI 2012一样，证实了所提出的方法的有效性此外，相同的结果也再次突出了通过使用具有CCNN的RGB图像带来的可忽略的余量。5.3Middlebury v3在KITTI数据集上证明了所提出的LGC-Net的有效性之后，我们通过对Middlebury v3图像[10]进行交叉验证来进行更具挑战性的评估，这些置信度是在KITTI 2012数据集的前20张图像上训练的。如[1]中所做的，评估与训练阶段使用的验证数据集完全不同的验证数据集的性能有效地测量了置信度度量在实际应用中很可能发生的情况下的稳健性作为我们在KITTI图像上训练的模型，描述与自动驾驶应用相关的户外环境，立体置信度13米德尔伯里v3 [10](15图像）中国新闻网[2]欧洲货币基金组织[6]LFN [6] ConfNet LGC-Net（CCNN）LGC-Net（黎巴嫩）最佳选择[第11话]0.11310.12630.11460.12060.10990.11090.0899MC-CNN [8]0.06680.07810.06450.07550.06240.06160.0458[12]第十二话0.07940.10050.08560.08860.07030.07090.0431表3. Middlebury v3数据集上的实验结果[10]。从上到下，关于AD-CENSUS[11]，MC-CNN [8]和SGM [12]算法的评估。对于每一列，在整个数据集上实现的平均AUC（即，15个立体声对）用于不同的置信度测量。包括在Middleburyv3数据集中的室内场景表示对于所概述的交叉验证的类型而言理想的完全不同的场景。表3定量总结了该评价的结果。首先，与之前的实验一样，LGC-Net的表现优于所有独立的置信度测量，确认两个本地网络之间的差异可以忽略不计相对于先前的实验，单个架构之间的趋势基本上得到了证实，在该交叉评估中，ConfNet的表现始终优于EFN，即使是在有噪声的AD-CENSUS图的情况下。CCNN和LFF，对于以前的实验，表现非常相似，再次证实了RGB线索在本地网络中的小影响与我们的训练配置。在图 5中，我们报告了使用 SGM 和 MC-CNN立体声算法处理的Middlebury v3数据集的两个图像的局部，全局（ConfNet）和LGC-Net之间的定性比较在先前的评估中报告的LGC-网络的定量优势可以通过观察例如PianoL立体对中的墙壁上的无纹理区域和Pipes立体对中的背景上的遮挡区域来定性地清楚地感知。总而言之，在三个数据集和三个立体算法上的详尽实验证明，所提出的框架总是优于局部和全局独立策略，从而有效地学习结合局部和全局线索以获得更准确的置信度估计。这种趋势也被证实移动到非常不同的数据中，如交叉评估中所报告的，证明LGC-Net更能够推广到完全不同的图像内容。总的来说，所提出的方法总是优于用于置信度估计的最先进的方法。6结论在本文中，我们建议，第一次尽我们所知，利用全球和当地的背景来推断立体声的置信度。基于CNN的信心措施所取得的杰出成果的驱动下，在本文中，我们认为，它们的有效性可以通过改变其固有的本地性质得到改善为了这个目的，我们建议结合CNN线索，这两个互补的策略，基于两个非常不同的接受14F. Tosi，M.Poggi，A.Benincasa、S.马托恰图五. Middlebury v3数据集[10]中选定图像的置信度图的定性比较。对于每个样本，我们从左上角到右下角分别报告CCNN，ConfNet和LGC-net的参考图像，视差图，置信度图以及地面真实置信度标签。顶部PianoL对由MC-CNN-fst处理，底部Pipes对由SGM处理。领域的所提出的LGC-网，一个多模态级联网络，合并了两个互补的方法，使更准确的置信度估计的结果。我们广泛地评估了所提出的方法在三个数据集和三个算法以下的标准协议在这一领域证明，我们的建议优于国家的最先进的信心措施，并进一步向前迈进了一步最优。确认我们非常感谢NVIDIA公司的支持，并捐赠了用于本研究的Titan XPascal GPU我们还要感谢Alessandro Fusco在ConfNet架构上所做的大量实验。立体置信度15引用1. Poggi，M.，Tosi，F.，Mattoccia，S.：机器学习世界中的置信度度量的定量评估IEEE International Conference on Computer Vision（ICCV）(Oct（2017年）2. Poggi，M.，Mattoccia，S.：从零开始学习一个置信度测量。第27届英国机器视觉会议（BMVC）。（2016年）3. Seki，A.，Pollefeys，M.：密集视差图的基于块的置信度预测。英国机器视觉会议（BMVC）（2016年）4. Poggi，M.，Mattoccia，S.：学习基于o（1）特征的通用置信度和半全局匹配的智能聚合策略。第四届3D视觉国际会议论文集，3DV。（2016年）5. Haeusler河，奈尔河Kondermann，D.：置信度测量的增强学习是一种创新。In：CVPR. 发布日期。（2013）305- 312 1.6. 傅志Ardabilian，M.：基于多模态卷积神经网络的立体匹配置信度学习在：表示，分析和识别的形状和运动从图像数据（RFMI）。（2017年）7. Menze，M.，Geiger，A.：自动驾驶车辆的对象场景流。计算机视觉和模式识别会议（CVPR）（2015年）8. Zbontar，J.，LeCun，Y.：通过训练卷积神经网络来比较图像块来进行立体匹配。Journal of Machine Learning Research 17（1-32）（2016）29. Geiger，A.，Lenz，P.乌尔塔松河：我们准备好自动驾驶了吗？Kitti Vision基准套件。在：Computer Vision and Pattern Recognition（CVPR），2012，IEEE（2012）3354- 3361中10. Scharstein，D.，Hirschmller，H.，Kitajima，Y. Krathwohl，G.，Nesic，N.王，X.，Westling，P.：高分辨率立体数据集，具有亚像素精确的地面实况。在Jiang，X. Hornegger，J.，科赫河编辑：GCPR。计算机科学讲义第8753卷2014年第31- 42期11. 扎比河Woodfill，J.：用于计算视觉对应的非参数局部变换。在：第三届欧洲计算机会议论文集（第一卷）中。 II）。[1994]ECCV' 94，S e c a u u c us，N J，U S A，S p r i n g e r- V e r l a g N ew Y o r k，I n c. （1994）1 5 1-15812. Hirschmuller，H.：通过半全局匹配和互信息进行精确和高效的立体处理。计算机视觉与模式识别，2005年。CVPR 2005。IEEE计算机协会会议。第二卷IEEE（2005）80713. Hu，X.，Mordohai，P.：立体视觉置信度的定量评价。IEEE Transactions onPattern Analysis and Machine Intelligence（PAMI）（2012）21 2114. Scharstein，D.，Szeliski，R.：密集两帧立体核心的分类和评价。 Int. J.来吧。第47（1-3）号文件（2002年修订本）第7- 42页15. Spyropoulos，A.，Komodakis，N.，Mordohai，P.：学习检测地面控制点以提高立体匹配精度。在： IEEE ConferenceonC 〇mputerVisi s inandPaternReco gnitin（CVPR），IEEE（2014）162116. Park，M.G.，Yoon，K.J.：利用基于学习的置信度测量的立体匹配IEEE计算机视觉与模式识别会议（CVPR）(June（2015年）17. Poggi，M.，Mattoccia，S.：学习预测立体可靠性，加强置信图的局部一致性。IEEE计算机视觉与模式识别会议（CVPR）(July（2017年）16F. Tosi，M.Poggi，A.Benincasa、S.马托恰18. Poggi，M.，Tosi，F.，Mattoccia，S.：通过深度机器学习实现更自信的预测。第12届IEEE嵌入式视觉研讨会（EVW2017）与IEEE计算机视觉和模式识别会议（CVPR）联合举行(July（2017年）19. Kim，S.，敏D Kim，S.，Sohn，K.：立体匹配中学习置信度的特征增强。IEEE Transactions on Image Processing 26（12）（2017）601920. 莫斯特格尔角Rumpler，M.，Fraundorfer，F.，Bischof，H.：使用自相矛盾学习立体视觉中的置信度

下载后可阅读完整内容，剩余1页未读，立即下载