LAF-Net：局部自适应融合网络用于立体声置信度估计

90 浏览量更新于2023-10-18 收藏 3.55MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1LAF-Net：用于立体声置信度估计的局部自适应融合网络Sunok Kim1，2，Seungryong Kim1，2，Dongbo Min3，Kwanghoon Sohn1*1YonseiUni versity2洛桑联邦理工学院（EPFL）3EwhaWomansUni versity{kso428，khsohn}@www.example.comwww.example.comyonsei.ac.krseungryong.kim @epfl.chdbmin@ewha.ac.kr摘要我们提出了一种新的方法，通过充分利用三模态输入，包括匹配成本，视差，通过深度网络的彩色图像估计初始视差的置信度所提出的网络，称为局部自适应融合网络（LAF-Net），学习局部变化的注意力和比例映射，以融合三模态置信度特征。注意力推理网络对三模态置信度特征的重要性进行编码，然后使用注意力地图以自适应和动态的方式将它们连接起来。这使我们能够进行异构特征的最佳融合，与常规方法中常用的简单级联技术相似此外，为了用局部变化的感受野对置信度特征进行编码，尺度推理网络学习尺度图并通过卷积空间Transformer网络扭曲融合的置信度特征最后，在递归精化网络中逐步估计置信图，以加强空间上下文和局部一致性。实验结果表明，该模型优于国家的最先进的方法在各种基准。1. 介绍重建场景几何形状的立体匹配是计算机视觉领域的基本问题之一几十年来，通过利用手工[43，10]和/或基于机器学习[45，38]的技术，已经提出了许多方法来完成这项任务然而，由于其具有挑战性的元素，如反射表面，无纹理区域，重复图案区域，遮挡[23，13，6]以及照明和相机规格变化引起的光度变形[44，9]，立体匹配仍然是一个未解决的问题。为了缓解这些固有的挑战，这项研究得到了科学和信息通信技术部资助的韩国国家研究基金会（NRF）下一代信息计算发展计划的支持（NRF-2017 M3 C4A7069370）。*通讯作者图1. LAF-Net说明：使用由匹配成本、视差和彩色图像组成的三模态输入，LAF-Net估计视差的置信度。大多数方法[39，27，29，20，18，21]已经采用了置信度估计步骤，该步骤检测不可靠的视差并对其进行细化，以提高立体匹配结果的质量形式上，置信度估计管道涉及首先提取置信度特征，然后使用地面真实置信度训练传统上，存在几种使用不同输入形式的手工置信度测量，例如匹配成本，视差和彩色图像[12，28]。由于任何单个置信度测量都不能处理立体匹配中的所有失败情况，因此从三模态输入[8，39，27，29，20]中提取的手动设计的置信度测量的各种组合已用于学习浅层分类器，例如随机决策森林[2，22]。尽管通过联合使用三模态输入来提高性能，但由于它们的低辨别能力，它们仍然表现出有限的性能最近的方法试图通过利用深度卷积神经网络（CNN）来估计置信度，这要归功于它们的高鲁棒性[30，37，18，21]，这证明了手工制作方法的显著准确性增益。然而，与充分利用三模态输入的手工方法[8，39，27]不同，基于CNN的方法已经由par-par制定。205彩色图像视差匹配代价LAF-Net信心206主要使用单模态或双模态输入，例如，仅匹配成本[38]、仅视差[30，37]、匹配成本和视差[18，21]、或视差和颜色[7，40]。此外，通常使用简单的级联技术[16]来融合多模态置信度特征，忽略了融合权重可能根据置信度特征的特性而针对每个像素变化。同时，置信度特征的感受野可以针对每个像素而变化。该假设已用于传统的手工方法[39，27，29，20]中，以提取多尺度置信度特征。例如，在[27]中报告了不同尺度中的中位视差偏差值是室外[24]和室内数据库[34]的最重要的置信度特征。类似的想法也被采用在一些基于深度CNN的置信度估计方法中。在[21]中，已经提出了多尺度视差特征提取网络，以从不同尺度的视差中学习置信度特征。Fu等人还提出了用不同的膨胀因子提取局部上下文信息的膨胀卷积。[7]的文件。Tosi等人。[40]提出了局部-全局置信度网络，以有效地结合输入图像的局部和全局上下文。然而，仍然没有明确考虑局部变化尺度场的机制另一方面，为了考虑空间上下文和局部一致性，使用联合滤波[20]或使用深度CNN [31]来细化输出置信度图，从而生成更可靠的置信度图。在本文中，我们提出了新的置信度估计网络，称为局部自适应融合网络（LAF-Net），它利用由匹配成本，视差和彩色图像组成的三峰输入，如图所示。1.该网络由置信度特征提取网络、注意力推理网络、尺度推理网络和递归置信度精化网络组成。在注意力推理网络中，我们自适应地将三模态输入与局部变化的注意力地图融合，以受益于三模态置信度特征的联合使用在尺度推理网络中，对所有像素学习局部自适应尺度参数，使网络能够在局部最优感受野内提取置信度特征。此外，通过递归置信度精化网络进一步精化输出置信度。通过消融研究以及与传统手工制作和基于CNN的方法在各种基准上的比较，对所提出的方法进行了广泛的评估，包括 Middlebury 2006 [34] ，Middlebury2014年[33]和KITTI 2015年[24]。2. 相关作品手工制作的方法在过去的几十年里，关于置信度估计的研究文献很多，主要有基于手工制作的信心措施[6，5，25]。Hu和Mordohai[12]对置信测度进行了全面的研究Park等人根据不同的输入对各种单一置信度进行了分析和分类。[28]第10段。从匹配代价的角度来看，匹配代价的峰值比[11]和朴素峰值比[12]已被广泛用于去除不可靠像素。最大利润[12]和赢家利润[35]是用匹配成本的差来计算的从视差，左右一致性[5]已被最广泛地用于找到匹配像素的正确性还测量了局部窗口中的视差变化（VAR）[8]和视差偏差中值（MDD）[8]，在[28]中介绍了从图像中提取的几种置信度。可以使用强度的方差，特别是将均匀区域与纹理良好的区域以及图像梯度的幅度分开。到边缘的距离测量结合了像素的纹理度。由于没有单一的置信度特征可以产生稳定的最佳性能，因此已经提出了各种方法来从不同的单一置信度度量集合中的特征组合中受益[8，39]，这些方法训练了一个浅层分类器，例如随机决策[1，22]。然而，上述方法的性能仍然是有限的，因为所选择的置信度特征不是最佳的。为了在多个置信度特征中选择（次）最佳置信度特征的集合，Park和Yoon [27]利用排列重要性度量来选择重要的置信度特征集合。在[27]中，他们发现不同尺度的MDD对于测量不可靠的像素很重要。类似地，Poggi和Mattoccia [29]采用了仅来自视差图的置信度特征集，其可以在O（1）复杂度中计算而不会损失置信度估计性能。虽然上述方法检测像素级的不可靠像素，但Kim et al.[20]利用空间上下文来估计超像素级的置信度。在[20]中，通过分层置信图聚合进一步细化了所得置信图。然而，所有这些方法都使用手工制作的置信度特征，并且它们可能不是最佳的，以检测不可靠的像素在chal-challenging场景。基于CNN的深度方法。最近的方法试图通过深度CNN来衡量信心[30，37，31，18，21]。使用机器学习方法的置信度测量的定量评估已在[32]中进行。形式上，这些基于CNN的方法首先从单模态或双模态输入中提取置信度特征，然后通过联合学习特征提取器和分类器来预测置信度。已经提出了使用单模态或双模态输入的各种方法，即，左视差[30]，左和右视差[37]，匹配207特征提取网络注意力推理网络规模推理网络图2. LAF-Net的网络结构由四个子网络组成，包括特征提取网络、注意力推理网络、尺度推理网络和递归精化网络。给定匹配成本，视差和彩色图像作为输入，我们的网络输出视差的置信度。规模推理网络的细节如图所示。4.第一章成本[38]，匹配成本和视差[18，21]，以及disparity和颜色[7，40]。为了提取置信度特征对于每个pixeli=[ix，iy]T. 匹配成本Ci，d为-Il和Ir之间，其中i′=i−[d，0]T，在视差ii′从匹配成本和差异，金等人。[21]建议采用top-K池化层对匹配代价进行归一化，提高了对不可靠像素的区分能力。虽然这些方法提高了置信度估计性能，但它们没有充分利用三模态输入。在[21]中，提出了多尺度视差特征提取器，而在[7]中，应用膨胀卷积来有效地获得局部上下文信息。在[40]中，他们提出了使用编码器-解码器网络的全局置信度度量，通过查看整个图像和disparity内容。通过使用全局置信度的输出，他们提出了融合局部置信度、全局置信度和视差的局部-全局方法。所有这些方法都只考虑固定和预定义的尺度范围，而没有估计每个像素的尺度。另一方面，还开发了置信度细化网络[31]，其可以通过利用置信度图内的局部一致性来提高估计置信度图的准确性3. 该方法3.1. 问题陈述和动机让我们将一对立体图像定义为Il和Ir，re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re立体匹配的目的是估计立体图像对之间的视差Di，候选者d={1，...，首先测量dmax}，然后被聚合和优化以用于计算视差Di。用于立体匹配的大多数现有方法[10，17，45]由于其具有挑战性的元素而不能提供完全可靠的结果，因此几种方法[39，27，37，18，20]已经提出了用于预测视差Di的置信度Qi的附加模块。通过利用置信度Qi，它们通过后续视差细化流水线来细化初始视差Di为了实现这一点，我们设计了一种新的网络架构，通过充分利用匹配成本C，视差图D和彩色图像I来估计置信度。整个网络由四个子网络组成，包括置信度特征提取网络、注意力推理网络、尺度推理网络和递归置信度细化网络，如图所示。2.在特征提取网络中，首先从三模态输入中提取置信度特征。然后，来自该网络的中间特征被馈送到注意力推理网络中学习局部变化的注意力图。注意力图用于自适应地连接三模态置信度特征，这与使用简单连接技术的现有方法[18，21，7，40]不同。然后，通过尺度推理网络学习局部变化的尺度场，以在几何对齐的感受野内提取置信度特征，这与具有固定大小卷积的传统方法不同[30，37，21]CQC公司简介双线性采样器转换*CITD递归精化网络IY颜色Top-K成本视差Conv + BN + ReLUConv + BN + ReLUConv + BN + ReLUConv + BN + ReLUConv + BN + ReLUConv + BN + ReLUConv + BN + ReLUConv + BN + ReLUConv + BN + ReLUConv + BN + ReLUConv + BN + ReLUConv + BN + ReLUConv + BNConv + BNConv + BNSoftmaxConv + BN + ReLUConv + BN + ReLUConv + BNConv + BN乙状乙状信心208我我我(a)(b)（c）第（1）款最优特征融合。为了减轻这种限制，受[15]的启发，我们构建了注意力推理网络，用于在三模态特征之间推断最佳融合权重，即，XC、XD和XI。像素i处的每个模态的局部变化注意力被定义为AC、AD和AI，用于匹配成本、视差、我我我和彩色图像。这些注意力是学来的使得AC=F（XC;WA），AD=F（XD;WA），并且i i C i i DAI=F（XI;WA），其中网络参数WA，WA，i i I C D和WA，然后这些注意力经历了softmax使每个像素el的注意力总和为1的函数，(d)（e）（f）也就是说，n ∈C，D，I（A）=1。注意力推理图3.注意力地图的可视化：（a）前一名赛事─每个模态的网络参数（即， WA，WA，C D匹配成本，（b）初始视差，（c）左彩色图像，（d）-（f）分别用于匹配成本、视差和颜色的注意力图最后，在递归WA）不是共享的，而是根据它们的属性独立学习的。然后将学习到的注意力应用于置信度特征，增强空间背景的置信度细化网络和本地一致性的启发[20，31]。Yi=0.ΣXC AC，X D AD，X IAI、（1）我我3.2. 置信度特征提取网络置信度特征提取网络被设计为通过前馈过程从匹配成本C、视差D和左彩色图像1I1中提取表示为XC、XD和XI的三模态置信度特征，使得XC=F（C;WC），XD=F（D;WD）和XI=F（II;WI）分别具有网络参数WC、WD和WI每个网络的网络参数是单独学习的，而不是共享的，以编码三模态输入的异构特性。原始匹配成本Craw的大小和绝对值根据立体图像对的搜索范围和立体匹配方法而变化。此外，它的分布通常是非歧视性的，如[37，7]所述。为了减轻这些限制，输入匹配成本Craw被转换为top-K匹配概率2C，如[18，21]所示，这使得搜索范围不变卷积成为可能。置信度特征提取网络由3个卷积层（Conv）组成，3×3 内核产生 64 个特征通道，然后是批量归一化（BN）和校正线性单元（ReLU）。3.3. 注意力推理网络由于它们的异质属性，这些三模态输入的直接关联不能提供最佳性能[7]。或者，一些方法[18，7，40，21]首先提取双峰置信度特征，然后将它们连接起来。然而，这种在推理时固定融合权重的简单方法通常无法执行1.我们只使用左彩色图像来估计左视差的置信度，而当估计右视差的置信度时，可以使用右图像。[2]为了清楚起见，我们将其表示为匹配成本其中，n（·）是连接运算符，并且n是逐元素乘法运算符。注意，与使用固定融合权重的方法[7，21，40]不同，注意力AC，AD和AI根据输入进行估计，并局部变化，从而使数据自适应融合更有效。不同输入方式的注意力地图的可视化在图中举例说明。3.对于具有高匹配概率的像素，前K匹配成本的关注度高另一方面，视差的注意力在噪声区域中具有高值，这表明可以从不同的视差分配中提取信息特征，这与手持特征中的VAR或MDD[8]类似。在彩色图像中，图像边界附近的关注度很高，这表明图像纹理可以提供有用的线索来估计置信度。通过自适应加权这些注意力图的置信度特征，我们可以获得更多的区分度的置信度特征。注意力学习网络由2个Conv和3×3核组成。第一个Conv生成64通道特征，然后是BN和ReLU，第二个Conv生成1通道特征，然后只有BN。3.4. 规模推理网络置信度特征的最佳感受野可以在每个像素处变化。为了对不同尺度的置信度特征进行编码，已经提出了一些方法[27，7，21，40]，但它们仅考虑固定和预定义的尺度范围，并且不估计每个像素变化的尺度。为了确定每个像素的置信度特征的最佳感受野它首先通过随后的卷积来推断尺度场，使得Si=F（Yi;WS），网络参数WS。利用这些尺度场Si，中间特征被扭曲通过209J我i、j我(a)（b）第（1）款(c)（d）其他事项图4.在尺度相关网络中的双线性采样器的图示：对于特征Y中的每个像素i，可以将特征Y扭曲为放大尺寸的特征YS。邻居jS被卷积为具有步幅的Z参数化网格上的图像采样，类似于空间Transformer网络（STNs）[14]。然而，空间变化的参数化采样网格不能直接用为全局几何场设计的原始STNs[14]来实现为了处理局部变化的尺度场，我们首先建立一个局部变化的对N×N个邻域j∈Ni独立采样网格，然后对每个采样点的卷积激活进行如[4，19]中所使用的网格具体地，局部变化采样网格jS=[jS，jS]T被定义为使得（e）（f）图5.所提出的递归置信度细化网络的有效性：（a）左彩色图像，（b）初始视差，（c）没有递归模块的估计置信度图，（d）具有（c）的阈值化视差，（e）具有递归模块的估计置信度图，（f）具有（e）的阈值化视差。提出的递归置信度精化网络能够可靠地检测出红框中的不匹配像素。网络.从置信度特征Zi，我们最后计算出置信度预测网络来估计置信度Q使得Q =F（Z;WP），x y i i i i关于我们XSySi00SiΣ Σjx−ixjy −iyΣ Σ+ixiy Σ、（二）检测参数WP。输出置信度的迭代精化过程可以提高置信度估计精度，如手工方法中所研究的对于感受野内的所有像素i和它们的邻居j，在常规网格上。对于每个网格样本jS=[jS，jS]T，使用联合滤波[20]和基于CNN的方法[31]。受此启发，我们提出了递归置信度精化-X y卷积层的感受野通过双线性采样器[14]独立地使得Σ网络，其中先前估计的置信度作为当前置信度估计的指导。为了实现这个递归模块，我们用公式表示网络YS=Y imax（0，1 − |j S− ix|）max（0，1 −|j S− iy|）的情况下，tt−1Ptt−1i、jx，y使得Qi=F（Zi，Qi;W其中，Qi和Qi是我（三）其中YS是Yi，j的扭曲卷积激活。由于该尺度变化卷积特征是针对所有i和j独立定义的，因此YS的空间大小被放大为|N|如图所示，没有重叠的Y的大小的倍。4.第一章然后，YS通过随后的与步长N进行卷积，以独立地卷积变形特征并生成尺度自适应一致性特征Z。我们选择N为3，因为后续卷积层的内核大小为3 ×3。规模学习网络由2个3×3的Conv组成内核第一个Conv产生64通道功能，由BN和ReLU降低，第二个Conv产生1个频道功能，后面只有BN。输出通过sigmoid层为每个像素生成缩放参数。3.5. 递归置信度精化网络到目前为止，我们介绍了通过注意力和规模推理融合三模态置信特征的网络第t次和第（t-1）次迭代时的估计置信度，re-k。初始置信度Q0被定义为零。随着迭代次数的增加，置信度精度提高。逐步证明，得到最终的置信图为Q′=Qtmax.递归置信度细化网络的有效性如图所示。5.在这里，我们设置0.9门槛。通过递归模块，提高了基于初始视差预测不匹配像素的能力。递归置信度细化网络由2个Conv和最终sigmoid层组成，类似于规模学习网络。对于迭代次数，我们将tmax设置为3。该方法采用交叉熵损失函数[38，21]关于地面真值置信度Q和估计置信度Q′。4. 实验结果4.1. 实验设置所提出的方法在 MATLAB 中使用 VLFeatMatConvNet工具箱[42]和simu-JSSIJIConv.YYSZJ=2100.250.20.150.10.050.20.180.160.140.120.10.080.060.04表1.当使用MC-CNN [45]获得原始匹配成本时，在MID 2006[34]、MID 2014 [33]和KITTI 2015 [24]数据集上对LAF-Net中的各种输入模态组合进行消融研究。00.140.120.10102030405060708090100稀疏化[%]（一）0.0200.160.140.120102030405060708090100稀疏化[%]（b）第（1）款0.080.060.040.02001020304050607080901000.10.080.060.040.0200102030405060708090100表2. MID 2006 [34]、MID 2014 [33]和KITTI2015 [24]数据集，当使用MC-CNN [45]获得原始匹配成本时。对于MID 2006、MID 2014和KITTI 2015，无融合方法的简单串联的平均AUC值分别为0.0386、0.0689和0.0238。0.250.20.150.1稀疏化[%]（c）第（1）款0.350.30.250.20.15稀疏化[%]（d）其他事项在PC上使用TitanX GPU。我们利用动量随机梯度下降，并设置0.05001020304050607080901000.10.0500102030405060708090100学习率为1×10- 6，批量大小为16。为了计算原始匹配成本，我们使用了一个普查变换，稀疏化[%]（e）稀疏化[%]（f）第（1）款5×5局部窗口和MC-CNN [45]。对于普查变换，我们通过设置P1=0对估计的成本量应用SGM [10]。008和P2=0。[27]第126话为了计算MC-CNN，使用了作者网站上提供的我们设定对于普查SGM和MC-CNN，σ分别为100和0.05，如[21]所示我们使用MPI Sintel数据集[3]和KITTI 2012数据集[24]训练我们的网络，并在 Middlebury 2006 （MID2006）[34]，Middlebury2014（MID 2014）[33]和KITTI 2015数据集[24]。在ad-此外，由于系统限制，我们使用了一半大小的KITTI数据库，因此我们测量了一半大小分辨率下的错误率和AUC值。对于Middlebury，我们使用了[34]提供的第三尺寸图像。通过将估计视差与地面实况视差之间的绝对差阈值化为1来获得地面实况置信图。在推理中，LAF-Net需要大约MID 2006（368×424）为0.912 s、2.413 s和0.783 s，MID2014（496×792）和KITTI 2015（608×184），而[40]在同一组中需要0.750 s，1.628 s和0.552 s东西。由于双线性采样器和递归过程，LAF-Net需要比[40]更长的时间相比之下，LAF-Net和[40]中的参数数量分别为1，337 K和9，289 K，证明LAF-Net更轻，同时实现了更好的准确性。Haeusler等人Spyropoulos等人朴尹O（1）Kim等人（TIP'17）CCNNPBCPShaked等人（会议）Kim等人（会议）LFNConfNetLGC-网络LAF-网络最优Haeusler等人Spyropoulos等人朴尹O（1）Kim等人（TIP'17）CCNNPBCPShaked等人（会议）Kim等人（会议）LFNConfNetLGC-网络LAF-网络最优Haeusler等人Spyropoulos等人朴和尹欧（1）Kim等人（TIP'17）CCNNPBCPShaked等人（会议）Kim等人（会议）LFNConfNetLGC-NetLAF-Net最优Haeusler等人Spyropoulos等人朴和尹欧（1）Kim等人（TIP'17）CCNNPBCPShaked等人（会议）Kim等人（会议）LFNConfNetLGC-NetLAF-Net最优Haeusler等人Spyropoulos等人朴尹O（1）Kim等人（TIP'17）CCNNPBCPShaked等人（会议）Kim等人（Conf）LFNConfNetLGC-NetLAF-Net最优坏像素率[%]Haeusler等人Spyropoulos等人朴和尹欧（1）Kim等人（TIP'17）CCNNPBCPShaked等人（Conf）Kim et al.（会议）LFNConfNetLGC-NetLAF-Net最优坏像素率[%]坏像素率[%]坏像素率[%]坏像素率[%]匹配. 成本视差颜色CCCCCCCCC2006年年中0.0431 0.0392 0.0381 0.0375 0.03642014年中0.0762 0.0703 0.0687 0.0685 0.0683KITTI 20150.0347 0.0245 0.0237 0.0231 0.0225坏像素率[%]关注规模递归CCCCCCCC2006年年中0.0374 0.0375 0.0372 0.0371 0.03642014年中0.0686 0.0688 0.0685 0.0685 0.0683KITTI 20150.0235 0.0236 0.0231 0.0229 0.0225211图6.MID选定图像的稀疏化曲线2006 [34] ， MID 2014 [33] 和 KITTI 2015 数据集 [24] 使用（a），（c），（e）普查SGM和（b），（d），（f）MC-CNN。地面实况置信图的稀疏化曲线被描述为“最优”。在下文中，我们将所提出的方法与传统的手工方法（如Haeusler等人）进行了比较。[8]，Spyropoulos etal.[39] ， Park and Yoon [27] ， Poggi and Mattoccia[29]，Kim et al.[20]第20段。还比较了使用单模态或双模态输入的几种基于CNN的方法，其中仅使用视差，例如Poggi和Mattoccia（CCNN）[30]，Seki和Pollestrom（PBCP）[37]，仅匹配成本，例如Shaked等人。[38]，视差和匹配成本，如Kim等人。[21]，和颜色和视差，如傅等人。（LFN）[7]和Tosi等人的全球措施。（ConfNet）[40]和地方和全球措施（LGC-Net）[40]。我们通过使用作者提供的代码获得了[27]，[20]和[21]的结果，而[8]，[39]，[37]，[38]和[7]的结果是通过我们自己的实现获得的。我们基于作者提供的代码重新实现了[29]，[30]和[40]的方法。为了定量评估置信度估计的性能，我们使用了稀疏曲线及其曲线下面积（AUC），如[8，39，27，37，21]中所用。晶石-212数据集2006年年中[34个]2014年中 [33个][24]第二十四话普查-SGMMC-CNN普查-SGMMC-CNN普查-SGMMC-CNNHaeusler等人[八]《中国日报》0.04540.04170.08410.07500.05850.0308Spyropoulos等人[39]第三十九届0.04470.04200.08390.07520.05360.0323[27]第二十七话0.04380.04260.08020.07340.05270.0303Poggi等人[29日]0.04390.04130.07910.07070.04610.0263Kim等人[20个]0.04300.04090.07720.07010.04300.0294CCNN [30]0.04540.04020.07690.07160.04190.0258PBCP [37]0.04620.04130.07910.07180.04390.0272Shaked等人（Conf）[38]0.04640.04950.08060.07360.05310.0292Kim等人（Conf）[21]0.04190.03940.07490.06940.04070.0250LFN [7]0.04160.03930.07520.06920.04050.0253ConfNet [40]0.04510.04280.07830.07210.04860.0277[40]第四十话0.04130.03890.07350.06850.03920.0236LAF-Net0.04050.03640.07180.06830.03850.0225最优0.03400.03230.05690.05270.03480.0170表3. MID 2006 [34]、MID 2014 [33]和KITTI 2015 [24]数据集的平均AUC值。地面真实置信度的AUC值测量为“最佳”。突出显示每个实验中具有最低AUC值的结果（一）（b）第（1）款图7.（a）基于普查的SGM和（b）KITTI 2015数据集的MC-CNN [24]。我们根据AUC值以升序对AUC值进行sification曲线在视差图中按照置信度值的降序依次去除像素的同时，绘制出坏像素率，从而使我们能够观察估计误差的趋势。对于置信度测量的更高准确度，AUC值较低，并且使用地面真实置信度测量最佳AUC。4.2. 消融研究我们分析了我们的置信度估计网络与消融评估，关于各种组合，213不同模式的作用和拟议的子网络的有效性对三模态输入的影响。在表1中，验证多模态输入效果的消融实验显示了使用三模态输入的必要性。注意，注意力推断模块不用于单一模态的输入。虽然双模态输入提高了预测可靠像素的能力，但三模态输入的充分使用显示出最佳性能。对各种融合方法的影响。在表2中，烧蚀实验，以验证所提出的融合方法的效果。与简单的级联技术相比，置信度估计量得到了改进，注意力和规模推理网络的注意力和规模。此外，递归置信度细化网络显示了额外的改进。4.3. 置信度估计分析为了测量置信度估计器与其他方法相比的性能，我们将我们方法的平均AUC值与使用手工置信度测量的传统基于学习的方法[8，39，27，29，20]和基于CNN的方法[37，30，7，40]进行了比较。为了公平比较，我们还仅评估了[38，21]的置信度估计性能，即，Shaked等人（Conf）[38] and Kim et al.（Conf）[21].MID 2006 [34]，MID 2014 [33]和KITTI 2015 [24]的稀疏化曲线与基于普查的SGM和MC-CNN如图所示。6.图7描述了分别使用基于普查的SGM和MC-CNN的KITTI 2015 [24]的AUC值（按升序排序）。结果表明，所提出的置信度估计具有更好的性能比两者214(a)（b）（c）（d）（e）（f）（g）图8.使用普查SGM和MC-CNN对MID 2006数据集[34]（前两行）和MID 2014数据集[33]（后两行）进行置信度映射。(a)彩色图像，（b）初始视差图，（c）-（f）是由（c）Kim等人估计的置信度图。[21]，（d）LFN [7]，（e）LGC-Net [40]，（f）LAF-Net和（g）地面实况置信图。图9.KITTI 2015数据集[24]上的置信度图使用普查SGM（前两行）和MC-CNN（最后两行）。（从上到下，从左到右）彩色图像，初始视差图，CCNN [30]，PBCP [37]，Kim等人的估计置信度图。[21]，LFN [7]，LGC-Net [40]和LAF-Net。传统的手工方法和基于CNN的方法。MID 2006、MID2014和KITTI 2015数据集总结于表3中。手工制作的方法表现出较差的性能比所提出的方法，由于低的区分能力。与现有的手工方法（如[8，39，27，29，20]）相比，基于CNN的方法[30，37，38，7]提高了置信度估计性能，但它们仍然是不可靠的。因为它们依赖于单模态[30，38]或双模态[37，21，7，40]输入而不是三模态输入。估计的置信度图如图所示。8和图9.第九条。5. 结论我们提出了LAF-Net，通过深度网络估计三模态输入的置信度，包括匹配成本，视差和彩色图像。该方法的核心思想是设计局部自适应的注意力和尺度推理网络，以产生最优的融合权重。此外，采用递归置信度精化网络进一步提高进一步研究的方向是研究如何以[26，41]中提出的无监督方式学习置信度估计网络215引用[1] C. Biernacki，G. Celeux和G.戈瓦特用综合完全相似性评价聚类的混合模型IEEE传输模式分析马赫内特尔，22（7）：719[2] L.布莱曼乱林。马赫学习. ，63（4）：5-32，2001.[3] D. J. Butler，J. Wulff，G. B. Stanley和M. J.布莱克。一个用于光流评估的自然主义开源电影在proc EUR. Conf.Comput. 目视，第6112012年。[4] C. B. Choy，J. Gwak，S. Savarese和M. Chandraker统一通信网。在proc 神经信息处理进展系统，第2414-2422页，12月。2016年。[5] G. Egnal，M. Mintz和R.王尔德使用单视图图像的立体置信度度量与五种替代方法的比较。形象目视Comput. ，22（12）：943[6] G. Egnal和R. P·王尔德检测双眼半遮挡：五种方法的经验比较IEEETrans. 模式分析马赫内特尔，24（8）：1127[7] Z. Fu和M. A. 法德通过多模态卷积神经网络学习置信度。在Proc.IEEE Winter Conf.应用程序Comput.目视，第1321- 1330页[8] R.霍伊斯勒河Nair和D.康德曼立体视觉中置信度测量的包围学习。在 Proc.IEEE Conf. Comput. 目视模式识别。，第305-312页，Jun. 2013.[9] Y. Heo，K. Lee和S.李你使用自适应归一化互相关的鲁棒立体匹配。 IEEE传输模式分析马赫内特尔，33（4）：807[10] H.赫什穆勒利用半全局匹配和互信息进行立体处理。IEEE传输模式分析马赫内特尔，30（2）：328[11] H. Hirschmuller，P. Innocent和J.加里波第减少边界误差的实时相关立体视觉。国际计算机目视，47（1[12] X. Hu和P. Mordohai.立体视觉置信度 IEEE Trans. 模式分析马赫内特尔，34（11）：2121[13] M. 胡门伯格角Zinner，M.Weber，W.Kubinger，以及M. 文斯一种适用于嵌入式实时系统的快速立体匹配算法Comput. 目视形象明白，114（11）：1180[14] M. Jaderberg，K.Simonyan和A.齐瑟曼。空间变换网络。神经信息学进展（Advances in Neural Inf.）过程系统，第2017-2025页，12月。2015年。[15] X. 贾湾，加-地D. Brabandere，T.Tuytelaars和L.诉好极了动态滤波网络。神经信息学进展（Advances in NeuralInf.）过程。系统，第667-675页，12月。2016年。[16] A. Karpathy，G.Toderici、S.Shetty，T.良河，巴西-地Sukthankar和L.飞飞用卷积神经网络进行大规模视频分类。在Proc.IEEE Conf. Comput.目视模式识别。第1725-1732页，Jun. 2014年[17] S.金湾，澳-地哈姆湾Kim和K.孙光照不变立体图像的马氏距离互相关算法匹配. IEEE Trans.Circ. 系统视频Techn. ，24（11）：1844[18] S. Kim，D.敏湾，澳-地Ham，S. Kim和K.孙用于深度估计的深度立体置信度预测。在Proc.IEEE Conf.形象过程、Sep. 2017年。[19] S. Kim，D.敏湾，澳-地Ham，S. Lin和K.孙Fcss：用于密集语义对应的完全卷积自相似性。IEEE传输模式分析马赫内特尔，2017年。[20] S. Kim，D.敏，S.Kim和K.孙立体匹配中学习置信度的特征IEEE传输图像处理。，26（12）：6019[21] S. Kim，D.敏，S. Kim和K.孙用于鲁棒立体匹配的统一置信度估计网络IEEE传输图像处理。，28（3）：1299[22] A. Liaw和M.香肠随机森林分类与回归。R news，2（3）：18[23] X.梅，X。孙，M。Zhou，S. Jiao，H. Wang和X.张某在图形硬件上建立一个精确的立体匹配系统。在procIEEE国际Conf. Comput. 目视工作，第467-474页2011年。[24] M. Menze 和 A. 盖革

下载后可阅读完整内容，剩余1页未读，立即下载