半全局匹配中融合多扫描线优化的学习方法

75 浏览量更新于2023-10-13 收藏 1.52MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

半全局匹配中融合多扫描线优化建议的学习约翰. Scho¨nberger1，2Sudipt a N.在1M弧部件1、2中1Microsoft2DepartmentoComputerrScience，ETHZuérich抽象。半全局匹配（SGM）使用聚合方案来组合多个1D扫描线优化的成本，这往往会在困难的情况下损害其准确性我们建议用一种新的基于学习的方法来取代这种聚合方案，该方法融合了使用扫描线优化估计的视差建议我们提出的SGM-Forest算法使用每像素分类解决了这个问题。 SGM-Forest 目前在 ETH 3D 立体声基准测试中排名第一，在Middlebury 2014和KITTI 2015基准测试中具有竞争力。它始终优于SGM在具有挑战性的设置和困难的训练协议下，表现出强大的泛化，同时只增加了一个小的计算开销SGM。1介绍半全局匹配（SGM）是由Hirschmüllelr[15]提出的一种流行的立体匹配算法，它在3D映射[17，34，39，40]，机器人和无人机导航[38，19]以及辅助驾驶[8]的应用中广泛使用该技术是高效且可并行的，并且适合于在FPGA和GPU上的实时立体重建[9，2，19]。SGM采用平滑先验形式的正则化，类似于全局立体方法，但计算成本较低。SGM中的主要思想是用对应于图像中的多个规范扫描线方向（通常为4或8个）的若干独立的1D扫描线优化问题来近似2D马尔可夫随机场（MRF）优化问题这些1D的问题，正是使用动态规划（DP），通过聚合匹配成本沿多方向的1D扫描线优化。然后将各个方向的最小成本路径的成本最后，一个赢家通吃（WTA）的策略是用来选择的差异与最小的聚合成本在每个像素。从多个方向汇总成本和最终WTA策略都是SGM中的临时步骤，缺乏适当的理论合理性。最初提出求和是为了减少1D条纹伪影[15]，但对于弱纹理倾斜表面无效，并且当多个扫描线优化解决方案不一致时通常也我们在这项工作中的主要动机是设计一个更好的策略，从多个方向融合1D扫描线优化成本。我们认为扫描线优化解应视为独立的视差图2J. L. S cho¨nberger，S. N. Sinha，M.波勒费SGM SO SO SGM-森林Fig. 1.融合多个扫描线方案。左：来自SGM的视差图的可视化，两个（共8个）扫描线优化（SO）和我们提出的SGM-Forest方法。虽然SGM在整个图像上比每个SO更准确，但每个SO解决方案在某些特定区域更好。SGM-Forest确定最佳SO提案并产生最佳的整体结果。右：SGM、SO和SGM-Forest解决方案的误差图（实线）和进行最佳选择的预言机的上限（虚线）。在该示例中，SGM-Forest接近上界。建议和WTA步骤应该由更一般的融合步骤代替。图1显示了来自Middlebury2014数据集[35]的ADIRON-DA cK对的八个扫描线优化解决方案中的两个虽然两种解决方案由于其各自的传播方向而遭受方向偏差，但是每个解决方案在另一个不准确的某些图像区域中是准确的。例如，水平通道在椅子的左侧遮挡边界附近产生精确的视差，而对角通道在右侧遮挡边缘上表现更好在这些区域中，最终的SGM溶液稍差。图1中的误差图量化了整个图像的观察结果。而SGM是更准确的比每个扫描线优化单独，所有扫描线的联合精度是远远高于SGM。这里，联合精度是指预言机的可实现精度的理论上限，其可以访问地面实况并从所有扫描线解决方案建议中选择最佳方案。基于这种见解，我们制定的融合步骤的任务，选择最好的所有扫描线优化建议在图像中的每个像素我们建议使用监督学习来解决这个任务。我们的方法，名为SGM-Forest，使用每像素随机森林分类器。如图1所示，它接近理论上界，并且显著优于SGM。SGM-Forest中的每像素分类器是在低维输入特征上训练的，该低维输入特征对聚合成本样本的稀疏集合进行具体地，从在扫描线优化遍次期间计算的成本体积中采样这些成本值。采样位置对应于每个像素处的所有扫描线方向的视差候选。事实上，这些建议不必限于通常的扫描线方向。包括SGM解决方案和来自右图像的两个水平扫描线优化解决方案作为额外的建议进一步提高了准确性我们使用立体基准提供的地面真实视差图训练和评估森林在测试时间，随机森林预测在每个像素处要选择的视差建议。推理是快速和可并行化的，因此具有小的开销。《森林》-RGBGroundTruth视差误差学习融合SGM中多个扫描线优化的建议3自动地输出每像素后验类概率，从该概率中导出合适的置信度图，以用于最终的视差细化步骤。因此，本文的主要贡献是一个新的，有效的基于学习的融合方法SGM直接预测最好的所有1D扫描线优化视差建议在每个像素的基础上的一个小的扫描线优化成本的集合。SGM-Forest使用这种融合方法而不是SGM我们评估SGM-Forest三个立体声基准。目前，它在ETH3D上排名第一[41]，并在Middlebury2014 [35]和KITTI 2015 [10]上具有我们进行了广泛的消融研究，并表明我们的方法对数据集偏差非常鲁棒。即使森林是在来自不同领域的数据集上训练的，它也优于SGM。2相关工作在本节中，我们将回顾SGM和基于学习的立体声方法然后，我们比较和对比我们提出的SGM-Forest密切相关的作品。SGM建立在早期方法之上，如1D扫描线优化[29，37，50]和动态规划立体[46]，具有新的聚合方案，以修复这些方法中缺乏适当的2D正则化然而，聚集步骤的适当推导仍然难以捉摸，直到Drory等人。[6]在一个特殊的图结构上展示了它与非循环信念传播的联系Veksler [47]和Bleyer等人[3]先进的动态规划立体到连接所有像素的树结构，但那些方法还没有被广泛采用。SGM已被扩展以提高速度和准确性[19，9，2，16，14，13，7，1]，减少存储器使用[18，19，23]，以及计算光流[49，45]。Scharstein和Pal [36]是最早使用立体声学习的人之一。他们在Middlebury2005-06数据集上训练了一个条件随机场（CRF），以模拟CRF的惩罚项与图像中局部强度梯度之间的关系。KITTI和Middlebury 2014 [10，35]基准鼓励在学习方面做很多工作。特别是，CNN已经被训练来计算鲁棒的匹配成本[48，5，25]。Zbontar和Lecun是第一个;他们提出了MC-CNN [48]，并报告了当使用MC-CNN结合SGM进行正则化和额外的后处理步骤时更高的准确性。较新的方法将MC-CNN与更好的优化相结合，但结果要慢得多。Taniai et al.[44]使用迭代图切割优化和MC-CNN-acrt [48]，并且是当前最先进的米德尔伯里CNN的端到端训练现在在KITTI上很流行[21，11，30，27]，但几乎从未在Middlebury上进行过测试。在1例罕见病例中，报告了中度结果[22]。相比之下，我们的方法概括了三个基准[35，10，41]，在这三个基准上，它始终优于基线SGM。此外，我们在Middlebury 2005-06，KITTI和ETH 3D上训练了三个独立的模型在米德尔伯里2014年训练集上测试时，这三个都优于SGMSGM-Net [42]是一种用于改进SGM的基于CNN的方法SGM-Net性能更4J. L. S cho¨nberger，S. N. Sinha，M.波勒费通过使用CNN来预测底层扫描线优化目标的参数来实现精确的扫描线优化相比之下，我们使用常规的扫描线优化，但提出了一个基于学习的融合步骤，使用随机森林。立体匹配已经通过使用MRF融合移动组合多个视差图来解决[24，4，44]。融合移动是相当一般的，但是计算昂贵并且需要许多迭代。这使他们慢。或者，也可以基于随机森林[43]和CNN [32]使用学习来融合多个视差图。其他方法首先预测置信度图[20]，通常通过学习[26，33，31，12]，然后以贪婪的方式使用预测的置信度值来组合多个解决方案。Drory等人[6]为SGM提出了一种不同的不确定性度量，但没有说明如何使用它。与MRF融合移动[24]不同，我们的融合方法并不通用。它结合了特定数量和特定类型的提案，但在一个有效的步骤中完成。Michael等人[28]以及Poggi和Mattoccia [33]（SGM-RF）提出用加权和替换SGM前一项工作[28]提出了每个扫描线方向使用全局权重SGM-RF [33]更有效，因为它使用基于视差的特征的随机森林来预测每个扫描线方向的每像素权重然而，SGM-RF没有在Middlebury 2014和KITTI 2015基准的官方测试集上进行评估。Mac Aodha等人[26]还使用随机森林来融合光流提案，使用基于流的特征。我们的SGM-Forest在几个方面与这些方法不同。首先，它避免了单独预测每个建议的置信度[26，33]，而是直接预测每个像素的最佳建议。森林在每个像素处仅被调用一次，并且具有来自所有扫描线方向的信息。这使得推断更有效。此外，我们的森林所使用的功能是直接通过采样的每个扫描线优化问题在多个选择性差异的总成本卷这比手工制作的基于差异的特征有效得多最后，我们从后验类概率得到的置信度图被归一化，因此更好地用于在后处理过程中细化差异Haeusler等人[12]旨在检测不可靠的差异，并建议将SGM的聚合（总和）成本添加相比之下，我们专注于融合多个建议，并提出在多个差异处对每个独立扫描线优化的所有成本量进行采样，以更好地利用上下文信息。3半全局匹配本文通过Hirschum？ller[17]对SGM进行了改进，以实现2D马尔可夫随机场（MRF）的近似最小化。E（D）= ΣCp（dp）+pΣp，q∈NV（dp，dq），（1）其中Cp（d）是一元数据项，其编码分配像素的惩罚p∈R2到视差d∈ D ={dmin，. . .，dmax}。两两光滑项学习融合SGM中多个扫描线优化的建议5V（d，d’）惩罚相邻像素p和q之间的视差差。在SGM中，术语V被选择为具有以下特定形式0如果d=d′V（d，d′）=P1如果|d−d′|=1P2如果|d− d′| ≥ 2，（二）其有利于一阶平滑度，即具有对前平行表面的偏好最小化2D MRF是NP难的。因此，SGM替代地解决多个扫描线优化问题，每个扫描线优化问题涉及求解方程11的1D版本 1沿着8个基本方向r ={（0，1），（0，-1），（1，0），…{\fn方正粗倩简体\fs12\b1\bord1\shad1\3cH2F2F2F}对于每个方向r，SGM计算聚合匹配成本Lr（p，d）= Cp（d）+min（Lr（p-r，d′）+V（d，d′））. （三）d′∈DLr（p，d）的定义最后通过将八个单独的合计成本量相加来计算合计成本量S（p，dΣS（p，d）=Lr（p，d）。（四）R最终的视差图是使用WTA策略通过选择聚合成本体积中的每像素最小值来dp= arg min S（p，d）。（五）D等式中的步骤当来自不同扫描线方向的成本大多一致时，图4和图5是准确的。对方.然而，这些步骤可能会失败，因为扫描线变得更加不一致。为了克服这个问题，我们提出了一种新的融合方法来鲁棒地计算从多个扫描线成本LR（p，d）的视差DP4学习融合扫描线优化解决方案我们首先分析了一些困难的扫描线优化的例子，以激励我们的融合方法，然后详细描述了该方法4.1扫描线优化分析图2示出了来自左侧ADIRONDACK图像的四条扫描线，其中一元成本C和四个水平和垂直聚合扫描线成本Lr的对应请注意不同刀路的Lr当平滑先验有效时，噪声一元成本被过滤，在正确的视差处产生强最小值然而，当一元成本较弱且先验为6J. L. S cho¨nberger，S. N. Sinha，M.波勒费X xC我L（1，0）左右L（-1，0）右左L（0，1）顶向下x（a）x（b）（c）（d）图二. 1D扫描线优化成本。四个子图中的每一个都显示了以下内容-左上：图像和参考扫描线部分以绿色为中心，以y轴为中心。 TopRight：沿参考线和黄色参考面片中心的射线的funarrycostvolumeC的x- d slic e。底部：左侧的四个扫描线方向和右侧的对应视差的聚合成本Lr。WTA解以红色示出，而地面实况视差以蓝色示出无效、存在多个噪声最小值或最小值处于不正确的我们现在进一步详细调查这些有问题的案件弱纹理。图2（a）-（d）聚焦于弱纹理图像块。每当一元成本较弱时，1D优化中的平滑度先验有利于沿着传播方向传播几个同等可能的视差估计在图2（d）中的水平焊道中这里，左-右传播从左遮挡边界向右继续解决方案，而右-左解决方案从椅子的拐角向左继续。相比之下，两个垂直通道在正确的视差处是一致的，因为沿着该传播方向的表面确实是正面平行的。视差视差y视差C我L（1，0）左右L（-1，0）右左L（0，1）顶向下L（0，-1）底向上L（0，-1）底向上C我C我L（1，0）左右L（-1，0）右左L（0，1）顶向下L（1，0）左右L（-1，0）右左L（0，1）顶向下L（0，-1）底向上L（0，-1）底向上学习融合SGM中多个扫描线优化的建议7倾斜表面。图2（b）、（c）、（d）示出了弱纹理化倾斜表面的示例，其中1D扫描线解通常在随机像素位置处偏置和跳跃，导致不同扫描线中的不一致解。突出的示例是图2（b）中的扶手，其中左-右通过低估了视差，而右-左和自下而上通过过度估计了视差。在这种情况下，解决方案中没有明确的离群值，但最终成本总和导致有偏估计。还请注意两个垂直通道中的不对称性，其中自下而上方向具有更一致的解，而自上而下的解在随机位置跳跃在弱纹理的倾斜表面上，相邻的扫描线解决方案大多是不一致的，从而导致嘈杂的视差图和众所周知的条纹伪影。闭塞。图2（a）以右侧图像中被遮挡的区域为中心。在这种情况下，一元成本是无效的，并且产生正确预测的唯一通道是从左到右方向。这里，被遮挡表面是正面平行的，并且平滑度先验可能将正确的视差传播到被遮挡区域。通常情况下，只有一小部分扫描线结果在遮挡区域是正确的，而SGM的标准成本求和并不稳健，因此会产生总异常值（见图1）。重复结构。图2（c）中椅子靠背上的木板是重复的，并产生多个模糊的局部成本最小值。在这个例子中，左右和自上而下方向的解被错误地估计，因为居中的贴片几乎与最右边的木板上的对称贴片相同。还要注意的是，右-左和自下而上的方向不太容易受到这种特定的歧义问题的影响。这些示例表明，在每个像素处的视差范围上的聚合成本的联合分布似乎提供了关于哪个扫描线提议或哪个提议子集可能是正确的强有力的线索这种洞察力形成了我们的融合模型的基础，这是下面描述的4.2融合模型不同的扫描线解决方案的差异往往是不一致的，特别是在薄弱的数据成本领域。然而，在几乎所有情况下，至少有一条扫描线是正确的或非常接近正确的解决方案。稳健且准确的扫描线融合的主要挑战是识别同意正确估计的扫描线在我们提出的方法中，我们投融合的扫描线作为一个分类问题，选择最佳的估计，从给定的候选扫描线。通常，特定扫描线表现良好的图案是一致的且可重复的。我们的目标是将这些模式编码成规则，可以从给定的一组候选解决方案中识别出正确的解决方案然而，手动手工制作这些规则是不可行的，而且容易出错，这就是为什么我们采用监督方式从训练数据中自动学习这些规则的原因。为了便于学习这些规则，我们提供了一个强大的和有效的视差预测模型与歧视性的信号，允许。我们提出的模型从一组提案成本卷8J. L. S cho¨nberger，S. N. Sinha，M.波勒费ppppppKn（p，d）（例如，优化的扫描线花费Lr（p，d））并且将它们连接成每像素特征向量fp。然后将该特征向量馈送到学习模型中其预测视差估计dtoggethetherwithaposteriorprobabilityρp，我们将其用作进一步后处理的置信度度量具体地说，我们将模型定义为（d，ρ）=F（f），其中d∈R+，p p ppρp∈[0，1]，且fp ∈RN+N2，其中N是建议成本K（p，d）。对于所有n = 1…N个建议Kn（p，d），特征fp存储其位置每像素WTA解决方案d*（n）= arg min dKn（p，d）和所有建议中的对应成本Km（p，d*（n））m = 1…N.总的来说，该特征由N个WTA解决方案和N2个稀疏采样成本组成。对于每个差异建议d*（n），因此我们对它的相对意义wrt进行编码。其他建议紧凑的表示。直觉是，当多个提议一致时，它们的最小值d（n）接近，并且它们各自的成本Km（p，d（n））很低。p p请注意，将所有亲像素的每像素成本连接起来的简单方法由于两个原因，将特征向量的值设置到特征向量中是不可行的首先，我们需要一个轻量级的特征表示和模型，运行时开销小.常规SGM。然而，这种简单的方法会导致一个非常高维的特征表示，其大小为N。|D|（例如：，8· 256 = 2048（对于256个视差扫描和8条扫描线），这将需要复杂的模型并消除了对视差的影响。SGM的计算效率相比之下，我们提出的特征向量只有8 + 82 = 72维的情况下，8扫描线的建议。其次，我们努力学习一个可推广的模型，它在训练和推理过程中使用固定大小的特征表示，即使视差范围D可能在场景之间变化总之，我们提出的特征编码了我们的鉴别信号分类任务，而不牺牲效率，紧凑性或准确性。4.3用于差异和置信度预测的随机森林考虑到真实差异，有许多方法可以使用监督学习来学习模型F（fp）第一个主要的设计决策是将问题作为分类或回归任务。可以说，分类问题通常被认为是更容易解决的。如图1所示，不同扫描线解中的至少一个通常是准确的。因此，我们选择计算一个N类分类任务，该任务从候选集合d*（n）中预测最佳解决方案。这种方法给出了比将问题建模为回归任务更好的结果。第二个主要设计决策是要使用的分类器的特定类型，例如：、k-NN、支持向量机、决策树、神经网络等。在我们的实验中，随机森林提供了准确性和效率之间的最佳权衡（见5.2节和表1）。在测试时，我们首先执行1D扫描线优化以构造亲代价体积Kn（p，d），由此我们构建每像素特征向量fp。在第二阶段，我们简单地通过我们的模型馈送所有像素p的特征向量fp，以获得每个建议n的后验概率ρp（n）。我们选择具有最大后验概率的建议n= arg maxnρp（n）为我们对像素p的初始视差估计d*（n*）。为了进一步完善这一初始pn学习融合SGM中多个扫描线优化的建议9ppΣpp=估计，我们找到接近初始估计的视差建议子集及其相应的后验：D*={（d*（k），ρp（k））|k = 1…N∧ |d*（k）− d*（n*）|

下载后可阅读完整内容，剩余1页未读，立即下载