SGM-Nets：基于神经网络的Semi-global匹配

113 浏览量更新于2023-10-16 收藏 16.14MB PDF 举报

神经网络

深度神经网络

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

2310SGM-Nets：使用神经网络的Semi-global匹配0Akihito Seki 1 � Marc Pollefeys 2,301 东芝公司 2 ETH Z¨urich 3 微软0akihito.seki@toshiba.co.jp, marc.pollefeys@inf.ethz.ch0摘要0本文研究了使用Semi-global匹配（SGM）预测准确的密集视差图的深度神经网络。SGM是一种广泛使用的正则化方法，用于真实场景，因为它具有高准确性和快速计算速度。尽管SGM可以获得准确的结果，但调整SGM的惩罚参数（控制视差图的平滑性和不连续性）是困难的，因此提出了经验性方法。我们提出了一种基于学习的惩罚估计方法，称为SGM-Nets，它由卷积神经网络组成。将小图像块及其位置输入SGM-Nets，以预测3D物体结构的惩罚。为了训练网络，我们引入了一种新的损失函数，能够使用稀疏标注的视差图（例如由LiDAR传感器在真实环境中捕获的视差图）。此外，我们提出了一种新的SGM参数化方法，根据正视差或负视差的变化使用不同的惩罚，以更具辨别性地表示物体结构。我们的SGM-Nets在KITTI基准数据集上的准确性超过了现有技术。01. 引言0立体视差估计是计算机视觉中最重要的问题之一。视差图被广泛应用于目标检测[13]、监控[29]、自动驾驶汽车[27]和无人机[24]等领域。多年来，已经提出了许多视差估计方法[32]。用于密集视差估计的标准流程首先是在立体图像之间找到局部对应关系。由于遮挡和像素强度噪声等各种原因，会出现不正确的对应关系。为了改进视差图，应用了正则化方法[15, 31, 33, 35]和一些滤波器[36, 40,38]，最终得到了精细的密集视差。在KITTI网站[1]上，许多最新研究都专注于准确的局部对应方法与深度学习。0�本工作是在访问ETH Z¨urich期间完成的。0（a）（b）0（c）（d）0图1.（a）左图像。（b）地面实况视差图。黑色表示遮挡。使用SGM的视差图，其中（c）手动调整的惩罚和（d）SGM-Net。输入的差异仅在于SGM的惩罚。0使用[38, 21,3]进行Semi-global匹配（SGM）[15]作为正则化。最近，已经提出了一些端到端的流程的深度学习方法，如FlowNet[6]和DispNet[22]。然而，与标准流程相比，这些方法的准确性还不够。我们猜测低准确性的原因之一是训练和测试数据集之间的差异，正如[9,26]中所提到的。在本文中，我们专注于标准流程的正则化部分，因为已经提出了许多复杂的局部对应方法。SGM是一种广泛使用的正则化方法，具有高准确性和低计算成本。一些论文甚至报道了它在移动设备上的实时计算[16,14]。SGM有惩罚参数，我们在本文中称之为“惩罚”，它们控制视差图的平滑性和不连续性。到目前为止，这些惩罚是经验性设计的，很难调整。我们认为这些惩罚应该根据3D物体结构的不同而不同。例如，这些惩罚应该捕捉到道路的平滑性。我们提出了一种基于学习的惩罚预测方法，使用了CNN。CNN在从基本级别的处理（如立体对应）到高级别的处理（如场景分类[2, 20]和目标检测[11,39]）方面提供了高性能。使用CNN进行深度学习是我们目标的一种有希望的方法。然而，将CNN引入到这个任务中并不是一件直接的事情，即如何训练和构建用于SGM的CNN？本文的贡献如下：（1）一种E(D) =�x�C(x, dx) +�y∈NxP1T[|dx − dy| = 1]+�y∈NxP2T[|dx − dy| > 1]�.(1)L′r(x0, d) = c(x0, d) + min�L′r(x1, d), L′r(x1, d − 1) + P1,L′r(x1, d + 1) + P1, mini̸=d±1 L′r(x1, i) + P2�.2320基于学习的SGM惩罚估计。我们提出了一种新的损失函数，用于训练神经网络，其输入是小的图像块及其位置。据我们所知，我们是第一个利用神经网络进行SGM的人。图1(c)显示了使用手动调整的SGM惩罚获得的密集视差图。在图1(d)中，我们的方法正确估计了道路区域上的错误像素。 (2)新的SGM参数化，将正视差变化和负视差变化分开，以区分表示物体结构。(3) 在合成数据集[22]和真实场景数据集[10,23]上进行定量评估。由于亮度饱和、反射、运动模糊和图像噪声，这些数据集非常具有挑战性。SGM-Nets能够在KITTI数据集上超越现有技术的准确性，而无需显式的前景形状先验，如车辆。在接下来的几节中，我们首先关注相关工作（第2节）。然后，我们解释SGM，以便为我们的方法准备一些方程式（第3节）。在第4节中，描述了预测SGM惩罚的SGM-Nets。我们在第5节中介绍了实现细节。我们在第6节中使用合成和真实数据集来证明我们方法的有效性。第7节总结了本文。02. 相关工作0密集视差估计的标准流程包括两个部分，即局部对应和正则化。基于学习的对应函数已经得到广泛研究[38, 21,3]。它们利用CNN进行局部对应，并使用手动调整的SGM进行正则化。在本节中，我们将讨论手动调整的SGM和基于学习的马尔可夫随机场（MRF），它是SGM的一般情况[7]。SGM的手动调整惩罚。到目前为止，SGM的惩罚已经手动调整或设计[17, 15, 38,28]。最简单的方法是将惩罚固定在图像上[17]。另一个假设是具有大梯度（即边缘）的像素更有可能是不连续性，这意味着像素的惩罚应该被减轻，以允许视差跳跃[15]。在更高级的方法中，惩罚不仅在参考图像中检测到边缘时设置得更小，而且在目标图像中相应位置的边缘也与之重合[38]。在[28]中，估计了立体对应的置信度。然后，应该信任具有高置信度的像素，并减轻像素的惩罚。基于MRF的学习惩罚。提出了用于立体的条件随机场（CRF）参数学习方法[25]，但惩罚是在手动调整的图像梯度间隔上学习的。已经提出了一些使用CNN学习CRF参数的论文[41, 19, 34]。然而，[41,19]旨在进行语义分割，它们的公式和思想无法应用于学习SGM惩罚。最近，提出了一种用于立体的方法[34]，但其中一些能量项（局部平滑性和物体潜力）是手动设计的。我们的方法完全使用CNN学习SGM惩罚，以改进视差图。此外，不仅可以应用标准的SGM参数化，还可以应用将正视差变化和负视差变化分开的新参数化。我们最终使用CNN进行匹配（基于[38]）和确定SGM惩罚。0位置 x = (u, v)0视差d0x 0 1 x x 2 x 3 x − 1 − 2 x0位置 u0位置v00 x0(b) 从所有方向选择4条路径 (a)最小代价路径 r ( d ) L , x r0图像0图2. 代价和估计视差的聚合0在密集视差估计的标准流程中，包括两个部分，即局部对应和正则化。学习基于对应的函数已经得到广泛研究[38, 21,3]。它们利用CNN进行局部对应，并使用手动调整的SGM进行正则化。在本节中，我们将讨论手动调整的SGM和基于学习的马尔可夫随机场（MRF），它是SGM的一般情况[7]。SGM的手动调整惩罚。到目前为止，SGM的惩罚已经手动调整或设计[17, 15, 38,28]。最简单的方法是将惩罚固定在图像上[17]。另一个假设是具有大梯度（即边缘）的像素更有可能是不连续性，这意味着像素的惩罚应该被减轻，以允许视差跳跃[15]。在更高级的方法中，惩罚不仅在参考图像中检测到边缘时设置得更小，而且在目标图像中相应位置的边缘也与之重合[38]。在[28]中，估计了立体对应的置信度。然后，应该信任具有高置信度的像素，并减轻像素的惩罚。基于MRF的学习惩罚。提出了用于立体的条件随机场（CRF）参数学习方法[25]，但惩罚是在手动调整的图像梯度间隔上学习的。已经提出了一些使用CNN学习CRF参数的论文[41, 19,34]。然而，[41,19]旨在进行语义分割，它们的公式和思想无法应用于学习SGM惩罚。最近，提出了一种用于立体的方法[34]，但其中一些能量项（局部平滑性和物体潜力）是手动设计的。我们的方法完全使用CNN学习SGM惩罚，以改进视差图。此外，不仅可以应用标准的SGM参数化，还可以应用将正视差变化和负视差变化分开的新参数化。我们最终使用CNN进行匹配（基于[38]）和确定SGM惩罚。03. 半全局匹配0在介绍 SGM-Net 之前，我们首先解释 Semi-GlobalMatching (SGM) [ 15 ]。用于解决 SGM 的能量函数 E定义为0C ( x , d x ) 代表像素 x = ( u, v ) 处视差 d x的匹配代价。第一项表示视差图 D上所有像素的匹配代价之和。第二项表示像素 x 邻域 N x中所有像素 y 的倾斜表面惩罚 P 1。第三项表示不连续视差的惩罚 P 2。根据图像梯度的大小，通常将 P 2 设置为较小的值，例如P 2 = P ′ 2 / | I ( x ) − I ( y ) | ，以便容易选择不连续性 [15 ]。T [ ∙ ] 表示克罗内克 δ函数，当括号中的条件满足时，为 1，否则为0。为了最小化方程（1）中的 E ( D ) ，在像素 x 处的视差d 沿着方向 r 的路径上，如图 2 (a) 所示，定义了一条代价L ′ r ( x , d )0x 1 和 c ( x , d ) 表示前一个像素 ( x 0 − r )和逐像素匹配代价，例如 ZNCC (Zero Mean NormalizedCross-Correlation)、Census [ 37 ] 或基于 CNN 的方法 [38 , 21 , 30 , 3 ]。为了避免由于累积而导致非常大的值∑∑∑∑∑��+++=∈∈∈∈rxxxxxxxGgGnGnGnEEEEEffssbb0010101,,,ξSlantFlatBorderOriginal imagePenalty P1/P28 or 16 channelsDense disparity mapSGM-NetSGM0x1x��2x3x( )11 xP()21 xP()22 xP0014xd11xd23xd33xd()32 xP0��1d2d3d4d5d05xdLr(x0, d) = c(x0, d) + min�Lr(x1, d), Lr(x1, d − 1) + P1,Lr(x1, d + 1) + P1, mini̸=d±1 Lr(x1, i) + P2�− mink Lr(x1, k).4. SGM-Net̸di̸=dx0gt(5)2330训练0P2 (不连续性)01. 通过 SGM-Net 计算 P1/P2 并输入到 SGM 中得到视差图 (*)0邻居代价对于每个条件和方向，提取出正确估计的视差的点0路径代价从非遮挡区域提取点03. 更新 SGM-Net02. 提取更新候选0*测试01. 通过 SGM-Net 计算 P1/P2并输入到 SGM 中得到视差图0图 3. SGM-Net 的概述。SGM 通过将惩罚 P 1 和 P 2 从 SGM-Net 中合并来估计稠密视差。SGM-Net在每个聚合方向上迭代训练，使用图像块和它们的位置。0图 4. 连续的 4 个像素及每个像素的 5个候选视差。橙色和紫色线分别表示从正确视差 d x 0 gt 和根像素x 0 到视差 d 5 的路径。0路径，前一个像素点 x 1 的最小路径代价被减去，我们得到0（2）像素 x 0 处的视差 D 通过聚合所有方向 r（图2（b）中的 4）的成本的胜者通吃策略计算如下：0D（x 0）= arg min d0r L r（x 0，d）。（3）0图 3说明了我们提出的方法的概述。我们称之为SGM-Net的神经网络在每个像素处提供 P 1 和 P2。它由两个阶段组成：训练和测试。在训练阶段，SGM-Net通过最小化第 4.1.1 节中的“路径成本”和第 4.1.2节中的“邻居成本”来进行迭代训练。在测试中，SGM预测的惩罚估计了密集视差。我们首先在第 4.1节中解释了SGM的标准参数化。然后，在第 4.2节中介绍了更具有区分性的参数化。SGM-Net的架构在第4.3 节中解释。04.1. 标准参数化04.1.1 路径成本如公式（3）所示，获得正确视差的必要条件是，穿过像素x 0 处的正确视差 d x 0 gt的路径应小于任何其他路径，即像素 x 0 处的成本 L r必须满足 L r（x 0，d x 0 i）> L r（x 0，d x 0 gt），� d i∈ [0，d max ] � = dgt。我们使用铰链损失函数将其表示如下：0E g = �0max � 0，L r（x 0，d x 0 gt）− L r（x 0，d x 0i）+ m �，（4）0其中 m表示边界。与其他函数（如softmax损失）相比，铰链损失函数更容易进行反向传播的公式化。为了允许损失函数的反向传播，我们应该明确 Eq.（4）关于 P 1 和 P 2的梯度。我们首先在图 4中的一个示例中展示。在这里，我们关注像素 x 0处的视差成本 L。成本 L 在路径上在像素 x 3 和 x 0之间累积。从像素 x 0处经过的视差可以通过向后追踪来追踪。在这个图中，像素x 0 处的视差 d x 0 5 和 d x 0 gt 的成本表示为0L（x 0，d x 0 gt）= c（x 0，d x 0 gt）+ c（x 1，d x 1 1）+ c（x 2，d x2 3）0+ c（x 3，d x 3 3）+ P 2（x 2）− β L（x 0，d x 05）= c（x 0，d x 0 5）+ c（x 1，d x 1 4）+ c（x2，d x 2 3）+ c（x 3，d x 3 3）+ P 1（x 1）+ P1（x 2）− β，0其中 β表示公式（2）中的最小路径成本。为了推广它们，沿路径的累积成本变为0L r（x 0，d x 0 i）= γ+ �0� P 1，r（x n）T [ | δd x n ← d0+ P 2，r（xn）T [ | δd x n ← d x 0i | > 1] �（6）0δd x n ← d x 0 i 表示连续像素 x k 和 x k − 1之间的视差差异（对于所有 k ∈ [1，n]）沿着方向r，其根是视差 d x 0 i 在ABBAi̸x0gt�n�T[|δdxn←dx0gt | = 1] − T[|δdxn←dx0i | = 1]�i̸xgtd̸=d 1gt2340（a）GT0（b）SGM-Net的初始状态（c）具有路径成本的SGM-Net0（d）具有邻居成本的SGM-Net0（e）具有所有成本的SGM-Net0原始图像0图 5. 损失函数的成本比较。0像素 x 0 。 γ表示每个像素处的累积匹配成本和减去最小成本。注意，γ不包含 P 1 和 P2。将公式（6）放入公式（4）中，然后对具有非零成本的像素 x 0 的损失函数 E g 进行 P 1 和 P 2的微分。最后，得到以下方程：0∂E g ∂P1，r = �0∂Eg∂P2，r= �0�0n0� T [ | δdxn←dx0gt | > 1]−T [ | δdxn←dx0i | >1] �。0（7）例如，Eg在方程（5）中的导数如下所示：0∂P1（x1）= -1，∂Eg0∂P2（x1）= 0，∂Eg0当Eg = Lr（x0，dx0gt）−Lr（x0，dx05）+m >0时。（8）0有了这些方程，我们可以使用标准框架（即前向和后向传播）来最小化损失函数。我们将这个损失函数称为“路径成本”。请注意，路径成本不需要密集的地面真值，因此我们可以轻松使用在实际环境下拍摄的数据集，例如KITTI[10]。另一方面，路径成本存在潜在问题。中间路径没有直接考虑在内。例如，图4中的红色点线表示在每个像素处遍历正确视差的路径。橙色线表示在像素x2之前和之后具有与正确路径不同的路径，导致像素x3和x2处的错误惩罚。部分错误的惩罚会产生如图5所示的伪影。图5（c）显示了通过SGM获得的视差图，其惩罚仅由仅使用此损失函数训练的SGM-Net预测。与SGM的初始参数相比0x01x0（a）边界（b）斜面（c）平面0x01xx01x02d03d04d05d0x1dgtF（）。b0F（）。f（）F。sN（）。0N（）。N（）。0图6.连续像素之间视差的显著关系：（a）边界，（b）斜面和（c）平面。红色表示正确路径，蓝绿色表示错误路径。0Net（图5（b）），视差图变得更好，但是像A这样的细节消失了。04.1.2邻居成本为了消除沿路径遍历的视差的歧义，我们引入了“邻居成本”函数。基本思想是在连续像素处遍历正确视差的路径必须具有所有路径中最小的成本，如图6所示。在该图中，红色路径上的成本Fb（∙），Fs（∙）或Ff（∙）小于绿色路径N（∙）的其他成本。邻居成本表示为0EnX = �0max � 0，FX（x1，dx1gt）−N（x1，dx0gt，d）+m�，（9）0其中N（∙）表示0N（x1，dx0gt，d）= Lr（x1，d）+P1，r（x1）T [ | dx0gt−d | = 1]0+ P2，r（x1）T [ | dx0gt−d | >1]（10），而FX（∙）是一个依赖于连续像素之间视差变化关系的函数：边界Fb（∙），斜面Fs（∙）和平面Ff（∙）。边界是连续像素中存在不连续性的情况，如图6（a）所示。视差变化dx0gt和dx1gt之间的路径成本FX（∙）定义为0Fb（x1，dx1gt）= Lr（x1，dx1gt）+P2，r（x1）。（11）0斜面（图6（b））表示具有较小视差变化的表面，例如道路平面。F X（∙）变为0Fs（x1，dx1gt）= Lr（x1，dx1gt）+P1，r（x1）。（12）0平面（图6（c））是相机的前平行平面。在这种情况下，不添加任何惩罚。它被定义为0Ff（x1，dx1gt）= Lr（x1，dx1gt）。（13）0Eq. ( 9)可以以与前一节所解释的路径成本类似的方式进行微分。通过使用邻居成本，图5（d）中的详细部分A得以保留。应用邻居成本的一个必要条件是像素x1处的视差必须被正确估计，即accumulated cost Lr(x1, dx1gt ) must have the smallest accu-mulated cost Lr of all disparities. Otherwise, the dispar-ity at pixel x0 is unlikely to be correctly predicted. Theadvantage of the neighbor cost is that the aggregated costat both consecutive pixels is supposed to be minimized atthe correct disparity. Meanwhile, it is difﬁcult to apply theneighbor cost to all pixels because of the necessary condi-tion. When SGM-Net is trained only with the neighbor cost,erroneous pixels occur (B in Fig. 5).In order to compensate the advantage and difﬁculty ofthe path and neighbor costs, they are put together, and ﬁ-nally the loss function becomesE =�r∈R� �x1,x0∈GbEnb+�x1,x0∈GsEns+�x1,x0∈GfEnf +ξ�x0∈GEg�,(14)where ξ means a blending ratio. We randomly extracted thesame number of pixels for border Gb, slant Gs, and ﬂat Gfon each direction r. All G∗ have annotation of true dispar-ity. For the path cost, we randomly select from G whichpixels have the ground truth. The magnitude of penaltiesP1 and P2 are related to accumulated costs Lr. Meanwhile,the accumulated costs also depend on the penalties. There-fore, the penalties are estimated iteratively as shown in Fig.3. The disparity map given by SGM-Net trained with Eq.(14) is shown in Fig. 5(e).4.2. Signed parameterizationWe have explained standard parameterization of SGM.In this section, we propose a new parameterization. Fig-ure 7(a) shows a basic idea of this parameterization. P1and P2 have different penalties depending on either posi-tive or negative disparity change so we call it “signed pa-rameterization”. This strategy is observed to work well forstructures such as road surface and side wall (Fig. 7(b)).Disparities along top to bottom direction on the road (red),which is able to be assumed as slanted plane, is more likelyto become larger, so P −1 tends to be larger than P +1 . As dis-parities on the left side wall (green) can be considered thesame way, P +1 is more likely to be larger than P −1 along leftto right direction.In this parameterization, the cost L′r is modiﬁed toL′±r (x0, d) = c(x0, d) + min�L′±r (x1, d),mini=d±1 L′±r (x1, i) + P +1,rT[d − i = 1]��T +1 [·]+ P −1 T[i − d = 1]��T −1 [·],mini̸=d±1 L′±r (x1, i) + P +2,rT[i < d]��T +2 [·]+ P −2,rT[i > d]��T −2 [·]�.The equation shows discriminative penalties depending onthe sign of the disparity change.A path cost E±g is represented the same way as Eg inEq. (4) by replacing Lr with L±r . As in standard param-+1P+2P−1P−2PPositionDisparitypositivenegative+P−P(a)(b)PositionDisparityPosition−+ >11PPVerticalHorizontal−+ <11PPDisparityFigure 7. (a) Signed parameterization. (b) Slant structure penaltyP1 at disparities along green (side wall) and red (road) lines.eterization, L±r (x0, d) is computed simply by subtractingminimum value at a previous pixel from L′±r (x0, d). L±r isgeneralized as below:L±r = γ+�n2350� P + 1，r T + 1 [∙] + P - 1，r T - 1 [∙] + P + 2，r T+ 2 [∙] + P - 2，r T - 2 [∙] �。0上述方程的导数可以从中推导出E ±g。从公式（9）推导出的邻居成本E ± n X在这种情况下变得更加复杂。我们必须考虑五种情况，而不是标准参数化的三种情况。边界有两种情况，倾斜有两种情况，平坦有一种情况。N（∙）被替换为0N ±（x1，dx0gt，d）= L ± r（x1，d）0+ P + 1，r（x1）T [δ = 1] + P - 1，r（x1）T [δ = -1]0+ P + 2，r（x1）T [δ > 1] + P - 2，r（x1）T [δ < -1]，0其中δ = dx0gt - d。边界像素的F X 描述如下0F ± b（x1，dxgt）= Lr（x1，dx1gt）+ P + 2，r（x1）T [dx0gt > dx1gt]0+ P - 2，r（x1）T [dx0gt < dx1gt]0F X 在倾斜像素上表示为0F ± s（x1，dxgt）= Lr（x1，dx1gt）+ P + 1，r（x1）T [dx0gt - dx1gt = 1]0+ P - 1，r（x1）T [dx1gt - dx0gt = 1]0F X 在平坦像素上的函数与公式（13）中的F f相同。为了训练有符号参数化网络，我们最小化公式（14）中的损失函数E，其中我们用扩展的成本替换了成本函数。04.3.SGM-Net架构到目前为止，我们描述了SGM的标准和有符号参数化的成本函数。本节解释了SGM-Net架构。一个灰度图像块的大小为5×5像素，其归一化位置作为输入传递给网络，如图8所示。它有两个卷积层，每个卷积层都由16个大小为3×3的滤波器组成，在每个卷积层之后有一个修正线性单元（ReLU）层，连接层用于合并两种信息，两个MethodTrain [%](scene forwards)Test [%](scene backwards)Hand tunedFixed [17]21.4 / 20.024.0 / 23.2Dynamic [38]19.9 / 17.324.0 / 22.0StandardSGM-NetInitial29.4 / 28.932.9 / 32.8Neighbor cost20.9 / 18.623.4 / 22.3Path cost17.9 / 15.621.7 / 20.1All17.7 / 15.221.2 / 19.5All (w/o pos.)19.7 / 16.422.3 / 20.1SignedSGM-NetInitial29.7 / 29.033.2 / 32.9Neighbor cost21.4 / 18.224.3 / 22.5Path cost16.8 / 14.020.4 / 18.3All16.6 / 14.020.4 / 18.3Table 1. Overall Out-Noc error on synthetic dataset. Comparisonof cost functions and matchers of ZNCC / MC-CNN.6. Experimental resultsIn this section, we demonstrate the accuracy of ourmethod by using “Driving” from SceneFlow datasets [22]as synthetic images and KITTI 2012 (K12) [10] and 2015(K15) [23] datasets as real scenes. SceneFlow dataset pro-vides pixel-wise disparity for ground truth so that the neigh-bor cost can be used. Actually, such dense ground truthis difﬁcult to collect with laser sensors under real environ-ments.As SGM-Net parameters, we set ξ = 0.1 and m = 2.5for all experiments.11Except MC-CNN in Sec. 6.1, we set m = 5.0 in this case.2360P1，P20FC+ReLU0卷积+ReLU0常数0P1，P20P1，P20块0方向10方向20方向30方向4 归一化的块位置0连接0卷积+ReLU0FC+ELU0图8.SGM-Net标准参数化的架构。图像块及其位置作为输入传递给网络。8个参数，即4个聚合方向的P1和P2。0每个完全连接（FC）层的大小为128，第一个FC层后面使用ReLU。此外，我们使用指数线性单元（ELU）[5]，其中α=1，并添加常数值1，以使SGM惩罚保持正值。ReLU在负输入值上具有零梯度，但是ELU可以缓解梯度消失问题。这意味着ELU可以加快神经网络的学习速度并提高准确性。作为预处理步骤，我们从图像块中减去均值，并将其除以图像的最大强度。图像块的位置通过将其除以图像的宽度或高度进行归一化。在本文中，成本沿着水平和垂直方向累积，当然，我们也可以添加对角线方向。网络输出8（= 2 [P1，P2]× 4 [direction]）或16（= 4 [P + 1，P - 1，P + 2，P - 2]× 4[direction]）个值，分别对应标准和有符号参数化。预测的惩罚在图9中显示。在道路上，标准的SGM-Net在A点的水平方向上比垂直方向上的P1大，因为道路通常在水平方向上是平坦的，在垂直方向上是倾斜的。在B和C的边缘处，P2变小，这与[15]中的假设相同。D和E是图7（b）中解释的情况。惩罚与我们预期的一样进行训练。05. 实现我们将读者引导至附录，以了解训练过程的摘要。SGM-Nets使用Torch7 [4]在NVIDIA(R) TitanX上实现。作为优化方法，我们测试了随机梯度下降和自适应矩估计（Adam）[18]，最终发现后者的优化方法达到了更低的误差。Adam能够适当地控制每个参数的学习率，并保留过去的梯度，以便快速而稳定地找到最优参数。网络是从头开始训练的，这意味着它们是随机初始化的，它们的训练需要几天时间。大部分时间都用于从磁盘加载匹配成本体积文件，但它比每次迭代计算MC-CNN [38]要快得多。06.1.在“驾驶”设置中，我们选择了35mm焦距和慢动作图像，使图像的布局和模糊效果与KITTI数据集相似。图像底部的道路区域存在较大的视差，因此由于内存大小限制，使用GPU训练网络变得困难。因此，我们从原始图像中剪切了顶部和底部各100个像素，并得到了960×340像素的图像。我们每5帧提取一对立体图像，以消除相似的场景。最后，我们从“前进”和“后退”场景中分别获得了每个160帧用于训练和测试。作为比较，我们采用了SGM的手动调整惩罚，这些惩罚是固定的[17]或动态确定的[38]。这些惩罚被调整为在训练图像上达到最小误差，并应用于测试图像。在后一种方法中，惩罚基于聚合方向上的图像强度差的大小，它考虑了左图像和右图像中相应像素的强度差。此外，还有一个参数，它根据聚合方向控制惩罚。在这里，我们不仅与手动调整方法进行比较，还与SGM-Nets在成本函数的组合和位置优势方面的行为进行比较。P1P2P1+P1P2+P2��ABCDEBCFigure 9. Predicted P1 and P2 by standard and signed SGM-Nets. The color of P1 and P2 encodes strength of respective values, blue andred mean small and large, respectively.5.593.492.5527.6722.4420.2020.5313.1012.402370图10.合成数据集上测试图像（场景向后）的视差图。从左到右依次显示原始图像、手动调整[38]、标准SGM-Net（全部）和带符号的SGM-Net（全部）的结果。视差图右上角的数字表示Out-Noc错误。0两种匹配函数（窗口大小为5×5像素的ZNCC和MC-CNN[38]）的信息。将ZNCC的值v转换为（1-v）/2以适应能量函数。作为错误标准，我们评估非遮挡区域上错误像素的百分比，错误阈值为3个像素。我们没有对视差图应用任何后处理。表1显示了每种方法的错误。粗体字表示每组中的最佳准确性（手动调整、标准和带符号的SGM-Net）。在两种匹配函数上，带符号的SGM-Net获得了最佳结果，而手动调整方法[38]获得了最差结果。SGM-Net从初始随机参数中得到了适当的训练。通过使用所有成本函数（路径和邻居成本），两个SGM-Net都获得了最佳结果。此外，位置信息也起到了很好的作用。在接下来的实验中，我们从每个组中选择了最佳方法，即手动调整（动态）和带有所有成本函数的标准和带符号的SGM-Net。0图10显示了由手动调整[38]，标准和带符号的SGM-Net估计的测试图像的视差图。尽管由于饱和度、运动模糊、图像噪声等原因，视差图的某些部分很难正确估计，但SGM-Net仍能提供更高的准确性。手动调整的SGM很可能会出现树周围的条纹伪影（图10中的中间行），道路和车辆（图10中的底部行）。SGM-Net能够0训练数据测试（K15tr.）D1-all通过标准/带符号的SGM-Net0合成5.09％ / 5.58％0合成+K12 tr. 4.49％ / 4.38％0表2.使用的训练数据集的比较。0我们的方法估计惩罚以使真实视差与其他视差之间存在边界m（4）和（9）中。从而减轻了这些问题。06.2.真实图像KITTIs的测试图像没有提供地面真实视差图，因此我们必须在网站[1]上提交测试图像的视差图。然而，提交的数量是受限制的。因此，我们使用KITTIs的一个训练图像作为SGM-Nets的训练，另一个作为评估。MC-CNN为K12和K15的每个训练数据集提供了其训练网络。我们使用对应训练数据集中训练的MC-CNN。我们采用了KITTIs的默认错误标准，并且在第6.1节中是相同的。首先，我们评估了使用真实图像进行训练的优势。使用K12训练图像进行训练，并在K15训练图像上评估网络。如表2所示，真实图像有助于提高两个SGM-N

下载后可阅读完整内容，剩余1页未读，立即下载