基于CNN的视差估计中的过度平滑问题及解决方法

198 浏览量更新于2023-10-12 收藏 1.73MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

8997disp基于CNN的视差估计陈创荣中山大学chenchr5@mail2.sysu.edu.cn陈晓芝cxz. gmail.com郑惠中山大学chengh9@mail.sysu.edu.cn摘要目前，大多数基于深度学习的视差估计方法存在边界处过平滑的问题，这对于诸如点云分割、映射等的一些应用是不利的。为了解决这个问题，我们首先分析了潜在的原因，并观察到边缘边界像素处的估计视差通常遵循多峰分布，导致过度平滑估计。在此基础上，我们提出了一种在推理过程中对概率分布进行单模态加权平均的操作，可以有效地缓解这一问题。为了将这种推理方法的约束融入到训练阶段，我们进一步分析了不同损失函数的特性，并证明了高斯分布的交叉熵损失进一步提高了性能。对于定量评价，我们提出了一种新的度量，测量的视差误差的边缘边界的局部结构。在不同网络的数据集上的实验表明了该方法1. 介绍给定校准的立体装备，视差估计的问题是估计从左图像到右图像或反之亦然的每像素水平如果立体装备的固有特性是已知的，则可以通过深度=f·b来计算每像素深度，其中b是立体基线，f是焦距，并且disp是估计的视差。立体显示在许多领域中起着重要的作用，如机器人、自动驾驶和增强现实，因为与昂贵的深度传感器（如LIDAR）相比，立体显示提供了一种获得场景深度的经济方式视差估计的流水线通常由四个组件组成：特征提取、成本计算、成本聚集和视差细化。传统方法使用手工制作的特征和能量最小化方法来估计差异。最近的方法诉诸于使用卷积神经网络（CNN）的数据驱动方法。MC-CNN [27]使用CNN进行特征提取，*通讯作者图1.从视差转换的点云。请放大以了解更多详情。和成本计算，并使用传统的方法为其余部分。最近的一些工作将视差估计公式化为端到端的方式。这些方法可分为两类：基于2D CNN [15，17，10，26]和基于3D CNN [11，2，23，7]。这些这两个类别在设计上有两个主要区别。首先，给定提取的左和右特征，基于2D CNN的方法使用内积或欧几里德距离进行成本计算，并应用2D卷积进行进一步处理，而基于3D CNN的方法使用级联操作和3D卷积进行成本计算和聚合。其次，大多数基于2D CNN的方法直接回归视差，而基于3D CNN的方法预测枚举视差上的概率分布，并且通过加权平均操作获得最终结果虽然基于CNN的方法在视差估计方面取得了很大的改进，但它们通常在边缘边界处存在严重的过平滑问题。虽然估计的视差图看起来不错，但当转换为点云时，它们通常在GroundTruth我们PSMNet [2]8998边界如图1，基于3D CNN的方法PSMNet [2]未能在前景和背景区域的边界处正确地估计视差。请注意，在点云中，许多点都附着在边界上。这些过度平滑的估计对一些机器人应用如地图绘制、局部结构推断和路径规划具有负面影响。在这项工作中，我们分析了基于3D CNN的方法的问题我们观察到，在大多数情况下，过度平滑视差是由估计网络的局部性和加权平均运算之间的模糊性引起的在此基础上，提出了一种简单有效的解决策略.具体地说，在获得估计网络的概率输出后，我们用单模态加权平均运算代替了原来的全频带加权平均运算通过这种简单的改变，过度平滑的问题得到了显著的缓解。由于所提出的单模态操作仅用于后处理，因此直观的考虑是将单模态约束集成到训练阶段中，如[23]所示。为此，我们进一步分析了基于回归和基于交叉熵的损失函数的特性研究发现，采用高斯分布的交叉熵，在训练阶段得到的监督信号更稳定、更细，可以进一步提高估计性能。对于评估，通常的评估指标 [16] ，端点误差（EPE），集中在点对点方式的整体性能。在实验中我们发现它不能很好地反映边界为此，我们提出了一种新的度量，软边缘误差（SEE），在这项工作中。SEE以点到片的方式只计算边缘区域的误差，能更好地反映过平滑问题的性能。与目前流行的平滑的NH1损失函数相比，在训练和单模态加权平均操作期间使用具有高斯分布的交叉熵始终提高了过度平滑问题和整体估计的性能，这在各种数据集[15，16，1，18]上得到了验证，用于各种网络[2，11，23]。我们将我们工作的贡献总结如下：• 提出了一种简单而有效的策略来解决基于CNN的视差估计方法所遭受的过平滑问题。• 通过对基于回归和基于交叉熵的损失函数的分析，表明交叉熵更适合于视差网络的训练。• 提出了一种新的评价边界区域视差估计质量的指标。• 我们验证了所提出的方法的有效性和普遍适用性的各种公共数据集上使用各种网络。2. 相关工作我们简要回顾了最近的工作CNN为基础的视差估计。混合方法。MCCNN [27]和ContentCNN [14]利用CNN进行特征提取，传统方法用于成本聚合和结果细化。PBCP [19]使用CNN来预测视差估计的置信度。在MCCNN构造的成本体积的基础上，将置信度融合到SGM优化过程中，获得了更好的精度。SGMNet [20]使用CNN来预测SGM [9]优化过程中的惩罚项。对于采用传统方法进行成本汇总的方法，通过对成本量采用赢者通吃策略，获得了差异性后细化用于子像素估计。基于2D CNN的方法 DispNet [15]是一个端到端的网络，用于精确估计。它使用像FlowNet [5]这样的编码器-解码器沙漏网络架构。DispNetC [15]使用CNN特征的相关性来构建成本量，然后再馈送到沙漏网络。CRL [17]提出使用级联残差学习通过堆叠两个沙漏网络来迭代地细化差异。iRes- Net [13]强调了对左右特征恒定性的约束最近，DispNet3.0 [10]提出在通用网络中联合估计视差、遮挡和深度边界。PWCNet [22]在特征上而不是在图像上进行扭曲，以获得更小的模型尺寸和更有效的光流估计推断。类似的策略用于UnDepthflow [24]和HD3 [26]中的视差估计SegStereo[25]利用来自语义分割和视差估计的联合训练的语义信息。EdgeStereo [21]通过将视差估计与边缘检测网络相结合来提高性能。基于3D CNN的方法GCNet [11]首先利用3D卷积进行视差回归的端到端学习首先，与基于2D CNN的方法一样，它使用2D卷积进行特征提取。然后，它不是通过相关性或欧几里得距离直接计算成本，而是堆叠对应于指定disparity的左和右特征，从而产生4D成本量。3D卷积然后用于几何和上下文的联合学习。类似于GCNet的架构，最近已经提出了许多工作PSMNet [2]在特征提取器中应用空间金字塔模块[8]和扩张卷积[3]，以利用多尺度表示和堆栈沙漏3D网络进行残差学习。为了提高效率，StereoNet [12]建议在较低分辨率下进行3D卷积，并通过图像引导的残差学习迭代地细化视差PDSNet [23]提出减少3D卷积的通道以用于快速推断，并通过子像素交叉熵损失进行训练以用于稳定的视差范围适应。899916160.350.300.250.200.150.100.05图2.基于3D CNN的网络的典型架构。注意，仅4D张量的d、h、w维度被可视化。0.00010 20 30 40视差图3.像素视差估计的多峰分布。在应用全波段加权平均后，绿色三角形-估计的差异位于两个模态之间。表1：#基本和堆栈结果的模态统计-h沙漏（shg.）PSMNet版本[2]，Sceneflow [15]。W3. 方法d3.1. 基于3D CNN的方法再探如图2、对于视差估计，基于3D CNN的方法首先使用定制的基于2D卷积的子模块提取1分辨率下的左右图像的特征图，然后通过在对应于指定视差值的位置上连接左右特征来构造4D张量。4D张量的形状为最大2c×d ×h×w，其中c是二维有限元分析的维数。图4.在尺寸为d×h×w的单个特征图上进行3×3×3三维卷积运算的可视化，具有很强的局部性。d维上相距甚远的两个红色指数之间的联系与像素的分布输出相对应的灰度值这违背了全频带加权平均操作所假设的假设。如图3、像元视差的分布呈现两种模式。我们4 4 4真实地图，dmax是用户指定的最大视差，（h，w）是图像的大小。然后将该4D张量馈送到基于3D对流的子模块中，以进行成本计算和聚合。3D子模块的输出是每个可能的视差值的每像素对数似然，其形式为进一步统计现场分布模态的数量[2]中提出的两个网络的流[15]数据集。表1中的统计数据与我们的观察结果一致。双峰分布所占比例次之，在边缘区域更为明显经过加权平均后，DMax 公司简介特征图这种低分辨率的特征年龄操作，估计的差距偏离4 4 4然后，对MAP进行三线性上采样以达到全分辨率。通过对每个像素的对数似然应用softmax，可以得到概率分布p（·）。最后，估计的差异使用全频带加权平均运算计算，地面实况值和相应的3D点云位于前景和背景之间，如图所示。1，这是过度平滑问题。从另一个角度来看，首先，作为3D CNN方法，提取1分辨率的特征，部分空间精度为d=dΣmaxd=0d·p（d）（1）丢失，并且第二，虽然3D卷积子模块可以使用沙漏网络，3.2. 过度平滑问题为了扩大感知领域，如图4所示，它仍然不能覆盖dmax的整个范围 ×h×w成本体积-4 4 4利用如等式（1）中的加权平均运算，能够直接实现亚像素估计。然而，如图1，基于3DCNN的方法PSMNet [2]的视差估计在边缘边界上具有严重的过平滑问题。通过可视化边界像素的预测概率分布，我们发现这些像素梅。这意味着位置（10，100，200）确实与（70，100，200）处的（x，y，z）几乎没有联系，其中（x，y，z）是尺寸为dmax×h×w的成本体积的坐标。因此，我们认为估计的分布具有强局部性，分布模式对应于左和右特征具有强相似性的位置。估计分布加权平均地面实况概率网络区域#Modal的比例（%）123别人基本所有95.702.701.010.59边缘83.3012.302.981.42嘘所有97.301.490.480.73边缘87.1410.561.310.9990003.3. 单模态加权平均基于估计分布具有强局部性的假设，我们提出了单峰加权平均操作，以减轻过度平滑问题。具体地，当在推断期间计算估计的视差时，代替在整个视差范围上使用如等式（1）中的全带加权平均操作，我们对数似视差枚举损失Gt.对数似损失差异枚举Gt.只对模型进行加权平均运算，最大可能性y，作为d=d·p（d）（2）d=dl其中dl和dr指定具有最大概率的模态的范围。我们首先找到最大概率指数，它也应该是一个局部最大值，然后从这个指数分别向左和向右行进，直到它单调下降p（·）是归一化概率dis。a) 回归b）交叉熵图5.两类损失函数的计算图。由于softmax和log softmax操作在前向过程中不会改变输入值的相对比例，因此主要区别在于乘法操作和101损耗。为了直观地解释，我们生成一个100维随机向量作为要优化的对数似然，并将随机真值设置为索引30。然后，我们使用基于回归的损失函数和交叉优化作为（d）d≤d ≤d基于熵的损失函数与构造的地面实况分别以目标折射率为中心的高斯分布p（d）=Σdri=dlLp（i）R（三）对数似然、负梯度和概率在优化过程中的变化如图所示。六、0否则首先确定概率最大的模态及其对应的范围，然后在此范围上对分布进行归一化，并在此范围上对归一化后的分布进行加权平均运算. 通过应用单模态加权平均，我们的目标是在-对网络输出的后验分布的推理步骤这种单模态操作仅在推断期间应用。3.4. 基于交叉熵的细粒度监控虽然第节3.3能够缓解过平滑问题，它受PDSNet [23]的启发，我们在这里分析了训练基于3D CNN的视差网络时不同损失函数的特点。期间培训阶段，目前，最作品运用基于平滑回归的损失函数Lreg定义为如第3.2节所述，分布模式对应于左右特征具有强相似性的位置。因此，对应于地面实况差异的索引处的输出对数似然的幅度应该是最大的，因此负梯度（即，更新的幅度）。图6、对于基于回归的方法，负梯度在地面真值处的大小小于一侧的值，这与我们的直觉相矛盾，而对于基于交叉熵的方法，这与我们的分析相一致基于回归的损失函数存在局限性从图中的计算5.由于基于回归的方法使用加权平均估计作为代理和101损失，因此反向传播的梯度在加权平均运算中，由于概率乘以从0到dmax的视差计数，所以反向传播到对数似然的梯度也需要乘以视差计数，从而导致图1中的倾斜现象。六、由于交叉熵损失直接对整个分布施加约束能够产生更稳定和细粒度的监督L（d）=.0的情况。5（d）2|≤1|≤1（四）信号，这与图中的结果一致。六、reg|-0。|−0. 5我的天3.5. 软边缘误差其中，d是估计的视差，并且d是地面实况值。另一种是基于交叉熵的损失函数Lce，dΣmax端点误差（EPE）度量通常用于评估视差估计的性能。给定估计视差图d和地面实况视差图d，其中pgtLce（pgt，p）=−pgt（d）·logp（d）（5）d=0（·）是一个构造的groundtruth分布。作为EPE定义为E（d）=1ΣN|（六）|(6)如表1所示，大多数像素模态因此，我们构造拉普拉斯和高斯分布作为地面实况。这两种损失函数的计算图如图所示。五、Ni=1另一个常用的度量是计算在给定的特定条件下错误估计的像素的平均数量。日志结构SoftmaxGtDistrib.总和Softmax总和平滑的L1900120 30 40 50 607020 30 40 50 60702.02.02.02.01.51.01.51.01.51.01.51.00.50.50.50.50.00.00.00.00.50.50.50.51.01.01.01.01.50 20 40 60 801001.50 20 40 60 801001.50 20 40 60 801001.50 20 40 60 80 1000.60.60.60.60.40.40.40.40.20.20.20.20.00.00.00.00.20.20.20.20.40.40.40.40.60.60.60.60 20 40 60 801000 20 40 60 801000 20 40 60 801000 20 40 60 80 1000.140.140.140.140.120.100.120.100.120.100.120.100.080.080.080.080.060.060.060.060.040.040.040.040.020.020.020.020.000.000.000.000 20 40 60 801000 20 40 60 801000 20 40 60 801000 20 40 60 80 100迭代01迭代11迭代21迭代31图6. 使用基于回归和基于交叉熵的损失函数优化过程中对数似然、负梯度和概率的变化。从左到右，列是迭代n∈ {1，11，21，31}时的值。对于所有子图，X轴是视差指数。视差误差阈值[6]。这些指标有两个局限性。首先，对于具有地面实况的像素，误差是以点对点的方式计算的，这不能反映局部结构中的过平滑问题。其次，这些度量对所有像素进行计数，因此不能反映边界处的视差质量，而边界处的视差质量将由其他区域支配。为此，我们提出了软边缘误差（SEE）度量，它只计算边缘边界Edge（d）周围像素的视差误差。形式上，它1ΣN65432615432615432120 30 40 50 60 70图7. 1D伪影可视化。SEEk（d）=N i=1sek（di，di）i∈Edge（d），（7）过平滑伪影，它仍然可以保持局部结构，而为其中，sek（·，·）是SoftErr或被定义为：sek（di，di）=min|di−dj|j∈Nk（i）.（八）Nk（i）表示点i的局部k×k邻域。注意，当k=1时，sel（·，·）与vanilla点对点误差相同根据定义，SoftErr或sek（di，di）是最小值估计的视差和它对应的本地地面实况补丁。我们匹配补丁中的地面实况像素，因为精确边界像素处的视差值可能不确定。实际上，在边界处的视差的微小未对准伪影是可接受的，因为它几乎不影响局部结构，并且过度平滑伪影是更不期望的。软误差是指放松点到点的误差度量，并对局部结构的损伤施加更多的惩罚。如图对于简单的1D情况，假设红色圆圈中所示的阶跃函数是地面实况，尽管未对准伪影导致比过平滑伪影，局部结构被破坏，并且其具有比未对准伪影更大的软误差边缘（d）表示图像中的不连续视差区域。对于具有密集的每像素地面实况的数据集，例如sceneflow[15]，我们通过选择地面实况视差图上绝对梯度超过特定阈值的像素来提取边缘边界，该阈值在我们的基准中设置为2。对于只有稀疏地面实况的数据集，如KITTI 2015 [16]，很我们近似它使用语义信息的边界提取。由于KITTI 2015提供了实例分割基础，我们提取了对象实例之间的边界（例如，车辆）和背景区域（例如，墙），它们应该在3D世界中空间上分开。对于背景区域，如道路、人行道和地面，在空间上相互联系，我们将它们视为一个实例。对提取的边缘进行3 ×3核的膨胀放大。回归交叉熵目标回归交叉熵指标回归交叉熵目标回归交叉熵目标回归交叉熵指标回归交叉熵目标回归交叉熵目标回归交叉熵指标回归交叉熵目标回归交叉熵目标回归交叉熵指标回归交叉熵目标概率地面实况误差过平滑对数似负梯度。9002方法损失Infr.Sceneflow [15]圣日耳曼[1]Kitti 2015 [16]米德尔伯里[18]看到EPE看到EPE3SEE3EPE3SEE3EPEAvg3pxAvg3pxAvg3pxAvg3pxLregFB1.579.400.893.132.8210.803.178.867.822.0023.9726.36Shg [2]LregLlapSMSM1.010.994.173.200.900.892.832.352.532.328.078.133.163.278.398.156.996.851.861.7717.9414.9224.1422.11L型量规SM0.792.530.772.212.297.333.248.186.661.7011.9419.05LregFB1.8310.971.114.203.8412.685.2611.878.282.4727.4933.11基本[2]LregLlapSMSM1.291.165.364.141.181.133.823.284.053.4510.479.255.485.1010.8410.497.428.412.252.7618.7816.0227.1424.06L型量规SM1.013.601.023.123.359.125.1110.127.042.2314.3221.68LregFB1.609.810.893.563.1313.233.189.988.902.4625.0728.86GCNet [11]LregLlapSMSM1.271.445.396.911.241.473.514.072.794.2110.1811.493.374.129.3216.848.368.362.652.4018.3016.0025.1022.81L型量规SM1.073.921.073.183.9411.123.9510.068.712.5014.2420.39LregFB1.9712.111.194.403.0212.372.609.198.892.4422.1124.15PDSNet [23]LregLlapSMSM1.321.696.0110.041.201.573.974.842.823.179.9311.242.632.828.8219.798.1610.842.342.8517.6619.3022.6421.88L型量规SM1.043.431.042.935.149.282.697.617.402.0513.0015.81表2：四个数据集上的平均值（Avg）和3pxSEE、EPE的评价。在此，我们报告具有2px边缘未对准的容差的SEE5损失函数是基于回归的Lreg，以及具有拉普拉斯（Llap）和高斯（Lgau）分布的基于交叉熵的方法。推理（Infr.）方法包括全频带（FB）和单模态（SM）加权平均。4. 实验4.1. 实现细节数据集。在实验中，我们使用了四个数据集：Scene-flow [15] ， Sintel [1] ， KITTI 2015 [16] ， andMiddlebury立体声[18]。Sceneflow有35454个训练图像和4370个测试图像，而Sintel stereo是一个小数据集。Sceneflow和Sintel都是具有每像素视差地面实况的合成数据集。KITTI 2015是一个真实的城市场景自动驾驶数据集，包含200张训练图像和稀疏地面实况。Middlebury是一个真实的室内数据集，包含15个训练图像和密集的地面实况。网络. 我们使用四个基于3D CNN 的视差网络。即PSMNet [2]，GCNet [11]和PDSNet [23]的基本和堆栈沙漏版本。PSMNet和PDSNet都以1分辨率构建成本体积，在Sceneflow测试拆分和Sintel上计算平均值和3px软边缘误差（SEE）。由于3px误差是误差超过3个像素的离群值的比例，因此它更鲁棒和实用。因此，对于真实世界的数据集，我们在KITTI验证分割和Middlebury上计算3px SEE为了评估整体性能，我们计算端点误差（EPE）。4.2. 结果业绩差距。根据表2的结果，在整个图像上评估的EPE和在不连续视差区域上评估的SEE之间存在很大的差距，方法 . 对于 PSMNet 的堆栈沙漏版本 [2]，尽管它在Sceneflow数据集上具有3.13 3pxEPE它比3.13大了一个不能忽视的幅度。在discontin上的表现-116GCNet 4 分辨率我们对最终的所有网络的每像素对数似然到全分辨率。训练对于所有网络，我们在场景流上训练10个epoch[15]。学习率（lr）最初设置为0.001，并在epoch 6，7，8减半。对于KITTI，我们使用lr进行微调前200个时期为0.001，100个时期以上为0.01我们使用160张图像进行微调，40张用于验证。由于Sintel是一个小的合成数据集，而Middlebury立体只有15张图像，因此我们使用在Sceneflow上训练的模型我们使用基于回归的损失函数smooth和基于交叉熵的损失函数以及高斯和拉普拉斯地面真值分布来训练所有网络。高斯的方差被设置为2，拉普拉斯的尺度参数被设置为4。除了损失函数之外，每个网络的训练配置都设置为相同，以进行公平的比较。评估指标。为了评估过平滑问题的性能，对于合成数据集，我们将-9003不均衡地区需要更多关注。单模态加权平均的优点。从表2中每个块的前两行，我们可以看到，在SEE上使用单模态加权平均始终优于全频带加权平均。通过对概率输出进行单模态加权平均运算，与全频带加权平均相比，在不连续视差区域上得到了我们进一步评估了平均值和3 pxSEE，k从1到15不等，公差为0-7像素的边缘错位。从图中的结果。8，我们还可以看到各种数据集上的各种网络从全频带到单模操作的一致改进。交叉熵损失的好处。如表2和图2所示。8，通过使用基于交叉熵的损失函数进行训练，所有四个网络都获得了更低的SEE和EPE。Com-9004L调节FBLregSMLlapSMLgauSML调节FBLregSMLlapSMLgauSML调节FBLregSMLlapSMLgauSML调节FBLregSMLlapSMLgauSML调节FBLregSMLlapSMLgauSML调节FBLregSMLlapSMLgauSML调节FBLregSMLlapSMLgauSM14121010121088108686664444224 6 8 10 12144 6 8 10 12 144 6 8 10 12 144 6 8 10 12 14876543214 6 8 10 1214987654324 6 8 10 1214987654324 6 8 10 1214121086424 6 81012 141618 18181416 161612 14 141410121212810101068 884 6 8 10 12144 6 8 10 12144 6 8 10 12144 6 8 10 12 1427.525.022.520.030.03027.525.02522.525.022.520.017.515.012.510.07.520.02017.515.01512.51010.017.515.012.510.04 6 8 10 12144 6 8 10 12144 6 8 10 12144 6 8 10 12 14嘘[23]第二届中国国际纺织品展览会[24]图8.研究了3 px软边缘误差随局部邻域块大小k（1 ~ 11）和边缘容差的变化规律从0到5个像素的未对准对于所有子图，x轴为k，y轴为3pxSEE。与基于回归的损失函数相比，基于熵的损失函数可以在训练期间施加输出分布的约束，并且在训练期间具有更稳定和细粒度的监督信号，如第节所分析的三点四分。它更适合于基于3D CNN的视差估计，并且在过平滑问题以及整体估计方面具有更好的性能关于spec-用于训练的固定地面实况分布，结果3.23.02.82.62.42.2电话：+86-021 - 88888888传真：+86-021 - 88888888方差结果表明，基于高斯分布的模型始终比基于拉普拉斯分布的模型更稳定，更好。Gaussian Distribution的缩写。根据表2和图8中的结果，与基于高斯分布的网络训练相比，使用拉普拉斯分布的网络训练是次优的。由于长尾数据通常采用拉普拉斯分布，而短尾数据通常采用高斯分布，本文通过控制方差参数，研究了高斯分布的锐度与在图9中，关于过平滑性能，我们得到了具有较低方差的更好的3pxSEE。但对整体性能无明显影响。我们认为，更清晰的地面真值分布有助于学习更多的区别性特征，这有利于挑战边缘区域。然而，由于网络以低分辨率构建成本体积，当上采样到完整图像尺寸时，它将引入伪影。因此，对于整体性能，可能不需要更尖锐的分布。图9. 使用不同方差训练的模型的性能。边缘区域的多峰分布。作为如表1所列，边缘区域上的大部分像素概率遵循双峰分布。在这里，我们研究边缘区域的地面实况分布。对于pix-在边缘区域上，我们使用高斯混合分布进行训练。确定了混合分配模式对边缘像素点的地面真值和视差差最大的相邻边缘像素点的表3列出了具有不同混合系数的训练结果。从3pxSEE5结果来看，通过适当地选择混合系数，可以在过平滑问题上获得更好的性能，因为它可以更好地拟合真实分布。然而，使用高斯混合分布进行训练会损害EPE结果的整体性能。KITTI基准。为了对所提出的方法的整体性能进行基准测试具体来说，我们使用L调节FBLregSMLlapSMLgauSML调节FBLregSMLlapSMLgauSML调节FBLregSMLlapSMLgauSML调节FBLregSMLlapSMLgauSML调节FBLregSMLlapSMLgauSML调节FBLregSMLlapSMLgauSML调节FBLregSMLlapSMLgauSML调节FBLregSMLlapSMLgauSML调节FBLregSMLlapSMLgauSM米德尔伯里[18]3px见53px EPE[16]第十六话圣日耳曼[1]Sceneflow [15]3px误差（%）9005图10.使用MeshLab [4]从具有已知固有视差的点云转换。从上到下：左输入图像，来自PSMNet [2]，来自我们的结果，以及groundtruth。请放大以了解更多详情。系数看到5EPEGt.Ngb.Avg3pxAvg3px1.00.00.792.530.772.210.90.10.902.650.962.630.80.20.922.561.102.790.70.30.822.190.942.520.60.40.832.150.982.69表3：在地面实况（Gt）和邻居（Ngb）上用不同混合系数训练的模型差异方法全部（%）NOC（%）BGFG所有BGFG所有PDSNet [23]2.294.052.582.093.682.36PSMNet [2]1.864.622.321.714.312.14[25]第二十五话1.884.072.251.763.702.08[21]第二十一话1.873.612.161.723.412.00我们1.544.332.141.703.901.93表4：KITTI 2015 [16]基准在非闭塞（NOC）和整体（所有）区域的结果。方法>2px（%）>3px（%）>4px（%）>5px（%）NOC所有NOC所有 NOC所有 NOC所有PDSNet [23]3.824.651.922.531.381.851.121.51[25]第二十五话2.663.191.682.031.251.521.001.21PSMNet [2]2.443.011.491.891.121.420.901.15[21]第二十一话2.322.881.461.831.071.340.831.04我们2.172.811.351.811.041.390.871.16表5：KITTI 2012 [6]基准的结果。PSMNet的堆栈沙漏版本[2]使用基于交叉熵的高斯分布损失函数进行训练，并在推理期间应用单模态加权平均。KITTI 2012 [6]和2015 [16]测试集的结果列于表4和表5中。如上所述，与原始PSMNet [2]的结果相比，通过应用所提出的方法，我们实现了一致的非平凡改进，甚至超过了使用边缘或分割的语义信息的强基线[21，25定性结果。我们在图中显示了一些定性结果。图10和图1，其中我们可视化从估计的视差转换的3D点云。我们的方法能够在不连续区域上估计更尖锐的视差，几乎没有过度平滑估计，而PSMNet [2]无法估计前景边界处的视差（例如，车辆）和背景（例如，壁）区域。5. 结论在这项工作中，我们的目标是解决基于CNN的视差估计的过度平滑问题，这是许多实际应用中无法解决的，但在以前的工作中很少对于基于3D CNN的方法，在分析视差的概率分布之后，我们提出了一种简单而有效的方法来缓解这个问题。然后分析了不同损失函数的特点，发现基于交叉熵的损失函数更适合于基于3D CNN的视差估计。通过在训练阶段引入单模态约束，进一步改善了过平滑问题和整体性能。由于现有的视差度量不能反映局部边界结构上的误差，我们提出了一种新的度量，软边缘误差，用于评估。在不同网络的公共数据集上进行的实验表明，该方法有效地降低了过平滑效应，提高了整体性能.我们希望这项工作可以激发在这个方向上的进一步研究。谢谢。本课题得到了广东省科技规划重大专项（2017B 010116003）和国家自然科学基金-深圳机器人项目（U1613211）的资助。9006引用[1] D. J. Butler，J. Wulff，G. B. Stanley和M. J.布莱克。一个用于光流评估的自然主义开源电影。在欧洲会议中计算机视觉（ ECCV ），第 611- 625 页。 Springer-Verlag，2012. 二六七[2] 张嘉仁和陈永生。金字塔立体匹配网络。在IEEE计算机视觉和模式识别会议论文集，第5410- 5418页，2018年。一二三六七八[3] Liang-Chieh Chen，Yukun Zhu，George Papandreou，Flo- rian Schroff，and Hartwig Adam.用于语义图像分割的具有粗糙可分离卷积的编码器-解码器。在欧洲计算机视觉会议（ECCV），2018年9月。2[4] Paolo Cignoni、Marco Callieri、Massimiliano Corsini、Matteo Dellepiane、Fabio Ganovelli和Guido Ranzuglia。MeshLab ：一个开源的网格处理工具。 In VitorioScarano，Rosario De Chiara，and Ugo Erra，editors，Eurographics Italian Chapter Conference.欧洲制图协会，2008年。8[5] Alexey Dosovitskiy、Philipp Fischer、Eddy Ilg、PhilipHausser、Caner Hazirbas、Vladimir Golkov、Patrick VanDer Smagt、Daniel Cremers和Thomas Brox。Flownet：使用卷积网络学习光流。在 IEEE InternationalConference on Computer Vision的Proceedings，第2758-2766页，2015年。2[6] Andreas Geiger，Philip Lenz，and Raquel Urtasun.我们准备好自动驾驶了吗？Kitti Vision基准套件。在TheIEEEConferenceonComputerVisionandPatternRecognition（CVPR），第3354-3361页五、八[7] Xiaoyang Guo ， Kai Yang ， Wukui Yang ， XiaogangWang ， and Hongsheng Li. 分组相关立体网络。在CVPR，2019年。1[8] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于视觉识别的深度卷积网络中的空间金字塔池。在欧洲计算机视觉会议上，第346-361页。Springer，2014. 2[9] 海科·赫希穆勒基于半全局匹配和互信息的立体图像处理 IEEE Transactions on Pattern Analysis and MachineIntelligence，30（2）：328-341，2008。2[10] Eddy Ilg，Tonmoy Saikia，Margret Keuper，and ThomasBrox.遮挡，运动和深度边界与视差，光流或场景流估计的通用网络。在欧洲计算机视觉会议（ECCV），2018年9月。一、二[11] Alex Kendall、Hayk Martirosyan、Saumitro Dasgupta、Peter Henry、Ryan Kennedy、Abraham Bachrach和AdamBry。深度立体回归的几何和上下文的端到端学习在IEEE计算机视觉国际会议论文集，第66-75页，2017年。一、二、六、七[12] Sameh Khamis ， Sean Fanello ， Christoph Rhemann ，Adarsh Kowdle ， Julien Valentin ， and Shahram Izadi.Stereonet：实时边缘感知深度预测的引导分层细化。在欧洲计算机视觉会议，2018年9月。2[13] Zhengfa Liang，Yiliu Feng，Yulan Guo，Hengzhu Liu，Wei Chen，Linbo Qiao，Li Zhou，and Jianfeng Zhang.学习9007用于通过特征恒定性进行视差估计。在IEEE计算机视觉和模式识别会议上，2018年6月。2[14] 作者：Jiangsu G. Schwing和Raquel Urtasun。用于立体匹配的高效深度学习。在IEEE计算机视觉和模式识别会议（CVPR）上，2016年6月。2[15] Nikolaus Mayer ， Eddy Ilg ， Philip Hausser ， PhilippFischer ， Daniel Cr

下载后可阅读完整内容，剩余1页未读，立即下载