Booster数据集：一个具有挑战性的高分辨率立体数据集，用于评估深度立体声网络在开放式挑战中的局限性

140 浏览量更新于2023-10-25 收藏 3.04MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

21168Deep Stereo中的开放式挑战：Booster数据集Pierluigi Zama Ramirez<$Fabio Tosi<$MatteoPoggi<$ Samuele Salti Stefano Mattoccia Luigi Di StefanoCVLAB，意大利博洛尼亚大学计算机科学与工程系（DISI）{pierluigi.zama，fabio.tosi5，m.poggi} @ unibo.it(a)（b）（c）（d）Fig. 1. Booster数据集中的场景。我们在各种室内环境中收集具有挑战性的物体，如（a）中所示我们提供了密集的地面实况差异（b）和识别最具挑战性的材料（c）的分割掩模由于最先进的深度立体声网络[25]在这些场景中挣扎（d），我们的基准测试突出了深度立体声中的开放性挑战摘要我们提出了一种新的高分辨率和具有挑战性的立体数据集帧室内场景注释与密集和准确的地面实况差异。我们的数据集的特点是存在几个镜面和透明表面，即最先进的立体声网络失败的主要原因。我们的采集管道利用了一种新的深空时立体框架，该框架允许以亚像素精度进行简单而准确的标记我们发布了在64个不同场景中收集的总共419个样本每个样本包括一个高分辨率对（12 Mpx）以及一个不平衡对（左：12Mpx，右：1.1 Mpx）。此外，我们还提供手动注释的材料分割掩模和15K未标记的样本。我们基于我们的数据集评估了最先进的深度网络，强调了它们在解决立体声中的开放挑战方面的局限性，并为未来的研究提供了提示。1. 介绍与昂贵和侵入式主动传感器相比，从图像进行深度估计长期以来一直被认为是一种有利的替代方案。在几种基于图像的方法中，立体视觉[32，36]可以说是最受欢迎和研究最多的技术。这些年来，共同第一作者。在这一领域取得了进展，这也要归功于具有挑战性的立体声基准[15，29，34，38]的可用性，其中社区竞争更高的排名。此外，丰富的立体图像为深度学习在这一领域的成功铺平了道路[22，28，54]。事实上，通过浏览最流行的基准测试，人们可以注意到，现在所有排名靠前的提案都包含在端到端的深度网络中，在大多数情况下都可以达到亚像素精度。仅举几例，KITTI 2012和2015 [15，29]或ETH3D [38]似乎已经解决，顶级条目的平均错误率接近1%。这些证据是否表明，由于深度学习，立体视觉是一个解决的问题？如图1所示，我们认为情况绝对不是这样，相反，现在是社区关注该领域未解决的开放挑战的时候了。特别是，我们确定了两个这样的挑战，即i）非朗伯表面和ii）高分辨率图像。至于非朗伯反射率，各种材料和表面仍然代表着对大多数计算机视觉方法和深度立体的严峻挑战。具体地，处理透明或镜面的匹配像素是极其困难的，并且在许多情况下可能存在于固有的不适定问题中。然而，我们认为具有这种属性的对象在大多数立体基准中几乎不存在或未标记，除了KITTI 2015，其中汽车已经被CAD模型取代，该CAD模型在汽车上的一些镜面/透明表面上提供超级视觉正如KITTI 2015在线基准测试报告所述，如果适当的话，深度学习也有可能解决这一挑战21169····有注释的样本关于第二个挑战，当考虑更高分辨率的图像时，例如在Middlebury 2014基准[34]中，我们通常会注意到更高的误差。这是由更大的图像尺寸（以及视差范围）引起的此外，以高分辨率处理图像提出了计算复杂性问题，特别是在部署深度网络时。实际上，Middlebury基准中的大多数条目只能处理下采样到原始6 Mpx分辨率的一半或四分之一的输入图像。此外，由于现代智能手机特有的相机设置，通常配备高分辨率和低得多的分辨率图像传感器，因此出现了额外的挑战。在这样的设置中，人们可能希望恢复高分辨率深度图，而不管输入对的不同分辨率，即，解决了立体声不平衡的问题。然而，这样的研究方向到目前为止几乎没有探索[1，26]。为此，本文提出了一种新的高分辨率挑战性立体基准.我们的数据集中的每个图像都是在室内环境中收集的，具有一组镜面或透明的物体和表面，以及非常大的无纹理区域。为了准确地注释每个收集的样本，我们实现了一个新的深时空立体管道[10]，它结合了从多个静态图像计算的-在从不同方向投射到场景上的各种纹理图案下并且在仔细地绘制所有非朗伯表面之后获得。我们的管道的独特之处在于使用最先进的预训练深度网络[25]来计算时空框架内通过时间累积的个体视差图。此外，进行最后仔细的手动清洁以去除异常值/伪影并确保高质量的差异标签。我们指出，对于某些非朗伯曲面，可能会提供多个深度地面实况：例如，对于透明曲面，我们可能会提供曲面本身的深度和透过曲面看到的物体的深度。然而，在我们的数据集中，我们只为最近的表面提供深度标签，从而使设计用于返回每个像素的单个深度预测的立体方法的评估和训练成为可能因此，我们的数据集主要解决处理自动驾驶、避障和机器人操作的场景，而不太适合AR和新颖视图合成等应用。本文的主要贡献是：我们提出了一种新的数据集，包括高分辨率以及不平衡的立体对具有大量的标记非朗伯对象。特别地，我们在不同的照明下总共获得了64个场景，产生了419个平衡的立体声对，12 Mpx和419个不平衡对，每个对包含12 Mpx和1.1Mpx图像。后一种设置提供了第一个用于不平衡立体匹配的数据集，因为先前的工作仅限于模拟实验[1，26]。在这两种设置中，样本都被标注了密集的地面实况差异，并被分组为228张训练图像和191张测试图像，基于新的深时空立体框架以半自动方式执行数据注释，这使得能够在众所周知的时空立体框架[10]内部署现代立体网络[25除了地面实况差异之外，我们还提供手动注释的分割图，这些分割图可以根据镜面反射和透明度对难以匹配的材料进行识别和排名。这有利于在分析最先进网络的可持续性时关注本文所讨论的开放性挑战。此外，我们还提供了一组额外的15K原始对，包括平衡和非平衡设置，以鼓励开发弱监督解决方案来应对立体声中的开放挑战。我们评估了突出的最先进的立体网络[5，9，49，55]，由他们的作者训练，对我们的数据集进行测试分割。实验结果突出了立体声社区需要面对的开放性挑战，并为未来可能的研究方向提供了提示我们的Benchmarko no笔挑战在stereo（助推器）可在https://cvlab-unibo.github.io/booster-web/上查阅。2. 相关工作我们简要回顾了与我们的工作相关的文献传统和深度立体声。多年来，大多数算法都是按照[36]中概述的通用流水线开发的，从匹配成本计算和连续优化策略开始。在关于传统算法的大量文献[11，12，20，52，53]中，半全局匹配（SGM）[18]是迄今为止最流行的。随着深度学习的出现，第一批研究工作集中在将传统管道的各个步骤[36]制定为可学习的神经网络，例如。匹配成本计算[8，27，54]，优化[40，41]和细化[1，3，17]。然后，端到端深度立体声网络迅速获得了主要阶段[22，28，30]，这要归功于KITTI 2012 [15]和2015 [29]基准测试中的领先地位。该研究方向产生了各种各样的深度立体架构[5，9，13，24，43，46，49，51，55]，如[32]中所述，以及对自我监督学习策略[2，23，31，44，45，48，57]，跨数据集的零拍摄生成[1，4，56]以及最近的不平衡立体设置[1，26]的研究。立体声基准。在立体视觉深入研究21170- -- -校准采集（不含GT）使用GT进行采集校正校正校正校正不平衡��L校准L转角L立体声L − C整流L−UndistortionRectifier L −Ω被动图像时空无失真深空超活动图像校正L −时间立体分辨率和��锐化不失真LRC和Rectify L −EQUIPMENT手动滤波被动图像校准工具不扭曲角点校准立体声L−整改L−UndistortionRectifier L −ΩUndistortionRectifierL−Ω翘曲深度图2.数据集采集概述。我们的数据集采集过程可以分为3个主要部分。左（蓝色）：我们的三目装置和两个立体声系统L C和LR的初始校准。中间（黄色）：无地面实况的图像采集。右（红色）：地面实况采集。L C R图3. 相机设置和采集阶段。在左边，我们展示了我们的相机装备，其中L和R是两个12 Mpx相机，C是一个广角2.3 Mpx相机。在右边：i）被动立体对的获取，ii）反射/透明表面的绘画，iii）纹理立体对的获取。数据集和基准的分析起着关键作用。在最初的几十年里，数据集仅限于几十个样本，这些样本是在受控环境中获得的，大多数是通过米德尔伯里基准测试提供的[19，35在20世纪10年代，出现了越来越多的立体数据集，从KITTI 2012 [ 16 ]和2015 [ 29 ]开始，在驾驶环境中收集并通过Velodyne LiDAR传感器进行注释，然后是Middlebury 2014 [ 34 ]，以高达6 Mpx的速度对室内环境进行取景并通过图案投影进行最近，其他处理驾驶场景的大型立体声基准测试已经发布，尽管还没有像KITTI那样成熟。我曾为他们做过一件事，那就是：“我是一个爱你的人，我是一个爱你的人。然而，这些最近的立体数据集都没有事实上，排名在KITTI之上的架构在上述数据集上也表现得非常好。相反，我们表明，最先进的网络在助推器上挣扎3. 处理流水线摄像机设置和校准。为了收集我们的数据集，我们构建了一个由2台高分辨率相机组成的自定义立体装置，该相机采用Sony IMX 253 LQR-C 12.4 Mpx传感器和配备Sony IMX253 LQR-C 12.4 Mpx传感器的低分辨率相机。IMX 174 LQJ-C 2.3 Mpx传感器之间安装的前- mer两个，如图所示3（左图）。从左到右，我们将三个摄像机表示为L、C和R，其中L提供平衡（L，R）和不平衡（L，C）立体对的参考图像，以及这些立体对的基线两种设置分别为108厘米和4厘米在获取数据集之前，我们需要校准我们的装备，特别是两个立体声系统LC和LR.图2包括校准过程的概述，补充中提供了更详细的描述。图像采集。我们的三目钻机已被嵌入到一个便携式设置，以获得不同环境中的各种场景。此外，我们的设置包括六个便携式投影仪，用于在获取具有地面实况的立体声对期间用随机纹理丰富场景（图2的红色块）。对于每个地面实况采集，在开始之前，我们适当地设置舞台，以便捕获一个或多个物体/表面，其体现了我们的数据集特别解决的一些开放挑战。然后，图像采集流水线遵循三个主要步骤，在图3（右图）中视觉上恢复：i）被动图像采集ii）场景绘制iii）纹理图像获取-与通常用于此目的的黑白带状图案[10]不同，我们投影颜色纹理，因为我们利用最先进的深度立体网络来标记场景。我们根据经验观察到，深度立体网络的颜色模式更有特色，用于处理经过训练的合成数据集[28]中典型的明亮颜色。该过程的结果包括一组具有不同照明条件的被动立体对（21171Σ不×b1b2深度时空立体处理。一旦为场景获取了一组多个高分辨率立体对-有目的地，我们利用预先训练的深度立体声网络实现了高的零拍摄泛化精度。我们期望，在我们如前所述在场景中投影的独特的彩色纹理存在的情况下，深度网络可以正确地推断出可靠的视差图。此外，我们利用多个立体声对的可用性，以进一步改善结果。在观察到大多数立体声网络处理成本-体积的驱动下，我们将从每个纹理化的单个立体声对计算的所有成本体积累积成聚集的一个。所产生的体积将减少由于场景的部分可能在单次采集中未正确纹理化而导致的噪声影响。我们特意选择RAFT-Stereo [25]作为撰写本文时Middle-bury 2014立体声基准具体地，它使用点积作为分别从参考图像和目标图像提取的特征f和g之间的视觉相似性因此，RAFT-Stereo计算相关体积，该相关体积存储参考图像中的任何像素特征与目标图像上相同y坐标处的所有像素特征之间的内积：Cijk=fijk·g，C ∈RH×W×W（1）H一旦估计了视差图dt，我们最终计算它们的平均值以获得初始的、真实的视差图dt以及通过它们的方差的不确定性猜测ut到目前为止，绘制的管道在估计准确的地面实况时是有效的，分辨率高达我们纹理图像的一半，即。大约6 Mpx，因为RAFT-Stereo从未观察到如此高分辨率和如此高视差范围的样本。因此，我们的深度时空立体管道的结果是一组精确的视差图，但需要额外的处理。超分辨率和锐化。到目前为止产生的视差标签的质量受到两个主要原因的抑制，i）分辨率，是真实图像分辨率的一半，以及ii）过度平滑深度不连续性的存在，这是深度网络预测的视差图中的常见问题[7，47]。为了同时解决这两个问题，我们部署了[1]中提出的神经视差细化架构然而，与现有数据集相比，我们的图像分辨率要高得多，我们按照[1]预训练细化网络，然后在每个场景上过拟合它的单个实例，假设视差图既是输入又是地面实况。这种策略使我们能够在高分辨率下保持准确的视差值，同时由于网络输出公式化而锐化深度边界此外，我们用Tosi等人提出的SMD头代替了[1]中描述的亚像素预测机制。[47]，因为我们根据经验观察到前者在我们的环境中引入了不期望的伪影。因此，每个神经视差细化网络被优化以推断出对应的视差。双峰拉普拉斯分布然后，该网络通过相关查找机制递归地估计视差图di，该相关查找机制被实现为递归神经网络Θ处理参考图像πp（d）=2b1e−d<$−µ1+1−πe−d<$−µ22B2（五）特征f、一些附加上下文特征c、在前一次迭代中估计的视差di=Θ（f，c，di−1，C）（2）直到在固定次数的迭代之后估计出最终的视差图D我们利用T个立体声对的可用性，并通过对从单个立体声对t中提取的ft和gt计算的相关体积求平均来构建累积相关体积CC∈RH×W×W（3）一旦网络被训练，通过利用由细化网络实现的连续表示，选择具有最高密度值的模式，以全分辨率获得锐化的视差图数据关于实现，遵循 [1] 中的指南在SceneFlow上预训练共享细化网络然后，在推断细化的视差图之前，在每个场景上过拟合单个实例约300步。手动清洁和过滤。一旦获得了全分辨率视差图，我们就手动将其从任何剩余的伪影中清除。为此，我们将其投影到3D点云中，以更好地可视化场景几何中的结构错误在此操作期间，我们使用方差图作为ijk蒂伊克thikh文物从点云中移除的点然后也从视差图中过滤掉。最后，我们应用然后，我们利用这个丰富的体积来估计一组来自任何给定立体对的一个35 ×35的双边滤波器-σ color = 5和σ dist = 50 -来平滑物体表面并获得最终的地图数据。图4示出了到目前为止描述的流水线，示出了dt=Θ（ft，ct，dt，C）（4）我们的3D重建质量不断提高i i−121172−−RGB Mask Raft Passive Raft时空SR锐化手动过滤图4. 数据注释管道。从左至右：参考图像（上）和材料分割掩模（下），视差图（上）和点云（下），通过RAFT-Stereo在被动对上获得，通过我们的深度时空立体算法，通过超分辨率&锐化过程，并在手动清理后。每一步之后的注解。准确性评估。我们遵循Scharstein等人使用的策略。[34]在Middlebury 2014数据集中测量我们地面实况注释的准确性。相应地，我们从图像中手动选择平面区域，并在每个平面上对恢复的视差拟合一个平面，然后我们测量拟合的平面方程与实际视差之间的残差。我们在153个平面区域上执行该评估，实现了0.053的平均残差，这与Middlebury 2014数据集（0.032）报告的残差相当，但没有应用基于平面拟合的显式子像素细化。左右一致性（平衡设置）。我们还通过执行左右一致性检查来过滤被遮挡的像素。有目的地，到目前为止描述的处理流水线针对每个场景被执行两次，分别针对左图像和右图像产生两个视差图，d和d平衡设置不平衡设置照明图5. 一个场景从助推器测试分裂。前两列：在平衡设置中可用的数据（12 Mpx立体对，材质分割掩码，左右视差图和左右一致性掩码）。第三列：处理不平衡设置的数据（12Mpx-1.1 Mpx图像对，与12 Mpx图像相关联的高分辨率视差图）。最后一列：在不同照明下采集的额外12 Mpx图像。L R然后，如果与其匹配x−dL（x，y），y在dR中的绝对差小于阈值（在我们的情况下设置为2pixels），则在dL中的坐标（x，y）处的nypixel被过滤掉|>2（6）在数据库的顶部执行相同的程序，移除|> 2(6)The same procedure is performed on top of d∗, removing到目前为止所获得的图像与LR的图像对齐。然而，我们也希望地面实况的不平衡L C立体声系统。作为整流变换，只有内在参数的变化和旋转），我们可以很容易地执行向后翘曲的坐标（x，y）处的任何像素R与像素L-R的左图像的地面实况，以将它们对齐到左为L-C的图像。当扭曲视差图时，（x+d<$R（x，y），y）。我们的整体注释管道的输出由每个场景的三个高分辨率地面实况视差图组成：两个用于平衡设置的左右图像，一个用于不平衡设置。分割掩码。最后，我们手动标记图像注释具有挑战性的表面，即。透明或镜面反射，带有分割遮罩。我们把物体表面按层次分成4类（从0到3透明性和/或镜面反射性，等级0表示非常不透明的材料（例如，木制桌子）和3类高度透明/镜面反射的桌子（例如，窗玻璃/镜子）。分割掩模的示例如图所示。4.第一章翘曲（不平衡设置）。事实真相，在执行扭曲之前，我们考虑相机参考系的旋转和两个立体系统的不同基线。有关整经程序的更多详细信息，请参阅补充资料。4. 助推器数据集混合物. 为了建立数据集，我们在64个不同的室内场景中设置了舞台。然后，我们收集了不同照明条件下的各种被动立体图像，总共得到419个立体样本，我们通过第2节中详细介绍的管道获得了密集注释3 .第三章。我们将64个场景分成38个和26个，分别用于训练因此，助推器计数21173228张训练图像和191张测试图像。在定义分离时，我们旨在使训练和测试场景之间的环境多样化，以及实现具有挑战性的物体和材料的平衡分布（例如，两个分割都包含一个场景，该场景构成一个镜子的框架）。两个主要的基准定义在助推器：平衡的基准，包括419立体声对在12 Mpx，和不平衡的一个，具有同样多的12 Mpx-1.1 Mpx对。后者代表了用于不平衡立体匹配的第一个真实数据集，到目前为止，仅通过模拟平衡对相同分辨率立体图像的两个图像中的一个来模拟不平衡设置来研究这项任务[1，26]。有关数据集图像的更多详细信息，请参见补充报告。图图5涉及来自测试分割的样本，并示出了可用于任何采集场景的数据。未标记样品。鼓励弱监督方法的研究，即.在训练时不需要地面实况实验室，我们在平衡和不平衡设置下额外收集了15K个样本，各种室内和室外环境。评估指标。为了评估立体声算法和网络的准确性，我们采用了一组受Middlebury 2014启发的指标[34]。具体地，我们计算具有大于阈值τ（bad-τ）的误差的像素的量。由于最初我们的地面实况地图是以输入分辨率的一半推断的，因此我们假设2个像素作为最低阈值。然后，考虑到我们图像的分辨率要高得多，我们计算的错误率高达bad-8。我们还测量了平均绝对误差（MAE）和均方根误差（RMSE）。所有度量都是在任何有效像素（All）上计算的，或者在属于材质类i（Classi）的像素上计算的，以评估非朗伯对象的影响。在平衡设置的情况下，我们还评估通过我们的注释管道的左右检查识别的未被遮挡的像素（例如，在图的第三列的底部图像。（五）。5. 实验5.1. 平衡立体声基准我们首先考虑Booster的平衡分割，并进行一组不同的实验。现成的深层网络。我们在Booster的测试集上运行了一组现成的、最先进的深度立体声网络，以评估它们的准确性。我们选择了具有免费实现和预训练权值的网络，这些网络在Middle- bury 2014数据集上提供了良好的性能，即是现有基准中最具挑战性该约束将我们的选择限制为 HSM-Net [49] LEASeroes [9] ， CFNet[42]，RAFT-Stereo [25]和Neural Disparity Refinement[1]。作为参考，我们还评估了流行的半全局匹配算法（SGM）[18]和关键的MC-CNN网络[54]。因为内存的限制，选项卡. 1收集此评估的结果。在表格的顶部，我们将预测的视差图与全分辨率地面实况（ground truth）在All（左）和Cons（右）像素上进行比较，后者是在执行左右检查时结果一致的左图像的像素，并且因此被认为是未被遮挡的每种方法都以原始分辨率（F）或缩放到一半（H）或四分之一（Q）分辨率处理输入图像深度网络推理在单个3090 RTX GPU上执行。我们可以注意到大多数方法只能在Q分辨率下运行，主要是因为内存限制。因此，它们的输出使用最近邻插值进行上采样，以便执行与全分辨率地面实况地图的比较，其中视差由上采样因子本身缩放我们可以注意到所有的方法如何在如此高的分辨率下实现良好的效果，RAFT-Stereo实现了最好的效果-这并在All和Cons像素上计算的误差矩阵产生类似的分数，证明遮挡并不代表我们基准测试中的主要困难。在Tab的底部。1，将预测的视差与下采样到原始分辨率的四分之一（Q）的地面实况视差图进行比较。虽然误差指标通常要低得多，但我们指出它们与现有基准测试中观察到的误差指标仍然相差甚远[15，29，34，38]，这证实了分辨率在我们的基准测试中肯定是一个挑战，但不是唯一的挑战对具有挑战性的区域进行评估我们通过评估预测的差异在难度增加的区域中的准确性，深入挖掘Booster的独特功能，如通过材料分割掩模所定义的。有目的地，我们从以前的评估中选择性能最好的网络，即。RAFT立体，并评估它的像素子集定义我们手动注释的面具。选项卡. 2收集该评估的结果，与所有有效像素的结果一起作为参考。从最不具挑战性的类别开始，我们观察到更低的错误分数-特别是通过逐渐增加所考虑的像素的难度，我们目睹了一个大的错误增加这证实了我们对深度立体声中开放挑战的声明以及我们的分割掩模的重要性。通过Booster训练数据进行微调。最后，我们在Booster训练集上对RAFT-Stereo进行微调，以表明注释场景的可用性可以有效地改善本文所述我们在两个批次上运行100个epoch884×456作物，从随机调整大小的图像中提取，21174输入模型研究[18]第十八话[54]第五十四话美国[9][42]第四十二话HSMNet [49] Q[25]第二十五话[18]第十八话HSMNet [49] HSGM+神经参考[1] H[25]第二十五话HSMNet [49] F输入模型研究[18]第十八话[54]第五十四话美国[9][42]第四十二话HSMNet [49] Q[25]第二十五话所有像素不良-2（%）不良-4（%）不良-6（%）不良-8（%）Mae（px.）RMSE（px.）80.3566.8958.0952.2157.01119.2188.0966.3047.7740.5331.2362.9870.8655.4147.5642.2527.6151.7261.3448.3342.2238.3427.6051.6266.9548.0537.4631.1420.9742.7240.2727.5422.8320.1317.0836.3076.6164.7258.3454.3771.68133.3553.7536.4728.7124.5019.1742.0078.5463.2053.7746.8731.8267.0246.3135.4930.9828.1523.9549.9450.8536.5330.7727.5630.8268.97所有像素不良-2（%）不良-4（%）不良-6（%）不良-8（%）Mae（px.）RMSE（px.）52.7639.4333.1129.2614.6430.6840.3330.3625.6422.257.8215.8542.2130.2324.3720.436.8912.9238.3129.5324.7021.346.8912.8931.1120.2515.9213.235.2410.6720.1315.1312.8511.054.279.05缺点像素不良-2（%）不良-4（%）不良-6（%）不良-8（%）Mae（px.）RMSE（px.）78.4063.7054.1347.7941.2891.8687.6464.2044.2436.7027.5657.3469.1553.1745.4240.2426.3649.5259.1346.0240.0836.3625.7248.5565.2345.8635.3629.3120.9342.4238.6526.4922.2519.8417.1335.7674.1861.1754.2549.9955.25106.5551.2534.0626.7823.0118.9241.2878.3560.5949.5942.5030.9268.3744.0233.5929.4926.9523.2548.1148.1133.8828.5025.6130.0266.79缺点像素不良-2（%）不良-4（%）不良-6（%）不良-8（%）Mae（px.）RMSE（px.）48.4234.1827.5823.6310.7524.0536.5026.5021.8418.796.9014.4340.1928.6823.2119.506.5812.3636.3227.8523.2420.056.4212.1129.2519.4715.7013.235.2210.5919.8215.1912.9811.174.288.91表1.助推器平衡测试的结果。我们运行现成的立体声网络，使用作者提供的权重。我们在全分辨率地面实况地图上进行评估，或者通过将其降采样到四分之一分辨率。最好的分数用粗体表示。所有像素不良-2（%）不良-4（%）不良-6（%）不良-8（%）Mae（px.）RMSE（px.）38.6823.3317.6614.557.5617.3937.5020.4713.7510.404.4310.0742.4823.3516.1512.225.2412.0561.8442.3733.2327.3713.0818.0865.5948.7439.1932.9314.9121.75所有像素不良-2（%）不良-4（%）不良-6（%）不良-8（%）Mae（px.）RMSE（px.）14.469.477.325.761.874.2310.294.612.762.001.082.3312.096.354.623.581.282.8227.2216.8313.0610.653.254.4232.9121.0815.3610.463.705.32表2. 助推器平衡测试的结果-材料分割。我们运行RAFT-Stereo [25]，使用其作者提供的权重并处理四分之一分辨率图像。我们在全分辨率地面实况地图上进行评估，或者通过将其降采样到四分之一分辨率。原始分辨率的一半或四分之一，使用[25]中的优化过程，初始学习率设置为1 e-5。选项卡. 3收集所有像素以及每个分割类的结果。与Tab中的结果相比。2、所有误差指标趋于改善。更具体地说，我们可以注意到，对于最具挑战性的材料，这些指标确实有了显着的总的来说，我们认为，尽管我们的实验表明，注释数据的可用性可以帮助深度立体网络更好地处理镜面/透明对象，但与不透明表面相比，准确性水平仍然要差得多。因此，我们观察到，这些类型的材料提出了真正困难的立体开放的挑战，希望在未来的研究中也可以解决，这也要归功于Booster提供的注释数据的可用性在图6中，我们提供了一些定性的结果，这些结果处理了表1中评估的网络所获得的预测。1以及，在最右列，由RAFT-Stereo夸特水库全res.全res.夸特水库所有像素坏-2坏-4坏-6坏-8MaeRMSE类别（%）（%）（%）（%）（px.）（px.）类别所有40.2727.5422.8320.1317.0836.30es.所有0级32.8116.6711.117.923.729.38乌尔0级1类42.9527.4721.6018.2110.2019.96F1类2类73.5960.6951.0344.5136.6747.442类3类81.5471.9365.2259.6247.7359.383类所有像素坏-2坏-4坏-6坏-8MaeRMSE类别（%）（%）（%）（%）（px.）（px.）类别所有20.1315.1312.8511.054.279.05es.所有0级7.973.722.331.820.932.28特尔0级1类18.2211.227.846.682.554.97UAR1类2类44.4732.1427.9225.439.1711.88Q2类21175表3. 在对训练分割-材料分割进行微调后，Booster平衡测试分割的结果。我们运行RAFT-Stereo，在Booster训练分割上进行微调，处理四分之一分辨率的图像。我们在全分辨率地面实况地图上进行评估，或者通过将它们降采样到四分之一分辨率。在对Booster训练集进行微调后（Tab. （3）第三章。在对Booster训练分割进行微调后，RAFT-Stereo已经学会了更好地处理透明对象。5.2. 不平衡立体声基准在这里，我们评估所考虑的立体声方法的助推器不平衡测试分裂。选项卡. 4收集了本实验的结果。对于大多数方法，我们遵循[1]中定义的基线方法，并将参考高分辨率图像下采样为与第二图像相同的分辨率。然而，由于HSMNet旨在处理高分辨率立体对，因此对于该网络，我们将目标上采样到参考图像大小。我们指出，这些结果不能直接与表1中的结果进行比较。1，因为该设置中的基线长度（以及因此视差值）减半，因此使得匹配问题更容易（即，研究范围较小）。因此，由于误差大于平衡分割的误差，很明显，这种情况下的主要困难。此外，我们强调，SIM-21176††RGB>MC-CNN [54]LEASetro [9]CFNet [42]HSMNet [49]Neural Ref.[1] RAFT-Stereo [25] RAFT-Stereo（ft）[25]Input Res.Q Q Q H H Q图6. 增压器平衡测试拆分的定性结果。我们在最左边的列中显示了参考图像（顶部）和地面实况图（底部），然后是在我们的基准测试中评估的深度模型的视差图（顶部）和误差图（底部）所有像素[18]第十八话MC-CNN [54]LEASeroes [9]CFNet [42]HSMNet [49]SGM+神经参考[1]第一章[25]第二十五话[25]第25话表4. 助推器不平衡测试结果分裂。我们运行立体网络，使用作者提供的权重。我们评估全分辨率地面实况地图。表示图像大小调整为参考分辨率的一半（约6 Mpx）。(ft)表示对Booster Unbalanced训练分割进行了微调。与Balanced设置类似，通过在Unbalanced训练分割上微调RAFT-Stereo，我们可以在几乎所有指标上提高其性能。因此，对立体的未来研究可以利用以下发现：最先进的深度模型具有即使在不平衡设置中也能更好地学习匹配特殊/透明表面的潜力，当使用仔细注释的数据进行适当微调时。5.3. 单目深度估计我们认为，大多数困难的表面特征的助推器提出了开放的挑战，以解决在未来的研究也为其他基于图像的深度估计方法，如，特别是，单目深度估计。因此，作为一个侧面实验，我们对数据集中的图像运行DPT [33]-一种图7显示了一些定性示例，突出显示了尺度对齐的DPT预测在透明表面上是如何非常不准确的。6. 结论、局限性和未来工作在本文中，我们介绍了 stereo （ Booster ）中的Benchmarko nopen挑战，这是一个新的立体数据集，收集了419幅图像-在平衡和非平衡设置中获得-具有极具挑战性的它带有密集和准确的地面实况差异，通过一个新的深度图7. 单目深度估计的定性结果。从左到右：参考图像，DPT的深度图预测[33]，地面实况深度图，误差图。空间-时间立体流水线，以及手动注释的材料分割掩模。与最近针对自主/辅助驾驶的立体数据集（如DrivingStereo [50]）相比，Booster包含的注释图像数量要少得多，因此不能被视为大规模数据集。此外，用于注释的深空时流水线和小基线将所收集的场景约束为框定室内环境。我们的实验表明，助推器揭示了一些最有趣的挑战，在深立体声，并提供了有前途的研究方向的提示。特别地，由Booster促进的后续工作可以致力于i）研究在Booster上适当微调的深度模型的能力，以推广到以类似困难表面和材料为特征的户外设置，ii）设计流水线，例如，利用激光雷达传感器，以收集也在户外设置中的透明/镜面表面的iii) 构建大规模的合成数据集，专门解决Booster强调的开放性挑战，以实现更有效的预训练，以及iv）通过连续的深度层构建和扫描场景，以收集透明/反射对象处的多个深度，这对于增强现实等应用非常有用。因此，我们相信Booster具有推动深度立体声未来研究的潜力。鸣谢。我们非常感谢华为技术有限公司（芬兰）的资金支持。†不良-2（%）不良-4（%）不良-6（%）不良-8（%）Mae（px.）RMSE（px.）78.4762.7452.6245.9742.6397.6286.3068.6754.2044.7823.6445.4674.3157.7047.1139.8817.6831.2970.2253.2043.6137.1016.1928.7863.2043.2232.8726.5511.9622.8270.9052.1541.7135.4024.2752.5221177引用[1] Filippo Aleotti，Fabio Tosi，Pierluigi Zama Ramirez，Matteo Poggi ， Samuele Salti ， Luigi Di Stefano ， andStefano Mattoccia.任意分辨率立体的神经视差细化。在2021年的3D视觉国际会议上。3DV。二四六七八[2] 菲利波·阿莱奥蒂，法比奥·托西，张莉，马特奥·波吉和圣法诺·马托西亚.逆转循环：通过增强的单眼蒸馏实现自我监督的深度立体声。第16届欧洲计算机视觉会议（ECCV）。Springer，2020年。2[3] 康斯坦丁诺斯·巴索斯和菲利波斯·莫多海Recresnet：一种用于视差图增强的递归残差cnn结构。在3D视觉国际会议（3DV），2018年。2[4] 蔡长江，马特奥·波吉，斯特凡诺·马托西亚，菲利普·莫多海。用于跨域推广的匹配空间立体网络。在2020年国际3D视觉会议（3DV），第364-373页，2020年。2[5] 张嘉仁和陈永生。金字塔立体匹配网络。在IEEE/CVF计算机视觉和模式识别会议（CVPR），第5410-5418页，2018年。2[6] Ming-FangChang ， JohnWLambert ， PatsornSangkloy ， Jag-jeet Singh ， Slawomir Bak ， AndrewHartnett，De Wang，Peter Carr，Simon Lucey，DevaRamanan，and James Hays.Argov- erse：3d跟踪和预测与丰富的地图。在计算机视觉和模式识别（CVPR）会议上，2019年。3[7] 陈创荣，陈小志，程辉。基于cnn的视差估计的过平滑问题研究。在IEEE/CVF计算机视觉国际会议论文集，第8997-9005页，2019年。4[8] Zhuoyuan Chen，Xun Sun，Lia

下载后可阅读完整内容，剩余1页未读，立即下载