深度估计：基于双目立体视觉和单目结构光的新颖立体视觉系统

169 浏览量更新于2023-10-25 收藏 19.52MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

the structured-light system, and it can also work in outdoorenvironment with strong sunlight, but it is easily affectedby the surface texture of the objects. In recent years, stereomatching methods based on deep learning have achievedremarkable progress. However, these methods may still failon scenes with weak texture (e.g., white walls). And thiskind of weak texture objects are very common in indoorenvironment. The binocular active structured-light system(e.g., Intel D435 [14]) relies on two IR cameras and an IRprojector for depth estimation, which has good adaptabilityin both indoor and outdoor situations. To acquire texture, athird camera (i.e. RGB camera) is required. Since there isa baseline between the RGB camera and IR camera, a coor-dinate system conversion step is required to make the depthimage aligned with the RGB image. Due to the noise ofthe depth map and the error of the calibration parameters,it is difficult to accurately align the RGB image and depthmap. In terms of hardware, three cameras and one projectorare required, which is not compact. TOF has poor adapt-ability to objects with low reflectivity and distant objects.In addition, TOF suffers from multipath interference [30].The monocular depth estimation methods cannot obtain thedepth maps with a certain scale [11].In this work, we seek a compact depth sensing solu-tion that can integrate the advantages of the monocularstructured-light and binocular stereo vision.The main contributions of this work are:(1) We propose a novel stereo vision system, which con-sists of an RGB camera, an IR camera and an IR speckleprojector. Especially, the IR camera is not attached with afilter. Thus the IR camera can receive IR light (invisible tohuman eyes) and ambient light (visible to human eyes) si-multaneously. The IR camera and IR projector can form amonocular active structured-light system as Kinect, whilethe IR camera and the RGB camera can form a binocularstereo system. These two types of stereo systems have com-plementary advantages. We can obtain a robust stereo sys-tem by fusing the initial depth map obtained by the activestructured-light system in the cost volume of stereo match-ing network.17460通过结合双目立体视觉和单目结构光进行深度估计0徐玉华1,2,*，杨晓丽2，于玉山2，贾伟1，褚兆碧1，郭玉兰301 合肥工业大学，2 Orbbec，3 中山大学0xyh nudt@163.com0摘要0众所周知，被动立体视觉系统对于弱纹理物体（例如白色墙壁）适应性不强。然而，这些弱纹理目标在室内环境中非常常见。本文提出了一种新颖的立体视觉系统，由两个摄像头（一个RGB摄像头和一个红外摄像头）和一个红外散斑投影仪组成。RGB摄像头既用于深度估计又用于纹理获取。红外摄像头和散斑投影仪可以形成一个单目结构光子系统，而两个摄像头可以形成一个双目立体子系统。单目结构光子系统生成的深度图可以为立体匹配网络提供外部指导，从而可以显著提高匹配精度。为了验证所提出系统的有效性，我们建立了一个原型并在室内场景中收集了一个测试数据集。评估结果表明，当使用RAFT网络时，所提出系统的Bad2.0误差仅为被动立体视觉系统的28.2%。数据集和训练模型可在https://github.com/YuhuaXu/MonoStereoFusion获得。01. 引言0深度估计是计算机视觉中的一个基本问题，在3D建模、机器人、无人机、增强现实（AR）和自动驾驶等领域有着广泛的应用[1, 10,31]。深度估计方法可以分为主动结构光、双目立体视觉、飞行时间（TOF）和单目深度估计。自2010年微软Kinect发布以来，消费级深度传感器已被广泛使用。Kinect基于单目结构光方法，该方法也被2017年发布的iPhoneX所采用。然而，它可能无法获取远距离物体或强光下的室外场景的深度测量。双目立体视觉系统的测量范围比结构光系统更大，并且可以在强光照环境下工作，但容易受到物体表面纹理的影响。近年来，基于深度学习的立体匹配方法取得了显著进展。然而，这些方法在弱纹理场景（例如白色墙壁）上仍然可能失败。而这种弱纹理物体在室内环境中非常常见。双目主动结构光系统（例如Intel D435[14]）依靠两个红外摄像头和一个红外投影仪进行深度估计，在室内和室外环境中具有良好的适应性。为了获取纹理，需要第三个摄像头（即RGB摄像头）。由于RGB摄像头和红外摄像头之间存在基线，因此需要进行坐标系转换步骤，以使深度图与RGB图像对齐。由于深度图的噪声和校准参数的误差，准确对齐RGB图像和深度图是困难的。在硬件方面，需要三个摄像头和一个投影仪，这不够紧凑。TOF对于反射率低的物体和远距离物体适应性差。此外，TOF还会受到多径干扰的影响[30]。单目深度估计方法无法获得具有一定比例的深度图[11]。在这项工作中，我们寻求一种紧凑的深度感知解决方案，可以整合单目结构光和双目立体视觉的优势。本文的主要贡献如下：（1）我们提出了一种新颖的立体视觉系统，由一个RGB摄像头、一个红外摄像头和一个红外散斑投影仪组成。特别是，红外摄像头没有附加滤光片。因此，红外摄像头可以同时接收红外光（对人眼不可见）和环境光（对人眼可见）。红外摄像头和红外投影仪可以形成一个类似Kinect的单目主动结构光系统，而红外摄像头和RGB摄像头可以形成一个双目立体系统。这两种类型的立体系统具有互补的优势。通过在立体匹配网络的代价体积中融合主动结构光系统获得的初始深度图，我们可以获得一个稳健的立体系统。0* 通讯作者17470（2）我们建立了一个原型系统，并收集了一个新的立体数据集，用于将单眼结构光和双目立体视觉（即MonoBinoStereo）集成以验证所提出方法的有效性。该数据集将开放供进一步研究。（3）我们发现DNN可以准确地估计一对非对称立体图像的视差图，其中一个是被动的，另一个是主动的（带有斑点）。据我们所知，这是首次使用DNN处理具有非对称纹理的此类立体图像。所提出的立体系统的特点如下：（1）与经典的双目立体视觉相比，在室内环境中，它对弱纹理物体和丰富纹理物体同时具有鲁棒性。（2）与现有的单眼结构光系统（例如Kinect [48]和Astra[24]）相比，它具有更大的测距范围和更好的室外性能。（3）与现有的主动深度感知系统（例如Kinect和IntelD435）相比，其输出深度图具有更好的完整性。此外，深度图与RGB图像逐像素自然对齐。这个特点使我们的相机在某些应用中具有显著的优势，例如物体分割。（4）对于强阳光的干扰，在室外环境中，它将退化为普通的被动立体系统。02. 相关工作0Zbontar等人[44]首次使用卷积神经网络（CNN）比较两个图像块（例如9×9或11×11）并计算它们的匹配成本。随后的步骤，如成本聚合、视差计算和视差细化，仍然是传统方法[23]。这种方法（即MC-CNN）显著提高了准确性，但在无纹理、反射和遮挡区域仍然难以产生准确的视差结果，并且耗时。DispNetC[22]是第一个端到端的立体匹配网络，比MC-CNN-Acrt[44]快近1000倍。在DispNetC中，有一个显式的相关层。在传统的立体匹配方法中，通常有一个视差细化模块。受此启发，利用残差细化层进一步提高预测准确性[19, 20,25]。此外，将分割信息[42]和边缘信息[33]纳入立体匹配网络以提高性能。Wang等人[37,38]提出了一种通用的视差注意机制，用于捕捉不考虑视差变化的立体对应关系。光流和矫正立体是密切相关的问题。RAFT[35]使用基于门控循环单元（GRU）的运算符，使用从相关体中检索到的特征迭代更新光流场。0相关体积。RAFT表现出良好的泛化性能。GC-Net[16]首次使用3D卷积进行成本聚合，使用软argmin回归视差。Duggal等人[8]采用PatchMatch Stereo[2]的思想，构建一个薄的成本体以加速预测过程。类似的思想也在[12]中使用。方差-based不确定性估计用于自适应调整薄成本体的视差搜索空间[4, 32]。最近的工作[3,8]表明，3D卷积可以提高特定数据集上的匹配精度。然而，3D卷积比2D卷积更耗时，这使得在实时应用中难以应用。为了追求实时性能，StereoNet[17]在低分辨率（例如1/8分辨率）上进行3D卷积，然后逐层细化视差。得到的网络可以以60fps的实时速度运行。然而，这种简化降低了网络的准确性。Xu等人[40]设计了一个基于双边网格的边缘保持成本体上采样模块。通过上采样模块，可以高效地从低分辨率版本中获得高分辨率的高质量成本体。上采样模块可以嵌入到许多现有的立体匹配网络中，如GCNet [16]、PSMNet[3]和GANet[45]。得到的网络可以在保持可比准确性的同时加速几倍。HITNet[?]没有明确地构建体，而是依赖于快速的多分辨率初始化步骤、可微分的2D几何传播和变形机制来推断视差假设。为了实现高精度，该方法推断出倾斜平面假设，从而可以准确执行几何变形和上采样操作。为了减少计算负担，Yao等人[43]提出了一种分解模型，该模型在非常低的分辨率（例如20×36）上进行密集匹配，并在不同的较高分辨率上使用稀疏匹配来逐步恢复丢失细节的视差。ActiveStereoNet[47]是主动立体系统的第一个深度学习解决方案。由于缺乏地面真值，该网络被设计为完全自我监督。Riegler等人[29]展示了在单眼结构光系统中，一个简单的卷积架构就足以获得高质量的视差估计，而不是通过对应搜索问题来制定深度估计。我们的工作还与图像引导的深度补全相关，其任务是从稀疏的深度测量中估计密集的深度图。Ma等人[21]提出将稀疏深度和彩色图像的串联输入到编码器-解码器深度网络中。Jaritz等人[15]结合了语义分割来改进深度补全。Cheng等人[5]提出了一个卷积17480传统的深度完成方法通常使用空间传播网络（CSPN）来使用相邻深度值对深度完成结果进行后处理。然而，CSPN依赖于固定的局部邻居，这些邻居可能来自无关的物体。Park等人[26]提出了一种用于深度完成的非局部空间传播网络。该方法可以有效地避免无关的局部邻居，并在传播过程中集中于相关的非局部邻居。Qiu等人[28]学习了表面法线作为中间表示。Xu等人[41]在扩散模块中建模了深度和表面法线之间的几何约束，并预测了稀疏激光雷达测量的置信度以减轻噪声的影响。为了解决深度模糊的问题，Imran等人[13]提出了一种多假设深度表示，明确地对困难的遮挡边界区域中的前景和背景深度进行建模。与深度完成方法相比，我们的方法可以利用双目图像和单目结构光子系统的深度引导进行视差估计。当深度引导不可用时，仍然可以使用双目图像来估计目标的深度。双目图像可以形成比单个图像更强的约束。03. 系统03.1. 硬件0在本文中，我们设计了一种新颖的立体相机。如图1d所示，所提出的立体相机由一个RGB相机、一个红外相机和一个红外投影仪组成。它的布局类似于单目结构光系统（图1b），例如Kinect。然而，它与Kinect有很大的区别。在Kinect中，红外相机和红外投影仪用于深度估计。为了获得与RGB图像对齐的深度图，需要进行从红外相机坐标系到RGB相机坐标系的深度到颜色转换步骤。所提出的立体系统由两个子系统组成。首先，红外相机和红外投影仪形成一个主动单目结构光子系统。其次，红外相机和RGB相机形成一个双目立体子系统。单目结构光子系统对于弱纹理物体具有鲁棒性，而双目子系统具有重建远距离物体的能力，并且可以在室外环境中工作。因此，这两个子系统具有互补的优势。在下一小节中，我们将展示如何集成这两个子系统。03.2. 深度估计流程0如前所述，所提出的深度相机由两个子系统组成。输入包括一个RGB图像、一个红外图像和一个参考斑点图像。0图1. 各种深度相机的布局。(a) 双目立体相机 (例如，ZED[34])。(b) 单目结构光深度相机 (例如，Kinect [48])。(c)主动双目深度相机 (例如，Intel D435 [14])。(d)所提出的深度相机的设计。与(b)相比，所提出的深度相机中红外相机和RGB相机之间应该有足够的基线，因为这两个相机用于双目立体子系统。此外，红外相机和红外投影仪形成了单目结构光子系统。单目结构光子系统的深度图可以在立体匹配网络中提供外部引导。0参考图像在单目结构光子系统中预先存储并固定，如图2所示。首先，将当前目标的红外图像和参考斑点图像进行匹配，然后得到视差图dm。利用单目结构光子系统的校准参数，可以得到深度图Zm，并将其重新投影到RGB相机坐标系。我们用Z′m表示与RGB图像对齐的深度图，用d′m表示相应的视差图。然后，将RGB图像、红外图像和视差图d′m输入到立体匹配网络中，估计最终的视差图。流程如图2所示。03.3. 单目结构光0与双目立体系统不同，单目结构光系统中用投影仪替代了相机，如图3所示。深度估计过程类似于Kinect [9,36]。将目标的当前斑点图像与参考图像进行匹配，参考图像是在相机光轴垂直于已知距离Zref的平面目标时捕获的斑点图像。为了消除两个待匹配图像的不同亮度对匹配结果的影响，我们按照[36]中的方法将这些图像转换为二值图像。然后，使用高效的块匹配算法计算两个二值图像之间的对应关系，以获得视差图dm。匹配窗口大小设置为21×21。有了视差图，我们可以通过以下方式获得深度图Zm0Zm = Zref0Bmfm (1)Figure 2. Pipeline of the proposed depth estimation method. First, the initial depth map is obtained with the monocular structured-light(MSL) subsystem by matching the IR image and the pre-stored reference image. Then, the IR and RGB image pairs are fed to the stereomatching network to extract features and build a cost volume. The information of the active monocular subsystem is integrated in the costvolume as done in GSM [27] to obtain high quality disparity map.17490其中Bm是基线，fm是单目结构光系统的焦距。通过相机的校准参数，我们可以将深度图Zm转换到RGB相机的图像平面上，并获得与RGB图像对齐的深度图Z'm。接下来，我们可以通过以下方式获得双目立体系统中的对应视差图0图3.单目结构光系统的原理。深度的变化将导致斑点在水平方向上的移动。0d = Bff (3)0d'm = Bf/Z'm (2)0其中B是基线，f是双目系统的焦距。03.4. 立体匹配网络和融合策略0请注意，这里的红外相机没有像Kinect那样的窄带滤波器。因此，红外相机可以接收主动斑点光和环境光。因此，两个相机的图像在室内环境中在外观上非常不同，如图2所示。似乎很难匹配这种图像。幸运的是，我们发现可以使用深度神经网络（DNN）获得准确的匹配结果。为了验证DNN对具有不对称纹理的这种立体图像的适应性，我们首先修改了Flyingth- ings3D[22]的训练数据集和测试数据集。在修改后的数据集中，左图像保持不变，而在右图像中添加了数以万计的随机斑点，如图4所示。因此，修改后的数据集中的立体图像具有不对称纹理。斑点的亮度根据这些点到相机的距离逐渐减小，以模拟光能的能量衰减。然后，我们使用原始和修改后的训练数据集来训练两个立体匹配网络，包括PSMNet [3]和RAFT[35]。RAFT在光流估计任务中显示出良好的泛化能力，该任务要求同时估计X和Y方向上的位移。在这里，我们对其进行了小的修改，仅估计X方向上的位移。表1表明这些网络具有良好的适应性。fGSM(x, y, d) = λ · e− (d−2C(x, y, d) =17500能够处理具有不对称纹理的立体图像的能力（更多细节请参见第4.3节）。图4显示了定性结果。尽管主动结构光系统的深度图中通常存在许多无效值（图2），但深度值相对可靠。因此，有效的深度值可以用作立体匹配网络的指导。立体匹配网络中的代价体积由具有几何和上下文信息的特征组成，允许后续卷积回归视差概率[3, 16,19]。为了整合单目结构光系统的优势，我们根据视差图d'm对代价体积进行修改，就像引导立体匹配（GSM）[27]中所做的那样，它使得与稀疏提示提供的假设相关的相关性得分或特征激活达到峰值，并减弱其余部分。具体而言，令g是一个大小为w×h的矩阵，传递外部提供的视差值，v是一个二进制掩码，指定g的哪些元素是有效的（即，如果vxy=1）。代价体积表示为C∈Rw×h×Dmax×F，其中Dmax是最大视差，F是特征数量。给定像素坐标（x，y）和外部线索g（x，y）的视差值g，GSM应用高斯函数02 σ 2 (3)0在代价体素的特征 C ( x, y, d )上进行操作，得到一个新的代价体素 C ′。0C ′ ( x, y, d ) = (1 − v xy + v xy ∙ f GSM ( x, y, d )) ∙ C( x, y, d ) (4) 其中，σ 决定了高斯函数的宽度，λ表示其最大幅值，应大于等于1。对于RAFT，代价体素中的相关值被归一化到 [0, 1]，以避免出现峰值负相关。02( || F l ( x, y ) || + ϵ )( || F r ( x − d, y ) ||0（5）其中，F l 和 F r 是从左右图像提取的特征，d表示视差，ϵ 是一个小常数。在本文中，视差图 d ′ m被作为立体匹配网络的外部引导。04. 实验04.1. 原型0为了验证所提出系统的有效性，我们构建了一个原型系统，如图5所示。该系统包括两个同步的CMOS相机和一个红外散斑投影仪。两个相机的焦距为4.0mm，分辨率为1280×960。最大帧率为每秒30帧。立体子系统的基线为94.14mm，单目结构光系统的基线为63.0mm。基于衍射光学元件（DOE）的投影仪可以在场景上投射约11,000个散斑点。定制的红外投影仪的波长为940nm。这种投影仪非常便宜（不到3美元）。我们在距离为80cm的白墙上捕获了一张散斑图像作为参考图像，当相机的光轴垂直于白墙时。RGB相机有一个红外切割滤光片，红外相机没有滤光片。0方法 EPE（原始）0EPE（修改后）0PSMNet-O [ 3 ] 0.895 3.9220PSMNet-M 1.212 0.9550PSMNet-OM 0.925 0.9840PSMNet-OM-G 0.666 0.6860RAFT-O [ 35 ] 0.985 1.9100RAFT-M 1.070 1.0920RAFT-OM 1.026 1.1090RAFT-OM-G 0.751 0.7710表1.在原始SceneFlow数据集和修改后的SceneFlow数据集上对网络的评估。我们使用后缀O、M和OM分别表示使用原始Flyingthings3D数据集、修改后的Flyingthings3D数据集和两个数据集的混合训练的模型。后缀G表示网络使用了引导。0mm，分辨率为1280×960。最大帧率为每秒30帧。立体子系统的基线为94.14mm，单目结构光系统的基线为63.0mm。基于衍射光学元件（DOE）的投影仪可以在场景上投射约11,000个散斑点。定制的红外投影仪的波长为940nm。这种投影仪非常便宜（不到3美元）。我们在距离为80cm的白墙上捕获了一张散斑图像作为参考图像，当相机的光轴垂直于白墙时。RGB相机有一个红外切割滤光片，红外相机没有滤光片。04.2. 数据集和评估指标0合成数据集。合成的SceneFlow [ 22]立体数据集包括Flyingthings3D、Driving和Monkaa。该数据集包含35,454张训练图像和4,370张测试图像，大小为960×540，并带有准确的视差地图。我们将使用Flyingthings3D来研究立体匹配网络。端点误差（EPE）将作为评估指标。真实场景数据集。为了评估所提出系统的性能，我们在室内环境中收集了一个数据集（即MonoBi-noStereo），涵盖了不同的室内场景，包括办公室、客厅和卧室。立体图像对很容易获取。然而，对于立体图像对来说，获取相应的视差地图并不容易。在这里，我们选择使用时空立体方法[ 7 , 46 ]获取地面真实视差，就像[ 6]中所做的那样。每个场景捕获了200对立体图像。在图像捕获过程中，投射了成千上万个移动散斑。因此，每帧中的散斑分布是不同的。通过整合所有的散斑图像，估计出了地面真实视差图。17510左右 RAFT-O RAFT-OM0GT0图4. 在SceneFlow数据集上的评估。0方法打开投影仪关闭投影仪0EPE Bad0.5 (%) Bad1.0 (%) Bad2.0 (%) EPE Bad0.5 (%) Bad1.0 (%) Bad2.0 (%)0PSMNet-O [3] 9.007 70.51 55.66 41.79 2.112 52.54 33.85 20.420PSMNet-OM 2.687 57.35 39.28 24.81 1.871 51.70 33.16 19.890PSMNet-OM-G 0.814 45.63 15.73 3.81 2.018 52.02 32.67 18.330RAFT-O [35] 2.498 57.83 37.70 21.88 1.183 46.43 26.07 12.710RAFT-OM 1.370 49.23 29.31 14.60 1.239 44.21 23.18 11.720RAFT-OM-G 0.811 45.13 16.08 3.59 1.103 44.75 23.71 10.510MSG [18] 3.092 58.85 30.32 14.25 - - - -0表2.实际场景数据集上的定量评估。后缀G表示在网络模型的训练中使用了引导。请注意，当投影仪打开时，使用MSL的深度作为带有后缀G的模型中的引导。当DOE投影仪关闭时（即左右图像都是被动的），引导不可用且不用于网络预测。0图5. 所提出深度相机的原型。0200对图像。还应用了亚像素细化和左右检查（LRC）。MonoBinoStereo数据集总共包括15个场景。样本如图6所示。对于每个场景，我们收集了两个立体对，其中左图像始终是被动的，而右侧摄像机的一个图像是被动的（关闭投影仪），另一个图像是主动的（打开投影仪）。然而，我们缺乏真实室内场景的大型训练数据集。合成的IRS数据集[39]与真实场景非常接近。它包含超过100,000对960×540分辨率的室内场景立体图像（84,946用于训练，15,079用于测试）。我们使用IRS数据集作为对MonoBinoStereo数据集进行评估的训练数据集。网络训练的详细信息见文中。0见补充材料。04.3. 定量评估0我们首先在SceneFlow数据集上评估了所提出的方法。我们分别使用原始Flyingthings3D数据集和修改后的Flyingthings3D数据集训练了PSMNet [3]和RAFT[35]。我们使用后缀O、M和OM（例如，PSMNet-O）来表示使用原始Flyingthings3D数据集、修改后的Flyingthings3D数据集和两个数据集的混合训练的模型。表1报告了端点误差（EPE）的结果。当使用原始数据集训练模型时，修改后的测试数据集上的EPE较大。例如，PSMNet-O在修改后的测试数据集上的EPE为3.922。当使用修改后的训练数据集时，生成的模型（PSMNet-M）的EPE减小到0.955。然而，原始测试数据集的EPE从0.895增加到1.212。当同时使用两个训练数据集时，生成的模型（PSMNet-OM）可以平衡两个测试数据集。此外，如果有外部引导可用，我们可以使用GSM[27]中的策略进一步改善结果。生成的方法用后缀G表示，例如，PSMNet-OM-G。当使用地面实况深度图的5%像素作为外部引导时，修改后的测试数据集上的EPE从0.984降低到0.686。RAFT的结果类似。定性结果如图4所示。17520图6.实际数据集上的比较。第一行显示左图像（在网络预测之前，RGB图像被转换为灰度图像）。第二行显示带有斑点的右图像（被动右图像未显示），第三行是使用时空立体方法[7,46]生成的地面实况视差图，第四行显示使用MSL子系统生成的深度图像，第五行显示被动立体图像的RAFT-O视差图，最后一行显示RAFT-OM-G的视差图，其中左图像是被动的，右图像带有斑点。在第5行和第6行中，每个视差图都显示了Bad2.0误差。相应的误差图在补充材料中显示。0为了进一步验证所提出方法的有效性，我们在收集的真实场景数据集MonoBinoStereo上评估了模型。模型是通过混合Flyingthings3D和IRS数据集进行训练的。定量结果如表2所示。以RAFT为例。在真实测试数据集上，RAFT-O的Bad2.0误差高达21.88%，其中只使用原始数据集（Flyingthings3D和IRS）进行训练。当添加修改后的数据集时，得到的模型（RAFT-OM）的Bad 2.0误差降低到14.60%。0我们的系统可以利用单目结构光子系统的深度图作为立体匹配网络的外部引导。我们将d'm中的10%像素用作引导1。当使用这个引导时，Bad2.0误差降低到3.59%（RAFT-OM-G）。在表2中，还显示了不同模型在纯被动立体数据集上（见第4.2小节）的定量结果。请注意，被动模式的引导信息是01 由于RAFT的代价体积是以1/8的分辨率构建的，实际上只有d'm中的1/640像素用于引导。17530图7.定性比较。第一列显示RGB图像，第二列显示RAFT-OM-G的视差图，第三列显示Kinect的视差图。第一行是室内场景的结果，第二行是室外场景的结果。Kinect很难在户外输出稳定的深度图。为了保持匿名，脸部被遮盖。0图8. 与Intel RealSense D435[14]的定性比较。D435使用两个摄像头获取深度图像，并使用第三个摄像头进行纹理获取，其中遮挡是不可避免的。相比之下，我们的系统只使用两个摄像头就可以输出与RGB图像自然对齐的深度图像。为了保持匿名，脸部被遮盖。0不可用。我们在被动测试数据集上运行RAFT-O模型。Bad2.0误差为12.71%，是RAFT-OM-G的3.5倍。这表明所提出的方法可以显著提高立体匹配的准确性。RAFT-OM-G在被动数据集上的Bad2.0误差为10.51%（未使用引导），这表明RAFT-OM-G可以很好地推广到被动场景。定性结果如图6所示。表2还显示了RAFT在MonoBi-noStereo上的整体性能优于PSMNet。此外，我们还在MonoBinoStereo数据集上与深度补全方法MSG [18]进行了比较，其中d'm中的1%像素用作引导。结果如表2所示。MSG的Bad2.0误差为18.57%，远大于RAFT-OM-G。04.4. 定性评估0我们还在人群和户外场景中测试了所提出的系统，在这些场景中很难获得地面真实视差图。对于这些场景，我们提供了定性比较结果。在图7中，我们将所提出的系统与KinectV1在室内和室外场景中进行了比较。Kinect可以输出0在室内场景中，我们的系统可以实现密集的深度估计。然而，在室外场景中，深度图中的空洞更多，因为被投射的红外斑点受到阳光的干扰。然而，对于所提出的系统，它将退化为一种被动的双目立体系统，其中立体对仍然可以用于估计场景的密集深度图。我们还将我们的系统与Intel RealSenseD435 [14]进行了比较，结果如图8所示。04.5. 限制0在单目结构光系统中，需要一个已知深度Z ref的平面目标的参考图像。在捕捉参考图像时，我们假设相机的光轴垂直于平面目标，这在实践中很难保证。与双目立体系统相比，单目结构光系统更难校准。校准误差会导致RGB图像和深度图像Z'm的对齐误差，可能会在引导立体匹配网络中引起错误的引导。实验证明，增加引导点的数量并不能提高准确性（详见补充材料）。此外，如果从地面真值中采样相同数量的引导点，则RAFT-OM-G的Bad0.5、Bad1.0和Bad2.0误差分别降低到12.94、4.94和2.00。因此，将来我们将专注于单目结构光系统的精确校准方法，以进一步提高性能。05. 结论0在本文中，我们提出了一种新颖的立体系统。该系统包括一个单目结构光子系统和一个双目立体子系统。这两个子系统结合起来可以获得稳健的深度估计。我们的系统独特之处在于它只有两个相机，一个RGB相机和一个红外相机。RGB相机既用于深度估计又用于纹理获取。所获得的深度图与RGB图像逐像素地自然对齐。我们在室内场景中收集了一个真实的测试数据集。定量结果表明，所提出的系统的Bad2.0误差仅为经典被动立体系统的28.2%。在强烈的室外光线下，所提出的系统将退化为一个被动立体系统。我们希望所提出的系统能为社区设计更加稳健的深度相机提供新的解决方案。致谢。本工作得到OrbbecInc.的支持（编号W2020JSKF0547），并得到中国国家自然科学基金（编号U20A20185、61972435、62076086）、安徽省重大科技项目（编号202103a05020001）和安徽省重点研发计划（编号202004d07020008）的部分支持。[8] Shivam Duggal, Shenlong Wang, Wei-Chiu Ma, Rui Hu,and Raquel Urtasun. Deeppruner: Learning efficient stereomatching via differentiable patchmatch.In Proceedingsof the IEEE International Conference on Computer Vision,pages 4384–4393, 2019. 2[9] Barak Freedman. Depth mapping using projected patterns.US Application Publication, US 2010/0118123 A1, 2010. 3[10] Andreas Geiger, Philip Lenz, and Raquel Urtasun. Are weready for autonomous driving? the kitti vision benchmarksuite. In 2012 IEEE Conference on Computer Vision andPattern Recognition, pages 3354–3361. IEEE, 2012. 1[12] Xiaodong Gu, Zhiwen Fan, Siyu Zhu, Zuozhuo Dai, FeitongTan, and Ping Tan. Cascade cost volume for high-resolutionmulti-view stereo and stereo matching. In Proceedings ofthe IEEE/CVF Conference on Computer Vision and PatternRecognition, pages 2495–2504, 2020. 217540参考文献0[1] Wei Bao, Wei Wang, Yuhua Xu, Yulan Guo, Siyu Hong,and Xiaohu Zhang. Instereo2k: a large real dataset for stereomatching in indoor scenes. Science China InformationSciences , 63(11):1–11, 2020. 10[2] Michael Bleyer, Christoph Rhemann, and Carsten Rother.Patchmatch stereo-stereo matching with slanted supportwindows. In British Machine Vision Conference , volume 11,pages 1–11, 2011. 20[3] Jia-Ren Chang and Yong-Sheng Chen. Pyramid stereomatching network. In Proceedings of the IEEE Conferenceon Compu

下载后可阅读完整内容，剩余1页未读，立即下载