自监督立体和单目深度估计的简单有效框架

149 浏览量更新于2023-10-16 收藏 1.4MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

15529揭示自监督立体和单目深度估计陈志1，叶晓青2，杨伟1 *，徐振波1，谭晓2，邹志康2，丁二瑞2，张新明1*，黄柳生11中国科学技术大学2百度公司计算机视觉技术部（VIS）中国*通讯作者。E-mail：qubit@ustc.edu.cn，xinming@ustc.edu.cn摘要目前的自监督深度估计算法主要集中在立体或单目，忽略了它们之间的相互关系在本文中，我们提出了一个简单而有效的框架，以提高立体声和单目深度估计，利用这两个任务的基础互补知识我们的方法包括三个阶段。在第一阶段中，被称为StereoNet的所提出的立体匹配网络以自监督的方式在图像对上进行其次，我们引入了一个遮挡感知蒸馏（OA蒸馏）模块，该模块利用来自非遮挡区域中的Stere-oNet的预测深度来训练我们的名为SingleNet的单目最后，我们设计了一个遮挡感知的融合模块（OA融合），它通过融合StereoNet和SingleNet的估计深度来生成更可靠的深度。此外，我们还把融合深度作为伪标签来轮流监督StereoNet，这使得StereoNet的性能达到了一个新的高度。在KITTI数据集上的大量实验证明了我们所提出的框架的有效性我们实现了新的SOTA性能的立体声和单目深度估计任务。1. 介绍从立体图像对或单目图像中进行深度估计是计算机视觉中的一个基本问题。由于其在机器人操纵[37]、增强现实[35，27]和自动驾驶[26，43]中的广泛应用，它已被广泛研究。当前的监督深度估计方法[4，13]虽然已经取得了巨大的进步，但需要昂贵的密集地面实况数据用于训练。可选地，自监督方法近年来越来越受到关注[10，40，3]，其仅需要立体或单目原始图像。图1.立体和单眼模型的特性。在上部分中，我们将汽车D1（立体）和D1（单声道）是从立体和单目模型生成的左视差图，其中较亮的颜色意味着较大的视差。在左下方，我们将左图像中的汽车向右移动一段距离，并且汽车的估计视差变得更大，如D′l（立体声）所示。在右下角，我们缩小汽车，并看到相应的显示-奇偶性变小，如D′′l（单声道）所示。目前的SOTA自监督方法主要集中在单目或立体的深度估计问题之一，忽略了它们之间的相互关系。一方面，立体匹配方法旨在通过比较局部左和右块的相似性来学习结构信息以获得最佳视差并寻求全局平滑的视差图。因此，对于仅可以看到单个视图的左边界另一方面，单目深度估计是一个固有的不适定问题，并且它主要依赖于对15530特征内部的语义知识因此，它是强大的闭塞区域。如图1、进行了虚拟实验来阐述观察结果。为了充分利用这两个任务的互补知识，在本文中，我们设计了一个简单而有效的框架，以整合立体和单目深度估计网络的优势。通常，我们以自监督的方式训练立体深度估计网络，称为StereoNet。由于遮挡区域的不可见性，估计的深度是不可靠的。因此，闭塞意识蒸馏策略，采用提取可见的估计深度从StereoNet。与通过左右深度一致性项采用立体图像进行新颖视图合成的方法[46，11]不同，我们提出了一种名为SingleNet的单目深度估计框架，在StereoNet的蒸馏深度的监督下，并观察到相当大的改进。收益可以归因于两个主要原因。首先，在相同的自监督训练下，StereoNet比SingleNet在可见区域中的立体结构知识下学习更可靠的深度。其次，我们的闭塞意识蒸馏策略只采用非闭塞深度作为监督，以指导SingleNet学习语义信息。此外，不仅 StereoNet 可以帮助训练SingleNet，而且SingleNet可以反过来改善StereoNet。尽管StereoNet通常比SingleNet更准确，但我们观察到SingleNet在遮挡像素上的表现仍然优于特别地，沿着对象的边界区域，SingleNet倾向于保持跨越对象边界的锐利边缘，而出血伪影对于StereoNet是明显的受此观察的启发，我们提出了一种遮挡感知融合策略，该策略融合了StereoNet和SingleNet的估计深度图。融合后的深度图充分发挥了基于结构的StereoNet和基于外观的SingleNet的优势。进一步的提示可以通过采用融合深度作为用于监督的伪标签来训练StereoNet进而进一步提高自监督StereoNet的性能来进行总之，这项工作的主要贡献分三个方面列出如下：• 我们提出了一个简单而有效的框架，以提高性能的自我监督立体和monocular深度估计挖掘任务的具体优势，并揭示了这两个任务的相互关系。• 提出了一种新的基于遮挡感知的提取策略来训练单目深度估计网络，并提出了一种有效的基于遮挡感知的融合策略，该策略结合了基于结构的立体深度估计和基于外观的单目深度估计的优点• 在KITTI基准测试上进行的大量实验表明我们的方法在立体和单目深度估计任务上建立了新的SOTA性能。2. 相关工作2.1. 立体深度估计立体匹配将立体图像对作为输入，并且通过找到左右图像之间的密集像素对应来计算深度。对于立体声深度估计，监督方法[4，13，28]已经利用深度神经网络实现了很好的性能。GCNet [18]通过比较参考图像和目标图像的逐像素特征来构建3D成本体积，然后采用软argmin运算来计算最佳视差。PSMNet[4]利用金字塔池化模块对成本体积进行编码，并设计堆叠沙漏3D CNN来回归差异。GWCNet [13]提出了分组相关来构建成本卷，并修改了3D沙漏细化网络以提高性能。考虑到获取密集的地面实况深度具有挑战性，许多作品[51，40]已经在无监督立体深度估计方面投入了大量精力，并且表现出比传统方法如[14，15]可观的性能增益。Monodepth [51]修改了DispNet [28]的卷积架构，以在没有地面实况深度作为监督的情况下训练网络[10]借用了有效GCNet [18]的架构，以使用迭代的无监督训练框架来预测视差图在UnOS [40]中，作者采用称为PWCNet [33]的轻量级网络，通过将预测的光流限制在同一水平行来进行立体深度估计。2.2. 单目深度估计单目深度估计从单个图像的外观特征推断密集深度图。对于单目深度估计，监督工作[6，7，20，2]也已经用基于学习的方法获得了令人满意的结果[6]采用多尺度卷积架构来细化粗略深度预测。DORN[7]将回归问题转换为量化的有序回归问题，以获得更高的精度。[44]利用CRF模块来融合多尺度深度估计。BTS [20]在解码阶段的多个阶段用新颖的局部平面引导层替换双线性上采样层。AdaBins [2]引入了AdaBins模块，将深度范围划分为bin，其中bin宽度随图像而变化，并实现了监督单目深度估计的SOTA性能。自监督方法[8，10，1]通过减少立体图像对、单目视频帧或立体视频帧之间的光度损失来学习估计深度图。[8]公式化立体对之间的光度损失与L2损失，这导致模糊的深度图。Monodepth [10]采用SSIM [41]和L115531||视差×个以测量对应关系之间的相似性，从而改善深度质量，并且还应用了后处理操作，其中对原始图像和翻转图像的深度图进行平均，以获得更准确的深度估计。Monodepth2 [11]引入了每像素最小重投影损失，以解决遮挡区域的光测损失的模糊性方法[42，36]利用从传统的半全局匹配（SGM）[14，15]生成的附加代理标签作为监督来训练单眼深度估计模型。最近的方法[32，12]采用较重的主干来提高深度估计的质量，但以时间和内存为代价。对如下，I〜r-l=π（Dl，Ir），（1）其中I〜r-l表示源自右图像的重构左图像，并且π是使用双线性采样的扭曲操作[16]。对于经过包装的图像I〜r-l，利用光度损失来计算I〜r-l与Il 之间的相似度。在[48，10]之后，L1和SSIM[41]用于形成我们的光度损失，并且损失计算为，（1−SSIM（Il，I~r→l））2.3. 蒸馏Lp=γ2+（1−γ）|Il−I~r→l）|、（二）最近，知识蒸馏的概念已经被引入，以将所学习的知识从教师模型转移教师模型通常更强更重，而学生模型更轻。知识蒸馏已经成功地用于几个计算机视觉任务，如图像分类[39]，对象检测[5]和自然语言处理[17]。在本文中，我们借用知识蒸馏的思想，将学习到的基于结构的深度知识从立体模型转移到单目模型，并采用遮挡感知蒸馏策略。为了进一步改进，立体和单眼模型的融合深度预测也被提取为伪标签以依次训练StereoNet。据我们所知，这项工作是第一次尝试分析立体和单目深度估计模型之间的相互关系3. 初步给定一对图像Il和Ir，立体匹配网络尝试估计视差图，其可以容易地转换为深度图，因为深度= Il。b·f其中b是左相机和右相机之间的基线，f是相机焦距。为了简单起见，我们训练立体和单目深度估计模型来预测视差而不是深度。Dl表示从Il到Ir的视差，并且Dr表示从Ir到Il的视差。在立体匹配的自监督训练过程中，可以应用生成的视差图来合成图像的相应视图[11，42]。给定学习到的视差图Dl，左图像Il中的每个像素pl能够在右图像Ir处找到其对应的pi x elp〜r=pl+Dl（pl）。如果视差值Dl（pl）是准确的并且像素pl在右视图中没有被遮挡，则Il（pl）和Ir（p~r）的颜色应当一致。基于该假设，我们能够通过根据所获得的（pl，p〜r）对右图像Ir进行整形来重建Il其中SSIM是在33内核，并且γ被设置为0的情况。85、默认然而，光度损失不适合纹理较少或被遮挡的区域。对于无纹理区域中的像素，光度损失是不明确的，因此不能保证准确的视差。对于被其他对象遮挡的像素，在右侧图像中不存在可用的对应像素。因此，边缘感知平滑度损失[11，42]用于缓解这些问题。平滑度损失为，Lm=|xDl|e−|xIl|+的|yDl|e−|西伊|其中，Dl首先是[38]之后的均值归一化。4. 方法我们首先在第4.1节中介绍我们的涡轮状结构管道。然后，我们分别在第4.2节和第4.3节中详细介绍了所提出的自监督StereoNet和我们的蒸馏单眼深度估计网络。最后，在第4.4节中描述了遮挡感知融合模块和融合预测4.1. 总体框架如图2，我们框架的整个流水线由三个主要部分组成。在第一阶段，我们设计了一个自监督立体匹配网络，称为StereoNet训练立体对。由于没有地面实况监督，网络倾向于像传统的非CNN方法那样学习左右补丁之间的对应关系。因此，我们将其称为基于结构的学习，因为网络被学习为隐式地进行补丁之间的相似性比较。给定预测的立体视差图，框架能够计算对应的遮挡图。在阶段2中，而不是像以前的作品[10，11]那样直接训练具有光度损失和平滑损失的单眼网络，我们提出了一种遮挡感知的蒸馏策略，以利用立体匹配分支的预测以及遮挡图来监督15532图2. (A)阻塞感知蒸馏（OA蒸馏）。从基于结构的StereoNet（阶段1）生成的视差图D1和遮挡图O1用于引导基于外观的SingleNet（阶段2）。（B）遮挡感知融合（OA融合）。给定从StereoNet和SingleNet预测的视差图Dl和Dl*，提出了一个遮挡感知的融合模块来生成融合视差mapDl fromDl andDl*.融合的预测可以进一步用作伪标签以依次监督StereoNet（阶段3）。单目深度估计网络，即SingleNet。考虑到在遮挡区域中没有对应关系，StereoNet在这些区域中的预测是不可靠的。相反，单眼分支主要依赖于用于深度感知的学习特征的外观知识，从而导致更一致和更平滑的深度预测。受此启发，遮挡感知的融合策略，提出了融合立体和单目阶段的预测给定的遮挡图。在深入研究立体视觉和单目视觉深度感知机理的基础上，通过引入融合深度图作为伪标签来监督立体匹配网络，进一步提高了立体匹配网络的性能通过揭示基于结构的立体和基于外观的单目网络的相互关系，可以提高这两个任务的性能。请注意，我们在训练过程中不使用任何标记数据，并且在SingleNet的推理阶段，只需要单个图像。4.2. 销售监督立体声分公司在图1的阶段中。2，我们首先训练一个自监督立体视差估计模型，称为StereoNet。考虑到先前表现最好的立体匹配网络，例如GWCNet [13]、PSMNet [4]和GANet [47]，通常采用重3D卷积来换取准确性，我们反而提出了一种受光流估计方法PWCNet [33]启发的轻量级无监督立体视差估计框架。值得一提的是，作为通用框架，可以采用多个立体匹配或光流估计网络来实例化我们的流水线中的无监督立体分支。泛化能力将在以下实验中进一步验证。图3.立体网。所提出的StereoNet由两个阶段组成：提取特征对的Unet编码阶段和估计视差图的金字塔解码阶段视差估计模块用于利用相同分辨率的对应层处的特征对来细化视差图。我们提出的StereoNet的架构如图所示。3. StereoNet将立体图像 Il和 Ir作为输入，并且输出视差图 Dl。StereoNet的框架由两个阶段组成：Unet编码阶段和金字塔解码阶段。在Unet编码阶段，我们采用Unet模型来分别提取II和Ir的分层特征对。在金字塔解码阶段中，所提取的特征图对用于以粗略到精细的方式估计视差图D1更具体-15533ⓈΣ−plL图4. KITTI数据集上StereoNet和SingleNet的示例结果。ll和Ir是左图像和右图像。Dl和Dl*分别是从StereoNet和SingleNet估计的视差图。绿色和红色方块是SingleNet表现更好的区域。在蓝色方块中，StereoNet提供更详细和精确的视差估计结果。最终，在每个解码层中，视差估计模块基于来自前一层的粗略视差图和由Unet编码模块在相同分辨率的层处提取的特征图对来生成细化视差图。disp估计模块共享与[22]中类似的架构。原始PWCNet生成具有金字塔编码结构的特征对，其中较浅的特征用于预测较高分辨率的视差图。我们相信更深层次的特征其中代表逐像素乘法。并且总损失由光度损失L~p和平滑度损失Lm组成。4.3. 提取单目分支单目深度估计模型预测视差映射D*从一个单一的图像I。类似于自我监督对于更高分辨率的视差估计也是必要的Ll因此，我们用Unet编码结构代替金字塔编码阶段，这带来了显着的性能改善，如我们的实验所示。当训练StereoNet时，仅在左侧图像中的像素未被遮挡或在右侧图像中的视图之外的情况下计算光度损失通过左右一致性检查来检测被遮挡像素[23，34]。StereoNet在计算遮挡图时执行两次我们分别将左图像和右图像作为参考图像，并计算它们的视差图：D l和D r.如果像素pl未被遮挡或在右图像中的视图之外，则视差值Dl（pl）应当是对应像素处的视差值的倒数Dr（p〜r）=Dr（pl+Dl（pl））。并且因此如下检测遮挡图1,|D1+D~1| 01 - 02 -03 -02|Dl|+的|D~l|）+0。5在立体深度估计训练中，传统的自监督单目模型也通过最小化参考图像11和扭曲图像之间的摄影损失[11，42]。虽然s tereo和单眼模型都是从立体图像对训练的单色深度估计的性能通常劣于立体深度估计。与直接从单个图像11回归视差图的单目方法相比，立体方法利用来自两个图像的特征对Il和Ir，并且它们通常可以产生更准确的视差图。为了使我们的单目深度估计模型更加鲁棒，我们采用蒸馏策略来训练我们的单目深度估计模型，称为SingleNet。如上所述，通常可以从立体方法生成更好的视差图因此，优选的是明确地利用该视差图来监督单目方法。然而，众所周知，悬殊Ol=或（p+Dl（p））∈/Ω0，其他、（四）通过基于立体的方法，地图在被遮挡区域中可能不准确因此，我们提出了一种遮挡感知的蒸馏策略来训练SingleNet，如图所示2（A）。在-其中0. 5用于计算遮挡图的亚像素精度，Ω表示图像边界。更新的光度损失定义如下，代替使用将从立体图像生成的整个视差图作为目标的普通提取方法，我们仅利用像素通过左右一致性检查的可见区域中的估计视差值L~p=L（1O）Σ（1−O），（五）然后利用基于log L1的蒸馏损失来进行age SingleNet生成与基于立体声的ap类似的结果15534Σ，（1−O）×个如图所示。5，融合的视差D？ l优于Dl和Dl* 两者。Dl不仅保留了细节，而且还确保了尖锐的视差边缘。在此基础上，观察--vation，我们进一步以融合的差异作为监督，依次训练StereoNet。逻辑L1损失的使用如下，图5.阻塞感知融合期间的示例中间结果（a，b）分别是左图像和右图像。（c，d）分别是来自StereoNet和SingleNet的估计视差（e）是计算的遮挡图。(f)是融合视差图。接近，Lds=l〇 g（1+ 1）|Dl−Dl|）的情况。（八）我们将蒸馏的StereoNet表示为StereoNet-D，以将其与在阶段1中训练的StereoNet区分开。StereoNet-D甚至比用于训练本身的融合视差更好。5. 实验5.1. 实现细节对于立体深度估计训练，我们使用整个管道来训练StereoNet。而对于单目深度估计，仅需要前两个阶段来训练SingleNet。在第一阶段，将等式6中使用的α设置为0。1.一、对于其余阶段，其等于0。01.Ld= Σlog（1 + |D l− Dl*|）（1 −O l）L（六）我们的模型在PyTorch中实现[29]，并在一个TeslaV100 GPU上训练。我们的SingleNet基于其中Dl和Ol是从预训练的StereoNet生成的视差和遮挡图，并且Dl*是从SingleNet估计的视差图。除了蒸馏在边缘感知平滑度损失的情况下，边缘感知平滑度损失也被用于训练被遮挡像素。该阶段的总损失由蒸馏损失Ld和平滑损失Lm组成。4.4.提取立体声分支如上所述，SingleNet通常能够在不可见区域中产生更优选的结果，因为SingleNet基于外观特征来估计像素的深度值（视差值），这与基于相似性比较的立体方法相比是鲁棒的这种现象在公共基准点的结果中也很明显。例如，在图3的第三行中。4中，我们可以看到Dl在Il的绿色区域中给出了错误的估计，其中绿色正方形中的草被道路标志遮挡。在第二行中，沿着交通信号灯的边界区域存在明显的出血伪影，而SingleNet倾向于保留跨越对象边界的尖锐视差边缘，如红色正方形区域所示。为了利用StereoNet和SingleNet两者的优点，我们进一步提出了一种遮挡感知融合模块，其融合StereoNet和SingleNet的结果以形成新的视差，如图所示。2（B）。具体来说，我们使用Dl和Ol表示来自StereoNet的学习视差和遮挡图，并且Dl* 表示来自SingleNet的视差图。如下计算融合视差图Dfl，Dl=Dl（1−Ol）+Dl*Ol。（七）在Unet架构上，其中Resnet50用作我们的编码器，并且解码器类似于[11]。对于所有阶段，平滑度损失的权重全部设置为0。1，我们采用Adam [19]优化器，β1= 0。9，β2= 0。999 的学习率从1e-4开始，衰减因子为15个时期后10个。我们训练所有模型20个epoch批量大小为8。在评估过程中，我们将测试图像恢复为全尺寸，并将估计的深度裁剪为0到80米之间。[6]中描述的标准度量用于比较。5.2. 训练数据集KITTI数据集[9]是广泛用于立体和单目深度估计任务的基准[12，32，42，40]。KITTI 2015数据集收集了200个街道场景中的立体视频，其中包含从Velodyne激光扫描仪获得的稀疏地面真实深度。输入图像分辨率为320 1024。为了公平的比较，不同的训练分割被用于立体和单目深度估计任务。立体深度估计。在[40]之后，除KITTI 2015训练场景外的所有原始KITTI图像均被用作训练集，该训练集由29K立体图像对组成。并且使用具有地面实况深度的KITTI 2015的200个训练图像对作为测试分割。单目深度估计。在[42]之后，我们使用Eigen等人的数据分割。[6]，它使用22600个图像对进行训练，使用697个图像进行测试。5.3. 评价立体声深度估计。我们在KITTI 2015训练集上评估了我们的模型的立体深度估计任务15535方法火车测试吸光度相对值↓SqRel↓RMSE↓RMSElog↓a1↑a2↑a3↑单深度[10]SS0.0680.8354.3920.1460.9420.9780.989SsSMnet [49]SS0.0751.7264.8570.1650.9560.9760.985开放世界[50]SS（0.056）（0.692）（3.176）（0.125）（0.967）--UnOS（仅Stereo）SS0.0600.8334.1870.1350.9550.9810.990UnOS（Ego-motion）MSS0.0520.5933.4880.1210.9640.9850.992[40]第四十话MSS0.0490.5153.4040.1210.9650.9840.992我们的（StereoNet）SS0.0520.5583.7330.1230.9610.9840.992我们的（融合）SS0.0490.4563.4780.1120.9640.9870.994我们的（StereoNet-D）SS0.0480.4823.3930.1050.9690.9890.994EPC [45]MSM0.1091.0046.2320.2030.8530.9370.975我们的（SingleNet）SM0.0830.6884.4640.1540.9040.9720.990表1. KITTI 2015训练集上的立体声深度估计。最佳结果以粗体显示。在“训练”列中，S和MS分别指的是对立体声对和立体声视频的训练。在“测试”列中，M和S分别指对立体或单眼图像的测试请注意，OpenWorld是在整个KITTI 2015训练集上直接训练和测试的，因此它与其他方法没有可比性方法火车PP吸光度相对值↓SqRel↓RMSE↓RMSElog↓a1↑a2↑a3↑Monodepth2 [11]M0.1150.8824.7010.1900.8790.9610.982PackNet [12]M0.1070.8024.5380.1860.8890.9620.981FeatureNet [32]M0.1040.7294.4810.1790.8930.9650.984HR-深度[25]M0.1040.7274.4100.1790.8940.9660.984超深度[30]S0.1120.8754.9580.2070.8520.9470.977Monodepth2 [11]S0.1070.8494.7640.2010.8740.9530.977[31]第三十一话S0.0980.8314.6560.2020.8820.9480.973我们的（SingleNet）S0.0950.6974.4350.1860.8910.9620.981C0.0940.6814.3920.1850.8920.9620.981我们的（SingleNet）SMonoResMatch [36]SSGMC0.1110.8674.7140.1990.8640.9540.979深度提示[42]SSGMC0.0960.7104.3930.1850.8900.9620.981EPC++[24]MS0.1280.9355.0110.2090.8310.9450.979Monodepth2 [11]MS0.1060.8064.6300.1930.8760.9580.980FeatureNet [32]MS0.0990.6974.4270.1840.8890.9630.982HR-深度[25]MS0.1010.7164.3950.1790.8990.9660.983深度提示[42]MssgmC0.0980.7024.3980.1830.8870.9630.983表2.基于KITTI特征分裂的单目深度估计最佳结果以粗体显示在训练列中，M、S和MS分别是指对单眼视频、立体声对和立体声视频的训练PP是指[10]引入的后处理。并且定量结果呈现在表1中。1.我们的模型都在KITTI2015训练集上表现出色StereoNet是我们的基线模型，并且仅在具有光度损失和平滑损失的自监督设置中进行训练。从Tab。1，我们可以看到StereoNet在所有指标上都优于在立体声上训练的所有其他模型特别是，StereoNet在指标Abs Rel（0.052 vs. 0.060）和Sq Rel（0.558 vs. 0.833），这表明了我们提出的Unet编码模块在StereoNet中的有效性。我们也给出了我们的SingleNet的结果。在立体声对上训练的SingleNet的性能要好得多比 EPC [45] ，它是在立体视频上训练的。虽然SingleNet 从 Tab 。 1 ，我们可以看到融合策略将StereoNet从0提高。052比0。049在Abs Rel.此外，我们还将融合视差提取到 StereoNet 中，StereoNet-D的结果再次得到了进一步的改进。此外，StereoNet-D的性能甚至超过了在立体视频上训练的SOTA UnOS（Full）。单眼深度估计。我们评估我们的单目深度估计任务上的KITTI特征分裂的SingleNet。对于单目深度估计，我们仅-15536形成特征训练分割的前两个阶段，以与其他单目深度估计方法进行公平比较。选项卡.图2分别呈现了在单眼视频、立体视频和立体视频上训练的所有SOTA性能。对于在单目视频上训练的方法[12，11，32，25]，在评估期间使用每图像中值地面真值缩放[10]。我们的SingleNet在所有方法中获得了最佳性能，特别是在Sq Rel度量中。此外，SingleNet的性能甚至比在立体视频上训练的模型更好。 MonoResMatch 和DepthHints从经典SGM [14，15]杠杆生成深度图，并且它们的性能仍然低于我们的我们还测试了[10]引入的后处理技术，该技术进一步提高了SingleNet的定量性能。5.4. 消融研究在这里，我们进行更多的实验，以显示我们提出的网络模块的贡献。Unet编码模块。传统的PWCNet[33]使用金字塔编码阶段来生成图像特征对，而我们的StereoNet采用Unet编码阶段。选项卡. 3显示了我们的StereoNet在不同编码阶段下的结果这些结果在第一训练阶段之后进行评估。如Tab.所示。3、Unet编码可以显著提高性能。编码绝对平方Rel Rel RMSERMSE日志a1 a2 a3金字塔2019年12月31日 0.127 0.959 0.983 0.991Unet0.052 0.558 0.123 0.961 0.984 0.992表3.StereoNet中Unet编码的贡献阻塞感知蒸馏。为了证明我们提出的遮挡感知蒸馏策略的有效性，我们还提出了自我监督训练下的结果。对于自我监督训练，我们只执行第一阶段，用SingleNet替换StereoNet。考虑到使用SGM作为监督的一些算法[42，31]，我们还使用基于SGM的遮挡感知提取策略进行实验。这些结果均显示在表中。4，并在本征分裂上训练。可以看出，我们的方法实现了最佳性能。我们还提出了不同的α的影响中使用的闭塞意识蒸馏策略。与通常的蒸馏不同，我们只取非遮挡区域的估计视差值来监督SingleNet。当计算遮挡图时，α用于控制哪些像素被视为被遮挡。不同αs下的SingleNet结果见表1。5.所有结果都是在立体声分割上训练的。我们可以看到，当α = 0时获得最佳结果。01.火车绝对平方相对相对RMSERMSE日志a1 a2 a3self.0.102 0.817 4.6780.196 0.881 0.957 0.979SGM。0.100 0.834 4.5760.1860.8890.962 0.981立体声0.095 0.697 4.4350.186 0.891 0.962 0.981表4. SingleNet的不同监督类型的比较Self.意味着自我监督训练。立体声和SGM。分别表示从立体和SGM的蒸馏阿尔法绝对平方相对相对RMSERMSE日志a1 a2 a310.086 0.724 4.5770.161 0.898 0.967 0.9860.1 0.086 0.708 4.5090.159 0.898 0.968 0.9870.01 0.083 0.688 4.4640.154 0.904 0.972 0.990表5.在SingleNet上比较阻塞感知蒸馏中的不同α这些结果是在立体声分割上训练的。遮挡感知融合。我们还评估了不同的α控制的遮挡地图下的遮挡感知融合策略。在不同αs下的实验都是在立体分割上进行的，并在表1中给出。6.我们可以看到，当α等于0时也获得了最佳结果。01.阿尔法绝对平方相对相对RMSERMSE日志a1 a2 a310.052 0.559 3.7370.123 0.961 0.984 0.9920.1 0.050 0.484 3.5310.115 0.964 0.987 0.9940.01 0.049 0.456 3.4780.112 0.964 0.987 0.994表6.不同α在遮挡感知融合中的比较6. 结论在本文中，我们提出了一个简单而有效的框架，以改善立体和单目模型一种无人监督的合作方式。引入的遮挡感知蒸馏模块利用StereoNet从立体对预测的深度来改进我们的单目深度估计网络，称为SingleNet。我们还设计了一个遮挡感知的融合模块，融合的基础上计算的遮挡图从StereoNet和SingleNet的估计深度。然后将融合深度作为伪标签依次监督Stere-oNet，进一步提高了性能。SOTA性能的立体声和单目任务上获得的KITTI基准。确认这项工作得到了安徽量子信息技术倡议（ No.AHY150300）。15537引用[1] Juan Luis Gonzalez Bello 和 Min-Soeng Kim 。关于Lidar：自监督深度估计与医疗概率卷。arXiv：计算机视觉和模式识别，2020。[2] Shariq Farooq Bhat ， Ibraheem Alhashim ， and PeterWonka. Adabins：使用自适应箱的深度估计。arXiv预印本arXiv：2011.14141，2020。[3] 卞佳旺、李志超、王乃燕、詹黄英、沈春华、程明明和我。里德来自单目视频的无监督尺度一致深度和自我运动学习。ArXiv，abs/1908.10553，2019。[4] 张嘉仁和Y.尘金字塔立体匹配网络。2018年IEEE/CVF计算机视觉和模式识别，第5410-5418页[5] 陈国斌，崔元根，项羽，韩东，和曼-莫汉·钱德拉克.学习有效的目标检测模型与知识蒸馏。第31届神经信息处理系统，第742-751页，2017年[6] David Eigen和Rob Fergus。使用通用多尺度卷积架构预测深度、表面法线和语义标签。在Proceedings of theIEEE international conference on computer vision ，第2650-2658页，2015年。[7] Huan Fu ， Mingming Gong ， Chaohui Wang ， KayhanBat- manghelich，and Dacheng Tao.用于单目深度估计的深度有序回归在IEEE计算机视觉和模式识别会议集，第2002-2011页[8] Ravi Garg，Vijay Kumar Bg，Gustavo Carneiro，and IanReid.用于单视图深度估计的无监督CNN：Geometry来拯救。在欧洲计算机视觉会议上，第740-756页。施普林格，2016年。[9] Andreas Geiger，Philip Lenz，and Raquel Urtasun.我们准备好自动驾驶了吗？Kitti Vision基准套件。2012年IEEE计算机视觉和模式识别会议，第3354-3361页。IEEE，2012。[10] Cle' mentGodard，OisinMacAodha，andGabri elJBros-tow.具有左右一致性的无监督单目深度估计。在IEEE计算机视觉和模式识别会议论文集，第270-279页[11] Cle' mentGodard ， OisinMacAodha ， MichaelFirman ，andGabriel J Brostow.深入研究自我监督的单目深度估计。在IEEE/CVF国际计算机视觉会议集，第3828[12] Vitor Guizilini 、 Rares Ambrus 、 Sudeep Pillai 、 AllanRaventos和Adrien Gaidon。用于自监督单目深度估计的3d包装。在IEEE/CVF计算机视觉和模式识别会议论文集，第2485-2494页[13] Xiaoyang Guo ， Kai Yang ， Wukui Yang ， XiaogangWang，and Hongsheng Li.分组相关立体网络。2019年IEEE/CVF计算机视觉和模式识别会议（CVPR），第3268-3277页[14] 海科·赫希穆勒通过半全局匹配和互信息进行精确和高效的立体在2005年IEEE计算机协会计算机视觉和模式识别会议IEEE，2005年。[15] 海科·赫希穆勒基于半全局匹配和互信息的立体图像处理 IEEE Transactions on pattern analysis and machineintelligence，30（2）：328[16] Max Jaderberg，Karen Simonyan，Andrew Zisserman，Koray Kavukcuoglu.空间Transformer网络。arXiv预印本arXiv：1506.02025，2015。[17] Xiaoqi Jiao ，Yichun Yin，Lifeng Shang，Xin Jiang，Xiao Chen ， Linlin Li ， Fang Wang ， and QunLiu.Tinybert：提取自然语言理解的bert。arXiv预印本arXiv：1909.10351，2019。[18] Alex Kendall、Hayk Martirosyan、Saumitro Dasgupta、Peter Henry、Ryan Kennedy、Abraham Bachrach和AdamBry。深度立体回归的几何和上下文的端到端学习在IEEE计算机视觉国际会议论文集，第66-75页[19] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。[20] Jin Han Lee，Myung-Kyu Han，Dong Wook Ko，和一弘淑从大到小：用于单目深度估计的多尺度局部平面引导。arXiv预印本arXiv：1907.10326，2019。[21] Yuncheng Li ，Jianchao Yang ，Yale Song， LiangliangCao，Jiebo Luo，and Li-Jia Li.用蒸馏从噪声标签中学习。在IEEE计算机视觉国际会议论文集，第1910-1918页[22] L.刘，张江宁，何瑞飞，Y. Liu，Yabiao Wang，YingTai ， Donghao Luo ， Chengjie Wang ， Jilin Li ， andFeiyue Huang.类比学习：用于无监督光流估计的变换的可靠监督。2020年IEEE/CVF计算机视觉和模式识别会议（CVPR），第6488-6497页[23] Pe

下载后可阅读完整内容，剩余1页未读，立即下载