基于自适应置信度阈值的单目深度估计

35 浏览量更新于2023-10-14 收藏 1.85MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

12808∈基于自适应置信度阈值的单目深度估计Hyesong Choi1 *，Hunsang Lee2 *，Sunkyung Kim1，SunokKim3，Seungryong Kim4，Kwanghoon Sohn2，Dongbo Min1†1Ewha W.大学、2延世大学、3韩国航空宇宙大学、4韩国大学摘要自监督单目深度估计已经成为缺乏地面实况标签的有吸引力的解决方案，但是其重建损失通常产生跨对象边界的过度平滑的结果，并且不能显式地处理遮挡。在本文中，我们提出了一种新的方法来利用伪地面实况深度图的立体图像，从自监督立体匹配方法产生的。伪地面实况深度图的置信度图被估计以减轻由不准确的伪深度图引起的性能退化。为了应对置信度图本身的预测误差，我们还利用阈值网络，该阈值网络动态地以伪深度图为条件学习阈值。由阈值置信图过滤出的伪深度标签用于监督单目深度网络。此外，我们提出了概率框架，通过像素自适应卷积（PAC）层的不确定性图的帮助下，细化单目深度图。实验结果表明，优越的perfor- mance国家的最先进的单目深度估计方法。最后，我们表明，建议的阈值学习，ING也可以用来提高现有的置信度估计方法的性能1. 介绍单目深度估计从单个图像预测密集深度图，在诸如场景理解和自动驾驶的各种领域早期的作品[8，31，4]基于监督学习，其中性能取决于具有地面真实深度标签的大量训练数据。这项工作得到了信息通信技术规划评估研究所（IITP）的支持，该研究所由&&韩国政府（MSIT）（No. 2020-0-00056）和通过韩国NRF（NRF-2021 R1 A2 C2011624）的中期职业研究计划。S. Kim4在ICT Creative Con下得到了MSIT的部分支持。沉默计划（IITP-2021-2020-0-01819）。*同等缴款。†通讯作者。由于建立这样一个大规模的训练数据是非常昂贵和劳动密集型的，最近的方法依赖于自我监督学习制度[11，13，32，14，36]。他们尝试利用来自一对立体图像或单目视频序列的自我监督，而不是使用地面真实标签来训练网络，假设场景的几何结构可以基于像素级强度相似性用重建损失进行编码[11]。这种损失函数似乎是缺乏大规模地面实况标签的一种有吸引力的替代方案，但它通常会导致深度边界周围的模糊结果，并且不考虑遮挡像素[13]。Cho等人 [6]试图通过从预训练的立体匹配网络[34]生成的立体图像的伪深度标签为了减轻由不准确的伪深度标签引起的性能退化，它们利用指示伪深度标签的可靠性的立体置信度图（[0，1]置信度图用阈值[6，46]截断，使得排除具有低置信度的深度值。然而，所有训练数据集的固定阈值仍然具有在网络训练中使用不准确的伪深度值的风险[6]。[46]的方法试图通过学习具有附加正则化项的阈值来解决这个问题，但是由于其硬阈值和正则化项的隐式约束，性能增益相当有限为了克服这一限制，我们提出了一种新的架构，自适应学习阈值动态条件的伪深度图。对于给定的不准确伪深度图，立体置信度图及其相关联的阈值以端到端的方式推断。然后通过由学习阈值控制的差分软阈值算子对置信度图进行阈值化。提出的阈值学习方法能够更有效地处理置信度图请注意，我们利用软阈值算子使网络可微。然后将阈值化的置信图与12809用于训练所述单目深度估计网络的所述伪深度标签。此外，我们建议在概率推理框架中增强单目深度图使用不确定性图识别单目深度图的不可靠部分，并且通过像素自适应卷积（PAC）层[45]对这些部分进行细化。实验结果验证了单目深度精度显着提高，利用所提出的有趣的是，阈值学习也可以有益于改善现有立体声置信度估计方法的性能[38，25]。从现有方法[38，25]获得的置信度图通过由学习阈值控制的软阈值函数进行细化。如图在图2中，软阈值化函数衰减小于学习阈值τ的低置信度值以变得与0-样接近，同时放大高置信度值以收敛到1。通过实验验证，该方法提高了现有置信度估计方法的预测精度。综上所述，我们的贡献如下。我们提出了一种新的框架，单目深度估计使用伪深度标签产生的自监督立体匹配方法。我们引入阈值网络，自适应地学习置信图的阈值，以更好地预测不准确的伪深度标签的可靠性。通过基于PAC层的概率细化模块进一步细化单目深度图。结果表明，阈值网络也可以用来提高现有的置信度估计方法的预测精度。2. 相关工作单目深度估计。Eigen等人。 [8]通过深度网络发起了单目深度估计，该深度网络利用地面真实深度信息回归深度图，激发了基于多尺度图像[31]、上投影技术[29]、运动视差[50]、有序回归[9]和语义分治[51]的许多方法。尽管相对于经典手工制作的方法具有显著的性能，但是它们依赖于大量且高质量的地面实况深度图，这是昂贵的获得。为了克服这种限制，通过利用来自立体图像和视频序列而不是地面的真值深度图Garg等人 [11]使用了立体照片测量重投影。 Godard等人 [13]进一步使用了立体图像之间的左右一致性。Zhou等人。 [57]提出利用多视图合成过程，并且在[55]中使用基于特征的扭曲损失扩展了这一想法。为了利用监督学习方法和自监督学习方法两者的优点，还提出了半监督学习方法。Kuznietsov等人。 [28]直接结合了监督和无监督损失项。Ji等人 [22]利用具有少量标记数据集的图像深度对鉴别器，减轻了对监督的依赖。最近，Gonzalebello et al. [15]提出了镜像指数视差（MED）概率体积来处理遮挡区域。与我们的工作最相关的是Guo等人 [18]，Cho等人 [6]和Tonioni等人 [46]的方法，其中提取立体匹配知识以训练单眼深度网络。由于通过立体匹配估计的视差图固有地包含不可靠的视差图，因此他们使用立体置信度通过对置信度进行阈值化来构建伪地面实况视差图。Guo等人 [18]使用了对离群值敏感的手工制作的遮挡图 Cho等人 [6]根据经验使用固定阈值，但对所有图像使用相同阈值是无效的。与此不同的是，Tonioni等人。 [46]试图通过使用额外的正则化项来学习阈值，该正则化项允许阈值在0和1之间在我们的方法中，有效的阈值学习是主要的贡献。立体置信度估计。与从图像预测深度的发展并行，立体置信度估计也被积极地研究。机器学习方法[35，44，26]依赖于浅层分类器，例如，随机树[1]，使人们能够分类正确和不正确的像素。最近，基于深度卷积神经已经提出了使用单模态或双模态输入的各种方法，例如，视差[38]、左右视差[41]、3D匹配成本[42]、3D匹配成本和视差[27]以及视差和彩色图像[49，10]。 Kim等人。 [25]提出充分利用三模态输入结合局部自适应注意力和尺度网络，实现最先进的预测精度。所有这些技术都需要地面实况深度图，并且已经被用于利用凭经验设置的固定阈值来Poggi等人[37]介绍了一种基于多种准则的自监督置信度学习方法。3. 该方法与最近的自监督单眼深度估计方法不同[11，13，32，14，36]，我们利用伪····12810图1.所提出的架构由ThreshNet、DepthNet和RefineNet组成。给定一对立体图像，使用自监督立体匹配网络来预先计算伪地面实况深度图dpgt所提出的模型通过ThreshNet计算其置信度图c和阈值τ来训练dpgt使用软阈值化函数获得阈值化置信图cT。推断单目深度图d和不确定性图σ的深度网通过最小化使用由cT 过滤出的dPgt定义的对象来训练。最终通过基于RefineNet中的像素自适应卷积（PAC）层的概率细化模块来细化单目深度图d从一对立体图像中提取深度标签作为对单目深度估计的监督。图1示出了由三个网络组成的所提出的方法的总体过程，所述三个网络包括DepthNet、RefineNet和ThresNet。所提出的模型训练从伪(a)(b)（c ）第（1 ）款图2.置信度阈值算子的比较：（a）[ 6 ]中使用的硬阈值，（b）[ 46 ]中使用的硬阈值函数，以及（c）（1）中的软阈值函数。在（b）和（c）中使用学习的阈值，而对于所有训练图像，在（a）中阈值是固定的。ner，然后通过软阈值函数生成阈值置信度图。对于置信度估计网络MC，由于其简单性，我们采用了CCNN[38]，但更复杂的模型[38，25，49]也可以用作骨干。阈值网络MT由四个卷积层组成，随后是全局av-1。平均池化和1 ×1卷积。所估计的置信度图c由阈值τ调制，使得具有比特定τ值更高的置信度值的深度值关键问题是如何相应地设置τ，τ需要根据图像而变化。该阈值τ应当在深度推断容易的图像中被设置为低，而在相反的情况下被设置为高（参见图2）。（3）第三章。我们用一个平滑的、可微分的函数来近似阈值操作。深度标签dpgt 使用自监督第阈值化置信度图cT使用下式计算：可微分软阈值函数如下：立体匹配方法[53]。请注意，在[53]中提供的用于数据合成的各种选项中，我们采用odepth2cT（τ）=1、（1）网络其置信度图c是由con-p1 +e−ε·（cp−τ）置信度估计模块M_C，旨在防止在训练单目深度网络时滥用错误的深度值。为了考虑置信图本身的预测误差，我们进一步通过阈值模块MT自适应地学习阈值τ，截断置信图。阈值化置信度图cT通过学习的阈值τ经由软阈值化获得。该操作鼓励以比特定τ值更高的置信度值通过最小化使用由阈值置信度图cT过滤出的伪深度标签dpgt定义的目标来训练深度网络.最后，我们的方法通过基于RefineNet中的PAC层[45]的概率细化模块细化单目深度图d3.1. 网络架构3.1.1阈值网络ThreshNet以自适应方式预测不准确伪深度标签的置信度图及其阈值其中p表示像素。阈值化的置信度图cT的斜率由超参数ε调整，超参数ε是正常数。太大的ε太快地改变软阈值函数（例如，ε= 90），通常使其不可微。我们在实验中设置ε= 10。像素变化的置信图用每图像阈值τ变换。我们还研究了像素变化阈值映射τp，但其性能增益可以忽略不计。图2比较了置信度阈值函数。在图2（a）中，置信度阈值τ对于所有训练图像固定为预定义值，而不考虑图像特性，这通常导致在训练期间使用不准确的伪深度值。在图2（b）中，使用额外的正则化项[46]来学习，但其在单目深度估计上的性能增益相当有限，如原始论文[46]中所报告的。提出的差分软阈值函数，由阈值τ控制的伪深度图的动态条件下，导致性能优越的单目深度估计，当阈值损失LT使用12811×个- -(a) 具有高τ值的图像(b) 低τ值图像图3.通过我们的阈值学习的学习阈值τ的示例。CS表示Cityscapes数据集。一起在实验中提供了置信度阈值算子的消融研究图3显示了KITTI和Cityscape数据集[7]的ThreshNet估计结果。阈值τ在立体匹配不起作用的图像中变得更高，反之亦然。这表明ThreshNet通过有效地排除不可靠的伪深度值而有利于改进单目深度网络。3.1.2DepthNet和RefineNetDepthNet和RefineNet通过利用由阈值置信度图掩蔽的伪深度标签作为监督来推断和细化DepthNet基于编码器-解码器架构[39]，其中编码器获取图像并且两个解码器估计单目深度图d及其不确定性图〇。当预测不可靠时，指示预测的单目深度图的方差的不确定性图变得更高编码器网络由VGG网络的前13个卷积层组成[43]，解码器与编码器对称不确定性图σ用于在后续的RefineNet中细化单目我们首先将L个特征图（这里L= 4）从DepthNet的编码器上采样到原始分辨率，并将它们连接起来。然后通过经过11个卷积来融合级联的特征，生成引导特征g。估计的单眼深度图d最终在特征图g的引导下被馈送到PAC层[45]中。与直接推断细化结果的原始PAC模块不同，我们利用考虑不确定性图σ的残差连接来预测细化的单目深度图df，使得df=e−σ/k·d+（1−e−σ/k）d′（2）其中d’指示PAC层的输出k是控制通过PAC层的细化的并且它被设置为1。应当注意的是，尽管一些单目深度估计方法[36，2]已经尝试通过深度网络来测量单目深度估计该框架还可以基于不确定性预测扩展到各种像素级标记任务中。3.2. 损失函数3.2.1阈值损失具有置信度和阈值网络的ThreshNet可以以监督方式[38]或自监督方式[37]进行训练。对于监督训练，我们建议使用由公共基准提供的稀疏地面实况深度数据。例如，我们可以利用KITTI数据集中的一组立体图像对提供的3%密度的极其稀疏的LiDAR深度图。阈值化置信度图的真实值使用稀疏真实值深度数据生成，如现有的置信度估计方法[25]，并且这用于使用交叉熵损失L_T来训练ThreshNet。补充材料中提供了关于地面实况置信度图替代地，可以在不使用Li-DAR深度图的情况下以自监督方式训练ThreshNet。在[37]之后，我们根据各种标准（例如，重投影误差、差异一致性）。自监督训练的损失LT被定义为[37]的多模态二进制交叉熵损失。在表1中，我们比较了使用监督和自监督阈值网络时的单眼深度精度，发现精度几乎相似。在[46]中，还学习了阈值，以在训练其网络时排除具有低置信度的深度值。据报道，当仅使用深度回归损失时，阈值τ将收敛到1以掩蔽所有像素[46]。因此，他们建议包括额外的正则化损失，日志（1 τ），这防止阈值τ接近1。尽管该项允许τ在0和1之间，但它不保证产生阈值τ的准确预测结果。相比之下，我们的方法尝试使用软阈值函数和显式监督来学习阈值τ我们将在表4的消融研究中验证阈值学习方法的有效性。3.2.2深度回归损失利用来自DepthNet的单眼深度图来计算置信度引导的深度回归损失LD12812PGTΣZ=c（τ）。pD×个Zppp通过如下的阈值化置信图cT辅助：L= 1ΣcT（τ）·|d −d|、（3）p∈ΩThreshNet与用KITTI数据集训练的参数一起冻结。如图3，用KITTI数据集训练的ThreshNet产生适当的阈值用于KITTI和Cityscape数据集。其中d和dPgt分别指示预测深度图和伪地面实况深度图。Ω表示一组所有像素。损失L_D被归一化为不p此外，我们利用负对数似然最小化来推断网络输出的不确定性。网络输出d的预测分布可以建模为拉普拉斯似然[24，21，23]，如下所示：4. 置信度估计软阈值处理衰减小于τ的低置信度值以变得接近0，同时放大高置信度值以收敛到1。它减少了模糊像素的数量，以确定可靠性，其置信度值远离0或1。讨论了基于阈值网络的软阈值处理如何提高现有置信度估计的预测精度。LU=1Σ。|d p−dpgt|+ logσpΣ，（4）估计方法[38，25]。在图的阈值网中。1、置信网络可以用现有的置信网络代替。|p ∈ Ω σ p|p∈Ω σ p其中方差σ表示预测深度图的不确定性图。对数项logσ防止σ接近无穷大[24]。我们将两个损失L_D（考虑伪地面实况深度图d_pgt的可靠性）和L_U（预测预测深度图d的不确定性）组合，使得L=LD+λLU，（5）其中λ表示平衡两个损失的超参数，实验确定为10−3。这使得能够在考虑伪深度标签的置信度的同时对单目深度估计网络的不确定性进行建模。如图在图1中，推断单目深度图和不确定性图两者的DepthNet在（5）中用L训练，而RefineNet利用（3）中的L_D，因为它仅预测最终的单目深度图。3.3. 培训详细信息在我们的工作中，通过最小化 L 和 LD 同时训练DepthNet和RefineNet，而由置信度和阈值网络组成的ThresNet仅通过最小化LT来训练，类似于现有的置信度估计方法[38，35，44，25]。虽然整个网络可以进行端到端的训练，但我们通过实验发现，单独训练的性能增益相对较小。文献[38，49]中已经报道，用一个数据集训练的置信网络对另一个数据集表现出良好的泛化能力。在类似的情况下，我们用KITTI数据集训练的置信度和阈值网络对不同的数据集表现出令人满意的泛化能力。考虑到这些，我们将从一个数据集学到的知识转移到另一个数据集。具体而言，当仅立体图像对可用于训练时（例如，Cityscape数据集），通过L和L_D的最小化来训练DepthNet和Re-fineNet，其中置信度估计方法。一个区别是，考虑到现有的置信度估计方法是在视差域上训练的，损失LT（交叉熵损失）是在视差域上测量的该公式是模型不可知的，并且可以以即插即用的方式使用任何种类的现有置信度估计方法5. 实验结果5.1. 实现细节该方法在 PyTorch 框架下实现，运行 Titan RTXGPU。我们以10- 4的学习率训练了整个网络，并将32张图像的大小调整为192 480，持续30个epoch。我们在KITTI数据集中提供的标准20k立体图像上训练了由DepthNet和RefineNet组成的单目深度估计网络我们在以下五个度量Rel’和‘Accuracy’，在Eigen et al. [8]的一项建议。5.2. 单目深度估计方法5.2.1KITTI在表1中，我们在KITTI Eigen Split [8]数据集上定量评估了单目深度估计性能，其中将最大深度设置为80米，使用 Gargs 裁剪 [11] 。使用 Monodepth [13] 、Uncertainty [36]、MonoRes- Match [48]、Monodepth 2[14] 、 DepthHint [52] 、 PackNet-SfM [17] 和 Insta-DM[30]进行了综合评价。对于训练数据，“S”指示使用立体图像进行自监督单眼深度估计。“M”表示单眼视频序列。所提出的方法的评价是双重的;“Ours（D）”仅使用（3）中的L_D用DepthNet训练而不细化深度图，并且“Ours（D+R）”用DepthNet和RefineNet训练。12813表1.在KITTI Eigen Split [8]数据集上使用现有方法进行深度估计的定量评估。粗体和下划线的数字分别表示第一和第二排名精度：越低越好方法数据#p时间绝对相对值平方相对RMSERMSE日志 δ<1。25δ<1。二十五两δ<1。二十五三单深度[13]S56M9.4ms0.1381.1865.6500.2340.8130.9300.969Monodepth2 [14]S14M2.9ms0.1080.8424.8910.2070.8660.9490.976不确定性[36]S14M3.6ms0.1070.8114.7960.2000.8660.9520.978MonoResMatch[48]S41M8.3ms0.1110.8674.7140.1990.8640.9540.979深度提示[52]S33M6.6ms0.1020.7624.6020.1890.8800.9600.981[17]第十七话M122M9.5ms0.1110.7854.6010.1890.8780.9600.982Insta-DM [30]M14M3.0ms0.1120.7774.7720.1910.8720.9590.982我们的（D）S28M6.8ms0.0990.6524.2660.1870.8830.9600.981我们的（D+R）S42M8.2ms0.0960.6274.2010.1860.8850.9610.982我们的†（D）S28M6.8ms0.1000.6444.2510.1870.8820.9600.981我们的†（D+R）S42M8.2ms0.0980.6214.2150.1850.8850.9610.982(a)（b）（c）（d）（e）（f）图4.利用现有的单目深度估计方法对KITTI数据集的本征分裂[8]进行定性评估：（a）输入图像，(b)Monodepth [13]，（c）Monodepth2 [14]，（d）DepthHint [52]，（e）PackNet-SfM [17]和（f）Ours（D+R）。如表1中所报告的，虽然在“Ours（D+R）”中我们还评估了所使用的参数的数量和推断时间，分别记为'#p'和'time'。与其他方法相比，我们的方法使用相对较小或相似数量的参数。‘Ours我们发现它们的单眼深度精度几乎相似。以下结果（包括消融研究）使用监督Thres-Net进行。图4显示了与KITTI Eigen Split [8]数据集上结果表明，该方法恢复完整的实例更好，同时保持良好的对象边界。5.3. 城市景观我们还评估了所提出的方法在Cityscapes数据集上的性能。Cityscapes数据集仅提供立体图像而没有地面实况，因此使用KITTI数据集训练的ThreshNet用于推断阈值。表2显示了Cityscapes数据集[7]上的定量评估，其中在 Cityscapes 数据集上微调了 DepthNet 和RefineNet，而ThresNet被冻结。我们将我们的结果与Mon-odepth 2 [14]，DepthHint [52]和PackNet-SfM [17]进行了比较。我们使用每图像中值缩放方法将最大深度设置为80米[57]。我们使用SGM深度[19]作为评估的基础事实。我们的方法的突出表现支持了这样的说法，即用KITTI数据集训练的ThreshNet对不同的数据集显示出令人满意的泛化能力。5.4. 不确定度评定为了评估不确定性度量的性能，我们使用[21]中使用的稀疏图‘AUSE’12814- -表2.定量评估Cityscapes验证数据集上的单眼深度估计结果，并对Cityscapes训练数据集进行微调。粗体和下划线的数字分别表示第一和第二排名精度：越低越好方法数据绝对相对值平方相对RMSERMSE日志 δ<1。25δ<1。二十五两δ<1。二十五三Monodepth2[14]S0.1241.2877.2930.2230.7850.9470.981Struct2Depth [5]M0.1451.7377.2800.2050.8130.9420.978深度提示[52]S0.1281.2687.1560.2180.8120.9490.982戈登[16]M0.1271.3306.9600.1950.8300.9470.981我们的（D）S0.1231.1416.7350.2040.8440.9620.985我们的（D+R）S0.1151.1256.5840.1950.8570.9630.986(a)（b）（c）（d）（e）（f）图5.使用Cityscapes验证数据集上的现有方法进行深度估计的定性评价：（a）输入图像，（b）Monodepth [13]，（c）MonoResMatch [48]，（d）DepthHint [52]，（e）PackNet-SfM [17]，（f）我们的（D+R）。估计值接近于预言的不确定性，越低越好。‘AURG’在表3中，通过所提出的方法估计的不确定性度量与Poggi等人的“Monodepth 2-Log”进行了比较。 [36]，在与我们的实验相同的设置下训练。5.5. 消融研究阈值学习在表4中，我们进行了消融研究，以验证所提出的阈值学习相对于现有threholding方法的性能改进[6，46]。为了公平比较，我们使用仅用DepthNet（没有不确定性解码器）训练的单目深度网络在改变阈值函数时获得结果。“基线”表示使用没有阈值的置信图获得的结果。[6]的结果是使用图1的硬阈值获得的。 2（a），其中τ = 0。[3]后，即为[6]。[6，46]的性能几乎相似，尽管[46]中的方法使用图1的阈值函数学习阈值τ。第2段（b）分段。我们发现，由于缺乏对阈值学习的明确监督，用于防止阈值τ接近1的正则化损失log（1τ）[46]不会为学习的阈值生成有意义的变体。 [46]+ L T’使用图1B的阈值函数获得。 2（b）和我们的损失L T。性能增益超过 [46]证明了LT的有效性。“我们的（D）”实现了实质性的性能提升，证明了有效的-提出的阈值学习与LT。表3.使用KITTI本征分裂[8]数据集上的最新方法对不确定度估计进行定量评估粗体数字表示更好的性能。绝对相对RMSEδ≥ 1。25方法AUSEAURG AUSEAURG不确定性[36]0.0220.0360.9382.4020.0180.061我们0.0210.0480.7652.8810.0250.080适应性我们还验证了我们的方法在应用于不同网络架构时的有效性，例如， PackNet [17]. 表 5 显示了在PackNet架构上使用我们的置信阈值学习和概率细化我们观察到，我们的框架还提高了Pack-Net架构的单眼深度精度。不确定性为了评估在RefineNet中使用估计的不确定性的重要性，我们比较了使用（2）的建议深度细化和表6中没有σ的简单深度细化（df=d+d’）获得的结果，证明了基于不确定性图的深度细化的有效性到目前为止，所有实验都是使用使用[53]获得的自监督伪深度图进行为了验证我们的框架相对于伪深度标签的适应性，我们使用[47]生成的伪地面实况深度图进行了额外的实验，这些深度图使用合成数据进行训练，并使用自监督重建进行微调12815表4.与KITTI本征分裂[8]数据集上的其他阈值方法的比较。我们用有监督的阈值网络评估了性能，并且LT是交叉熵损失。τABS RMSE δ<1。25基线固定0.108 4.5520.869Cho等人[6]美国0.102 4.4410.874Tonioni等人[46个]了解到 0.101 4.4530.878Tonioni等人[46] + LT了解到 0.100 4.3900.879我们的（D）了解到 0.099 4.2660.883表5.通过将我们的阈值学习和概率细化应用于KITTI EigenSplit [8]数据集上的PackNet-SfM架构[17]而获得的结果的定量评估绝对RMSEδ<1。25[17]第十七话0.111 4.6010.878PackNet-SfM（D） 0.105 4.2580.880PackNet-SfM（D+R）0.100 4.2250.883表6.不确定性图的消融研究绝对平方RMSE RMSE log δ<1。25（2）w/oσ0.099 0.661 4.2980.1880.881（二）0.096 0.627 4.2010.1860.885表7.在KITTI Eigen Split [8]数据集上使用由[ 47 ]评定的伪深度标记基因时的定量评价。绝对平方RMSE RMSE log δ<1。25我们的（D）0.102 0.728 4.2810.1890.880我们的（D+R）0.100 0.711 4.2300.1870.883元学习框架的结构损失表7示出了单目深度准确度仍然优于现有技术的单目深度估计方法。5.6. 置信度评估我们在置信度预测准确度方面验证了所提出的阈值学习的有效性通过将其应用于两种置信度估计方法，CCNN [38]和LAFNet [25]。我们使用KITTI 2012训练数据集中提供的194张图像中的20张来训练两种置信度估计方法[12]。请注意，置信度估计方法[38，25]通过以监督的方式训练它们来评估。曲线下面积（AUC）[20]是置信度估计方法的常用指标，用于客观评价。有关AUC和最佳AUC测量的详细信息以及更多结果，请参阅补充材料根据置信度估计文献，使用两种流行的立体算法“Census-SGM”获得用于预测置信度图的输入差异图[19] 和表8显示了KITTI 2015数据集[33]的200张图像和Middle-bury v3数据集[40]的15张图像的客观评价结果。12816表8.使用两种流行的立体匹配方法C-SGM（Census-SGM）[19]和MC-CNN [54]对KITTI 2015和Middlebury v3数据集进行置信度估计的性能评估。报告AUC值，并且越低越好。KITTI 2015 MID 2014C-SGM /MC-CNNCCNN1.868 /3.1909.486 /9.787CCNN w/τ1.720 /3.5258.314 /9.497LAFNet*1.797 /3.0518.895 /9.660LAFNet* w/τ1.687 /3.0378.988 /9.456LAFNet1.680 /2.9038.884 /9.305LAFNet w/τ1.587/2.8858.680/8.622最优0.737 /2.7613.887 /4.985(a) 彩色图像（b）CCNN（c）LAFNet(d)输入视差（e）CCNW/τ（f）LAFNet W/τ图6.使用普查SGM的KITTI 2015数据集置信度图的定性结果。软阈值技术LAFNet* 表示LAFNet[25]其中3D成本体积不用作输入。我们的方法始终优于原来的置信度估计方法，证明了所提出的阈值学习的有效性。图6在视觉上比较了置信度图。虽然原始置信度图包含难以确定深度标签是否正确的模糊值，但我们的阈值置信度图产生接近0或1的更明显的值这样的二值化使得估计的置信度能够具有与地面真实置信度类似的分布，从而提高辨别能力。6. 结论在这项工作中，我们提出了一种新的框架，单目深度估计的基础上产生的自监督立体匹配方法的伪深度标签。置信度图用于排除伪深度标签内的错误深度值。通过使用基于阈值学习的软阈值，进一步抑制置信图此外，概率细化模块使得能够在不确定性图的帮助下提高单目深度精度。所提出的框架已经显示出令人印象深刻的性能超过国家的最先进的几个流行的数据集。阈值学习也可以提高现有置信度方法的预测精度。12817引用[1] 利奥·布莱曼乱林。Machine learning，45（1）：5- 32，2001. 二个[2] Fabian Brickwedde，Steffen Abraham和Rudolf Mester。Mono-sf：多视图几何满足单视图深度，用于动态交通场景的单目场景流量估计。在IEEE计算机视觉国际会议论文集，第2780-2790页，2019年。四个[3] 蔡长江，Matteo波吉StefanoMattoccia，andPhilippos Mordohai.用于跨域综合的匹配空间立体网络。arXiv预印本arXiv：2010.07347，2020。[4] 原州韩曹，吴子峰，沈春华。使用深度全卷积残差网络从单目图像估计深度作为分类。IEEE Transactions onCircuits and Systems for Video Technology，28（11）：3174-3182，2017。一个[5] Vincent Casser、Soeren Pik、Reza Mahjourian和AneliaAngelova。具有结构和语义的无监督单目深度和自我运动学习在CVPR基于位置线索的视觉里程计和计算机视觉应用研讨会，2019年。七个[6] Jaehoon Cho ， Dongbo Min ， Youngjung Kim ， andKwanghoon Sohn.用于半监督单目深度估计的大型rgb-d数据集。arXiv预印本arXiv：1904.10230，2019。一、二、三、七、八[7] Marius Cordts ， Mohamed Omran ， Sebastian Ramos ，Timo Rehfeld，Markus Enzweiler，Rodrigo Benenson，Uwe Franke，Stefan Roth，and Bernt Schiele.用于语义城市场景理解的cityscapes数据集在Proceedings of the IEEEconference on computer vision and pattern recognition，pages 3213四、六[8] David Eigen、Christian Puhrsch和Rob Fergus。使用多尺度深度网络从单个图像进行深度神经信息处理系统的进展，第2366-2374页，2014年一、二、五、六、七、八[9] Huan Fu ， Mingming Gong ， Chaohui Wang ， KayhanBat- manghelich，and Dacheng Tao.用于单目深度估计的深度有序回归在IEEE计算机视觉和模式识别会议集，第2002-2011页，2018。二个[10] 傅泽华和穆赫辛·阿尔达比利安·法尔德。通过多模态卷积神经网络学习2018年IEEE计算机视觉应用冬季会议（WACV），第1321-1330页。IEEE，2018年。二个[11] Ravi Garg，Vijay Kumar Bg，Gustavo Carneiro，and IanReid.用于单视图深度估计的无监督CNN：Geometry来拯救。在欧洲计算机视觉会议上，第740-756页。施普林格，2016年。一、二、五[12] Andreas Geiger ， Philip Lenz ， Christoph Stiller ， andRaquel Urtasun.视觉与机器人技术的结合：Kitti数据集。The InternationalJournal of Robotics Research ，32（11）：1231-1237，2013. 八个[13] Cle' mentGodard，OisinMacAodha，andGabri elJBros-tow.具有左右一致性的无监督单目深度估计。在 IEEEConference on计算机视觉和模式识别，第270-279页，2017年。一、二、五、六、七[14] Cle' mentGodard ， OisinMacAodha ， MichaelFirman ，andGabriel J Brostow.深入研究自我监督的单目深度估计。在IEEE计算机视觉国际会议论文集，第3828-3838页，2019年。一、二、三、五、六、七[15] Juan Luis GonzalezBello和Munchurl Kim。关于Lidar：自监督深度估计与医疗概率卷。神经信息处理系统进展，33：12626-12637，2020。二个[16] Ariel Gordon ， Hanhan Li ， Rico Jonschkowski ， andAnelia Angelova.来自野外视频的深度：来自未知相机的无监督单目深度学习。在IEEE计算机视觉国际会议的论文集，第8977-8986页，2019年。七个[17] Vitor Guizilini 、 Rares Ambrus 、 Sudeep Pillai 、 AllanRaventos和Adrien Gaidon。用于自监督单目深度估计的3d包装。在IEEE/CVF计算机视觉和模式识别会议论文集，第2485-2494页，2020年。五六七八[18] Xiaoyang Guo，Hongsheng Li，Shuai Yi，Jimmy Ren，and Xiaogang Wang.通过提取跨域立体网络学习单眼深度。在欧洲计算机视觉会议（ECCV）的会议记录中，第484- 500页，2018年。二个[19] 海科·赫希穆勒通过半全局匹配和互信息进行精确和高效的立体在2005年IEEE计算机协会计算机视觉和模式识别会议IEEE，2005年。六、八[20] 胡晓燕和菲利普·莫多海。立体视觉置信度的定量评价。IEEE Transactions on Pattern Analysis and MachineIntelligence，34（11）：2121-2133，2012. 八个[21] Eddy Ilg、Ozgun Cicek、Silvio Galesso、Aaron Klein、Osama Makansi、Frank Hutter和Thomas Brox。光流的不确定性估计和多假设网络。在欧洲计算机视觉会议（ECCV）的会议记录中，第652-667页，2018年。五、六[22] Rongrong Ji，Ke Li，Yan Wang，Xiaoshuai Sun，F

下载后可阅读完整内容，剩余1页未读，立即下载