挖掘自监督单目深度估计的潜力容量

80 浏览量更新于2023-10-16 收藏 17.48MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

155600挖掘自监督单目深度估计的潜力容量0Rui Peng Ronggang Wang � Yawen Lai Luyang Tang Yangang Cai北京大学电子与计算机工程学院0{ruipeng,tly926}@stu.pku.edu.cn{alanlyawen,caiyangang}@pku.edu.cnrgwang@pkusz.edu.cn0摘要0自监督方法在单目深度估计中发挥着越来越重要的作用，因为它们具有巨大的潜力和低成本的注释。为了缩小与监督方法之间的差距，最近的研究利用了额外的约束，例如语义分割。然而，这些方法不可避免地会增加模型的负担。在本文中，我们展示了理论和实证证据，证明了自监督单目深度估计的潜力容量可以在不增加成本的情况下挖掘出来。具体而言，我们提出了以下贡献：(1)一种新颖的数据增强方法，称为数据嫁接，它迫使模型在推断深度时探索更多的线索，除了垂直图像位置之外；(2)一种探索性自蒸馏损失，它由我们的新后处理方法-选择性后处理生成的自蒸馏标签进行监督；(3)全尺度网络，旨在赋予编码器深度估计任务的专业化，并增强模型的表示能力。大量实验证明我们的贡献可以显著提高基线模型的性能，甚至减少计算开销，我们的模型名为EPCDepth，超过了以额外约束进行监督的先前最先进的方法。代码可在以下链接找到：0https://github.com/prstrive/EPCDepth01. 引言0深度估计一直是计算机视觉中的一个基本问题，它决定了各种应用的性能，例如虚拟现实、自动驾驶、机器人等。作为最便宜的解决方案，单目深度估计(MDE)由于卷积神经网络的发展取得了可观的进展。然而，大多数现有的最先进方法依赖于监督训练，其训练数据集的收集是一项繁琐而艰巨的挑战。作为替代方案，自监督方法消除了0Monodepth [12]0Monodepth2 [13]0DepthHint [49]0EdgeDepth [68]0EPCDepth0图1.从单个图像估计深度。我们的模型(EPCDepth)，仅在立体数据上进行训练，具有最佳性能，产生了最清晰、最完整的结果，计算成本最低。0通过将深度估计重新构建为立体图像[10, 12, 49,68]、单目视频[67, 2, 42, 32]或两者的组合[62,13]，从而避免了对地面真实深度的需求。从性能上看，最近的研究表明自监督和全监督之间的差距已经得到了实质性的缩小。但另一方面，这种缩小在很大程度上得益于复杂的模型架构和来自外部模态的额外约束，例如语义分割[2, 26,68, 15]、光流[57,40]、深度法线[54]等。显然，这些因素大大增加了模型训练的负担，与自监督的概念在某种程度上相悖。在本文中，我们展示了自监督单目深度估计的潜力，即使没有这些额外的因素。constraints from three aspects: data augmentation, self-distillation, and model architecture.Generally, the closer the projection on the image is to thelower boundary, the smaller the depth of the object. Thisfeature of vertical image position has been proven to be themain cue adopted by the MDE model to infer depth, whilethe apparent size and other cues that humans will rely onare ignored [47]. We conjecture that the reason is that inthe traditional training mechanism that takes the entire im-age as input, the feature of vertical image position existsin almost every training sample, while the number of sam-ples for other cues is relatively small, which leads to a long-tailed distribution on cues. Obviously, this kind of paranoiatends to damage the generalization ability of the model. Tosolve this, we propose a novel data augmentation methodcalled Data Grafting, which breaks this dilemma by ver-tically grafting a certain proportion from another image toappropriately weaken the relationship between depth andvertical image position. Moreover, there is another fact thatthe precision of different scales output by the multi-scalenetwork is inconsistent at different pixels, and this moti-vates us to generate better disparity maps as pseudo-labelsto realize the self-distillation of the model. Concretely, wepropose Selective Post-Processing (SPP) to select the bestprediction for each pixel among all scales according to thereconstruction error, which is inspired by the availabilityof all views during training, and the similar idea has beenproven effective in the ﬁeld of multi-view stereo [55]. Fi-nally, we extend the traditional multi-scale network to thefull-scale network by inserting prediction modules not onlyon the decoder but also on the encoder to advance the spe-cialization of depth prediction from decoder to encoder andabsorb the representational power of the model. The supe-rior result of our model is shown in Figure 1.To summarize, our main contributions are listed belowin fourfold:155610•我们引入了一个概念上简单但经验上高效的数据增强方法，使模型能够学习更有效的线索，除了垂直图像位置之外。0•我们首次将自蒸馏应用于MDE，无需任何辅助网络，并基于我们的训练导向的选择性后处理方法生成更好的伪标签。0•我们提出了一种更高效的全尺度网络，以加强模型的约束并增强编码器对深度估计的特异性。0•在没有花哨的技巧的情况下，我们在自监督方法中实现了与那些通过额外约束进行训练的高性能模型相比的最新性能。02. 相关工作0自监督单目深度估计。深度被预测为自监督MDE中的中间结果，用于从源视图合成重建视图，并计算目标视图与重建视图之间的光度损失作为最小化的目标。主要有两种自监督方法：通过同步立体图像进行训练[10, 12, 38, 49,68]或单目视频[67, 57, 2,42]。对于第一类，具有已知相对位置的模型只需要预测视差，即深度的倒数。对于第二类，还需要额外预测相机的相对姿态。最近，许多工作通过新的损失函数[10, 49, 13, 42,68]、新的架构[38, 66, 58, 14,32]和来自额外约束的新监督[54, 57, 40, 2, 26, 68,15]来改进自监督MDE的性能。在本文中，我们进一步挖掘了在立体图像上进行训练的自监督MDE的潜在能力。自蒸馏。知识蒸馏是一项开创性的工作，利用softmax输出[18]、中间特征[41, 17]、注意力[61, 21]、关系[56, 34,36]等将知识从强大的教师网络传递给学生网络。自蒸馏是一种特殊情况，其中模型本身被用作教师。直观地说，模型可以通过之前训练过的相同模型进行蒸馏[9]，但这些方法效率低下，因为它们需要同步训练多个世代。因此，一些最近的工作主张在一个世代内对模型进行蒸馏，这些工作从先前迭代的监督[52,24]、扭曲数据的一致性[51]、类内不变性[60]以及更深层次的输出[64]中获得监督。这些方法只关注分类任务的自蒸馏。在本文中，我们将自蒸馏应用于深度估计的回归任务。与在[38]中使用整个网络来提升子网络的方法不同，我们从所有输出尺度中选择最佳视差图作为自蒸馏标签，以在一个世代中对整个网络进行蒸馏。数据增强。为了解决过拟合问题，数据增强是一种通过隐式增加训练数据总量并教授模型数据域的不变性的有效方法。常见的数据增强方法可以总结为两类：可学习的方法[46, 4]和无需参数学习的方法[27, 5,63, 59,65]。可学习的方法更加通用且开箱即用，而后续的方法更容易实现，大部分方法都针对特定的数据集进行了定制。受到单目深度估计模型主要依赖垂直图像位置并倾向于忽视其他有用线索的事实的启发，我们提出了一种新的数据增强方法，𝒍𝒑𝒉𝒍𝒉…0.40.6155620编码器解码器0基于编码器刻度0基于解码器刻度0基于全尺度0跳跃连接0变形0深度提示标签0自蒸馏标签0全尺度0� �0� � ′0�� 0输入批次0SPP SPP0图2.框架示意图。该方法主要由三个步骤组成。首先，输入批次数据通过数据嫁接进行重构，这里以嫁接比例为0.6为例。紧接着，全尺度网络将在所有尺度上估计视差图，这意味着不仅解码器而且编码器也会推断视差。最后，全尺度视差将通过选择性后处理分别为编码器和解码器尺度生成自蒸馏标签，并计算损失 l sd。同时，模型将在所有尺度上辅助使用光度损失 l ph 和深度提示损失 l h进行训练，值得注意的是这些损失都在所有尺度上执行。0参数学习免费的数据增强方法，称为数据嫁接，以迫使模型探索更多线索。03. 方法0我们在训练中采用矫正的立体图像对作为自监督模型的输入，而在测试时只需要一张单独的图像来推断深度。这种自监督方法主要分为三个步骤。首先，模型 F: I → d ∈ R H ×W 会首先估计视差图d，该图表示立体图像对应像素之间的偏移，从目标视图 I∈ R C × H × W中。接下来，模型将通过最小化目标视图和从源视图 I'重建的视图 ˜ I之间的差异来进行迭代训练，其中使用可微分的变形函数 fw (I', d) 进行图像的变形。通常采用结合 SSIM [48] 和 L1的光度损失来表示目标视图和重建视图之间的差异，如下所示：0l ph (d) = l ph (I, ˜ I) = α1 − S02 + β | I − ˜ I | (1)0其中 SSIM() 在一个 3 × 3 的像素窗口上计算，α = 0.85，β = 0.15。最后，深度图 z ∈R H × W0将从经过训练的模型输出的 d 中恢复，已知基线 b 和焦距 f下的公式为 z = bf/d 。0在本节中，我们将详细介绍本文的主要贡献。框架流程如图2所示。03.1. 数据嫁接0单目深度估计面临的第一个棘手障碍是数量和多样性上的数据不足，这将损害模型的泛化能力。MDE中一个重要的过拟合风险是过度依赖垂直图像位置，如第1节所述。尽管数据增强是最具成本效益和普遍的解决方案，但现有的自监督 MDE方法几乎没有相关研究，只使用了一些简单的数据扰动，如水平翻转。主要原因在于自监督 MDE方法基于视图之间的匹配程度生成监督信号，这要求严格的像素对应关系（对极约束）以确保匹配误差仅来自估计的视差。显然，传统的数据增强方法会破坏这种对应关系，从而损害模型的性能，正如我们在第5.2节的实验中所示。然而，我们注意到，在输入为立体图像对的情况下，这种限制是放松的。因为两个视图是由平行摄像机拍摄并经过矫正的，它们之间的匹配只会发生在水平方向上，Residual StageRSU BlockData FlowSkip Connection155630输入另一个输入嫁接后的输入垂直翻转0图3. 数据嫁接示意图。0例如，向左或向右平移。因此，我们可以在垂直方向上进行扰动来增强我们的数据。为此，我们发现将两个具有不同语义的图像嫁接在一起可以有效地减轻MDE中的过拟合风险，并鼓励模型更好地利用输入的完整上下文而不破坏极线约束。我们在一个小批次中进行数据嫁接，它由两个超参数决定：嫁接比例r和相应的均匀概率p。我们通过垂直嫁接来重构输入，其中从另一个输入中以比例r的面积进行嫁接，并以概率p随机垂直翻转这两个部分，如图3所示。同时，嫁接不仅适用于目标视图，还适用于其对应的深度提示（将在第3.4节中介绍）和源视图。但是每个嫁接操作只能在同一类别之间执行，例如，都是目标视图。而批次中所有输入的嫁接配置是相同的。单个输入的嫁接细节如算法1所示。0算法1：数据嫁接0输入：输入I1；从同一批次中随机采样的同一类别的另一个输入I2；输入的形状(c, h,w)；随机垂直翻转因子flip。0输出：嫁接后的输入I1。01 从{0, 0.2, 0.4, 0.6, 0.8}中以均匀概率0.2随机采样r；02 如果r = 0，则03 返回I1。04 否则05 graft h = Ceil(h × r);06 I1[:, graft h:, :] ← I2[:, graft h:, :];07 如果flip < 0.5，则08 T = I1;09 I1[:, h - graft h:, :] ← T[:, : graft h, :];010 I1[:, : h - graft h, :] ← T[:, graft h:, :];011 结束012 结束013 返回I1。03.2. 全尺度网络0粗到精策略在MDE中已被证明是有效的，它通过迭代变形不断改进估计结果[10, 12, 13,49]。常见的做法是在解码器中输出多尺度的视差预测结果。0输入0e00e10e20e30e40d40d30d20d10d00图4.全尺度网络。'e0�e4'表示编码器中的尺度，'d0�d4'表示解码器中的尺度。每个尺度的空间大小随序号的减小而增加。0其空间大小是递增的。在这种情况下，编码器学到的知识更加抽象和通用，而解码器学到的知识更加专门用于深度估计任务。直观地说，将深度估计的专业化推进到编码器中可以给模型带来更强的约束，并进一步提高其性能。因此，我们将传统的多尺度扩展到全尺度，这意味着我们还将多尺度视差预测块添加到编码器中。同时，在编码器中的预测块和残差阶段之间插入一个残差块，更准确地说是RSU块[39]，作为不同尺度之间影响的桥梁。此外，正如图4所示，我们采用更强大且更轻量级的RSU块来构建解码器，以提高我们全尺度网络的表示能力。训练完成后，我们可以丢弃编码器尺度甚至部分解码器尺度，只保留解码器的最大尺度，这意味着全尺度网络不会带来更多的参数或计算量，与传统网络相比。03.3. 自蒸馏0自蒸馏是为模型生成更多监督信号的有效方法，对于自监督学习尤为重要。在这里，我们提出选择性后处理来生成自蒸馏标签，并基于此创建了一种新的损失，称为自蒸馏损失 l sd。选择性后处理旨在从多个视差尺度中过滤出每个像素的最佳视差。实际上，我们在解码器中输出的最大视差图并不总是所有像素上的最佳结果，如表 5 所示。也许“d0”尺度在像素 a上更好，但“d3”尺度在像素 b上更好。因此，为了区分每个像素的最佳尺度，我们采用重建误差或光度损失作为我们的判据，这受到了[ 49 ]的启发。给定完整尺度的视差图 D = [ d d 0 , . . . , d d 4 , d e 0 , . . . , d e 4]，我们将根据公式（ 1）计算每个尺度的重建误差图。然后，可以基于以下假设构建编码器的自蒸馏标签 y e和解码器的自蒸馏标签 y d ：误差越小，预测的视差越好。选择性后处理的详细过程在算法 2中展示，编码器尺度和解码器尺度之间的过程是相同的。图 5 中的统计结果显示，SPP可以获得最精确的结果。ten output is not always the best at all pixels, as shownin Table 5. Maybe the “d0” scale is better at pixel a butthe “d3” scale is better at pixel b. Hence, to distinguishthe optimal scale at each pixel, we adopt the reconstruc-tion error or the photometric loss as our criterion, whichis inspired by [49].Given the full-scale disparity mapsD = [dd0, . . . , dd4, de0, . . . , de4], we will calculate a re-construction error map for each scale according to Equation(1). Then, the self-distillation label of encoder ye and de-coder yd can be constructed based on the assumption thatthe smaller the error, the better the predicted disparity. Thedetailed procedure of SPP, which is the same between theencoder-scale and decoder-scale, is shown in Algorithm 2.The statistic result in Figure 5 shows that the SPP can getthe most precise results.lsd(d) = log (|yc(d) − d| + 1)(2)l =1|D|�d∈D(lph(d) + lsd(d) + lh(d))(4)155640图 5. Eigen 分割[ 6 ]中所有测试样本的 SPP结果在每个尺度上的精度改进统计。0算法 2：选择性后处理0输入：目标视图 I ；源视图 I ′ ；多尺度视差图D ′ 。0输出：自蒸馏标签 y 。0 = None ；02 对于 D ′ 中的每个03 将 d 上采样到与 I 相同的尺寸；04 重建目标视图 ˜ I = f w ( I ′ , d ) ；05 计算重建误差 e = l ph ( I, ˜ I ) ；06 如果 d = D ′ [0] 则07 y = d ；08 e min = e ；09 否则010 找到所有 e < e min 的像素；011 使用这些像素更新 y 的 d ；012 使用这些像素更新 e min 的 e ；013 结束014 结束015 返回 y 。0自蒸馏损失是每个尺度的视差图与自蒸馏标签之间的差异，可以建模为：0其中 c ( ∙ ) 用于确定 d是否属于解码器尺度还是编码器尺度。03.4. 训练损失0根据[ 49]，我们将已被证明对于细小结构有效的提示损失纳入我们的模型中。深度提示 h 是由半全局匹配（SGM）算法[ 19 ,20]生成的，仅在可以改进重建误差时才会被参考。它可以在每个尺度的像素 i 中表示为：0� log ( | h i − d i | + 1) ，如果 l ph ( I, ˜ I h ) i < l ph ( I,˜ I ) i 0 ，否则 (3) 其中 ˜ I h 表示带有提示 h的重建视图。因此，最终的训练损失由每个尺度的光度损失、自蒸馏损失和提示损失的平均值组成：04. 实现细节0我们使用 PyTorch [ 35 ]实现了我们的模型。计算深度提示的过程与[ 49]相同。我们使用 Adam [ 25 ] 优化器，基本学习率为1e-4，并对联合损失进行 20轮训练。除了我们的新数据增强方法外，我们还采用了[ 13]中的预处理技术。在数据移植中，我们发现移植比例 r =0.2 × n ，其中 n ∈ N 且 r < 1，可以获得最佳效果，如算法 1所示。除非另有说明，我们采用在 ImageNet [ 23 ]上预训练的 ResNet-18 作为编码器，并将输入调整为 320× 1024 。对于 RSU 块 [ 39 ]，我们移除了批归一化层 [ 22]，并将 ReLU [ 33 ] 替换为 ELU [ 3 ]激活函数。具体来说，我们使用 RSU3 � RSU7构建解码器的层和编码器的桥接层，从最小尺度到最大尺度。05. 实验0我们首先在KITTI数据集[11]上验证了我们模型的性能，并对每个组件进行了全面的消融研究。最后，我们验证了我们模型在NYU-Depth-v2数据集[43]上的泛化能力。KITTI立体图像数据集是从一辆行驶的车辆中记录的，包含61个场景的42,382对校正后的立体图像。为了确保比较的客观性，我们使用了Eigen的划分[6]，其中包括32个场景中的22,600对训练图像和其他29个场景中的697对测试图像。我们报告了所有七个标准指标[7]，使用Garg的裁剪[10]和标准距离上限为80米[12]。155650方法 PP 数据 H × W 绝对相对误差平方相对误差均方根误差对数均方根误差 δ < 1.25 δ < 1.25^2 δ < 1.25^30Eigen等人[7] D 184 × 612 0.203 1.548 6.307 0.282 0.702 0.890 0.8900Kuznietsov等人[28] DS 187 × 621 0.113 0.741 4.621 0.189 0.862 0.960 0.9860Yang等人[53] � D† S 256 × 512 0.097 0.734 4.442 0.187 0.888 0.958 0.9800Luo等人[31] D� DS 192 × 640 裁剪 0.094 0.626 4.252 0.177 0.891 0.965 0.9840Fu等人[8] D 385 × 513 裁剪 0.099 0.593 3.714 0.161 0.897 0.966 0.9860Lee等人[30] D 352 × 1216 0.091 0.555 4.033 0.174 0.904 0.967 0.9840Zhan等人[62] MS 160 × 608 0.135 1.132 5.585 0.229 0.820 0.933 0.9710Godard等人[13] � MS 320 × 1024 0.104 0.775 4.562 0.191 0.878 0.959 0.9810Watson等人[49] � MS 320 × 1024 0.098 0.702 4.398 0.183 0.887 0.963 0.9830Shu等人[42] MS 320 × 1024 0.099 0.697 4.427 0.184 0.889 0.963 0.9820Lyu等人[32] MS 320 × 1024 0.101 0.716 4.395 0.179 0.899 0.966 0.9830Garg等人[10] S 188 × 620 0.169 1.080 5.104 0.273 0.740 0.904 0.9620Godard等人[12] � S 256 × 512 0.138 1.186 5.650 0.234 0.813 0.930 0.9690Wong等人[50] S 256 × 512 0.133 1.126 5.515 0.231 0.826 0.934 0.9690Pilzer等人[38] 教师 S 256 × 512 0.098 0.831 4.656 0.202 0.882 0.948 0.9730Chen等人[2] � SC 256 × 512 0.118 0.905 5.096 0.211 0.839 0.945 0.9770Godard等人[13] � S 192 × 640 0.108 0.842 4.891 0.207 0.866 0.949 0.9760Watson等人[49] � S 192 × 640 0.106 0.780 4.695 0.193 0.875 0.958 0.9800我们的模型 � S 192 × 640 0.099 0.754 4.490 0.183 0.888 0.963 0.9820Pillai等人[37] � S 384 × 1024 0.112 0.875 4.958 0.207 0.852 0.947 0.9770Godard等人[13] � S 320 × 1024 0.105 0.822 4.692 0.199 0.876 0.954 0.9770Watson等人[49] � S 320 × 1024 0.099 0.723 4.445 0.187 0.886 0.962 0.9810Zhu等人[68] 微调 � S C† 320 × 1024 0.097 0.675 4.350 0.180 0.890 0.964 0.9830我们的模型 � S 320 × 1024 0.093 0.671 4.297 0.178 0.899 0.965 0.9830Watson等人[49] ResNet50 � S 320 × 1024 0.096 0.710 4.393 0.185 0.890 0.962 0.9810Zhu等人[68] 微调的ResNet50 � S C† 320 × 1024 0.091 0.646 4.244 0.177 0.898 0.966 0.9830我们的模型 ResNet50 � S 320 × 1024 0.091 0.646 4.207 0.176 0.901 0.966 0.9830表1.使用Eigen等人的划分[6]在KITTI数据集[11]上的定量结果。每个类别中的最佳结果以粗体显示。对于红色指标，数值越低越好。对于蓝色指标，数值越高越好。数据列中的缩写：D表示由地面真实深度监督的方法，D†表示使用SLAM的辅助深度监督，D�表示使用合成深度标签的辅助深度监督，C表示使用分割标签的监督，C†表示使用预测的分割标签的监督，S表示使用立体图像的监督，M表示通过单目视频训练的模型。PP表示后处理[12]。下划线表示我们的基准模型。我们注释了所有使用额外技巧的方法，例如微调和教师模型。0NYU-Depth-v2是使用MicrosoftKinect传感器捕获的，总共包含582个室内场景。我们使用与KITTI相同的标准指标在官方测试集上验证我们的模型。05.1. 深度估计性能0我们在KITTI基准测试上与多种方法进行了全面比较，以验证我们的深度估计性能。首先，我们需要强调的是，我们的模型只在KITTI立体数据上进行训练，没有任何技巧。我们在表1中将我们的方法与最近的自监督、半监督和全监督单目深度估计方法进行了比较。结果表明，我们的方法在所有指标上都优于所有现有的自监督方法，甚至一些全监督方法。我们只在立体图像对上进行训练的方法相对于我们的基准模型[49]在δ<1.25上提高了0.013，这一改进为225%（=0.899-0.886）。0与[68]相比，我们的方法的性能指标高出了0.890-0.886-1）。此外，我们的方法不仅在使用立体图像训练的类别中表现出色，而且在使用立体视频（MS）训练的方法类别中也具有重要优势。即使与MS类别中每个指标的最佳得分相比，我们的方法也胜出。0大多数指标。此外，我们还对低分辨率和复杂骨干进行了更多实验，以证明我们模型的普适性和鲁棒性，而一致的性能改进正好证明了这一点。值得注意的是，我们通过近79%（=1-0.904-0.901）进一步缩小了全监督和自监督之间的差距。0与我们的基准模型[49]相比，性能提高了0.904-0.890）。此外，图6中的定性结果显示，我们的模型在具有挑战性的区域中预测更准确。虽然我们的模型显著提高了基准模型的性能，但它也保留了简单实现的优点。每个即插即用的改进都可以轻松集成到其他模型中，这对于未来对单目深度估计的深入研究至关重要。05.2. 消融研究0我们在KITTI上进行了消融分析。表6中的结果表明，我们的全模型结合了所有组件，具有领先的性能，而基准模型没有我们的任何贡献，性能最差。数据嫁接的好处。通过数据嫁接，我们可以在基准模型的基础上隐式地将数据量增加1/p倍。表2中的结果显示，只使用20%的数据就可以获得竞争性能。155660输入 Godard �� . [12] Godard �� . [13] Watson �� . [49] Zhu �� . [68] 我们0图6. 定性结果。我们的模型（EPCDepth）在最后一列产生了最准确和最清晰的结果，特别是在具有挑战性的区域，例如树干、汽车等。0数据量绝对相对误差平方相对误差均方根误差 δ<1.250无DG 100% 0.096 0.696 4.368 0.8920完整 20% 0.098 0.696 4.344 0.8900完整 50% 0.096 0.683 4.305 0.8960完整 100% 0.093 0.671 4.297 0.8990表2.对训练数据量进行消融研究。DG表示数据嫁接。%表示数据量的百分比。0数据增强绝对相对误差平方相对误差均方根误差 δ<1.250RandErasing [65] 0.115 0.992 4.987 0.8580Cutout [5] 0.106 0.830 4.753 0.8740CutMix [59] 0.105 0.831 4.752 0.8760数据嫁接 0.102 0.782 4.581 0.8830表3. 与其他类似的数据增强方法的比较。输入尺寸为192×640。0与没有数据嫁接的模型相比，在100%的数据下，我们的模型验证了其强大的泛化能力。此外，我们还与其他类似的数据增强方法进行了比较，以证明我们在表3中的有效性。结果表明，以一定的概率打破深度与垂直图像位置之间的关系，这是数据嫁接的独特之处，可以使模型潜在地掌握更多有效的线索。其他方法的不满可能在于对垂直图像位置的缺乏正则化能力。0源 Abs Rel Sq Rel RMSE δ < 1.250PP 0.094 0.680 4.320 0.8980SPP 0.094 0.675 4.312 0.8990SPP 分离 0.093 0.671 4.297 0.8990表4.对蒸馏源进行消融研究。PP表示解码器中最大尺度的后处理结果。0尺度 Abs Rel Sq Rel RMSE δ < 1.25 δ < 1.25 20d0 0.0925 0.671 4.297 0.899 0.9650d1 0.0922 0.668 4.292 0.899 0.9650d2 0.092 0.655 4.268 0.898 0.9650表5. 不同尺度的定量结果。0同时，我们对移植比例进行了敏感性实验，观察了孔边缘视图之间的对极约束损坏情况。图7中的结果表明，奇数设置（例如n/3）通常比偶数设置（例如n/2）更好，并且当r =n/5时表现最佳，这表明保留主导语义信息的移植结果更有效。自蒸馏的好处。从表5中，我们期望通过选择性后处理为每个像素选择最佳尺度。不同标签生成方法之间的比较结果在表4中显示，SPP可以获得更稳定的改进，分别蒸馏编码器和解码器更有效。同时，我们没有MethodAbs RelSq RelRMSERMSE logδ < 1.25δ < 1.252δ < 1.253155670方法 DG SD FS HR Abs Rel Sq Rel RMSE RMSE log δ < 1.25 δ < 1.25 2 δ < 1.25 30基准 0.107 0.848 4.745 0.194 0.875 0.957 0.9800基准+DG � 0.102 0.782 4.581 0.188 0.883 0.960 0.9810基准+SD � 0.105 0.822 4.708 0.193 0.876 0.958 0.9810基准+FS � 0.103 0.785 4.628 0.189 0.881 0.960 0.9810基准高分辨率 � 0.101 0.758 4.497 0.187 0.886 0.962 0.9820基准高分辨率+DG � � 0.098 0.694 4.371 0.182 0.890 0.963 0.9830基准高分辨率+SD � � 0.099 0.744 4.465 0.186 0.888 0.962 0.9820基准高分辨率+FS � � 0.097 0.701 4.364 0.182 0.892 0.963 0.9820全高分辨率无FS � � � 0.098 0.702 4.377 0.184 0.888 0.963 0.9830全高分辨率无SD � � � 0.094 0.678 4.312 0.180 0.898 0.965 0.9820全高分辨率无DG � � � 0.096 0.696 4.368 0.182 0.892 0.963 0.9820全高分辨率 � � � � 0.093 0.671 4.297 0.178 0.899 0.965 0.9830表6. 在KITTI数据集上对我们模型（EPCDepth）的各个变体进行消融结果。DG表示数据移植，SD表示自蒸馏，FS表示全尺度，HR表示高分辨率。0图7.移植比例r的敏感性分析。红线图表中数值越小越好，蓝线图表中数值越大越好。0全尺度 Abs Rel Sq Rel RMSE δ < 1.250+ 编码器尺度 0.105 0.811 4.668 0.8770+ 桥梁 0.104 0.798 4.655 0.8780+ RSU 0.103 0.785 4.628 0.8810表7.对完整网络进行消融研究。通过不断累积每个模块的输入尺寸为192×640。0注意到其性能改进的幅度很小，并且受到模型容量的影响。但我们希望我们的探索能够为这个回归任务中的自蒸馏打开大门。全尺度网络的好处。我们的全尺度网络借鉴了多代策略的一些优势，即对模型施加更多约束，表6的结果正好证明了它的强大。此外，我们通过在表7中消除编码器尺度、RSU块和编码器的桥梁的影响，分别探索了它们的有效性。请注意，每个实验都是在前一个实验的基础上进行的。每个模块的连续性能改进证明了它们的有效性。同时，我们的

下载后可阅读完整内容，剩余1页未读，立即下载