递归多尺度特征调制：自监督单目深度估计的新网络架构

82 浏览量更新于2023-10-13 收藏 1.85MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

12777×R-MSFM：用于单目深度估计的递归多尺度特征调制周忠凯、樊新楠、施鹏飞、袁学鑫物联网工程学院;中国常州河海大学200220030004@hhu.edu.cn，fanxn@hhuc.edu.cn，{shipf，xinyx} @ hhu.edu.cn摘要在本文中，我们提出了递归多尺度特征调制（R-MSFM），这是一种用于自监督单目深度估计的新的深度网络架构。R-MSFM提取每像素的特征，建立多尺度特征调制模块，通过参数共享解码器以固定的分辨率迭代更新逆深度这种结构使我们的R-MSFM能够保持语义上更丰富，空间上更精确的表示，并避免了传统的U-Net类粗到细结构在该领域广泛使用所造成的错误传播，从而产生强大的泛化能力和有效的参数计数。实验结果表明，我们提出的R-MSFM的优势，无论是在模型大小和推理速度，并显示了国家的最先进的 KITTI 基准测试的结果。代码可在https://github.com/jsczzzk/R-MSFM上获得1. 介绍深度估计的目的是确定图像中每个像素的深度。从早期阶段在计算机视觉中，从图像中估计深度一直是研究人员面临的主要挑战之一。作为低级任务的深度估计对于完成高级任务至关重要，包括3-D重建[23]、自动驾驶[6]、3-D目标检测[36]、水下图像恢复[43]等等。深度估计传统上被认为是左右图像之间的立体匹配问题，其主要以手工优化[18]、监督[4]或自监督方式[24]来实现。虽然几十年的发展已经大大提高了其准确性，但耗时的匹配过程不可避免地限制了部署的范围。受传统运动恢复结构（SFM）[38]的启发，重新设计了*通讯作者。许多研究[13，2，31，14]已经证明了以自我监督的方式使用光度重建损失从单个图像估计深度作为视图合成问题的可行性。在这种成功的新设计范例之后，最近的工作主要集中在特定损失函数的设计[28，14]以及对目前广泛使用的U-Net（如粗到细架构）的改进[19，15]。在本文中，受光流[37]领域的启发，我们引入了递归多尺度特征调制（R-MSFM），这是一种新的有效的轻量级深度学习架构，以扩展单目深度估计的架构选择。R-MSFM的三个最重要的优势如下：轻量级架构：R-MSFM将Monodepth 2的参数减少了73%，从14.3M减少到3.8M，适用于内存有限的场景。最先进的精度：R-MSFM实现了最先进的性能，在KITTI本征分裂测试集上获得了比Monodepth 2（4.701）低4.470的RMSE合理的推理速度。：R-MSFM在RTX 2060 GPU上以每秒44帧的速度处理640 192个它可以灵活地选择更新次数，并在速度和精度之间取得平衡。cy，占总体更新的一半，运行在72帧每秒，同时仍然优于Mon-odepth 2。R-MSFM由四个主要组件组成：i）深度编码器，其从ResNet 18提取除了最后两个块之外的每像素表示，从而产生多尺度特征;ii）参数共享的深度解码器，其迭代地更新初始化为零的逆深度，避免在粗略级的空间不精确性传播到精细部分;iii）参数学习上采样模块，其自适应地对所估计的逆深度进行上采样，保持···12778设置其运动边界;iv）多尺度特征调制模块，其跨多尺度特征图调制内容，从而为每次迭代更新维持语义上更丰富而空间上更精确的表示。在每次迭代更新时，R-MSFM在固定的1/8输入分辨率下保持并细化单个逆深度，然后使用学习的掩码将其直接上采样到全分辨率。这与先前作品中的类似于tra-W-Net的粗到细架构不同[14，15，45，19]，其中首先以粗分辨率（1/32输入分辨率）估计深度，然后逐渐上采样和细化直到全分辨率。通过在固定精细分辨率下的渐进细化，R-MSFM克服了由粗到精架构的几个限制：从粗分辨率到细分辨率的误差传播、描绘小对象的困难、多尺度解码器的独立性。实验结果表明，R-MSFM实现了国家的最先进的性能，无论是在精度和模型大小与合理的推理速度。2. 相关工作深度估计是理解3D世界的重要组成部分，对机器人系统和许多视觉任务有重大影响[29，16，7，1]。对于传统的计算机视觉方法，在不依赖于第二输入帧的情况下，从单个图像进行深度估计然而，人类可以通过与现实世界的交互来学习关于3D场景理解的许多先验因此，即使只有一只眼睛，它们仍然可以获得场景的绝对深度。随着模仿人脑机制的深度学习的发展，许多工作致力于从单目图像中提取场景深度。我们将在下一节中回顾这些相关的2.1. 全监督单目深度估计全监督单目深度估计网络采用LiDAR在训练过程中，网络可以学习由地面实况指导的深度信息。Eigen等人[9]首先使用深度学习技术构建了单目深度估计器，其从单个输入图像推断相应的该估计器由一个全局估计层，然后是一个局部细化层。因此，该估计器保留了图像边缘的深度值，并在当年的NYU Depth[35]和KITTI[11然而，全局估计层和局部细化层需要分别训练，这增加了训练过程的难度。为了解决上述问题，Evan Shelhamer等.[33]将专门为语义分割设计的全卷积网络[25]扩展到单目深度估计任务。这使得训练过程能够以端到端的方式进行，同时提高准确性。由于深度残差学习在图像识别中的成功[17]，Laina等。[21]将其引入单细胞深度估计领域，用反向Huber损失代替L2损失[47]，从而进一步稳定了训练过程，提高了网络的精度。虽然用地面实况训练的单目深度估计网络实现了高精度，但是从不同场景获得地面实况仍然限制了这些方法在现实世界中的应用。2.2. 自监督单目深度估计由于现实世界中无处不在的摄像机，许多工作重新调整了在完全监督方法中使用的地面实况的限制，将帧之间的R. Garg等人[10]首先以自我监督的方式使用立体声训练对从单个图像推断出相应的深度他们合成了一个新的视图以获得监督信号，该监督信号包括左输入图像和被包裹的右图像之间的光度损失。Cle´ mentGodardetal.[13]通过引入具有新训练损失的新网络架构进一步提高了单眼深度估计的准确性，该新训练损失包括左右视差一致性损失和单尺度SSIM项[41]。由于连续图像比现实世界中的立体图像更容易获得，因此直接将它们用作单目深度估计网络的训练集是合适的。Zhou等[46]首先使用由光度损失自监督的连续图像以及附加的运动解释掩模来联合训练单独的姿态网络和深度估计网络。虽然这项工作证明了从单个图像估计深度的可行性，但其鲁棒性仍然受到遮挡和移动目标的影响。经过仔细分析，Cle´ mentGodardetal. [14]表明，在处理上述问题时，设计良好的损失函数比复杂的体系结构更有效。他们提出了i）一种策略，该策略采用最小的光度损失而不是对每个像素进行平均，以在单目训练期间解决连续图像中的遮挡。ii）在连续帧之间自动将像素标记为静态或相对静态的方法。iii）多尺度光度损失，其将中间层处的所有深度采样到全分辨率以用于更好的监督。受[40，20]，Adrian Johnstonet al. [19]将自注意机制和离散视差预测引入单目深度估计领域，使网络在非连续区域更加鲁棒。s和运动边界。虽然自监督单目深度估计的准确性已经有了很大的提高，但与完全监督的方法相比仍有很大差距。S. 在这项工作中，我们证明了迭代12779→×△− −△××××HW××HWHWHW不H不不t−1- 依赖于多尺度特征调制模块和参数共享解码器以固定分辨率进行深度细化3. 方法在本节中，我们描述了我们提出的R-MSFM的细节我们的模型概述如图1所示。3.1. 深度编码器不同于当前最先进的方法 [14] ，其采用整个ResNet18[17]作为其深度编码器。我们的编码器只包含ResNet18的一部分，它重新移动了最后两个块，其特征图在语义上很强，但在空间上不精确。具体来说，我们的深度编码器获取单个输入图像I1，并以输入分辨率的1/2、1/4和1/8输出多尺度特征图X1、X2、X3：I1：R H×W×3X1：R2×2×C1，X2：R4×4×C2，X3：R8×8×C3，其中ResNet18的C1、C2、C3分别为64、64、128由于我们的深度解码器在固定的1/8输入分辨率下工作，我们应该确保多尺度特征图是统一的大小。另一方面，来自ResNet18的多尺度特征映射处于ReLU非线性之下，这与多尺度特征调制模块中的Tanh非线性相因此，我们通过一个或两个步幅-23 3卷积层对它们进行变换，然后进行Tanh非线性。例如，两个连续的步幅-23×3卷积层被应用于X1，以用于4×down。将固定1/8输入分辨率下的估计逆深度转换为全分辨率。上采样模块处理的全分辨率逆深度在每个像素是一个凸组合的3 - 3网格的邻域在1/8的输入分辨率的lution。它从深度解码器中的第三卷积层获取特征图然后在Softmax上执行凸掩模，以在1/8输入分辨率下控制9个邻域的权重，并用于在全分辨率下检索逆深度。3.4.迭代更新我们的更新过程产生一系列的逆深度图{d∈1，…从初始起始点d0=0开始的d N }。在每次更新时，它通过生成更新方向来获得当前估计dnd，用于最后一次估计dn1：dn=1. 然后，它对当前估计d n执行Si gmoid非线性，以获得逆深度dn：dn=Si g moid（dn）。我们从深度引擎馈送多尺度特征图-编码器以X3、X2和X1的顺序迭代地更新逆深度，这模仿了传统的粗到细架构的步骤。为了在迭代更新期间保持语义上更丰富同时空间上更精确的表示，我们在深度解码器的开始处嵌入多尺度特征调制模块（MSFM）。该模块利用基于卷积的门控递归单元（GRU）[5]来调制先前激活ht−1和当前输入xt之间的内容。该模块的目标是为除了第一次更新之外的每次更新找到最合适的激活ht，其可以被公式化为：采样，一个步幅-23 3卷积层被应用于X2，用于2次下采样，以及额外的步幅-13 3卷积层应用于X3，用于非线性转换。ht=（1−zt）h t−1 +zt ⊙h~t，（1）成形因此，我们得到具有均匀大小R××C3的多尺度特征映射X，X，X。其中，更新门Zt控制更新门Zt当前的隐藏动作需要记住r，并且h~t是当前的隐藏动作。1 2 38 8当前隐藏激活。因此，更新门为3.2. 深度解码器我们采用参数共享架构用于我们的深度解码器，其在固定的1/8输入分辨率下工作，以避免由传统的粗到细架构引起的误差传播深度解码器通过五个连续的卷积层输出逆深度，其中 Sigmoid 在输出处并且LeakyReLU在其他地方是非线性的。特别地，我们将两个卷积层应用于估计的逆深度图本身以生成深度特征图。因此，第三卷积层的输入是来自卷积层的输出的级联先前卷积层和深度特征图。zt=σ（ConvZ（[xt，ht−1]）），（2）其中σ（. ）是S形激活函数，[. ]是级联运算符，并且Conv Z是由两个运算组成的可分离卷积单元：一个具有1 × 3卷积层，一个具有3 × 1卷积层，用于在保持精度的同时减小模型参数。当前隐藏的激活取决于当前输入xt和先前的激活ht−1，其可以用公式表示为：h~=tanh（Conv（[x，r⊙h]）），（3）3.3. 参数学习上采样模块我们采用参数学习的上采样模块[37]而不是双线性插值来自适应地上采样其中，复位门r_t调制先前激活被遗忘的程度，其通过下式计算：rt=σ（ConvR（[xt，ht−1]）），（4）12780我tt⟨⟩⊙t′t′图1. 整体架构。（a）：输入帧由ResNet 1/8（w/o最后两个块）编码以产生1/2、1/4和1/8输入分辨率的多尺度特征图。这些特征图然后被统一成相同的大小并且被顺序地馈送到参数共享深度解码器以迭代地更新逆深度。此外，我们采用MSFM模块，以保持语义更丰富，而空间上更精确的表示在迭代更新。最后，我们学习凸掩模，以在每次更新中将估计的逆深度上采样到全分辨率（b）输入帧的级联由PoseNet计算以获得单个6-DoF相对姿态。其中ConvH和ConvR是可分离的卷积单元，它们不共享权重。由于来自深度编码器的三个尺度的特征图，我们自然地更新逆深度三次特别是，我们可以在每个尺度上对MSFM模块调制的特征图应用额外的卷积层，从而导致六次更新相对于目标图像I t的过去和未来图像，以及μ（. ）是二进制掩模，并且负责移除在目标图像和源图像之间不具有相对运动的像素，其由下式定义：µ=[min pe（It，It′−>t）t指示我我在先前的工作[14]之后，我们采用如图1（b）所示的基于ResNet18的PoseNet来估计目标图像It和源图像It′之间的相对姿态Tt −>t′，其可以公式化如下：Tt−>t′=PoseNet（I t，It′）。（五）为了保持我们的训练过程对遮挡的鲁棒性，使用掩蔽的光度重投影损失Lp[14]，如在：It′−>t=It′∠proj（Tt−>t′，Dt，K）∠，（8）其中K是对于所有图像都相同的固有函数，proj（. ）是在I’中的更新i处投影深度Di的所得2D坐标，是局部次可微双线性采样器，并且pe（. ）是使用SmoothL1[12]和SSIM[41]的最小每像素光度重投影损失，如：αpe（I，I）=（1-SSIM（I，I））122N十二（九）Lp=<$βN−i·minµ（It，I′，Ii不）⊙pe（It，Ii），+（1−α）SmoothL1（I1，I2），i=1t′t′−>tt′−>t（六）其中α=0。八十五在[14]之后，我们使用一个加法-边缘感知平滑以平滑估计的深度，其中N是更新的数量，表示逐元素乘法，并且更新项β对pe（. ）损失随着更新的次数呈指数增加。广告另外，t′∈（t−1，t+ 1）作为源图像，表示12781SX 不y 不N其公式为：L=ΣβN−i|di|t+|德岛|e−yIt，（10）i=112782×1d−d.·.·d*idi方法TrainAbs RelSq RelRMSERMSE logδ <1。25δ约翰斯顿[19]R-MSFM6（1024 320）MS0.1080.753四点四六九0.1850.8880.9630.9823.8M表1. 我们的模型与KITTI本征分裂的现有方法的比较[8]。每个指标的最佳结果以粗体显示，第二个以下划线显示。该表记录了使用训练列中看到的两种不同策略训练模型的结果：M表示模型仅使用自监督单声道监督进行训练，MS表示模型使用自监督单声道和立体声监督进行训练。其中di*=di/d¯i是的均值归一化逆[9]中提出的广泛使用的评价指标：AbsRel，t t t- 在更新i处的深度[39]，这防止逆深度接近零，从而增加训练稳定性。泰最后，将最终损失L组合为加权SqRel、RMSE、RMSElog和准确度公式如下：∗Lp的和等式6和等式10，其为• AbsRel= |N|1Σi∈N|di−di|d*i日期为：L=Lp +λLs，（11）• SqRel = |N| Σi∈Nii2d*i其中λ是平滑正则化项。RMSElog=1|N|Σi∈N log（di）−log（d*i）4. 实验我们使用Eigen等人的数据分割。[8]训练和RMSE=1|N|Σi∈N di−d评估我们的模型。在训练之前，我们按照Zhou等人的方法从训练集中去除静态图像。[46 ]第46段。这导致39810个训练序列，其包括用于单眼训练的三个连续帧和用于混合训练的自适应立体声计数器，以及4，424个验证序列。为了恢复尺度信息，我们采用了每图像中值地面真值缩放[46]。当评估我们的模型时，我们将深度估计限制在0米和80米之间的固定深度范围内，并将其性能与其他最先进的方法进行了五次• 准确度=max（di，di*）=δth_resol_d，其中，N是深度真实值的像素总数，di表示在pix eli处的预测深度值，并且d*i表示在像素i处的真实值。此外，阈值控制估计深度中的正确像素的百分比，其可以取为1。25，1。25 2 1 253.我们用自我监督学习的方式训练模型具有不同训练集（单眼三元组（M）和单眼+立体四元组（MS））、更新和输入的、深度误差（↓）深度精度（↑）型号尺寸（↓）<1.一、252δ<1。253参数周[46]M0.1831.5956.7090.2700.7340.9020.95931.6M[44]第四十四话M0.1491.0605.5670.2260.7960.9350.97531.6MDDVO[39]M0.1511.2575.5830.2280.8100.9360.97428.1M单深度[13]M0.1481.3445.9270.2470.8030.9220.96420.2MEPC++[27]M0.1411.0295.3500.2160.8160.9410.97633.2MStruct2depth[3]M0.1411.0265.2910.2150.8160.9450.97931.6MMonodepth2[14]M0.1150.9034.8630.1930.8770.9590.98114.3MMonodepth2（1024× 320）[14]MM0.1150.1060.8820.8614.7014.6990.1900.1850.8790.8890.9610.9620.9820.98214.3M1430万+赵（832× 256）[45] M 0.1130.7044.5810.1840.8710.9610.98414.3MPackNet-SfM [15] M 0.111 0.785 4.6010.1890.8780.9600.982128MPackNet-SfM（1280× 384）[15] M0.107 0.8024.5380.1860.8890.9620.981128MR-MSFM 3（不含预训练）M 0.128 0.965 5.0190.2070.8530.9510.9773.5MR-MSFM 6w/o预训练M 0.126 0.944 4.9810.2040.8570.9520.9783.8MR-MSFM3M 0.114 0.815 4.7120.1930.8760.9590.9813.5MR-MSFM6M 0.112 0.806 4.7040.1910.8780.9600.9813.8MR-MSFM3（1024× 320）M 0.112 0.773 4.5810.1890.8790.9600.9823.5MR-MSFM6（1024× 320）M 0.1080.7484.4700.1850.8890.9630.9823.8M单深度2-R50[14] M 0.110 0.831 4.6420.1870.8830.9620.98232.5MFeatDepth（1024× 320）-Res50[34] M0.104 0.729 4.4810.1790.8930.9650.98435.2MUnDeepVO[22] MS 0.183 1.730 6.570.268----EPC++[27] MS 0.128 0.935 5.0110.2090.8310.9450.979-Monodepth2 [14] MS 0.106 0.818 4.7500.1960.8740.9570.97914.3MMonodepth2（1024× 320）[14] MS0.106 0.806 4.6300.1930.8760.9580.98014.3MD3VO [42] MS0.0990.763 4.4850.1850.8850.9580.979-R-MSFM 3MS 0.112 0.799 4.6390.1900.8810.960.9813.5MR-MSFM6MS 0.111 0.787 4.6250.1890.8820.9610.9813.8M12783×××图2. KITTI本征分裂[8]测试集的定性结果。我们的模型可以鲁棒地估计反射和颜色饱和区域中的复杂对象的更清晰的深度。R-MSFM3-C M√×0.114 0.8154.712 0.193 0.876 0.9590.981 3.5M√√R-MSFM3-D MR-MSFM6-C M√0.115 0.8284.702 0.192 0.877 0.960 0.9814.8M电话：021 - 88888888传真：021 -88888888表2. 在我们的R-MSFM架构上进行消融研究，在640 192分辨率下使用KITTI本征分裂[8]测试集。我们评估的参数共享的深度解码器，多尺度特征调制（MSFM），和迭代更新的影响。Beginning和Middle表示我们嵌入MSFM模块的位置。所有模型都使用相同的设置进行训练。分辨率，导致我们模型的不同变体我们将我们的模型与其他最先进的方法进行比较，并表明它们以最少的模型参数获得了令人满意的结果，如表1所示。4.1. 实现细节R-MSFM在PyTorch中实现[30]，并在单个 NvidiaTitan RTX上训练了40个epoch，批量大小为12. 根据之前的工作[14]，我们在ImageNet[32]上使用ResNet 18的权重- s作为我们的深度和姿态编码器的初始化在训练过程中，深度和姿态网络都使用AdamW[26]优化器进行优化，其初始学习率和权重衰减设置为2e-4和5e−5respect iv el y。通过我们的模型的梯度被裁剪到一个固定的范围[-1，1]，并且默认情况下，输入/输出的分辨率被调整为640 192。另外，平滑正则化项λ和更新项β分别被设置为0.001和0.9。为了减轻我们的模型在训练期间的过拟合，以50%的机会使用以下数据增强：水平翻转，随机饱和度（±0. 2）、随机亮度（±0. 2），随机对照（±0. 2）和色调抖动（±0. ①的人。4.2. KITTI结果KITTI本征分裂测试集[8]的实验结果如表1所示。当与其他实验火车开始中间绝对相对值平方相对RMSERMSE日志δ<1。25δ<1。252δ<1。253参数Monodepth2[14]M--0.1150.9034.8630.1930.8770.9590.98114.3MR-MSFM3-AR-MSFM3-BMM×√×0.1200.1180.8890.8604.8694.8160.1990.1980.8670.8670.9560.9560.9800.9802.9M4.3M12784×表3. 迭代更新的量化。在KITTI本征分裂测试集[8]上，我们的模型在不同迭代更新下的每次更新结果。与采用自我监督训练策略的最先进的方法相比，我们的方法产生了相当的结果，同时显著降低了模型参数。如表1所示，我们的方法使用其四分之一的参数以显著的幅度优于基线Monodepth 2 [ 14 ]，并且仅使用其百分之三的参数就接近当前最先进的PackNet-SfM[15]。此外，我们在之前的工作[ 14 ]之后进行高分辨率（1024 320）训练，这种操作使我们的模型在相同的训练时间表下优于所有现有方法[14]。此外，我们可以得到与RightDepth [34]相当的结果，它利用了强大的特征度量自监督监督和更强大的ResNet50编码器。总体定性结果报告于图2中。可以看出，我们的方法从所有三种方法及其变体中为弱纹理区域（列1和列4）和薄结构（列2、列3和列4）给出了令人满意的结果这些定量和定性的结果证明了我们的方法的优越性。此外，这意味着我们的R-MSFM从迭代更新中受益更多，这迫使网络从高级特征图中学习粗略的逆深度，然后从低级特征图中细化其边界区域。然而，当场景中存在移动对象时，我们的R-MSFM无法像图4所示的所有自监督深度估计方法那样为它们学习良好的深度。这受到自监督损失的限制，自监督损失在具有移动对象的区域处中断。4.3. KITTI消融研究表2显示了我们的亲消融研究，我们首先从基线Monodepth 2 [14]（第一行）开始。接下来，通过移除其深度编码器中的最后两个块，并且采用参数共享深度解码器来执行逆深度的三次更新，我们得到我们的R-MSFM 3-A模型（第二行）。然后，通过应用一个额外的MSFM模块，我们得到了模型的三个变体：R-MSFM 3-B、R-MSFM 3-C、R-MSFM 3-D，它们仅在应用模块的位置上不同。R-MSFM 3-B型号（第三排）图3. 迭代更新的可视化。我们显示的估计深度从第一次更新和后续更新的剩余改进。像素的亮度值指示细化的幅度，其中像素越亮红色框区域中的像素指示细化随着更新的数量而减小，并且在五次更新之后趋于饱和。R-MSFM 3-C模型（第四行）在深度解码器的开始处应用模块，并且R-MSFM 3-D模型（第五行）在两个位置中应用模块最后，通过对R-MSFM 3-C执行三次额外更新，我们得到我们的R-MSFM 6-C模型。当与基线模型Monodepth2相比时，上述所有模型均表现出其优越性。基线Monodepth2[14]采用由粗到细的架构，其逐渐降低输入图像的分辨率以通过深度编码器获得聚合的强低级表示，然后相应地增加其分辨率直到全分辨率以通过几个深度解码器推断多尺度深度。这种架构在大多数情况下工作良好，但是，它受到过多参数和错误传播的限制由于参数共享的深度解码器，我们的R-MSFM-A实现了类似的结果相比，Monodepth 2，但其参数只有20%的Monodepth 2，证明了我们的架构的有效性。MSFM 模块的优点将我们的 MSFM 模块应用到 R-MSFM-A模型总是会带来性能的改善。然而，它嵌入的位置也会影响。从表2中可以看出，R-MSFM 3-C，实验训练更新绝对相对平方相对均方根误差RMSE日志δ<1。25δ<1。252δ<1。253R-MSFM3（1024×320）M 1 0.137 0.957 5.0860.2160.8250.9450.978R-MSFM3（1024×320）M 2 0.116 0.805 4.6720.1930.8690.9580.981R-MSFM3（1024×320）M 30.112 0.773 4.5810.1890.8790.9600.982R-MSFM6（1024×320）M 1 0.141 0.969 5.1360.2180.8160.9440.978R-MSFM6（1024×320）M 2 0.117 0.804 4.6780.1930.8690.9580.982R-MSFM 6（1024×320）M 3 0.111 0.757 4.5390.1870.8820.9610.982R-MSFM6（1024×320）M 4 0.109 0.755 4.5020.1850.8870.9620.982R-MSFM6（1024×320）M 50.1080.751 4.4820.1850.8880.9630.982R-MSFM6（1024×320）M 60.108 0.748 4.470.1850.8880.9630.98212785表4. 参数分布和推理时间的比较。所有结果均在单个RTX2060 GPU上进行测试，输入图像大小为640×192。特别是，为了测试速度，我们运行了300次，平均最后250次来预热我们的机器。在深度解码器的开始处嵌入MSFM模块，以最低的计算成本提供最增量的性能增益。此外，添加额外的MSFM模块并不理想地导致性能改进，因为其结构复杂。迭代更新的好处更多的更新总是会导致我们模型的性能改进，如表1所示。特别是在输入高分辨率图像时，模型的精度得到了显著提高。一个原因是，使用高分辨率特征图进行额外的更新可以为解码器提供比低分辨率特征图更多的信息。表3和图3示出了迭代更新的益处，表明第一次更新负责粗略估计，而剩余的更新负责渐进细化，特别是在包含复杂对象的区域中。然而，应当注意的是，准确度在更新6处饱和，其主要关注小边界而不是大目标。最后，运行比训练模型更多的迭代由于其余的多尺度特征图不直接涉及参数共享解码器和基于GRU的MSFM模块的优化过程。4.4. 复杂性分析单目深度估计系统的灵活性使其对实际部署具有明显的吸引力。t.因此，有必要对其复杂性进行分析。与基于类U-Net的粗到细架构的现有模型[14，15，45]不同，我们的R-MSFM具有传统编码器的一小部分（不包括最后两个计算繁重的块），例如ResNet 18和参数共享解码器。表4详细说明了我们模型的每个部分的状态，包括推理速度、浮点运算（FLOPs）和所使用的参数，并将它们与其他最先进的方法进行比较。可以看出，从ResNet18中排除最后两个计算量大的块显著减少了所使用的参数，与Monodepth2相比减少了94%[14]。另一方面，ResNet中的残差加法不可避免地限制了推理速度，导致其与Monodepth2相比加速率提高了48%。在解码器部分，我们给出了迭代更新的过程-图4. 故障案例。移动对象一直是单目深度估计的挑战，单目深度估计通常将在接近地面处获得正确的深度，并且精度将随着其上升而恶化。不可避免地增加了计算开销（FLOPs）。然而，我们的解码器的简单拓扑结构没有残差加法使得推理计算效率高，并且每次更新大约需要4.75B FLOPs和3ms。最后，参数经济，计算效率高，准确的架构，让我们的R-MSFM适合部署在嵌入式平台上。5. 结论我们提出了R-MSFM-递归多尺度特征调制-一种新的端到端的自监督单目深度估计的可训练模型。它利用从深度编码器提取的多尺度特征图，通过参数共享深度解码器迭代更新逆深度，避免了从低分辨率到高分辨率的误差传播。此外，R-MSFM在深度解码器的开始处嵌入多尺度特征调制（MSFM）模块，从而在迭代更新期间维持语义上更丰富同时空间上更精确的表示。此外，它采用参数学习的上采样器代替双线性插值来对估计的逆深度进行上采样，保留其运动边界。高精度和轻便的特点表明，我们的R-MSFM是适合在实际应用中。致谢本工作得到了国家自然科学基金（ 61801169 、61801168）和中央大学基础研究基金（B210202087）的资助。编码器解码器充分方法参数（M）FLOP（B）速度（ms）参数（M）FLOP（B）速度（ms）参数（M）FLOP（B）速度（ms）Monodepth2[14]11.24.59.13.13.53.914.38.013.0PackNet-SfM[5]121187186.471813.9128205200.3R-MSFM 30.72.44.72.814.19.13.516.513.812786引用[1] Markus Achtelik 、 Abraham Bachrach 、 Ruijie He 、Samuel Prentice和Nicholas Roy。立体视觉和激光圆顶--在没有gps的室内环境中尝试自主直升机无人系统技术XI，第7332卷，第733219页。国际光学与光子学会，2009年[2] 菲利波·阿莱奥蒂，法比奥·托西，马特奥·波吉，斯特凡诺·马特托西亚.用于无监督单目深度预测的生成对抗网络。在欧洲计算机视觉会议（ECCV）的会议记录中，第0[3] Vincent Casser、Soeren Pik、Reza Mahjourian和AneliaAngelova。没有传感器的深度预测在AAAI人工智能会议论文集，第33卷，第8001-8008页[4] 张嘉仁和陈永生。金字塔立体匹配网络。在IEEE计算机视觉和模式识别会议论文集，第5410- 5418页[5] KyunghyunCho，BartVanMerrieenboer，DzmitryBahdanau，and Yoshua Bengio.关于神经机器翻译的特性：编码器-解码器方法。arXiv预印本arXiv：1409.1259，2014。[6] Mingyu Ding，Yuqi Huo，Hongwei Yi，Zhe Wang，Jianping Shi，Zhiwu Lu，and Ping Luo.用于单目3d目标检测的学习深度引导在IEEE/CVF计算机视觉和模式识别研讨会会议论文集，第1000-1001页[7] 格雷戈里·杜德克和迈克尔·詹金移动机器人的计算原理。剑桥大学出版社，2010年。[8] David Eigen和Rob Fergus。使用通用多尺度卷积架构预测深度、表面法线和语义标签。在Proceedings of theIEEE international conference on computer vision ，第2650-2658页，2015年。[9] David Eigen、Christian Puhrsch和Rob Fergus。使用多尺度深度网络从单个图像进行深度神经信息处理系统的进展，第2366-2374页，2014年[10] Ravi Garg，Vijay Kumar Bg，Gustavo Carneiro，and IanRei-D.用于单视图深度估计的无监督CNN：几何学来救场了。欧洲计算机视觉会议，第740-756页。施普林格，2016年。[11] Andreas Geiger，Philip Lenz，and Raquel Urtasun.我们准备好自动驾驶了吗？Kitti Vision基准套件。2012年IEEE计算机视觉和模式识别会议，第3354-3361页。IEEE，2012。[12] 罗斯·格希克。快速R-CNN。在Proceedings of the IEEEinternational conference on computer vision ，第 1440-1448页，2015中。[13] Cle' mentGodard，OisinMacAodha，andGabri elJBros-tow.具有左右一致性的无监督单目深度估计。在IEEE计算机视觉和模式识别会议论文集，第270-279页[14] Cle' mentGodard ， OisinMacAodha ， MichaelFirman ，andGabriel J Brostow.深入研究自我监督的单目深度估计。在IEEE计算机视觉国际会议论文集，第3828-3838页[15] Vitor Guizilini 、 Rares Ambrus 、 Sudeep Pillai 、 AllanRaventos和Adrien Gaidon。用于自监督单目深度估计的3d包装。在IEEE/CVF计算机视觉和模式识别会议论文集，第2485-2494页[16] SaurabhGupta ， RossGirshick ， PabloArbela'ez ，andJitendraMalik.从rgb-d图像中学习丰富的特征用于目标检测和分割。欧洲计算机视觉会议，第345-360页。Springer，2014.[17] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页[18] 海科·赫希穆勒通过半全局匹配和互信息进行精确和高效的立体在2005年IEEE计算机协会计算机视觉和模式识别会议IEEE，2005年。[19] 阿德里安·约翰斯顿和古斯塔沃·卡内罗。自监督单眼训练深度估计使用自注意和离散视差体积。在IEEE/CVF计算机视觉和模式识别会议论文集，第4756-4765页[20] Alex Kendall、Hayk Martirosyan、Saumitro Dasgupta、Peter Henry、Ryan Kennedy、Abraham Bachrach和AdamBry。深度立体回归的几何和上下文的端到端学习在IEEE计算机视觉国际会议论文集，第66-75页[21

下载后可阅读完整内容，剩余1页未读，立即下载