澳大利亚阿德莱德大学的机器学习中基于自注意和离散视差体积的单目深度估计方法

8 浏览量更新于2023-10-25 1 收藏 2.42MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1基于自注意和离散视差体积的澳大利亚机器学习阿德莱德大学计算机科学学院{adrian.johnston，gustavo.carneiro}@ adelaide.edu.au摘要单目深度估计已经成为计算机视觉中研究最多的应用之一，其中最准确的然而，获取准确和大的地面实况数据集来模拟这些完全监督的方法是该领域进一步发展的主要挑战。由于训练数据的广泛可用性，用单目视频训练的自监督方法构成了解决上述挑战的最有前途的方法之一因此，它们已经被深入研究，其中探索的主要思想包括不同类型的模型架构，损失函数和遮挡掩模，以解决非刚性运动。在这篇文章中，我们提出了两个新的想法来改进自监督单目训练深度估计：（1）自我关注，2)离散视差预测与通常的局部卷积操作相比，自我注意可以探索更一般的上下文信息，其允许在图像的非连续区域处推断类似的视差值。除了能够估计深度不确定性之外，离散视差预测已经通过完全监督的方法被示出为提供比更常见的连续视差预测更鲁棒和更锐利的深度估计。我们表明，通过这两个想法扩展最先进的自监督单目训练深度估计器Monodepth 2，使我们能够设计一个在KITTI 2015和Make3D中产生最佳结果的模型，缩小了自监督立体声训练和完全监督方法之间的差距1. 介绍对3D世界的感知是计算机/机器人视觉的主要任务之一。准确的感知、定位、绘图和规划能力取决于能否获得正确的深度信息。测距传感器（诸如LiDAR或立体/多相机装置）由于其准确性和鲁棒性而经常被部署来估计深度以用于机器人和自主系统中但在图1. 自监督单目训练深度使用自我注意和离散视差体积的估计。我们的自监督单眼训练模型使用自我注意力来改进上下文推理和离散视差估计，以产生准确和尖锐的深度预测和深度不确定性。顶部：输入图像;中顶部：估计视差;中底部：由我们的系统产生的注意力地图的样本（蓝色表示共同的注意力区域）;底部：像素深度不确定性（蓝色：不确定性低;绿色/红色：高/最高不确定性）。在许多情况下，拥有或仅仅依赖这种昂贵或复杂的传感器可能是不可行的。这导致了基于学习的方法的发展[49，50，20]，其中最成功的方法依赖于完全监督的卷积神经网络（CNN）[9，8，10，15，35]。47564757ResNet18姿势网络跳过连接a）、f（x）TSoftmaxConv2d1x1多尺度输出（h/8，w/8，128）（h/8，w/8，512）ResNet编码器g（x）多尺度解码器sum（轴 =1）Conv2d1x1低分辨率视差注意力地图输入图像h（x）Conv2d1x1离散视差体积（DDV）传奇自我注意上下文模块离散深度投影模块Conv2d3x3（通道=128）多尺度解码器b）、c）、DDV（h/4，w/4，DDV（h/2，w/2，DDV（h，w，多尺度输出低分辨率视差Tt→t′6DOF姿态输出[It，（h/4，w/4，128）（h/2，w/2，128）图2. 整体架构图像编码过程在部分a）中突出显示。输入的单眼图像使用ResNet编码器进行编码，然后通过自我注意上下文模块。然后将计算出的注意力图与2D卷积进行卷积，其中输出通道的数量等于离散视差体积（DDV）的数量维度。然后，通过跨视差维度执行softargmax，将DDV投影到2D深度图中，从而产生最低分辨率视差估计（等式2）。4）.在部分b）中，示出了姿态估计器，并且部分c）示出了多尺度解码器的更多细节。低分辨率视差图通过UpConv（最近的上采样+卷积）的连续块。以与初始编码阶段中相同的方式在每个尺度处执行DDV投影。最后，将每个输出上采样到输入分辨率以计算光度重投影损失。虽然监督学习方法已经产生了出色的单目深度估计结果，但与本领域可用的RGB图像和视频数据集相比，地面实况RGB-D数据在种类和丰富度方面仍然有限。此外，由于传感器噪声和有限的操作能力（由于天气条件、照明等），收集准确且大的地面实况数据集是困难的任务。最近的研究表明，使用同步立体图像对[11，13]或单眼视频[62]以自监督方式训练深度估计器。虽然由于训练序列的广泛可用性，单目视频为基于立体的学习提供了一种有吸引力的替代方案，但它带来了许多挑战。与具有可以离线计算的已知相机姿态的基于立体的方法不同，自监督单目训练的深度估计器需要联合估计深度和自我运动以最小化光度重投影损失函数[11，13]。姿态估计器模型引入的任何噪声都可能降低在单目序列上训练的模型的性能，从而导致大的深度估计误差。此外，自监督单眼训练假设静态（即，刚性）场景，这使得单目模型估计非刚性运动）。为了解决这些问题，许多工作都集中在新的专门架构[62]、掩蔽策略[62，14，52，32]和损失函数[13，14]的开发上。即使有了所有这些发展，自监督的单眼训练的深度估计器也不如它们的立体训练的对应物准确，并且比完全监督的方法准确得多。在本文中，我们提出了两个新的想法来改进自监督单目训练深度估计：1)自我注意[54，51]，和2）离散视差卷[22]。我们提出的自我注意模块探索非连续（即，全局）图像区域作为用于估计这些区域处的类似深度的上下文。这样的方法与当前使用的不能探索这样的全局背景的局部2D和3D卷积形成对比。所提出的离散视差体积使得能够估计更鲁棒和更清晰的深度估计，如完全监督的深度估计方法所预先证明的那样[22，29]。更清晰的深度估计对于提高准确性是重要的，并且期望增加的鲁棒性以允许自监督单目训练的深度估计来解决该方法所犯的常见错误，诸如由于均匀的纹理细节而导致的不正确的姿态估计和匹配失败。我们还表明，我们的方法可以使用所提出的离散视差量来估计像素深度的不确定性[22]。深度不确定性估计对于细化深度估计[10]和安全关键系统[21]非常重要，允许代理识别环境中的未知数以达到最佳决策。作为本文的第二个贡献，我们利用了语义分割网络体系结构的最新进展，使我们能够在单个GPU机器上训练更大的模型。实验结果表明，我们的新方法可以为KITTI 2015和Make3D产生最好的自监督单目深度估计结果。我们还在实验中表明，我们的方法能够缩小与自监督立体训练和完全监督深度估计器的差距47582. 相关工作许多用于导航、定位和地图绘制的计算机视觉和机器人系统都依赖于对周围3D世界的准确理解[37，16，7，1]。主动传感器，如LiDAR，飞行时间相机或立体/多相机装备通常部署在机器人和自主系统中，以估计图像的深度，从而了解智能体尽管它们采用了擦拭扩散[45]，但这些系统有几个缺点[7]，包括有限的范围，传感器噪声，功耗和成本。不是依赖于这些主动传感器系统，而是利用完全监督的深度学习方法[9，8，10，15，35]的最新进展使得可以学习从单目RGB相机[9，8]预测深度。然而，用于监督学习的地面真实RGB-D数据可能难以获得，特别是对于我们希望机器人代理操作的每个可能环境。为了减轻这一要求，许多最近的工作都集中在开发自监督技术，以使用同步立体图像对[11，13，41]，单目视频[62，14]或双目视觉来训练单目深度估计器视频[60，14，32]。2.1. 单目深度估计单目图像的深度估计是一个固有的不适定问题，因为图像中的像素可能具有多个合理的深度。尽管如此，基于监督学习的方法已被证明可以缓解这一挑战，并正确估计彩色输入图像的深度[50]。Eigen等人[9]提出了第一种基于深度学习的方法，该方法应用多尺度卷积神经网络和尺度不变损失函数来建模图像中的局部和全局特征。从那时起，基于全监督深度学习的方法不断得到改进[10，15，35]。然而，这些方法受到训练数据的可用性的限制，这可能是昂贵的获得。虽然这些问题可以通过使用合成训练数据来缓解[35]，但模拟环境需要由人类艺术家建模，限制数据集中的变化量。为了克服完全监督的训练集约束，Garget al. [11]建议- 自监督框架，其中使用立体光度重投影扭曲损失来隐式地学习深度，而不是使用地面实况深度来监督。该损失函数是使用立体对的基于像素的重建损失，其中使用可微分图像采样器将该对的右图像扭曲到左图像[19]。该损失函数允许深度学习模型隐式地重新覆盖输入图像的底层深度。在此基础上，Godardet al. [13]添加左右一致性损失项，其有助于确保来自立体对的左右图像的预测深度之间的一致性。虽然能够训练单眼深度估计器，但是这些方法仍然依赖于仍然难以获取的基于立体的训练数据。这有动机-vated了自我监督的单目训练的深度估计器的开发[62]，其通过联合学习来用两个单独的网络预测深度和自我运动，从而放宽了对同步立体图像对的要求，使得能够使用单目视频来训练单目深度估计器。为了实现这一点，场景被假设为静态的（即，刚性），而唯一的运动是相机的运动。然而，当该假设被打破时，这导致深度估计器中的退化行为。为了解决这个问题，论文[62]包括一个预测掩蔽，它学会忽略违反刚性约束的区域。Vijayanarasimhan等[52]提出了一种基于多个运动掩模的更复杂的运动模型，GeoNet模型[58]分解了深度和光流，以说明图像序列中的对象运动。通过将预测深度约束为与表面法线一致[57]，使用预先计算的实例级分割掩模[3]并提高输入图像的分辨率[41]，自监督单目训练方法得到了进一步改进。Godard等人[14]使用Monodepth 2进一步缩小单目和立体声训练的自我监督之间的性能差距，Monodepth 2使用多尺度估计和每像素最小重投影损失，更好地处理遮挡。我们扩展Monodepth2与我们提出的想法，即自我注意力和离散视差量。2.2. 自我注意与递归神经网络（ RNN ） [47] ，长短期记忆（LSTM）[18]和卷积神经网络（CNN）[27]相比，自我注意通过更好地处理单词之间的长程依赖关系来提高自然语言处理（NLP）系统的性能[51]这种更好的性能可以解释为RNN，LSTM和CNN只能处理局部单词邻域中的信息，使得这些方法不足以捕获句子中的长距离依赖关系[51]，这在某些任务中是必不可少的，如机器翻译。在计算机视觉中提出了自注意，以改进图像分类和对象定向[2，39]。与卷积层[4，61，6]相比，自注意力也提高了计算机视觉任务的性能，例如语义分割[59]，通过更有效地解决在图像的非连续区域中分割视觉类的问题，事实上，语义分割性能的许多最新改进源于改进的上下文聚合策略（即，可以处理空间非连续图像区域的策略），例如PSPNet中的金字塔池化模块（PPM）[61]和Atrous空间金字塔池化[4]。在这两种方法中，聚合多个尺度的信息以改善网络的上下文表示。Yuan等[59]通过OCNet进一步改进这一领域，OCNet在ResNet-101 [17]主干上添加了一个4759自我注意模块，学习根据上下文表示具有相似语义相似性的特征组。因此，我们假设这样的自我注意机制也可以使用单眼视频来改进深度预测，因为用于像素深度预测的正确上下文可能在标准卷积无法到达的非连续位置处2.3. 离散视差体积Kendall等人[22]建议学习立体匹配以监督的方式，通过使用具有使用3D卷积细化的成本体积的共享CNN编码器。Liu等[29]通过使用具有地面真实深度和姿势的单目视频训练模型来进一步研究这个想法。本文[29]依赖于深度概率体积（DPV）和贝叶斯过滤框架，该框架基于从DPV计算的不确定性来细化离群值。Fu等人[10]将它们的地面实况深度数据表示为离散箱，有效地形成用于训练的视差体积上述所有方法都在完全监督的场景中工作，显示出深度估计鲁棒性和锐度的优点，以及估计深度不确定性的可能性。这种不确定性估计可以由自主系统用于改进决策[21]或改进深度估计[10]。在本文中，我们假设扩展具有离散视差量的自监督单目训练方法将提供在全监督模型中观察到的相同优势。3. 方法在我们提出的自监督单目训练深度估计模型的演示中，我们重点展示了本文的主要贡献的重要性我们使用基于UNet架构[44]的Monodepth 2模型[14]作为基线3.1. 模型我们用I：R→R3表示RGB图像，其中R表示高度为H、宽度为W的图像点阵。该模型的第一阶段，在图中描绘2、ResNet-101编码器，它形成X=resnet（I），其中X：→其中Sω：<$1/8→[0，1]，我们滥用这个符号，将g（X）表示为大小为N×H/8×W/8的张量。自我注意力地图是通过以下乘法构建的：值和Sω，其中：ΣA（ω）=h（X（ω））×Sω（ω），（3）ωε∈ε1/8其中A：1/8→RN。低分辨率离散视差体（DDV）表示为 D1/8（ω）=conv3×3（A（ω）），其中D1/8：R1/8→RK（K表示离散视差值的数目），并且conv3×3（. ）表示具有大小为3×3的滤波器的卷积层。低分辨率视差图然后用下式计算：ΣKσ（D1/8（ω））=softmax（D1/8（ω）[k]）×视差（k），k=1（四）其中softmax（D1/8（ω）[k]）是来自D1/8的第k输出的 softmax 结果，并且 disparity （ k ）保持 k 的disparity值。 Given the ambiguous results produced bythese low-resolution disparity maps, we follow the multi-scale strategy proposed by Godard et al. [14 ]第10段。来自（4）的低分辨率图是多尺度解码器的第一步，其包括三个附加级的上卷积算子（即，最近的上采样+卷积），它们从ResNet编码器接收跳过连接，用于相应的分辨率，如图所示。二、已知编码层和相关联的解码层之间的这些跳过连接在最终深度输出中保留高级信息。在每个分辨率下，我们形成新的DDV，其用于计算该特定分辨率下的视差图所考虑的分辨率是原始分辨率的（ 1/8 ）、（ 1/4 ）、（1/2）和（1/1），分别用σ（D1/8）、σ（D1/4）、σ（D1/2）和σ（D1/1）表示。我们模型的另一个重要部分是姿态估计器[62]，它采用在两个不同时间步记录的两个图像，并返回相对变换，如Tt→t′=pφ（It，It′），（5）θ t1/ 8RM，M表示输出端的通道数，ResNet和1/8表示低分辨率点阵，其中，Tt→t′表示在时间步长t和t′以及p φ（. ）是其初始大小的（1/8）th（单位：m）。然后，ResNet输出被自我关注模块[54]使用，它首先形成查询，键和值结果，表示为：姿态估计器，由以φ为参数的深度学习模型组成。f（X（ω））=WfX（ω），3.2. 训练和推理g（X（ω））=WgX（ω），4760h（X（ω））=WhX（ω），（一）训练基于最小每像素照片-源图像之间的度量重投影误差[14]It′和目标图像It，使用相对姿态Tt→t′其中Wf，Wg，Wh∈RN×M.查询和在（5）中定义。逐像素误差定义为：然后将键值与不p=1Σ。最小µ ′（s）Σ×pe（It，I（s）′）t→t、（6）Sω=softmax（f（ X（ω）g（X）），（2）|不|ts∈S4761不I= I不tt→t′方法火车绝对相对值平方相对RMSERMSE日志δ<1。25δ<1。252δ<1。253本征[9]D0.2031.5486.3070.2820.7020.8900.890刘[30]D0.2011.5846.4710.2730.6800.8980.967科洛特[24]D*M0.1661.4905.998-0.7780.9190.966AdaDepth [38]D*0.1671.2575.5780.2370.7710.9220.971库兹涅佐夫[25]DS0.1130.7414.6210.1890.8620.9600.986DVS [55]D*S0.0970.7344.4420.1870.8880.9580.980SVSM FT [33]DS0.0940.6264.2520.1770.8910.9650.984郭[15]DS0.0960.6414.0950.1680.8920.9670.986[10]第10话D0.0720.3072.7270.1200.9320.9840.994周[62]†M0.1831.5956.7090.2700.7340.9020.959杨[57]M0.1821.4816.5010.2670.7250.9060.963[34]第三十四话M0.1631.2406.2200.2500.7620.9160.968GeoNet [58]†M0.1491.0605.5670.2260.7960.9350.975DDVO [53]M0.1511.2575.5830.2280.8100.9360.974[第63话]M0.1501.1245.5070.2230.8060.9330.973乐高[56]M0.1621.3526.2760.252---拉扬[43]M0.1481.1495.4640.2260.8150.9350.973EPC++[32]M0.1411.0295.3500.2160.8160.9410.976Struct2depthM0.1411.0265.2910.2150.8160.9450.979Monodepth2 [14]M0.1150.9034.8630.1930.8770.9590.981Monodepth2（1024 ×320）[14]M0.1150.8824.7010.1900.8790.9610.982我们M0.1060.8614.6990.1850.8890.9620.982加格[11]†S0.1521.2265.8490.2460.7840.9210.967[13]第十三话S0.1331.1425.5330.2300.8300.9360.970[36]第三十六话S0.1281.0195.4030.2270.8270.9350.971[42]第四十二话S0.1290.9965.2810.2230.8310.9390.974美国（公告牌热门单曲榜）[42]S0.1191.2015.8880.2080.8440.9410.978SuperDepth + pp [41]（1024 ×382）S0.1120.8754.9580.2070.8520.9470.977Monodepth2 [14]S0.1090.8734.9600.2090.8640.9480.975Monodepth2（1024 ×320）[14]S0.1070.8494.7640.2010.8740.9530.977[28]第二十八话MS0.1831.7306.570.268---[60]第六十话D*MS0.1351.1325.5850.2290.8200.9330.971EPC++[32]MS0.1280.9355.0110.2090.8310.9450.979Monodepth2[14]MS0.1060.8184.7500.1960.8740.9570.979Monodepth2（1024 ×320）[14]MS0.1060.8064.6300.1930.8760.9580.980表1. 定量结果。在KITTI 2015 [12]上使用本征分裂[8]将现有方法与我们自己的方法进行比较。每个类别的最佳结果以粗体显示，次佳结果以下划线显示。每种方法的监督级别在列车列中显示; D-监督单监督。结果未经任何后处理[13]，除非用- + pp标记如果更新的结果可以在github上找到，这些都用- †标记。非标准分离度与方法名称一起记录。红色表示的符号：越低越好，用蓝色表示：越高越好其中pe（. 表示光度重建误差，S={1，1，1，1}是可用于其中，dt=dt/dt是平均归一化的逆深度[53]为避免缩小估计深度。84 21′在（4）中定义的视差图，∈ {t−1，t+ 1}，indi-（6）中的静止点的自动掩蔽[14]是nec-说明我们使用两个时间上相邻到It作为其源帧[14]，并且μ（s）是过滤掉静止点的二进制掩码（参见下面等式中的更多细节）。10）[14]。（6）中的重新投影图像由下式定义：这是必要的，因为假设一个移动的相机和一个在自监督单目训练深度估计方法中并不总是满足静态场景[14]。这个遮罩会过滤掉保持相同外观的像素，（s）.t→t′t′ proj（σ（D（s）），T，K）Σ，（7）补间序列中的两个帧，并使用定义为其中proj（. ）代表。在2D坐标下，Σ（s）ΣI t ′中的注入深度Dt，. 是采样算子，µ（s）=minpe（It，I′ ）minpe（It，It′），（10）σ（D（s））在（4）中定义。类似于[14]，所有图像的预先计算的本征函数K是相同的，并且我们使用双线性采样来对源图像进行采样，t′t→tt′其中[. ]表示Iverson括号。二进制掩模µin（10）掩盖了（6）中的损失，仅包括像素pe（I，I（s））=α（1−SSIM（I，I（s）+（1−α）<$I −I（s）<$，其中I（s）低于误差tt′2tt′tt′1（八）t′→t这表明视觉对象其中α= 0。八十五在[13]之后，我们使用边缘感知平滑正则化项来改善对象边界周围的预测：4762相对于摄像机移动最后的损失计算作为（6）中的每像素最小重投影损失和（9）中的平滑项的加权和= |∂d*|e−|xIt|+的|∂ d∗|e−|it|、（9）=+λ（十一）s xty tp s4763其中λ是平滑正则化项的权重。姿态模型和深度模型都使用该光度重投影误差来联合训练。通过在模型的输入处获取测试图像并产生高分辨率视差图σ（D1/1）来实现推断。4. 实验我们使用KITTI 2015立体声数据集训练和评估我们的方法[12]。我们还使用在KITTI 2015上训练的模型在Make3D数据集[50]上评估了我们的方法。我们使用Eigen等人的分裂和评估。[8]，并遵循以前的工作[62，14]，我们在训练前删除静态帧，仅评估高达80m的固定范围的深度[8，11，13，14]。与[14]一样，这导致39，810个单目训练序列，由三帧序列组成，具有4，424个验证序列。作为我们的基线模型，我们使用Monodepth 2 [14]，但我们用具有更高容量但需要更多内存的ResNet-101取代了原始的ResNet-18。为了解决这一内存问题，我们使用了就地激活的批处理规范化[46]，它融合了批处理规范化层和激活函数，节省了高达50%的内存。由于自监督单目训练深度估计器不包含尺度信息，因此我们使用每图像中值地面真实尺度[62，14]。遵循语义分割社区的架构最佳实践，我们在ResNet-101编码器的最后两个卷积块中采用了atrous卷积[5]，也称为扩张卷积[61，59，5，6]，扩张率为2和4，re-encoding。这已被证明可以通过增加模型的视场来显着改善多尺度编码[5]。定量分析的结果见第2节。四点二。我们还提出了一个消融研究，比较我们在第二节不同的贡献的影响。4.4使用验证集上的最低绝对相对误差度量选择最终模型。4.1. 实现细节我们的系统使用PyTorch库[40]进行训练，模型在单个Nvidia 2080Ti上训练了20个epoch。我们使用AdamOptimizer [ 23 ]联合优化姿势和深度网络，β1= 0。9，β2= 0。999，学习率为1e-4。我们使用一个单一的学习率衰减到lr=1e−5后15epoch。与以前的论文[14]一样，我们的ResNet编码器使用预先训练的ImageNet [48]权重，因为这已被证明可以减少训练时间并提高预测深度的整体准确性。所有模型均使用以下数据扩充进行训练，概率为50%;水平翻转，随机控制-trast（±0. 2）、饱和度（±0. 2）、色调抖动（±0. 1）和亮度（±0. 2）。至关重要的是，仅对输入到深度和姿态网络中的图像执行增强，（11）中的损失是使用原始地面实况图像计算的，其中平滑项设置为λ=1e−3。图像分辨率设置为640×192像素。4.2. KITTI结果实验结果见表1。当在KITTI 2015数据集[12]（使用Eigen [8]分裂）上比较我们的方法（表1中的灰色行）时，我们观察到我们的性能明显优于所有现有的自监督单核训练方法。相比涉及依赖于更强监控信号的其它方法（例如，立体声监督和单声道+立体声监督），我们的方法是有竞争力的，产生可比的结果，以目前的最先进的方法Monodepth 2。从图3中可以看出，我们的方法显示了比基线Monodepth 2更薄的结构（如极点）的更清晰的结果。一般来说，Monodepth 2（Mono和Mono+Stereo）与与树叶重叠的薄结构斗争，而我们的方法能够准确地估计这些较小细节的深度。我们将此归因于膨胀卷积和来自自我注意模块的上下文信息的组合。正如在车窗上看到的那样，Monodepth 2和我们的方法很难预测玻璃反射表面的深度。然而，这是在自监督方法中观察到的常见问题，因为它们不能准确地预测透明表面的深度，因为对于这种材料/表面，光度重投影/扭曲误差是不明确的例如，在车窗的示例中，将最小化照片度量重投影损失的正确深度实际上是距汽车内部的深度，而不是如将由地面实况LiDAR记录的玻璃深度。当将我们的方法与Monodepth 2 [14]的一些特定错误情况进行比较时（图4），我们可以看到我们的方法成功地估计了高反射车顶的深度（左），并成功地将街道标志与背景（右）分离。这可以通过自我注意上下文模块提供的额外上下文和感受野以及离散视差卷提供的正则化来解释。4.3. Make3D结果表3显示了使用我们在KITTI 2015上训练的模型的Make3D数据集[50我们遵循与Monodepth 2 [14]相同的测试方案，并使用[13]中概述的评价标准对方法进行比较。从表3中可以看出，我们的方法与以前同样依赖于自我监督的方法相比，产生了更好的结果。4.4. 消融研究表 2 显示了我们方法的消融研究，我们从基线Monodepth 2 [14]（第1行）开始。然后，通过首先添加DDV（第2行）以及自我注意和DDV（第3行），我们观察到几乎所有评估措施都有稳步改善。然后，我们将底层编码模型ResNet-18切换到ResNet-101，并在第4行中使用扩张卷积。图5和图6分别显示了DDV的添加，然后是自我注意和DDV，再次与4764图3. KITTI本征分裂[8]测试集的定性结果。我们的模型在树木、标志和护柱等较薄的物体上表现得更好，并且在描绘困难的物体边界方面表现得更好。骨干自我关怀DDV绝对相对值平方相对RMSERMSE日志δ<1。25δ<1。252δ<1。253基线（MD2 ResNet18）✗✗0.1150.9034.8630.1930.8770.9590.981ResNet18✗C0.1120.8384.7950.1910.8770.9600.981ResNet18C✗0.1120.8454.7690.190.8770.960.982ResNet18CC0.1110.9414.8170.1890.8850.9610.981ResNet101，带扩张Conv✗✗0.1100.8764.8530.1890.8790.9610.982ResNet101，带扩张Conv✗C0.1100.8404.7650.1890.8820.9610.982ResNet101，带扩张ConvC✗0.1080.8084.7540.1850.8850.9620.982ResNet101，带扩张ConvCC0.1060.8614.6990.1850.8890.9620.982表2. 消融研究。我们模型的不同版本的结果与我们的基线模型Monodepth 2 [14]（MD2 ResNet18）进行比较。我们评估了离散视差量（DDV），自我注意力上下文模块和更大的网络架构的影响。所有模型都使用单目自我监督进行训练。红色表示的符号：越低越好，用蓝色表示：越高越好几乎所有评价措施的评价结果都在稳步改善。较小的ResNet-18模型上的DDV在绝对相对和平方相对测量中比基线有很大的改进然而，ResNet-101在使用DDV时仅显示出比基线小的改进自注意机制大大提高了近距离精度（δ<1。第二十五章）对于两种骨干模型。ResNet-101模型（第6行）中自我注意模块的显著较大改进可能是因为扩张卷积产生的大感受野，这增加了可以通过自我注意操作计算的上下文信息的量。[14]第十四话[14]第十四话我们[14]第十四话我们[14]第十四话4765图4. Monodepth2失效案例。虽然在与单眼训练的（M）Monodepth相同的损失函数上训练[14]，但我们的方法成功地估计了反射车顶（左）和难以描绘的街道标志（右）的深度。类型绝对相对值平方相对RMSElog10卡尔施[20]D0.4285.0798.3890.149[31]第三十一话D0.4756.56210.050.165[26]第二十六话D0.2041.8405.6830.084单深度[13]S0.54410.9411.7600.193周[62]M0.3835.32110.4700.478DDVO [53]M0.3874.7208.0900.204Monodepth2 [14]M0.3223.5897.4170.163我们M0.2972.9027.0130.158表3. Make3D结果。所有自监督单声道（M）模型都使用中值缩放。4.5. 自我注意和深度不确定性虽然自我注意模块和DDV一起提供了显著的定量和定性改进，但它们也提供了次要功能。注意力地图（Eq. 3）来自自注意力模块的图像可以被可视化，以询问由模型学习的对象和视差之间的关系。注意力地图突出显示非连续的图像区域（图1）。5），集中在前地，中景或背景区域。地图也倾向于突出显示远处的物体或静止的视觉物体，如汽车。此外，由于DDV使用离散化的箱对视差射线上的概率进行编码，因此可以通过测量概率分布的方差来计算每条射线的不确定性。图6示出了不确定性随着距离增加的趋势，直到背景图像区域，其被估计为具有非常低的不确定性的接近无限到无限深度这也在能够估计不确定性的监督模型中观察到[29]。高树叶和高阴影的区域（第2行）显示出非常高的不确定性，这可能归因于这些区域中的低对比度和缺乏纹理细节。5. 结论在本文中，我们提出了一种方法来解决学习的挑战，预测准确的差异，仅从单目视频。通过引入自我注意机制来改善模型可用的上下文信息，我们已经实现了最先进的结果，图5. 我们网络的注意力地图。由我们的方法产生的注意力图的子集。蓝色表示关注区域。图6. 网络的不确定性。离散视差体积允许我们计算像素级的深度不确定性。蓝色表示低不确定性区域，绿色/红色区域表示高/最高不确定性区域。在KITTI 2015 [12]数据集上进行单目训练的自监督深度估计。此外，我们通过使用离散视差量来正则化模型的训练，这使我们能够产生更鲁棒和更清晰的深度估计，并计算像素级的深度不确定性。在未来，我们计划调查的好处，incorpo- rating自我关注的姿态模型，以及使用估计的不确定性离群值过滤和体积融合。6. 确认本研究部分得到了数据决策合作研究中心（A.J）和澳大利亚研究委员会的资助，资助项目为DP180103232、CE140100016。G.C.感谢Alexander vonHumboldt-Stiftung对新的研究停留赞助的支持。输入我们的（M）MD2（M）4766引用[1] Markus Achtelik 、 Abraham Bachrach 、 Ruijie He 、Samuel Prentice和Nicholas Roy。立体视觉和激光圆顶--在没有gps的室内环境中尝试自主直升机无人系统技术XI，第7332卷，第733219页。国际光学与光子学会，2009年3[2] Irwan Bello ，Barret Zoph，Ashish Vaswani，JonathonShlens，and Quoc V Le.注意力增强卷积网络。在IEEE计算机视觉国际会议论文集，第3286-3295页3[3] Vincent Casser、Soeren Pik、Reza Mahjourian和AneliaAngelova。没有传感器的深度预测：利用结构进行单目视频的无监督学习。在AAAI，2019年。三、五[4] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L Yuille.Deeplab：使用深度卷积网络、atrous卷积和全连接crfs进行语义arXiv：1606.00915，2016。3[5] 陈良杰、乔治·帕潘德里欧、弗洛里安·施洛夫和哈特维格·亚当。重新思考语义图像分割的atrous卷积。arXiv预印本arXiv：1706.05587，2017. 6[6] Liang-Chieh Chen，Yukun Zhu，George Papandreou，Florian Schroff，and Hartwig Adam.用于语义图像分割的具有粗糙可分离卷积的编码器-解码器。在ECCV，2018。三、六[7] 格雷戈里·杜德克和迈克尔·詹金移动机器人的计算原理。剑桥大学出版社，2010年。3[8] David Eigen和Rob Fergus。使用通用多尺度卷积架构预测深度、表面法线和语义标签在ICCV，2015年。一、三、五、六、七[9] David Eigen、Christian Puhrsch和Rob Fergus。使用多尺度深度网络从单个图像进行深度NeurIPS，2014。一、三、五[10] Huan Fu ， Mingming Gong ， Chaohui Wang ， KayhanBat- manghelich，and Dacheng Tao.用于单目深度估计的深度有序回归在CVPR，2018年。一、二、三、四、五[11] Ravi Garg，Vijay Kumar BG，and Ian Reid.用于单视图深度估计的无监督CNN：把几何图形放回休息室。在ECCV，2016年。二三五六[12] Andreas Geiger，Philip Lenz，and Raquel Urtasun.我们准备好自动驾驶了吗？KITTI视觉基准套件。CVPR，2012。五六八[13] Cle' mentGodard，OisinMacAodha，andGabrie lJBros-tow.具有左右一致性的无监督单目深度估计。在CVPR，2017年。二三五六八[14] Cle' mentGodard ， OisinMacAodha ， MichaelFirman ，andGabriel J. Brostow.深入研究自我监督的单目深度预测。计算机视觉国际会议，2019年10月。二三四五六七八[15] Xiaoyang Guo，Hongsheng Li，Shuai Yi，Jimmy Ren，and Xiaogang Wang.通过提取跨域立体网络学习单眼深度。在ECCV，2018。一、三、五[16] SaurabhGupta，RossGirshick，PabloArbela' ez，andJiten-dra Malik.从rgb-d图像中学习丰富的特征用于目标检测和分割。欧洲计算机视觉会议，第 345-360 页。Springer，2014. 3[17] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在CVPR，2016年。3[18] SeppHochreiter和JürgenSchmidhube r. 长短期记忆。神经计算，9（8）：1735-1780，1997。3[19] Max Jaderberg，Karen Simonyan，Andrew Zisserman，Koray

下载后可阅读完整内容，剩余1页未读，立即下载