没有合适的资源?快使用搜索试试~ 我知道了~
3916F神经窗全连接CRF单目深度估计袁伟豪晓东顾佐卓戴思宇朱平谭阿里巴巴集团摘要从单个图像估计准确的深度是具有挑战性的,因为它本质上是模糊的和不适定的。虽然最近的作品设计越来越复杂和强大的网络直接回归的深度图,我们采取的CRF优化的路径。由于计算成本高,CRF通常在相邻图之间执行,而不是在整个图中执行。为了充分利用全连接CRF的潜力,我们将输入分成窗口并在每个窗口内执行FC-CRF优化,这降低了计算复杂度并使FC-CRF可行。为了更好地捕捉图中节点之间的关系,我们利用多头注意力机制来计算多头势函数,将其馈送到网络以输出优化的深度图。然后,我们建立了一个自底向上-自顶向下的结构,其中这个神经窗口FC-CRFs模块作为解码器,视觉Transformer作为编码器。实验表明,与以前的方法相比,我们的方法在KITTI和NYUv2数据集上的所有指标上都显着提高了性能此外,该方法可以直接应用于全景图像,并优于所有以前的全景方法上的MatterPort3D数据集。11. 介绍深度预测是计算机视觉中的经典任务,并且对于诸如3D重建、自动驾驶和机器人等众多应用是必不可少的[8,13,41,42]。这样的视觉任务的目的是估计深度图,单色图像,这是一个不适定且固有模糊的问题,因为可以将无限多个3D场景投影到同一个2D场景。因此,该任务挑战传统方法[22,23,30],传统方法通常限于低维和稀疏距离[22]或已知和固定对象[23]。最近,许多工作采用深度网络直接回归深度图,并取得了良好的性能[1,2,6,7,17,18]。然而,由于没有多视图的几何约束[9,40,43]可供利用,1项目页面:https://weihaosky.github.io/newcrfs图1.神经窗口全连接CRF以图像特征和上层预测X为输入,并计算每个窗口的全连接能量E,然后将其馈送到网络以输出优化的深度图。大多数工作的重点是设计更强大和更复杂的网络。这使得这项任务在没有其他指导的帮助下成为一个困难的拟合问题。在传统的单目深度估计中,一些方法从马尔可夫随机场(MRF)或条件随机场(CRF)构建能量函数[30,31,37]。他们利用观察线索,如纹理和位置信息,以及最后的预测来构建能量函数,然后优化该能量以获得深度预测。这种方法被证明在指导深度估计方面是有效的,并且也被引入到一些深度方法中[11,20,29,38]。然而,由于计算昂贵,它们都局限于邻居CRF而不是全连接CRF(FC-CRF),而全连接CRF捕获图中任何节点之间的关系并且更强。为了解决上述挑战,在这项工作中,我们将输入分割为多个窗口,并在每个窗口内构建全连接的CRF能量,以这种方式,计算复杂度大大降低,并且全连接的CRF变得可行。为了捕捉图中节点之间的更多关系,我们利用多头注意力机制[35]来计算CRF的成对势,并构建一个新的神经CRF模块,如图1所示。通过使用该神经窗口FC-CRFs模块作为解码器,并使用视觉变换器作为编码器,我们构建了一个简单的自底向上自顶向下网络来估计深度。来弥补3917···每个窗口的隔离,执行窗口移位动作[21],并且通过聚合来自全局平均池化层的全局特征来解决这些窗口FC-CRF中全局信息的缺乏[45]。在实验中,我们的方法被证明在室外数据集KITTI[8]和室内数据集NYUv2 [32]上都以显著的幅度优于先前的方法。虽然KITTI和NYUv2上的最先进性能已经饱和了一段时间,但我们的方法进一步减少了这两个数据集上的错误。KITTI的Abs-Rel误差和RMS误差分别降低了10. 3%和9。8%,NYUv2降低了7. 8%和8. 百分之二。我们的方法在KITTI在线基准测试中排名第一.此外,我们评估我们的方法上的全景图像。众所周知,为透视图像设计的网络通常在全景数据集上表现不佳[14,33,34,36]。值得注意的是,我们的方法还在全景数据集MatterPort3D上设置了新的最先进的性能[3]。这表明我们的方法可以处理单目深度预测任务中的常见场景。这项工作的主要贡献总结如下:该算法将输入图像划分为多个子窗口,在每个子窗口内进行全连接的条件随机场优化,降低了计算复杂度,使FC-CRFs算法具有可行性。我们使用多头注意力来捕捉窗口FC-CRF中的成对关系,并将此神经CRFs模块嵌入网络中作为解码器。我们建立了一个新的自下而上自上而下的网络用于单目深度估计,并在KITTI,NYUv2和MatterPort3D数据集的所有指标上显示了单目深度的显着改善。2. 相关工作2.1. 传统的单目深度估计在深度学习出现之前,单目深度估计是一项具有挑战性的任务。许多已发表的作品限制了自己在估计障碍物的一维距离[22]或限制在几个已知的和固定的ob-boundary [23]。然后Saxena等人[30]声称局部特征本身不足以预测像素的深度,需要考虑整个图像的全局上下文来推断深度。因此,他们使用区分训练的马尔可夫随机场(MRF)来合并多尺度局部和全局图像特征,并对各个像素处的深度以及不同像素处的深度之间的关系进行建模。 通过这种方式,他们从单目线索(如颜色,像素位置,遮挡,已知对象大小,雾度,散焦等)推断出良好的深度图。以来然后,MRF [31]和CRF [37]在传统方法中已被很好地用于单目深度估计。然而,传统的方法仍然受到估计准确的高分辨率密集深度图。2.2. 基于神经网络的单目深度在单目深度估计中,基于神经网络的方法已经主导了大多数基准。主要存在两种用于学习从图像到深度图的映射的方法。第一种方法直接从图像中的信息聚合回归连续深度图[1,6,12,17,18,26,28,39]。在这种方法中,粗网络和细网络首先在[6]中引入,然后在[17]中通过多级局部平面引导层进行在[1]中提出了一个双向注意模块,最近,更多的方法已经开始使用视觉变换器来聚合图像的信息[28]。第二种方法尝试将深度空间离散化,并将深度预测转换为分类或有序回归问题[2,7]。在[7]中使用了一种增加间距的量化策略,以更合理地离散深度空间然后,通过神经网络计算自适应bin划分,以获得更好的此外,其他方法引入辅助信息来帮助深度网络的训练,例如稀疏深度[10]或分段信息[15,24,27,44]。所有这些方法都试图从图像特征直接回归深度图,这陷入了困难的拟合问题。它们的网络结构与这些工作相比,我们使用完全连接的CRF构建能量,然后优化该能量以获得高质量的深度图。2.3. 单眼深度由于图模型,如MRF和CRF,在传统的深度估计中是有效的,一些方法试图将它们嵌入到神经网络中[11,19,20,29,38]。这些方法将像素块视为节点并执行图优化。一种这样的方法首先使用网络来回归粗略的深度图,然后利用CRF来细化它[19],其中CRF的后处理功能然而,CRF与神经网络是分开的。为了更好地结合CRF和网络,其他方法将CRF集成到神经网络的层中,并端到端地训练整个框架[11,20,29,38]。但由于计算复杂度高,它们都局限于CRF,而不是完全连接的CRF。在这项工作中,与以往的方法不同,我们将整个图分割成多个子窗口,使全连接的CRF成为可行的。此外,灵感来自3918×××-×ΣΣ图2.全连接CRF和窗口全连接CRF的图模型。在完全连接的CRF图(a)中,以橙色节点为例,它连接到图中的所有其他节点。然而,在全连接CRF窗口中,橙色节点仅连接到一个窗口内的所有其他节点。最近的工作在视觉Transformer [5,21,35]中,我们使用多头注意机制来捕获FC-CRFs中的成对关系,并提出了神经窗口全连接CRFs模块。该模块嵌入到网络中,起到解码器的作用,使得整个框架可以端到端地训练。3. 神经窗口全连接CRF本节首先介绍窗口全连接CRF,然后介绍其与神经网络的集成然后,显示网络结构,其中神经窗口FC-CRFs模块被嵌入到自顶向下-自底向上网络中以充当解码器。3.1. 全连通条件随机场在传统方法中,利用马尔可夫随机场(MRF)或条件随机场(CRF)来处理密集预测任务,例如单目深度估计[30]和语义分割[4]。它们被示出是有效的,在纠正错误的预测的基础上的当前和相邻节点的信息。具体地,在图模型中,这些方法有利于将类似的标签分配给在空间和颜色上接近的节点。因此,在这项工作中,我们采用CRF来帮助深度成对势函数ψp将节点对连接为p=μ(xi,xj)f(xi,xj)g(Ii,Ij)h(pi,pj),(2)其中如果i =j,则μ(xi,xj)= 1,否则μ(xi,xj)= 0,Ii是节点i的颜色,pi是节点i的位置成对势函数通常考虑颜色和位置信息,实施启发式惩罚,使预测值xi,xj更合理、更符合逻辑。在常规CRF中,成对势仅计算当前节点与邻近节点之间的边连接。然而,在完全连接的CRF中,需要计算图中当前节点与任何其他节点之间的连接,如图2(a)所示。3.2. Window全连接CRF全连接的CRF虽然可以带来全球范围的连接,但其缺点也是显而易见的。一方面,连接图像中所有像素的边缘的数量很大,这使得这种成对势的计算另一方面,像素的深度通常不由距离像素确定。仅需要考虑在某个距离内的像素。因此,在这项工作中,我们提出了基于窗口的全连接CRF。我们将图像分割成多个基于补丁的窗口。每个窗口包括N N个图像块,其中每个块由n n个像素组成。在我们的图模型中,每个补丁,而不是每个像素被视为一个节点。一个窗口内的所有面片都与边完全连接,而不同窗口的面片不连接,如图2(b)所示。在这种情况下,两两势的计算只考虑一个窗口内的面片,从而大大降低了计算复杂度以具有h w块的图像为例,一次迭代的FC-CRF和窗口FC-CRF的计算复杂度是(FC-CRF)=hw×预测. 由于当前像素的深度预测是由一个图像中的长程像素确定的,因此为了增加感受野,我们使用完全连接的CRF [16],(Window FC)=hw×)+hw(N2 1)<$(Np),(三)建立能量。在图模型中,全连接CRF的能量函数通常被定义为E(x)=u(xi)+p(xi,xj),(1)伊伊季其中x i是节点i的预测值,j表示图中的所有其他节点。一元势函数其中N是窗口大小,(μu)和(μp)分别是一个一元势和一个成对势的计算复杂度在窗口全连接CRF中,所有窗口都不重叠,这意味着任何窗口之间都没有信息然而,相邻的窗口是物理连接的。为了解决窗口的隔离问题22由预测器针对每个节点根据图像特征图像,并计算移动的风的能量函数。在计算原始窗口的大小后,3919FFFΣΣ·图3.拟议框架的网络结构。编码器首先在四个级别中提取特征。PPM头聚集全局和局部信息,并根据顶部图像特征进行初始预测X。然后在每一层中,神经窗口全连接CRFs模块从X和建立多头能量,并将其优化为更好的预测X′。在每个级别之间,考虑清晰度和网络权重执行重新排列放大。[21]第21话以这种方式,隔离的邻近像素在移位的窗口中被连接。因此,每次我们计算能量函数时,我们连续计算两个能量函数,一个用于原始窗口,另一个用于移位窗口。3.3. 神经窗FC-CRF在传统的CRF中,一元势通常由预测值上的分布来作用,例如,u(x i)=−log P(x i|(一)、(四)其中I是输入彩色图像,P是值预测的概率分布。通常根据像素对的颜色和位置来计算成对电势,例如,基于节点对的颜色和位置信息来计算。所以我们把它重新表述为p(xi,xj)=w(Fi,Fj,pi,pj)||xi−xj||、(7)其中是特征图,w是加权函数。我们逐个节点计算成对势。对于每个节点i,我们将其所有成对势求和,得到pi=α(Fi,Fj,pi,pj)xi+β(Fi,Fj,pi,pj)xj,(8)j/=i其中,α、β是加权函数,将由网络计算。受Transformer [5,35]中最近工作的启发,我们从窗口中每个补丁的特征图计算查询向量q和关键向量k,并将所有矩阵Q和K的补丁。然后我们计算点p(xi,xj)=µ(xi,xj)||xi−xj||e||Ii−Ij ||2σ2e||pi−pj ||2σ2。(五)矩阵Q和K的乘积,以获得任何对之间的潜在权重,之后预测值X为这种潜力鼓励不同颜色和遥远的像素具有不同的值预测,同时惩罚相似颜色和相邻像素中的这些潜在的功能是由手工设计的,不能太复杂。因此,他们很难代表乘以权重得到最终的成对势。为了引入位置信息,我们还添加了一个相对位置嵌入P。因此,等式8可以被计算为:且描述复杂连接。因此,在这项工作中,我们建议使用神经网络来执行潜在的功能。阿尔普岛阿尔普岛我=SoftMax(q·KT+P)·X=SoftMax(Q·KT+P)·X,(9)对于一元势,它是从图像特征计算的,使得它可以由网络直接获得u(xi)=θu(I,xi),(6)其中θ是一元网络的参数对于成对势,我们意识到它由当前节点和其他节点的值以及权重−−3920其中表示点生成。因此,SoftMax的输出得到等式8的权重α和β。因此,Q和K之间的点积计算每个节点与任何其他节点之间的得分,这确定了P的消息传递权重,而先前预测X和SoftMax的输出之间的点积执行消息传递。3921××××.Σ2我244N4N32N32NΣ××输入图像DORN Ours错误映射图4.KITTI在线基准测试的定性结果,由在线服务器生成3.4. 网络结构概况. 为了将神经窗口全连接CRF嵌入深度预测网络,我们构建了一个自底向上-自顶向下的结构,其中执行了四级CRF优化,如图3所示。我们将这个神经窗口FC-CRFs模块嵌入到网络中作为解码器,它根据粗深度和图像特征预测下一级深度。对于编码器,我们采用swin-transformer [21]来提取特征。对于大小为H×W的图像,有四个能量函数的捕船能力。从顶层到底层,采用32、16、8、4头的结构。然后将能量函数馈送到由两个全连接层组成的优化网络中,以输出优化的深度图X’。升级模块。 神经窗FC-CRFs在前三层解码后,对像素进行重排,使图像从h× w× d放大到h × w × d。一方面这用于特征提取编码器和CRF优化解码器的图像补丁的级别,从44像素至3232像素。 在每一层,NN个补丁组成一个窗口窗口大小N在所有级别都是固定的,因此在底部级别将存在HW窗口,而在顶部级别将存在HW全球信息聚合。在顶层,为了弥补窗口FC-CRF的全局信息的缺乏,我们使用金字塔池化模块(PPM)[45]来聚合整个图像的信息。与[45]类似,我们使用尺度1,2,3,6的全局平均池来提取全局信息,然后将其与输入特征相关联,以通过卷积层映射到顶层预测X。神经窗口FC-CRF模块。在每个神经窗口FC-CRF块中,有两个连续的CRF优化,一个用于常规窗口,另一个用于操作以更大的比例将流增加到下一个级别,而不会像上采样那样失去锐度。另一方面,这降低了特征维数以减轻后续网络。训练损失。根据以前的工作[2,17,18],我们使用由以下提出的尺度不变对数(SILog)损失:[6]监督培训。给定地面实况深度图,我们首先计算预测深度图和实际深度之间的对数差di=logd其中,di是地面实况深度值,并且di是像素i处的预测深度。然后,对于图像中具有有效深度值的K个像素,尺度不变损失计算为:移动窗口为了与Transformer编码器协作,窗口大小N被设置为7,这意味着每个窗口包含7 × 7个补丁。一元势由卷积网络计算,成对势由卷积网络计算。L=α1第2章K 我λ (第一节)2,(11)K2我根据等式9计算Tal。在每个CRF优化中,计算多头Q和K以获得多头势,这可以增强与其中λ是方差最小化因子,α是尺度常数。在我们的实验中,λ被设置为0。85和α设置为10以下以前的作品[17]。−3922−−- -−- -4 ×4×方法上限绝对值Rel ↓ Sq Rel ↓ RMSE ↓ RMSE log↓δ<1。25↑δ<1。252↑δ<1。253↑Eigen等人 [6]0-80m0. 1901. 5157. 1560. 2700 6920. 8990. 967Liu等人 [20]0-80m0. 2177. 0460. 6560.8810. 958Xu等人 [38]0-80m0. 1220 8974. 6770. 8180. 9540. 985DORN[7]0-80m0.07203072. 七二七 0.12009320. 9840. 995Yin等人 [39]0-80m0. 0723. 2580. 1170. 9380. 9900。998BTS[17]0-80m0. 0590. 2412. 7560. 0960. 9560. 9930. 998PackNet-SAN[10]0-80m0. 062 22. 888 0.955Adabin[2]0-80m0. 0580. 1902. 360度0880. 9640. 九九五 0. 999DPT*[28]0-80m0. 062 22. 5730. 0920. 九五九0. 九九五 0. 999PWA[18]0-80m0. 0600 2212. 6040. 0930. 9580. 9940. 999我们的0- 80米 0. 0520. 1552. 1290. 0790. 9740. 九九七零。999表1. KITTI数据集特征分裂的定量结果。报告了七个广泛使用的指标。“绝对相对误差”是主要的排名指标。请注意,“Sq Rel”误差在这里以不同的方式计算。“*” means using additional data for方法数据集SILog ↓ Abs Rel ↓ Sq Rel ↓ iRMSE ↓ RMSE ↓δ<1。25↑δ<1。252↑ δ<1。253↑DORN[7]val12. 2211 783. 0311. 683.8009130. 9850. 995BTS[17]val10.677.511598. 103. 370. 9380. 9870. 996BA-Full[1]val10. 648. 251.818.四七三3009380. 9880. 997我们的8号。315540 896. 342.5509680. 九九五 0. 998[7]第十一届中国国际汽车工业展览会778. 782. 二十三十二98− − − −[17]第11话. 679. 042.211223− − − −[1]第11话.619382. 291223− − − −[10]第11话. 549. 12个 2. 3512. 38− − − −[18]第11话. 459. 052. 3012. 32− − − −我们的在线测试 10. 398. 371. 8311. 03− − − −表2. KITTI数据集官方分割的定量结果。八个广泛使用的指标报告的验证集,而只有四个指标可从在线评估服务器的测试集。“SILog”误差是主要的排名指标。在本文提交时,我们的方法在KITTI深度预测在线基准的所有提交中排名第一4. 实验4.1. 实现细节我们的工作在Pytorch中实现,并在Nvidia GTX2080 Ti GPU上进行了实验。 网络使用Adam优化器进行端到端优化(β1= 0。9,β1= 0。999)。训练运行20个epoch,学习率为1 10−4,批量大小为8。输出深度图是原始图像的11倍大小,然后将其调整为完整分辨率。4.2. 数据集KITTI数据集。KITTI数据集[8]是最常用的基准,从移动的车辆中捕获户外场景。有两种主要用于单目深度估计的分割。一个是Eigen等人提出的训练/测试分离。[6]使用23488个训练图像对和697个测试图像。另一个是由Geiger等人提出的官方分裂。42949个训练图像对,1000个验证图像和500个测试图像。对于官方的分割,测试图像的地面实况深度图被在线评估基准保留。NYUv2数据集。NYUv2 [32]是室内数据集,从464个室内场景中捕获的120KRGB-D视频。我们遵循官方的训练/测试划分来评估我们的方法,其中249个场景用于训练,来自215个场景的654个图像用于测试。MatterPort3D数据集。为了验证该方法在更多领域的有效性,我们还对全景图像进行了评估。MatterPort3D [3]是全景深度估计中所有广泛使用的数据集中最大的真实世界数据集。在正式拆分之后,我们使用来自61所房屋的7829张图像来训练我们的网络,然后在合并的957张验证图像和2014张测试图像上评估模型。在训练和评估中,所有图像都被调整为1024×5124.3. 评价对KITTI的评价。对于户外场景,我们评估我们的方法在KITTI数据集上。我们首先对特征分裂进行训练和测试,其中测试图像是可用的,以便网络可以更好地调整。结果报告在表1中,我们可以看到,我们的方法比以前的方法有很大的优势。几乎所有的错误都减少了约10%。具体地,“Abs-Rel”、“Sq Rel”、“RMSE”和“RMSE”可以被用于计算“3923- -- -- -- -- -- -- -- --- --输入图片BTS Adabins Ours Ground truth图5. NYUv2数据集上的定性结果。方法Abs Rel ↓ Sq Rel ↓ RMSE ↓ RMSE log↓ log10 ↓δ<1。25↑δ<1。252↑δ<1。253↑Liu等人 [20]这是一个很好的例子。2300 8240. 0950. 6140. 8830. 971Xu等人 [38]这是一个很好的例子。1250 5930. 0570. 8060. 9520. 986[7]第七话1150. 5090.0510. 8280. 9650. 992Yin等人 [39]这是一个很好的例子。1080. 4160. 0480. 8750. 9760. 994[17]第十七话1100 0660. 3920. 1420. 0470. 8850. 9780. 994[12]第十二话1080. 4120. 8820.9800996PackNet-SAN* [10]0. 1060. 3930. 8920. 9790. 995Adabin[2]0. 1030. 3640. 0440. 9030. 9840. 997DPT*[28]0. 1100 3570. 0450. 9040. 9880. 998[18]第十八话1050. 3740. 0450. 8920. 9850. 997我们的 0。0950. 0450. 3340. 1190.0410。922 0. 9920. 998表3.NYUv2的定量结果“RMSE log“错误减少10。百分之三,十八。4%,9.8%,10。2%,分别。虽然我们的方法是在没有额外数据的情况下训练的,但它可以胜过以前用额外训练数据训练的方法。然后,我们在KITTI官方分割上评估我们的方法验证集和测试集的结果均见表2。测试集的结果引用自在线基准,验证集的结果引用自BANet [1]。在这里,我们可以看到,我们的方法显着降低了主要的排名指标,SILog错误。我们的方法现在在KITTI深度预测在线服务器上的所有提交中排名第一预测深度图和在线服务器生成的错误图的彩色可视化如图4所示。我们的方法预测更干净和更平滑的深度,同时保持对象的更锐利的边缘,例如,人类的边缘对NYUv2的评价。对于室内场景,我们在NYUv2数据集上评估了我们的方法。自从国家NYUv2数据集上的艺术性能已经饱和了一段时间,一些方法已经开始使用额外的数据来预训练模型,然后在NYUv2训练集上对其进行微调[10,28]。因此,在没有任何额外数据的情况下,我们的方法可以显着提高所有指标的性能,如表3所示。具体地,“Abs Rel”误差减小到0以内。1和“<δ 1. 252这强调了我们的方法在改善结果方面的贡献。图5中的定性结果表明,我们的方法估计更好的深度,特别是在困难的区域,如重复的纹理,凌乱的环境和光线不好。在MatterPort3D上进行评估。如在相关著作中所研究的,直接将用于透视图像的深度网络等矩形投影是次优的,因为它朝着极点扭曲[14,33,34,36]。因此,该任务中的方法尝试各种方式来将全景图像转换为无失真形状,例如,的3924方法吸光度相对值↓Abs↓RMSE↓RMSElog↓δ<1。25↑δ<1。252↑δ<1。253↑[46]第四十六话0的情况。29010的情况。48380的情况。76430的情况。14500的情况。68300的情况。87940的情况。9429[36]第三十六话0的情况。20480的情况。34700的情况。62590的情况。11340的情况。84520的情况。93190的情况。9632[25]第二十五话0的情况。17640的情况。32960的情况。61330的情况。10450的情况。87160的情况。94830的情况。9716HOHONet [33]0的情况。14880的情况。28620的情况。51380的情况。08710的情况。87860的情况。95190的情况。9771免费WiFi [14]0的情况。10630的情况。28140的情况。49410的情况。07010的情况。88970的情况。96230的情况。9831我们0的情况。09060的情况。22520的情况。47780的情况。06380的情况。91970的情况。97610的情况。9909我们的 *0的情况。07930的情况。19700的情况。42790的情况。05750的情况。93760的情况。98120的情况。9933表4.Matterport3D数据集上的定量结果设置 绝对相对值平方相对RMSE R测井1 .一、251 .一、252基线0的情况。0690的情况。256二、6100的情况。1030的情况。9470的情况。993神经CRF0的情况。0550的情况。185二、3220的情况。0860的情况。9650的情况。995+ S0的情况。0540的情况。174二、2970的情况。0840的情况。9680的情况。996+ S + R0的情况。0540的情况。168二、2710的情况。0830的情况。9700的情况。996+ S + R + P0的情况。0520的情况。155二、1290的情况。0790的情况。9740的情况。997八,四,二,一0的情况。0550的情况。165二、2030的情况。0830的情况。9700的情况。996十六八四二0的情况。0540的情况。162二、1720的情况。0810的情况。9720的情况。997三十二十六八四0的情况。0520的情况。155二、1290的情况。0790的情况。9740的情况。997表5. KITTI数据集特征分裂的消融研究。这里报告了表1中使用的前六个指标。“S”是指窗口移位,“R”是指重新排列高档,“P”是指PPM头。最后三行显示使用不同数量的磁头的结果。cubemap投影[14,36],水平特征表示[33]和球形卷积滤波器[34]。与上述方法相比,我们直接将我们为透视图像设计的网络应用于全景图像,并且优于所有以前的方法,如表4所示。具体地,“Abs Rel”和“Abs”误差减少了14。8%和20。0%。此外,我们意识到MatterPort3D的训练集数量很少,因此我们在现实世界中收集了更多的数据我们使用50K图像来预训练网络,然后在MatterPort3D训练集上对其进行微调,从而获得更好的性能,如表4所示。用更多数据预训练的模型由“Ours*"表示这表明使用更多图像的预训练可以明显提高全景深度估计的性能。4.4. 消融研究为了更好地检查我们的方法中每个模块的效果,我们通过消融研究评估每个组件,并在表5中呈现结果。基线vs.神经CRF。为了验证所提出的神经窗口全连接FC-CRF的有效性,我们建立了一个基线模型。这个模型是一个很好用的UNet结构,与我们的编码器相同。换句话说,与我们的完整方法相比,PPM头和后端放大器被移除,解码器被替换为3925使用广泛的卷积解码器然后,基于该基线,我们仅用我们的神经窗口FC-CRF模块替换解码器,并获得如表5所示的显著性能改善。“绝对相对”误差从0降低。069比0 055然后是0。054.第054章换个姿势这证明了神经窗口FC-CRF在估计准确深度方面的有效性。重新安排高档。在基本的神经FC-CRF结构之上,我们增加了重新排列的高阶模块。从该模块获得的性能增量并不大,但在视觉上输出的深度图具有更清晰的边缘,并且网络的参数减小。PPM头。PPM头汇总窗口FC-CRF中缺少的全局信息。该模块可以在仅用局部信息难以估计的一些区域中提供帮助复杂的纹理和白色的墙壁。从表5中的结果,我们看到这个模块有助于我们的框架的性能。多头能量。 计算CRF能量以多头方式。头数越多,网络捕捉两两关系的能力越强,但网络的权重也越大。在先前的实验中,四个水平中的头的数目被设置为32、16、8、4。在这里,我们使用更少的头来看看轻量级结构的性能如何。从表5中的结果来看,较少的磁头导致较小的性能下降。5. 结论我们提出了一个神经窗口全连接CRF模块来解决单目深度估计问题。为了解决FC-CRF的昂贵计算,我们将输入分成子窗口并计算每个窗口内的成对电位。为了捕捉图的节点之间的关系,我们利用多头注意力来计算神经势函数。该神经窗口FC-CRFs模块可以直接嵌入到自底向上-自顶向下结构中,并用作解码器,其与Transformer编码器协作并预测准确的深度图。实验表明,我们的方法显着优于以前的方法,并设置一个新的国家的最先进的性能KITTI,NYUv2和MatterPort3D数据集。3926引用[1] Shubhra Aich , Jean Marie Uwabeza Vianney , MdAmirul Is-lam,Mannat Kaur,and Bingbing Liu.用于单目深度估计的双向在IEEE机器人和自动化国际会议论文集,第11746-11752页,2021年。一、二、六、七[2] Shariq Farooq Bhat , Ibraheem Alhashim , and PeterWonka. Adabins:使用自适应箱的深度估计。在IEEE计算机视觉和模式识别会议论文集,第4009-4018页,2021年。一、二、五、六、七[3] Angel Chang,Angela Dai,Thomas Funkhouser,MaciejHalber , Matthias Niessner , Manolis Savva , ShuranSong,Andy Zeng,and Yinda Zhang. Matterport3d:室内 环 境 中 rgb-d 数 据 的 学 习 。 arXiv 预 印 本 arXiv :1709.06158,2017。二、六[4] Liang-ChiehChen , GeorgePapandreou , IasonasKokkinos,Kevin Murphy,and Alan L Yuille.Deeplab:使用深度卷积网络、atrous卷积和全连接crfs进行语义IEEE Transactions on Pattern Analysis and MachineIntelligence,40(4):834-848,2017。3[5] AlexeyDosovitskiy,LucasBeyer,AlexanderKolesnikov,Dirk Weissenborn,Xiaohua Zhai,ThomasUnterthiner , Mostafa Dehghani , Matthias Minderer ,Georg Heigold,Sylvain Gelly,et al.一张图片相当于16x16个单词:用于大规模图像识别的变换器.在2020年学习代表国际会议的论文集。二、四[6] David Eigen、Christian Puhrsch和Rob Fergus。使用多尺度深度网络从单个图像进行深度神经信息处理系统进展,第2366-2374页,2014年。一、二、五、六[7] Huan Fu , Mingming Gong , Chaohui Wang , KayhanBat- manghelich,and Dacheng Tao.用于单目深度估计的深度有序回归在IEEE计算机视觉和模式识别会议集,第2002-2011页,2018。一、二、六、七[8] Andreas Geiger,Philip Lenz,and Raquel Urtasun.我们准备好自动驾驶了吗?Kitti Vision基准套件。IEEE计算机 视 觉 和 模 式 识 别 会 议 论 文 集 , 第 3354-3361 页 。IEEE,2012。一、二、六[9] Xiaodong Gu,Weihao Yuan,Zuozhuo Dai,ChengzhouTang,Siyu Zhu,and Ping Tan.Dro:深复发-从运动中重建结构的租金优化器。arXiv预印本arXiv:2103.13201,2021。1[10] Vitor Guizilini,Rares Ambrus,Wolfram Burgard,andAdrien Gaidon.用于统一单目深度预测和完井的稀疏辅助网络。在IEEE计算机视觉和模式识别会议论文集,第11078-11088页,2021年。二六七[11] 颜婳和胡天。卷积条件随机场网络深度估计。神经计算,214:546-554,2016。一、二[12] Lam Huynh , Phong Nguyen-Ha , Jiri Matas , EsaRahtu,and JanneHeikuya?使用深度注意体积指导单目深度估计在欧洲会议记录中计算机视觉会议,第581-597页。Springer,2020年。二、七[13] Shahram Izadi , David Kim , Otmar Hilliges , DavidMolyneaux , Richard Newcombe , Pushmeet Kohli ,Jamie Shotton,Steve Hodges,Dustin Freeman,AndrewDavison,et al.运动融合:使用移动深度照相机的实时3D重建和交互。在Proceedings of the 24th annual ACMsymposium on User interface software and technology ,pages 559-568,2011中。1[14] 姜华烈,盛哲,朱思宇,董子龙,黄锐。Unifuse:用于360全景深度估计的单向融合。IEEE Robotics andAutomation Letters,6(2):1519-1526,2021。二七八[15] MarvinKlingner , Jan-AikeTermöhlen , JonasMikolajczyk,and Tim Fingscheidt.自我监督单眼深度估计:用语义指导求解动态对象问题。欧洲计算机视觉会议论文集,第582-600页。Springer,2020年。2[16] Phi l ippKr?henb?hl和VladlenKoltun。具有高斯边势的全连通crfs的有效 推 理Advances in Neural InformationProcessing Systems,24:109- 117,2011。3[17] Jin Han Lee,Myung-Kyu Han,Dong Wook Ko,和一弘淑从大到小:用于单目深度估计的多尺度局部平面引导。arXiv预印本arXiv:1907.10326,2019。一、二、五、六、七[18] Sihaeng Lee , Janghyeon Lee , Byungju Kim , EojindlYi,and Junmo Kim.用于单目深度估计的分块注意力网络。在AAAI人工智能会议论文集,第35卷,第1873-1881页一、二、五、六、七[19] 李波,沈春华,戴玉超,安东范登亨格尔,何明义。基于深度特征回归和分层crfs的单目图像深度和表面法线估计。在IEEE计算机视觉和模式识别会议论文集,第1119-
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 高清艺术文字图标资源,PNG和ICO格式免费下载
- mui框架HTML5应用界面组件使用示例教程
- Vue.js开发利器:chrome-vue-devtools插件解析
- 掌握ElectronBrowserJS:打造跨平台电子应用
- 前端导师教程:构建与部署社交证明页面
- Java多线程与线程安全在断点续传中的实现
- 免Root一键卸载安卓预装应用教程
- 易语言实现高级表格滚动条完美控制技巧
- 超声波测距尺的源码实现
- 数据可视化与交互:构建易用的数据界面
- 实现Discourse外聘回复自动标记的简易插件
- 链表的头插法与尾插法实现及长度计算
- Playwright与Typescript及Mocha集成:自动化UI测试实践指南
- 128x128像素线性工具图标下载集合
- 易语言安装包程序增强版:智能导入与重复库过滤
- 利用AJAX与Spotify API在Google地图中探索世界音乐排行榜
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功