没有合适的资源?快使用搜索试试~ 我知道了~
58610到处都是注意力:使用跳跃注意力进行单目深度预测0Ashutosh Agarwal Chetan Arora印度德里理工学院0摘要0单目深度估计(MDE)旨在根据单个RGB图像预测逐像素的深度。对于卷积模型和最近的基于注意力的模型,编码器-解码器架构因需要同时考虑全局上下文和像素级分辨率而被发现是有用的。通常,使用跳跃连接模块来融合编码器和解码器特征,该模块包括特征图串联后跟卷积操作。受到注意力在多种计算机视觉问题中的证明效果的启发,我们提出了一种基于注意力的编码器和解码器特征融合方法。我们将MDE作为像素查询细化问题来提出,其中最粗糙级别的编码器特征用于初始化像素级查询,然后通过提出的SkipAttention模块(SAM)将其细化到更高的分辨率。我们将预测问题制定为对离散化连续深度范围的分bin中心进行序数回归,并引入了一个Bin CenterPredictor(BCP)模块,该模块使用像素查询在最粗糙的级别上预测bin。除了图像自适应深度分bin的好处外,所提出的设计还通过直接从地面真实值进行像素查询的直接监督来学习改进的深度嵌入。在两个经典数据集NYUV2和KITTI上进行了大量实验,结果显示我们的架构分别比现有技术提高了5.3%和3.9%,在SUNRGBD数据集上的泛化性能提高了9.4%。代码可在https://github.com/ashutosh1807/PixelFormer.git上找到。01. 引言0单目深度估计(MDE)是计算机视觉中一个经过深入研究的主题。MDE的最新技术基于编码器-解码器风格的卷积神经网络(CNN)架构[4, 5, 17, 18, 21,34]。由于卷积核的固有局部性质,早期的特征图具有更高的分辨率,但缺乏全局感受野。特征金字塔0输入 NeWCRFs [35] 我们的 GT0图1:我们观察到现有技术[35]中的深度边界与物体边界很好地对齐,但深度标签常常是错误的。请注意第一行中中间枕头和第二行中的床的混淆。我们提出了跳跃注意力模块,用于将解码器中的长距离上下文融合到编码器特征中,成功地减轻了这种差异。0基于解码器通过将低分辨率、语义丰富的解码器特征与高分辨率但语义较弱的编码器特征融合,通过自顶向下的路径和称为跳跃连接的横向连接来缓解这个问题[19]。与最近transformers的成功一致,许多最新的工作都使用了基于自注意力的架构进行MDE[1, 2, 33,35]。自注意力增加了感受野,并允许捕捉特征图中的长距离依赖关系。实际上,由于内存和计算约束,使用自注意力处理高分辨率特征图是具有挑战性的。因此,当前的SOTA[35]使用基于Swintransformer的编码器骨干网络的基于窗口的注意力来提高效率。我们观察到SOTA[2,35]技术在将深度边缘与物体边界对齐方面非常准确。然而,在给像素分配深度标签时存在混淆(参见图1)。我们认为这是由于当前技术无法有效地融合来自编码器的高分辨率局部特征和来自解码器的全局上下文特征。通常,这种融合是通过一个跳跃连接模块实现的,该模块实现了特征串联,然后是卷积操作。卷积核的权重高度局部化,限制了来自长距离的语义信息的流动。58620范围影响模型预测像素的正确深度标签的能力。为了缓解这个约束,我们引入了一个跳跃注意力模块(SAM),它利用基于窗口的交叉注意力来集成信息。SAM根据解码器特征和编码器特征中预定义窗口内的相应邻居之间的自相似性计算像素查询之间的交叉注意力,并在更长的范围内聚合信息。我们将整体架构实现为像素查询细化问题。我们使用编码器中具有最大全局信息的最粗特征图使用像素查询初始化器模块来初始化像素查询。然后,通过SAM模块将像素查询细化到更细的尺度。0最近的MDE技术[2]将问题形式化为分类回归问题,其中深度通过离散化在深度范围内的bin中心的线性组合来预测。每个图像都可以自适应地预测bin中心,使得网络可以集中在输入图像场景中更有可能出现的深度范围区域。通常使用一个从另一个编码器-解码器型Transformer模型的输出中聚合全局信息的视觉Transformer来生成bin中心。由于我们将MDE作为从最粗分辨率开始的像素查询细化问题,我们提出了一个轻量级的BinCenter模块(BCP),它基于初始像素查询预测bin中心。这比在当前的SOTA[2]中解码特征然后再次进行注意力更高效。所提出的设计还通过直接的地面真实监督将深度信息嵌入到初始像素查询中。0贡献:本文的具体贡献如下:(1)我们提出了一种将单个图像视为像素查询细化问题来预测深度的新策略。(2)我们引入了一个跳跃注意力模块(SAM),它使用基于窗口的交叉注意力模块来从解码器特征图中细化像素查询,以进行跨分辨率的交叉注意力。(3)我们提出了一个BinCenter预测器(BCP)模块,它使用来自最粗级特征图的全局信息自适应地估计每个图像的bin中心。这有助于通过地面真实深度对初始像素查询进行直接监督,从而改善查询嵌入。(4)我们将这些新颖的设计元素结合在一个由视觉Transformer骨干组成的编码器-解码器框架中。所提出的架构称为PixelFormer,在室内NYUV2和室外KITTI数据集上实现了最先进(SOTA)的性能,绝对相对误差和平方相对误差分别提高了5.3%和3.9%。此外,PixelFormer在SUNRGBD数据集上的绝对相对误差方面,相对于SOTA提高了9.4%。02. 相关工作0基于CNN的MDE技术:Eigen等人[4]首次利用CNN从单个图像中预测深度,通过整合全局和局部信息。Song等人[29]提出了基于拉普拉斯金字塔的模型,CLIFFNet[31]提出了一种多尺度卷积融合架构来生成高质量的深度预测。Yin等人[34]引入了一种名为“虚拟法线”的几何约束,Naderi等人[21]提出了RGB图像与几何边缘处对应深度图之间的相似性来规范预测的深度。Lee等人[18]通过学习彼此相邻的图像块之间的关系来使模型学习场景的结构信息。而Patil等人[24]利用共面像素来改善预测的深度。0基于Transformer的MDE模型:最近的研究使用VisionTransformer(ViT)架构来改善CNN在较低层的感受野。Ranftl等人[25]使用CNN在-1处提取特征图。016分辨率的特征图,这些特征图传递给视觉变换器以进行全局信息聚合。Bhat等人[2]使用基于CNN的编码器-解码器骨干网络和ViT模型来预测自适应的bin和像素级深度。NeWCRFs[35]使用SwinTransformer骨干网络[20]和多个尺度上的CRFs。0将MDE建模为分类任务与回归任务:将MDE建模为回归问题会导致次优解和收敛问题。Huan等人[5]首次将深度预测任务作为分类-回归问题,通过基于CNN的分类网络解决,其中深度被预测为离散化的bin中心在深度范围上的线性组合。最近,Bhat等人[2]提出了在基于变换器的编码器-解码器骨干网络之上使用ViT变换器自适应地预测每个图像的bin中心。在这项工作中,我们提出了一个单一的编码器-解码器骨干网络,其中包含一个轻量级的BCP模块,使用最粗分辨率的编码器特征图来预测bin中心。0跳跃连接:UNet[26]引入了跳跃连接,通过特征融合将高分辨率信息从编码器传递到解码器。然而,早期编码器和后期解码器信息的简单融合受到它们之间语义差距的限制[36]。MultiResUnet[13]用一系列残差块取代了简单的跳跃连接,以减轻语义差距。AttentionU-Net[22]在特征融合之前,抑制输入图像中的无关区域,突出对特定任务有用的显著特征。SANet[32]使用注意力机制通过编码器注入信息,完成解码器阶段的点云补全。在这项工作中,我们使用跳跃注意力机制,基于解码器特征使用全局上下文查询检索编码器特征中的高分辨率细节。nated. A convolution operation is then performed to inte-grate the global information effectively, as in [35], to get58630图2:我们提出的PixelFormer方法的详细架构:给定输入图像,首先使用基于视觉变换器的编码器提取多尺度特征图。具有最粗分辨率(E4)的特征图作为输入传递给PQI模块。PQI模块产生初始像素查询,这些查询作为输入传递给BCP模块,该模块产生bin宽度。使用SAM模块将初始像素查询逐渐细化到更高的分辨率。最后,对每个像素应用卷积操作,然后应用softmax函数,以获得每个像素对bin中心的概率分布。03. 提出的方法0问题定义:根据[2,5],我们将MDE建模为分类-回归任务。给定输入图像I,网络预测将连续深度范围离散化为n个间隔的bin宽度b。这些bin是针对每个图像自适应预测的。最终的n维概率向量被视为权重向量,像素i处的深度di被计算为像素处预测的每个图像bin中心的概率分数的线性组合。0架构概述:首先将输入图像I输入到SwinTransformer[20]中,该模型使用基于窗口的自注意力机制提取表示图像的特征图,分辨率为{1032 } w.r.t. I . 由于ViT骨干网络的固有特性,特征图具有全局感受野。特征图在位置1处032分辨率的特征图然后输入到提出的Pixel QueryInitialiser(PQI)模块中。PQI模块使用多尺度全局平均池化聚合整个场景信息,以初始化像素查询。像素查询使用编码器特征图进行分层精化,使用部署在各个阶段的提出的Skip AttentionModule(SAM)预测每个像素上的bin中心的概率分布。初始化的像素查询也被发送到Bin Center模块中。0本文提出的箱中心预测器(BCP)。BCP使用全局平均池化和MLP层来自适应地预测每个图像的箱中心。图2给出了一个图示描述。0像素查询初始化器(PQI):像素查询初始化器(PQI)模块将场景的全局信息聚合到每个像素级嵌入中。具有最粗分辨率的图像特征图,其中包含场景中最重要的细节,被作为PQI模块的输入。给定大小为H的输入特征图032 × C4,PQI模块使用金字塔空间池化(PSP)[11]在尺度1、2、3和6上进行自适应全局池化。然后将特征图上采样到1032 × C,其中C = 512。0箱中心预测器(BCP):之前的工作[2]使用视觉变换器(ViT)来预测将图像深度离散化为固定数量间隔的箱中心。ViT将图像特征图分成16×16个补丁,并使用自注意力层在补丁之间交换信息。第一个嵌入通过MLP头传递以预测箱中心。我们提出了一种不需要将特征图解码到高分辨率然后使用ViT的方法。+58640使用初始像素查询来预测箱中心。除了更高效外,所提出的设计还通过直接的地面真实监督将深度信息嵌入到像素查询中。我们的BCP模块由一个简单的全局平均池化和一个MLP层组成,用于预测维度为n个箱子的箱宽b。这里,n个箱子表示每个图像的自适应箱子数量。我们在我们的模型中使用n个箱子=256,如[2]中建议的。给定大小为H的像素查询QI032 × W032 ×C,我们预测:0b = MLP(GAP(Q))(1)0最后,计算输入图像的箱中心为:0c(bi)= dmin +(dmax - dmin)× bi0j = 1 bj0,(2)0i ∈ {1, ..., nbins}0跳过注意力模块(SAM)概述:对于密集估计任务,粗粒度的语义特征和细节都对准确估计至关重要。因此,与之前的工作[19,35]类似,我们也采用自下而上的方法,从最低分辨率的特征图开始,上采样并使用跳跃连接从编码器特征图中注入细节。通常,跳跃连接在连接编码器-解码器特征之后使用卷积操作。与卷积操作不同,卷积操作融合编码器-解码器特征时,卷积核权重不随像素位置自适应,我们使用跳跃注意力模块(SAM),该模块使用像素查询和相应的编码器特征图之间的自相似性,有效地融合全局-局部特征。0SAM实现:给定特定尺度i的像素查询图ˆQi和相应的编码器特征Ei,我们首先对Ei和ˆQi进行3×3卷积Ei,使得从解码器特征生成的像素查询的通道数与编码器特征图中的通道数相同。卷积操作后,从ˆQi获得查询矩阵Q,使用MLP层实现的权重Wq、Wk和Wv从Ei中获得键K和值V矩阵。由于对于与位置i对应的像素查询qi来说,计算上不可行,无法将其关注点放在矩阵K的所有键上,我们将注意力限制在窗口内,如Swin Transformer[20]建议的那样。首先将Q、K和V矩阵划分为大小为W×W的窗口。与[20]类似,我们使用W =7。设Qw、Kw和Vw分别是窗口w中像素的查询、键和值。0我们计算输出如下:0Attention(Q, K, V) = Rearrange(Softmax(QwKTw + B)Vw).0这里,B表示相对位置偏差。B是一个可学习的大小为w2×w2的矩阵,表示与每个查询和键对应的相对位置嵌入。注意力计算在每个窗口w之后进行,然后重新排列操作根据Q中的各个空间位置将窗口放置在相应的位置。为了嵌入与各个深度范围对应的信息,每个像素查询被分成Hi个头,对每个头应用注意力操作。注意力操作后,使用MLP层对每个像素深度嵌入进行聚合。注意力和MLP层后的残差连接用于平滑梯度流动。总结起来,给定ˆQi和Ei,对于像素查询和编码器的级别i:0¯Qi = LayerNorm(ˆQi)¯Ei = LayerNorm(Ei)0Q = WQ¯Qi, K = WK¯Ei, V = WV¯Ei ˆQi−1 =MultiheadAttention(Q, K, V) + ˆQi ˆQi−1 = MLP(ˆQi−1) +ˆQi−1 ˆQi−1 = MLP(ˆQi−1) + ˆQi + Ei0我们使用D1,D2,D3,D4 = {128, 256, 512,1024},其中Di对应于在第i阶段在注意力融合之前应用的卷积核中的通道数。头数H1,H2,H3,H4 = {4, 8, 16,32},其中Hi表示在级别i的SAM模块中使用的注意力头数。更多细节可以参见图2。0解码器架构:如图2所示,我们从PQI模块输出的初始像素查询ˆQI开始。使用Pixel Shuffle[27]将ˆQI上采样到两倍的分辨率大小,并将其与相应的编码器特征E4一起作为输入发送到SAM模块。通过我们提出的SAM模块,将初始像素查询精细化到更细的分辨率,通过关注多尺度编码器特征图的各个分辨率。对于给定的级别ˆQi的像素查询和相应的编码器特征Ei,0ˆQi = SAM(Upsample(ˆQi+1, Ei+1) i ∈ {0, 1, 2, 3}.0这里,ˆQ4与ˆQI相同。对ˆQ0进行卷积操作,得到最终的大小为H的深度嵌入F032 × nbins。最后,应用像素级softmax操作以获得每个bin的概率分布pbins:0pbins = Softmax(Conv(ˆQ0))(3).(5)58650最终深度通过以概率值加权的bin中心的线性组合来预测:0di =0k=1 c(bk)pik, (4)0其中di是像素i处的预测深度,c(bk)是第k个0bin center,nbins是bin的数量,pik是像素i的bin centerk的概率。0训练损失:根据之前的工作[2,35],我们使用缩放版本的尺度不变损失(SILog)[4]来监督我们的网络。给定像素位置i处的地面真实深度(d�i)和预测深度(di),首先计算di和d�i之间的对数距离:gi =log(ˆdi) - log(d�i)。然后计算SILog损失如下:0L SILog = α0� � � � 10n0�0igi−λ0n 20��0i g i0�20这里,n表示图像中具有地面真实值的像素数量。根据[2],我们在所有实验中使用λ = 0.85和α = 10。04. 数据集和评估0NYU Depth V2:NYUV2[28]是一个室内数据集,包含120K个RGB和深度图像对,大小为480×640,是使用MicrosoftKinect从464个室内场景的视频序列中获取的。我们遵循官方的训练/测试划分来评估我们的方法,其中使用了249个场景的50K图像进行训练,215个场景的654个图像进行测试。我们使用Eigen等人提出的中心裁剪方法[4],深度图像的上限为10米。我们的网络输出具有120×160的分辨率的深度预测,在训练和测试过程中通过4倍上采样以匹配地面真实分辨率。0KITTI数据集:KITTI[8]是一个室外数据集,包含由多个传感器捕获的61个场景的立体图像和3D扫描。数据集包含一个分辨率为1241×375像素的输入RGB图像,以及与之对应的LIDAR扫描。我们使用[4]定义的训练/测试划分,其中包括官方KITTI数据集中的26K个左视图图像的子集用于训练,697个测试集图像。为了评估测试集,我们使用Garg等人定义的裁剪方法[7],深度图像的上限为80米。我们使用双线性插值将预测上采样以匹配地面真实图像分辨率。0SUNRGB-D:SUNRGB-D[30]是使用各种传感器收集的室内数据集。它包含10335个真实的RGB-D图像。0SUNRGB-D室内场景图像集。训练和测试集包含5285和5050张图像。我们使用官方测试集进行评估,深度上限为8米。0评估指标:我们使用标准指标Average relative error (AbsRel)、Root mean squared error (RMSE)、Average Logerror (log 10)、Threshold Accuracy(δi)在之前的工作中使用的阈值τ'i = 1.25, 1.252,1.253进行比较,以评估我们的方法与最新技术的差异。对于KITTI评估,我们还使用Square relative error (Sq Rel)。05. 实验0实现细节:所提出的方法是在Pytorch[23]中实现的。我们使用Adam优化器[15](β's = 0.9,0.999),批量大小为8,权重衰减为10^-2。我们对KITTI和NYUV2数据集都使用20个epochs,初始学习率为4 ×10^-5,线性降低到4 ×10^-6。我们的模型每个epoch使用4个NVIDIA A100GPU花费30分钟。我们使用各种数据增强技术,如随机旋转、水平翻转、改变图像亮度和Cut Depth[14]。我们使用Swin-L[20]的预训练权重来初始化我们的编码器骨干网络。我们遵循与[2,35]相似的测试协议,并通过对原始图像及其镜像图像的预测深度进行平均来输出最终的深度值。0在NYUV2数据集上的结果:表1和图3分别展示了使用我们的方法PixelFormer在室内数据集NYUV2上的定量和定性结果。按照[10,17]的测试协议,没有额外的训练数据,我们的方法在绝对相对误差上比SOTA提高了5.3%。考虑到数据集近年来的饱和性能,这一性能提升是显著的。在RMSE误差方面,与最近提出的方法[24]和NeWCRFs相比,我们的方法分别提高了9.6%和3.5%。从图3中可以看出,PixelFormer生成的深度图比Adabins和NeWCRFs更准确,这可以归因于所提出的SAM模块,它允许捕捉长程依赖关系。与其他方法不同,PixelFormer可以估计与缺失对象对应的深度图,如图3的第三行所示。0在KITTI数据集上的结果:表2和图4分别展示了在室外数据集KITTI上的定量和定性结果。与KITTI EigenSplit上的SOTA NeWCRFs [35]相比,我们在Sq.Rel和RMSE方面分别取得了3.9%和2.3%的整体改进。我们还将我们的方法与官方KITTI测试集上的先前SOTA方法进行了比较。目前,我们在官方排名第1。1http://www.cvlibs.net/datasets/kitti/eval_depth.php?benchmark=depth_prediction58660输入 Adabins[2] NeWCRFs[35] 我们的 GT0图3:我们提出的PixelFormer在室内数据集NYUV2上与Adabins和NeWCRFs的定性比较。0方法 会议 Abs Rel ↓ RMSE ↓ log 10 ↓ δ 1 ↑ δ 2 ↑ δ 3 ↑0Eigen等人[4] NIPS'14 0.158 0.641 - 0.769 0.950 0.988 DORN[5] CVPR'18 0.115 0.509 0.051 0.828 0.9650.992 Yin等人[34] ICCV'19 0.108 0.416 0.048 0.872 0.976 0.994 BTS[17] Arxiv'19 0.110 0.392 0.047 0.8850.978 0.994 DAV[12] ECCV'20 0.108 0.412 – 0.882 0.980 0.996 TransDepth[33] ICCV'21 0.106 0.365 0.0450.900 0.983 0.996 DPT*[25] ICCV'21 0.110 0.367 0.045 0.904 0.988 0.998 PackNet-SAN*[10] CVPR'21 0.1060.393 – 0.892 0.979 0.995 Adabins[2] CVPR'21 0.103 0.364 0.044 0.903 0.984 0.9970Naderi等人[21] WACV'22 0.097 0.444 0.042 0.897 0.982 0.996 Lee等人[18] WACV'22 0.107 0.373 0.0460.893 0.985 0.9970P3Depth[24] CVPR'22 0.104 0.356 0.043 0.898 0.981 0.996 NeWCRFs[35] CVPR'22 0.095 0.334 0.041 0.9220.992 0.9980我们的PixelFormer 0.090 0.322 0.039 0.929 0.991 0.9980表1:在NYUV2[28]数据集上的结果。最佳结果以粗体显示,次佳结果以下划线显示。“*”表示使用额外的训练数据。↑表示数值越大越好,↓表示数值越小越好。评估时使用地面真实深度图的上限为10米。所有数字均来自相应的论文。我们看到在几乎所有用于评估的指标上,与SOTA相比,整体上有所改进。0与NeWCRFs相比,绝对相对误差提高了2.5%,SILog提高了1.1%。0Eigen等人[4] NIPS'14 1.548 0.203 6.307 0.282 0.702 0.898 0.967 Godard等人[9] CVPR'17 0.898 0.114 4.9350.206 0.861 0.960 0.976 Kuznietsov等人[16] CVPR'17 0.741 0.113 4.621 0.189 0.862 0.964 0.986 Gan等人[6]ECCV'18 0.666 0.098 3.933 0.173 0.890 0.984 0.985 DORN[5] CVPR'18 0.307 0.072 2.727 0.120 0.932 0.9840.994 Yin等人[34] ICCV'19 - 0.072 3.258 0.117 0.938 0.990 0.998Godard et al. [9]CVPR’170.8980.1144.9350.2060.8610.9600.976Kuznietsov et al. [16]CVPR’170.7410.1134.6210.1890.8620.9640.986Gan et al. [6]ECCV’180.6660.0983.9330.1730.8900.9840.985DORN [5]CVPR’180.3070.0722.7270.1200.9320.9840.994Yin et al. [34]ICCV’19-0.0723.2580.1170.9380.9900.998Cat-Conv0.06130.1920.964Decoder-Ours (SAM)0.05780.1820.96758670方法 会议 Sq Rel ↓ Abs Rel ↓ RMSE ↓ log 10 ↓ δ 1 ↑ δ 2 ↑ δ 3 ↑0BTS[17] Arxiv 19 0.245 0.059 2.756 0.096 0.956 0.993 0.9980PackNet-SAN*[10] ICCV'21 - 0.062 2.888 - 0.955 - - TransDepth[33] ICCV'21 0.252 0.064 2.755 0.0980.956 0.994 0.994 Adabins[2] CVPR'21 0.190 0.058 2.360 0.088 0.964 0.995 0.999 DPT*[25] ICCV'21 -0.060 2.573 0.092 0.959 0.995 0.996 Naderi等人[21] WACV'22 0.070 3.223 0.113 0.944 0.991 0.9980NeWCRFs[35] CVPR'22 0.155 0.052 2.129 0.079 0.974 0.997 0.9990我们的PixelFormer 0.149 0.051 2.081 0.077 0.976 0.997 0.9990表2:在KITTI EigenSplit测试集上的结果[4]。最佳结果以粗体显示,次佳结果以下划线显示。“*”表示使用额外的训练数据。↑表示数值越大越好,↓表示数值越小越好。评估时使用地面真实深度图的上限为80米。所有数字均来自相应的论文。0方法 会议 Sq Rel ↓ Abs Rel ↓ RMSE ↓ log 10 ↓ δ 1 ↑ δ 2 ↑ δ 3 ↑0Chen等人[3] IJCAI'19 - 0.166 0.494 0.071 0.757 0.943 0.9840Yin等人[34] ICCV'19 - 0.183 0.541 0.082 0.696 0.912 0.973 BTS[17] Arxiv'19 - 0.172 0.515 0.075 0.7400.933 0.980 Adabins[2] CVPR'21 - 0.159 0.476 0.068 0.771 0.944 0.9830我们的PixelFormer 0.0915 0.144 0.441 0.062 0.802 0.962 0.9900表3:在SUNRGB-D测试集上,不对在NYUV2上训练的模型进行微调的结果。最佳结果以粗体显示,次佳结果以下划线显示。↑表示数值越大越好,↓表示数值越小越好。评估时使用地面真实深度图的上限为8米。数字来自[2]。0SUNRGB-D上的结果:根据[2]的方法,我们在不对模型在NYUV2数据集上进行微调的情况下,评估模型在测试SUNRGB-D上的性能。如表3所示,PixelFormer在AbsRel和RMSE方面分别比Adabins高出9.4%和7.4%,从而证明了像素自适应的全局局部融合对于非分布输入图像的有效性。06. 消融研究0SkipAttention模块的有效性:表4展示了我们提出的SAM模块与其他基线卷积方法(Add-Conv和Cat-Conv)在特定尺度上结合编码器和解码器特征的效果。Add-Conv通过逐像素相加后进行卷积操作来融合编码器-解码器特征。Cat-Conv通过在通道维度上连接编码器和解码器特征,然后进行卷积操作。相较于连接方法,加法方法在Abs Rel和SqRel方面的性能更好。0方法 Abs Rel ↓ Sq Rel ↓ δ 1 ↑0表4:消融实验以展示在使用Swin-T作为编码器的KITTIEigenSplit上SAM模块的有效性。↑表示数值越大越好,↓表示数值越小越好。最佳结果以粗体显示,次佳结果以下划线显示。评估时使用地面真实深度图的上限为80米。0通过一小部分较大的差距,我们的SAM模块的性能优于Add-Conv,Abs Rel方面提高了4.0%,Sq.Rel方面提高了4.2%。这验证了提出的SAM模块的贡献。mViT-First0.05840.1850.966Ours (BCP)0.05780.1830.96758680图4:对室外数据集KITTI进行定性比较。如顶部一行所示,PixelFormer可以精确估计远距离道路物体的深度图。0方法 Abs Rel ↓ Sq Rel ↓ δ 1 ↑0表5:消融实验以展示将深度信息嵌入初始像素查询对使用Swin-T作为编码器的KITTI EigenSplit的影响。↑表示数值越大越好,↓表示数值越小越好。最佳结果以粗体显示,次佳结果以下划线显示。评估时使用地面真实深度图的上限为80米。0将深度信息嵌入像素查询的有效性:我们进行实验展示使用初始像素查询预测bin中心的有用性。我们将我们的设计与使用ViT预测bin中心的方法进行比较,如[2]所示。mViT-Last将最高分辨率的特征图(图2中的F)转换为16×16的patch,并使用多个自注意力层(L =4)整合第一个patch中的信息。第一个patch嵌入经过MLP层预测bin中心。mViT-First通过将初始像素查询传递给ViT来预测bin中心。我们对mViT-First使用patch size =1进行公平比较。表5显示,mVit-First和我们的方法在AbsRel方面分别比mVit-Last提高了2.0%和3.0%,这表明通过直接损失监督将深度信息嵌入初始像素查询有助于预测更好的深度估计。由于全局信息已经通过PQI模块聚合到初始像素查询中,mVit-First对于预测bin中心没有进一步的好处。07. 结论0本文提出了PixelFormer,一种新颖的单目深度估计编码器-解码器策略,将问题视为像素查询细化问题。由像素查询初始化模块预测的全局初始像素查询通过提出的SkipAttention模块在各个分辨率上查询多尺度编码器特征以获得更高分辨率。与基于卷积的跳跃连接不同,该模块可以融合具有长程依赖性的解码器特征,从而获得更准确的深度标签。我们提出的Bin CenterPrediction模块通过直接损失监督将深度信息嵌入初始像素查询,帮助约束网络。通过大量实验证明,PixelFormer在室内数据集NYUV2和室外数据集KITTI上分别提高了5.3%和3.9%的最新性能,室内SUNRGBD数据集的泛化性能提高了9.4%。未来,我们将尝试将使用SAM的内容自适应融合应用于其他密集估计任务,如语义分割。0致谢:这项工作部分得到了DST通过IMPRINT计划(IMP/2019/000250)的资助.我们感谢国家超级计算任务(NSM)为提供“PARAMSiddhi-AI”计算资源,该资源属于国家PARAM超级计算设施,由印度电子和信息技术部和科学技术部支持.[23] Adam Paszke, Sam Gross, Francisco Massa, Adam Lerer,James Bradbury, Gregory Chanan, Trevor Killeen, ZemingLin, Natalia Gimelshein, Luca Antiga, Alban Desmaison,58690参考文献0[1] Ashutosh Agarwal和Chetan Arora. Depthformer:多尺度视觉变换器用于单目深度估计与全局局部信息融合.在2022年IEEE国际图像处理会议(ICIP)中, 页3873-3877,2022年. 10[2] Shariq Farooq Bhat, Ibraheem Alhashim和Peter Wonka.Adabins: 使用自适应分箱进行深度估计.在IEEE/CVF计算机视觉和模式识别(CVPR)会议论文集中,2021年6月. 1, 2, 3, 4, 5, 6, 7, 80[3] Xiaotian Chen, Xuejin Chen和Zheng-Jun Zha.结构感知残差金字塔网络用于单目深度估计.在第28届国际人工智能联合会议论文集中, IJCAI'19, 页694-700.AAAI Press, 2019. 70[4] David Eigen, Christian Puhrsch和Rob Fergus.使用多尺度深度网络从单幅图像预测深度图. 在Z. Ghahramani,M. Welling, C. Cortes, N. Lawrence和K.Q.Weinberger编辑的《神经信息处理系统进展》中, 卷27. CurranAssociates, Inc., 2014. 1, 2, 5, 6, 70[5] Huan Fu, Mingming Gong, Chaohui Wang, Kayhan Bat-manghelich和Dacheng Tao.用于单目深度估计的深度序回归网络.在IEEE计算机视觉和模式识别(CVPR)会议论文集中,2018年6月. 1, 2, 3, 6, 70[6] Yukang Gan, Xiangyu Xu, Wenxiu Sun和Liang Lin.使用亲和性、垂直池化和标签增强的单目深度估计. 在VittorioFerrari, Martial Hebert, Cristian Sminchisescu和YairWeiss编辑的《计算机视觉-ECCV 2018》中, 页232-247, 2018年,Cham. Springer International Publishing. 70[7] Ravi Garg, Vijay Kumar B.G., Gustavo Carneiro和Ian Reid.无监督的单视图深度估计的CNN: 几何拯救. 在Bastian Leibe, JiriMatas, Nicu Sebe和Max Welling编辑的《计算机视觉-ECCV2016》中, 页740-756, 2016年, Cham. Springer InternationalPublishing. 50[8] Andreas Geiger, Philip Lenz, Christoph Stiller和RaquelUrtasun. 视觉与机器人相遇: KITTI数据集.《国际机器人研究杂志(IJRR)》, 2013年. 50[9] Clement Godard, Oisin Mac Aodha和Gabriel J. Bros- tow.无监督的单目深度估计与左右一致性.在IEEE计算机视觉和模式识别(CVPR)会议论文集中,2017年7月. 70[10] Vitor Guizilini, Rares Ambrus, Wolfram Burgard和AdrienGaidon. 用于统一单目深度预测和补全的稀疏辅助网络.在IEEE/CVF计算机视觉和模式识别(CVPR)会议论文集中,2021年6月. 5, 6, 70[11] Kaiming He, Xiangyu Zhang, Shaoqing Ren和Jian Sun.深度卷积网络中的空间金字塔池化用于视觉识别. 在David Fleet,Tomas Pajdla, Bernt Schiele和TinneTuytelaars编辑的《计算机视觉-》中0《计算机视觉-ECCV 2014》, 页346-361, 2014年, Cham.Springer International Publishing. 30[12] Lam Huynh, Phong Nguyen-Ha, Jiri Matas, EsaRahtu和Janne Heikkil¨a. 使用深度注意力体引导单目深度估计.在Andrea Vedaldi, Horst Bischof, Thomas Brox和Jan-MichaelFrahm编辑的《计算机视觉-ECCV 2020》中, 页581-597, 2020年,Cham. Springer
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 构建基于Django和Stripe的SaaS应用教程
- Symfony2框架打造的RESTful问答系统icare-server
- 蓝桥杯Python试题解析与答案题库
- Go语言实现NWA到WAV文件格式转换工具
- 基于Django的医患管理系统应用
- Jenkins工作流插件开发指南:支持Workflow Python模块
- Java红酒网站项目源码解析与系统开源介绍
- Underworld Exporter资产定义文件详解
- Java版Crash Bandicoot资源库:逆向工程与源码分享
- Spring Boot Starter 自动IP计数功能实现指南
- 我的世界牛顿物理学模组深入解析
- STM32单片机工程创建详解与模板应用
- GDG堪萨斯城代码实验室:离子与火力基地示例应用
- Android Capstone项目:实现Potlatch服务器与OAuth2.0认证
- Cbit类:简化计算封装与异步任务处理
- Java8兼容的FullContact API Java客户端库介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功