AdaBins：基于Transformer的自适应Bins架构改善深度图的估计

140 浏览量更新于2024-01-22 收藏 1.74MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

4009AdaBins：使用自适应Bins进行Shariq Farooq BhatKAUSTshariq. kaust.edu.sa穆罕默德·哈希姆·卡斯特ibraheem. kaust.edu.saPeter WonkaKAUSTpwonka@gmail.com摘要我们解决了从单个RGB输入图像估计高质量密集深度图的问题。我们从基线编码器-解码器卷积神经网络架构开始，并提出信息的全局处理如何帮助改善整体深度估计的问题。为此，我们提出了一个基于Transformer的架构块，该架构块将深度范围划分为bin，每个图像自适应地估计bin的中心值。最终深度值被估计为面元中心的线性我们把这个新的积木叫做AdaBins。我们的结果显示，在所有指标中，几个流行的深度数据集都比最先进的深度数据集有我们还通过消融研究验证了所提出的块的有效性，并提供了新的最先进模型的代码和相应的预训练权重。1. 介绍本文解决了从单个RGB输入图像估计高质量密集深度图的问题这是计算机视觉中的一个经典问题，对于许多应用都是必不可少的[26，30，16，6]。在这项工作中，我们提出了一个新的架构构建块，称为AdaBins，它导致了两个最流行的室内和室外数据集NYU [36]和KITTI [13]上的深度估计的新的最先进的架构我们工作的动机是推测，目前的架构不执行足够的全球分析的输出值。卷积层的一个缺点是，它们只在张量在瓶颈处或瓶颈附近达到非常低的空间分辨率时才处理全局信息然而，我们相信，当在高分辨率下完成时，全局处理要强大得多。我们的总体思路是对传统编码器-解码器架构的输出执行全局统计分析，并使用以最高分辨率操作的学习后处理构建块来细化作为这一思想的一个具体实现，我们建议分析和修改深度值的分布。图1：AdaBins的说明：上：输入RGB图像。中间：我们的模型预测的深度。底部：地面实况（蓝色）和预测面元密度（红色）的深度值直方图，深度值从左到右递增注意，对于特写图像，预测的面元中心聚焦在较小的深度值附近，但是对于具有较宽范围的深度值的图像，预测的面元中心广泛分布。对应于不同RGB输入的深度分布可以在很大程度上变化（见图1）。有些图像的大部分对象都位于非常小的深度值范围内。例如，家具的特写图像将包含其中大部分靠近相机的像素，而其他图像可以具有分布在更宽范围（例如走廊）上的深度值，其中深度值的范围从小值到网络支持的最大深度。随着问题的不适定性，这种深度分布的变化使得深度回归以端到端的方式成为一项更加困难的任务。最近的工作已经提出利用关于室内环境的假设（诸如平面性约束[25，21]）来引导网络，这可能适用于或可能不适用于真实世界环境，特别是户外场景。而不是强加这样的假设，我们研究的方法，网络学习自适应地集中在更有可能发生的深度范围的4010标准编解码器AdaBins模块输入RGB高×宽×3深度图像h×w×1图2：我们提出的网络架构概述。我们的架构包括两个主要组成部分：一个编码器-解码器块和我们提出的自适应bin宽度估计器块称为AdaBins。我们网络的输入是空间维度H和W的RGB图像，输出是单通道h×w深度图像（例如，空间分辨率的一半在输入图像的场景中。我们的主要贡献如下：• 我们提出了一个体系结构的积木，执行- forms全局处理的场景的信息。我们建议将预测的深度范围划分为bin，其中bin宽度根据图像而变化。最终深度估计是面元中心值的线性组合。• 我们在两个最流行的数据集NYU [36]和KITTI [13]的所有指标中显示了监督单图像深度估计的决定性改进• 我们分析了我们的研究结果，并调查不同的modifications建议AdaBins块，并研究其对深度估计的准确性的影响。2. 相关工作从RGB图像重建三维场景是一个不适定问题。缺乏场景覆盖、比例模糊、半透明或反射材质等问题都导致了几何形状无法从外观中导出的最近，依赖于卷积神经网络（CNN）的方法能够以实时速度从单个RGB输入图像生成合理的深度图。单目深度估计已被许多CNN方法视为来自单个RGB图像的密集深度图的回归[7，24，44，15，45，10，18，1，25，21]。作为两个最重要的竞争对手，我们认为[25][ 21 ][22][23][24] BTS在解码阶段使用局部平面引导层来将特征引导到全分辨率，而不是标准上采样层。DAV使用一个标准的编码器-解码器方案，并建议通过关注瓶颈来利用场景中对象的共面性。我们的结果部分与这些（和许多其他）方法进行了比较。编码器-解码器网络在许多与视觉相关的问题中做出了重要贡献，例如图像分割[34]，光流估计[9]和图像处理。图3：箱宽度的选择。均匀箱和对数均匀箱是预先确定的。“训练箱”因数据集而异。自适应箱对于每个输入图像变化。恢复[27]。近年来，这种架构的使用在深度估计问题的监督和非监督设置中都取得了巨大成功[14，40，20，47，1]。这种方法通常使用一个或多个编码器-解码器网络作为其较大网络的子部分在本文中，我们采用了[1]中使用的基线编码器-解码器网络架构。这使我们能够更明确地研究我们提出的扩展对管道的性能属性，这通常是一个困难的任务。Transformer网络作为一个可行的构建块，在NLP任务的传统使用之外，并进入计算机视觉任务[31，42，2，5]，正受到越来越多的关注。遵循最近将CNN与Transformers [2]相结合的趋势的成功，我们建议利用Transformer编码器作为CNN输出的非本地处理的构建块。3. 方法在本节中，我们将介绍这项工作的动机，提供AdaBins架构的细节，并描述所使用的相应损失函数。3.1. 动机我们的想法可以被看作是通过有序回归网络进行深度估计的推广，如混合回归R编码器解码器mViTConvSoftmaxN个种类等式3Binwidth：b仓中心：c（b）等式24011Fu et al. [10]. Fu等人观察到，如果将深度回归任务转换为分类任务，则可以实现性能改善。他们建议将深度范围划分为固定数量的预定宽度的箱我们的推广解决了初始方法的多个首先，我们建议计算adap-地图CdConv3×3MLP头逐像素点积RBinwidth：b1×1粒Misc.......根据输入场景的特征而动态改变的有效分格第二，分类方法导致深度值的离散化，这导致具有明显的尖锐深度不连续性的差的视觉质量。这仍然可能导致关于标准的良好结果，嵌入转换转换p×pTransformer编码器补丁嵌入评估指标，但它可以提出一个挑战，为下游应用程序，例如计算摄影或三维重建。因此，我们建议将最终深度值预测为bin中心的线性组合。这使我们能够将分类的优势与深度图回归的优势结合起来。最后，与其他架构相比，例如DAV [21]，我们以高分辨率全局计算信息，而不是主要在低分辨率的瓶颈部分。3.2. AdaBins设计在这里，我们讨论了我们提出的架构，是最重要的获得的结果的四个设计选择。首先，我们采用自适应分箱策略来区分-将深度间隔D=（dmin，dmax）划分为N个区间。对于给定的数据集，此间隔是固定的，通过数据集规范或手动设置为合理的范围。为了说明我们将深度间隔划分为bin的想法，我们想将最终解决方案与我们评估的其他三种可能的设计选择进行对比：• 具有统一面元宽度的固定面元：深度间隔D被划分成相等大小的N个• 具有对数标度箱宽度的固定箱：深度间隔D被分成对数标度中相等大小的箱。• 训练的bin宽度：bin宽度是自适应的，可以针对特定数据集学习。虽然面元宽度是通用的，但是所有图像最终共享深度间隔D的相同面元细分。• AdaBins：针对每个图像自适应地计算bin宽度b我们推荐AdaBins策略作为最佳选择，我们的消融研究通过显示这种设计优于其替代方案来验证这一选择。一个illustration-灰四个设计选择的bin宽度可以看出，在图。3 .第三章。第二，将深度间隔D离散化为仓并将每个像素分配给单个仓导致深度离散化伪影。因此，我们预测最终深度为线性图4：mini-ViT块的概述。的输入该块是输入图像的多通道特征图该块包括一个Transformer编码器，该编码器应用于输入的补丁嵌入，用于学习估计bin宽度b，以及计算我们的范围-注意力-映射R所需的一组卷积核。图10示出了图面元中心的组合，使得模型能够估计平滑变化的深度值。第三，若干先前架构提出使用注意块来执行全局处理以处理架构中的编码器块之后的信息（例如，图像字幕[4，17]或对象检测[2]）。此外，深度估计的当前技术水平使用该策略[21]。这种架构由三个模块组成，即编码器、注意力和解码器。我们最初遵循这种方法，但注意到在空间分辨率较高的张量上使用注意力时可以获得更好的因此，我们提出了一个架构，也有这三个块，但顺序如下：编码器，解码器，最后注意。第四，我们希望建立在最简单的架构上，以隔离我们新提出的 Ad-abins 概念的影响因此，我们使用EfficientNet B5 [39]作为编码器的主干构建了一个现代编码器-解码器[1]在下一小节中，我们将提供整个架构的描述。3.3. 体系结构描述图2示出了我们提出的深度估计架构的概述。我们的架构由两个主要组件组成：1）构建在预训练的EfficientNet B5 [39]编码器和标准特征上采样解码器上的编码器-解码器块; 2）我们提出的自适应bin宽度估计器块，称为AdaBins。第一个组件主要基于Alhashim和Wonka [1]的简单深度回归网络，并进行了一些修改。两个基本的修改是将编码器从DenseNet [19]切换到EfficientNet B5，并使用不同的ap。为新的体系结构设计合适的损失函数此外，解码器的输出是一个张量xd∈Rh×w×Cd，4012p2斑块大小（p）E层头数CMLP大小Paramsxp∈RS×E，其中S=hw作为Transformer的有效序列长度。我们把这个E维向量序列称为面片嵌入.16 128 4 4 12810245.8米表1：Mini-ViT架构细节。而不是表示最终深度值的单个通道图像。我们将此张量称为第二个组件是本文的关键贡献，AdaBins模块。AdaBins模块的输入是de-编码特征的大小为h×w×Cd，输出张量的大小为h×w×1。由于当前GPU硬件的存储器限制，我们使用h=H/2和w=W/2来促进更好的计算。这被称为大批量学习。最终的深度图是按照惯例 [2 ， 5] ，我们在将补丁嵌入馈送到Transformer之前，将学习到的位置编码添加到补丁嵌入。我们的Transformer是一个小型变压器编码器（见表.1）并输出一个se-输出嵌入序列xo∈RS×E.我们在第一个输出嵌入上使用一个MLP头（我们还使用了使用具有附加的特殊令牌作为第一输入的版本来实现，但是没有看到改进）。MLP头使用ReLU激活并输出N维向量b′。最后，我们将向量b'归一化，使其总和为1，以获得bin宽度向量b，如下所示：b′+ m通过简单的双线性上采样到H×W×1来计算。bi=N我（b′+b）、（1）AdaBins模块中的第一个块称为mini-ViT。图4中示出了该块的概览。它是最近提出的使用变压器进行图像识别的技术的简化版本[5]，具有微小的修改。微型ViT的细节将在下一段中解释。存在mini-ViT的两个输出：1）仓宽度的向量b，其定义如何针对输入图像划分深度间隔D，以及2）范围注意力。大小为h×w×C的映射R，包含像素级深度计算的有用迷你维生素估计对于给定图像更可能出现的深度范围D内的子间隔将同时需要局部结构信息和全局分布信息的组合我们建议使用全局注意力来计算每个输入图像的bin宽度向量b。全局注意力在内存和计算复杂性方面都是昂贵的，特别是在更高的然而，最近变压器的快速发展提供了一些有效的替代方案。我们从Vision Transformer ViT [5] 中获得灵感，设计带有transformer的AdaBins模块。由于我们的数据集较小，我们还使用了所提出的Transformer的小得多的版本，并且在以下描述中将该 transformer 称为 mini-ViT 或mViT箱宽度。我们首先描述如何使用mViT获得bin宽度向量 b 。 mViT 块的输入是解码特征的张量xd∈Rh×w×Cd。然而，Transformer采用一系列固定大小的向量，如-放。我们首先将解码后的特征通过卷积块，称为Embedding Conv（见图4），其内核大小为p×p，步长为p，输出通道数为pE. 因此，该卷积的结果是大小为h/p×w/p×E（假设h和w都可被p）。结果被重塑为空间平坦的张量j=1j其中，π=10−3。小的正向宽度确保每个面元宽度严格为正。归一化引入了bin宽度之间的竞争，并通过预测D的感兴趣区域处的较小bin宽度，在概念上迫使网络关注D内的子区间。在下一小节中，我们描述如何从解码的特征和Transformer输出嵌入获得范围-注意力-映射R范围注意地图。在这一点上，解码的特征表示高分辨率和局部像素级信息，而Transformer输出嵌入有效地包含更多的全局信息。如图4所示，来自Transformer的put嵌入2到C+1被用作一组1×1卷积核，并与解码的特征进行卷积（在3×3卷积层之后）以获得范围-注意力映射R。这相当于计算点积注意力像素级特征之间的权重被视为“键”，而Transformer输出嵌入被视为“查询”。这种使用输出嵌入作为卷积核的简单设计使网络能够从将Transformer转换为解码特征的局部信息。R和b一起使用以获得最终深度图。混合回归距离-注意力映射R通过1×1卷积层以获得N个通道，随后是Softmax激活。我们对N Softmax得分p k，k进行解释， =1，...，N，在每个像素作为N个深度仓中心c（b）上的概率{c（b1），c（b2），.，c（b N）}从面元宽度向量计算b如下：Σi−1c（bi）=dmin+（dmax−dmin）（bi/2+bj）（2）j=14013我RGB Fuet al. [10]我们的图5：由深度间隔离散化引入的伪影的演示。我们的混合回归导致更平滑的深度图。最后，在每个像素处，根据该像素处的Softmax得分和深度仓中心c（b）的线性组合计算最终深度值d（b），如下所示：中国d=c（bk）pk（3）k=1与Fu et al.[10]我们不将深度预测为最可能bin的bin中心。这使得我们能够预测平滑的深度图，而没有离散化伪影，如图1B所示。五、3.4. 损失函数像素深度损失。受[25]的启发，我们使用Eigen等人引入的标度不变损失（SI）的缩放版本。【7】：我们设β=0。1、我们所有的实验我们对不同的损失函数进行了实验，包括RMSE损失和[1]建议的SSIM[41]加L1损失的组合然而，我们能够实现最好的结果与我们提出的损失。我们在消融研究中比较了不同的损失函数及其性能。4. 实验我们进行了广泛的实验，从一个单一的图像数据集的室内和室外场景的标准深度估计。在下文中，我们首先简要描述数据集和评估指标，然后将其与监督单目深度估计中的最新技术进行定量比较4.1. 数据集和评价指标NYU Depth v2是一个数据集，它提供了以640×480像素分辨率捕获的不同室内场景的图像和深度图。该数据集包含12万个训练样本和654个测试样本[7]。我们培养我们的50K子集上的网络。深度图的上限为10米。我们的网络输出分辨率为320×240的深度预测，然后我们对它进行升级。乘以2倍，以匹配两个培训和测试。我们在预定义的中心Eigen et al. [7]。在测试时，我们通过取图像的预测和其镜像的预测的平均值来计算最终输出L像素=α.1Σ不我g2− λΣ（g）第2（4）段T2我KITTI是一个数据集，它提供了使用其中gi=logdi-logdi，并且地面真值深度di，并且T表示具有有效地面真值的像素的数量。我们使用λ=0。85和α=10。仓中心密度损失。该损失项鼓励面元中心的分布遵循地面实况中的深度值的分布我们希望鼓励面元中心接近实际地面实况深度值，反之亦然。我们将面元中心的集合表示为c（b），将地面实况图像中的所有深度值的集合表示为X，并使用双向倒角损失[8]作为正则化器：安装在移动车辆上的设备[13]。RGB图像的分辨率约为1241×376，而相应的深度图的密度非常低，有大量丢失的数据。我们在大约26K图像的子集上训练我们的网络，从左视图开始，对应于没有包含在[7]指定的697测试集中深度图的上限为80米。我们在大小为704×352的随机作物上训练我们的网络。为了评估，我们使用Garg等人定义的作物。[12]并对预测进行双线性上采样以匹配地面真实分辨率。菲-通过取图像L箱=Σx∈Xminy∈c（b）x−yΣy∈c（b）最小值x−y2（5）x∈XSUN RGB-D是一个室内数据集，10K高场景多样性的图像，最后，我们将总损失定义为：L总=L像素+βL仓（6）不同的传感器[38，43，22]。我们仅将此数据集用于在5050张图像的官方测试集上交叉评估预训练模型。我们不把它用于训练。4014方法编码器#params（M）δ1↑δ2↑δ3↑REL↓ RMS↓log10↓Eigen等人[七]《中国日报》-1410.7690.9500.9880.1580.641–Laina等人[24日]ResNet-50640.8110.9530.9880.1270.5730.055Hao等人[第十五条]ResNet-101600.8410.9660.9910.1270.5550.053Lee等[26日]-1190.8370.9710.9940.1310.538–Fu等人[10个国家]ResNet-1011100.8280.9650.9920.1150.5090.051SharpNet [33]--0.8360.9660.9930.1390.5020.047Hu等. [18个国家]SENet-154神经网络1570.8660.9750.9930.1150.5300.050Chen等人[3]第一章Senet2100.8780.9770.9940.1110.5140.048Yin等人[46个]ResNeXt-1011140.8750.9760.9940.1080.4160.048免费WiFi [25]DenseNet-161470.8850.9780.9940.1100.3920.047[21]第二十一话-250.8820.9800.9960.1080.412–AdaBins（我们的）EfficientNet-B5780.9030.9840.9970.1030.3640.044表2：NYU-Depth-v2数据集上的性能比较。报告的数字来自相应的原始论文。最好的结果用粗体表示，第二好的结果用下划线表示。方法编码器#params（M）δ1↑δ2↑δ3↑REL↓Sq Rel ↓ RMS ↓RMS log↓Saxena等人[35]第三十五届--0.6010.8200.9260.2803.0128.7340.361Eigen等人[七]《中国日报》--0.7020.8980.9670.2031.5486.3070.282Liu等[28]第二十八届-400.6800.8980.9670.2011.5846.4710.273Godard等人[14个]ResNet-50310.8610.9490.9760.1140.8984.9350.206Kuznietsov等人[23日]ResNet-50-0.8620.9600.9860.1130.7414.6210.189Gan等人[第十一届]ResNet-50-0.8900.9640.9850.0980.6663.9330.173Fu等人[10个国家]ResNet-1011100.9320.9840.9940.0720.3072.7270.120Yin等人[46个]ResNeXt-1011140.9380.9900.9980.072–3.2580.117免费WiFi [25]ResNeXt-1011130.9560.9930.9980.0590.2452.7560.096AdaBins（我们的）EfficientNet-B5780.9640.9950.9990.0580.1902.3600.088表3：KITTI数据集上的性能比较。我们将我们的网络与该数据集上的最先进网络进行比较。报告的数字来自相应的原始论文。测量的深度范围为0米至80米。最好的结果用粗体表示，第二好的结果用下划线表示。Σnǁy−yˆǁ2差异（Sq. Rel）：1p pRMSE log：表4：关于损失函数的选择的性能比较。评价指标。我们使用先前工作中使用的标准六个指标[7]来比较我们的方法与最先进的方法。这些误差指标定义为：平均Relat iv eerror（REL）：1位|yp−yp|均方根损失δ1↑δ2↑δ3↑REL↓RMS↓log10↓1 .一、二十五，一。25 2 1 其中yp是深度图像y中的像素，L1/SSIM0.8880.9800.9950.1070.3840.046是预测的深度图像中的像素xel，并且n是预测的深度图像中的像素xel。SI0.8970.9840.9970.1060.3680.044每个深度图像的像素总数。另外SI+箱0.9030.9840.9970.1030.3640.044对于KITTI，我们使用两个标准度量：平方相关，4015pppΣnnn1010.npy1nlogyp−logyp2.4.2. 实现细节我们在PyTorch中实现了这个网络[32]。对于训练，我们使用AdamW优化器[29]，权重衰减为10−2。我们使用1周期策略[37]学习率max lr = 3。5×10−4，线性预热.龙佩误差（RMS）：Σ1n（yp−yp）2）;平均数（log）错误：对于前30%的迭代，从max LR/25到max LR随后进行余弦退火至最大LR/75。总数1N|log（yp）−log（yp）|;阈值精度（δi）：%yps.t.max（yp，yp）=δ

下载后可阅读完整内容，剩余1页未读，立即下载