1.25δ>1.25δ>1.25DPT - LargeMIX 610.82 (-13.2%)0.089 (-31.2%)0.270 (-17.5%)8.46 (-64.6%)8.32 (-12.9%)9.97 (-30.3%)DPT - HybridMIX 611.06(-11.2%)0.093(-27.6%)0.274(-16.2%)11.56 (-51.6%)8.69(-9.0%)10.89 (-23.2%)MiDaSMIX 612.95(+3.9%)0.116(-10.5%)0.329(+0.5%)16.08 (-32.7%)8.71(-8.8%)12.51 (-12.5%)MiDaS [32]MIX 512.460.1290.32723.909.5514.29Li [24]MD [24]23.150.1810.38536.2927.5229.54Li [23]MC [23]26.520.1830.40547.9418.5717.71Wang [42]WS [42]19.090.2050.39031.9229.5720.18Xian [47]RW [47]14.590.1860.42234.0827.0025.02Casser [5]CS [8]32.800.2350.42221.1539.5837.18δ<1.25δ<1.252δ<1.253AbsRelRMSElog10DORN [13]0.8280.9650.9920.1150.5090.051VNL [50]0.8750.9760.9940.1110.4160.048BTS [22]0.8850.9780.9940.1100.3920.047DPT-Hybrid0.9040.9880.9980.1100.3570.045δ<1.25δ<1.252δ<1.253AbsRelRMSERMSE logDORN [13]0.9320.9840.9940.0722.6260.120VNL [50]0.9380.9900.9980.0723.2580.117BTS [22]0.9560.9930.9980.0592.7560.096DPT-Hybrid0.9590.9950.9990.0622.5730.092).121830训练集 DIW ETH3D Sintel KITTI NYU TUM0表1.单目深度估计的与现有技术的比较。我们根据[32]中定义的协议评估零样本跨数据集转移。相对性能是相对于原始MiDaS模型[32]计算的。对于所有指标,数值越低越好。0我们将这个元数据集称为MIX6。它包含大约140万张图像,据我们所知,这是迄今为止编制的最大的用于单目深度估计的训练集。我们使用多目标优化[34]结合Adam[20],并将骨干网络的学习率设置为1e-5,解码器权重的学习率设置为1e-4。编码器使用ImageNet预训练的权重进行初始化,而解码器则随机初始化。我们使用由3个卷积层组成的输出头。输出头在第一个卷积层之后逐渐减半特征维度,并将预测结果上采样到输入分辨率(详细信息请参见补充材料)。我们在解码器中禁用批归一化,因为我们发现它对回归任务的结果产生了负面影响。我们调整图像大小,使较长的一边为384个像素,并在大小为384的随机正方形裁剪上进行训练。我们训练60个epochs,其中一个epoch包含72000个步骤,批量大小为16。由于批量大小不能被数据集的数量整除,我们在从相应数据集中采样之前先均匀随机选择数据集来构建一个小批量。我们进行随机水平翻转进行数据增强。与[32]类似,我们首先在数据的一个精心策划的子集[47, 48,49]上进行60个epochs的预训练,然后再在完整数据集上进行训练。0表2. 在NYUv2深度上的评估。0表3. 在KITTI(Eigen split)上的评估。0零样本跨数据集转移。表1显示了在训练过程中未见过的不同数据集上的零样本转移结果。有关评估过程和误差指标的详细信息,请参阅Ranftl等人的[32]。对于所有指标,数值越低越好。两个DPT变体明显优于现有技术水平。与最佳已发布架构MiDaS相比,DPT-Hybrid的平均相对改进超过23%,DPT-Large的平均相对改进超过28%。DPT-Hybrid在具有可比网络容量的情况下实现了这一点(表9),而DPT-Large比MiDaS大约大3倍。请注意,这两种架构与MiDaS具有类似的延迟(表9)。为了确保观察到的改进不仅仅是由于扩大的训练集,我们在我们更大的元数据集MIX6上重新训练了MiDaS使用的全卷积网络。虽然全卷积网络确实从更大的训练集中受益,但我们观察到两个DPT变体仍然明显优于该网络。这表明DPT能够更好地从增加的训练集大小中受益,这一观察结果与基于Transformer的架构的先前发现相吻合[11]。定量结果得到了图2中的视觉比较的支持。DPT能够更好地重建细节,同时改善对于卷积架构具有挑战性的全局一致性(例如,大面积均匀区域或图像中的相对深度排列)。0在小数据集上微调。我们在KITTI [15]和NYUv2[37]数据集上对DPT-Hybrid进行微调,以进一步比较DPT与现有工作的表示能力。由于网络是使用仿射不变损失进行训练的,其预测结果可以任意缩放和平移,并且可能具有较大的幅度。直接微调将是具有挑战性的,因为预测结果与地面真实值之间的全局不匹配将主导损失。因此,我们首先使用[32]中描述的鲁棒对齐过程将初始网络的预测结果与每个训练样本对齐。然后,我们对训练集中的结果进行平均缩放和平移,并应用平均缩放和121840输入 MiDaS(MIX 6) DPT-Hybrid DPT-Large0图2. 单目深度估计的样本结果。与MiDaS使用的全卷积网络相比,DPT显示出更好的全局一致性(例如,天空,第二行)和更细粒度的细节(例如,树枝,最后一行)。0将结果传递给损失之前,将预测结果进行平移。我们使用Eigen等人提出的损失进行微调。由于KITTI数据集只提供稀疏的真实值,我们在KITTI上禁用了梯度匹配损失。表2和表3总结了结果。我们的架构在两个数据集上的所有指标都达到或超过了最先进的性能。这表明DPT也可以在较小的数据集上有用地应用。04.2. 语义分割0我们选择语义分割作为我们的第二个任务,因为它代表了离散标记任务,并且是密集预测架构的一个非常有竞争力的试验场。我们使用与之前实验相同的骨干和解码器结构。我们使用一个输出头,在半分辨率上进行预测,并使用双线性插值将逻辑值上采样到全分辨率(详细信息请参见补充材料)。编码器再次从ImageNet预训练的权重初始化,解码器随机初始化。0实验协议。我们紧密遵循Zhang等人[53]建立的协议。我们使用交叉熵损失,并在倒数第二个融合层的输出上添加一个辅助输出头和辅助损失。我们将辅助损失的权重设置为0.2。在最终分类层之前使用0.1的丢失率的Dropout。0两个输出头都使用。我们使用带有动量0.9的SGD和多项式学习率调度器,衰减因子为0.9。我们在融合层中使用批归一化,并使用批量大小为48进行训练。图像被调整为520像素的边长。我们使用随机水平翻转和随机缩放(范围为0.5到2.0)进行数据增强。我们使用大小为480的正方形随机裁剪进行训练。将学习率设置为0.002。我们在测试时使用多尺度推理,并报告像素准确度(pixAcc)和平均交并比(mIoU)。0ADE20K。我们在ADE20K语义分割数据集[56]上训练DPT240个epochs。表4总结了我们在验证集上的结果。DPT-Hybrid优于所有现有的全卷积架构。DPT-Large的性能稍差,可能是因为与我们之前的实验相比,数据集规模显著较小。图3提供了视觉比较。我们观察到DPT倾向于产生更清晰和更细粒度的物体边界描述,并且在某些情况下预测结果也更少杂乱。0在较小的数据集上进行微调。我们在PascalContext数据集[28]上对DPT-Hybrid进行了50个epochs的微调。所有其他超参数保持不变。表5显示了该实验在验证集上的结果。我们再次看到DPT即使在较小的数据集上也能提供强大的性能。BackbonepixAcc [%]mIoU [%]OCNetResNet101[52]–45.45ACNetResNet101[14]81.9645.90DeeplabV3ResNeSt-101[7, 53]82.0746.91DeeplabV3ResNeSt-200[7, 53]82.4548.36DPT-HybridViT-Hybrid83.1149.02DPT-LargeViT-Large82.7047.63BackbonepixAcc [%]mIoU [%]OCNetHRNet-W48[44, 52]–56.2DeeplabV3ResNeSt-200[7, 53]82.5058.37DeeplabV3ResNeSt-269[7, 53]83.0658.92DPT-HybridViT-Hybrid84.8360.46set.Base{3, 6, 9, 12}0.07930.07800.08920.0822{6, 8, 10, 12}0.08010.07890.09040.0831{9, 10, 11, 12}0.08050.07660.09120.0828{3, 6, 9, 12}0.07470.07480.08650.0787{R0, R1, 9, 12}0.07420.07510.08570.0733121850ResNeSt-200[53]0DPT-Hybrid0图3. ADE20K(第一和第二列)和PascalContext(第三和第四列)上语义分割的样本结果。预测结果通常更好地与物体边缘对齐,更少杂乱。04.3. 消融研究0我们通过消融研究来检查DPT中的许多方面和技术选择。我们选择单目深度估计作为消融的任务,并按照之前描述的相同协议和超参数设置进行。我们使用一个由三个数据集[47,48,49]组成的减少的元数据集,包含约41,000张图像。我们选择这些数据集是因为它们提供了高质量的真实值。我们将每个数据集分为一个训练集和一个小的验证集,总共约1,000张图像。我们在预测结果与真实值[32]进行仿射对齐后,以相对绝对偏差的形式在验证集上报告结果。除非另有说明,我们使用ViT-Base作为骨干架构。0跳跃连接。卷积架构为从编码器传递特征到解码器提供了自然的兴趣点,即在下采样之前或之后。0表4。ADE20K验证集上的语义分割结果。0表5。在Pascal Context验证集上的微调结果。0表示。由于transformer的backbone保持恒定的特征分辨率,因此不清楚在backbone的哪些位置应该提取特征。我们在表6(顶部)中评估了几种可能的选择。我们观察到,从包含低级特征的层和包含高级特征的深层提取特征是有益的。我们在所有后续实验中采用最佳设置。0我们在表6(底部)中对混合架构进行了类似的实验,其中R0和R1分别指的是使用来自ResNet50嵌入网络的第一和第二下采样阶段的特征。我们观察到,使用来自嵌入网络的低级特征比仅使用transformer阶段的特征可以获得更好的性能。我们在所有涉及混合架构的后续实验中使用此设置。0读出令牌。表7检查了处理读出令牌的Reassemble块的第一阶段的各种选择。忽略令牌可以获得良好的性能,投影在平均性能上略优于忽略令牌。另一方面,添加令牌的性能比简单忽略令牌的性能差。我们在所有后续实验中使用投影。0backbone的性能不同。0层 l HRWSI BlendedMVS ReDWeb 平均0混合0表6。将跳跃连接附加到不同的编码器层的性能。最佳结果是通过浅层和深层的跳跃连接的组合实现的。0.005.0010.0015.0020.0025.00416448480512544576608640121860HRWSI BlendedMVS ReDWeb 平均0忽略 0.0793 0.0780 0.0892 0.0822 添加 0.07990.0789 0.0904 0.0831 投影 0.0797 0.0764 0.08950.08190表7。处理读出令牌的方法的性能。使用投影层将读出令牌融合到各个输入令牌中可以获得最佳性能。0如表8所示。ViT-Large的性能优于所有其他的backbone,但是它的大小几乎是ViT-Base和ViT-Hybrid的三倍。ViT-Hybrid在参数数量相似的情况下优于ViT-Base,并且与大型backbone具有可比性的性能。因此,它在准确性和容量之间提供了良好的平衡。ViT-Base的性能与ResNext101-WSL相当,而ViT-Hybrid和ViT-Large在训练数据明显较少的情况下提高了性能。需要注意的是,ResNext101-WSL在ImageNet预训练之外,还使用了十亿级别的弱监督数据[27]进行了预训练。已经观察到这种预训练可以提升单目深度预测的性能[32]。这种架构对应于原始的MiDaS架构。最后,我们将其与最近的一种名为DeIT[40]的ViT变体进行比较。DeIT使用更加数据高效的预训练过程来训练ViT架构。需要注意的是,DeIT-Base架构与ViT-Base相同,而DeIT-Base-Dist引入了一个额外的蒸馏令牌,在Reassemble操作中我们忽略它。我们观察到,与ViT-Base相比,DeIT-Base-Dist可以提高性能。这表明,类似于卷积架构,改进图像分类的预训练过程可以有益于密集预测任务。0推理分辨率。虽然全卷积架构在最深层具有大的有效感受野,但靠近输入的层是局部的,具有小的感受野。因此,当进行与训练分辨率明显不同的输入分辨率的推理时,性能会严重下降。另一方面,Transformer编码器在每一层都具有全局感受野。我们推测,这使得DPT对推理分辨率不太依赖。0HRWSI BlendedMVS ReDWeb 平均0ResNet50 0.0890 0.0887 0.1029 0.0935 ResNext101-WSL0.0780 0.0751 0.0886 0.08060DeIT-Base 0.0798 0.0804 0.0925 0.0842 DeIT-Base-Dist0.0758 0.0758 0.0871 0.07960ViT-Base 0.0797 0.0764 0.0895 0.0819 ViT-Large 0.07400.0747 0.0846 0.0778 ViT-Hybrid 0.0738 0.0746 0.08640.07830表8.去除主干的实验。混合和大型主干网络始终优于卷积基线。基础架构可以通过更好的预训练(DeIT-Base-Dist)优于卷积基线。0分辨率0性能下降[%]0ViT-Hybrid DeIT-Distilled ResNext-101 ResNet-500图4. 不同推理分辨率的相对性能损失(越低越好)。0推理分辨率的影响。为了验证这个假设,我们绘制了不同架构在高于训练分辨率384×384像素的推理分辨率下性能损失的相对减少。我们将性能相对于在训练分辨率下进行推理的性能进行绘制,如图4所示。我们观察到,DPT变体的性能确实在推理分辨率增加时更加平稳地下降。0推理速度。表9显示了不同网络架构的推理时间。计时是在Intel Xeon Platinum 8280 CPU @ 2.70GHz和Nvidia RTX2080GPU上进行的,具有8个物理核心。我们使用宽度为384像素的正方形图像,并报告400次运行的平均值。DPT-Hybrid和DPT-Large的延迟与Mi-DaS使用的全卷积架构相当。有趣的是,尽管DPT-Large在参数数量和乘法累加操作方面比其他架构要大得多,但由于其宽而相对较浅的结构通过其高度的并行性,它具有竞争力的延迟。0MiDaS DPT-Base DPT-Hybrid DPT-Large0参数[百万] 105 112 123 343 时间[毫秒] 32 17 38 35 MACs[G]104 107 110 2530表9. 模型统计。DPT的推理速度与最先进的技术相当。05. 结论0我们介绍了密集预测变换器DPT,这是一种有效利用视觉变换器进行密集预测任务的神经网络架构。我们在单目深度估计和语义分割上的实验表明,与全卷积架构相比,所提出的架构在产生更细粒度和全局一致的预测方面更加优秀。与变换器的先前工作类似,DPT在大规模数据集上训练时发挥出其全部潜力。121870参考文献0[1] Vijay Badrinarayanan, Alex Kendall, and Roberto Cipolla.SegNet: 用于图像分割的深度卷积编码器-解码器架构。IEEETIP,39(12):2481–2495,2017年。0[2] Dzmitry Bahdanau, Kyunghyun Cho, and Yoshua Bengio.通过联合学习对齐和翻译的神经机器翻译。在ICLR,2015年。0[3] Irwan Bello, Barret Zoph, Ashish Vaswani, JonathonShlens, and Quoc V Le.注意力增强的卷积网络。在ICCV,2019年。0[4] Tom B. Brown, Benjamin Mann, Nick Ryder, Melanie Sub-biah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan,Pranav Shyam, Girish Sastry, Amanda Askell, et al.语言模型是少样本学习器。在NeurIPS,2020年。0[5] Vincent Casser, Soeren Pirk, Reza Mahjourian和AneliaAngelova. 无监督学习深度和自我运动: 一种结构化方法. 在AAAI ,2019.0[6] Liang-Chieh Chen, George Papandreou, IasonasKokkinos, Kevin Murphy和Alan L. Yuille. DeepLab:基于深度卷积网络、空洞卷积和全连接CRFs的语义图像分割.TPAMI , 40(4):834–848, 2018.0[7] Liang-Chieh Chen, George Papandreou, FlorianSchroff和Hartwig Adam. 重新思考用于语义图像分割的空洞卷积. arXiv预印本:1706.05587 , 2017.0[8] Marius Cordts, Mohamed Omran, Sebastian Ramos, TimoRehfeld, Markus Enzweiler, Rodrigo Benenson, Uwe Franke,Stefan Roth和Bernt Schiele.用于语义城市场景理解的Cityscapes数据集. 在CVPR , 2016.0[9] Jia Deng, Wei Dong, Richard Socher, Li-Jia Li, KaiLi和Fei-Fei Li. ImageNet: 一个大规模的分层图像数据库. 在CVPR, 2009.0[10] Jacob Devlin, Ming-Wei Chang, Kenton Lee和KristinaToutanova. BERT: 深度双向转换器的预训练方法用于语言理解.在ACL , 2019.0[11] Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov,Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner,Mosta
下载后可阅读完整内容,剩余1页未读,立即下载
- 粉丝: 5
- 资源: 2万+
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 构建基于Django和Stripe的SaaS应用教程
- Symfony2框架打造的RESTful问答系统icare-server
- 蓝桥杯Python试题解析与答案题库
- Go语言实现NWA到WAV文件格式转换工具
- 基于Django的医患管理系统应用
- Jenkins工作流插件开发指南:支持Workflow Python模块
- Java红酒网站项目源码解析与系统开源介绍
- Underworld Exporter资产定义文件详解
- Java版Crash Bandicoot资源库:逆向工程与源码分享
- Spring Boot Starter 自动IP计数功能实现指南
- 我的世界牛顿物理学模组深入解析
- STM32单片机工程创建详解与模板应用
- GDG堪萨斯城代码实验室:离子与火力基地示例应用
- Android Capstone项目:实现Potlatch服务器与OAuth2.0认证
- Cbit类:简化计算封装与异步任务处理
- Java8兼容的FullContact API Java客户端库介绍