没有合适的资源?快使用搜索试试~ 我知道了~
16269基于转换器的注意力网络在连续像素预测中的应用杨光磊1、2唐昊3丁明立1NicuSebe2Elisa Ricci2、41中国哈尔滨工业大学2意大利特伦托大学DISI 3瑞士苏黎世联邦理工学院计算机视觉实验室4意大利布鲁诺·凯斯勒基金会{杨光磊,丁磊}@ hit.edu.cn,唐浩@ vision.ee.ethz.ch,{niculae.sebe,e.ricci} @ unitn.it摘要虽然卷积神经网络已经显示出对各种计算机视觉任务的巨大影响,但由于卷积运算的固有局部性,它们通常 在 显 式 建 模 长 期 依 赖 性 方 面 表 现 出 局 限 性 。Transformers最初是为自然语言处理任务而设计的,现在已经成为一种替代架构,具有先天的全局自我注意机制来捕获长距离依赖关系。在本文中,我们提出了TransDepth,这是一种从卷积神经网络和变换器中受益的架构。为了避免网络失去其能力,以捕捉局部层次的细节,由于采用变压器,我们提出了一种新的解码器,采用基于门的注意机制。值得注意的是,这是第一篇将变换器应用于涉及连续标签的逐像素预测问题的论文(即,单目深度预测和表面法线估计)。大量的实验证明,所提出的TransDepth在三个具有挑战性的数据集上实现了最先进的性能。我们的代码可从以下网址获得:https://github.com/ygjwd12345/TransDepth.1. 介绍在过去的十年中,卷积神经网络已经成为解决需要密集像素预测的基本和具有挑战性的计算机视觉任务的特权方法,例如语义分割[6,21],单目深度预测[39,18]和正常表面计算[43]。自从[27]的开创性工作以来,现有的深度预测模型已经由利用诸如ResNet和VGG-Net的架构实现的编码器主导。编码器逐渐降低空间分辨率,并学习更多具有更大接收场的概念。由于上下文建模对于像素级预测至关重要,因此深度特征表示学习可以说是最关键的模型组件[5]。然而,对于深度预测网络来说,这仍然是一个挑战以提高他们在建模全局上下文方面的能力。传统上,在编码器中使用堆叠卷积层和连续下采样来生成深层的足够大的接收场。这个问题通常在某种程度上被规避而不是解决。不幸的是,现有的策略带来了几个缺点:(1)非常深的网络的训练受到连续乘法洗掉低级特征的事实的影响;(2)由于空间分辨率逐渐降低,丢弃了对密集预测任务至关重要的局部信息。为了克服这些限制,最近已经提出了几种方法。一种解决方案是通过使用例如大的内核大小[42],atrous卷积[5]和图像/特征pyramid[71]来直接操纵卷积运算。另一种解决方案是将注意力模块集成到全卷积网络架构中。这样的模块旨在对特征图中所有像素的全局交互进行建模[60]。当应用于单目深度预测[65,64]时,一般方法是将注意力模块与多尺度融合方法相结合。最近,Huynhet al. [31]提出了一种深度关注卷,将非局部共面性约束纳入网络。Guizilini等人[26]依靠固定的预训练语义分割网络来指导全局表示学习。尽管这些方法Transformer最初用于在NLP任务中对序列到序列的预测进行建模,以获得更大的接收域,最近在计算机视觉社区引起了极大的兴趣。[16]中提出了第一个用于图像识 别 的 纯 粹 基 于 自 我 注 意 力 的 视 觉 Transformer(ViT),与卷积网络相比,ImageNet获得了出色的结果。此外,SETR [72]用纯粹的Transformer替换了编码器,在CityScapes数据集上获得了有竞争力的结果。有趣的是,我们发现一个类似SETR的纯基于transformer的分割网络由于在对局部信息建模时缺乏空间归纳偏差而产生了不令人满意的性能。同时,大多数基于深度特征表示16270怨恨学习不能解决这个问题。如今,只有少数研究人员[3]正在考虑将CNN与Transformer结合起来,以创建一种混合结构来结合它们的优势。与将像素级预测任务视为序列到序列的预测问题相比,我们首先提出将Transformer嵌入到ResNet主干中,以便对语义像素依赖关系进行建模。此外,我们设计了一个新的和有效的统一注意力门解码器,以解决的缺点,即纯线性Transformer的嵌入功能缺乏空间感应偏置捕获本地表示。我们的经验表明,我们的方法提供了一个新的角度在模型设计,并实现了国家的最先进的几个具有挑战性的基准。总而言之,我们的贡献有三个方面:• 我们是第一个提出使用变形金刚进行单目深度估计和表面法线预测任务的人。Transformer可以成功地提高传统卷积神经网络对远程依赖关系建模的能力。• 我们提出了一种新颖有效的统一注意力门结构,旨在以并行方式利用和融合多尺度信息,并在注意力门解码器中的不同属性图之间传递信息,以更好地建模多尺度属性。• 我们用三个具有挑战性的数据集(例如,NYU[47],KITTI [22]和ScanNet [11]),证明我们的TransDepth在KITTI上优于以前的方法(δ 1上为0.956<。25)、NYU深度(0.900δ<1。25),并在以下方面NYU表面法线估计。2. 相关工作计算机视觉中的变形金刚Transformer和自我注意力模型彻底改变了机器翻译和自然语言处理[54,12]。 最近,也有一些关于在计算机视觉任务中使用Transformer结构的探索[28,3,41,14,68,45]。 例如,LRNet [28]探索了局部自我注意力,以避免全局自我注意力带来的繁重计算。Axial-Attention [55]将全局空间注意力分解为两个单独的轴向注意力,从而大大减少了计算。除了这些纯粹的基于Transformer的模型之外,还有CNN-Transformer混合模型。例如,DETR [3]和以下可变形版本利用Transformer进行物体检测,其中变压器附加在检测头内部。LSTR [41]采用Transformer进行视差估计和车道形状预测。最近,ViT [16]是第一个表明纯基于Transformer的图像分类模型可以实现最先进的工作。这项工作提供了直接的灵感在语义分割模型中利用纯的基于变换器的编码器设计。同时,基于ViT的SETR [72]利用注意力进行图像分割。然而,在连续像素预测方面,还没有相关的工作。主要原因是为连续标签任务设计的网络非常依赖于深度表示学习和具有解码器架构的全卷积网络(FCN)。在这种情况下,将图像视为补丁序列的纯Transformer(没有卷积和分辨率降低)不适合于具有连续标签的像素级预测。我们提出了一种新的组合框架,将线性Transformer和ResNet放在一起,以解决上述限制。这导致以前基于深度表示学习的有效方法,例如扩张/atrous卷积和插入注意力模块,仍然与我们的网络兼容。同时,我们的线性Transformer中删除了位置嵌入模块,但我们利用解码器中的多尺度融合来添加位置信息。 必须成功地将Transformers应用于深度预测和表面法线估计任务。单眼深度估计。最近关于单目深度估计的工作基于CNN[17,39,57,34,20,35,25,26,67],其遭受有限的接收场问题或较少的全局表示学习。例如,Eigenet al.[18]引入了双流深度网络,以同时考虑粗略的全局预测和局部信息。Fu等人[20]提出了一种离散化策略,将单眼深度估计视为深度有序回归问题。他们还采用了多尺度网络来捕获相关的多尺度信息。Lee等[35]在网络解码器模块中引入了局部平面引导层,以学习用于深度估计的更有效的特征。最近,PackNet-SfM [25]使用具有自我 监 督 的 3D 卷 积 来 学 习 细 节 保 留 表 示 。 同 时 ,Guiziliniet al. [26]通过使用预先训练的语义分割网络将语义特征利用到自监督深度网络中。新的SOTA,即SOTA-Net [24],重点关注使用立体视图合成的表征学习,在所有图像区域中对合成右视图进行惩罚。虽然它显式地增加了远程建模依赖性,但增加了更多的训练步骤。我们的方法也专注于表示学习,但只有一步训练策略。Transformer机制非常适合于解决有限的接收场问题,以指导深度特征的生成。与以前的作品[72,16]将图像重塑为一系列扁平的2D补丁不同,我们提出了一种结合ResNet [27]和线性Transformer [16]的混合模型。这与以前的Transformer机制有很大的不同,它利用了双方的优势。这种复合结构16271××嵌入序列重塑图层规范线性投影MSA图层规范MLP编码器Transformer层ResNetAGD上采样Transformer层上采样上采样图1:所提出的TransDepth的概述。符号C分别。AG是AttentionGate的缩写。和表示级联和加法运算,还具有另一个优点:许多深度表示学习方法可以容易地在该网络中转移。曲面法线估计。表面法线预测被认为是与单目深度预测接近的任务。从一幅图像中提取三维几何图形是计算机视觉中一个长期存在的问题.表面法向估计是一个经典的任务,在这种情况下,需要建模的全球和本地的功能。典型的方法利用具有高容量的网络来实现高分辨率的准确预测。例如,FrameNet [29]采用了DORN [20]架构,这是DeepLabv3的修改版[5]它删除了多个空间缩减(2个最大池层),以生成高分辨率的表面法线贴图。 另一种不同的策略是设计适当的损失条款。例如,UprightNet [62]考虑了角度损失,并显示了其对任务的有效性。最近,Doet al. [15]提出了一种新的截断角损失和倾斜图像处理,保留了atrous空间金字塔池(ASPP)模块以增加接收场。虽然它的性能是SOTA,但由于倾斜的图像处理,增加了两个额外的训练阶段。 注意力模型。一些工作已经考虑在深度架构中集成注意力模型以提高几个任务的性能,例如图像分类[63],图像生成[50,49,51,52],视频生成[40],语音识别[9]和机器翻译[54]。专注于像素级预测,Chenetal. [6]是第一个描述注意力模型的人,该模型将FCN学习的多尺度特征结合起来进行语义分割。Zhang等人[70]设计了EncNet,这是一个配备了信道注意机制的网络,用于模拟全球环境。Huang等人. [30]描述了CC-Net,这是一种深度架构,它嵌入了一个纵横交错的注意力模块,其思想是使用稀疏连接的图来建模上下文依赖关系,以实现更高的计算效率。Fu等人[21]提出通过使用两个单独的注意力模块来对与空间和通道维度相关联的语义依赖性进行建模。我们的工作显著偏离这些方法,因为我们引入了一种新的注意力门机制,将空间和通道级注意力添加到注意力解码器中。值得注意的是,我们还证明了我们的模型可以成功地用于几个具有挑战性的密集连续像素级预测任务,其中它的性能显着优于PGA-Net [64]。3. 建议的TransDepth如前所述,我们的工作旨在通过添加Transformer层并通过注意力门解码器增强学习的表示来解决有限的感受场。16272Ⓢ∗⊕×× ×p∈×∈i=1∈i=1- -Σ我Σ我SP- -chCONV间隙ConcatCONVCONVCha关注消息输出图2:所提出的注意力门模块的概述。符号、、σ、和S乘法、逐元素加法、sigmoid、卷积和softmax运算。按元素表示3.1. 用于深度预测的图1描述了网络的概况。与以前的作品[72,4,16]不同,将图像I ∈RH × W×3重塑为一系列平坦的2D面片IRN ×( p2·3 ),我们提出了一个混合模型。如图1所示,输入序列来自ResNet主干[27]。然后将补丁嵌入应用于从CNN的最终特征输出中提取的补丁该补丁嵌入Transformer尺寸。在这种情况下,我们还移除位置嵌入,因为在使用线性投影将矢量化的补片Ip映射到潜在嵌 入 空 间 Ip 中 时 丢 失 了 原 始 物 理 意 义 。 第 一 个Transformer层的输入计算如下:z0= [11E;12E;···;1NE],(1)其中,使用可训练线性投影层将z〇映射到潜在N维嵌入空间中,并且E是块嵌入投影。存在L个Transformer层,其由多头自注意(MSA)和多层感知器(MLP)块组成。在每个层l处,自注意块的输入是Q(查询)的三元组,K(key)和V(value),类似于[54],从zA−1∈RL× C计算为:Q=zA−1×WQ, K=zA−1×WK, V=zA−1×WV,(2)其中WQ、WK、WVRC× d是权重矩阵的可学习参数,d是Q、K、V的维数。自我注意力计算为:Q×KT其中WoRmd× C. MSA的输出然后由具有残差跳过的MLP块变换为层输出,如下:zA=MLP(LN(zA′))+zA′,(5)其中LN(·)表示层归一化算子,zA′=MSA(zA−1)。T 变 换 器 层 的 结 构 在 图 1 的 左 侧 部 分 中 示 出 。 在Transformer层之后,输出将恢复为原始要素形状。3.2. 注意门解码器给定输入图像I和通用前端CNN模型,我们考虑S个多尺度特征映射的集合F=fiN。作为通用框架,这些特征图可以是S个中间CNN层或另一表示的输出,因此s是虚拟尺度。 与采用简单级联或加权平均方案[72]的先前工作相反,我们提出通过学习一组潜在内核(Ir-e,Ie-r,L)来组合多尺度特征图,其中图2中描绘了新结构的注意门控模块。在所有任务中,我们只选择fN作为接收特征fr,而选 择 f iN −1作为发射特征fe。消融部分解释了不同尺度融合的详细地说,整个注意力门可以分为两个部分,即,注意和信息。我们建议通过公式化的一种新的注意力门机制的注意力部分,汇集像素预测的最新进展。受[21]的启发,其中计算了两个空间和通道预测,我们选择推断不同的空间和通道注意力变量。我们的注意力张量可以定义为:AH=softmax(√d)·V,(3)C其中AH是注意力头的缩写,d是自注意力块的尺寸。MSA的意思是注意头会通过独立的权重矩阵计算m次。 的我=1(ωspCspc=1*A)[c,h,w],最终MSA(zA−1)定义为:MSA(zA−1)=zA−1+concat(AH1;AH2;·· ·;AHm)×Wo,1I=ch硬件H,W(ωsph,w=1*A)[c,h,w],(六)(四)αie→ r =softmax(Ai))·σ(Ai)·A1,一一16273我D我我−×I=3×××由Li* fr计算。最后,我们注意力的输出(di−d)2;门解码器是:• 平均log 10误差(log-rms):• 具有阈值t的准确度:数据的百分比(%),受试者一旦隐变量被更新,我们就用它们来d~iKyi我- -其中i意味着选择i作为发射特征。与[21]不同,我们在生成注意力之前采用局部条件核使用如下的线性变换从输入特征预测核Ir-e、Ie-r和LLi,j=WL i,jconcat(f i,f j)+bLi,j,ScanNet数据集[11]是用于3D场景理解的大型RGB-D数据集。我们用它来评估我们提出的模型的表面正常的性能。ScanNet数据集分为189,916个用于训练,20,942个用于测试,文件列表见[11]。4.2.评估指标Ii,j=WIi,jeRfi+bIi,j,(七)r→ er→ e er→e单目深度估计评估协议。Ii,j=WIi,jfj+ bIi,j.我们按照前面的标准评估协议e→ re→ rre→r[17,18,57]并采用以下定量评估-综合注意力的定义如下:我们实验中的评价指标:• 绝对相对误差(abs-rel):1ΣK|;|;我我Ki=1 dyA= Ie → r * fr+ Ir → e * fe + fr* L * fe。(8)iy 2• 平方相对差(sq-rel):1ΣK||;||;与关注部分相比,留言容易被i=1yΣ.1ΣK埃洛格(d~i)−log(d)2;(九)我dy~tomax(i,di)=δ
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- C++标准程序库:权威指南
- Java解惑:奇数判断误区与改进方法
- C++编程必读:20种设计模式详解与实战
- LM3S8962微控制器数据手册
- 51单片机C语言实战教程:从入门到精通
- Spring3.0权威指南:JavaEE6实战
- Win32多线程程序设计详解
- Lucene2.9.1开发全攻略:从环境配置到索引创建
- 内存虚拟硬盘技术:提升电脑速度的秘密武器
- Java操作数据库:保存与显示图片到数据库及页面
- ISO14001:2004环境管理体系要求详解
- ShopExV4.8二次开发详解
- 企业形象与产品推广一站式网站建设技术方案揭秘
- Shopex二次开发:触发器与控制器重定向技术详解
- FPGA开发实战指南:创新设计与进阶技巧
- ShopExV4.8二次开发入门:解决升级问题与功能扩展
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功