视觉Transformer相对位置编码的改进和验证

19 浏览量更新于2023-10-13 收藏 754KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

10033视觉Transformer相对位置编码的反思与改进Kan Wu1，2，3，*，Houwen Peng3，*，†，Minghao Chen3，Jianlong Fu3，Hongyang Chao1，21中山大学计算机科学与工程学院2机器智能与先进计算教育部重点实验室（中山大学）3微软亚洲研究院摘要相对位置编码（RPE）是转换器捕获输入标记序列顺序的重要方法一般的效率已经在自然语言处理中得到了证明。然而，在计算机视觉中，其有效性并没有得到很好的研究，甚至仍然存在争议，例如，相对位置编码是否为了澄清这一点，我们首先回顾了现有的相对位置编码方法，并分析了它们在视觉变换器中应用时的优缺点。然后，我们提出了新的相对位置编码方法dedi- cated二维图像，称为图像RPE（iRPE）。我们的方法考虑了方向相对距离建模以及自注意机制中查询和相对位置嵌入之间的相互作用。所提出的iRPE方法是简单和轻量级的。它们可以很容易-被插入Transformer块中。实验证明，仅仅由于所提出的编码方法，DeiT [21]和DETR [1]在ImageNet和COCO上分别获得了1.5%（top-1 Acc）和1.3%（mAP）的稳定改进，而无需调整任何额外的超参数，如学习率和权重衰减。我们的消融和分析也产生了有趣的发现，其中一些与传统的理解背道而驰。代码和模型在https://github.com/microsoft/Cream/tree/main/iRPE 上开源。1. 介绍Transformer最近在计算机视觉中引起了极大的关注，因为它在捕获远程依赖关系方面具有竞争力的性能和超强的能力[1，2，7，21，24]。Transformer的核心是self-attention [22]，它能够对序列中的令牌关系进行建模。然而，自我注意有一个固有的缺陷--它不能捕捉输入标记的顺序*同等缴款。Kan和Minghao在MSRA实习时完成的工作。†通讯作者：houwen. microsoft.com因此，并入位置信息的显式表示对于Transformer尤其重要，因为模型另外对于序列排序是完全不变的，这对于建模结构化数据是不期望的。Transformer位置表示的编码方法主要有两类。一个是绝对的，另一个是相对的。绝对方法[8，22]对输入标记的绝对位置进行编码，从1到最大序列长度。也就是说，每个位置具有单独的编码矢量。然后将编码向量与输入标记组合以将位置信息暴露给模型。另一方面，相对位置方法[4，17]对输入元素之间的相对距离进行编码，并学习标记的成对关系。相对位置编码（RPE）通常通过查找表计算，其中可学习参数与自我注意模块中的查询和键进行交互[17]。这种方案允许模块捕获令牌之间的非常长的依赖性相对位置编码已被证明在自然语言处理中是有效的[4，6，15，25]。然而，在计算机视觉中，其有效性仍不清楚。最近很少有作品[3，7，18]揭示它，但在视觉变换器中获得有争议的结论例如，Dosovitskiy et al. [7]观察到相对位置编码与绝对位置编码相比没有带来任何增益（请参见表1）。8在[7]中）。相反，Srinivaset al. [18]发现相对位置编码可以引起明显的增益，优于绝对增益（请参见表1）。4在[18]中）。此外，最新的工作[3]声称相对位置编码不能像绝对位置编码那样工作得同样好（请参考表1）。5在[3]中）。这些工作得出了不同的结论，相对位置编码的模型中的有效性，促使我们重新思考和改进相对位置编码在视觉Transformer中的使用。另一方面，提出了用于语言建模的原始相对位置编码，其中输入数据是1D单词序列[4，17，22]。但对于视觉任务，输入通常是2D图像或视频序列，其中像素高度空间结构化。不清楚的是：10034O O∈E∈RIJΣz=α（xW+p），（5）iijj∈√∈∈ΣΣJ从1D到2D的朴素扩展是否适用于视觉模型;方向信息是否不完整;其中eij使用缩放的点积计算注意：（x WQ）（x WK）T在视觉任务中的重要性？在本文中，我们首先回顾现有的相对位置en-eij=i德国z.（三）编码方法，然后提出新的方法专用于2D图像。我们做出以下贡献。• 分析了相对位置编码中的几个关键因素，包括相对方向、上下文的重要性、查询、键、值和相对位置嵌入之间的相互作用以及计算代价。该分析提供了对相对位置编码的全面理解，并为新方法的设计提供了经验指导。• 我们引入了一种有效的相对编码实现，它将计算成本从原始的（n2d）降低到（nkd），其中kn。这样的实现适合于高分辨率输入图像，诸如对象检测和语义分割，其中令牌数量可能非常大。• 我们提出了四种新的相对位置编码方法，称为图像RPE（iRPE），专用于视觉变换器，同时考虑效率和通用性。该方法简单，可以很容易地插入自我注意层。实验表明，在不调整超参数和设置的情况下，所提出的方法可以提高DeiT，S [21]和DETR-ResNet 50 [1]分别比其在ImageNet [5]和COCO [12]上的原始模型增加1.5%（top-1 Acc）和1.3%（mAP）。• 我们回答了先前有争议的问题。我们的实验表明，相对位置编码可以取代绝对编码的图像分类任务。同时，绝对编码是nec-这里，投影WQ、WK、WVRdx×dz是参数矩阵，其每层是唯一的。而不是计算一次自我注意，多头自我注意（MHSA）[22]并行运行自我注意多次，即。，采用h个注意头。注意力头部输出被简单地连接并线性变换成期望的维度。2.2.位置编码绝对位置编码。由于Transformer不包含递归和卷积，为了让模型利用序列的顺序，我们需要注入一些关于to- kens位置的信息。原始的自我注意力考虑绝对位置[22]，并添加绝对位置编码p=（p1，...，pn）到输入令牌，将x嵌入为xi=xi+pi，⑷其中位置编码pi，x，idx.绝对位置编码有几种选择，例如具有不同频率的正弦和余弦函数的固定编码以及通过训练参数[8，22]学习的编码。相对位置编码。除了每个输入元素的绝对位置之外，最近的工作还考虑元素之间的成对关系，即。，相对位置[17]。相对关系对于元素的相对顺序或距离很重要的任务来说可能很这种类型的方法将输入元素X1和X2之间的相对位置编码为向量ij ij这对于对象检测是必要的，其中像素位置对于对象定位是重要的。2. 背景2.1. Self-Attention自我注意力在Transformer中起着基础性的作用pKRdz，其中d z=dx。编码向量被嵌入到自我注意模块中，其重新公式化Eq.（1）和方程（3）作为nVVIJj=1（xiWQ+pQ）（xjWK+pK）T它将查询和一组键值对映射到输出。更具体地，对于输入序列，例如，嵌入-eij=ij ijDz.（六）字或图像块的dings，x=（x1，...，xn），其中xiRdx，自注意力计算输出序列z=（z1，…其中z是Rdz。每个输出元素zi被计算为输入元素e的加权和以这种方式，学习成对位置关系在Transformer培训期间。这样的相对位置编码可以跨注意力头部共享或不共享。部分：nzi=α ij（xjWV）。（一）j=13. 方法在本节中，我们首先回顾以前的相对位置使用softmax计算每个权重系数αij编码方法，并分析其差异。然后我们exp（eij）（二）提出了四种新的视觉Transformer方法，αij=nk=1、exp（eik）及其有效实施。10035√∈- -δx~δy~2√∈∈(a)偏见模式（b）语境模式图1：在键上具有2D相对位置编码的自我注意模块的图示蓝色部分是新添加的。3.1. 先前的相对位置编码方法eij= （xiWQ+pij）（xjWK+pij）T−pijpijTD、（11）肖 Shaw等人 [17]提出了一种用于自我注意的相对位置编码。输入标记被建模为有向和全连接图。两个任意位置i和j之间的每个边缘由可学习向量pijRdz表示，即相对位置编码。此外，作者认为，精确的相对位置信息是没有用的超过一定的距离，所以引入了一个剪辑功能，以减少参数的数量。编码被公式化为z其中pijRdz是查询和键共享的相对位置编码。SASA中的RPE 以上三种方法都是针对语言建模中的一维词序列而设计的。Ramachan- dran等 [16]提出了一种用于2D图像编码方法。这个想法很简单。它将2D相对编码划分为水平和垂直方向，使得每个方向可以通过1D编码来建模。方法公式如下n Q KK K Tzi=Σj=1 αij（xjWV+pV），（7）clip（i−j，k）eij= （xiW）（xjW+concat（pδx，pδy））德国z、（十二）（xiWQ）（xjWK+pK）Tclip（i−j，k）其中δx~=x~ix~j和δy~=y~iy~j表示关系图像坐标的x轴和y轴上的位置偏移eij=、（8）Dznate分别，pKpK是可学习的向量clip（x，k）=max（−k，min（k，x）），（9）其中，pV和pK分别是值和键上的相对位置编码的可训练权重 pV=（pV，.，pV）和pK=（pK，.，其中pV，pK∈length1dz，concat操作连接两个en-编码以形成长度为dz的最终相对编码。换句话说，x轴或y轴上相同的偏移量共享相同的相对位置编码，因此该方法能够减少可学习参数的数量并计算出最小的偏移量。Rd−k k−k k初始成本。但是，编码仅应用于密钥。z.标量k是最大相对距离。Transformer-XL中的RPE Dai等人 [4]为查询引入了附加的偏置项，并使用正弦公式进行相对位置编码，其公式为在我们的实验中，我们观察到同时施加在键、查询和值上的RPE是最有效的，如表1中所示。4和Tab。五、Axial-Deepab中的RPE。 Wang等人[23]介绍一种位置敏感的方法，增加了qkv依赖的位置（x WQ+u）（x WK）T+（xWQ+v）（sWR）T将理性偏见转化为自我关注。位置灵敏度为ap-eij=ij ii−jDz、（十）施加轴向注意力，依次沿高度轴和宽度轴传播信息。但当其中u，vRdz是两个可学习的向量。正弦编码矢量s提供相对位置的先验[22]。WR∈Rdz×dz是一个可训练矩阵，将si−j投影到基于位置的key向量r中。黄的视网膜色素上皮Huang等人。 [11]提出了一种同时考虑查询、键和相对位置的交互的方程如下√10036如果相对距离大于阈值，则将编码设置为零。我们观察到远程相对位置信息是有用的，如表1中所分析的。六、位置敏感性与标准的自我注意之间可能存在竞争关系如果配备了所提出的分段函数，它可以进一步改进，并变得更有效地建模长期依赖关系。10037−→{∈|联系我们∈.g（x）=∈ln（γ/α）·−−Σz=α（xW+r），（17）iijjIJIJ- -IJ∈ij ijij ij3.2. 建议的相对位置编码方法我们设计我们的图像RPE（iRPE）方法来分析几个因素，这是没有很好地研究在以前的工作（见分析在第二节。4.2）。首先，为了研究编码是否可以独立于输入嵌入，我们引入两种相对位置模式：偏见和语境。我们提出了一个分段函数来映射相对位置的编码，是从传统的剪辑功能不同。然后，为了研究方向性的重要性，我们设计了两种无向和两种有向方法。最后，我们为我们的方法提供了一个有效的实现。偏置模式和上下文模式。以前的相对位置编码方法都依赖于输入嵌入。它带来了一个问题，即。编码是否可以独立于输入？我们引入相对位置编码的偏置模式和语境模式来研究这个问题。前者独立于输入嵌入，而后者考虑与查询、键或值的交互。更具体地，我们引入统一的公式为（xiWQ）（xjWK）T+bij图2：分段函数g（x）和削波函数h（x）。（例如：高分辨率图像）。虽然[ 17 ]中使用的裁剪函数h（x）=max（β，min（β，x））也降低了成本，但相对距离大于β的位置被分配给相同的编码。这种方法不可避免地丢失了远程相对位置的上下文信息。受[ 15 ]的启发，我们引入了一个分段函数g（x）：RyZβyβ用于索引到相应编码的相对距离该函数基于一个假设，即较近的邻居比较远的邻居更重要，并分配注意力eij=√d，（13）相对距离。它是作为其中bijR是2D相对位置编码，定义了偏置或上下文模式。对于偏置模式，bij=rij，（14）其中，R是可学习的标量，并且表示相对量。位置i和j之间的有效位置权重。对于上下文模式，其中，rijRdz是可训练的向量，与查询嵌入在上下文模式中存在多个变量。例如，对查询和键两者操作的相对位置编码可以被呈现为bij=（xiWQ）（rK）T+（xjWK）（rQ）T，（16）[x]，|X|（1）A =（1）A=（|X|/α）（β − α）]），|X|>α（十八）其中[ ]是一个舍入运算，sign（x）确定一个数的符号，即，对于正输入返回1，对于负输入返回-1，否则返回0。α确定分段点，β控制[β，β]范围内的输出，γ调整对数部分的曲率。我们将分段函数g（x）与削波函数h（x）=min（β，max（β，x））进行比较，即等式（九）、在图2中，剪辑函数h（X）分布均匀的注意力并且省略长距离位置，但是分段地ijij其中rK，rQ∈Rdz 都是可学习的载体此外，我们认为，函数g（x）通过相关性分布不同的注意力水平。上下文模式也可以应用于值嵌入，nVVIJj=1其中rV∈Rdz。可以以相同的方式构造相对位置权重rQ、rK和rV对于统一的表示，我们在下面的讨论中使用rij图1示出了在所提出的两种模式中具有键上的2D相对位置编码的自注意模块的图示。分段指数函数。在描述2D相对位置权重rij之前，我们首先引入多对一函数，将相对距离映射到有限集合中的整数，然后rij可以由整数索引。在不同的关系位置之间共享编码特别是对于高分辨率图像或需要长距离特征依赖性的任务，应当保留长距离位置，因此选择g（x）来构造我们的用于Rij的映射方法。二维相对位置计算。为了计算2D图像平面上的相对位置并定义相对权重rij，我们提出了两种无向映射方法，即Euclidean和Quantization，以及两种有向映射方法，即Cross和Product。欧几里德方法在图像平面上，相对位置（x~ix~j，y~iy~j）是2D坐标。我们计算两个位置之间的欧氏距离，并将距离映射到相应的编码中。该方法是无指导性的并且公式化为rij=pI（i，j），（19）选项。这样的索引函数可以大大减少计算量。长序列I（i，j）=g（.（x~i-x~j）2+（y~i-y~j）2），（20）z主动距离我们假设潜在的信息10038联系我们.{OOO×其中pi（i，j）是偏置模式中的可学习标量或上下文模式中的向量。我们将pI（i，j）视为存储相对位置权重的桶。桶的数量是2β+1，如等式2中所定义（十八）、量化方法。在上述欧几里德方法中，具有不同相对距离的较近的两个邻居可以被映射到相同的索引中，例如，2D 相对位置（1，0）和（1，1）都映射到索引1中。我们认为近邻应该分开。因此，我们量化欧氏距离，即，不同的实数被映射成不同的整数。我们修正了方程中的I（i，j）。（19）作为（1）A （ 1） A （ 2 ）A（（x~i-x~j ） 2+（y~i-y~j）2））。（21）操作quant映射实数集合0、1、1.41 、1.42 、1.43 、1.44 、1.45 、1.46 、1.47、1.48、1.49、1二，二点二十四... 转化成一组整数 0，1，2，3，4，这个方法也是无方向的。交叉法。像素的位置方向对图像也很重要，因此我们提出了有向映射方法。这种方法称之为Cross方法，它分别计算水平和垂直两个方向的编码，然后进行总结。该方法给出为它需要时间复杂性（n2d）来计算所有yi j，其中n和d分别是输入序列的长度和特征通道的数量。由于I（i，j）的多对一性质，在视觉Transformer中I（i，j）的集合大小k通常小于n因此，我们提供如下的有效实现，z i，t=（xiW）ptT，t ∈ {I（i，j）|i，j ∈ [0，n）}，（27）yij=zi，I（i，j） .（ 28）首先需要时间复杂度（nkd）来预先计算所有zi，t由等式（27），然后通过等式（27）的映射t=I（i，j）将z i，t分配给所有y ij。（28页）。赋值运算的时间复杂度为n2，其代价远小于预计算过程。因此，计算相对位置编码的成本从原来时间复杂度为O（n）。4. 实验在本节中，我们首先通过比较不同的位置嵌入来提供一些分析，然后是经验，里季x~Ix~（i，j）y~Iy~（i，j）、（二十二）分析了相对位置编码中关键因素的影响。然后，我们比较了所提出的方法与国家的最先进的方法对图像分类和对象Ix~（i，j）=g（x~i-x~j），（23）Iy（i，j）=g（yi-yj），（24）检测任务。最后，我们将相对位置编码可视化，并解释为什么它工作。4.1. 实现细节x~I（i，j）y~I（i，j）都是可学习的标量我们选择最近的视觉Transformer模型模式，或上下文模式中的可学习向量。类似于与SASA [ 16 ]中的编码相比，x轴或y轴上的相同偏移共享相同的编码，但主要区别在于我们使用分段函数来通过相对距离分配注意力。桶的数量是 2（2β+1）。产品方法。 Cross方法编码不同的如果在一个方向上的距离是相同的，无论是水平还是垂直的，则将相对位置嵌入到相同的嵌入中。除此之外，等式中的加法运算也可以得到（22）带来额外的计算成本。为了提高效率并涉及更多的方向信息，我们设计了乘积方法，其公式为rij=pIx~（i，j），Iy~（i，j）。（二十五）等式的右侧是偏置模式中的可训练标量，或连续模式中的可训练向量。 Ix~（i，j）和Iy~（i，j）在等式（1）中定义。（23）和Eq. （24），并且它们的组合是p的2D索引。桶的数量是（2β+1）2。有效的实施。对于上述亲-在上下文模式中提出的方法中，当将Eq. （19），Eq.（22）或Eq. （25）到Eq. （15）、令yij表示如下的公共项，yij=（xiW）pI（i，j）T。（二十六）=p+p和p其中p10039DeiT [21]作为大多数实验的基线。相对位置编码被添加到所有自注意层中。如果没有指定，RPE仅添加到密钥上。我们为分段函数g（x）设置α：β：γ= 1：2：8，并通过改变β来调整桶的数量。额外的桶用于存储分类令牌的相对位置编码。为了公平比较，我们采用与DeiT [21]相同的训练设置：AdamW [13]优化器，权重decay 0.05，初始学习率1x10-3和最小学习1x10-5，余弦调度器，5epochs预热，批量大小为1024，0.1标签平滑[19]，随机深度生存率为0.9。图像被分成14x14个不重叠的块。数据增强方法[26，27]与DeiT [21]一致。所有模型都使用8个NVIDIA Tesla V100 GPU从头开始训练300个epoch。4.2. 相对位置编码定向 v.s. 无定向。如 Tab. 所示。 1 、在视觉Transformer中，有向方法（Cross和Product）的性能一般优于无向方法（Euclidean和Quantization）这种现象说明了方向性对于视觉变换器是重要的，因为图像像素是高度结构化的和语义相关的。10040基于DeiT-S [21]定向表1：我们在ImageNet上的相对位置编码方法的消融[5]。原始模型是DeiT-S [21]，其仅使用绝对位置编码。我们装备的模型与建议的四个相对的编码方法，即。，方程式（19），Eq.（21），Eq.（22）和Eq.（25），最佳桶数分别为20、51、56和50。模式共享#参数。Macs(M)（男）Top-1累积（%）偏置×C22.05 461322.05 4613八十54 ±0。06八十05 ±0. 04上下文×C22.28 465922.09 4659八十99 ±0。16八十89 ±0。04表2：跨注意力头部的共享和非共享相对位置编码的消融。实验在ImageNet [5]上的DeiT-S [21]上进行，具有50个桶。模型经过三次训练和评估。偏倚与上下文。选项卡. 1表明，无论使用哪种方法，上下文模式都实现了优于偏置模式的性能。潜在的原因可能是上下文模式改变了输入特征的编码，而偏置模式保持静态。共享v.s. 不共享。自我注意力包含多个头部。RPE可以在不同的头之间共享或不共享。我们显示了这两个计划的影响，在偏置和上下文模式在标签。2所示的序列。对于偏置模式，当在头之间共享编码时，准确度显著下降相比之下，在上下文模式中，两个方案之间的性能差距是可以忽略的。这两种方法的平均top-1准确率为80.9%。我们推测不同的头部需要不同的RPE来捕获不同的信息。在上下文模式中，每个头部通过等式（Eq.（15）当在偏置模式中时，共享RPE迫使所有头部对贴片给予相同的注意。为节省参数，我们在最终方法中采用份额方案。分段与剪辑. 我们比较了方程中定义的分段函数g（x）的有效性。（18）和在等式（19）中定义的削波函数h（x）。（9）在Tab. 3 .第三章。在图像分类任务中，它们之间的性能差距非常小，甚至可以忽略不计。然而，在目标检测任务中，我们发现裁剪函数比分段函数表3：削波函数和分段函数的消融。实验在DeiT-S [21]模型上进行，其中产品共享头相对位置编码在ImageNet [5]上。桶的数量为50。图3：在ImageNet上使用共享RPE的上下文产品模型中的桶数的消融[5]。图4：在不同分辨率下不同实现中具有50个桶的RPE的额外计算成本。基线模型为DeiT-S [21]。MAC表示乘法-累加运算。如Tab中所示 6（#5 v.s. #6）。潜在的原因是当序列较短时它们是相似的。分段函数是有效的，特别是当序列大小比桶的数量大得多与分类相比，对象检测使用更高分辨率的输入，从而导致更长的输入序列。因此我们推测，当输入序列较长时，应该使用分段函数，因为它能够将不同的注意力分配到相对距离较大的位置，而当相对距离大于β时，裁剪函数分配相同的编码。桶数。桶的数量在很大程度上影响模型参数、计算复杂度和性能。为了找到平衡，我们探索了改变上下文产品方法的桶数的影响。图图3示出了top-1精度随桶数的变化在50个桶之前，精度从79.9提高到80.9。之后，没有明显的改善。它表明，buck-ets 50的数量是计算成本和DeiT-S [21]中14×14特征图的准确性功能模式前1位的访问率（%）前5位访问（%）夹偏置上下文80.180.994.995.5分段偏置上下文80.080.995.095.5方法为模式Top-1累积（%）Δ累积（%）原创[21]--79.9-欧几里德×偏倚80.1+0.2上下文80.4+0.5量化×偏置80.3+0.4上下文80.5+0.6交叉C偏倚80.5+0.6上下文80.8+0.9产品C偏倚80.5+0.610041ij ij ij ij模型#参数。输入MAC（M）Top-1累积（%）ConvNetsResNet-50 [10]25M2242412179.0[14]第十四话21M2242401279.4[20]第二十话8M240271279.1Ef ficientNet-B530M45621039283.6表4：ImageNet上的分量分析[5]。我们将上下文产品共享头RPE添加到DeiT-S [21]中。桶的数量为50。绝对位置代表ab-变压器溶质位置编码QKVpij、pij和pij表示对查询、键和值的相对位置编码分量分析。我们进行了一个组件明智的分析，研究不同的位置编码的视觉Transformer模型的影响。我们选择DeiT-S模型[21]作为基线，并且仅改变位置编码方法。在原始模型中使用可学习的绝对位置编码。通过具有50个桶的上下文乘积方法计算相对位置编码。我们从Tab得到的结论4如下：1）从原始DeiT-S中移除绝对位置编码将导致Top-1准确度从79.9至77.6（#1对#2）。2)仅具有相对位置编码的模型超过仅具有绝对位置编码的模型（#3-5对#1）。这表明RPE作为绝对值工作良好。3)当配备有RPE时，绝对溶质不会带来任何增益（#3-5 v. #8-10）。我们假设在分类任务中，局部信息比全局信息更重要。4)查询或键上的RPE比值上的RPE带来更多的收益（#3，4 vs.#5）。5)对查询、键和值的编码的组合带来了进一步的改进（#6，7，11，12 vs. 其他）。复杂性分析。我们评估我们提出的方法的计算成本相对于不同的输入分辨率。基线模型为DeiT-S [21]，仅采用绝对位置编码。我们采用上下文产品共享头相对位置编码的基线与50桶。图4显示我们的方法最多需要1%的额外费用计算成本与有效实施。4.3. 图像分类我们将我们提出的方法与图像分类任务的最先进方法进行比较。我们选择DeiT [21]作为基线。我们采用上下文产品共享头的方法与50桶。如Tab.所示。 5，我们的方法带来了所有三个DeiT模型的改进。+我们利用我们的产品方法来适应2D图像的剪辑功能的1D编码。编码权重在头之间共享。*DeiT-S [21]与SASA [16]的相对位置编码。表5：ImageNet上的比较[5]。埃尔斯特别地，通过仅在键上添加RPE，我们将DeiT-Ti/S/B模型分别我们表明，该模型可以进一步改进，通过添加建议的RPE查询和值。当与其他方法相比，我们实现了更好的性能与更少的参数和MAC。4.4. 目标检测方法为了验证通用性，我们在COCO 2017检测数据集上进一步评估了我们的方法[12]。我们使用基于变换器的检测模型DETR [1]作为基线，并遵循相同的train/val设置（包括超参数），除了将RPE注入编码器中的所有自我注意模块中如Tab.所示6（#1，6和#8，9），我们的方法通过以下方式始终如一地提高DETR的性能：1.3在150和300个训练时期下为1.7mAP。此外，我们进行消融研究，分析位置编码对目标检测任务的影响。比较选项卡中的#1、#2和#4。6，我们得出了位置编码对DETR至关重要的结论。我们还表明，在DETR中，绝对位置嵌入优于相对位置嵌入，这与分类中的我们推测，DETR需要的绝对位置编码的先验来定位对象。4.5. 可视化为了探索相对位置编码的根本原因，我们将额外的权重bij（在等式2中定义）可视化。（13））由RPE添加到针对不同位置的关注中。#绝对位置pQPKpVTop-1Top-51 [21]可学习×××79.995.02××××77.6（-2.3）93.83×C××80.9（+1.0）95.44××C×80.9（+1.0）95.35×××C80.2（+0.3）95.06×CC×81.0（+1.1）95.57×CCC81.3（+1.4）95.7ViT-B/16 [7]86M38425563077.9ViT-L/16 [7]307M384219145276.5DeiT-Ti [21]5M2242126172.2CPVT-Ti（0-5）[3]6M2242126273.4DeiT-Ti和iRPE-K（我们的）6M2242128473.7DeiT-S [21]22M2242461379.9CPVT-S（0-5）[3]23M2242461680.5DeiT-S（Shaw22M2242465980.9DeiT-S（反式- [4，21 ]+23M2242482880.8DeiT-S（Huang22M2242470681.0DeiT-S（SASA22M2242463980.8DeiT-S和iRPE-K（我们的）22M2242465980.9DeiT-S和iRPE-QK（我们的）22M2242470681.1带iRPE-QKV的DeiT-S（我们的）22M2242488581.4DeiT-B [21]86M22421759281.8CPVT-B（0-5）[3]86M22421759881.910042×#绝对位置相对位置桶数时代APAP50AP75APSAPMAPL1个[1]正弦无无无正弦曲线偏差无上下文正弦曲线ctx剪辑正弦曲线上下文正弦语境--9 ×99 ×99 ×99 ×915 ×1515039.560.341.417.543.059.1215030.4（-9.1）52.530.29.431.250.5315040.6（+1.1）61.242.819.043.960.2415038.7（-0.8）60.140.418.241.856.7515040.4（+0.9）60.942.419.143.759.8615040.8（+1.3）61.542.518.544.460.5715040.8（+1.3）61.742.618.544.261.28 [1]9正弦无正弦语境-9 ×930030040.642.3（+1.7）61.662.8-44.319.920.744.346.260.261.1表6：对DETR [ 1 ]的组分分析。在编码器和解码器中增加了绝对位置编码相对位置编码。相对位置编码首先由Shaw等人提出。[17]，其中相对位置编码被添加到键和值中。Dai等人 [4]提出了具有正弦矩阵的先验和更多可学习参数的相对位置编码。黄(a) （b）第10图5：上下文乘积方法中的相对位置编码（RPE）的可视化。我们显示了 RPE 对不同位置的注意力所（一）、(b) 显示从块0和10中的14×14个面片均匀采样的5×5位置。从图5中，RPE使块更多地集中在块0中的其相邻块上。但是，当它转向更高的块时，这种现象就消失了。我们推测，经过多层后，模型已经捕获了足够的局部信息.Transformer中的浅层是全局关注点，关注整个图像（由小块组成）。它不同于CNN模型，其中浅层仅捕获局部信息。理论上，在没有RPE（或其他附加操作，如本地窗口）的情况下，Transformer不会显式地捕获局部性。RPE将类Conv诱导偏置（包括局部性）注入到Transformer中，提高了模型捕获局部模式的能力。5. 相关工作Transformer器 Transformer最初由Vaswani等人提出。 [22]用于自然语言处理，最近扩展到计算机视觉[1，7，21]。在这项工作中，我们研究了图像分类和对象检测任务中的视觉变换器，并选择DeiT [21]和DETR[1]作为我们的基线模型。在ViT [7]和DeiT [21]中，图像被分成多个固定大小的补丁。嵌入特征的补丁添加绝对位置编码馈入标准的Transformer编码器。额外的可训练分类令牌被添加到序列中以用于分类。在DETR[1]中，CNN主干首先用于特征提取。它的输出，一个32降采样特征图是平坦的，并馈入一个Transformer，输出一定数量的边界框。可学习的或正弦曲线等人[11]提出了几种1D编码变体。相对位置编码的有效性已在自然语言处理中得到验证。也有一些作品在2D视觉任务中使用相对位置编码。Ra-Machandran等人 [16，18]提出了计算和连接每个维度的单独编码的2D相对位置编码。Chu等人[3]提出了插入编码器之间的位置编码生成器。然而，相对位置编码在视觉Transformer中的有效性仍然不清楚，这在本工作中进行了讨论和解决6. 结论和备注在本文中，我们回顾了现有的相对位置编码方法，并提出了四种方法致力于视觉变换器。大量的实验表明，我们的方法在分类和检测任务上都有明显的改进，而额外的复杂度可以忽略不计。我们的方法可以很容易地插入到视觉模型中的自我注意模块。此外，我们还对RPE的不同检测方法进行了比较和分析，并得出以下结论。1)RPE可以在不同的头之间共享，以节省参数。它是能够实现可比的性能与非共享的上下文模式。2)在图像分类任务中，RPE可以代替绝对分类。然而，绝对位置编码对于需要预测对象的位置的对象检测任务是必要的。3)RPE应考虑位置方向性，这对结构化2D图像很重要。4)RPE迫使浅层更多地关注局部斑块。在未来的工作中，我们计划将我们的方法扩展到其他基于注意力的模型和场景，例如语义分割等高分辨率输入任务[29]，以及点云分类等非像素输入任务[9，28]。致谢。感谢博士。Xingxing Zhang进行有见地的讨论。这项工作的部分支持中国国家科学基金会授权61672548，U1611461。10043引用[1] 尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛纳夫、尼古拉斯·乌斯尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁伊科。使用变压器进行端到端对象检测。在ECCV，2020年。一、二、七、八[2] 陈明浩，彭厚文，付建龙，海斌凌Autoformer：搜索变压器的视觉识别。ICCV，2021。1[3] Xiangxiang Chu，Bo Zhang，Zhi Tian，Xiaolin Wei，and华夏夏。我们真的需要视觉转换器的显式位置编码吗？arXiv预印本arXiv：2102.10882，2021。一、七、八[4] 戴梓航，杨志林，杨一鸣，Jaime G Carbonell，Quoc Le和Ruslan Salakhutdinov。变压器-xl：attentive语言模型超越了固定长度的上下文。在ACL，2019年。一、三、七、八[5] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，还有李飞飞Imagenet：一个大规模的分层图像数据库。CVPR，2009。二六七[6] Jacob Devlin、Ming-Wei Chang、Kenton Lee和Kristina图坦诺娃Bert：为语言理解而进行的深度双向转换器的预训练。arXiv预印本arXiv：1810.04805，2018。1[7] Alexey Dosovitskiy Lucas Beyer Alexander KolesnikovDirk Weissenborn，Xiaohua Zhai，Thomas Unterthiner，Mostafa Dehghani，Matthias Minderer，Georg Heigold，Sylvain Gelly，et al.一张图片相当于16x16个单词：用于大规模图像识别的变换器. ICLR，2021年。一、七、八[8] Jonas Gehring ， Michael Auli ， David Grangier ， DenisYarats，和扬·N·多芬卷积序列到序列学习。ICML，2017。一、二[9] 郭孟浩，蔡俊雄，刘正宁，泰江Mu，Ralph R Martin，and Shi-Min Hu. Pct：点云Transformer。arXiv预印本arXiv：2012.09688，2020。8[10] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在CVPR，2016年。7[11] Zhiheng Huang，Davis Liang，Peng Xu，and Bing Xiang.我-证明Transformer模型具有更好的相对位置嵌入。在EMNLP，2020。三、七、八[12] 林宗毅，迈克尔·梅尔，塞尔日·贝隆吉，詹姆斯·海斯，皮埃特罗·裴罗那、德夫·拉马南、皮奥特·多尔和C·L·劳伦斯·齐特尼克。微软coco：上下文中的公用对象。2014年，在ECCV。二、七[13] 伊利亚·罗希洛夫和弗兰克·哈特。解耦重量衰减正则化arXiv预印本arXiv：1711.05101，2017。5[14] IlijaRadosavovic ， RajPrateekKosaraju ， RossGirshick，KaimingHe，andPiotrDoll a'r. 设计网络设计空间。在CVPR，2020年。7[15] 科林·拉菲尔诺姆·沙泽尔亚当·罗伯茨凯瑟琳

下载后可阅读完整内容，剩余1页未读，立即下载