深度网络中空间注意机制的实证研究

93 浏览量更新于2023-10-12 收藏 12.51MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

166880深度网络中空间注意机制的实证研究0Xizhou Zhu 1,2†� Dazhi Cheng 2†� Zheng Zhang 2� Stephen Lin 2 Jifeng Dai 201中国科学技术大学2微软亚洲研究院0ezra0408@mail.ustc.edu.cn0{v-dachen，zhez，stevelin，jifdai}@microsoft.com0摘要0注意机制已成为深度神经网络中流行的组件，但对于不同的影响因素和从这些因素计算注意力的方法如何影响性能几乎没有进行研究。为了更好地理解注意机制，我们提出了一项实证研究，对广义注意公式中的各种空间注意元素进行了剔除，包括主导的Transformer注意力以及普遍存在的可变形卷积和动态卷积模块。研究在各种应用上进行，得出了关于深度网络中空间注意力的重要发现，其中一些与常规理解相悖。例如，我们发现在自注意力中，查询和键内容的比较对于自注意力来说可以忽略不计，但对于编码器-解码器注意力来说非常重要。另一方面，在自注意力中，适当结合具有关键内容显著性的可变形卷积可以实现最佳的准确性和效率平衡。我们的结果表明，在注意机制的设计中还有很大的改进空间。01.引言0注意机制使神经网络能够更多地关注输入中的相关元素，而不是无关部分。它们最初在自然语言处理（NLP）中进行了研究，其中开发了编码器-解码器注意力模块以促进神经机器翻译[2，28，14]。在计算给定查询元素（例如输出句子中的目标词）的输出时，根据查询的优先级确定了某些关键元素（例如输入句子中的源词）。后来，提出了自注意力模块来建模句内关系。0�平等贡献。†当Xizhou Zhu和DazhiCheng在微软亚洲研究院实习时完成了这项工作。0[6，26，30，31，36]，其中键和查询都来自相同的元素集。在里程碑式的论文[36]中，介绍了Transformer注意力模块，它超越了过去的作品，并大大超越了它们的性能。注意力建模在自然语言处理中的成功导致了它在计算机视觉中的应用，其中Transformer注意力的不同变体被应用于识别任务，如目标检测和语义分割[20，38，17，22，46，13]，其中查询和键是视觉元素，如图像像素或感兴趣区域。0在确定给定查询的某个键分配的注意力权重时，通常考虑的只有输入的几个属性。其中之一是查询的内容。对于自注意力的情况，查询内容可以是图像中查询像素的特征，或者句子中的一个单词。另一个是键的内容，其中键可以是查询附近的局部邻域内的像素，或者句子中的另一个单词。第三个是查询和键的相对位置。0基于这些输入属性，有四个可能的注意力因子，用于确定查询相对于键的注意力权重，因为这些因子必须考虑键的信息。具体来说，这些因子是（1）查询和键的内容，（2）查询内容和相对位置，（3）仅键的内容，以及（4）仅相对位置。在最新版本的Transformer注意力中，注意力权重被表示为四个项（E1，E2，E3，E4）的总和，每个项对应于这些注意力因子，如图1所示。这些项所涉及的依赖性的性质是不同的。例如，前两个（E1，E2）对查询内容敏感。而后两个（E3，E4）不考虑查询内容，而是主要捕捉显著的键元素和利用全局位置偏差。尽管注意力权重可以根据这些因子分解为项，但是它们在各种推理问题中的相对重要性在文献中尚未得到仔细研究。此外，像可变形卷积[9，47]这样的普遍模块30, 31, 36], attention mechanisms have also been employedin computer vision applications such as relational reasoningamong objects [3, 33], image captioning [41], image gener-ation [45, 42], image recognition [20, 38, 17, 22, 46, 13],and video recognition [48, 40].In vision, the key andquery refer to visual elements, but aside from that, mostof these works use a formulation similar to Transformer at-tention. Since the effects of different attention module ele-ments may vary with the target application, we conduct theempirical study on three different tasks that have been in-66890(a) 查询和键内容 (b) 查询内容和相对位置 (c) 仅键内容 (d) 仅相对位置0查询键0查询键0相对位置0相对位置查询键0键0键0相对位置查询键0相对位置0图1. 不同注意力术语的示意图。采样点上方的彩色条表示其内容特征。内容特征和/或相对位置的存在表示该术语用于注意力权重计算。0而动态卷积[39]，虽然与Transformer注意力看似正交，但也采用了专注于输入的某些部分的机制。这些模块是否都可以从统一的视角来看待，它们的操作机制又有何不同，也尚未得到探索。0在这项工作中，我们将Transformer注意力、可变形卷积和动态卷积模块视为空间注意力的不同实例，涉及不同的注意力因子子集，并以不同的方式考虑这些因子。为了解开不同注意力因子和机制的影响，我们在一个广义的注意力公式中对空间注意力进行了实证研究，其中对注意力机制的各种元素进行了消融。这项研究在神经机器翻译、语义分割和目标检测等各种应用中进行。从这项研究中，我们发现：1）在Transformer注意力模块中，与查询相关的术语，特别是查询和键内容术语，在自注意力中起到了次要的作用。但在编码器-解码器注意力中，查询和键内容术语至关重要。2）虽然可变形卷积仅利用基于查询内容和相对位置术语的注意力机制，但在图像识别中比Transformer注意力中的对应机制更有效和高效。3）在自注意力中，查询内容和相对位置因子以及键内容因子是最重要的。可变形卷积和Transformer注意力中仅有的键内容术语的适当组合在图像识别任务中比Transformer注意力模块的准确性更高，计算开销更低。0本文所做的观察挑战了当前空间注意力机制的传统理解。例如，人们普遍认为它们的成功主要归功于与查询相关的注意力，特别是查询和键内容术语。这种理解可能源自编码器-解码器注意力模块在神经机器翻译中的初步成功。因此，在一些最近的变体[38，22，43，13]中，如非局部块[38]和交叉注意力模块[22]，只保留了查询和键内容术语，删除了所有其他术语。这些模块在自注意力应用中仍然表现良好，这加强了这种看法。然而，我们的研究表明，这种理解是不正确的。0不正确。我们发现，只有与查询相关的术语的这些注意力模块实际上与只有与查询无关的术语的模块表现相当。我们的研究进一步表明，这种退化很可能是由于注意力模块的设计，而不是自注意力的固有特性，因为我们发现可变形卷积在图像识别任务中能够有效地利用查询内容和相对位置。这个实证分析表明，在深度网络中的空间注意力机制的设计中还有很大的改进空间。本文利用这些发现在这个方向上取得了一些初步进展，并希望这项研究能够促进对建模空间注意力中使用的操作机制的进一步研究。02. 相关工作0注意力模块的发展和应用。近年来，自然语言处理领域的注意力机制得到了稳定的发展[2, 28, 14, 36, 34,10]。从在神经机器翻译中引入注意力模块开始[2]，基于这些因素的各种注意力因子和权重分配函数被使用。在[28]中，推荐使用编码查询和关键内容的向量的内积来计算注意力权重，并且将绝对空间位置作为注意力因子纳入考虑。在[14]中，权重分配还考虑了在高维向量中编码的空间位置的内积。Transformer的里程碑式工作[36]设定了一个新的标准，其最新的变体使用相对位置而不是绝对位置以获得更好的泛化能力[34,10]。在本文中，我们对这个工作系列中最新的Transformer注意力[10]进行了实证研究。受到它们在NLP任务中的成功的启发[2, 28, 14, 6, 26,66900受注意力模型的影响很大，特别是在自然语言处理中的神经机器翻译，以及在计算机视觉中的目标检测和语义分割。除了Transformer注意力之外，还有卷积的变种，例如可变形卷积[9,47]和动态卷积[39]，也可以看作是不同类型的注意力机制，它们使用不同的注意力权重函数对一部分注意力因子进行操作。它们也包括在研究中进行考察。值得一提的是，空间注意力的双重形式被称为通道特征注意力[37, 44, 21,13]。由于不同的特征通道编码了不同的语义概念，这些工作通过激活/停用某些通道来捕捉这些概念之间的相关性。同时，在空间域中，不同空间位置的元素之间的关系被建模，与特征通道相关的相同注意力权重被分配给相关的空间位置。通道特征注意力的发展主要集中在特定的图像识别任务上，如语义分割和图像分类。在本文中，我们的实证研究专门考察了设计用于广泛应用的空间注意力机制。对空间注意力机制的分析。尽管深度网络中普遍存在空间注意力机制，但对其进行的分析相对较少。这项研究主要通过可视化或分析整个注意力模块在仅NLP任务上学习到的注意力权重来进行[15, 35, 16, 23]。许多研究[15, 35,16]表明，编码器-解码器注意力中的注意力权重分配在传统方法中起到了类似于词对齐的作用[1, 7, 27,5]。这些工作的隐含基本假设是，被赋予高注意力权重的输入元素对模型的输出负有责任。然而，最近的研究对这一假设提出了质疑[23]，发现注意力权重与特征重要性度量不相关，并且反事实的注意力权重配置不会导致相应的预测变化。在本文中，我们首次对NLP和计算机视觉任务中的空间注意力模块的元素进行了全面的实证研究。不同的注意力因子和权重分配函数被仔细分离，它们的效果通过这些任务的最终性能直接测量。03. 空间注意力机制的研究0为了便于我们的研究，我们开发了一个广义的注意力公式，能够表示各种模块设计。然后，我们展示了如何在这个公式中表示主要的注意力机制，以及如何使用这个公式对不同的注意力模块元素进行消融实验。0广义注意力公式给定一个查询元素和一组键元素，注意力函数根据衡量查询-键对的兼容性的注意力权重自适应地聚合键内容。为了允许模型关注来自不同表示子空间和不同位置的键内容，多个注意力函数（头）的输出以可学习权重进行线性聚合。设 q 索引具有内容 z q 的查询元素，k索引具有内容 x k 的键元素。然后，多头注意力特征 y q计算如下：0y q =0m =1 W 0k ∈ Ω q A m ( q, k, z q , x k ) ⊙ W ′ m xk，(1)0其中 m 索引注意力头，Ω q 指定查询的支持键区域，Am(q, k, z q , x k)表示第 m 个注意力头中的注意力权重，Wm 和 W ′ m 是可学习权重。通常，注意力权重在 Ω q内进行归一化，即 � k ∈ Ω q A m(q, k, z q , x k) =1。在编码器-解码器注意力中，键和查询来自两个不同的元素集合，在大多数应用中，这两个元素集合需要正确对齐。例如，在神经机器翻译的编码器-解码器注意力中，键和查询元素分别对应输入和输出句子中的单词，因此需要正确的对齐以进行正确的翻译。同时，在自注意力中，键和查询来自同一个元素集合。例如，键和查询都是输入或输出句子中的单词。在这种情况下，期望自注意力机制能够捕捉元素之间的内部关系，并且通常查询和键内容由相同的特征集合建模，即 x =z。Transformer注意力在最近的Transformer注意力模块实例化中，每个查询-键对的注意力权重被计算为基于不同注意力因子的四个项 {E j}4j=1 的总和。0A Trans m ( q, k, z q , x k ) exp(4)0j =1 E j �，(2)0k ∈ Ω q A Trans m ( q, k, z q , x k ) = 1，其中支持键区域Ω q跨越键元素（例如整个输入句子）。默认情况下，本文中使用8个注意力头。E1和E2项对查询内容敏感。E1项衡量查询和键内容的兼容性，即 E1 = z � q U � m V C m x k，其中 Um、V C m是用于查询和键内容的可学习嵌入矩阵。它使网络能够更多地关注与查询内容相容的键。可能的结果是查询和键元素之间的对应关系，如图1（a）所示。Adeformm(q, k, xq) = G(k, q + pm + w⊤mxq),(4)where pm also denotes a predetermined offset, and w⊤mxqprojects the query content xq to a deformation offset ac-cording to a learnable vector wm2.G(a, b) is the bilin-ear interpolation kernel in N-d space, which can be de-composed into 1-d bilinear interpolations as G(a, b) =�Nn=1 g(an, bn), where an and bn denote the n-th dimen-sion of a and b respectively, and g(an, bn) = max(0, 1 −|an − bn|). Similar to regular convolution, the weight W ′min Eq. (1) is ﬁxed as identity.In deformable convolution, the attention factors arequery content and relative position.The supporting keyregion Ωq can span over all the input elements due to theintroduced learnable offsets, while non-zero weights are as-signed to a sparse set of key elements where bilinear inter-polation is performed.Dynamic convolutionDynamic convolution [39] is recently proposed to re-place the Transformer attention module in self-attention,66910注意力机制空间特性0Transformer注意力0E1稠密，全局 � � O(N2sC + NsC2)0E2稠密，全局 � � O(N2sC + NsC2)0E3稠密，全局 � O(NsC2)0E4稠密，全局 � O(N2sC + NsC2)0常规卷积稀疏，局部 � O(NsC2Nk)0可变形卷积稀疏，全局 � � O(NsC2Nk)0动态卷积稀疏、局部 � � O(N_sCN_gN_k + N_sC^2)0表1.不同注意力机制的比较。N_s表示空间元素的数量，对于图像来说是宽度乘以高度，对于文本来说是标记的数量；C表示表示维度；N_k表示卷积的核大小（对于图像，默认为3×3，对于文本，默认为3）；N_g表示动态卷积中的特征组数量。0E2项基于查询内容和相对位置，即E2 = z^T_qU^T_mVR_mR_k-q，其中R_k-q通过计算不同波长1的正弦和余弦函数将相对位置k-q投影到高维表示中。VR_m是编码的相对位置R_k-q的可学习嵌入矩阵。该项允许网络根据查询内容自适应地确定高注意力权重的分配位置。它可以帮助在图像识别中将外观与空间变换分离，如图1（b）所示。E3和E4项与查询内容无关。E3项仅涉及键内容，即E3 = u^T_mV C_mx_k，其中u_m是可学习向量。它捕捉应该关注的显著键内容，并且与查询无关。图1（c）中有一个示例。至于E4项，它仅涉及相对位置，即E4 = v^T_mVR_mR_k-q，其中v_m是可学习向量。它捕捉键和查询元素之间的全局位置偏差，如图1（d）所示。人们普遍认为，查询敏感的优先级，特别是查询和键内容的兼容性项E1，是Transformer注意力成功的关键。因此，在一些最近的变体中[38, 22, 43,13]，只保留E1，其他项都被移除。在Transformer注意力中，方程（1）中的W_m和W'_m都是可学习的。W'_m将x_k的特征投影到相对较低的维度以减少计算开销，而W_m将聚合特征投影回与y_q相同的维度。0常规卷积和可变形卷积常规卷积和可变形卷积可以被视为空间注意力机制的特殊实例，其中涉及注意力因子的子集。在常规卷积中，给定一个查询元素，根据与查询相关的预定位置偏移量，采样固定数量的键元素（例如，3×3）。从方程（1）的角度来看，常规卷积的注意力权重可以表示为0对于二维图像数据，我们分别对x轴相对位置R_X_k-q和y轴相对位置R_Y_k-q进行编码，并将它们连接起来作为最终的编码R_k-q = [R_X_k-q, R_Y_k-q]。0常规卷积 m(q, k) =0如果k = q +p_m，则为1，否则为0，(3)0其中每个采样的键元素都是一个单独的注意力头（例如，3×3的常规卷积对应于9个注意力头），p_m表示第m个采样位置的偏移量。此外，方程（1）中的权重W'是固定的，为单位矩阵，只有W_m是可学习的。在常规卷积中，只涉及相对位置，没有可学习的参数来适应内容的注意力。支持的键区域Ω_q被限制在以查询位置为中心并由卷积核大小确定的局部窗口内。在可变形卷积[9,47]中，添加可学习的偏移量来调整键元素的采样位置，以捕捉空间变换。可学习的偏移量是基于查询内容预测的，因此对输入是动态的。键和查询元素来自同一集合。它也可以作为自注意力的特殊实例并入到广义注意力公式中，其中注意力权重为02 根据[9]，w m 的学习率设置为其他参数的0.1倍，以稳定训练。yq =Cin�c=1Wc� �k∈ΩqAdynamicc(q, k, xq) · xk,c�,(5)Adynamicc(q, k, xq) =�Kj,cif k = q + pj0else,(6)Kj,c = Ksharej,g∝ exp�d⊤j,gxq�,g = ⌈cCin/Ng ⌉.(7)ˆATransm(q, k, zq, xk) ∝ exp�4�j=1βTransjEj�,(8)66920并声称更简单和更高效。它建立在深度可分离卷积[19]的基础上，使用共享的动态核权重，这些权重是基于查询内容预测的。在深度可分离卷积中，标准卷积被分解为深度卷积和称为点卷积的 1×1卷积，以减少计算和模型大小。在深度卷积中，每个输入通道应用一个单一的滤波器，该滤波器对所有位置都是固定的。在动态卷积中，深度卷积的核权重是根据输入特征动态预测的，然后进行 Softmax归一化。为了节省计算资源，输入通道被分成几个组，每个组共享相同的动态核权重。在[39]的系统中，应用了一种称为门控线性单元（GLU）[11]的正交模块，以提高准确性。我们包含 GLU是为了尊重原始设计。动态卷积也可以与等式（1）中的一般注意力公式结合，只需进行微小的修改，其中每个输入特征通道都是一个单独的注意力头。它可以表示为0其中 c 枚举输入特征的通道（总共 C in 个通道），x k,c表示 x k 的第 c 个通道的特征值，W c 是 1×1的逐点卷积。A dynamic c ( q, k, x q )是由深度卷积中的动态核指定的注意权重，表示为0其中 p j 表示动态核中的第 j 个采样位置，K j,c是相应的核权重。核外的键被赋予零注意权重。核权重 K j,c是根据输入特征预测的，并且在同一组中的通道之间共享。0输入特征被分成 N g 组（默认为 16）。K share j,g 表示第g 组的动态核权重，d j,g 是相应的可学习权重向量。Kshare j,g 通过 � N k j =1 K share j,g = 1 进行归一化，其中N k表示动态核中的元素数量。在动态卷积中，注意力分配基于查询内容和相对位置因子。支持键区域 Ω q限制在由动态核覆盖的查询位置周围的局部窗口内。比较注意力机制表1比较了上述三种注意力机制。Transformer注意力从查询和0关键。E1、E2和E4项的计算量与查询和关键元素数量的乘积成正比，因为它们涉及到每个查询-关键对的遍历。E3项仅捕捉关键内容，因此与关键元素数量成线性关系。在神经机器翻译中，关键和查询元素通常是句子中的几十个单词，因此E1、E2和E4的计算开销与E3相当。在图像识别中，关键和查询元素由图像中的大量像素组成。因此，E1、E2和E4的计算开销比E3大得多。请注意，当将这四个项放在一起时，一些计算开销可以在它们之间共享。与E2项类似，可变形卷积也基于查询内容和相对位置。但是，可变形卷积仅对每个查询采样一组稀疏的关键元素，其复杂度与查询元素数量成线性关系。对于图像识别，可变形卷积的计算速度比E2要快得多，并且与机器翻译的E2速度相当。动态卷积也依赖于查询内容和相对位置。关键元素的注意力权重由动态卷积核分配，基于查询内容。非零的注意力权重仅存在于动态核所覆盖的局部范围内。计算开销与核大小和查询元素数量的乘积成正比。与E2项相比，如果核大小远小于关键元素数量，则计算开销可以大大降低。我们希望进一步解开不同注意力因素的影响，并便于与使用子集因素的其他空间注意力实例进行比较。因此，在Transformer注意力模块中引入了手动开关，可以手动激活/停用特定项。这表示为0其中 { β Trans j } 取值为 { 0 , 1 } 控制相应项的激活，而 ˆA Trans m ( q, k, z q , x k ) 通过 � 进行归一化0k ∈ Ω q ˆ A Trans m ( q, k, z q , x k ) = 1 .将注意力机制融入深度网络中，我们研究它们的效果。在插入模块时有不同的设计选择，例如是串联还是并联，以及在主干网络中放置模块的位置。我们在实验中观察到不同的设计选择结果非常相似。在本文中，我们选择了图2中的设计选择。详细描述在附录中提供，这里简要介绍一下。对于目标检测和语义分割任务，选择ResNet-50作为主干网络，只使用自注意力机制6 x6 x6 x6 x66930(a) 注意力残差块03 x 30（可变形）卷积0注意力机制 / 动态卷积01 x 1 卷积01 x 1 卷积0注意力机制 / 动态卷积0前馈神经网络0前馈神经网络0注意力模块0注意力机制 / 动态卷积0(b) Transformer / 动态卷积0编码器解码器0前馈神经网络03 x 1可变形卷积0注意力机制0(c) Transformer + 可变形卷积0编码器解码器0前馈神经网络0注意力机制03 x 1可变形卷积0注意力模块0图2. 注意力模块配置的示意图，用于实证研究。蓝色模块是新增的现有块。0引入了三种注意力机制。这三种注意力机制被整合到残差块中。所得到的架构称为“Attended ResidualBlock”，如图2(a)所示。在神经机器翻译任务中，网络架构遵循Transformer基础模型[36]和相对位置编码[10]，其中既包括自注意力机制，也包括编码器-解码器注意力机制。架构如图2(b)所示。对于其可变形卷积对应部分，将可变形卷积单元（核大小为3）插入到Transformer注意力模块的输入之前。所得到的架构称为“Transformer +Deformable”，如图2(c)所示。04. 实验与分析04.1. 实验设置0图像目标检测模型在COCO 2017[25]训练集的118k张图像上进行训练。评估是在COCO2017验证集的5k张图像上进行的。准确性通过不同框IoU（mAP）的标准平均AP得分来衡量。选择Faster R-CNN[32]与特征金字塔网络（FPN）[24]作为基准系统。使用ImageNet[12]预训练的ResNet-50作为主干。图2(a)中的注意力残差块应用于ResNet-50的最后两个阶段（conv4和conv5阶段）。在Transformer注意力中，相对位置编码与内容特征嵌入具有相同的维度，具体为conv4和conv5阶段分别为256维和512维。超参数设置严格遵循FPN[24]。详细信息请参见附录。图像语义分割模型在Cityscapes[8]训练集的5,000张精细标注图像上进行训练。评估是在验证集的500张图像上进行的。使用标准平均IoU得分（mIoU）来衡量语义分割准确性。使用CCNet[22]进行语义分割，使用ImageNet预训练的ResNet-50，并且不使用交叉0[22]中提出的交叉注意力模块，它是Transformer注意力的一种变体。与目标检测一样，图2(a)中的注意力残差块应用于最后两个阶段。在ResNet-50输出之后，根据[22]的做法，放置了一个额外的Transformer注意力/动态卷积模块以提高性能。超参数设置严格遵循CC-Net论文[22]中的设置。详细信息请参见附录。0神经机器翻译（NMT）模型的训练是在标准的WMT2014英德数据集上进行的，该数据集包含约450万个句子对。句子使用字节对编码[4]进行编码，使用大约37k个标记的共享源-目标词汇表。评估是在英德newstest2014数据集上进行的。准确性通过标准的双语评估指标BLEU得分[29]来衡量。使用Transformer基础模型[36]和相对位置编码[10]作为主干。超参数遵循[36]中的原始设置。更多细节请参见附录。04.2. 不同注意力模块的效果0Transformer注意力中的解缠效果首先我们试图解开Transformer注意力模块中的四个项的效果。这是通过手动设置方程（8）中的{β Trans j}4 j =1值来控制单个项的激活/停用来实现的。对于所有16种可能的{β Trans j}4 j =1配置，对网络进行训练和测试。在这组实验中，没有其他注意力机制参与。因此，对于目标检测和语义分割任务，图2(a)中的3×3卷积是网络中的常规卷积。对于NMT任务，使用图2(b)中的网络架构。在图2(a)和(b)中的选择中，使用Transformer注意力。请注意，对于NMT任务，Transformer注意力模块同时用于自注意力和编码器-解码器注意力。为了减少实验复杂性，Transformer21022023024025026027028029036.53737.53838.53939.54040.500100011000101100111010001011111101111011110110010011000 10104005006007008009001000110012007273747576770010010000110001100010111010 100111001.71.92.12.32.52.72.92122232425262728101000010101101110101101111011002.452.52.552.62.652.72.75202122232425262728001000011000 10100100010100110110011111111011101011011110110066940GFLOPs0mAP0w/o00010 + deformable0(a) COCO上的图像目标检测0GF LOPs0mIoU0w/o01111 0 0 10 + deformable0(b) Cityscapes上的图像语义分割0GFLOPs0BLEU000 + deformable0(c) newstest2014上的翻译（自注意力）0GF LOP s0BLEU0(d) newstest2014上的翻译（编码器-解码器注意力）0图3.Transformer注意力中四个项（E1用于查询和键内容，E2用于查询内容和相对位置，E3仅用于键内容，E4仅用于相对位置）的准确性和效率权衡。特定项的激活和去激活由配置{β Trans j}4 j =1（例如，“0011”表示E3和E4的激活）设置。因为编码器-解码器注意力机制对于NMT是必不可少的，在（d）中没有“w/o”设置。某些配置的结果在图中重叠，因为它们具有相同的准确性和计算开销。重点研究的关键配置以红色突出显示。自注意力中Tab.2中的推荐配置“0010 + deformable”也在此处绘制。0β Trans 1 , 2 , 3 , 4 → β Trans 1 , 2 , 3 , 4 + deformable 目标检测（自注意力）语义分割（自注意力）神经机器翻译（自注意力）0mAP ∆ mAP GFLOPs ∆ % FLOPs mIoU ∆ mIoU GFLOPs ∆ % FLOPs BLEU ∆ BLEU GFLOPs ∆ % FLOPs0w/o → 1111 + deformable 36.4 → 41.0 +4.6 213.7 → 281.4 +31.7% 71.9 → 77.8 +5.9 449.5 → 1112.1 +147.4% 20.9 → 28.0 +7.1 1.7 → 3.2 +88.2%01111 → 1011 + deformable 38.8 → 41.0 +2.2 281.4 → 281.4 -0.0% 76.7 → 77.8 +1.1 1112.1 → 1112.1 -0.0% 27.7 → 28.0 +0.3 2.7 → 3.2 +17.3% 1110 → 1010 + deformable 38.8 → 40.9 +2.1281.4 → 281.2 -0.1% 76.7 → 77.7 +1.0 1112.1 → 1111.2 -0.1% 27.7 → 28.0 +0.3 2.7 → 2.9 +5.8% 1101 → 1001 + deformable 38.8 → 41.0 +2.2 281.4 → 281.4 -0.0% 76.7 → 77.8 +1.1 1112.1 →1112.1 -0.0% 27.7 → 28.0 +0.3 2.7 → 3.2 +17.3% 1100 → 1000 + deformable 38.8 → 40.9 +2.1 281.4 → 281.2 -0.1% 76.7 → 77.7 +1.0 1112.1 → 1111.2 -0.1% 27.7 → 28.0 +0.3 2.7 → 2.9 +5.8%0111 → 0011 + deformable 38.8 → 41.0 +2.2 253.6 → 250.1 -1.4% 76.6 → 77.5 +0.9 814.0 → 794.4 -2.4% 27.6 → 27.7 +0.1 2.7 → 3.0 +10.9% 0110 → 0010 + deformable 38.8 → 40.8 +2.0253.6 → 221.1 -12.8% 76.6 → 77.3 +0.7 814.0 → 489.5 -39.9% 27.6 → 27.7 +0.1 2.7 → 2.7 -1.1% 0101 → 0001 + deformable 38.6 → 40.7 +2.1 251.1 → 247.6 -1.4% 76.3 → 77.3 +1.0 800.7 →781.1 -2.5% 27.4 → 27.6 +0.2 2.6 → 2.9 +11.6% 0100 → w/o + deformable 38.6 → 39.9 +1.3 251.1 → 213.7 -14.9% 76.3 → 77.2 +0.9 800.7 → 449.5 -43.9% 27.4 → 27.3 -0.1 2.6 → 2.2 -13.5%0表2. 可变形卷积与Transformer注意力中的E2，两者都利用查询内容和相对位置信息。下划线表示“0010 +deformable”配置是推荐的最佳准确性和效率权衡。0在自注意力中，编码器-解码器注意力模块保持其完整版本（β Trans j = 1，j =1，...，4，这里简称为配置“1111”），我们研究自注意力时。图3绘制了不同{β Trans j}4 j =1配置的准确性和效率权衡，其中准确性和效率的边界由连接的线段表示。请注意，这里只计算了Transformer注意力模块的计算开销，没有计算其他网络部分的开销。从图中我们得出以下结论：（1）在自注意力中，查询敏感的项起到了重要作用。0与查询无关的术语相比，查询和键内容术语在准确性方面几乎没有影响，但在图像识别任务中计算量很大。总体上，Transformer注意力模块带来的准确性提升很大（从去除Transformer注意力模块（“w/o”）到使用完整版本的Transformer注意力（“1111”）的配置）。可以看出，与查询无关的术语带来的提升（从配置“w/o”到“0011”）要比与查询相关的术语带来的提升（从配置“0011”到“1111”）要大得多。010038.6-251.1-76.3-800.7-27.4-2.6-[1] Tamer Alkhouli, Gabriel Bretschner, Jan-Thorsten Peter,Mohammed Hethnawi, Andreas Guta, and Hermann Ney.66950β Trans 1 , 2 , 3 , 4 → 动态目标检测（自注意力）语义分割（自注意力）神经机器翻译（自注意力）0mAP ∆ mAP GFLOPs ∆ % FLOPs mIoU ∆ mIoU GFLOPs ∆ % FLOPs BLEU ∆ BLEU GFLOPs ∆ % FLOPs00100（nk = 31）→ 动态（nk = 31）38.6 → 37.9 -0.7 229.4 → 352.9 +53.8% 75.5 → 74.2 -1.3 523.3 → 1029.0 +96.6% 27.4 → 27.6 +0.2 2.4 → 2.4 +1.8% 0100（nk = 25）→ 动态（nk = 25）38.6 → 37.8-0.8 226.6 → 306.8 +35.4% 75.5 → 74.2 -1.3 511.8 → 840.4 +64.2% 27.4 → 27.6 +0.2 2.3 → 2.3 +1.4% 0100（nk = 19）→ 动态（nk = 19）38.6 → 37.6 -1.0 224.4 → 270.6 +20.6% 75.4 → 73.7 -1.7 502.6→ 692.1 +37.7% 27.4 → 27.5 +0.1 2.3 → 2.3 +1.1% 0100（nk = 13）→ 动态（nk = 13）38.5 → 37.5 -1.0 222.7 → 244.3 +9.7% 74.4 → 71.9 -2.5 495.9 → 584.3 +17.8% 27.3 → 27.4 +0.1 2.3 → 2.3 +0.7%0表3.在Transformer注意力中，动态卷积与E2的对比，两者都利用了查询内容和相对位置信息。动态卷积的卷积核大小对于图像识别是n^2k，对于NMT是nk。Transformer注意力的空间范围也受到动态卷积卷积核大小的限制，用于消融实验。0“1111”。特别地，查询和键内容术语（由β Trans 1控制）带来的性能提升微不足道。去除它（从配置“1111”到“0111”）只会导致准确性微小下降，同时大大减少了图像识别任务中的计算开销。（2）在编码器-解码

下载后可阅读完整内容，剩余1页未读，立即下载