增强卷积网络中的自我注意力及其在图像分类和对象检测中的应用

130 浏览量更新于2023-10-11 收藏 693KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

3286注意增强卷积网络Irwan Bello Barret Zoph Ashish Vaswani Jonah Shlens Quoc V.乐Google Brain{ibello，barretzoph，avaswani，shlens，qvl}@ google.com摘要卷积网络已经成为许多计算机视觉应用的首选范例。然而，卷积运算具有显著的弱点，因为它仅在局部邻域上操作，从而丢失全局信息。另一方面，自注意力作为捕获远程相互作用的最新进展而出现，但主要应用于序列建模和生成建模任务。在本文中，我们考虑将自我注意用于区分性视觉任务，作为卷积的替代方案。我们介绍了一种新的二维相对自我注意机制，证明了竞争力，取代卷积作为一个独立的计算原语的图像分类。我们发现，在控制实验中，最好的结果时，结合卷积和自我注意。因此，我们建议通过将卷积特征映射与通过自我注意产生的一组特征映射级联来增强卷积算子。广泛的实验表明， AttentionAugmentation 在许多不同的模型和尺度上（包括ResNets和最先进的移动约束网络），在保持参数数量相似的同时，可以持续改进ImageNet上的图像分类和COCO上的对象检测。特别是，我们的方法实现了1。在ResNet50基线上，ImageNet分类的前1名准确率提高了3%，并且优于其他图像注意力机制，如Squeeze和Excitation[17]。它还实现了1.4基于RetinaNet基线的COCO对象检测中的mAP。1. 介绍卷积神经网络在许多计算机视觉应用中取得了巨大的成功，特别是在图像分类中[24，23]。卷积层的设计强加1）经由有限的接收场的局部性和2）经由权重共享的平移等方差图1. Attention Augmentation系统地改善了不同规模的各种网络中的图像分类。 ImageNet分类准确度[9]与基线模型（ResNet）[14]，通道注意力增强模型（SE-ResNet）[17]和我们提出的架构（AA-ResNet）的参数数量。这两个属性被证明是至关重要的归纳偏见时，设计模型，操作图像。然而，卷积核的局部性质使其无法捕获图像中的全局上下文，这通常是更好地识别图像中的对象所必需的[33]。另一方面，自我注意力[43]已经成为捕获远程相互作用的最新进展，但主要应用于序列建模和生成建模任务。自我注意力背后的关键思想是产生一个加权平均值，这些值是从隐藏的单位中计算出来的。与池化或卷积运算符不同，加权平均运算中使用的权重是通过隐藏单元之间的相似性函数动态产生的。因此，输入信号之间的相互作用取决于信号本身，而不是像卷积那样由它们的相对位置预先确定。特别是，这使得自我注意力能够捕捉到长距离3287输入注意力映射值的加权平均值输出WH主管<$主管Nh =2值标准卷积图2. 注意力增强卷积：对于每个空间位置（h，w），从查询和键计算图像上的Nh个这些注意力图用于计算值V的Nh个加权平均值。然后将结果连接，重新整形以匹配原始体积的空间维度，并与逐点卷积混合。多头注意力被并行地应用于标准卷积运算，并且输出被级联。在不增加参数数量的情况下进行交互。在本文中，我们考虑使用自我注意的歧视性视觉任务作为替代卷积。我们开发了一种新的二维相对自我注意机制[37]，该机制在注入相对位置信息的同时保持翻译等价性，使其非常适合图像。我们的自注意力公式证明完全取代卷积的竞争力，但我们发现在控制实验中，最好的结果时，两者结合起来。因此，我们并没有完全放弃卷积的想法，而是提出用这种自我注意机制来增强卷积。这是通过将增强局部性的卷积特征映射连接到能够对更长范围依赖性建模的自注意特征映射来实现的（参见图2）。我们在 CIFAR-100 和 ImageNet 分类 [22 ， 9] 以及COCO对象检测[27]任务上测试了我们的方法，这些任务跨越了不同计算预算的各种架构，包括最先进的资源受限架构[42]。注意力增强以最小的额外计算负担产生系统改进，并且在所有实验中显著优于流行的挤压和激发 [17] 通道注意力方法特别是， AttentionAugmentation 在 ResNet 50 基线的基础上实现了ImageNet的1.3% top-1准确度，在RetinaNet基线的基础上实现了COCO对象检测的1.4 mAP增加。令人惊讶的是，实验还表明，完全自我注意模型（注意力增强的一种特殊情况）的表现仅略差于ImageNet上的完全卷积模型，这表明自我注意力是图像分类的一种强大2. 相关工作2.1. 卷积网络现代计算机视觉建立在从图像分类任务中学习的强大图像特征化器上，如CIFAR-10 [22]和ImageNet [9]。这些数据集已被用作基准，用于在广泛的任务中描绘更好的图像特征和网络架构[21]。例如，改进[19]和图像分割[6]。这些观察激发了新架构的研究和设计，这些架构通常来自于跨空间尺度和跳跃连接阵列的卷积运算的组合[23，41，39，40，14，47，13]。事实上，基于卷积基元设计架构的自动搜索策略在跨一系列任务转换的大规模图像分类任务上实现了最先进的准确性[55，21]。2.2. 网络中的注意机制由于Attention能够捕获长距离相互作用，因此其作为序列建模的计算模块得到了广泛采用[2，44，4，3]。最值得注意的是，Bahdanau et al.[2]首次提出将注意力与递归神经网络[15]相结合，用于机器翻译中的对齐。Vaswani等人进一步扩大了关注。[43]，其中自注意力Transformer架构在机器翻译中取得了最先进的成果。使用自我注意与卷积合作是自然语言处理[49]和强化学习[52]中最近工作的主题。[50]《易经》中的阴阳五行，3288QK和WVK前者[38]架构在自我注意层和卷积层之间交替进行问题处理。可以配制为：0 1机器翻译和机器翻译。 Addi-在视觉任务中，已经提出了多种注意机制来解决卷积的弱点[17，16，7，46，45，53]。例如，挤压-Oh=Softmax @（XWq）（XWk）HK（XWv）（1）[17]第十七章：一个人的世界其中，Wq，Wk∈RFin×dhHv学习通道使用从整个特征图聚合的信号，而BAM [31]和CBAM [46]在通道和空间维度上独立地在非局部神经网络[45]中，显示了改进将输入X映射到查询Q的线性变换=XWq，键K=XWk和值V=XWv。然后，所有磁头的输出被连接并再次投影如下：在视频分类和对象检测中，通过addi-hi在卷积架构中使用自注意力的几个非局部残差块的有效使用然而，非局部块仅在Ima-geNet预训练之后添加到架构中，并且以不中断预训练的方式初始化相比之下，我们的注意力增强网络不依赖于对其完全卷积对应物的预训练，而是在整个架构中使用自我注意力。多头注意力的使用允许模型共同关注空间和特征子空间。此外，我们通过将相对自我注意力[37，18]扩展到二维输入来增强自我注意力对图像的表征能力，从而使我们能够以原则性的方式对翻译等效性进行最后，我们的方法产生了额外的特征图，而不是通过加法[45，53]或门控[17，16，31，46]重新校准卷积特征。这个属性允许我们灵活地调整注意力通道的比例，并考虑一系列架构，从完全卷积到完全注意力模型。3. 方法我们现在正式描述我们提出的注意力增强方法。我们使用以下命名约定：中的H、W和F是指激活图的输入滤波器的高度、宽度和数量。Nh、dv和dk分别表示多头注意（MHA）中的头数、值的深度以及我们进一步假设Nh将dv和dk均匀地整除，并且将dh和dh表示为每个注意力头的值和查询/键的深度。3.1. 对图像给定形状为（H，W，Fin）的输入张量，我们将其展平为矩阵X∈RHW×Fin，并执行Transformer架构[43]中提出的多头注意的对于单个头部h的自注意机制的输出1为了简单起见，我们省略了批处理维度。MHA（X）=ConcatO1，. ..，ONh W O（2）其中WO∈Rdv×dv是一个学习的线性变换。然后，MHA（X）被重塑为形状（H，W，dv）的张量以匹配原始空间维度。我们注意到，多头注意引起的复杂度为O（（HW）2dk）和O（（HW）2Nh）的内存成本，因为它需要存储每个头的注意图。3.1.1二维位置编码没有关于位置的明确信息，自我注意力是置换等变的：MHA（π（X））= π（MHA（X））对于像素位置的任何排列π，这使得它对于建模诸如图像的高度结构化的数据是无效的。已经提出了用显式空间信息增强激活图的多个位置编码特别是，图像变换器[32]将最初在原始Transformer [43]中引入的正弦波扩展到二维输入，CoordConv [29]将位置通道连接到激活图。然而，这些编码在我们的图像分类和对象检测实验中没有帮助（见第4.5节）。我们假设，这是因为这样的位置编码，而不是置换等变，不满足平移等变，这是一个理想的prop，当处理图像。作为一种解决方案，我们提出将相对位置编码[37]的使用扩展到二维，并基于Music Transformer [18]提出一种内存高效相对位置编码：在[37]中为了语言建模的目的引入了相对自我注意，相对自我注意用相对位置编码来增强自我注意，并在防止置换等变性的同时实现翻译等变性。我们通过独立地添加相对高度信息和相对宽度信息来实现二维相对自注意。注意力LogitD∈RFin×dv3289FDFKKKKKjx−ix对于像素i=（ix，iy）关注像素j=（jx，jy）的程度，计算如下：QT而不是对它们进行细化。图2总结了我们提出的增强卷积。li，j=qiHKWjx−ixHjy−i y）（3）连接卷积和注意力特征图：形式上，考虑一个原始的卷积操作，其中qi是像素i（Q的第i行）的查询向量kj是像素j（K的第j行）的关键向量，rW核大小为k的算子，输入滤波器为F，输出为Ffilters. 相应的注意力增强卷积可以写为Hjy−i y 是相对宽度jx−ixhi的学习嵌入和相对高度jy−iy。压头输出h现在变为：AAConv（X）= Concat Conv（X），MHA（X）。01QKT+S rel+S rel我们记为n=dv出来注意力通道与Oh=Softmax@qHWhK（4）原始输出滤波器的数量和κ=dk 的比率出来键深度到原始输出过滤器的数量。类似于convolution，the proposed建议attention注意augmented增强convo卷积，其中Srel，Srel∈RHW×HW是相对势矩阵，1）翻译是一个简单的过程，2）翻译是一个简单的过程。H W沿高度和宽度尺寸的位置对数，对不同空间维度的输入进行评价。我们包括isfySrel[i，j] =q TrH和Srel[i，j] =q TrW. 作为Tensorflow代码用于建议的注意力增强控制-H i jy−i yW i j x−i x我们分别考虑相对高度和宽度信息，通常，Srel和Srel也满足性质Srel[i，j]=附录A.3中的演化。H W WSrel[i，j+W]和Srel[i，j]=Srel[i+H，j]，其中，W H H避免了必须计算所有（i，j）对的logits[37]中的相对注意力算法将所有相对嵌入rij显式存储在形状为（HW，HW，dh）的张量中，因此会产生O（（HW）2dh）的额外内存开销。这与不使用位置编码的位置未知版本自注意的O（（HW）2Nh）相比。由于我们通常有Nh dh，因此这样的实现可能被证明是极其禁止和限制的。对参数数量的影响：多头注意在输入滤波器中引入与F的1x1卷积，（2dk+dv）=Fout（2k+ k）输出过滤器来计算查询、键和值，以及一个附加的1x1卷积，其中dv=Fout是输入和输出过滤器，以混合不同头部的贡献。考虑到卷积部分中滤波器的减少，这导致参数的以下变化一个小批量中可以容纳的图像数量。相反，我们将[18]中提出的记忆有效的相对掩蔽注意算法扩展到非掩蔽的相对自我注意paramsFinFout（2κ+（1−k2）+Fout2），（5）F在在二维输入上。我们的实现有一个复杂的成本为O（HWdh）。我们将算法的Tensorflow代码留在附录中。相对位置嵌入rH和rW是跨头部而不是跨层学习和共享的。对于每一层，我们添加（2（H+W）−2）dh参数来模拟沿高度和宽度的相对距离。3.2. 注意力增强卷积多个先前提出的图像上的注意力机制[17，16，31，46]表明卷积运算器受到其局部性和缺乏对全局上下文的理解的限制。这些方法通过重新校准卷积特征图来捕获长期依赖性。特别是，挤压和激发（SE）[17]和聚集激发（GE）[16]执行通道重新加权，而BAM [31]和CBAM [46]独立地重新加权通道和空间位置。与这些方法相比，我们1）使用一种注意力机制，该机制可以共同关注空间和特征子空间（每个头部对应于一个特征子空间），2）引入额外的D（kj+r+R和r3290这里我们忽略了相对位置引入的参数，为了简单起见，可以使用位置嵌入，因为这些是可以忽略的。在实践中，这会导致替换3x3卷积时参数略有下降，替换1x1卷积时参数略有增加有趣的是，我们在实验中发现，注意力增强网络在使用更少参数的情况下仍然显著优于完全卷积网络。注意增强卷积架构：在我们所有的实验中，增强卷积之后是一个批处理归一化[20]层，它可以学习缩放卷积特征图和注意力特征图的贡献与其他视觉注意力机制类似，我们每个残差块应用一次增强卷积[17，16，31，46]，并在内存允许的情况下沿着整个架构应用（更多细节请参见第4由于内存成本 O （（ Nh （ HW ） 2 ）可以是prohibitative大空间维度，我们增加卷积与注意力从最后一层（最小的空间维度）开始，直到我们击中内存限制。到3291为了减少增强网络的存储器占用，我们通常采用较小的批量大小，并且有时在应用它的具有最大空间维度的层中对输入进行额外的下采样以自注意。下采样通过应用步幅2的3x3平均池化来执行，而随后的上采样（级联所需的）经由双线性插值来获得4. 实验在随后的实验中，我们在标准计算机视觉架构（如ResNets [14，47，13]和CIFAR上的MnasNet [42]）上测试了注意力增强。100 [22]，ImageNet [9]和COCO [25]数据集。我们的实验表明，注意力增强导致图像分类和对象检测任务的系统改进，跨越广泛的架构和计算需求。我们在消融实验中验证了所提出的二维相对注意机制的实用性。在所有的实验中，我们用自我注意特征图代替卷积特征图，因为它可以更容易地与基线模型进行比较除非另有说明，所有结果都符合我们的二维相对自我注意机制。实验详情见附录。4.1. CIFAR-100图像分类我们首先研究注意力增强如何在CIFAR-100 [22]上进行，CIFAR-100是低分辨率图像的标准基准，使用Wide ResNet架构[51]。Wide-ResNet-28-10架构由3级组成，每级4个残差块，使用两个3×3卷积。我们通过使用Nh=8个头和κ=2、κ=0.2和最小值来增加所有残差块的第一卷积，来增加Wide-ResNet-28-10。每个键头有20个尺寸我们将注意力增强（AA）与其他形式的注意力进行了比较，包括挤压和激发（SE）[17]和聚集激发（GE）的无参数公式[16]。表1显示，注意力增强在类似的参数和复杂性成本下，在基线网络和挤压和激励上都提高了性能。架构ParamsGFLOPStop-1top-5[51]第五十一话36.3M10.480.395.0[16]第十六话36.3M10.479.895.0[17]第十七话36.5M10.481.095.3AA-Wide-ResNet（我们的）36.2M10.981.695.2表1.使用Wide-ResNet 28-10架构对CIFAR-100数据集[22]进行图像分类[51]。4.2. 使用ResNet进行接下来，我们将研究注意力增强如何在ImageNet[9，21]上执行，ImageNet是一个标准的高分辨率图像大规模数据集我们从ResNet架构开始[14，47，13]，因为它的广泛使用及其在多个计算预算中轻松扩展的能力。ResNet-34中的构建块包括两个3x 3卷积，具有相同数量的输出滤波器。ResNet-50及其更大的同行使用由1x 1，3x 3，1x 1卷积组成的瓶颈块，其中最后一个逐点卷积扩展过滤器的数量，第一个收缩过滤器的数量。我们通过增加3x3卷积来修改所有ResNet，因为这减少了参数的数量。2我们在架构的最后3个阶段的每个残差块中应用注意力增强-所有注意力增强网络都使用κ=2<$=0.2，除了ResNet-34使用κ=<$=0.25。注意头的数量固定为Nh=8。架构参数（M）推断火车top-1ResNet-5025.6--76.4[第17话]28.1+12%+92%77.5（77.0）巴姆[31]25.9+19%+43%77.3CBAM [46]28.1+56%+132%77.4（77.4）GALA [28]29.4+86%+133%77.5（77.3）AA（λ= 0. 第二十五章）24.3+29%+25%77.7表2. ImageNet数据集上不同注意力机制的图像分类性能。指的是增加与ResNet50相比，在单个Tesla V100 GPU上使用Tensorflow，批量大小为128。为了公平比较，我们还在缩放时包含了前1名的结果（在括号中网络的宽度与25英寸匹配。6M参数作为ResNet50基线。表2将注意力增强与ResNet50架构上的信道减少率σ= 16的信道和空间注意力机制BAM [31]、CBAM [46]和GALA [28]进行基准测试。尽管缺乏专门的内核（见附录A.3），但与之前提出的注意力机制相比，注意力增强提供了具有竞争力的表3比较了不同网络尺度下的非增强网络和挤压和激励（SE）[17在所有实验中，注意力增强显著提高了非增强基线的性能，并且显著优于挤压和激励（SE）[17]，同时更有效地使用参数（图1）。值得注意的是，我们的AA-ResNet-50的性能优于基线ResNet-101，而我们的AA-ResNet-101的性能优于基线ResNet-152。这些结果表明2我们发现，增加逐点展开也同样有效，但并不节省参数或计算。3292架构GFLOPSParamstop-1top-5ResNet-34 [14]7.421.8M73.691.5SE-ResNet-34 [17]7.422.0M74.391.8AA-ResNet-34（我们的）7.120.7M74.792.0ResNet-50 [14]8.225.6M76.493.1SE-ResNet-50 [17]8.228.1M77.593.7AA-ResNet-50（我们的）8.325.8M77.793.8ResNet-101 [14]15.644.5M77.994.0SE-ResNet-101 [17]15.649.3M78.494.2AA-ResNet-101（我们的）16.145.4M78.794.4ResNet-152 [14]23.060.2M78.494.2SE-ResNet-15223.166.8M78.994.5AA-ResNet-152（我们的）23.861.6M79.194.6表3.在一系列ResNet架构中对ImageNet数据集[ 9 ]进行图像分类： ResNet-34 、 ResNet-50 、 ResNet- 101 和 ResNet-152[14，47，13]。架构GFLOPSParamstop-1top-5MnasNet-0.75AA-MnasNet-0.750.450.512.91M3.02M73.373.991.391.6MnasNet-1.0AA-MnasNet-1.00.630.703.89M4.06M75.275.792.492.6MnasNet-1.25AA-MnasNet-1.251.011.115.26M5.53M76.777.293.293.6MnasNet-1.4AA-MnasNet-1.41.171.296.10M6.44M77.277.793.593.8表4.基线和注意力增强MnasNet [42]精度，宽度乘数为0.75、1.0、1.25和1.4。增强注意力比简单地使网络更深更可取。我们在附录中包括并讨论了来自不同像素位置的注意力地图可视化4.3. 使用MnasNet进行在本节中，我们通过使用 MnasNet 架构进行ImageNet实验来检查注意力增强在资源受限设置中的使用[42]，图3. ImageNet top-1精度作为MnasNet（黑色）和Attention-Augmented-MnasNet（红色）的参数数量的函数，深度乘数为0。75，1。0，1。25和1。4.第一章宽度乘数。我们的实验表明，注意力增强在所有宽度乘数上都能提高精度使用相对自我注意力增强MnasNets会导致参数略有增加，但是我们在图3中验证了准确性的提高不仅仅是由参数增加来解释的。此外，我们注意到MnasNet架构在通过架构搜索最佳选择的多个位置采用挤压和激励，进一步表明了我们方法的好处。4.4. COCO数据集的目标检测接下来，我们将研究注意力增强在COCO数据集上的对象检测任务中的使用[27]。我们采用RetinaNet架构，如[26]中所做的ResNet-50和ResNet-101主干，使用开源的RetinaNet代码库。3我们申请注意8月-这是一个参数效率极高的架构。特别是，MnasNet是通过神经架构搜索[54]发现的，仅使用高度优化的移动反向瓶颈块[36]和挤压和激励操作[17]作为其搜索空间中的原语。我们将注意力增强应用于移动反向瓶颈，通过使用k =2，k =0.1和Nh=4头来替换扩展逐点卷积中的卷积通道。我们的增强MnasNet在MnasNet架构中的18个块中的最后13个块中使用增强的反转瓶颈，从空间维度为28x28时开始。我们只在应用注意力增强的第一阶段进行下采样。我们保留最后的逐点卷积，也称为在表4中，我们报告了基线MnasNet的ImageNet准确度及其在不同时间的注意力增强变体3293在ResNet主干上唯一分段，修改它们与我们的ImageNet分类实验类似。如表5所示，我们的相对自我注意机制提高了RetinaNet在ResNet-50和ResNet- 101上的性能。最值得注意的是，注意力增强比强大的RetinaNet基线提高了1.4% mAP [26]。与使用ImageNet进行图像分类的挤压和激励的成功相比，我们的实验表明，在Reti-naNet的骨干网络中添加挤压和激励算子会显着损害性能，尽管有网格在挤压比σ∈{4，8，16}上搜索。我们假设定位需要精确的空间信息-3https://github.com/tensorflow/tpu/tree/master/models/official/retinanet3294骨干架构GFLOPSParamsmAPCOCO映射50映射75[26]第二十六话18233.4M36.854.539.5SE-ResNet-50 [17]18335.9M36.554.039.1AA-ResNet-50（我们的）18233.1M38.256.540.7ResNet-101 [26]24352.4M38.556.441.2SE-ResNet-101 [17]24357.2M37.455.039.9AA-ResNet-101（我们的）24551.7M39.257.841.9表5.COCO数据集上的对象检测[27]使用具有不同骨干架构的RetinaNet架构[26]我们报告三个不同IoU值的平均精度。SE在空间池化操作期间丢弃的信息，从而对性能产生另一方面，自我注意保持空间信息，并且可能能够成功地识别对象边界。视觉化的注意力地图（见附录中的图9和图10）显示，一些头部确实从其背景中描绘出物体，这对于定位可能很重要。4.5. 消融研究全注意力视觉模型：在本节中，我们研究了注意力增强的性能作为注意力通道分数的函数。当我们将这个分数增加到100%时，我们开始用完全注意力模型替换ConvNet，只留下逐点卷积和茎不变。表6显示了ResNet-50架构上的注意力增强的性能，以改变比率κ=κ ∈{0. 25，0。5，0。75，1。0}。随着注意力通道比例的增加，性能略有下降，我们假设这部分是由下采样的平均池操作在应用注意力增强的第一阶段。然而，注意力增强被证明对注意力通道的分数相当鲁棒例如，具有κ= λ=0.75的AA-ResNet- 50优于其ResNet-50对应物，同时具有更高的参数和触发器效率，这表明主要采用注意力通道是容易竞争的。也许令人惊讶的是，这些实验还表明，我们提出的自我注意机制是一个强大的独立的计算原始图像分类和完全注意模型是可行的歧视性视觉任务。特别是，AA-ResNet-50（κ= κ =1）只使用注意力通道，其准确性仅比完全卷积的对应物差2.5%，尽管使用平均池化进行了下采样，并且参数减少了25%值得注意的是，这种完全注意力架构4也优于ResNet-34，同时具有更多的参数和4.我们将点态卷积视为稠密层。这个架构在主干和架构的第一阶段使用了4个非逐点卷积，但我们相信这样的操作也可以被注意力所图4.随着注意力通道比例的增加，相对位置嵌入对我们的注意力增强ResNet50的影响。触发器效率（见表6）。架构GFLOPSParamstop-1top-5ResNet-34 [14]7.421.8M73.691.5ResNet-50 [14]8.225.6M76.493.1κ = κ = 0。257.924.3M77.793.8κ = κ = 0。57.322.3M77.393.6κ = κ = 0。756.820.7M76.793.2κ = κ = 1。06.319.4M73.991.5表6. Attention Augmented ResNet-50具有不同比例的注意力通道。位置编码的重要性：在图4中，我们显示了我们提出的二维相对位置编码的效果，作为注意通道分数的函数。正如预期的那样，实验表明，我们的相对位置编码变得越来越重要的架构采用更多的注意力通道。特别是，当使用相对位置时，完全自我注意的ResNet-50获得了2.8%的top-1 ImageNet准确率3295架构位置编码top-1top-5AA-ResNet-34没有一74.491.9AA-ResNet-34二维正弦74.492.0AA-ResNet-34CoordConv74.492.0AA-ResNet-34相对（我们的）74.792.0AA-ResNet-50没有一77.593.7AA-ResNet-50二维正弦77.593.7AA-ResNet-50CoordConv77.593.8AA-ResNet-50相对（我们的）77.793.8表7.注意力增强中不同位置编码对ImageNet分类的影响。位置编码mAPCOCO映射50映射75没有一37.756.040.2[29]第二十九话37.455.540.1相对（我们的）38.256.540.7表8.注意力增强中不同位置编码对使用RetinaNet AA-ResNet-50主干的COCO对象检测任务的影响。编码，这表明了维护完全自注意视觉模型的位置信息的必要性我们还比较了我们提出的二维首次将注意力视觉模型应用于图像分类我们建议用这种自注意机制来增强卷积算子，并验证这种方法比其他注意方案的优越性大量的实验表明，注意力增强导致在广泛的架构和计算设置上的图像分类和对象检测任务这项工作的几个开放的问题仍然存在。在未来的工作中，我们将专注于完全注意机制，并探索不同的注意机制如何权衡计算效率与表征能力。例如，识别局部注意力机制可能会产生一种高效且可扩展的计算机制，可以防止需要使用平均池化进行下采样[34]。此外，当完全依赖卷积时非常适合的架构设计选择在使用自我注意机制时是次优的，这是合理的因此，将注意力增强用作自动架构搜索程序中的原语是否被证明有助于找到比先前在图像分类[55]、对象检测[12]、图像分割[6]和其他领域[5，1，35，8]中发现的模型更最后，人们可以问，完全注意力模型在多大程度上可以取代卷积模型。相对于其他位置编码的相对位置编码阴谋我们使用与4.2相同的超参数应用注意力增强，具有以下不同的位置编码方案：1）自我注意力的位置感知版本（称为无），2）如[ 32 ]中使用的正弦位置波的二维实现（称为2d Sine），3）CoordConv [29]，我们将其串联（x，y，r）到注意力函数的输入的坐标通道，以及4）我们提出的二维相对位置编码（称为相对）。在表7和表8中，我们分别展示了ImageNet分类和COCO对象检测任务的结果。在这两个任务上，没有位置编码的注意力增强已经比完全卷积的非增强变体有所改进我们的实验还表明，正弦编码和坐标卷积并没有提供比位置未知版本的注意力增强的改进当使用二维相对注意力时，我们获得了额外的改进，证明了在防止排列等变性的同时保持translation equivariance的效用5. 讨论和今后的工作在这项工作中，我们考虑使用自注意力的视觉模型作为替代卷积。我们引入了一种新的二维相对自我注意机制的图像，使竞争性的完全自我，视觉任务的网络。确认作者要感谢林宗义、普拉吉·拉马钱德兰、谭明星、黄延平和Google Brain团队提出的富有洞察力的评论和讨论。引用[1] MaximilianAlber，Irwan Bello，Barret Zoph，Pieter-JanKin- dermans，Prajit Ramachandran，and Quoc V.乐反向传播进化。CoRR，abs/1808.02822，2018。8[2] Dzmitry Bahdanau，Kyunhyun Cho，Yoshua Bengio.通过联合学习对齐和翻译的神经机器翻译。在2015年国际学习代表会议上。2[3] Irwan Bello ， Sayali Kulkarni ， Sagar Jain ， CraigBoutilier，Ed Huai-hsin Chi，Elad Eban，Xiyang Luo，Alan Mackey，and Ofer Meshi. Seq2slate：使用rnns进行重新排名和slate优化。CoRR，abs/1810.02019，2018。2[4] Irwan Bello ， Hieu Pham ， Quoc V. Le ， MohammadNorouzi，and Samy Bengio.强化学习的神经组合优化。2016. 2[5] Irwan Bello，Barret Zoph，Vijay Vasudevan，and QuocV.乐神经优化器搜索与强化学习。在第34届机器学习国际会议的开幕式上-第70，ICMLJMLR.org，2017年。83296[6] 陈良杰、麦克斯韦·柯林斯、朱玉坤、乔治·帕潘德里欧、巴雷特·佐夫、弗洛里安·施洛夫、哈特维格·亚当和乔恩·施伦斯。寻找用于密集图像预测的有效多尺度架构。神经信息处理系统，第8713-8724页，2018年二、八[7] Yunpeng Chen，Yannis Kalatidis，Jianshu Li，ShichengYan，and Jianshi Feng. A2-nets：双重注意力网络。CoRR，abs/1810.11579，2018。3[8] EkinDogusCu b uk ， BarretZoph ， DandelionMan e´ ，VijayVa-sudevan，and Quoc V.乐自动扩增：从数据中学习增强策略。CoRR，abs/1805.09501，2018。8[9] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。在IEEE计算机视觉和模式识别上。IEEE，2009年。一、二、五、六[10] 泽维尔· 加斯塔尔迪Shake-shake 正则化arXiv预印本arXiv：1705.07485，2017。11[11] Golnaz Ghiasi ， Tsung-Yi Lin ， and Quoc V Le.Dropblock：卷积网络的正则化方法。神经信息处理系统的进展，第10750-10760页，2018年。11[12] Golnaz Ghiasi，Tsung-Yi Lin，Ruoming Pang，and QuocV Le. NAS-FPN：学习用于对象检测的可扩展特征金字塔架构。在IEEE计算机视觉和模式识别会议（CVPR）上，2019年6月。8[13] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在IEEE计算机视觉和模式识别会议上，2016年。二、五、六[14] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.深度剩余网络中的身份映射。2016年欧洲计算机视觉会议。一、二、五、六、七、十一[15] Sepp Hochreiter和Juergen Schmidhuber。长短期记忆。神经计算，1997年。2[16] Jie Hu ， Li Shen ， Samuel Albanie ， Gang Sun ， andAndrea Vedaldi.聚集-激发：利用卷积神经网络中的特征上下文。神经信息处理系统的进展，第9423-9433页，2018年三、四、五[17] 杰虎，李申，孙刚。挤压-激发网络。在IEEE计算机视觉和模式识别会议论文集，2018。一、二、三、四、五、六、七[18] Cheng-Zhi Anna Huang，Ashish Vaswani，Jakob Uszko-reit ， Noam Shazeer ， Curtis Hawthorne ， Andrew MDai ， Matthew D Hoffman ， and Douglas Eck. 音乐Transformer在神经处理系统的进展，2018年。三、四[19] Jonathan Huang，Vivek Rathod，Chen Sun，MenglongZhu ， AnoopKorattikara ， Alireza Fathi ， Ian Fischer，Zbigniew Wo-jna，Yang Song，Sergio Guadarrama，et al.现代卷积对象检测器的速度/精度权衡。在IEEE计算机视觉和模式识别会议上，2017年。2[20] Sergey Ioffe和Christian Szegedy。批次标准化：通过减少内部协变量偏移来加速深度网络训练。2015年，在学习代表国际会议上。4[21] Simon Kornblith，Jonathon Shlens，and Quoc V Le.更好的imagenet模型传输更好吗？在IEEE计算机视觉和模式识别会议集，2019年。二、五[22] 亚历克斯·克里热夫斯基从微小的图像中学习多层特征。技术报告，多伦多大学，2009年。二、五[23] Alex Krizhevsky、Ilya Sutskever和Geoffrey E.辛顿使用深度卷积神经网络的图像网分类。神经信息处理系统的进展，2012年。一、二[24] YannLeCun，Le'onBottou，YoshuaBengio和PatrickHaffner。基于梯度的学习应用于文档识别。IEEE会议录，1998。1[25] 林宗义、彼得·多尔、罗斯·格希克、何启明、巴拉特·哈里哈兰和塞尔日·贝隆吉.用于对象检测的特征金字塔网络。在IE

下载后可阅读完整内容，剩余1页未读，立即下载