DETR模型快速收敛的空间调制协同注意

107 浏览量更新于2023-10-14 收藏 767KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

3621空间调制协同注意下DETR算法的快速收敛高鹏1郑明航3王晓刚2戴继峰4李洪生21上海AI实验室2香港中文大学-商汤科技联合实验室3北京大学4商汤科技1155102382@link.cuhk.edu.hkhsli@ee.cuhk.edu.hk摘要最近提出的检测Transformer（DETR）模型成功地将变换器应用于对象检测，并且实现了与两阶段对象检测框架（诸如Faster-RCNN）相当的性能。然而，DETR的缺点是收敛速度慢.从头开始训练DETR[4]需要500个epoch才能达到高精度。为了加速其收敛，我们提出了一个简单而有效的方案，改进DETR框架，即空间调制的共同注意（SMCA）机制。SMCA的核心思想是通过在初始估计的边界框位置附近将共同注意响应约束为高来在DETR中进行位置感知的共同注意。我们提出的SMCA增加了DETR在保持DETR中的其他操作不变的同时，在解码器中实现了一种新的操作。此外，通过将多头和尺度选择注意力设计集成到SMCA中，与具有扩张的基于卷积的主干的DETR相比，我们的完全成熟的SMCA可以实现更好的性能（在108个历元处45.6mAP与在108个历元处45.6mAP相比）。43.3mAP，在500个时期）。我们对COCO数据集进行了广泛的消融研究，以验证SMCA。代码发布于https：//github。com/gaopengcuhk/SMCA-DETR.1. 介绍最近提出的DETR [4]通过去除手工制作的锚[33]和非最大抑制（NMS）[2]显著简化了对象检测流水线。然而，与两级[13，12，33]或一级[25，31，23]检测器相比，DETR的收敛速度较慢（500 vs. 40个时期）。DETR算法收敛速度慢，难以进一步扩展，影响了它的广泛应用。在DETR中，存在一系列对象查询向量，其负责检测在不同空间位置处的对象每个对象查询都与空间视觉要素进行图1.比较DETR-DC 5训练500个历元，以及我们提出的SMCA训练50个历元和108个历元。所提出的SMCA的收敛速度比DETR快。由卷积神经网络（CNN）[16]编码，利用共同注意机制自适应地从空间位置收集信息，然后估计边界框位置和对象类别。然而，在DETR的解码器中，每个对象查询的共同参与的视觉区域可能与要由查询预测的边界框无关。因此，DETR的解码器需要长的训练时期来搜索适当的共同参与区域，以准确地识别相应的对象。基于这一发现，我们提出了一个新的模块空间调制的共同注意力（SMCA），这是一个即插即用的模块，以取代现有的共同注意力机制在DETR和实现更快的收敛和改进的性能与简单的修改阳离子。该算法动态预测每个对象查询对应的框的初始中心和尺度，生成二维空间类高斯权重图。权重图与对象查询和图像fea的共同注意特征图进行元素乘3622更有效地聚集来自视觉特征图的查询相关信息的方法。以这种方式，空间权重图有效地将每个对象查询的共同关注的搜索范围调整为适当地围绕初始估计的对象中心和尺度。通过利用预测的高斯分布空间先验，我们的SMCA可以显着加快DETR的训练。虽然将空间调制的共同注意机制天真地并入到DETR中加速了收敛，但是与DETR相比，性能更差（在50个时期为41.0mAP，在108个时期为42.7mAP，与在108个时期为42.7mAP）。43.3mAP，在500个时期）。受先前研究工作中基于多头注意力的Transformer[38]和多尺度特征[22]的有效性的启发，我们的SMCA进一步增强了编码器中的多尺度视觉特征编码和解码器中的多头注意力对于编码器中的多尺度视觉特征编码，不是天真地对来自CNN主干的多尺度特征进行重新缩放和上采样对于所提出的多尺度自我注意，在所有尺度的所有空间位置的视觉特征然而，由于所有空间位置在所有尺度上的数量是相当大的，并导致大的计算成本，我们引入的尺度内的自注意，以减轻沉重的计算。尺度内自注意和多尺度自注意的适当结合实现了有效的和有区别的多尺度特征编码。在解码器中，每个对象查询可以通过所提出的尺度选择注意力自适应地选择适当尺度对于解码器中的多个共同关注头部，所有头部估计头部特定的对象中心和尺度以生成一系列不同的空间权重图，用于对共同关注特征进行空间调制。多个头部中的每一个聚集来自稍微不同的位置的视觉信息，从而提高检测性能。我们的SMCA是由以下研究的动机。DRAW[14]提出了一种具有动态预测高斯采样点的差分读写操作器。我们的贡献总结如下：1）提出了一种新的空间调制协同注意（SMCA）算法，该算法通过进行位置约束的对象回归来加速DETR算法的收敛。SMCA是原始DETR中的即插即用模块。没有多尺度特征和多头注意力的SMCA的基本版本已经可以在50个时期实现41.0mAP，并且42.7在108个时期的mAP。需要265个V100 GPU小时来训练SMCA的基本版本50个epoch。2)我们的完整SMCA进一步集成了多尺度特征和多头空间调制，这可以进一步显着改善和超越DETR，训练迭代次数少得多选项。SMCA可以在50个时期实现43.7mAP，在108个时期实现45.6mAP，而DETR-DC 5在500个时期实现43.3mAP。需要600个V100 GPU小时来训练完整的SMCA 50个epoch。3)我们对COCO 2017数据集进行了广泛的消融研究，以验证所提出的SMCA模块和网络设计。2. 相关工作物体检测。受深度学习在图像分类上的成功[20，16]的启发，深度学习已成功应用于对象检测[13]。基于深度学习的对象检测框架可以分为两阶段、一阶段和端到端框架。对于包括RCNN[13]， Fast RCNN[12]和Faster RCNN[33]在内的两阶段对象检测器，区域建议层首先从密集的滑动窗口生成一些区域，然后ROI对齐[15]层提取细粒度特征并对池化特征进行分类对于诸如YOLO[31]和SSD[25]等一级检测器，它们直接在密集的吊索窗口上进行对象分类和位置估计。两阶段和一阶段方法都需要复杂的后处理来生成最终的边界框预测。最近，对象检测方法的另一分支[35，34，32，4]超出一阶段和两阶段方法已经流行。他们直接监督边界框预测端到端匈牙利二分匹配。然而，与两阶段和一阶段对象检测器相比， DETR[4] 收敛缓慢可变形DETR[41]通过可学习稀疏采样与多尺度可变形编码器耦合来加速DETR的收敛速度。 [36]第三十六话或使用DETR的基于FCOS的方法。变形DETR，TSP-RCNN和TSP-FCOS只探索局部信息，而我们的SMCA探索全局信息与自我注意机制。UP-DETR[5]提出了一种新的自监督损失，以提高收敛速度。Transformer器CNN[21]和LSTM[17]可用于对序列数据进行建模。CNN以权重共享滑动窗口方式处理输入序列。LSTM使用由几个动态预测的门控函数控制的递归机制处理输入。Trans- former[38]通过使用键-查询值注意力在所有输入对之间执行信息交换，引入了超越CNN和LSTM的新架构Transformer在机器翻译方面取得了成功，之后Transformer被应用于不同的领域，包括模型预训练[6，29，30，3]，视觉识别[28，7]，和多模态融合[40，8，27，10，11]。Transformer对于所有输入对之间的信息交换具有二次复杂度，这对于更长的输入序列难以扩展已经提出了许多方法来解决这个问题。 Reformer[19]提出了可逆的FFN3623我×个我∈HW∈和聚集自我注意力。 Linformer[39] 和 FastTrans-former[18]提出移除变换器中的softmax，并在查询和值优先之间执行矩阵乘法以获得线性复杂度Transformer。LongFormer[1]在局部窗口内而不是整个输入序列内执行自注意。Container[9]是最近提出的一种骨干网络，它通过上下文聚集来统一卷积和自注意机制。在DETR中使用Transformer，通过执行不同位置之间的特征交换和对象查询来增强特征在SMCA中，尺度内多尺度自注意被用于多尺度信息交换。3. 空间调制共同注意3.1. 概述在本节中，我们将首先回顾DETR[4]的基本设计，然后介绍SMCA的基本版本。在介绍了SMCA之后，我们将介绍如何将多头和尺度选择注意机制集成到SMCA中。SMCA如图2所示。3.2. DETR再探端到端对象检测与Transformer（DETR）[4]将检测公式化为集合预测问题。卷积神经网络（CNN）[16]从一个图像中提取视觉特征图f∈RC×H ×W。空间视觉特征的数量。Q= FC（Oq），K，V= FC（E）Ci= Softmax（KT Qi/√d）Vi，（2）C= Concat（Cl，. . . 、CH），其中FC表示单层线性变换，并且Ci表示来自第i个共同关注头部的对象查询Oq的共同关注特征。每个对象查询的解码器的输出特征然后通过下式进一步变换：多层感知器（MLP），用于输出每个对象的类别得分和框位置。3.3. 空间调制共同注意DETR中的共同注意力不知道预测的边界框，因此需要多次迭代来学习如何为每个对象查询生成适当的注意力图。我们的SMCA的核心思想是将可学习的共同注意力图与手工制作的查询空间先验相结合，这将关注特征约束为围绕对象查询的SMCA模块在图2中以橙色显示。动态空间权重贴图。每个对象查询首先动态地预测其负责对象的中心和比例，然后将其用于生成2D类高斯空间权重图。类高斯分布的中心在[0，1][0，1]的归一化坐标中被参数化。高斯分布的归一化中心c范数m、c范数和尺度sh、sw的初始预测图像I∈R3×H0×W0，其中H，W和H0，W0是hw图像和特征的高度/宽度。利用位置嵌入fpe增强的视觉特征将被馈送到编码器中。自我关注将被应用于fpe以生成关键字、查询和值特征K、Q、V，以在所有空间位置处的特征之间交换信息。为了增加特征多样性，例如对象查询Oq的条件被公式化为c或m，c范数=sigmoid（MLP（Oq）），（3）sh，sw= FC（Oq），其中，对象查询Oq被投影以获得两个维度c或m中的归一化预测中心，其中HW特征将沿着信道维度被分成多个组多头归一化点积注意力被执行为Ei= Softmax（KT Qi/√d）Vi，（1）E= Concat（E1，. . . 、E H），其中Ki、Qi、Vi表示键特征、查询特征和值特征的第i个对于每种类型的特征存在H个组，并且输出编码器特征E然后被进一步变换并输入到Transformer的解码器给定从编码器编码的视觉特征E，DETR在对象查询OqRNXC和视觉特征ERLXC之间执行共同关注，其中N表示预先指定的对象查询的数量，并且L是2层MLP，随后是S形激活函数。然后对预测的中心进行非归一化以获得原始图像中的中心坐标ch、cw。Oq还将动态地估计沿着两个维度的对象尺度以创建2D类高斯权重图，其然后用于对共同注意力图进行重新加权以突出预测对象位置周围的特征。自然图像中的物体显示出不同的尺度和高/宽比。预测与宽度和高度无关的sh、sw的设计可以更好地处理现实世界中的复杂对于大对象或小对象，SMCA动态地生成不同值的sh、sw，使得通过空间权重图G调制的共同注意力图可以从大对象的所有部分聚合足够的信息在预测了目标中心cw，ch和尺度3624解码器1灤L…N空间调制共同注意规模选择网络1灤ɲ1灤ɲ2+MLP空间先验灤灤ɲ3查询嵌入2MLP...调制共同关注MLPN共同关注Self-Attention编码器自我-注意编码器F16ResNetBackbonef32自我-注意编码器C自我-注意编码器键f64自我-注意编码器标度内前向线性投影通过MLP生成高斯映射计算共同关注权重通过线性图层生成缩放注意力Concatenate按元素相乘Self-Attention多尺度自我注意值+逐元素加法WH我∈×我.−w我-h√C灤图2. 具有尺度内自注意、多尺度自注意、空间调制和尺度选择注意模块的空间调制协同注意（SMCA）的整体流水线。每个对象查询执行空间调制的共同注意，然后预测目标边界框及其对象类别。N代表对象查询的数量。L代表解码器的层。sw，sh，SMCA生成类高斯权重图为框位置，这限制了共同注意的空间模式的搜索空间，从而提高了收敛速度。类高斯权重图如图所示。G（i，j）=exp（i c）2-βs2（j c）2-βs2、（四）图2，其约束共同注意力以更多地聚焦于预测的边界框位置附近的区域，并且因此其中（i，j）[0，W] [0，H]是权重图G的空间索引，并且β是用于调制类高斯分布的带宽的超参数。权重图G通常将高重要性分配给靠近中心的位置，并且将低重要性分配给远离中心的位置β可以用手工方案手动调整，以确保G在开始时覆盖足够的空间范围，使得网络可以接收更多信息梯度。空间调制的共同注意力。给定动态生成的空间先验G，我们用空间先验G调制对象查询Oq和自注意编码特征E之间的共同注意映射Ci。对于利用点积注意力生成的每个共同注意力图Ci（等式10），（2）），我们用空间权重图G调制共同注意力图Ci，其中G在我们的SMCA的基本版本中被所有共同注意力头部共享C i= softmax（K TQ i/√d + log G）V i。（五）我们的SMCA在空间映射G的对数和点积共同关注KTQi/ d之间执行逐元素加法，然后在所有空间位置上进行softmax归一化。通过这样做，解码器共同注意力将在预测的边界周围加权更多。显著提高了收敛速度。具有多头调制的SMCA。我们还调查门调制不同的共同注意的头不同的共同注意功能。每个头部从头部共享中心[cw，ch]开始，类似于SMCA的基本版本的头部共享中心[c w，c h ]，然后预测头部特定中心偏离SMCA的头部共享中心[c w，c h]。set[∆cw，i，∆ch，i]和头部特定尺度sw，i，sh，i。因此，可以基于头部特异性中心[cw+ Δcw，i，ch +Δcw，∆ch，i]和刻度sw，i，sh，i。共同注意力特征图C1，. . . H个头的C、H可以获得为C i= softmax（K TQ i/√d + log G i）Vi。（六）与Eq不同。（5）对于所有注意头部共享logG，上述等式（6）通过头部特定的空间权重图logGi来调制共同注意力图。多个空间权重图可以强调不同的上下文，提高检测精度。具有多尺度视觉特征的SMCA。特征金字塔在对象检测框架中很受欢迎，并且通常导致比单尺度特征编码的显著改进。受FPN[22]的启发，我们还将多尺度特征AttnΣ3625集成到SMCA中。那个...3626联系我们i、jΣi，j i i i，jjsic版本的SMCA进行对象查询和单尺度特征映射之间的共同关注。由于对象自然具有不同的尺度，我们可以通过在Transformer的编码器中用多尺度特征编码替换单尺度特征编码来进一步改进给定图像，CNN以下采样率16、32、64提取多尺度视觉特征，以分别获得多尺度特征f16、f32、f64。多尺度特征直接从CNN主干获得。对于en中的多尺度自我注意编码在编码器中，不同尺度的所有位置处的特征被同等对待。自注意机制在不同尺度的所有特征像素之间传播和聚集信息。然而，所有尺度的特征像素的数量是相当大的，并且多尺度自注意操作因此在计算上是昂贵的。为了解决这个问题，我们引入尺度内自注意编码作为辅助算子来辅助多尺度自注意编码。具体地，点积注意力用于仅在每个尺度内的特征像素之间传播和聚合特征。Transformer块（具有自注意和前馈子网络）的权重我们的实证研究表明，跨尺度的参数共享增强了尺度内自我注意编码的泛化对于SMCA中编码器的最终设计，其采用2个尺度内编码块，随后是1个多尺度编码块，以及另外2个尺度内编码块。该设计具有非常相似的检测性能的5块的多尺度自注意编码，以较少的计算。给定具有16、32、64的下采样率的经编码的多尺度特征E16、E32、E64，用于解码器执行共同关注的朴素解决方案将是首先重新编码多尺度特征E16、E32、缩放和连接多尺度特征以形成单尺度特征图，然后在对象查询和所得到的特征图之间进行共同关注。然而，我们注意到，一些查询可能只需要来自特定尺度的信息，但并不总是来自所有尺度。例如，在低分辨率特征图E 64中缺少小对象的信息。因此，负责小对象的对象查询应该更有效地仅从高分辨率特征图获取信息另一方面，传统的方法，如FPN，分配每个边界框明确的特征图的特定比例。与FPN[22]不同，我们提出使用可学习的尺度注意力自动选择每个框的尺度每个对象查询生成尺度选择注意力权重为方法时期时间GFLOPs mAP APS APM APLDETRDETR-DC55005000.0380.0798618742.043.320.522.545.847.361.161.1SMCA，不带多尺度500.0438641.0 21.944.359.1SMCA（不含）多尺度1080.0438642.7 22.846.160.0SMCA500.10015243.7 24.247.060.4SMCA1080.10015245.6 25.949.362.6表1. 与DETR模型在训练时期、mAP、推理时间和GFLOPs上的比较。E16，E32，E64的多尺度特征，首先分别从E16，E32，E64中得到注意力头i的多尺度键值特征Ki，16，Ki，32，Ki，64和Vi，16，Vi，32，Vi，64。为了针对每个标度j16、32、64的O q和键/值特征之间的每个头部i进行共同注意，等式16、32、64中的空间调制共同注意可以是：由尺度选择权重α16、α32、α64自适应地加权和聚合为C= Softmax（KT Q /√d+ logG）V⊙α，（8）Ci=Ci，j，对于j∈{16，32，64}，（9）所有j其中C i，j代表查询与尺度j的视觉特征之间的第i个共同关注头部之间的共同关注特征。根据在等式（1）中获得的缩放的注意力权重α j来加权地聚合Ci，j。（七）、利用这种尺度选择注意机制，与每个对象查询最相关的尺度被软选择。4. 实验4.1. 实验装置数据集。我们在COCO 2017[24]数据集上验证了我们提出的SMCA。具体来说，我们在COCO 2017训练数据集上进行训练，并在验证数据集上进行验证，该数据集分别包含118k和5k图像我们报告mAP的性能评估之前的研究[4]。实作详细数据。我们遵循原始DETR [4]中的实验设置。我们将ResNet-50[16]提取的特征表示为SMCA-R50。与DETR不同，我们使用300个对象查询而不是100个，并将原始的交叉熵分类损失替换为焦点损失[23]。焦点丢失的初始概率设置为0.01以稳定训练过程。我们报告了50个epoch的性能训练，学习率在100%时下降到其原始值的1/10。α16，α32，α64= Softmax（FC（Oq）），（7）第40个时代对于Transformer编码器-编码器，学习率设置为10-4，对于预训练的编码器，学习率设置为10-5。3627其中α16，α32，α64代表选择f16，f32，f64的重要性。在对象查询Oq和多尺度视觉特征ResNet主干和AdamW优化器优化[26]。对于多尺度特征编码，我们默认使用16、32、64的下采样率。对于二分匹配[35，3628转转4]，分类损失、L1距离损失、GIoU损失的系数分别被设置为2、5、2。在经由二分匹配的边界框分配之后，通过分别用系数2、5、2最小化分类损失、边界框L1损失和GIoU损失来训练SMCA对于Transformer层[38]，我们使用类似于以前方法[4]中的后范数。我们使用随机裁剪进行数据增强，对于[4]之后的所有实验，最大宽度或高度设置为1333。4.2. 与DETR的SMCA与DETR共享相同的架构，除了在解码器中提出的新的共同注意调制SMCA的计算成本对于具有单尺度特征的SMCA（表示为“SMCA w/o多尺度”），我们保持自我注意力的维度为256并且FFN的中间维度为2048。对于具有多尺度特征的SMCA，我们将FFN的中间维度设置为1024，并在编码器中使用5层尺度内和多尺度自注意，以具有与DETR相似的参数量和公平的比较。如表1中所示，“SMCA w/o多尺度”的性能考虑到较长的训练过程，SMCA的mAP从41.0增加到42.7对于单尺度特征，从43.7到45.6具有多尺度特征。“SMCA w/o multi-scale” can achieve better AP SMCA可以实现更好的整体性能上的所有尺度的对象，通过考虑多尺度信息和建议的空间调制。SMCA的收敛速度比基于DETR的方法快10倍。考虑到收敛速度和性能的显著提高，SMCA的FLOP和推理时间的增加是微不足道的。对于单尺度特征，干扰时间从0. 038秒0。041s和FLOP增加0.06G。利用多尺度特征，推理速度从0。079s0. 100s，而GFLOP实际上减少，因为我们的多尺度SMCA仅使用5层自注意层用于编码器。 Transformer 中的薄层和ResNet主干最后阶段中没有膨胀的卷积实现了与原始膨胀DETR模型相似的效率。4.3. 消融研究为了验证我们提出的SMCA的不同组成部分，我们进行消融研究的重要性所提出的空间调制，多头与头共享调制，以及多尺度编码和尺度选择注意。基线DETR模型。我们选择DETR与方法地图AP50AP75基线DETR-R5034.856.236.9头部共享空间+独立(bs8)调制+独立（bs16）+独立。（bs32）40.240.239.961.461.361.042.742.942.4多头空间+固定调制+单+独立。38.540.441.060.761.862.240.243.343.6表2. 研究消融空间调制的重要性，多头机理。mAP、AP50和AP75在COCO 2017验证集上报告。方法地图参数（M）SMCA41.041.0SMCA（2帧内-多帧内-2帧内）43.739.5SMCA，不含SSA（2帧内-多帧内-2帧内）42.639.53Intra3Multi5Intra42.943.343.337.937.939.5共享FFN权重共享共享SA无股份43.042.842.342.244.747.3表3.尺度内和多尺度传播相结合的重要性，以及尺度内自我注意的权重分担的消融研究“共享FFN”代表仅共享尺度内自注意的前馈网络的权重。“Shared “No share” stands for noweight sharing in intra-scale selfResNet-50主干作为我们的基线模型。它被训练了50个epoch，在第40个epoch时学习率下降到原始值与原来的DETR不同如表2所示，基线DETR模型可以在50个时期实现34.8的mAP。头部共享空间调制共同注意。基于基线DETR，我们首先测试添加如在等式（1）中指定的头部共享空间调制。（5）通过保持包括学习率、训练时间表、自我注意参数和损失系数的因素与基线相同。空间权重图是基于所有头部共享的预测高度和宽度生成的，包含高度和宽度独立的尺度预测，以更好地解决尺度方差问题。我们将该方法表示为表2中与基线DETR相比，性能从34.8增加到40.2。大的性能增益（+5.4）验证了SMCA的有效性，它不仅加快了DETR的收敛速度，而且使其性能得到了大幅度的改善。如表2所示，我们进一步测试了具有8、16和32的不同批量大小的头部共享空间调制的性能。结果3629表4.与COCO 2017验证集上的DETR类物体探测器进行比较表明我们SMCA对不同批量大小不敏感多头与头部共享空间调制共同注意。对于具有单独的可预测尺度的多个磁头的空间调制，Transformer中的所有磁头由不同的空间权重图Gi调制，遵循等式（1）。（六）、所有头部从相同的对象中心开始，并预测相对于对象中心的偏移。共同的中心和头部特有的鳞片。该模型采用多头空间调制的设计，能够同时学习不同的注意模式。在从头共享空间调制切换在表2中），与SMCA中的头部共享调制共同注意相比，性能从40.2增加到41.0。在Transformer [38]中也讨论了多头机制的重要性。用于共同注意的多头空间调制设计。我们测试宽度和高度是否缩放应当手动设置、共享或独立预测空间权重图。如表2所示，我们测试了固定尺度的类高斯空间地图（仅预测中心并将类高斯分布的尺度固定为常数1）。固定尺度空间调制产生38.5mAP（表示为“+固定”），其具有超过基线DETR-R50的+3.7增益，并且验证了预测空间调制中心以约束共同注意力的有效性。由于自然图像中的对象具有变化的尺寸，因此可以预测尺度以适应不同尺寸的对象。因此，我们允许规模是一个单一的可预测的变量，如在方程。（三）、如果用于空间调制的这样的单个可预测尺度（由“+Sin-1”表示）是可预测的gle”），SMCA可以实现40.4mAP，并且与上述固定尺度调制相比是+1.9。通过进一步预测高度和宽度的独立尺度，我们的SMCA可以实现41.0mAP（由“+Indep”表示这比具有单一可预测尺度的SMCA高+0.6。结果表明，预测的高度和宽度尺度的建议的空间调制的重要性。我们在补充材料中可视化了共同注意模式，这表明与固定尺度和共享尺度空间调制相比，独立空间调制可以生成更准确和紧凑的共同注意模式多尺度特征编码和尺度选择注意。上述SMCA仅在单尺度特征图和对象查询之间进行共同关注。由于自然图像中的对象存在于不同的尺度上，因此在编码器中采用2层尺度内自关注、1层多尺度自关注、2层尺度内自关注的方式进行多尺度特征编码。我们用“SMCA（2 Intra-Multi-2 Intra）”表示上述设计。如表3所示，我们从具有单尺度视觉特征图的SMCA开始，其实现41.0mAP。在将多尺度特征与2 intra-multi-2 intraself-attention设计相结合后，性能可以从41.0提高到43.7。由于我们引入了3个卷积来将ResNet-50输出的特征投影到256维，因此我们使FFN的隐藏维数从2048减少到1024，编码器层的数量从6减少到5，以使参数与其他模型相当。为了验证尺度选择注意（SSA）的有效性，我们进行了消融研究。模型历元GFLOPSParams （男）APAP50AP75APSAPMAPLDETR-R50[4]500864142.062.444.220.545.861.1DETR-DC5-R50[4]5001874143.363.145.922.547.361.1更快的RCNN-FPN-R50[4]361804240.261.043.824.243.552.0更快的RCNN-FPN-R50++[4]1081804242.062.145.526.645.453.4可变形DETR-R50（单尺度）[41]50783439.760.142.421.244.356.0可变形DETR-R50（50 epochs）[41]501734043.862.647.726.447.158.0可变形DETR-R50（150 epochs）[41]1501734045.364.349.127.148.460.0UP-DETR-R50[5]150864140.560.842.619.044.460.0UP-DETR-R50+[5]300864142.863.045.320.847.161.7TSP-FCOS-R50[36]361895243.162.347.026.646.855.9TSP-RCNN-R50[36]361886443.863.348.328.646.955.7TSP-RCNN+-R50[36]961886445.064.549.629.747.758.0SMCA-容器（单刻度）[9]50863844.266.147.323.847.963.1公司简介501524043.763.647.224.247.060.4公司简介1081524045.665.549.125.949.362.6DETR-R101[4]5001526043.563.846.421.948.061.8DETR-DC5-R101[4]5002536044.964.747.723.749.562.3更快的RCNN-FPN-R101[4]362566042.062.145.526.645.453.4更快的RCNN-FPN-R101+[4]1082466044.063.947.827.248.156.0TSP-FCOS-R101[36]362557044.463.848.227.748.657.3TSP-RCNN-R101[36]362548344.863.849.229.047.957.1TSP-RCNN+-R101[36]962548346.566.051.229.949.759.2SMCA-R101502185844.465.248.024.348.561.0SMCA-R1011082185846.366.650.227.250.563.23630--在不集成SSA的SMCA（由如表3所示，SMCA w/oSSA将性能从43.7降低至42.6。在验证了所提出的多尺度特征编码和尺度选择注意模型的有效性之后，我们进一步验证了2内-多-2内尺度自注意设计的有效性。通过将2 intra-multi-2 intra设计切换为简单地堆叠5个尺度内自注意层，由于缺乏跨尺度信息交换，性能从43.7下降5层的尺度内自注意（由“5Intra”表示3层多尺度（由“3Multi”表示）自注意编码器实现比3层尺度内（3Intra）自注意编码器更好的它表明，使多尺度信息交换导致更好的性能比只进行尺度内的信息交换单独。然而，用多尺度自注意编码器代替尺度内编码器会大大增加FLOP，这使得我们选择了尺度内编码器和多尺度自注意编码器的组合在前面提到的多尺度编码器中，我们为来自尺度内自注意层的特征共享Transformer和FFN权重，这减少了参数的数量并学习了多尺度特征的常见模式。4.4. 总体性能比较在表4中，我们将我们提出的SMCA与COCO 2017验证集上的其他对象检测框架进行了DETR-R50[4]和DETR-DC 5-R50 代表 DETR with ResNet-50 和 DETRwith dilated ResNet-50。与DETR算法相比，SMCA算法收敛速度快，性能更好。更快的RCNN[33]与FPN[22]是一种用于对象检测的两阶段方法。我们的方法可以在109个时期（45.6 vs 42.0 AP）实现比更快的RCNN-FPN-R50更好的mAP。由于Faster RCNN使用具有下采样8、16、32、64个特征的ROI对齐和特征金字塔，Faster RCNN在检测小对象方面更优越（26.6 vs 25.9mAP）。由于多尺度自注意机制可以在所有尺度和位置的特征之间传播信息，我们的SMCA更适合于定位大对象（62.6 vs 53.4 AP）。可变形DETR[41]用编码器和解码器两者的局部可变形注意力它实现了更快的收敛速度比原来的DETR。探索变形DETR中的局部信息导致快速收敛，但对于大型对象的性能下降。与DETR相比，变形DETR的APL我们的SMCA探索了一种新的方法快速收敛的DETR通过执行空间模-共同关注。由于SMCA使用全局自注意力进行所有尺度和位置之间的信息交换，与可变形DETR相比，我们的SMCA可以实现更好的性能可变形DETR使用下采样的8、16、32、64个多尺度特征和8个采样点用于可变形注意。我们的SMCA仅使用下采样的16，32，64个特征和1个中心点用于空间先验。SCMA在50个时期实现了与可变形DETR相当的mAP（43.7 vs. 43.8 AP）。由于SMCA更多地关注全局信息，而可变形DETR更多地关注局部特征，因此SMCA在APL处更好（60.4 vs59.0 AP），而在APS处较差（24.2 vs 26.4）。UP-DETR[5]由于利用了无监督辅助任务，与原始DETR相比可以实现快速收敛和更好的性能。TSP-FCOS和TSP-RCNN[36]将DETR的匈牙利匹配与FCOS[37]和RCNN [33]检测器相结合由于TSP-FCOS和TSP-RCNN继承了FCOS和RCNN的使用局部区域特征进行边界框检测的结构，因此它们在小对象上很强对于短训练时间表，TSP-RCNN和GMCA-R50实现了相当的mAP（38个时期的43.8对50个时期的43.7），其优于TSP-FCOS在38个时期的43.1。对于长时间的训练计划，SMCA可以实现比TSP-RCNN更好的性能（108个epochs时为45.6，96个epochs时为45.0）。5. 结论DETR [4]提出了一种超越先前两阶段[33]和一阶段方法[31]的对象检测端到端解决方案。通过将空间调制共同注意（SMCA）集成到DETR中，原始的500个epoch的训练时间表可以减少到108个epoch，并且在相当的推理成本下，mAP从43.4增加到45.6。SMCA展示了探索全局信息以实现高质量对象检测的潜在能力。在未来，我们将在对象检测之外的更多场景中探索SMCA我们还将探索本地和全局特征的灵活融合，以实现更快的对象检测。确认这项工作部分由香港研究资助局的政府一般研究基金拨款资助。14204021、14208417、14207319、14202217，14203118，14208619，），上海市科学技术委员会（批准号： 21 DZ 1100100 和 20 DZ1100800 ），部分由 Research Impact Fund Grant No.R5001-18，部分由中大策略基金提供。3631引用[1] Iz Beltagy，Matthew E Peters，and Arman Cohan.长型：长文档Transformer。arXiv预印本arXiv：2004.05150，2020。[2] Navaneeth Bodla，Bharat Singh，Rama Chellappa，andLarry S Davis.用一行代码改进目标检测。在IEEE计算机视觉国际会议论文集，第5561-5569页[3] Tom B Brown，Benjamin Mann，Nick Ryder，MelanieSub biah ， Jared Kaplan ， Prafulla Dhariwal ， ArvindNeelakan tan ，Pranav Shyam ，Girish Sastry ，AmandaAskell，et al.语言模型是很少机会的学习者。arXiv预印本arXiv：2005.14165，2020。[4] 尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛纳夫、尼古拉斯·乌斯尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁伊科。使用变压器的端到端对象检测。arXiv预印本arXiv：2005.12872，2020。[5] Zhigang Dai ， Bolun Cai ， Yugeng Lin ， and JunyingChen. Up-detr：使用变压器进行对象检测的无监督预训练arXiv预印本arXiv：2011.09094，2020。[6] 雅各布·德夫林张明伟李肯顿和克里斯蒂娜·图塔诺娃。Bert：为语言理解而进行的深度双向转换器的预训练。arXiv预印本arXiv：1810.04805，2018。[7] AlexeyDosovitskiy，LucasBeyer，AlexanderKolesnikov，Dirk Weissenborn，Xiaohua Zhai，ThomasUnterthiner ， Mostafa Dehghani ， Matthias Minderer ，

下载后可阅读完整内容，剩余1页未读，立即下载