通过语义对齐匹配加速DETR的收敛

101 浏览量更新于2023-10-25 收藏 17.08MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

123458910111210.015.020.025.030.035.040.09490通过语义对齐匹配加速DETR的收敛0Gongjie Zhang 1 Zhipeng Luo 1 , 2 Yingchen Yu 1 Kaiwen Cui 1 Shijian Lu * 101 新加坡南洋理工大学，2 商汤研究0{ gongjiezhang, shijian.lu } @ntu.edu.sg { zhipeng001, yingchen001, kaiwen001 } @e.ntu.edu.sg0摘要0最近开发的DEtectionTRansformer（DETR）通过消除一系列手工设计的组件，建立了一种新的目标检测范式。然而，DETR的收敛速度非常慢，这极大地增加了训练成本。我们观察到，慢收敛主要是由于在不同的特征嵌入空间中将对象查询与目标特征进行匹配的复杂性所致。本文提出了SAM-DETR，一种通过语义对齐匹配大大加速DETR收敛而不损失准确性的方法。SAM-DETR从两个角度解决了收敛问题。首先，它将对象查询投影到与编码的图像特征相同的嵌入空间中，可以通过对齐的语义有效地完成匹配。其次，它明确地搜索具有最具有区分性特征的显著点，用于语义对齐匹配，进一步加快了收敛速度并提高了检测准确性。作为一种即插即用的方法，SAM-DETR很好地补充了现有的收敛解决方案，但只引入了轻微的计算开销。大量实验证明，所提出的SAM-DETR在收敛速度和检测准确性方面都具有优势。实现代码可在https://github.com/ZhangGongjie/SAM-DETR上公开获取。01. 引言0目标检测是计算机视觉中最基本的任务之一，并且随着深度学习的发展取得了前所未有的进展[27]。然而，大多数目标检测器通常由于过度依赖手工设计的组件（如锚点，基于规则的目标分配和非极大值抑制（NMS））而遭受复杂的检测流程和次优性能。最近提出的DEtectionTRansformer（DETR）[3]消除了对这些手工设计组件的需求，并建立了一个完全端到端的框架用于目标检测。0* 通讯作者。0Epochs0AP（％）0Faster-RCNN-R50 DETR-R50Deformable-DETR-R50Conditional-DETR-R50SMCA-DETR-R50SAM-DETR-R50（我们的方法）SAM-DETR-R50 w/SMCA（我们的方法）0图1. 我们提出的SAM-DETR和其他检测器在COCO val2017上的收敛曲线，采用12个epoch的训练方案。所有竞争方法都是单尺度的。SAM-DETR比原始DETR收敛速度更快，并且可以与现有的收敛加速解决方案相互补充，达到与FasterR-CNN相当的收敛速度。0然而，DETR的一个最显著的缺点是其在训练中收敛速度极慢，需要500个epoch才能在COCO基准测试上收敛[26]，而FasterR-CNN[35]只需要12�36个epoch。这种缓慢的收敛问题显著增加了训练成本，从而阻碍了其更全面的应用。DETR在其解码器中使用一组对象查询来检测不同空间位置的目标对象。如图2所示，在交叉注意力模块中，这些对象查询通过一种基于集合的全局损失进行训练，以匹配目标对象并提取匹配区域的相应特征进行后续预测。然而，正如[10, 31,63]所指出的，每个对象查询在初始化时几乎与所有空间位置等匹配，因此9500对象查询＃10编码的图像特征0点积0Softmax0对象查询＃20点积0Softmax0乘法0求和0乘法0求和0注意力0权重图0注意力0权重图0对象查询＃10带蒸馏特征的0对象查询＃20带蒸馏特征的0匹配相关区域0特征0蒸馏0来自0相关区域0图2.DETR解码器中的交叉注意力模块可以解释为“匹配和特征蒸馏”过程。每个对象查询首先在编码的图像特征中匹配其自己的相关区域，然后从匹配的区域中蒸馏特征，生成用于后续预测的输出。0需要繁琐的训练迭代来学习集中注意力于相关区域。对象查询与相应目标特征之间的匹配困难是DETR收敛缓慢的主要原因。最近有一些工作提出解决DETR收敛缓慢问题。例如，可变形DETR[63]用可变形注意力替换了原始的全局密集注意力，只关注一小组特征以降低复杂性并加快收敛速度。条件DETR[31]和SMCA-DETR[10]修改了交叉注意力模块以进行空间条件化。相比之下，我们的方法从不同的角度出发，而不是修改注意力机制。我们的核心思想是简化对象查询与其相应目标特征之间的匹配过程。Siamese-based架构定义了一种有前途的匹配方向，它通过两个相同的子网络将匹配双方的语义投影到相同的嵌入空间中以实现对齐。它的有效性已经在各种涉及匹配的视觉任务中得到证明，例如目标跟踪[1, 4, 20, 21, 46,47]，重新识别[5, 37, 38, 48, 59]和少样本识别[15, 19, 39,41,55]。受到这一观察的启发，我们提出了语义对齐匹配DETR（SAM-DETR），它在交叉注意力模块之前添加了一个即插即用的模块，将对象查询与编码的图像特征进行语义对齐，从而促进它们之间的后续匹配。这为对象查询在编码的图像特征中集中注意力于语义相似的区域提供了强有力的先验。此外，受到识别和定位中对象的关键点和极点的重要性的启发[3, 31, 62]，我们提出了明确地0搜索多个显著点并将其用于语义对齐匹配，这自然地适应了DETR的原始多头注意力机制。我们的方法只在原始DETR中引入了一个即插即用的模块，而大部分其他操作保持不变。因此，所提出的方法可以很容易地与现有的收敛解决方案相互补充地集成在一起。总之，本文的贡献有四个。首先，我们提出了语义对齐匹配DETR（SAM-DETR），通过创新地将其交叉注意力解释为“匹配和蒸馏”过程，并在编码的图像特征中语义对齐对象查询，以促进它们的匹配，从而显著加速了DETR的收敛。其次，我们提出了明确搜索具有最具有区分性特征的对象显著点，并将其馈送到交叉注意力模块进行语义对齐匹配，从而进一步提高了检测准确性并加快了我们模型的收敛速度。第三，实验证实，我们提出的SAM-DETR相对于原始DETR实现了显著更快的收敛。第四，由于我们的方法只在原始DETR中添加了一个即插即用的模块，并且大部分其他操作保持不变，所以所提出的SAM-DETR可以很容易地与现有的解决方案集成在一起，这些解决方案修改了注意力机制以进一步改善DETR的收敛性，从而在仅进行12个训练时期内实现与Faster R-CNN相当的收敛速度。02. 相关工作0目标检测。现代目标检测方法可以广泛分为两类：两阶段检测器和单阶段检测器。两阶段检测器主要包括FasterR-CNN [35]及其变种[2, 9, 16, 23, 32, 44, 49, 51,54]，它们使用区域建议网络（RPN）生成区域建议，然后对其进行逐区域预测。单阶段检测器[17, 28, 29, 33, 34, 43,57, 61,62]跳过了建议生成步骤，直接在密集放置的滑动窗口（锚点）或目标中心上执行目标分类和定位。然而，这些方法大多仍然依赖于许多手工设计的组件，如锚点生成、基于规则的训练目标分配和非极大值抑制（NMS）后处理，因此不是完全端到端的。与上述检测器不同，最近提出的DETR[3]为目标检测建立了一种新的范式[50, 55, 56, 60,63]。它采用Transformer[45]编码器-解码器架构和基于集合的全局损失来替代手工设计的组件，实现了第一个完全端到端的目标检测器。然而，DETR存在严重的低收敛性问题，需要额外长时间的训练才能达到良好的性能，与那些两阶段和单阶段检测器相比。已经提出了几种方法来缓解这个问题：De-Q′ =,(1)where Wq,ions forquery, key, and value in the attention mechanism. Ideally,the cross-attention module’s output Q′ ∈ RN×d shouldcontain relevant information distilled from the encoded im-age features to predict object classes and locations.However, as pointed out in [10,31,63], the object queriesare initially equally matched to all spatial locations in theencoded image features, and it is very challenging for theobject queries to learn to focus on specific regions properly.The matching difficulty is the key reason that causes theslow convergence issue of DETR.Our proposed SAM-DETR aims to relieve the difficultyof the matching process in Eq. 1 by semantically aligningobject queries and encoded image features into the sameembedding space, thus accelerating DETR’s convergence.Its major difference from the original DETR [3] lies inthe Transformer decoder layers. As illustrated in Fig. 3 (a),the proposed SAM-DETR appends a Semantics Alignermodule ahead of the cross-attention module and modelslearnable reference boxes to facilitate the matching process.Same as DETR, the decoder layer is repeated six times, withzeros as input for the first layer and previous layer’s outputsas input for subsequent layers.The learnable reference boxes Rbox ∈ RN×4 are mod-eled at the first decoder layer, representing the initial lo-cations of the corresponding object queries. With the lo-calization guidance of these reference boxes, the proposedSemantics Aligner takes the previous object query embed-dings Q and the encoded image features F as inputs togenerate new object query embeddings Qnew and their po-sition embeddings Qnewpos , feeding to the subsequent cross-attention module. The generated embeddings Qnew are en-forced to lie in the same embedding space with the encodedimage features F, which facilitates the subsequent match-ing process between them, making object queries able toquickly and properly attend to relevant regions in the en-coded image features.9510可变形DETR[63]用稀疏可变形注意力替换了原始的密集注意力；条件DETR [31]和SMCA-DETR[10]分别提出了条件交叉注意力和空间调制共同注意力（SMCA），以替换DETR解码器中的交叉注意力模块，旨在对原始交叉注意力施加空间约束，更好地聚焦于显著区域。在这项工作中，我们也旨在改善DETR的收敛性，但从不同的角度出发。我们的方法不修改DETR中的原始注意力机制，因此可以与现有方法相辅相成。0基于孪生网络的匹配架构。匹配是视觉任务中的一个常见概念，特别是在对比任务中，如人脸识别[36,40]、重新识别[5, 14, 22, 37, 38, 48, 59]、目标跟踪[1, 4,8, 11, 20, 21, 42, 46, 47, 52, 58, 64]、少样本识别[15, 19,39, 41, 53,55]等。其核心思想是预测两个输入之间的相似度。实证结果表明，基于孪生网络的架构，将两个匹配方面投影到相同的嵌入空间中，对于涉及匹配的任务表现出色。我们的工作受到这一观察的启发，将DETR的交叉注意力解释为“匹配和特征蒸馏”过程。为了实现快速收敛，确保对象查询和编码图像特征之间的对齐语义非常重要，即它们都被投影到相同的嵌入空间中。03. 提出的方法0在本节中，我们首先回顾DETR的基本架构，然后介绍我们提出的语义对齐匹配DETR（SAM-DETR）的架构。我们还展示了如何将我们的方法与现有的收敛解决方案集成在一起，以进一步提升DETR的收敛性。最后，我们通过几个示例的可视化来说明我们的方法的机制并证明其有效性。03.1. DETR回顾0DETR[3]将目标检测任务定义为一种集合预测问题，并采用Transformer [45]编码器-解码器架构来解决该问题。给定图像I ∈R H0 × W0 ×3，骨干网络和Transformer编码器生成编码图像特征F ∈RHW ×d，其中d是特征维度，H0、W0和H、W分别表示图像和特征的空间尺寸。然后，将编码图像特征F和一小组对象查询Q∈ RN ×d输入到Transformer解码器中以生成检测结果，其中N是对象查询的数量，通常为100�300。在Transformer解码器中，对象查询通过自注意力模块、交叉注意力模块和前馈神经网络（FFN）进行顺序处理，以生成0输出，进一步通过多层感知机（MLP）生成预测结果。解释这个过程的一种好方法是：对象查询表示不同空间位置的潜在对象；自注意力模块在不同对象查询之间进行消息传递；在交叉注意力模块中，对象查询首先搜索相应的区域进行匹配，然后从匹配的区域中提取相关特征用于后续预测。交叉注意力机制的公式为：0匹配相关区域 � �� 0Softmax((QW q)(FW k) T0d)(FW v) � �� 从匹配的区域中提取特征03.2. SAM-DETR9520多头0自注意力0加和归一化0FFN0语义0对齐器0对象查询嵌入0参考0框0V K Q0多头0交叉注意力0加和归一化0V K Q0编码的图像特征特征位置嵌入0编码0图像特征0重塑0参考0框0RoIAlign0之前0查询0嵌入0正弦位置嵌入0线性Sigmoid0线性Sigmoid0查询位置嵌入0查询0嵌入0卷积+MLP0新查询0嵌入0新查询0位置0嵌入0逐元素乘法位置嵌入生成逐元素加法（a）（b）0语义对齐0图3.提出的语义对齐匹配DETR（SAM-DETR）将语义对齐器附加到Transformer解码器层中。（a）SAM-DETR中一个解码器层的架构。它为每个对象查询建模一个可学习的参考框，其中心位置用于生成相应的位置嵌入。在参考框的指导下，语义对齐器生成与编码图像特征在语义上对齐的新的对象查询，从而促进它们的后续匹配。（b）提出的语义对齐器的流程。为简单起见，只绘制了一个对象查询。它首先利用参考框通过RoIAlign从相应区域提取特征。然后，使用区域特征预测具有最具有辨别性特征的显著点的坐标。然后，将显著点的特征提取为具有对齐语义的新查询嵌入，然后通过先前的查询嵌入进行重新加权，以融入有用的信息。03.2.1 语义对齐匹配0如公式1和图2所示，交叉注意模块将对象查询和编码图像特征应用于点积，产生指示对象查询和目标区域匹配的注意权重图。使用点积是直观的，因为它衡量两个向量之间的相似度，鼓励对象查询对更相似的区域具有更高的注意权重。然而，原始的DETR[3]没有强制要求对象查询和编码图像特征在语义上对齐，即投影到相同的嵌入空间。因此，在初始化时，对象查询嵌入被随机投影到一个嵌入空间中，因此几乎等同地匹配编码图像特征的所有空间位置。因此，需要进行非常长时间的训练才能学习到有意义的匹配。基于上述观察，提出的语义对齐器设计了一种语义对齐机制，以确保对象查询嵌入与编码图像特征在相同的嵌入空间中，从而保证了0它们之间的点积是相似度的有意义的度量。这是通过根据参考框从编码图像特征中重新采样对象查询来实现的，如图3（b）所示。给定编码图像特征F和对象查询的参考框Rbox，语义对齐器首先将编码图像特征的空间维度从1D序列HW×d恢复到2D映射H×W×d。然后，它应用RoIAlign[12]从编码图像特征中提取区域级特征FR∈RN×7×7×d。然后，通过从FR中重新采样获得新的对象查询Q new和Qnew pos。更多细节将在接下来的子节中讨论。0FR = RoIAlign(F，R box)（2）0Q new，Q new pos = Resample(F R，R box，Q)（3）0由于重新采样过程不涉及任何投影，新的对象查询嵌入Qnew与编码图像特征F完全共享相同的嵌入空间，为对象查询集中在语义上相似的区域提供了强有力的先验知识。95303.2.2 使用显著点特征进行匹配0多头注意力在DETR中起着不可或缺的作用，它允许每个头部专注于不同的部分，从而显著增强了其建模能力。此外，之前的工作[3, 31,62]已经确定了对象最具有辨别性的显著点在目标检测中的重要性。受到这些观察的启发，我们提出了一种显式搜索多个显著点并使用它们的特征进行上述语义对齐匹配的方法。这种设计自然地适应于多头注意力机制[45]，无需任何修改。假设注意头的数量为M，通常设置为8。如图3（b）所示，在通过RoIAlign检索到区域级特征FR后，我们应用一个ConvNet，然后是一个多层感知机（MLP）来预测每个区域的M个坐标RSP∈RN×M×2，表示对于识别和定位对象至关重要的显著点。0R SP = MLP(ConvNet(FR)) (4)0值得注意的是，我们限制预测的坐标在参考框内。这个设计选择在第4.3节中经过了实证验证。然后，通过双线性插值从FR中采样显著点的特征。与M个搜索到的显著点对应的M个采样特征向量最终被连接成为新的对象查询嵌入，使得每个注意力头可以关注一个显著点的特征。0Q new ′ = Concat({FR[..., x, y, ...] for x, y ∈ R SP}) (5)0新的对象查询的位置嵌入使用正弦函数生成，输入是显著点的图像尺度坐标。类似地，与M个显著点对应的位置嵌入也被连接起来，供后续的多头交叉注意力模块使用。0Q new ′ pos = Concat(Sinusoidal(R box, R SP)) (6)03.2.3 通过之前的查询嵌入进行重新加权0语义对齐器有效地生成了与编码图像特征语义对齐的新的对象查询，但也带来了一个问题：之前包含用于检测的有价值信息的查询嵌入Q在交叉注意力模块中根本没有被利用。为了缓解这个问题，所提出的语义对齐器还将之前的查询嵌入Q作为输入，通过线性投影和sigmoid函数生成重新加权系数。通过与重新加权系数进行逐元素乘法，新的查询嵌入和它们的位置嵌入被重新加权以突出重要特征，从而有效地利用有用的之前的查询嵌入。0这个过程可以表示为：0Q new = Q new ′ � σ(QW RW1) (7)0Q new pos = Q new ′ pos � σ(QW RW2), (8)0其中，W RW1和WRW2表示线性投影，σ（∙）表示sigmoid函数，�表示逐元素乘法。03.3. 与SMCA-DETR的兼容性0如图3（a）所示，我们提出的SAM-DETR只是增加了一个即插即用的模块，计算开销很小，大部分其他操作如注意力机制保持不变。因此，我们的方法可以很容易地与现有的收敛解决方案相结合，以进一步促进DETR的收敛。我们通过将其与SMCA-DETR集成来展示我们方法的出色兼容性，SMCA-DETR是一种加速DETR收敛的最新方法。SMCA-DETR用空间调制共同注意力（SMCA）替换了原始的交叉注意力，它估计了对象查询的空间位置，并应用2D高斯权重图来约束注意力响应。在SMCA-DETR中，2D高斯权重图的中心位置和尺度都是从对象查询嵌入中预测得到的。为了将我们提出的SAM-DETR与SMCA集成，我们进行了轻微的修改：我们采用由语义对齐器预测的M个显著点的坐标作为2D高斯权重图的中心位置，并同时从池化的RoI特征中预测权重图的尺度。实验结果证明了我们提出的方法与SMCA-DETR之间的互补效果。03.4. 可视化和分析0图4展示了所提出的语义对齐器搜索到的显著点，以及从多头交叉注意力模块生成的注意力权重图。我们还将它们与原始DETR的注意力权重图进行了比较。这两个模型都使用ResNet-50作为骨干网络进行了12个epoch的训练。可以观察到，搜索到的显著点大多位于目标对象内部，通常是最具特色的位置，对于目标识别和定位至关重要。这说明我们的方法在搜索显著特征以进行后续匹配过程方面是有效的。此外，从不同头部的注意力权重图中可以看出，每个显著点采样到的特征可以有效地匹配目标区域，并通过注意力图的区域反映出搜索范围的缩小。因此，模型可以有效地关注目标对象的边缘部位。SAM-DETRDETR [3]SAM-DETRDETR [3]SAM-DETRDETR [3]9540搜索到的0显著点0注意力图#10注意力图#20注意力图#30注意力图#40注意力图#50注意力图#60注意力图#70注意力图#80整体0注意力图0图4.SAM-DETR搜索到的显著点及其注意力权重图的可视化。搜索到的显著点大多数落在目标物体内部，并准确指示具有最具辨别特征的位置，用于目标识别和定位。与原始DETR相比，SAM-DETR的注意力权重图更加精确，表明我们的方法有效地缩小了匹配的搜索空间并促进了收敛。相比之下，原始DETR的注意力权重图更加分散，表明其在匹配相关区域和提取独特特征方面效率低下。0如整体的注意力图所示，这极大地促进了收敛。相比之下，从原始DETR生成的注意力图更加分散，无法有效准确地定位极端部位。这样的观察与我们的动机一致，即匹配目标查询与目标特征的复杂性是DETR收敛缓慢的主要原因。可视化还证明了我们提出的通过语义对齐匹配和显式搜索显著特征来缓解匹配困难的设计的有效性。04. 实验04.1. 实验设置0数据集和评估指标。我们在COCO2017数据集[26]上进行实验，该数据集包含约117k个训练图像和5k个验证图像。采用COCO的标准评估指标来评估目标检测的性能。0实现细节。SAM-DETR的实现细节大部分与原始DETR[3]一致。我们采用ImageNet预训练[7]的ResNet-50[13]作为骨干网络，并使用8个Nvidia V100GPU使用AdamW优化器[18,30]对模型进行训练。初始学习率为骨干网络设置为1×10−5，Transformer编码器-解码器框架设置为1×10−4，权重衰减为1×10−4。学习率在后期阶段衰减0.1。批量大小设置为16。当使用带有扩张的ResNet-50（R50-DC5）时，批量大小设置为8。与DETR相比，模型架构相关的超参数保持不变，只是将目标查询的数量N从100增加到300，并用Sigmoid Focal Loss[25]替换分类的交叉熵损失。这两个设计变化与最近的工作相一致，以促进DETR的收敛[10,31,63]。我们采用与DETR[3]相同的数据增强方案，包括水平翻转、随机裁剪和最长边最多1333像素、最短边至少480像素的随机调整。Faster-RCNN-R50-DC5 [35]10816632041.161.444.322.945.955.0Faster-RCNN-FPN-R50 [24,35]✓1084218042.062.145.526.645.453.4DETR-R50 [3]500418642.062.444.220.545.861.1DETR-R50-DC5 [3]5004118743.363.145.922.547.361.1Faster-RCNN-R50 [35]123454735.756.138.019.240.948.7DETR-R50 [3] ‡12418622.339.522.26.622.836.6Deformable-DETR-R50 [63]12347831.851.433.515.035.744.7Conditional-DETR-R50 [31]12449032.252.133.413.934.548.7SMCA-DETR-R50 [10]12428631.651.733.114.134.446.5SAM-DETR-R50 (Ours)125810033.154.233.713.936.551.7SAM-DETR-R50 w/ SMCA (Ours)125810036.056.837.315.839.455.39550方法多尺度 #Epochs #Params (M) GFLOPs AP AP 0 . 5 AP 0 . 75 AP S AP M AP L0长时间训练的基准方法：0在较短的训练方案下，SAM-DETR与其他检测器的比较：0Faster-RCNN-R50-DC5 [35] 12 166 320 37.3 58.8 39.7 20.1 41.7 50.0 DETR-R50-DC5 [3] ‡ 12 41 187 25.9 44.4 26.0 7.9 27.1 41.4Deformable-DETR-R50-DC5 [63] 12 34 128 34.9 54.3 37.6 19.0 38.9 47.5 Conditional-DETR-R50-DC5 [31] 12 44 195 35.9 55.8 38.217.8 38.8 52.0 SMCA-DETR-R50-DC5 [10] 12 42 187 32.5 52.8 33.9 14.2 35.4 48.1 SAM-DETR-R50-DC5（我们的）12 58 210 38.3 59.140.1 21.0 41.8 55.2 SAM-DETR-R50-DC5 w/ SMCA（我们的）12 58 210 40.6 61.1 42.8 21.9 43.9 58.50Faster-RCNN-R50 [35] 36 34 547 38.4 58.7 41.3 20.7 42.7 53.1 DETR-R50 [3] ‡ 50 41 86 34.9 55.5 36.0 14.4 37.2 54.5Deformable-DETR-R50 [63] 50 34 78 39.4 59.6 42.3 20.6 43.0 55.5 Conditional-DETR-R50 [31] 50 44 90 40.9 61.8 43.3 20.8 44.6 59.2SMCA-DETR-R50 [10] 50 42 86 41.0 - - 21.9 44.3 59.1 SAM-DETR-R50（我们的）50 58 100 39.8 61.8 41.6 20.5 43.4 59.6SAM-DETR-R50 w/ SMCA（我们的）50 58 100 41.8 63.2 43.9 22.1 45.9 60.90Deformable-DETR-R50 [63] � 50 40 173 43.8 62.6 47.7 26.4 47.1 58.0 SMCA-DETR-R50 [10] � 50 40 152 43.7 63.6 47.2 24.2 47.0 60.40Faster-RCNN-R50-DC5 [35] 36 166 320 39.0 60.5 42.3 21.4 43.5 52.5 DETR-R50-DC5 [3] ‡ 50 41 187 36.7 57.6 38.2 15.4 39.8 56.3Deformable-DETR-R50-DC5 [63] 50 34 128 41.5 61.8 44.9 24.1 45.3 56.0 Conditional-DETR-R50-DC5 [31] 50 44 195 43.8 64.4 46.724.0 47.6 60.7 SAM-DETR-R50-DC5（我们的）50 58 210 43.3 64.4 46.2 25.1 46.9 61.0 SAM-DETR-R50-DC5 w/ SMCA（我们的）50 58210 45.0 65.4 47.9 26.2 49.0 63.30通过自监督学习加速DETR的收敛：0UP-DETR-R50 [6] 150 41 86 40.5 60.8 42.6 19.0 44.4 60.0 UP-DETR-R50 [6] 300 41 86 42.8 63.0 45.3 20.8 47.1 61.70表1. 在COCO 2017验证集上对提出的SAM-DETR，其他DETR类似检测器和Faster R-CNN进行比较。 ‡ 表示原始的DETR[3]，具有对齐的设置，包括增加的目标查询数量（100 → 300）和分类的焦点损失。0我们采用了两种训练方案进行实验，包括一个12个时期的方案，在10个时期后学习率衰减，以及一个50个时期的方案，在40个时期后学习率衰减。04.2. 实验结果0表1. 对提出的SAM-DETR，其他DETR类似检测器[3, 6, 10, 31, 63]和Faster R-CNN[35]进行了全面比较。如图所示，当训练长时间时，FasterR-CNN和DETR都可以取得令人印象深刻的性能。然而，当仅训练12个时期时，DETR的性能明显较差。最近的几项工作[10, 31,63]修改了原始的注意机制，并在12个时期的训练方案下有效提升了DETR的性能，但与强大的FasterR-CNN基线相比仍存在较大差距。对于独立使用，我们提出的SAM-DETR相对于原始的DETR基线可以获得显著的性能提升（+10.8% AP），并且优于所有DETR的变体[10, 31,63]。此外，所提出的SAM-DETR可以轻松集成到现有的0在12个时期内，FasterR-CNN仍然可以取得良好的性能，而DETR由于其收敛速度较慢而表现明显较差。最近的几项工作[10, 31,63]修改了原始的注意机制，并在12个时期的训练方案下有效提升了DETR的性能，但与强大的FasterR-CNN基线相比仍存在较大差距。对于独立使用，我们提出的SAM-DETR相对于原始的DETR基线可以获得显著的性能提升（+10.8% AP），并且优于所有DETR的变体[10, 31,63]。此外，所提出的SAM-DETR可以轻松集成到现有的22.339.522.2✓✓25.248.923.3✓✓27.050.225.8✓✓28.650.328.1✓✓✓30.352.029.8✓✓32.053.432.8✓✓✓33.154.233.7✓33.154.233.79560SAM查询重采样策略RW AP AP 0 . 5 AP 0 . 75 Avg Max SP x1 SP x80表2. 对我们提出的设计选择进行消融实验。结果是在COCO val2017上获得的。'SAM'表示提出的语义对齐匹配。'RW'表示通过先前的查询嵌入进行重新加权。对SAM进行了不同的重采样策略的研究，包括平均池化（Avg），最大池化（Max），一个显著点（SPx1）和八个显著点（SP x8）。0显著点搜索范围AP AP 0 . 5 AP 0 . 75在参考框内在图像内0� 30.0 52.3 29.20表3. 关键点搜索范围的剔除研究。结果是在COCO val2017上获得的。0DETR的收敛提升方法以实现更好的性能。将我们提出的SAM-DETR与SMCA[10]相结合，与独立的SAM-DETR相比，AP提高了2.9%，与SMCA-DETR[10]相比，AP提高了4.4%，在12个epoch内达到了与FasterR-CNN相当的性能。竞争方法在12个epoch方案下的收敛曲线也在图1中呈现。我们还使用更强的主干网络R50-DC5和更长的50个epoch训练方案进行了实验。在各种设置下，提出的SAM-DETR始终改进了原始DETR的性能，并在进一步与SMCA[10]集成时实现了最先进的准确性。在各种设置下的卓越性能证明了我们方法的有效性。04.3. 剔除研究0我们进行了剔除研究以验证我们提出的设计的有效性。实验是在12个epoch的训练方案下使用ResNet-50 [13]进行的。0语义对齐匹配（SAM）的效果。如表2所示，提出的SAM与任何查询重采样策略相结合，始终比基线具有更好的性能。值得强调的是，即使使用简单的最大池化重采样，AP 0.5的提升幅度达到了10.7%，相当可观。结果强有力地支持我们的观点，即SAM有效地简化了将物体查询与其对应的目标特征匹配的复杂性，从而加速了DETR的收敛。0搜索显著点的效果。如表2所示，不同的查询重采样策略导致检测准确性的巨大差异。最大池化优于平均池化，这表明检测更依赖于关键特征，而不是平等对待所有特征。这激发了我们明确搜索显著点并使用其特征进行语义对齐匹配的动机。结果显示，仅搜索一个显著点并将其特征重采样为新的物体查询优于简单的重采样策略。此外，采样多个显著点可以自然地与多头注意力机制配合工作，进一步增强新的物体查询的表示能力并提高性能。在边界框内搜索与在图像内搜索。如第3.2.2节所介绍，显著点是在相应的参考框内搜索的。如表3所示，以图像尺度搜索显著点（允许显著点超出其参考框）会降低性能。我们怀疑性能下降是由于匹配更大搜索空间的困难增加所致。值得注意的是，原始DETR的物体查询没有明确的搜索范围，而我们提出的SAM-DETR模型具有可学习的具有可解释含义的参考框，有效地缩小了搜索空间，加速了收敛。通过先前嵌入的重新加权的效果。我们认为先前的物体查询嵌入包含了有助于检测的有用信息，应在匹配过程中有效利用。为此，我们从先前的查询嵌入中预测一组重新加权系数，以应用于新生成的物体查询，突出关键特征。如表2所示，所提出的重新加权始终提升性能，表明有效利用了先前物体查询的知识。04.4. 与 Faster R-CNN [35] 相比的局限性，SAM-DETR在大型物体上具有更高的准确性，但在小型物体上性能下降。提高小型物体准确性的一种方法是利用多尺度特征，我们将在未来进行探索。05. 结论本文提出了SAM-DETR来加速DETR的收敛。SAM-DETR的核心是一个即插即用的模块，用于语义对齐目标查询和编码图像特征，以促进它们之间的匹配。它还明确地搜索显著点特征进行语义对齐匹配。所提出的SAM-DETR可以轻松集成到现有的收敛解决方案中，进一步提高性能，使其在12个训练时期内与FasterR-CNN具有可比较的准确性。我们希望我们的工作为更全面的DETR研究和应用铺平道路。9570参考文献0[1] Luca Bertinetto,

下载后可阅读完整内容，剩余1页未读，立即下载