DESTR分割Transformer目标检测模型在MS-COCO数据集上的性能优于DETR及其后续模型

112 浏览量更新于2023-10-25 收藏 14.58MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

{heli,sinis}@oregonstate.eduTransformers require longer training (e.g., DETR needs 500training epochs) and larger amount of training data to com-pensate. In this work, we identify and address three keylimitations of the mentioned family of detector Transform-ers, and thus improve their inductive bias.The first limitation concerns cross-attention. DETR’s de-coder computes cross-attention between the encoder’s out-put embedding and a set of learnable object queries, for es-timating relationships between these queries and the entireimage context. This cross-attention is then used for bothclassification and bounding-box regression of the queries.The same holds for other Transformer detectors.Motivated by the success of FCOS detector [24] thatsplits the classification and box regression heads, as ourfirst contribution, we propose to split estimation of cross-attention into two independent branches – one for classi-fication, and the other for regression. Hence the name ofour new Detection Split Transformer (DESTR). Since thebranches will not share weights, each will likely focus ona different set of optimal features, as desired, rather thanjointly use suboptimal features for both classification andregression. This is illustrated in Fig. 1, where we showcross-attention maps computed by DETR, C-DETR, andour DESTR. As can be seen, DETR’s cross-attention ap-pears to focus on most discriminative object parts whichmay not necessarily be informative for box regression. Onthe other hand, C-DETR’s cross-attention seems to primar-ily focus on shape cues. DESTR’s classification and re-gression cross-attention maps differ, as intended, where theformer highlights more class-characteristic regions to helpclassification, and the latter has higher values on horizontaland vertical edges in the image to guide the box prediction,and looks more dilated to the same regions.The second limitation concerns the poor initializationand need for long training of content queries in the decoder.Features of the learnable object queries in the decoder con-sist of the content embedding (a.k.a. content query) and po-sitional embedding (a.k.a. spatial query). DETR learns thepositional embedding so it captures a spatial distribution ofobjects in training images [2]. However, the content queries93770DESTR：使用分割Transformer进行目标检测0Liqiang He和Sinisa Todorovic俄勒冈州立大学 Corvallis, OR97330, 美国0摘要0Transformer中的自注意力和交叉注意力提供了高模型容量，使它们成为目标检测的可行模型。然而，Transformer在性能上仍然落后于基于CNN的检测器。我们认为，这是因为：(a)交叉注意力同时用于分类和边界框回归任务；(b)Transformer的解码器对内容查询初始化较差；(c)自注意力未能很好地考虑某些先验知识，这些知识可以帮助改进归纳偏差。这些限制通过相应的三个贡献得到解决。首先，我们提出了一种新的检测分割Transformer（DESTR），将交叉注意力的估计分为两个独立的分支，一个用于分类，另一个用于边界框回归。其次，我们使用一个小型检测器来初始化解码器中的内容查询，该查询使用小型检测器中的分类和回归嵌入。第三，我们在解码器中增加了自注意力，以额外考虑相邻目标查询对。我们在MS-COCO数据集上的实验证明，DESTR优于DETR及其后续模型。01. 引言0本文解决了图像中的基本视觉问题，即目标检测。最近提出的DETR（DetectionTRansformer）[2]及其后续模型，如C-DETR（Conditional DETR）[19]和Anchor DETR[25]，在基准数据集MS-COCO[15]上表现出竞争力，尽管它们使用的骨干网络比更复杂的最先进（SOTA）的CNNs [20, 22, 24,27]具有更简单的单尺度特征。这一成功被归因于Transformer的高模型容量，因为它们估计自注意力和交叉注意力，从而明确捕捉图像中部分和更大空间上下文之间的关系。然而，最近的研究结果[3,5]表明，与CNN相比，Transformer缺乏一些归纳偏差来帮助它们限制假设空间。因此，93780图1. 由训练了500个训练时期的DETR和训练了50个时期的C-DETR估计的交叉注意力图。(c) DESTR的分类交叉注意力集中在有区别的对象部分上。 (d)DESTR的回归交叉注意力与(c)相比更加扩张到相同的区域。DESTR使用50个时期进行训练。这三个模型的骨干网络都使用R50。为了更好地可视化，该图显示了交叉注意力的平方根值。颜色越暖表示交叉注意力值越高。0图2.对偶自注意力：由于遥控器出现在猫和沙发旁边，我们通过考虑对偶对的注意力来增加它们的注意力，即�（猫1，遥控器1），（遥控器2，猫2）�和�（沙发，遥控器1），（沙发，遥控器2）�。0从头开始为每个图像推断出位置信息。这使得训练变得困难，因为跨注意力对内容的依赖性比空间查询更高[2,19]，特别是在训练的初始阶段，当内容查询不足够“强大”以很好地匹配键的位置嵌入时。为了解决这些问题，C-DETR [19]：(a)在计算交叉注意力时将内容和位置点积分开，从而放松它们的相互依赖性；(b)用前一阶段的相应解码器输出嵌入来调节每个查询的位置嵌入，从而使内容更多地集中在先前预测的查询边界框内的有区别的区域。我们采用了C-DETR的这些修改，因为它们能够显著减少训练时期，并进一步扩展了框架的剩余两个贡献。作为我们的第二个贡献，我们提出不仅学习位置嵌入，还学习内容嵌入，并通过遵循我们的第一个贡献来实现 -即将内容学习为单独的分类和回归嵌入。为此，我们在编码器之后插入一个小型检测器，以预测一组初始对象提议。这些对象候选的特征可由小型检测器的分类和回归头使用，并可传递给解码器，从而初始化分类和回归查询，而不是从头推断它们。我们基于初始对象提议的对象查询的基础预计将有助于训练。重要的是，这也将使DESTR能够在训练和测试中考虑灵活数量的对象查询，而不是像DETR和C-DETR中使用预定义的固定数量。最后，作为我们的第三个贡献，我们试图在解码器的自注意力中融入某些先验知识，并以此更好地限制假设空间。我们预期对象实例出现在类似的周围空间上下文中，这可能会改善解码器中自注意力的估计。因此，我们不是计算每个查询在孤立状态下的常规自注意力，而是为每两对查询计算一对自注意力，其中每对查询由前一个解码器阶段预测为空间相邻。也就是说，我们将我们的一对自注意力条件付诸于前一阶段的相应解码器输出。图2中的示例说明了所提出策略的优势。其中一个遥控器部分被遮挡，因此对另一个完全可见的遥控器的注意力较低。但由于两个遥控器都出现在猫和沙发旁边，我们可以通过考虑一对自注意力来增加它们的注意力，即�（左猫，左遥控器），（右遥控器，右猫）�和�（沙发，左遥控器），（沙发，右遥控器）�。我们这样做而不增加查询数量的复杂性。总之，我们的三个主要贡献包括：1.解码器中的分类和回归分支分别计算它们各自的交叉注意力，而不是共享相同的交叉注意力；0为了每个查询都在孤立状态下计算常规自注意力，我们为每两对查询计算一对对偶自注意力，其中每对查询都被前一个解码器阶段预测为空间相邻。也就是说，我们将我们的对偶自注意力条件付诸于前一阶段的相应解码器输出。图2中的示例说明了所提出策略的优势。其中一个遥控器部分被遮挡，因此对另一个完全可见的遥控器的注意力较低。但由于两个遥控器都出现在猫和沙发旁边，我们可以通过考虑一对对偶自注意力来增加它们的注意力，即�（左猫，左遥控器），（右遥控器，右猫）�和�（沙发，左遥控器），（沙发，右遥控器）�。我们这样做而不增加查询数量的复杂性。总之，我们的三个主要贡献包括：1.解码器中的分类和回归分支分别计算它们各自的交叉注意力，而不是共享相同的交叉注意力；02.编码器后插入了一个小型检测器，用于学习分类、回归和位置嵌入。解码器中的对象查询的嵌入使用小型检测器预测的对象提议的相应分类、回归和位置嵌入进行初始化；03.解码器中估计查询和其相邻空间上下文的配对自注意力，而不是对每个单独查询进行常规自注意力。我们的实验表明，DESTR在MS-COCO-val[15]上的性能明显优于C-DETR和其他最近的Transformer检测器。DESTR相对于最近的基于CNN的检测器也具有竞争力；然而，与CNN的直接比较是不公平的，因为它们通常使用多尺度特征和更复杂的主干网络。接下来，第2节回顾相关工作，第3节回顾实验设置和结果，第4节讨论了我们的方法的局限性和未来的研究方向。04. 我们的实验评估结果937905. 结论02. 相关工作0目标检测是一个长期存在的问题，回顾相关文献超出了我们的范围。我们专注于讨论最相关的工作。无锚点方法[7,10-13, 21, 24, 26, 28,29]引起了广泛关注，因为它们具有相对简单的架构和卓越的性能。它们用参考点替代了基于锚点的方法中的手工设计的锚框。例如，CornerNet[11]首先预测最可能的角点，然后使用联合嵌入将它们分组。另外，CenterNet [7]回归对象中心。这两种策略在FCOS[24]中得到了发展，它直接回归边界框到参考点，并在FPN[14]的多尺度特征图上预测它们的中心度。此外，FCOS使用两个独立的FCN分支[17]进行分类和回归，从而明确地为两个任务学习独立的特征。受到FCOS的启发，我们将DETR和C-DETR的内容嵌入分解为分类嵌入和独立的回归嵌入，通过将交叉注意力的估计分割为不共享参数的分类和回归分支。此外，我们使用单尺度的FCOS作为小型检测器。基于Transformer的检测器[2, 8, 19, 23, 25,30]将目标检测视为直接的集合预测问题。与前述的无锚点CNN相比，Transformer检测器具有更简化的架构，不需要启发式的后处理，如非极大值抑制（NMS）。然而，DETR[2]需要非常长的训练时间。一些DETR的变体[8, 19, 23, 25,30]已经解决了这个问题。例如，Deformable DETR[30]将全局密集注意力替换为可变形注意力，因此它只需要关注来自多尺度图像特征的一小组采样点。然而，DeformableDETR需要额外学习点采样的偏移量。TSP-FCOS或TSP-RCNN[23]从解码器中删除了交叉注意力，而是使用了FCOS或R-CNN的检测头。然而，这导致了一个不太流畅的混合架构。Anchor DETR[25]将锚点编码为对象查询，但它们需要预定义的一组锚点。SMCA[8]首先预测候选对象的中心和尺度，生成一个高斯加权的空间对象位置图，然后使用该图来约束交叉注意力的估计，使其更多地关注空间图中的高值。我们发现他们的约束太强了，因为初始的对象提议可能没有被准确检测到，而且交叉注意力通常需要更大的空间范围进行推理（见图1）。C-DETR[19]采取了另一种方法来减少0训练时间。对于每个查询，它从相应的先前解码器输出嵌入学习条件位置嵌入。这激励我们额外地将内容嵌入条件化为由迷你检测器预测的目标候选框的特征，而不是像C-DETR中那样从头开始推断内容嵌入。因此，与C-DETR不同，我们使内容和位置嵌入都能够学习，并将解码器用作上下文引导的细化模块。文献中还提出了其他基于Transformer的检测器，如ViT [6]和SWIN[16]，它们在编码器部分做出了贡献，旨在有效地增强整个图像内容的特征嵌入。相比之下，我们的三个贡献与解码器有关。0DESTR的规范0图3显示了我们DESTR的概述。编码器与DETR中保持一致。在编码器和解码器之间插入了一个配备分类分支和框回归分支的迷你检测器，用于初始预测目标候选框。迷你检测器的输出分类、回归和位置嵌入被传递给检测器，用于初始化目标查询的三种类型的嵌入。请注意，目标候选框不作为锚点，并且在解码器中不使用任何特定的约束条件。它们的特征仅用于目标查询的初始化。0CNN0主干网络0位置编码0变换器0编码器0扁平化图像特征0编码后的图像特征编码器0迷你检测器0变换器0解码器0目标查询0解码器0B0pos0分支0cls0分支0reg0分支0cls0得分0reg0边界框0SG0E0图3.DESTR的概述。DETR扩展了一个迷你检测器（青色块），其学习到的分类（cls）和框回归（reg）分支的嵌入被传递给解码器，用于初始化目标查询。解码器将交叉注意力分为分类（cls）和回归（reg）两部分。与C-DETR一样，位置嵌入（pos）是基于解码器先前的输出进行条件化的。在将迷你检测器的输出传递给解码器之前，应用了停止梯度（SG）。DESTR的所有组件都是端到端训练的。(2)EEE93800然后在解码器中进一步细化。解码器将交叉注意力的计算分为分类和回归两个分支。与C-DETR一样，位置嵌入是基于解码器上一阶段的回归分支的输出嵌入进行条件化的。接下来，我们将详细说明迷你检测器和解码器中代表我们贡献的某些模块。由于DESTR的其余组件与DETR和C-DETR相同，因此省略了它们的描述。03.1. 迷你检测器0迷你检测器旨在进行初始目标检测，然后由解码器进一步细化。因此，为了控制模型复杂性，迷你检测器具有相对简单的架构，比现有的检测器（例如FCOS）要简单得多。作为输入，迷你检测器接收编码器最后一层的增强特征 F ∈ R H× W × C ，其中 H、W 表示特征图的大小，C是通道数。与FCOS [24]一样，迷你检测器对每个特征图 F的单元特征 f(i,j) 在位置 (i, j)预测一个目标。目标预测包括分类 c(i,j) 和边界框中心 (b cx, b cy ) ，高度 b h 和宽度 b w ，定义为0c(i,j) = sigmoid(FFN cls(FCN cls � f(i,j)))),0b(i,j) = sigmoid(FFN reg(FCN reg(f(i,j))) + [s�(i,j), 0, 0])),0s(i,j) = FCN pos(p(i,j)), p(i,j) = sinusoidal([i, j]),0(1)其中FCN cls和FCNreg分别表示两个独立的四层全卷积网络，后面跟随一个分类头和一个框头；s表示每个单元格的参考点的非归一化2D坐标，由另一个四层全卷积网络估计，该网络嵌入每个单元格的位置编码p ∈ P，P ∈ RH × W ×C。与[2]一样，预测的对象通过一种基于集合的损失进行监督，该损失强制预测ˆy = {ˆyn = (cn, bn): n = 1, ...,N}与地面真实对象集y之间的一对一对应关系通过二部匹配。在二部匹配之后，每个匹配的预测都受到标准损失的监督，该损失定义为类别预测的负对数似然和框损失的线性组合，如[2]所示。如图3所示，为了避免过拟合，在将mini-detector的输出传递给解码器之前，我们对其应用了stop-gradient操作。由于mini-detector在F的每个单元格位置(i,j)上进行预测，我们选择具有最高分类分数的K个预测作为初始对象提议。这些K个提议的嵌入被传递给解码器，以初始化相应的K个对象查询，如0e n = cat(FCN cls(f n), FCN reg(f n)) ∈ R0pn = sinusoidal([ˆbn,cx, ˆbn,cy]) ∈ R 2C,0其中内容嵌入en连接了第n个对象提议的分类和回归嵌入，位置嵌入pn将第n个对象提议的预测框中心投影到256维正弦嵌入空间。03.2.我们的解码器0图4显示了我们的解码器和C-DETR解码器之间的区别。可以看出，第一个区别是我们将C-DETR中的内容嵌入分为对象查询的分类和回归嵌入。其次，我们使用mini-detector的相应输出初始化这些嵌入，而C-DETR中的内容嵌入最初设置为零。第三，我们将分类和回归的交叉注意力分开，使得每个交叉注意力可以更好地关注与各自任务相关的特征。最后，第四，我们不是为每个单独的查询估计公共自注意力，而是估计成对的自注意力。接下来，我们将详细说明我们的成对自注意力和分开的交叉注意力。03.2.1成对自注意力0与DETR相同，对于每个对象查询a，我们首先计算查询qa，键k a和值v a。查询和键被定义为线性投影内容嵌入ea和位置嵌入p a的总和，而值则是0提议的解码器层0回归分支分类分支0成对自注意力0加和归一化0分割0交叉注意力交叉注意力0加和归一化0和FFN0加和归一化0和FFN0分类和回归0位置0分类0回归0条件Detr0解码器层0自注意力0加和归一化0交叉注意力0加和归一化0和FFN0分类和回归0FFN0FFN0对象和位置嵌入对象和位置嵌入0sigmoid和正向0嵌入02D 坐标嵌入0sigmoid和位置0嵌入02D 坐标嵌入0从 mini-det初始化0图 4. C-DETR解码器（左）和我们的解码器（右）之间的四个差异：（1）我们将内容嵌入分为分类（cls）和回归（reg）嵌入；（2）查询使用相应的 mini-det输出进行初始化；（3）交叉注意力分为两个分支；（4）我们将自注意力扩展为配对自注意力。A1(a, b) = q⊤a kb,(3)o1(a) =�b∈queriessoftmax�A1(a, b)√2C�vb.(4)cbaedacbedacbbbcedeebeeecbbdcaobjects with key projectionobjects with query projectionaebbeccdbebcebebedca(6)93810e a 的线性投影。然后，我们估计每两个对象查询 a 和 b之间的自注意力为0以及每个查询 a 的自注意力输出嵌入为0我们扩展了 A 1 ( a, b ) 和因此 o 1 ( a )，以便推理每个查询 a的即时空间邻近关系。这是基于我们观察到图像中相邻的对象查询对于相互增强彼此特征的重要线索可能比其他空间上相距较远的查询对更重要。这在图 5中有所说明。虽然主对角线元素 A 1 ( a, a )具有最高值，但对于空间上相邻的查询，如图像中的左遥控器 a 和左猫 b 的 A 1 ( a, b )也估计出了非零的自注意力。我们认为这些最接近邻居之间的自注意力 A 1 ( a, b )支持提取每个单独查询的信息特征。此外，考虑属于同一类别但具有 A 1 ( d, a ) � A 1 ( a, d ) 的左遥控器 a 和右遥控器d的情况。我们发现这种情况经常发生在部分遮挡的同类实例中。由于两个遥控器都靠近猫，我们期望估计相邻查询对的自注意力 A 2 (( a, b ) , ( d, c ))，称为配对自注意力，将有助于改善“遥控器”表示的学习（从而增加 A 1 ( a, d ) ）。对于每个目标查询 a，我们仅考虑一对 ( a, a ′ ) ，以提高效率，其中 a ′是支持最接近的查询， a ′ =0个体自注意力配对自注意力无排序0配对自注意力与排序0a. 遥控器 b. 猫 d. 遥控器 c. 猫0e. 长椅0图 5.为图像中的五个对象查询估计的个体自注意力（左下）和配对自注意力图（中下和右下）。粉色和紫色分别表示投影到查询和键表示的目标对象对。未着色的是目标的支持对象。不强制（目标，支持）对的空间排序的配对自注意力（中下）给出了较差的结果，因为查询的位置嵌入可能不匹配。这通过强制空间排序（右下）来纠正。0argmax a ′ ∈N a IoU ( b ( a ) , b ( a ′ ))，b ( a)是前一个解码器输出中预测的a的边界框（或者最初由mini-detector预测）。由于查询由位置嵌入来表示，考虑到它们在对中的顺序是很重要的。我们通过查询的边界框在b中的中心与图像左上角的L1距离L1( b)来对对象查询进行排序，并指定一个翻转操作符π为0πa = � a, L1( b ( a )) ≤ L1( b ( a ′ )), a ′, L1( b ( a ′)) < L1( b ( a )), (5)0对于查询对，我们定义对自注意力为0A2(a, b) = cat(q πa, q πa ′) � cat(k πb, k πb ′)，0= q � πa k πb + q � πa ′ k πb ′，0其中cat(∙)表示连接。从(6)中可以看出，考虑到对的正确空间顺序是至关重要的，否则它们各自的位置嵌入可能不匹配，如图5所示。对于每个查询a，我们估计其输出对自注意力嵌入为0o 2(a) = 0b ∈ queries softmax �A2(a, b) √04 C0� v b. (7)0最后，在Add&Norm模块之后，将个体和对自注意力的输出组合起来：0o a = λ ∙ norm(e a + o 1(a)) + (1 − λ) ∙ norm(e a + o 2(a)),0(8)其中λ是一个超参数，norm(∙)表示层归一化[1]，o a ∈ R2C。03.2.2 分割交叉注意力0如图4所示，对于每个查询a，我们的自注意力输出o a ∈ R2C被分为上半部分和下半部分。上半部分表示分类嵌入，而下半部分是回归嵌入，根据(2)中的连接而得。这些C维的分类和回归嵌入分别输入到分类分支和回归分支中，它们被线性投影成分类查询q cls a和回归查询q rega。这两个分支还接收条件位置嵌入，并将其线性投影成位置查询q pos a。与C-DETR一样，我们使用连接cat(q cls a,q pos a)和cat(q reg a, q posa)来表示对象查询，并以此方式在交叉注意力中保持内容和位置的角色分离。在每个分支中，这些查询连接与从编码器获得的图像嵌入f n的键投影和键位置投影cat(k n, k posn)进行匹配。904440.9✓965041.5✓(w/o SG)✓1016342.1✓✓(s→p)1016341.8✓✓1016342.9✓✓✓(w/o π)1036942.5✓✓✓1046943.693820使用从mini-detector得到的位置嵌入sn（如(1)所示）计算以下交叉注意力输出：0o cls a 0n softmax � cat(q cls a, q pos a) � cat(kk pos n) √02 C0� vn，0o reg a 0n softmax � cat(q reg a, q pos a) � cat(n, k pos n) √02 C0� vn，0(9)其中v n表示图像嵌入f n的值投影。除了图1之外，补充材料还提供了分类交叉注意力和回归交叉注意力的额外可视化，证明了将它们分开的优势，如(9)所示。o cls a和o rega被传递到下一个解码器阶段，作为下一个解码器的自注意力的分类和回归嵌入。与C-DETR一样，我们还使用预测的物体中心的位置嵌入作为输入传递到下一个解码器阶段。在最后一个解码器阶段，o cls a和o rega通过标准的残差连接、归一化和FFN传递到分类头和框回归头。这两个头部进行相应的预测，与DETR一样，使用基于集合的损失函数对预测和真实值之间的一对一对应进行监督。04. 结果0数据集。用于评估的是MS-COCO2017检测数据集[15]，采用标准设置：训练使用118K张训练图像，验证使用5K张验证集图像和41K张测试集图像。架构。与DETR和C-DETR类似，DESTR具有6个编码器层，6个解码器层和8个多头注意力。小型检测器由3个4层FCN组成，旨在嵌入来自最后一个编码器层的特征。小型检测器和所有解码器层都使用相同的分类头和边界框头。实现细节。我们遵循与DETR和C-DETR相同的训练协议。骨干网络使用TORCHVISION上提供的ImageNet进行预训练，并使用Xavier init[9]初始化变换器参数。所有DESTR的变体都在一台8个Nvidia-V100s的机器上使用AdamW[18]进行训练。骨干网络、小型检测器和变换器的学习率分别设置为1e-5、1e-5和1e-4，批量大小设置为16。对于具有扩张卷积的骨干网络，批量大小为8。学习率衰减设置为0.1，在50个epoch的训练计划中的第40个epoch后应用。如果没有另外指定，选择具有最高分类分数的300个对象进行训练和测试。评估指标。按照标准的COCO评估协议，报告小、中和大目标的平均精度（AP）以及最多1、10和100个检测的平均召回率（AR）。损失函数。对小型检测器的预测结果和最后一个解码器层的预测结果应用相同的监督。我们使用与C-DETR相同的损失函数。通过匈牙利算法获得预测结果与真实值之间的最佳二分匹配。我们的分类损失是焦点损失，我们的框回归损失包括L1和广义IoU损失。00.50、0.75和小、中、大目标的平均精度（AP），以及最多1、10和100个检测的平均召回率（AR）。损失函数。对小型检测器的预测结果和最后一个解码器层的预测结果应用相同的监督。我们使用与C-DETR相同的损失函数。通过匈牙利算法获得预测结果与真实值之间的最佳二分匹配。我们的分类损失是焦点损失，我们的框回归损失包括L1和广义IoU损失。04.1. 消融研究0组件。表1系统评估了DESTR的每个组件对COCO验证集上性能的影响。顶行显示了我们强大的基线C-DETR，以下行逐渐扩展C-DETR与我们的贡献。从表1可以看出，随着逐渐添加新的组件，性能在合理小的模型复杂度增加的情况下提高。例如，相对于C-DETR，仅添加小型检测器或分割交叉注意力，各自都会带来性能提升，但它们的组合会导致AP显著增加2.0。这支持我们的两个贡献-小型检测器和解码器的分割交叉注意力-分别是可行的扩展，同时也证明了我们将它们组合起来通过使用小型检测器的输出初始化解码器的分类和回归嵌入的想法的合理性。此外，添加对自注意力还可以额外增加0.7的AP。这验证了我们通过对自注意力的使用来结合先验知识的想法，从而增加DESTR的归纳偏差。从表1可以看出，当我们允许梯度从解码器传播到小型检测器时，AP会下降，即我们观察到0MiniDet CASplit PairAtt Gflops # params(M) AP0� 95 56 41.40表1.在COCO验证集上评估组件消融。顶行是C-DETR，以下行依次扩展C-DETR与我们的贡献。miniDet表示小型检测器，CAS-split表示我们对交叉注意力的分割，PairAtt表示使用带有λ =0.5的对自注意力。勾号表示该组件已包含。“w/oSG”表示我们允许梯度从解码器传播到小型检测器。“w/oπ”表示我们不使用翻转操作符π在(6)中。“s→p”表示我们在(9)中使用p而不是s。3001009341.83002009943.230030010443.630040011043.760030010443.560060012243.893830K（训练） K（测试） Gflops AP0表2.DESTR在COCO-val上对于解码器中不同数量的对象查询K在训练和测试中的性能。0λ 0.0 0.25 0.5 0.75 1.00AP 42.4 43.2 43.6 43.0 42.90表3.DESTR在COCO-val上对于个体自注意力和对偶自注意力之间的λ权重的变化结果。0当没有使用停止梯度操作时，小型检测器会过拟合。最后，当我们在（6）中不使用翻转运算π时，AP下降了1.1。这验证了我们的论断，即一对中的对象查询的相对位置应与另一对中的查询保持一致，以进行对自注意力。对象查询的数量K。小型检测器选择得分最高的K个分类得分最高的对象提议，这也被视为解码器中的对象查询的总数。表2显示了DESTR在COCO-val上对于不同的K在训练和测试中的性能。在接下来的训练和测试中，我们将使用相同的K =300，因为从表2可以看出，这个设置在AP和复杂性之间取得了良好的平衡，并且可以与C-DETR进行公平比较。对偶注意力。表3在（8）中变化了个体自注意力和对偶自注意力之间的λ权重，并显示了在COCO-val上的最佳结果为λ =0.5。04.2. 与COCO上的SOTA比较0表4将DESTR在COCO-val上与DETR [2]，DeformableDETR（单尺度）[30]，UP-DETR [4]，C-DETR[19]和Anchor DETR[25]进行了比较。在DETR和C-DETR之后，我们报告了4个骨干网络（ResNet-50，ResNet-101，ResNet50-DC和ResNet101-DC）的AP值，其中“DC”表示使用扩张的C5特征，而其他网络使用原始的C5特征。从表4可以看出，DESTR在所有AP指标上都优于强基准C-DETR，对于所有四个骨干网络都是如此。虽然DeformableDETR主要设计用于多尺度特征，但DESTR优于其单尺度变体DeformableDETR-SS。DESTR在ResNet-50上的性能提升比在ResNet50-DC和ResNet101-DC上更大。根据DETRGitHub的讨论，我们认为这是因为SOTA在ResNet50-DC和ResNet101-DC上使用了更大的批量大小，而我们的硬件限制了批量大小为1 image/GPU × 8 GPUs。表40图6.在8个注意力多头中，该图可视化了关注对象中心的注意力头的交叉注意力图，而其他地图在补充材料中给出。为了清晰起见，我们显示了注意力的平方根值。C-DETR对于对象中心的交叉注意力集中在一个相对较小的区域，而DESTR的分类和回归交叉注意力图具有更广泛的空间支持，包括对象的周围区域，这正是我们对于对偶注意力的意图。0对于相同的ResNet-50骨干网络，TSP-FCOS-R50和TSP-RCNN-R50[23]相对于我们的结果表现较差，尽管它们使用了多尺度特征。表5将DESTR与以下SOTA检测器在COCO-test-dev上进行了比较：FCOS [24]，ATSS [27]，Deform-DETR[30]和C-DETR[19]。对于所有四个骨干网络，DESTR在使用单尺度特征的方法中实现了最高的AP和AR分数。尽管它们使用了多尺度特征，DESTR也优于基于CNN的FCOS [24]和ATSS[27]。图6显示了从COCO中选择的示例图像的交叉注意力图。在8个注意力多头中，该图可视化了关注对象中心的注意力头的交叉注意力图，而其他地图在补充材料中给出。DESTR的分类和回归交叉注意力图是不同的，这是预期的，因为它们专注于各自任务的不同视觉线索。此外，DESTR的分类和回归交叉注意力图比C-DETR的注意力图具有更大的空间支持。这表明我们的交叉注意力还从对象的近邻中寻找重要线索。05. 结论0我们已经提出了DESTR，它扩展了最近基于Transformer的目标检测器家族，并具有三个贡献：1）交叉注意力被分成独立的分类和回归分支，因此注意力可以最佳地关注各自任务的相关视觉线索；2）使用迷你检测器来学习和初始化解码器的内容和位置嵌入，并能够自适应地推断出对象查询的数量；3）自我-DETR-R50 [2]500864142.062.444.220.545.861.1Deform-DETR-R50-SS [30]50783439.459.642.320.643.055.5UP-DETR-R50 [4]150864140.560.842.619.044.460.0UP-DETR-R50 [4]300864142.863.045.320.847.161.7C-DETR-R50 [19]50904440.961.843.320.844.659.2Anchor DETR-R50 [25]50––42.163.144.922.346.260.0DESTR-R50501046943.664.746.523.647.562.1DETR-DC5-R50 [2]5001874143.363.145.922.547.361.1Deform-DETR-DC5-R50-SS [30]501283441.561.844.924.145.356.0C-DETR-DC5-R50 [19]501954443.864.446.724.047.660.7Anchor DETR-DC5-R50 [25]50151–44.264.747.524.748.260.6DESTR-DC5-R50502326945.365.748.327.348.862.4DETR-R101 [2]5001526043.563.846.421.948.061.8C-DETR-R101 [19]501566342.863.746.021.746.660.9Anchor DETR-R101 [25]50––43.564.346.623.247.761.4DESTR-R101501718844.665.447.824.148.763.8DETR-DC5-R101 [2]500

下载后可阅读完整内容，剩余1页未读，立即下载