去噪加速DETR训练：一种提高目标检测准确性的新方法

84 浏览量更新于2023-10-26 收藏 1MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

13619DN-DETR：通过引入查询去噪加速DETR训练FengLi1，2*<$，HaoZhang1，2张浩<$，ShilongLiu2，3<$，JianGuo2，LionelM. Ni1，4，LeiZhangg21香港科技大学2国际数字经济学院。3清华大学。4香港科技大学（广州）。{fliay，hzhangcx}@ connect.ust.hk{liusl20}@ mails.tsinghua.edu.cn{ni}@ ust.hk{guojian，leizhang}@ idea.edu.cn摘要本文提出了一种新的去噪训练方法，以加快DETR（检测Transformer）训练，并提供了一个深入的理解DETR类方法的收敛速度慢的我们发现，收敛速度慢的结果是不稳定的二部图匹配，导致不一致的优化目标，在早期的训练阶段。为了解决这个问题，除了匈牙利损失，我们的方法还将带有噪声的地面实况边界框输入Transformer解码器，并训练模型重建原始框，这有效地降低了二分图匹配的难度，并导致更快的收敛。我们的方法是通用的，可以很容易地插入到任何类似DETR的方法，通过添加几十行代码来实现显着的改进。因此，我们的DN-DETR导致显著的改进（+1。9 AP）在相同的设置下，并取得了最好的结果（AP43。4和48。6，分别具有12和50个训练时期）。与相同设置下的基线相比，DN-DETR在50%的训练次数下达到了相当的性能。代码可在https://github.com/FengLi-ust/DN-DETR 上获得。1. 介绍目标检测是计算机视觉中的一项基本任务，其目的是预测图像中目标虽然取得了显着的*表示平等贡献。[2]这项工作是李峰、张浩和刘世龙在IDEA实习时完成的‡通讯作者。图1.我们的模型DN-Deformable- DETR之间的收敛曲线建立在Deformable DETR上，具有去噪训练和ResNet-50主干下的先前模型。随着研究的进展，经典检测器[14，15]主要基于卷积神经网络，直到Carion等人。[1]最近将Transformers[17] 引入到目标检测中，并提出了 DETR （检测TRansformer）。与以前的检测器相比，DETR使用可学习的查询来探测来自Trans- former编码器的输出的图像特征，并使用二分图匹配来执行基于集合的框预测。这种设计有效地消除了手工设计的锚点和非最大抑制（NMS），并使对象检测端到端可优化。然而，与以前的检测器相比，DETR的训练收敛速度为了获得良好的性能，它通常需要在COCO检测数据集上进行500个epoch的训练，而在原始Faster-RCNN训练中使用了12个许多工作 [3，11，12，16，18，20]已尝试确定根本原因并缓解收敛缓慢的问题。其中一些通过改进模型架构来解决问题。例如，Sunet al. [16]将收敛缓慢的问题归因于低效率13620的交叉注意，并提出了一个编码器只DETR。Dai等人[3]设计了一个基于ROI的动态解码器，帮助解码器聚焦于感兴趣的区域最近的工作建议将每个DETR查询与特定的空间位置相关联，而不是多个位置，以实现更有效的特征探测[11，12，18，20]。例如，ConditionalDETR [12]将每个查询分解为内容部分和位置部分，强制查询与特定的空间位置有明确的对应关系可变形DETR[20]和Anchor DETR [18]直接将2D参考点作为查询来执行交叉关注。DAB-DETR[11] 将查询解释为4-D锚框，并学习逐层逐步改进它们。尽管取得了很大的进展，但很少有工作关注二分图匹配部分以实现更有效的训练。在这项研究中，我们发现，缓慢的收敛问题也是由于离散二分图匹配组件，这是不稳定的，特别是在训练的早期阶段，由于随机优化的性质。因此，对于同一幅图像，一个查询往往在不同的时期匹配不同的对象，这使得优化具有模糊性和不确定性。为了解决这个问题，我们提出了一种新的训练方法，通过引入查询去噪任务来帮助训练过程中的稳定二分图匹配。由于以前的工作已经表明有效地将查询解释为包含位置信息的参考点[18，20]或锚框[11]，因此我们遵循他们的观点并使用4D锚框作为查询。我们的解决方案是将噪声地面实况边界框作为噪声查询与可学习的锚查询一起馈送到Transformer解码器中。这两种查询具有相同的输入格式（x，y，w，h），并且可以同时输入到Transformer解码器对于带噪声的查询，我们执行去噪任务以重建其对应的地面真值框。对于其他可学习的锚点查询，我们使用与vanilla DETR中相同的由于噪声包围盒不需要经过二部图匹配组件，所以去噪任务可以被视为一个更容易的辅助任务，帮助DETR缓解不稳定的离散二部匹配和更快地学习包围盒预测。同时，由于加入的随机噪声通常很小，去噪任务也有助于降低优化难度为了最大化这个辅助任务的潜力，我们还将每个解码器查询视为一个边界框+一个类标签嵌入，以便我们能够进行框去噪和标签去噪。总之，我们的方法是一种去噪训练方法。我们的损失函数由两个部分组成。一个是重建损失，另一个是匈牙利损失，这与其他类似DETR的方法相同。我们的方法可以很容易地插入到任何现有的DETR类法为了方便起见，我们利用DAB-DETR [11]来评估我们的方法，因为它们的解码器查询被显式地表示为4D锚框（x，y，w，h）。对于仅支持2D锚点的DETR变体，例如锚DETR [18]，我们可以对锚点进行去噪。对于那些不支持像vanilla DETR [1]这样的锚点的查询，我们可以进行线性变换，将4D锚点框映射到与其他可学习查询相同的潜在空间。据我们所知，这是第一次将去噪原理引入到检测模型中。我们将我们的贡献总结如下：1.我们设计了一种新的训练方法来加速DETR训练。实验结果表明，该方法不仅加快了训练收敛速度，而且训练效果明显优于其他检测算法，在12历元的训练环境中取得了最好的效果。此外，我们的方法显示出比我们的基线DAB-DETR显著的改进（+1.9AP），并且可以容易地集成到其他类似DETR的方法中。2.我们从一个新的角度分析了DETR的收敛速度慢，并给出了更深入的理解DETR训练。我们设计了一个度量来评估二部匹配的不稳定性，并验证了我们的方法可以有效地降低不稳定性。3.我们进行了一系列的消融研究，以分析我们的模型的不同组成部分，如噪声，标签嵌入和注意力掩模的有效性。2. 相关工作经典的基于CNN的检测器可以分为两类，一阶段和两阶段方法。两阶段方法[6，7]首先生成一些区域建议，然后确定每个区域是否包含对象，并进行边界框回归以获得细化框。Ren等人[15]提出了一种端到端的方法，该方法利用区域预测网络来预测锚箱。与两阶段方法相比，一阶段方法[13，14]直接预测实际框相对于锚框的偏移。总的来说，它们都是基于锚点的方法。Carion等人[1]提出了一种基于Transformers的端到端对象检测器 [17] ，名为 DETR （ DEtec- tionTRansformer ），不使用锚。虽然 DETR 实现了与Faster-RCNN [15]相当的结果，但其训练严重受到收敛速度慢的问题的影响-它需要500次训练才能获得良好的性能。许多最近的作品试图加快训练过程的DETR。有些人认为DETR中的Transformer解码器的交叉注意效率低，从不同的角度进行了改进.例如，Daiet al. [3]第一章13621--. m，如果O匹配T mnnN01N−101N−1nn.Σ.Σ设计了一种动态解码器，可以从粗到细地聚焦于感兴趣的区域，降低了学习难度。Sun等人[16]放弃了Transformer解码器，并提出了一个编码器只DETR。另一系列工作是对解码器查询进行改进。Zhu等[20]设计了一个注意模块，只关注参考点周围的一些采样点。Meng等人。[12]将每个解码器查询解耦为内容部分和位置部分，并且仅在交叉注意公式中使用内容到内容和位置到位置项 Yao 等人 [19] 利用区域建议网络（RPN）提出前K个锚点。DAB-DETR[11]使用4-D框坐标作为查询，并以级联方式逐层更新尽管取得了这些进展，但没有一个人将匈牙利损失中使用的二分图匹配作为收敛缓慢的主要Sun等人[16]通过使用预先训练的DETR作为教师来分析匈牙利损失的影响，为学生模型提供地面实况标签分配并训练学生模型。他们发现，标签分配只有助于在训练的早期阶段的收敛，但并不影响最终的性能显着。因此，他们得出结论，并不是收敛缓慢的主要原因本工作ing过程。有作品[5]表明匈牙利匹配不会导致稳定的匹配，因为存在阻塞对。成本矩阵的小变化可能导致匹配结果的巨大变化，这将进一步导致解码器查询的不一致的优化目标。我们认为DETR类模型的训练过程分为两个阶段，学习“好锚”和学习相对偏移。解码器查询负责学习anchors，如以前的作品[11，20]所示锚点的不一致更新可能使得难以学习相对偏移。因此，在我们的方法中，我们利用去噪任务作为训练捷径，使相对偏移学习更容易，因为去噪任务绕过了二分匹配。由于我们将每个解码器查询解释为4-D锚点框，所以噪声化查询可以被视为附近具有对应的地面真值框的因此，去噪训练具有明确的优化目标-预测原始边界框，这基本上避免了ambi，匈牙利匹配带来的罪恶感。为了定量评估双粒子匹配结果的不稳定性，我们设计了一个度量如下。对于训练图像，我们将来自变换器解码器的预测对象表示为0 i=0 i，0 i，.，O iin the i-th时代，其中给出一个不同的分析，并给出一个有效的解决方案，从而得出不同的结论。我们采用DAB-DETR作为检测架构来评估我们的训练方法，其中标签嵌入N是预测对象的数量，以及地面实况对象为T =T0，T1，T2，...，TM−1其中M是地面真实对象的数量。在二分匹配之后，我们计算索引向量Vi =Vi，V i，. 存储 epoch的匹配结果附加有指示符的解码器被用来替换解码器嵌入部分支持标签去噪。我们的方法与其他方法的区别主要在于训练方法。除了匈牙利队的失利，i如下。Vi=In-1，如果Oi不匹配任何值（一）去噪损失作为更容易的辅助任务，可以加速训练并显著提高性能。Chen等人[2]用合成噪声观测值对它们的序列进行了扩充，但与我们的方法完全不同。他们将噪声对象的目标设置为“噪声”类（不属于任何地面真值类），以便它们可以延迟句子结束（EOS）标记并提高召回率。与他们的方法相反，我们将噪声框的目标设置为原始框，其动机是绕过二分图匹配，直接学习近似地面真值框。3. 为什么去噪可以加速DETR训练？匈牙利匹配是图匹配中的一种常用算法。给定一个代价矩阵，该算法输出一个最优匹配结果。DETR是第一个采用匈牙利匹配的目标检测算法，解决了预测目标和地面真实目标之间的匹配问题。DETR将地面真值赋值转化为动态过程，这带来了不稳定性问题，它的离散二分匹配和随机列车-我们定义一个训练图像的时期i的不稳定性图2. DAB-DETR和DN-DETR在培训期间的IS。对于每种方法，我们在相同的设置上训练12个epoch。我们测试了验证集上的每两个时期之间匈牙利匹配的变化作为IS。作为其Vi和Vi−1之间的差，计算为ISi=1（Vi=Vi−1）（2）j=013622·×----22--其中1（）是指示符函数。如果x为真，则1（x）= 1，否则为0。整个数据集的历元i的不稳定性在所有图像的不稳定性数上平均我们省略了一个图像的索引，以简化等式中的符号（1）和方程（二）、图图2显示了我们的DN-DETR（去噪DETR）和DAB-DETR之间的IS 我们在COCO 2017验证集[10]上进行了该评估，该验证集有7个。平均每张图像36个对象。所以最大的可能是7 .第一次会议。36 2 = 14。七十二图2清楚地表明，我们的方法有效地消除了匹配的不稳定性。4. DN-DETR我们可以将我们的方法公式化如下。o=D（q，F |A）（3）其中D表示Transformer解码器。解码器查询有两个部分一个是匹配部分。该部分的输入是可学习的锚点，其处理方式与DETR中的处理方式相同也就是说，匹配部分采用二分图匹配，并学习近似的地面真值框标签对匹配的解码器输出。另一个是去噪部分。这部分的输入是噪声地面实况（GT）框标签对，在本文的其余部分称为GT对象去噪部分的输出旨在重建GT对象。在下文中，我们滥用符号来将去噪部分表示为q={q0，q1，.，qK−1}和匹配图像特征位置嵌入交叉注意V KQ图像特征位置嵌入（x，y，w，h）交叉注意V K Q类别标签嵌入（x，y，w，h）Q = Q0，Q1，.，Q L−1。所以我们的公式方法成为o=D（q，Q，F |A）（4）为了提高去噪效率，我们建议在去噪部分使用此外，我们利用注意力面具来防止信息-解码器嵌入可学习参数指示器可学习参数从去噪部分到匹配部分的信息泄漏以及在同一GT对象的不同噪声版本(a) DAB-DETR解码器中的交叉注意（b）DN-DETR图3.交叉注意部分DAB-DETR和我们的DN-DETR的比较（a）DAB-DETR直接使用动态更新的锚框来提供参考查询点（x，y）和参考锚大小（w，h）以改进交叉注意计算。(b)DN-DETR将解码器嵌入指定为标签嵌入，并添加了区分去噪任务和匹配任务的指示符4.1. 概述我们基于DAB-DETR [11]的体系结构来实现我们的训练方法。与DAB-DETR类似，我们明确地将解码器查询公式化为框坐标。我们的架构和他们的架构之间的唯一区别在于解码器嵌入，它被指定为类标签嵌入以支持标签去噪。我们的主要贡献是如图所示的训练方法。4.第一章类似于DETR，我们的架构包含一个trans-former编码器和一个Transformer解码器。在编码器端，图像特征用CNN主干提取，然后用位置编码送入Transformer编码器，以获得精细的在解码器侧，查询被馈送到解码器以通过交叉注意搜索对象。We表示解码器查询为q=q0，q1，...，qN-1，Transformer解码器的输出为o=o0，o1，...，oN−1。我们还使用F和A来表示经过Transformer编码器和4.2. DAB-DETR简介许多最近的作品相关联的DETR查询与不同的位置信息。DAB-DETR遵循这一分析，并明确地将每个查询公式化为4D锚坐标。如图3（a），查询被指定为一个元组（x，y，w，h），其中x，y是中心坐标，w，h是每个盒子对应的宽度和高度。此外，锚点坐标逐层动态更新。每个解码器层的输出包含元组（x+x，y +y，w + w，h +h），并且锚被更新为（x+ x，y+ y，w+ w，h+h）。请注意，我们提出的方法主要是一种训练，方法，可以集成到任何DETR样模型。为了在DAB-DETR上进行测试，我们只添加了最小的修改：将解码器嵌入指定为标签嵌入，如图所示。3（b）款。4.3. 去噪对于每个图像，我们收集所有GT对象，并将随机噪声添加到它们的边界框和类标签中。为了最大化去噪学习的效用，我们为每个GT对象使用多个噪声版本。我们考虑以两种方式向框添加噪声：中心移位和框缩放。我们将λ1和λ2定义为这两种噪声的噪声尺度。对于中心偏移，我们向框中心添加随机噪声（x，y），并确保|∆x|<λ1w和|∆y|<λ1h，其中λ1∈（0，1）基于去噪任务设计推导出注意掩模。因此，噪声盒的中心仍然位于13623≥−−∈·×××MJM01MM−1图4.我们的培训方法概述。查询有两个部分，即去噪部分和匹配部分。去噪部分包含1个去噪组。从匹配部分到去噪部分以及去噪组之间的注意掩码被设置为1（块）以阻止信息泄漏。在图中，注意力遮罩中的黄色、棕色和绿色网格表示0（未阻止），灰色网格表示1（阻止）。原始的边界框。对于框缩放，我们设置超参数λ2（0，1）。框的宽度和高度在[（1）]中随机抽样λ2）w，（1+λ2）w]和[（1λ2）h，（1+λ2）h].对于标签噪声，我们采用标签翻转，这意味着我们随机地将一些地面实况标签转换为其他标签。标签翻转迫使模型根据噪声框预测地面实况标签，以更好地捕获标签-框关系。我们有一个超参数γ来控制标签与翻转的比率。重建损失对于框是l1损失和GIOU损失，并且对于类别标签是焦点损失[9我们使用函数δ（）来表示噪声GT对象。因此，去噪部分中的每个查询可以表示为qk=δ（tm），其中tm是第m个GT对象。注意，去噪只在训练中考虑，在-泄漏一个是匹配部分可以看到带噪声的GT对象并且容易地预测GT对象。另一个是GT对象的一个噪声版本可能会看到另一个版本。因此，我们的注意力掩模是为了确保匹配部分看不到去噪部分并且去噪组看不到彼此，如图所示。4.第一章我们使用A=[ai j]WW来表示注意力掩码，其中W=P M+N。P和M是组和GT对象的数量。N是匹配部分中查询的数量我们让第一个PM行和列来表示去噪部分，后者来表示匹配部分。 ij = 1意味着第i个查询不能看到第j个查询，否则ij=0。我们设计注意力面具如下当jP×M且i=时，× ≥×通过推理，去除去噪部分，仅留下匹配的部分。aij=1，如果j

下载后可阅读完整内容，剩余1页未读，立即下载