递归型闪烁解码器用于Transformer检测

162 浏览量更新于2023-10-25 收藏 1.25MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

5260用于Transformer检测的递归型闪烁解码器陈哲1张静1大成涛2，11悉尼大学，澳大利亚2JD Explore Academy，中国{zhe.chen1，jing.zhang1}@ sydney.edu.au;大成. gmail.com摘要虽然使用Transformer的检测（DETR）越来越受欢迎，但是其全局注意力建模需要极长的训练期来优化并实现有希望的检测性能。替代现有的研究，主要是开发先进的功能或嵌入式设计，以解决训练问题，我们指出，区域感兴趣（ROI）为基础的检测细化可以很容易地帮助减轻训练的难度DETR方法。在此基础上，本文提出了一种新的基于递归扫视的解码器（REGO）。特别是，REGO采用多阶段递归处理结构，以帮助DETR的注意力逐渐更准确地集中在前景物体上。在每个处理阶段中，视觉特征被提取为来自ROI的一瞥特征，其中具有来自前一阶段的检测结果的放大的边界框区域然后，一个基于瞥见的解码器被引入到提供精炼的检测结果的基础上的瞥见功能和注意力建模的前一阶段的输出。在实践中，REGO可以很容易地嵌入到代表性的DETR变体中，同时保持其完整的端到端训练和推理管道。特别是，REGO帮助可变形DETR在MSCOCO数据集上仅用36个训练时期就实现了44.8 AP，而第一个DETR和可变形DETR分别需要500和50个时期才能实现相当的性能。实验还表明，在50个训练时期的相同设置下，REGO一致地提高了不同DETR检测器的性能，相对增益高达7%。代码可通过https://github.com/zhechen/Deformable-DETR-REGO获得。1. 介绍目标检测的目的是从图像中定位和识别近年来，深度学习在目标检测方面取得了快速发展。使用深度卷积神经网络[18，19，27，33，46]，各种我们已经开发了强大的探测器[4，22，32，37]。Rec urre ntlGipmse- basede通过短期培训提高生产率短期训练的康复训练基于lG的eD编码器基于lG的eD编码器基于lG的eD编码器阶段1阶段2阶段3DETR图1.所提出的用于增强在具有Transformer的检测（DETR）中的注意力建模的训练的基于周期性瞥见的解码器（REGO）的概念。使用原始DETR结果，REGO通过逐渐聚焦于更准确的区域来执行基于多阶段感兴趣区域（RoI）的注意力建模细化过程。在每个阶段中，提取瞥见特征，并且采用基于瞥见的解码器来基于前一阶段的瞥见特征和注意力建模输出两者提供细化的检测输出REGO保持了不同DETR方法的完全端到端流水线，可以很好地提高它们的训练性能。通常，现代检测器产生冗余结果，并且需要非最大值抑制（NMS）来减少检测中的冗余。与这种流行的范例不同，使用 Transformer 的检测（ DETR ） [3] 将Transformer [39]应用于检测，并且是第一个完全端到端的检测器，无需NMS。特别地，Transformer是用于将输入序列转换为目标序列的强大的基于注意力的编码器-解码器流水线。通过将检测任务公式化为直接集合预测问题，DETR的作者设法将视觉特征转换为基于Transformer的全局注意力建模的检测结果集合。尽管有好处，DETR遭受了一个困难的训练问题。使用MSCOCO数据集[24]，原始的DETR需要500个训练时期才能获得有希望的性能，而其他流行的检测器如FPN [22]只需要不到36个时期就可以获得类似的结果。即使使用具有8个强大V100 GPU的机器，DETR检测器也需要花费10多天才能完成训练[3]。通过解决培训问题，研究人员发现，5261×缺乏有效的局部性建模可能会影响DETR方法中注意力建模的训练。例如， Zhu et al.[48] 分析说，Transformer最初会将几乎均匀的注意力权重分配给所有特征。然后，有必要应用长时间的训练，以使Transformer学会专注于稀疏和有意义的局部区域。为了解决这个问题，研究人员开发了先进的多尺度特征编码[9，12]和对象嵌入设计[28，41]，以改善最终检测前Transformer中的局部性建模，从而更有效地训练Transformer的注意力，并适当改善检测结果。与现有的方法不同，我们提出了在DETR的注意力建模的训练可以很容易地改进基于区域的兴趣（ROI）。更具体地说，将DETR检测到的边界框周围的局部区域视为可能包含对象的ROI，我们可以通过仅关注这些ROI来直接限制DETR的注意力。因此，对RoIs中的特征进行建模有助于在DETR中引入更多的局部诱导偏差，从而有效地提高其训练效率。事实上，研究人员已经证明，根据ROI进行逐步改进可以提高两阶段[15，32]和多阶段检测器[2，32]的训练和检测性能。然而，这些多阶段检测方法主要遵循RCNN检测方法[16]进行训练和推理，这仍然需要NMS。据我们所知，在DETR中，基于ROI的注意力模型的改进很少被研究。为了开发一种适当的基于ROI的DETR细化方法，我们从工作[29]中研究的瞥见机制中获得灵感，该机制从不同尺度的几个选定局部区域提取特征作为瞥见，并应用递归网络对瞥见信息进行编码。与DETR类似，这种瞥见方法也将视觉理解模拟为序列翻译任务，并已被证明是有效的图像识别。我们遵循这一机制，并提出了一种新的循环基于闪烁的解码器（REGO）模块，以帮助现有的DETR方法减轻训练难度，提高检测性能。建议的REGO模块细化DETR与多级处理。以原始DETR的检测和注意力建模输出为初始状态，REGO的每一阶段首先从检测到的边界框周围的局部区域提取瞥见特征。然后，采用Transformer解码器将基于先前注意力建模输出的瞥见特征转换对于早期阶段，我们提取的一瞥功能，从当地的区域，在更大的尺度w.r.t.检测到的边界框区域，使得能够结合丰富的上下文以增强在早期阶段可能不可靠的检测。后在多个处理阶段中，REGO执行基于RoI的从粗到细的细化，这被证明对于改进不同DETR方法的训练是总之，本文的贡献有三方面：• 提出了一种新的基于RoI的细化模块，有效地解决了DETR中注意力建模的训练难题，提高了检测性能。• REGO易于实现，是一个可以嵌入不同DETR变体的复杂模块。它保持了DETR完整的端到端检测流水线，同时有效地加速了不同DETR方法的收敛，提高了检测性能• 大量的实验表明，REGO有助于交付有前途的性能，使用只有36个训练epoch与DETR管道，这是13个短于第一个DETR方法。此外，使用相同的50个训练时期，REGO还始终如一地将不同DETR方法的性能2. 相关工作目标检测现代检测器[7，8，17，22，32]通常对图像上出现的目标进行密集检测。例如，广泛使用的区域建议网络（RPN）[32]扫描像ResNet [18]这样的主干特征图上的每个位置，并生成可能覆盖前景对象的建议窗口。这就产生了大量的冗余建议，例如，一个对象可能被不同但高度重叠的建议所覆盖，这对于进行稀疏预测是不利的。为了解决这个问题，一阶段方法[21，23，26，31]开发了增强网络，以确保它们可以直接提供紧凑的检测结果。两阶段方法[17，32]试图根据RoIPooling [15]或RoIAlign [17]提取的特征来细化建议边界框。然而，单阶段和两阶段检测器都依赖于手工设计的NMS过程来去除冗余，这是启发式的并且与端到端学习管道分离，导致NMS之后仍然存在许多不准确的预测或者，最近引入的检测与Transformer [3]可以提供一组对象检测结果，而无需NMS。然而，DETR遭受令人沮丧的困难的训练问题。计算机视觉中Transformer的改进DETR的训练难度是基于Transformer的计算机视觉方法中的常见问题[11，38，40]。通过解决训练问题，许多研究人员发现局部性建模对于提高5262∈一∈∈QkVMqkvqkv∈∈∈一QkVQkV∈∈kV我我我一在DETR中的注意力训练[36，43，47]。一些方法[30]开发了先进的基于局部窗口的方法来提高效率。在目标检测中，研究人员主要开发高级特征编码和嵌入设计来帮助解决这个问题。可变形DETR[48] 应用了可变形操作 [9] ，以更好地集中在Transformer中不同尺度的几个局部区域。方法SMCA[12]引入了多尺度共同关注，以改进具有精细局部表示的DETR。此外，其他研究（如Conditional DETR[28]和Anchor DETR [41]）倾向于改善Transformer中的空间嵌入，以帮助加速训练。这两种方法通过将注意力集中在使用位置嵌入学习的图像上的潜在有价值的区域来增强Transformer的局部建模。与这些需要精心设计的方法不同，我们认为ROI自然地对应于局部区域也可以改善查询、键和值输入。它将查询和键关联起来，然后根据关联结果聚合值。在[39]之后，多头注意力将特征分成不同的不同头部的特征形式上，为了帮助描述多头注意，我们假设X qRLq×C为查询张量，其中Lq是指其序列长度，C是其特征维度。我们遵循DETR [3]的公式，将键和值统一为相同的十元数： X<$RL<$$>×C，即长度为L<$的键-值序列。多头注意力，缩写为A（Xq，Xkv）=WA<$A（X 1，X 1），. -是的-是的，A（XM，XM）≠，DETR中的注意建模训练。一种更相关的方法是可变形DETR [48]中使用的迭代细化我们注意到，这种方法不使用ROI，它主要是通过重用DETR的所有回归输出来提高性能。我们的ROI方法可以改善注意力建模，并与该方法正交。实验表明，该方法与我们的REGO的合作，达到了最先进的性能。基于roi 改进为对象检测报告其中WARC×C是一个可训练的线性投影矩阵，M是头的数量，而[。- 是的- 是的]表示连接操作。XiRLq×C′和XiRLkv×C′是第i个头（i = 1，. -是的- 是的 M），其中C′=C.在每个磁头中，执行以下操作：A（Xq，X<$）=Aq <$X<$，（2）搜索者已经证明，可以通过细化分类和局部化W.R. T来逐步改进检测结果。RoIs [2，6，14，25，44].例如，MR其中A是Softmax（表示注意力权重：i=Xi（Xi）TC′）CNN [13]引入了一个迭代过程，以基于ROI交替进行评分和边界框细化CascadeRCNN [2]多次重复FasterRCNN [32]的基于RoI的检测头以进行改进。尽管有效，但这种类型的基于ROI的细化方法不能直接应用于DETR的完全最近，一些方法，如Efficient DETR[45]，TSP-RCNN [35]和SparseRCNN [34]，也使用ROI来实现Transformer的改进然而，我们认为这些方法仍然基于典型的两阶段检测流水线，如Faster RCNN[32] ，并且它们仅将 Transformer 主要应用于近似NMS。这些方法不能直接解决DETR中注意力建模的困难训练问题。总之，探索端到端的ROI为基础的细化，以改善在DETR的注意力建模的训练仍然是文献中缺失的部分。3. 初步在这里，我们简要回顾一下DETR。更多的细节可以在[3，39]中找到。多头注意力多头注意力处理DETR管道DETR应用编码器-解码器流水线将输入特征转换成一组检测结果。在训练过程中，匈牙利匹配[20]被执行以分配具有最匹配的地面实况的检测结果。编码器-解码器由视觉特征编码阶段和检测结果解码阶段组成。特征编码研究来自不同位置的视觉特征之间的关系。它应用几个编码层来增强编码表示。我们假设骨干网络将特征提取为：XRH×W×C其中H，W分别代表高度和宽度，C是特征维度。在每个编码层中，采用多头自注意模块，即查询、键和值张量相同：Xq=X。输入特征X还集成位置嵌入以编码位置信息。假设编码阶段的输出是HencRHW×C。然后，检测解码阶段基于H_enc进行检测。它从对象查询嵌入EboxRNd×C开始，并应用交叉注意力，如等式2所述。（1）用Henc进行预测。这里的Nd表示预测对象的数量。假设解码特征是Hdec，则Hdec=（Ebox，Henc）。使用Hdec，解码阶段执行分类和边界框坐标回归得到Ocls∈RNd×Nc和Obox∈RNd×4，.（一）Q5263.−−…Rego舞台电子邮箱CLSRego第二阶段电子邮箱：info@jsx.com.cn1+1CLSDec1+1Dec先前检测到的箱子��box{，，j}��简介特点检测到的箱子电子邮箱ROIsGlimpse解码输出阿德克斯g下阶段{，，j}��分类输出你好，先前解码输出2012年12月1日{j}多头关注MLP解码输出阿德克斯2012年12月1日下阶段第三处理级的基于扫视的解码器线性投影提取物特征扩大DETR检测输出检测输出检测输出图2.REGO的概述（顶行）和REGO中第i个处理阶段的详细结构其中Nc表示对象类别的数量。为此，我们有：Ocls=Fcls（Hdec），（3）O箱=F箱（Hdec）描述检测到的物体。改进的注意解码输出可以提供改进的检测结果。因此，对于第i个处理阶段，我们建议根据以下公式检测对象：其中，F_cls和F_box是分别将解码特征H_dec映射到期望输出的函数。这两个函数是基于线性投影实现的，Ocls（i）=Fcls（Hdec（i））Obox（i）=Fbox（Hdec（i））+Obox（i−1）、（四）多层感知，分别。4. 基于递归扫视的解码器与现有的方法不同，我们提出了一种基于递归的基于瞥见的解码器（REGO）来执行基于ROI的检测细化方法，以改善DETR中的注意力模型。REGO由两个主要部件组成。第一个是一个多阶段的递归处理结构，逐步增加注意力建模输出，并提高检测的DETR，和第二个是基于瞥见的解码器，用于在每个阶段显式地执行细化。图2显示了详细的管道。4.1. 多级递归处理基于原始DETR的检测结果和注意力解码输出，我们提出了一个循环处理管道，以帮助DETR逐渐关注更有意义的区域，以避免长时间的训练周期来优化DETR的注意力。通常，所提出的递归处理结构是多级流水线。在每个阶段中，先前检测到的边界框用于获得用于提取瞥见特征的ROI。然后，根据先前的注意力解码输出将瞥见特征转换为精细的注意力解码输出，其中Ocls/box（i）表示分类和界限-ing框回归输出的第i个递归处理级，Hdec（i）表示该级在解码后的精细然后，为了获得Hdec（i）的适当表示，我们使用以下公式：Hdec（i）=[Hg（i），Hdec（i−1）]，（5）其中，Hg（i）是根据以下公式的平移的瞥见特征：至H dec（i1），和[. . . ]表示连接操作。重新使用等式中的Hdec（i1）（5）不仅提高了前几个阶段的注意力，而且有助于保持不同阶段产生的检测结果的一致性，这有助于减少后期匈牙利匹配损失的变化。研究[35]已经证明，减少匹配损失的随机性有利于加速收敛。将在下一节中更详细地讨论平移的瞥见特征Hg（i）的计算。对于i=0的第一级，我们使用原始DETR的输出，如等式2所述。（3），表示Ocls（0），Obox（0）和Hdec（0）。4.2. 基于粗略一瞥的解码器在第i个处理阶段期间，基于瞥见的解码器从来自前一阶段的检测到的边界框Obox（i-1）周围的区域收集视觉特征然后它搜索框0联系我们Rego阶段1.5264一−−执行交叉注意以对所收集的特征与先前注意输出之间的关系进行建模，并计算当前阶段的翻译的瞥见特征Hg（i）特别地，我们将提取的视觉特征表示为V（i）表示第i阶段，称为瞥见特征.然后，我们将其根据以前的注意输出转化为一个精细的注意建模输出进行检测。采用多头交叉注意的方法完成翻译，H g（i）= A（V（i），H dec（i −1））.（六）注意，我们使用来自原始DETR中的解码器的最后一层的注意力输出来定义Hdec（0）。还值得一提的是，V（i）或H dec（i1）可以用作中的查询。这两种设置都可以将瞥见特征与先前的注意力输出正确地关联起来，并且都可以改善DETR的训练我们简单地发现，上述公式在COCO数据集上的AP中高出0.5分[24]。为了提取瞥见特征V（i），我们基于Obox（i-1）执行以下操作：V（i）= f ext.X河Obox（i−1），α（i），（7）其中，函数fext表示特征提取操作，R表示RoI计算，α（i）是标量因子。特别地，函数R通过以因子α放大由Obox（i1）检测到的边界框的面积来计算ROI。然后，我们使用RoIAlign [17]技术来实现fext。这里的符号X表示通过骨干网络获得的特征。由于最初的检测结果可能是不可靠的，我们倾向于在早期阶段从每个检测结果周围的较大区域中提取瞥见特征以进行细化，从而可以在瞥见区域内结合上下文并正确捕获目标对象。在后续的处理阶段，我们逐渐缩小了提取特征的区域，以获得更多的局部细节，从而达到更精确的检测换句话说，REGO中的α（i）从一个大的数字开始，然后在REGO的后面阶段减小其值。α（i）的详细设置见下节。4.3. 实现细节建议的REGO是一个即插即用的模块，用于不同的DETR方法。它只有两个主要的超参数，即循环级数和各阶段的放大率α。为了减少手动调优工作，我们将两个超参数统一为一个。更具体地说，我们限制最后一个经常性阶段的扩大比等于1。然后，当我们在最后一个阶段之前增加一个新的再流阶段时，我们增加放大增加的阶段的比率为1换句话说，如果我们使用3个再流级，则α（3），α（2），α（1）分别=3，2，1。因此，我们只需要研究循环阶段数的影响此外，我们遵循原始DETR并应用辅助损失来增强基于瞥见的解码器的中间输出的训练，并应用LayerNorm [1]来帮助正则化解码的瞥见表示Hdec（i）。对于REGO的每个递归阶段，我们使用原始DETR的解码器架构进行瞥见特征转换，但我们不使用编码器，并且仅使用2个解码层用于解码器。在解码器中，编码器的自注意带来边际效益，但消耗更多的计算资源，例如对于REGO-DeformabelDETR-R50，为所有级添加自注意层仅分别将AP、AP50和AP75改进0.1、-0.1、0.2，同时引入大约4个GFLOP和9 M个参数。在没有编码器的情况下，REGO中的解码器的复杂度比原始DETR方法中使用的解码器小得多。实验部分给出了复杂性分析。除了阶段的数量，我们提出其他实施细节如下。首先，我们遵循RoIAlign [17]的默认设置，并使用7 × 7窗口进行特征提取。此外，在提取瞥见特征时，我们尝试在多尺度和单尺度DETR方法中使用来自不同级别的骨干的特征，但请注意，我们不使用FPN [22]以节省成本。此外，ROI的数量取决于DETR的输出和级数。我们将在灵活的材料中提供更多的细节。5. 实验5.1. 设置我们遵循现有的DETR方法[3]，并使用MS COCO[24]数据集进行我们遵循MS COCO协议，并使用平均精度（AP），AP为0.5，AP为0.75，AP为小型，中型和大型对象的评估指标验证集主要用于评估。我们将我们的方法应用于原始DETR [3]和可变形DETR [48]，使用其发布的代码。对于训练，我们遵循发布代码的原始设置进行公平比较，除了我们还使用更少的训练时期进行实验。例如，原始的DETR检测器采用500或50个训练时期，而我们主要用50或36个训练时期来评估我们的方法。5.2. 绩效评价在本节中，我们将对现有的DETR方法和我们的方法进行全面的比较。Ta-5265检测器骨干历元APAP50AP75APSAPMAPLGFLOPS参数数（M）FCOS [37]R503641.059.844.126.244.652.217732[22]第二十二话R503640.261.043.824.243.552.018042[22]第二十二话R1013642.062.545.925.245.654.624661[17]第十七话X1013644.564.948.727.648.357.7457102级联掩码RCNN [2，5]X1013646.665.150.629.350.560.1627135TSP-RCNN [35]R509645.064.549.629.747.758.0188-高效的DETR [45]R503644.262.248.028.447.556.615935稀疏RCNN [34]R503644.563.448.226.947.259.5--DETR [3]R5050042.062.444.220.545.861.18641DETR-DC 5 [3]R5050043.363.145.922.547.361.118741[第10话]R5030042.863.045.320.847.161.78641[28]第二十八话R505040.961.843.320.844.659.29044[41]第四十一话R505044.264.747.524.748.260.6151-SMCA [12]R505043.763.647.224.247.060.415240SMCA [12]R1015044.465.248.024.348.561.021858[3，28，48]†R505039.360.341.418.542.457.58844[3，28，48]†5041.362.843.621.044.559.4189REGO-DETR系列（我们的）R505042.360.546.226.244.857.511258REGO-DETR-DC5（我们的）5044.062.647.826.545.262.9213可变形DETR [48]R5036†42.761.446.725.946.256.6173405043.862.647.726.447.158.0REGO-可变形DETR（我们的）R503644.863.848.727.048.060.2190545045.965.249.727.648.961.5R505046.465.350.630.049.861.417340[48]第四十八话：R101X101505047.247.766.667.251.151.428.529.350.951.262.462.824041759105REGO-可变形DETR垫片（我们的）R505047.666.851.629.650.662.319054R1015048.567.052.429.552.064.425773X1015049.167.553.130.052.665.0434119表1.不同检测器对MS COCO值分离的结果。基线结果用阴影表示。通过300个查询、参考点和病灶丢失进行改进[28，48]。通过迭代框细化和两阶段处理进行改进†使用发布的代码复制表1显示了MS COCOval数据集的总体结果。特别是，我们彻底调查的性能应用REGO不同的DETR方法，使用不同的骨干网络和不同的训练时期。不同DETR方法的比较我们已经将我们提出的REGO应用于两种主要的DETR探测器进行评估。这包括改进了300个查询、参考点和焦点丢失的普通DETR [3]方法（如[48]和可变形DETR [48]所述）。我们还介绍了基于RCNN的方法[2，22，32，34，35，37]和其他DETR变体[10、12、28、41、45]。从表1中的结果，我们可以观察到，我们的方法在使用50个时期的AP中一致地将不同的基于R50的基线方法改进了大约2个点。例如，使用原始的DETR，我们在50个训练时期将性能从39.3AP提升到42.3 AP。此外，当使用可变形DETR作为基线时，通过进一步与迭代框细化和两阶段处理合作，REGO有助于将AP从46.4提高到47.6，这是所有使用50个epochs和R50主干训练的比较DETR方法中的最高得分。这显示我们建议的区域市政总署能有效地改善DETR，更精确的目标区域。通过在可变形DETR上应用REGO，我们还比较了许多传统检测方法在36个训练时期获得的检测性能[22，37]。根据表1，我们帮助可变形DETR实现44.8 AP使用36个训练时期，而原始的可变形DETR仅在36个时期达到42.7。在相同的训练周期下，该方法也大大优于 FPN 和 FCOS. 我们还对 REGO-DeformableDETR-X101进行了额外的实验，也用36个epoch进行了训练，在AP，AP50和AP75中分别获得48.1，67.4，52.0，高于CascadeR-CNN [2]，证明我们的REGO可以有效降低DETR的训练成本。与不同骨干网的比较我们还研究了REGO在不同骨干网上的有效性，包括 R50 [18] ， R101 [18] 和 X101[42]。除了对R50网络的改进之外，表1中的结果还表明，REGO继续改进R101和X101网络的基线DETR方法特别是，通过X101骨干网络，我们的可变形DETR+ REGO检测器实现了高-5266阶段一瞥APAP50AP75APSAPMAPL可变形DETR [48]43.862.647.726.447.158.01期（α= 1）45.163.046.424.746.060.02阶段（α= 2，1）45.665.149.327.448.761.2三级（α= 3，2，1）45.965.249.727.648.961.54级（α= 4、3、2、1） 45.965.550.328.549.061.1表2.REGO中级数的超参数研究可变形DETR [48]用作基线。历元图3.可变形DETR的收敛曲线在是否使用建议的REGO的值集上对于REGO，我们通过降低第15、20和30个epoch的学习率来探索收敛性能。†：使用发布的代码复制。借条wr. t.基本真理图4.valset上正确检测结果的直方图在不同的设置下，即，不同的IoU w.r.t. 地面实况和不同的REGO阶段。注意，不同阶段的正确检测结果的数量共享相似的量（大约30k个盒子）。在众多最先进的物体探测器中，收敛性分析我们进一步研究了REGO对实际收敛性的影响。图3示出了可变形DETR和具有REGO的可变形DETR的详细收敛曲线。结果表明，相对于基线，REGO算法有效地加快了收敛速度，提高了模型的性能。特别地，REGO仅使用30个时期就帮助实现与基线相当的性能，即，比基线中使用的完整50个训练时期少40%。与第一个DETR需要500个epoch相比，REGO可以帮助减少约94%的总训练时间。复杂度分析 REGO 带来的额外计算复杂度约为 17GFLOP，仅为可变形DETR-R50模型复杂度的10%左右，同时带来约28%的训练加速（36个时期与36个时期相比）。50个时期）。此外，当使用更大更深的主干网络（如R101和X101）时，我们方法的复杂性保持不变，因为表3. REGO中一瞥尺度的超参数研究。REGO分三个阶段实施。相同的实现。额外的复杂性w.r.t. 这些较大的基于骨干网的DETR仅为7%左右，而REGO带来更多的改进，而不是增加骨干网的深度。例如，X101在可变形DETR的AP中将R50提高了1.3点（46.4到47.7），代价是另外 244 GFLOP ，而 REGO 使用 R50 主干仅额外 17GFLOP就实现了类似的结果（47.6）。此外，我们还可以在补充材料中表明，使用REGO训练的可变形DETR即使在推理过程中不使用REGO，也可以实现大约1点的AP，这意味着REGO直接帮助原始DETR学习更好的注意力，并在推理过程中免费提供检测改进。5.3. 消融研究我们首先在表2中呈现应用不同数目的REGO级的检测性能。评价的阶段范围为1 - 4，其中每个阶段的一瞥量表相应变化，如第4.3节所述。我们还提出了基线变形DETR结果，如文献[48]所报道的。结果表明，不同级数的REGO算法大大提高了基线性能。一个单一的处理阶段可以增加mAP超过1点。应用更多的阶段导致进一步的改进。3级和4级组合的效果最好。尽管4级REGO实现了良好的性能，但其相对于3级设置的改善是微不足道的，这意味着在REGO中增加3个以上的处理级可能导致受益减少我们还将放大比从三阶段设定中解脱出来，即使α= 1，1，1，在mAP中仅得到45.3，说明了这种瞥见设计是有用的。我们还研究了3级REGO模块中不同阶段的检测结果质量不同设置下正确检测结果数量的直方图44.844.541.843.5Deforamb leDET R†REG O +D eforambl eD ETR（或）检测的数量AP一瞥量表APAP50AP75APSAPMAPL1x45.965.249.727.648.961.51.5x45.865.050.127.648.961.32x45.765.049.927.848.659.95267Deforambl eDETRDETR +REG O（我们）的设计图5.基线可变形DETR [48]及其REGO变体的视觉检测结果。绿框是探测结果，红框是地面实况。Intersect-over-Union（IoU）地面实况如图4所示。只有当其对地面实况的IoU高于0.5并且其预测标签与地面实况对齐时，检测结果才是正确的。此外，不同阶段的总检测结果的数量相似，即，大约30k盒。因此，在正确检测结果数量相似的情况下，该图表显示，对于最右侧的两组检测结果，所有REGO阶段（红色条）都有助于产生比基线（蓝色条）及其具有较少阶段（黄色和绿色条）的对应物更准确的检测结果例如，具有3个阶段的REGO的结果包含更正确的检测结果，其IoU分数相对于地面真实值高于0.9。这些结果表明，具有更多阶段的REGO通过关注粗到细ROI中的对象并学习更好的特征表示来继续细化检测。不同尺度的瞥见区域的分析表3示出了使用不同尺度的瞥见区域的性能比较表中的1x、1.5x和2x表示放大的一瞥比例。例如，如果使用2x，并且默认的瞥见比例比先前检测到的边界框大3.0、2.0、1.0倍，则实际的瞥见比例比先前检测到的边界框大6.0、3.0、2.0倍。我们可以发现，1x设置已经达到了最高的AP，其他设置达到了相当但略低的AP。这表明，它是不适当的，以扩大瞥见领域积极实施REGO。5.4. 定性结果我们提出了一些视觉检测结果，以更好地说明REGO的影响我们选择可变形DETR[48]以R50为基线。图5显示结果。请注意，我们选择置信度得分高于0.5的检测结果，从图中，我们可以观察到REGO确实有助于减少基线方法的假阳性和假阴性结果此外，REGO还可以帮助调查不同检测到的边界框之间的关系与基于瞥见的解码器的帮助。我们将在补充材料中展示一些使用REGO学习的对象关系的可视化示例。6. 结论本文介绍了一种新颖有效的技术，称为基于RE电流的闪烁解码器（ REGO ），以改善与 Transformer（DETR）方法的检测。通过引入递归处理结构和从粗到细的ROI中学习瞥见特征，REGO既加快了收敛速度，又一致地提高了不同DETR方法的检测性能。我们希望这项研究可以有助于未来的端到端和有效的检测方法的研究。社会影响和局限性我们的方法可以使自动驾驶等各种应用一个潜在的限制是，我们仍然需要几个GPU天的训练，这是环境成本。这可以通过进一步提高我们的REGO和DETR的效率谢谢。陈哲博士由IH- 180100002支持，张静博士由ARC FL- 170100117支持。5268引用[1] 吉米·雷·巴，杰米·瑞安·基罗斯，杰弗里·E·辛顿.层归一化。arXiv预印本arXiv：1607.06450，2016。5[2] 赵伟蔡和努诺·瓦斯康塞洛斯。Cascade r-cnn：深入研究高质量的对象检测。在计算机视觉和模式识别，第6154-6162页，2018年。二、三、六[3] 尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛纳夫、尼古拉斯·乌斯尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁伊科。使用变压器进行端到端对象检测在EuropeanConferenceon ComputerVision 中，第213Springer，2020年。一二三五六[4] 陈晨、陈哲、张静、大成涛。基于点的三维物体检测语义增强集合抽象。2022年AAAI人工智能会议。1[5] 陈凯，庞江淼，王佳琪，熊宇，李晓，孙树阳，冯万森，刘紫薇，石建平，欧阳万里，等.混合任务级联实例分割.在计算机视觉和模式识别，第4974-4983页，2019年。6[6] 陈哲，黄少立，陶大成。用于对象检测的上下文细化。在欧洲计算机视觉会议（ECCV）中，第71-86页，2018年。3[7] 陈哲，欧阳万里，刘同良，陶大成。基于形状变换的行人检测数据集增强框架。国际计算机视觉杂志，129（4）：1121-1138，2021。2[8] 陈哲，张静，陶大成。用于对象检测的递归国际计算机视觉杂志，129（1）：142-160，2021。2[9] Jifeng Dai，Haozhi Qi，Yuwen Xiong，Yi Li，GuodongZhang，Han Hu，and Yichen Wei.可变形卷积网络。在国际计算机视觉会议上，第764-773页，2017年。二、三[10] Zhigang Dai ， Bolun Cai ， Yugeng Lin ， and JunyingChen. Up-detr：使用变压器进行对象检测的无监督预训练在计算机视觉和模式识别，第1601-1610页，2021年。6[11] AlexeyDosovitskiy、LucasBeyer、AlexanderKolesnikov、Dirk Weissenborn、Xiaohua Zhai、ThomasUnterthiner 、 Mostafa Dehghani 、 Matthias Minderer 、Georg Heigold、Syl-vain Gelly、Jakob Uszkoreit和NeilHoulsby。一张图像值16x16个单词：用于大规模图像识别的变形金刚。ICLR，2021年。2[12] Peng Gao ，Minghang Zheng，Xiaogang Wang，JifengDai，and Hongsheng Li.具有空间调制共同注意的detr算法的快速收敛。 arXiv 预印本 arXiv ： 2101.07448 ，2021。二、三、六[13] 斯派罗·吉达里斯和尼科斯·科莫达基斯基于多区域和语义分割感知cnn模型的目标检测。国际计算机视觉会议，第1134-1142页，2015年。3[14] 斯派罗·吉达里斯和尼科斯·科莫达基斯参与细化重复：通过输入输出本地化生成活动框提案arXiv预印本arXiv：1606.04446，2016年。3[15] 罗斯·格希克。快速R-CNN。国际计算机视觉会议，第1440-1448页，2015年。2[16] Ross Girshick，Jeff Donahue，Trevor Darrell和JitendraMalik。丰富的特征层次结构，用于精确的对象检测和语义分割。在计算机视觉和模式识别中，第580-587页2[17] KaimingHe ， GeorgiaGkioxari ， PiotrDolla'r ，andRossGir-shick.面具R-CNN。在国际计算机视觉会议上，第2961-2969页二、五、六[18] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在计算机视觉和模式识别中，第770-778页，2016年。一、二、六[19] 杰虎，李申，孙刚。挤压-激发网络。在计

下载后可阅读完整内容，剩余1页未读，立即下载