没有合适的资源?快使用搜索试试~ 我知道了~
92350OW-DETR:开放世界检测Transformer0Akshita Gupta * 1 Sanath Narayan * 1 K J Joseph 2,40Salman Khan 4,3 Fahad Shahbaz Khan 4,5 Mubarak Shah 601 Inception Institute of Artificial Intelligence 2 IIT Hyderabad 3 Australian National University04 Mohamed Bin Zayed University of Artificial Intelligence 5 CVL, Link¨oping University 6 University of Central Florida0摘要0开放世界目标检测(OWOD)是一个具有挑战性的计算机视觉问题,任务是在同时识别未知对象的情况下检测已知的一组目标类别。此外,模型必须在下一个训练周期中逐步学习成为已知的新类别。与标准目标检测不同,OWOD设置对于在潜在的未知对象上生成高质量候选提案、将未知对象与背景分离以及检测多样的未知对象提出了重要挑战。在这里,我们介绍了一种新颖的端到端基于Transformer的框架OW-DETR,用于开放世界目标检测。所提出的OW-DETR包括三个专用组件,即基于注意力的伪标签、新颖类别分类和目标得分,以明确解决上述OWOD挑战。我们的OW-DETR明确编码了多尺度上下文信息,具有较少的归纳偏差,能够从已知类别向未知类别进行知识转移,并且能够更好地区分未知对象和背景。我们在两个基准数据集MS-COCO和PASCALVOC上进行了全面的实验。广泛的消融实验揭示了我们提出的贡献的优点。此外,我们的模型在MS-COCO上的未知召回率方面相对于最近引入的OWOD方法ORE的绝对增益范围为1.8%至3.3%。在增量目标检测的情况下,OW-DETR在PASCALVOC上的所有设置中都优于最先进的方法。我们的代码可在https://github.com/akshitac8/OW-DETR上获得。01. 引言0开放世界目标检测(OWOD)放宽了流行基准中的封闭世界假设,在推理过程中只出现已知类别。在OWOD范式[15]中,每个训练周期,模型学习检测给定集合的已知对象,同时0* 平等贡献0图1.提出的OW-DETR用于开放世界目标检测(OWOD)的可视化说明。在这里,利用从中间特征获得的注意力图对目标查询进行评分。然后使用查询的目标得分来识别伪未知类。在检测新类别时,这些伪未知类与已知真实类之间存在分离。此外,还学习了背景和前景(已知类+未知类)之间的分离,以便根据前景对象的特征从已知类向未知类进行有效的知识转移。我们的OW-DETR明确编码了多尺度上下文,具有较少的归纳偏差,并且对未知对象没有监督,因此非常适合OWOD问题。0能够识别未知对象。然后,这些标记为未知的对象可以被转发给一个oracle(例如,人工注释者),该oracle可以标记一些感兴趣的类别。给定这些新的已知类别,模型将在不重新训练之前增量更新其知识。这个迭代学习过程在模型的生命周期内持续进行。在OWOD设置中,识别未知对象类别对于传统的检测器来说是一个重要的挑战。首先,除了对已知对象的准确提案集之外,检测器还必须为潜在的未知对象生成高质量的候选框。其次,模型应该能够利用其关于已知对象的知识将未知对象与背景分离开来,从而学习什么构成了一个有效的对象。最后,对象92360在灵活地建模丰富的上下文和与共现对象的关系的同时,必须检测不同大小的对象。最近,[15]的工作引入了一种基于两阶段Faster R-CNN[31]流程的开放世界目标检测器ORE。由于在开放世界范式中训练时未提供未知对象的注释,ORE提出利用自动标注步骤获取一组伪未知对象进行训练。自动标注是在区域提议网络(RPN)输出的类别不可知提议上执行的。与与已知对象的地面实况(GT)不重叠但具有高“物体性”分数的提议被自动标记为未知对象并用于训练。然后,这些自动标记的未知对象与GT已知对象一起用于执行潜在空间聚类。这样的聚类试图在潜在空间中分离多个已知类别和未知类别,并有助于学习未知类别的原型。此外,ORE学习了一种基于能量的二元分类器,用于将未知类别与类别不可知的已知类别区分开。虽然ORE是第一个引入和探索具有挑战性的OWOD问题表述的方法,但它存在一些问题。(i)ORE依赖于一个带有未知类别的弱监督的验证集,以估计其能量分类器中新类别的分布。(ii)为了执行对比聚类,ORE使用单个潜在原型学习未知类别,这对于模拟未知对象中常见的多样的类内变化是不足够的。因此,这可能导致已知类别和未知类别之间的分离不够优化。(iii)ORE由于基于卷积的设计而没有明确地编码长程依赖性,这对于捕捉包含多样对象的图像中的上下文信息至关重要。在这里,我们着手解决上述问题,以解决具有挑战性的OWOD问题表述。贡献:受到上述观察的启发,我们引入了一个多尺度上下文感知检测框架,基于视觉变换器[37],具有专门的组件来解决开放世界设置,包括基于注意力的伪标签、新颖性分类和物体性评分,以有效地检测图像中的未知对象(参见图1)。具体而言,与最近的OWOD方法ORE[15]相比,它使用了一个两阶段的CNN流程,我们的框架是基于变换器的单阶段框架,需要更少的归纳偏差,并且可以在多尺度上编码长期依赖性以丰富上下文信息。与ORE不同,它依赖于一个带有未知类别的验证集来估计新类别的分布,我们的设置假设未知类别没有给定的监督,更接近真实的开放世界场景。总体而言,我们的新设计在广泛的上下文建模和较少的假设方面提供了更大的灵活性,以解决开放世界检测问题。我们的主要贡献是:0• 我们提出了一种基于变换器的开放世界检测器,0OW-DETR更好地建模了上下文,采用了多尺度自注意力和可变形感受野,除了减少对开放世界设置的假设以外。0•我们引入了一种基于注意力的伪标签方案,用于选择具有高注意力分数但与任何已知类别框不匹配的对象查询框作为未知类别。伪未知类别与地面实况已知类别一起用于学习一种新颖性分类器,以区分未知对象和已知对象。0•我们引入了一个物体性质分支,通过使已知类别和伪未知类别的特征在背景中进行知识转移,有效地学习前景物体的分离。0•我们在两个流行的基准测试上进行了大量实验,证明了所提出的OW-DETR的有效性。具体而言,在MS-COCO上,OW-DETR在未知召回率方面相对于ORE实现了1.8%至3.3%的绝对增益。02. 开放世界检测变换器0问题定义:令Kt = {1, 2, ...,C}表示时间t时已知对象类别的集合。令Dt = {It,Yt}是包含N个图像It = {I1, ..., IN}及其对应标签Yt = {Y1, ...,YN}的数据集。这里,每个Yi = {y1, ...,yK}表示在图像中标注的K个对象实例的标签,其中yk = [lk,xk, yk, wk, hk],lk ∈ Kt是由xk, yk, wk,hk表示的边界框的类别标签。此外,令U = {C+1,...}表示可能在测试时遇到的未知类别的集合。如第1节所讨论的,在开放世界目标检测(OWOD)设置中,模型Mt在时间t被训练为将未见过的类别实例识别为属于未知类别(用标签0表示),同时检测先前遇到的已知类别C。由Mt识别出的一组未知实例Ut �U然后被转发给一个oracle,该oracle标记n个感兴趣的新类别并提供相应的新训练样本集。然后,学习器将这组新类别逐步添加到已知类别中,使得Kt+1 = Kt + {C+1, ...,C+n}。对于先前的类别Kt,只能在有限的内存中存储少量样本,模拟现实世界中的隐私问题、有限的计算和内存资源。然后,Mt在整个数据集上不重新训练的情况下进行增量训练,以获得更新的模型Mt+1,该模型可以检测Kt+1中的所有对象类别。这个循环在检测器的生命周期中持续进行,每一集都会更新自己的知识,而不会忘记先前学到的类别。92370图2. 提出的OW-DETR框架。我们的方法通过引入(i)基于注意力的伪标签方案来选择候选未知查询,(ii)新颖性分类分支F cls来区分伪未知类别和每个已知类别,以及(iii)物体性分支F obj来学习将前景物体(已知+伪未知)与背景分离的标准变形DETR用于OWOD问题的公式。在我们的OW-DETR中,从骨干网络提取图像I的D维多尺度特征,并将其与一组M个可学习的对象查询q ∈ RD一起输入到可变形编码器-解码器中。在解码器输出时,每个对象查询嵌入qe ∈RD都输入到三个不同的分支:框回归、新颖性分类和物体性。回归分支F reg输出框坐标。物体性分支输出查询作为前景物体的置信度,而新颖性分类分支将查询分类为已知类别和未知类别之一。我们的OW-DETR通过新颖性分类损失Ln、物体性损失Lo和框回归损失Lr进行端到端联合学习。02.1. 总体架构0整体架构如图2所示,提出的开放世界检测变换器OW-DETR。所提出的OW-DETR通过引入(i)基于注意力的伪标签机制(第2.3节)来选择可能的未知查询候选;(ii)新颖性分类分支(第2.4节)来学习将对象查询分类为许多已知类别或未知类别;以及(iii)“物体性”分支(第2.5节)来学习将前景对象(真实已知和伪标记的未知实例)与背景分离。在提出的OW-DETR中,具有空间尺寸H×W和一组对象实例Y的图像I被输入到特征提取骨干网络中。在不同分辨率下获得D维多尺度特征,并输入到包含多尺度可变形注意力模块的变换器编码器-解码器中。解码器通过交错的交叉注意力和自注意力模块将一组M个可学习的对象查询转换为一组M个对象查询嵌入qe ∈RD,这些嵌入编码了图像中的潜在对象实例。然后,qe被输入到三个分支:边界框回归、新颖性分类和物体性。新颖性分类(Fcls)和物体性(Fobj)分支是单层前馈网络(FFN),回归分支Freg输出框的坐标。0sion分支Freg是一个3层的前馈神经网络。基于类别和框坐标预测的二分匹配损失用于选择最佳匹配与已知实例的查询。然后利用剩余的对象查询来选择候选未知类实例,这对于在OWOD设置中的学习至关重要。为此,利用主干的潜在特征图获得一个注意力图A,用于计算查询qe的对象得分so。得分so基于A中感兴趣区域内的激活幅度。得分较高的查询被选为候选实例并伪标记为“未知”。这些伪标记的未知查询以及所有的已知查询一起被用作前景对象来训练对象分数分支。此外,回归分支预测边界框,新颖分类分支将查询分类为众多已知类别和未知类别。所提出的OW-DETR框架使用新颖分类(Ln)、对象分数(Lo)以及边界框回归(Lr)的专用损失项进行端到端训练。接下来,我们详细介绍我们的OW-DETR方法。02.2. 多尺度上下文编码0如前所述,在开放世界目标检测(OWOD)中,由于可能出现的未知对象的多样性,检测不同尺寸的对象并编码其丰富的上下文是主要挑战之一。编码这样丰富的上下文需要一个注意力图A,该图是从主干特征图中获得的,用于计算查询qe的对象得分so。得分so基于A中感兴趣区域内的激活幅度。得分较高的查询被选为候选实例并伪标记为“未知”。这些伪标记的未知查询以及所有的已知查询一起被用作前景对象来训练对象分数分支。此外,回归分支预测边界框,新颖分类分支将查询分类为众多已知类别和未知类别。所提出的OW-DETR框架使用新颖分类(Ln)、对象分数(Lo)以及边界框回归(Lr)的专用损失项进行端到端训练。接下来,我们详细介绍我们的OW-DETR方法。xwx92380为了捕捉图像中多尺度的长期依赖关系,需要查询在多个尺度的大感受野内进行采样。此外,对于在测试过程中可能出现的未知对象,框架中的归纳偏差越少,对于改善其检测效果可能越有益。受到上述关于OWOD任务要求的观察的启发,我们改编了最近引入的单阶段可变形DETR(DDETR),该方法是端到端可训练的,并且在标准目标检测中表现出有希望的性能,因为它能够以较少的归纳偏差编码长期的多尺度上下文。DDETR在可变形注意力模块中引入了多尺度变形注意力模块,用于在DETR的变换器编码器和解码器层中编码多尺度上下文,以实现更好的收敛性和更低的复杂度。多尺度变形注意力模块基于可变形卷积,在参考点周围仅关注少量固定数量的关键采样点。这种采样在多尺度特征图上进行,能够在更大的感受野上编码更丰富的上下文。更多细节请参考[3,37]。尽管标准的DDETR在目标检测任务中取得了有希望的性能,但对于在OWOD设置中检测未知类实例并不适用。为了实现检测新颖对象,我们引入了一个基于注意力的伪标签方案,同时结合新颖分类和对象分数分支,下面将对此进行解释。02.3. 注意力驱动的伪标签0为了学习在训练集中没有相应注释的未知对象,OWOD框架必须依靠选择训练图像中出现的潜在未知实例,并在训练过程中将它们用作伪未知。ORE的OWOD方法选择具有高对象分数且不与已知实例重叠的提议作为伪未知。这些提议是从两阶段检测器RPN中获得的,由于其受到已知类别的强监督训练,因此很可能对已知类别有偏见。与这种策略不同,我们引入了一种自下而上的基于注意力的伪标签方案,它在单阶段目标检测器中更具普适性和适用性。设f为从主干提取的中间D'-维特征图,具有空间尺寸h×w。特征激活的幅度可以指示该空间位置是否存在对象,并且可以用于计算窗口内对象存在的置信度。设b=[xb, yb, wb,hb]表示具有中心(xb,yb)、宽度wb和高度hb的框提议。对象得分so(b)可以计算为:0so(b) = 10h b ∙ w b02 �0y b+ hb2 �0A,(1)0图3. 一个示例说明我们的注意力驱动的伪标签。计算每个M -K个对象查询qe的对象性得分,作为感兴趣区域的平均置信度得分,对应于其提议框bi,在注意力特征图A中。对这些M -K个得分进行top-k u选择,以获得k u个伪未知对象。0其中A ∈ R h ×w是在通道D'上平均的特征图f。我们框架中的对象提议是由变形变换解码器输出的M个对象查询嵌入qe对应的回归分支预测的边界框b获得的。对于具有K个已知对象实例的图像,对于未被DDETR的二分匹配损失1选择为最佳查询匹配的M- K个对象查询,计算对象性得分so。然后,在M -K个具有较高对象性得分so的查询中,使用其对应的回归分支预测给出的边界框,将其中的top-ku个查询伪标记为未知对象(参见图3)。02.4. 新颖性分类0ORE[15]方法引入了一种基于能量的未知标识符,用于将提议分类为已知类别和未知类别。然而,它依赖于一个带有弱未知监督的留存验证集来学习已知类别和未知类别的能量分布。相比之下,我们的OW-DETR不需要任何未知对象的监督,完全依赖于使用注意力驱动的伪未知对象选择的伪未知对象,如第2.3节所述。此外,标准DDETR中的分类分支Fcls将对象查询嵌入qe分类为已知类别或背景,即F cls:R D→ RC。然而,当遇到未知对象时,它无法将其分类为新颖类别。为了克服这些问题,并使我们的OW-DETR框架能够仅使用所选的伪未知对象进行训练,我们在分类分支中引入了新颖类别标签。然后,使用与新颖类别相关联的伪标签(设置为0以方便)对选择为伪未知对象的查询嵌入qe进行训练,即F cls:R D → R C +1。这种在分类分支中引入新颖类别标签的做法使得qe能够在OW-DETR中被分类为未知对象,否则它们将像在标准目标检测任务中一样被学习为背景。这有助于我们的模型将潜在的未知对象与背景区分开来。01二分匹配选择每个GT实例的唯一对象查询。Tab. 1 shows a comparison of our OW-DETR withthe recently introduced ORE [15] on MS-COCO for theOWOD problem.We also report the performance ofFaster R-CNN [31] and the standard Deformable DETR(DDETR) [37] frameworks. The comparison is shown interms of the known class mAP and unknown class recall(U-Recall). U-Recall quantifies a model’s ability to retrieveunknown object instances in the OWOD setting. Note that92390图4.OWOD评估协议中的任务组成。显示了每个任务中的MS-COCO类别以及跨分割的图像和实例(对象)数量。02.5. 前景对象性0如上所述,新颖性分类分支Fcls是特定于类别的,将查询嵌入q e分类为C +1个类别之一:C个已知类别或1个未知类别或背景。虽然这使得已知类别和未知类别之间的类别特异性可学习,但它不允许从已知对象向未知对象传递知识,这在理解OWOD设置中构成未知对象的内容方面至关重要。此外,由于缺乏未知类别监督,基于注意力的伪标签很可能不太准确,导致大多数查询嵌入被预测为背景。为了缓解这些问题,我们引入了前景对象性分支F obj:R D → [0,1],用于评分查询嵌入qe的“对象性”[18,30],以更好地将前景对象(已知和未知)与背景分开。学习将与前景对象相关的查询评分高于背景,能够更好地检测未知对象,否则这些对象将被检测为背景。这种与类别无关的评分还有助于模型将已知类别的知识转移到未知对象,以了解构成前景对象的特征。02.6. 训练和推理0训练:我们的OW-DETR框架使用以下联合损失公式进行端到端训练,0L = Ln + Lr + αLo,(2)0其中,Ln,Lr和Lo分别表示新颖性分类、边界框回归和目标性评分的损失项。对于Ln和Lo,采用了标准的焦点损失[19],而Lr是标准的ℓ1回归损失。这里,α表示目标性评分的权重因子。在OWOD的每个阶段的增量学习阶段引入一组新的类别时,受到[15, 28,34]中的发现的启发,我们采用基于示例重放的微调来缓解先前学习的类别的遗忘问题。推理:对于测试图像I,计算M个对象查询嵌入qe,并获得相应的边界框和类别预测,如[37]所述。令Ct为时间t时已知类别的数量,除了未知类别外,即Ct = |Kt| +1。在M∙Ct类别分数上进行top-k选择,并使用得分较高的这些选定的检测结果进行OWOD评估。0在每个阶段的增量步骤之后,使用为每个已知类别存储的一组平衡示例进行微调,以防止先前学习的类别被遗忘。推理:对于测试图像I,计算M个对象查询嵌入qe,并获得相应的边界框和类别预测,如[37]所述。令Ct为时间t时已知类别的数量,除了未知类别外,即Ct = |Kt| +1。在M∙Ct类别分数上进行top-k选择,并使用得分较高的这些选定的检测结果进行OWOD评估。03. 实验0数据集:我们在MS-COCO[20]上评估我们的OW-DETR解决OWOD问题。将类别分组为一组不重叠的任务{T1, ..., Tt,...},其中任务Tλ中的类别直到达到t =λ时才引入。在学习Tt时,将{Tλ: λ ≤t}中遇到的所有类别视为已知。同样,将{Tλ: λ >t}中的类别视为未知。与[15]类似,MS-COCO的80个类别被分为4个任务(见图4)。每个任务的训练集来自MS-COCO和Pascal VOC [9]的训练图像,而PascalVOC的测试集和MS-COCO的验证集用于评估。评估指标:对于已知类别,使用标准的平均精度(mAP)。此外,我们使用召回率作为未知目标检测的主要指标,而不是常用的mAP。这是因为数据集中所有可能的未知目标实例都没有进行注释。在类似条件下,[1,21]中也使用了召回率。实现细节:变换器架构类似于[37]中的DDETR。从在ImageNet[6]上以自监督方式[4]预训练的ResNet-50[14]中提取多尺度特征图。这种预训练可以缓解可能发生的完全监督预训练(使用类标签)中可能与新颖类别重叠的开放世界设置违规问题。查询数M = 100,D =256。选择伪标签的ku设置为5。此外,推理过程中使用每个图像的top-50高分检测结果进行评估。OW-DETR框架使用ADAM优化器[17]进行50个时期的训练,如[37]所述。权重α设置为0.1。补充材料中提供了更多细节。03.1. 最新比较)ILOD [32]69.9 70.4 69.4 54.34868.7 78.9 68.4 45.5 58.1 59.772.773.573.266.329.563.461.669.362.263.2Faster ILOD [27]72.8 75.7 71.2 60.561.770.4 83.3 76.6 53.1 72.3 36.770.966.867.666.124.763.148.157.143.662.1ORE − (CC + EBUI) [15] 53.3 69.2 62.4 51.852.973.6 83.7 71.7 42.8 66.8 46.859.965.566.168.629.855.151.665.351.559.4OREEBUI [15]63.5 70.9 58.9 42.934.176.2 80.7 76.3 34.1 66.1 56.170.480.272.381.842.771.668.17767.764.5ILOD [32]70.5 79.2 68.8 59.153.275.4 79.4 78.8 46.6 59.45975.871.878.669.633.761.563.171.762.265.8Faster ILOD [27]66.5 78.1 71.8 54.661.468.4 82.6 82.7 52.1 74.3 63.178.680.578.480.436.761.759.367.959.167.9ORE − (CC + EBUI) [15] 65.1 74.6 57.9 39.536.775.18073.3 37.1 69.8 48.86977.572.876.534.462.656.580.365.762.6OREEBUI [15]75.48167.1 51.955.777.2 85.6 81.7 46.1 76.2 55.476.786.278.582.132.863.654.777.764.668.5ILOD [32]69.4 79.3 69.5 57.445.478.4 79.1 80.5 45.7 76.3 64.877.280.877.570.142.367.564.476.762.768.2Faster ILOD [27]64.2 74.7 73.2 55.553.770.8 82.9 82.6 51.6 79.7 58.778.881.875.377.443.173.861.769.861.168.5ORE − (CC + EBUI) [15] 60.7 78.6 61.84543.275.1 82.5 75.5 42.4 75.1 56.772.980.875.477.737.872.364.570.749.964.9OREEBUI [15]67.3 76.86048.458.881.1 86.5 75.8 41.5 79.6 54.672.885.981.782.444.875.868.275.760.168.892400表1.MS-COCO上OWOD的最新比较。比较以已知类别的mAP和未知类别的召回率(U-Recall)为指标。未知召回率(U-Recall)度量模型检测未知目标实例的能力。表的上半部分显示标准的目标检测器(FasterR-CNN和DDETR)在已知类别上取得了有希望的mAP,但它们本质上不适用于OWOD设置,因为它们无法检测任何未知目标。为了在OWOD设置中进行公平比较,我们与最近引入的不使用EBUI的ORE[15]进行比较。我们的OW-DETR在各个任务上的U-Recall优于ORE,表明我们的模型能够更好地检测未知实例。此外,我们的OW-DETR在四个任务的已知类别上也取得了显著的mAP增益。请注意,在任务4中,由于所有80个类别都是已知的,不计算U-Recall。更多细节请参见第3.1节。0任务ID ( → ) 任务1 任务2 任务3 任务40( ↑ ) 当前已知 ( ↑ ) 先前已知 当前已知 两者 ( ↑ ) 先前已知 当前已知 两者 先前已知 当前已知 两者0Faster-RCNN [ 31 ] - 56.4 - 3.7 26.7 15.2 - 2.5 15.2 6.7 0.8 14.5 4.2 Faster-RCNN + 微调 在任务1中不适用 - 51.0 25.0 38.0 - 38.2 13.6 30.0 29.713.0 25.60DDETR [ 37 ] - 60.3 - 4.5 31.3 17.9 - 3.3 22.5 8.5 2.5 16.4 6.0 DDETR + 微调 在任务1中不适用 - 54.5 34.4 44.8 - 40.0 17.8 33.3 32.5 20.0 29.40ORE − EBUI [ 15 ] 4.9 56.0 2.9 52.7 26.0 39.4 3.9 38.2 12.7 29.7 29.6 12.4 25.3 我们的:OW-DETR 7.5 59.2 6.2 53.6 33.5 42.9 5.7 38.3 15.8 30.831.4 17.1 27.80表2. 在PASCALVOC上增量目标检测(iOD)的最新比较。我们在3种不同的设置上进行实验。比较以每类AP和整体mAP的形式呈现。灰色背景中的 10 个、5 个和 1 个类别分别引入到训练在其余 10 个、 15 个和 19个类别上的检测器中。我们的OW-DETR在所有三种设置上都取得了有利的性能。有关详细信息,请参阅第3.2节。010 + 10 设置 空气 自行车 鸟 船 瓶子 公共汽车 汽车 猫 椅子 牛 桌子 狗 马 自行车 人 植物 羊 沙发 火车 电视 mAP0我们的:OW-DETR 61.8 69.1 67.8 45.8 47.3 78.3 78.4 78.6 36.2 71.5 57.5 75.3 76.2 77.4 79.5 40.1 66.8 66.3 75.6 64.1 65.7015 + 5 设置 空气 自行车 鸟 船 瓶子 公共汽车 汽车 猫 椅子 牛 桌子 狗 马 自行车 人 植物 羊 沙发 火车 电视 mAP0我们的:OW-DETR 77.1 76.5 69.2 51.3 61.3 79.8 84.2 81.0 49.7 79.6 58.1 79.0 83.1 67.8 85.4 33.2 65.1 62.0 73.9 65.0 69.4019 + 1 设置 空气 自行车 鸟 船 瓶子 公共汽车 汽车 猫 椅子 牛 桌子 狗 马 自行车 人 植物 羊 沙发 火车 电视 mAP0我们的:OW-DETR 70.5 77.2 73.8 54.0 55.6 79.0 80.8 80.6 43.2 80.4 53.5 77.5 89.5 82.0 74.7 43.3 71.9 66.6 79.4 62.0 70.20在任务4中已知所有80个类别,因此由于没有未知测试注释,无法计算U-Recall。由于FasterR-CNN和DDETR只能将对象分类为已知类别,而不能分类为未知类别,因此它们不适用于OWOD设置,无法计算U-Recall。为了在OWOD设置中进行公平比较,我们报告ORE,而没有其基于能量的未知标识符(EBUI),该标识符依赖于带有弱未知对象监督的保留验证数据。结果显示,ORE −EBUI框架在任务1、2和3上实现了U-Recall分别为4.9、2.9和3.9。我们的OW-DETR改进了未知对象的检索,导致0在相同的任务1、2和3上取得了显著的U-Recall增益,分别达到7.5、6.2和5.7。此外,OW-DETR在所有四个任务上的已知类别mAP方面优于现有的最佳OWOD方法ORE,实现了显著的绝对增益高达3.6%。虽然我们在这里为了公平起见使用与[15]相同的划分,但我们的OW-DETR在更严格的数据划分(包含在补充材料中)上也实现了相同的增益,以消除任何可能的信息泄漏。OW-DETR相对于ORE、普通的FasterR-CNN和DDETR的持续改进强调了所提出的贡献对于更准确的OWOD的重要性。92410图5.MS-COCO测试集上示例图像的定性结果。对于每个示例图像,其对应的中间特征图计算得到的注意力图A显示在其左侧。我们的OW-DETR获得的检测结果覆盖在已知(黄色)和未知(紫色)类别的对象上。我们观察到,注意力图激活倾向于在具有前景对象的区域更高,说明了注意力驱动的伪标签对于未知对象的好处。像球拍(第1行,右)、雨伞(第2行,左)、消防栓(第3行,左)等未知对象被合理地检测到。由于具有挑战性的开放世界设置,一些未知对象被错过,例如水槽(第2行,中)、桌子(第3行,右)。然而,这些结果表明了我们的OW-DETR框架在具有挑战性的OWOD设置中取得的有希望的性能。03.2.增量目标检测0作为检测未知实例的直观结果,我们的OW-DETR在增量目标检测(iOD)任务上表现出色。这是由于将未知对象被分类为已知类别的混淆减少,使得检测器能够逐步学习各种新类实例作为真正的前景对象。表2显示了OW-DETR与现有方法在PASCAL VOC 2007上的比较。与[27,32]一样,评估是在三个标准设置上进行的,其中一组类别(10个、5个和最后一个类别)逐步引入到在其余类别(10个、15个和19个)上训练的检测器中。我们的OW-DETR在所有三个设置上都表现出色,说明了建模未知对象类别的好处。03.3.消融研究0表3显示了将我们的贡献逐步整合到OWOD问题的基线框架中的影响。比较以已知(当前和之前的)类别的mAP和未知类别的召回率(表示为U-Recall)为基础进行。除了Baseline†之外,所有显示的变体都包括微调步骤,以减轻增量学习阶段的灾难性遗忘。这里,我们的基线是标准的Deformable DETR。0我们还展示了一个oracle的上限性能,即使用未知类别的真实注释训练的基线。基线在已知类别上表现更好,但无法检测任何未知对象,因为它只训练了已知类别,因此不适用于OWOD。将新颖性分类分支(表示为Baseline +NC)与我们的注意力驱动的伪标签机制选择的伪未知对象一起用于训练新颖性分类器,可以实现未知实例的检测。因此,这种整合在任务1、2和3中实现了6.0、4.6和4.6的未知召回率。我们最终的框架OW-DETR通过进一步整合物体性分支,进一步改善了OWOD设置中未知对象的检索,在相同的任务1、2和3中实现了7.5、6.2和5.7的U-Recall。这些结果表明了我们在OWOD设置中提出的贡献在学习已知和未知之间的分离方面的有效性,通过新颖性分类分支学习将已知类别的知识转移到未知类别的物体性分支。开放式检测比较:检测器处理开放式数据中的未知实例的能力可以通过其mAP值的降低程度来衡量,与其在封闭集数据上的mAP值相比。我们遵循[23]相同的评估协议,并在表4中报告性能。92420表3.逐步将我们的贡献融入基准线的影响。在MS-COCO的OWOD设置中,通过已知类别的平均精度(mAP)和未知类别的召回率(U-Recall)进行比较。除了标准基准线(用†表示)之外,所有其他模型都包括一个微调步骤来减轻灾难性遗忘。我们还展示了oracle的性能(使用基准线训练并使用真实未知类别注释)。尽管基准线在已知类别的mAP上表现更好,但它本质上不适用于OWOD设置,因为它无法检测任何未知对象。将我们提出的基于伪标签的新颖性分类(NC)与基准线集成,可以实现未知类别的检测。此外,将我们的目标性分支集成到框架中进一步提高了未知对象的检索能力。请注意,由于任务4中已知80个类别,因此不计算U-Recall。0任务ID (→) 任务1 任务2 任务3 任务40U-Recall mAP (↑) U-Recall mAP (↑) U-Recall mAP (↑) mAP (↑)0(↑) 当前已知 (↑) 先前已知 当前已知 两者 (↑) 先前已知 当前已知 两者 先前已知 当前已知 两者0Oracle 31.6 62.5 40.5 55.8 38.1 46.9 42.6 42.4 29.3 33.9 35.6 23.1 32.50基准线† - 60.3 - 4.5 31.3 17.8 - 3.3 22.5 8.5 2.5 16.4 6.0 基准线在任务1中不适用 - 54.5 34.4 44.7 - 40.0 17.7 33.3 32.5 20.0 29.40基准线 + NC 5.9 58.1 4.6 52.5 32.7 42.6 4.6 36.4 13.4 28.9 30.8 16.3 27.2 最终结果:OW-DETR 7.5 59.2 6.2 53.6 33.5 42.9 5.7 38.3 15.830.8 31.4 17.1 27.80表4.开放式目标检测任务的性能比较。我们的OW-DETR通过有效地对未知目标进行建模,减少了它们与已知类别的混淆,具有更好的泛化能力。0评估结果 → Pascal VOC 2007开放式(WR1)0标准Faster R-CNN 81.8 77.1 标准RetinaNet 79.2 73.8Dropout Sampling [23] 78.1 71.1 ORE [15] 81.3 78.2我们的方法:OW-DETR 82.1 78.60通过有效地对未知对象进行建模,我们的OW-DETR在与现有方法的比较中取得了有希望的性能。定性分析:图5显示了来自MS-COCO测试集的示例图像的定性结果,以及它们对应的注意力图A。我们的OW-DETR获得的已知类别(黄色)和未知类别(紫色)的检测结果也被叠加显示。我们观察到未知对象的检测效果相当不错,例如左上图中的滑雪板,右上图中的网球拍,左下图中的飞盘。虽然有一些新颖对象被错过了(右下图中的桌子),但这些结果表明我们的OW-DETR在挑战性的OWOD设置中取得了有希望的未知对象检测性能。附录中提供了更多结果。04. 与先前技术的关系0已有一些研究探讨了标准目标检测问题[2, 11, 13, 19, 25,26, 29,31]。这些方法的工作基于一个强假设,即模型在其生命周期中遇到的对象类别的标签空间与训练时相同。自然语言处理中transformer的出现[33, 35]启发了对视觉任务[8, 10,16, 24]的相关思想的研究,包括标准目标检测[3,37]。与标准目标检测不同,增量式0[27,32]模型是一种新的心理目标检测方法,可以在训练过程中逐步引入新的目标类别,并解决灾难性遗忘的问题。另一方面,[7, 12, 22,23]的研究侧重于开放式检测,即在测试过程中遇到的新的未知对象需要被拒绝。相比之下,最近的[15]的研究解决了挑战性的开放世界目标检测(OWOD)问题,可以检测已知和未知的目标,并且可以逐步学习新的目标类别。在这里,我们提出了一种OWOD方法,OW-DETR,它基于一个基于transformer的框架[37],包括以下创新组件:基于注意力的伪标签、新颖性分类和目标性评分。我们的OW-DETR在明确编码多尺度上下文信息的同时减少了归纳偏差,同时可以从已知类别向新类别传递目标知识,以改善未知目标的检测能力。05. 结论0我们提出了一种基于Transformer的新方法OW-DETR,用于解决开放世界目标检测问题。所提出的OW-DETR包括专门的组件,以应对开放世界的设置,包括基于注意力的伪标签生成、新颖性分类和目标性评分,以便准确地检测图像中的未知对象。我们在两个流行的基准数据集PASCALVOC和MSCOCO上进行了大量实验。我们的O
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功