Omni-DETR：全监督目标检测的Transformer架构

105 浏览量更新于2023-10-25 收藏 12.77MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

0.51234hours (103)22252831343740mAPSupervisedSemi-supervisedOmni-supervised1003005007009001100hours242730333639mAPSupervisedSemi-supervisedOmni-supervised93670Omni-DETR：基于Transformer的全监督目标检测0Pei Wang 2,� Zhaowei Cai 1, † Hao Yang 1 Gurumurthy Swaminathan 10Nuno Vasconcelos 2 Bernt Schiele 1 Stefano Soatto 10AWS AI Labs 1 UC San Diego 20{zhaoweic,haoyng,gurumurs,bschiel,soattos}@amazon.com {pew062,nuno}@ucsd.edu0摘要0我们考虑全监督目标检测问题，可以使用未标记、完全标记和弱标记的注释，例如图像标签、计数、点等等。这是通过一种统一的架构Omni-DETR实现的，该架构基于最近在学生-教师框架和端到端Transformer基础上的目标检测进展。在这个统一的架构下，可以利用不同类型的弱标签生成准确的伪标签，通过基于二部匹配的过滤机制，供模型学习。在实验中，Omni-DETR在多个数据集和设置上取得了最先进的结果。我们发现，弱标注可以帮助提高检测性能，并且它们的混合可以在标注成本和准确性之间取得更好的权衡，优于标准的完整标注。这些发现可以鼓励使用混合标注的更大规模的目标检测数据集。代码可在https://github.com/amazon-research/omni-detr找到。01. 引言0近期目标检测的大部分成功归功于大规模、成熟的目标检测数据集[11, 12, 25, 28,38]，这些数据集对图像中感兴趣的每个物体都有准确和完整的检测标注（类别、边界框或分割掩码）。一般来说，完整和准确的检测标注非常昂贵。例如，完整标注一张MS-COCO[28]的图像大约需要346秒，平均每个类别消除需要76.5秒，准确的边界框定位需要269.5秒[35]1。考虑到这个昂贵的成本，很难扩大数据规模。例如，OpenImages由900万张图像组成[25]，使用机器标注和人工验证相结合来降低标注成本。0� 在亚马逊实习期间完成的工作。† 通讯作者。1不是来自[28]的准确数字，而是来自[35]的粗略估计。0COCO0CrowdHuman0图1.顶部是不同形式的弱标注的可视化，底部是有监督/半监督/全监督检测的权衡比较（准确性与标注成本），详见第5.5节。0问题是，我们是否需要昂贵的准确和完整的标注来实现强大的检测性能？如图1（顶部）所示，目标标注有许多较弱的形式，例如点、标签、计数等等，但它们在文献中尚未得到很好的探索，大多数目标检测框架都设计为使用完整的检测标注。其中一个主要原因是使用较弱的标注形式尚未显示出有希望的结果。例如，弱监督目标检测（WSOD）[23, 32,44]的性能相对于使用完整标注的标准监督检测而言较差。此外，作为全监督目标检测（OSOD）的首个工作，UFO 2[35]表明仅使用额外的弱标注只能获得微小的收益。然而，在本文中，我们将展示弱标注可以帮助提高检测性能，并实现更好的成本-准确性权衡。为此，我们提出了一种统一的OSOD架构Omni-DETR，它可以与不同类型的弱标签一起工作。aeroplanebottlebananasandwich93680弱标注包括图像标签、物体计数、点、无标签的宽松边界框等等，或者它们的混合。它建立在基于学生-教师的半监督目标检测（SSOD）[30, 41,45]的最新进展之上，即使数据未标记，也能更好地利用数据，以及[7,52]的端到端检测架构，没有像提议检测、非最大抑制、阈值等启发式检测过程。弱标注用于过滤教师预测结果，生成学生学习的伪标签。我们将伪标签过滤问题形式化为预测集和可用弱标注集之间的二部匹配问题，并提出了一种统一的伪标签过滤策略，以适应任何形式的弱标注。Omni-DETR提供了一个统一的框架来探索不同形式的目标标注。通过这个框架，我们发现：1）即使在强基线上，弱标注也可以带来额外的收益；2）弱标注和完整标注的混合可以实现更好的准确性-成本权衡。如图1（底部）所示，我们的Omni-DETR的结果优于标准的有监督和更强的半监督检测基线。此外，某些标注形式更适合于数据集的特征。例如，如图2所示，对于Bees [3]和CrowdHuman[39]数据集来说，准确标注边界框很困难，因为物体很小且非常拥挤。然而，对于这些数据集，使用点进行标注更容易。同样，对于Objects365[38]来说，准确标注类别很困难，因为有太多类别（365），但仅标注边界框相对容易和廉价。Omni-DETR可以适应所有这些不同情况，并有助于减少标注这些数据集的成本，鼓励使用混合标注的更大规模的目标检测数据集。我们的贡献总结如下：1）一个统一的框架Omni-DETR，可以适应各种形式的目标标注或它们的混合。2）一种基于二部匹配的新颖统一的伪标签过滤策略。3）实验结果表明，弱标注可以提供额外的收益，并实现比标准完整标注更好的准确性-成本权衡。4）对于固定的标注预算，对最佳标注混合的经验性探索表明，最佳混合取决于数据集。02. 相关工作0监督目标检测是计算机视觉中的一个基本问题[6, 15, 16, 27,29, 33, 34, 47]。大多数检测框架可以分为两组：两阶段[6,15, 16, 27, 34]和单阶段检测器[29, 33,47]。这些检测器通常有一些启发式步骤，例如提议检测、阈值处理、非极大值抑制等0图2. 最适合的注释格式因数据集而异。0etc. 最近，[7]基于transformer[48]提出了DETR框架，用于端到端检测。它将检测问题建模为集合到集合的预测问题，消除了一些以前的启发式方法，实现了更简单的检测流程。随后的Deformable DETR[52]改进了DETR的训练收敛速度慢的问题，并实现了更好的检测性能。我们的Omni-DETR也是基于这个端到端框架，现在扩展支持各种形式的注释。半监督目标检测（SSOD）通过使用额外的无标签数据[22, 30, 37, 41, 45, 50,51]来提高检测性能。普遍的SSOD范式是使用多阶段的自训练流程[37, 41,49]：1）在有标签数据上训练模型；2）在无标签数据上生成伪标签；3）在有标签和伪标签数据上重新训练模型；4）如果需要，重复此过程。一些最近的工作[22, 30,45]通过采用在线流程取得了很大进展。[22]利用单个图像的两个不同增强视图之间的一致性正则化。[30,45]依赖于一个mean-teacher框架[46]，其中teacher为student生成在线伪标签进行学习。Omni-DETR也基于这个mean-teacher框架，但使用不同的弱注释来生成准确的伪标签。弱监督目标检测（WSOD）旨在通过利用更便宜的弱标记数据来减少检测注释工作量。大多数工作只使用一种类型的弱注释，例如图像级标签[4, 17, 23, 42, 44]或实例级点[8,19,32]，并通常将WSOD形式化为多实例学习（MIL）问题。然而，到目前为止，这种方法的成功非常有限。一些最近的工作研究了弱半监督目标检测（WS-SOD）[9, 13,14]，使用少量完全标记的数据和大量额外的弱标记数据。这比WSOD显示出更有希望的结果。一般来说，不同类型的弱注释需要特定的检测算法，例如，[13,14]用于带有标签的WSSOD和[9]用于带有点的WSSOD。所提出的Omni-DETR与WSSOD密切相关，但可以适应各种3. Omni-DETR93690弱注释而不是单一注释。全方位监督目标检测（OSOD）结合了不同形式的注释来改进检测。它最早在UFO 2[35]中提出，该方法基于Faster R-CNN[34]框架，并将OSOD形式化为多任务学习问题。然而，UFO2只对添加弱注释的改进显示了非常小的提升，并且建议在固定的注释预算下，最好的选择仍然是完全注释。然而，我们对Omni-DETR的实验观察到了相反的结果：弱注释是有帮助的，并且在固定的注释预算下，混合注释是一个比完全注释更好的解决方案。表1总结了使用不同类型注释的目标检测相关工作，而我们的Omni-DETR是一个比以前的工作更通用的注释格式框架。目标检测数据注释是一个昂贵且繁琐的任务[11, 12, 18, 25, 28,38]，需要注释者为每个对象选择正确的类别并定位准确的边界框。例如，[43]报告了一个高质量边界框的平均注释时间为35秒。每个COCO图像的关联类别的总估计时间为346秒[35]。这种高昂的注释成本阻止了检测数据集在图像数量、类别数量和对象数量方面的扩大。已经采用了几种策略来降低成本。例如，Caltech Pedestrian[11]在两个视频帧之间插值注释，OpenImages[25]先使用机器预测，然后进行人工验证，LVIS[18]只对图像进行少量正负类别的注释，而不是完整的类别注释等。其他方法尝试放宽准确的边界框注释，提出使用相对宽松的边界框[31]或近似中心点[32]。在这项工作中，使用Omni-DETR，我们经验性地发现准确和完整的检测注释并不是最经济的选择，混合注释可以在准确性和成本之间取得更好的平衡。0本节首先介绍Omni-DETR的整体框架，然后在下一节中介绍各种弱标注的统一伪标签过滤器。03.1. 全标注数据0Omni-DETR是一个统一的框架，用于结合全标注和弱标注数据。它假设有一个全标注数据集和一个弱标注数据集。完全标注数据集 D l = { ( x l i , y l i ) } N l i =1 ，其中 x l i是第 i 张图像， y l i = { ( b i,j , c i,j ) ∈ R 4 ×{ 1 , 2 , ...,C }} B i j =1 是相应的标签，由 B i 对 1) 四个坐标边界框 bi,j 和 2) 对应的类别 c i,j组成，为边界框定位的对象分配类别标签 c i,j 。0无0标签0带计数的标签0没有标签的点0带标签的点0没有标签的框0混合0SSOD [30, 45] �0带标签的WSOD [4, 23, 44] �0带点的WSOD [19, 32] �0带标签的WSSOD [13] �0UFO 2 [35] � � � � 我们的Omni-DETR � � � � � � �0表1. 使用不同弱标注进行目标检测的相关工作总结。0box b i,j 。弱标注数据 D o = { ( x o i , y o i ) } N o i =1，其中 y o i可以包含以下任何一种注释。为了简化符号表示，我们在后续的表示中省略了图像索引 i，将完全标注的数据集称为标注数据集，将弱标注的数据集称为全标注数据集。Omni-DETR支持以下任何一种或它们的混合形式作为图像 x 的弱标注：无（None） y = � ，图像x 没有任何注释；标签（TagsU） y = { c j } M j =1 ，其中c j 是图像级别的类别列表，M是标签的数量。在图1（顶部）的示例中，M = 2 ，c 1是“马”和 c 2 是“羊”。带计数的标签（TagsK） y = { (c j , n j ) } M j =1 ，其中 n j 是类别 c j的对象数量。在图1（顶部）中，c 1 是“马”，n 1 = 1，c 2 是“羊”，n 2 = 3 。没有标签的点（PointsU） y ={ p j ∈ R 2 } P j =1 ，其中 p j是对象的点注释，例如对象的几何中心或图像中对象支持区域内的随机点，P是点的数量。在图1（顶部）中，四个点注释标识了四个没有类别信息的对象。带标签的点（PointsK） y = { ( p j , c j) ∈ R 2 × { 1 , 2 , ..., C }} P j =1。除了PointsU，还知道每个点的标签。在图1（顶部）中，标注了三只羊和一匹马的点和标签。没有标签的框（BoxesU） y = { b j ∈ R 4 } B j =1。标准的边界框注释，但删除了类别信息。B是框的数量。极限点击框（BoxesEC） y = { b j ∈ R 4 } Bj =1 ，其中 b j是从对象的极限点注释导出的框。这在[31]中引入，注释成本较低（5倍），但质量略低于BoxesU注释。03.2. 统一框架0图3给出了Omni-DETR框架的概述。受到最近半监督学习的学生-教师框架[40]和SSOD[30,45]的成功启发，我们的Omni-DETR也由学生检测网络 F s (x ; θ s ) 和教师检测网络组成。02 我们也会将“标签”和“类别”互换使用。L(xo,si , ˜yti),93700F t ( x ; θ t ) 。对于全标注数据 ( x o , y o ) ∈ D o，通过强增强和弱增强生成图像 x o 的两个视图，分别是 xo,s 和 x o,w 。弱增强视图 x o,w通过教师网络传递，产生检测预测 ˆy t = F t ( x o,w ; θ t )，包括类别预测 ˆy cls 和边界框预测 ˆy box。然后将预测结果 ˆy t 与可用的全标注 y o一起传递给伪标签过滤器 T ，生成伪标签 ˜y t = T ( ˆy t ;y o ) ，用于在强增强 x o,s上监督学生网络的学习。伪标签过滤器的详细信息将在第4节中讨论。这里的弱/强增强仅应用于教师/学生，因为弱标注可以为教师生成更准确的伪标签，而强增强可以使学生的学习更具挑战性。对于标注数据 ( x l , y l ) ∈ D l，也生成强增强和弱增强，分别是 ( x l,s , y l,s ) 和 ( x l,w , y l,w ) ，并将两者都输入学生网络进行学习。只有学生网络F s 通过标准 SGD 优化整体损失。0L s = �0i L ( x l,s i , y l,s i ) + L ( x l,w i , yl,w i ) + �0(1) 其中 L = α L cls + β L box (2)0是分类损失L cls 和边界框回归损失L box的加权和，α和β是相应的权重。教师F t通过来自学生的指数移动平均(EMA)进行更新[46]。0θ t ← kθ t + (1 − k ) θ s , (3)0其中k被经验性地设置为接近1的数值，例如0.9996。这种EMA更新的教师可以被看作是沿着训练轨迹的学生模型的时间集成，这使得它更加稳健，并能够生成更准确的伪标签[1,5,21]。请注意，当没有omni-label可用，只有无标签数据时，这将减少到无偏教师(UT)框架[30]，并且只使用无标签数据。由此可见，UT是Omni-DETR的基线，任何弱注释的添加都应该提高这个SSOD基线的准确性。这建立了比以前任何弱监督目标检测(WSOD)和弱半监督目标检测(WSSOD)工作[13, 23, 32, 44]更强大的基线。03.3. 检测架构0虽然对使用哪个检测器没有限制，但选择DETR是因为它已经去除了传统检测框架中的许多启发式过程[27, 29, 33,34]。这对于Omni-DETR是必要的，因为它需要适应许多不同类型的注释。0图3.Omni-DETR的框架，基于学生-教师框架。omni-label用于通过统一的伪标签过滤器过滤教师网络的预测结果，生成学生网络学习的伪标签。omni-label可以是第3.1节中介绍的任何注释。0DETR[7]是一个基于Transformer[48]的端到端目标检测框架。在DETR中，首先将标准的CNN主干应用于给定的图像，然后将输出特征展平，并跟随一个编码器Transformer。为了检测对象，通过将对象查询作为输入并交叉注意编码的视觉特征，应用解码器Transformer，生成最终的对象预测，包括类别和边界框预测ˆy cls和ˆybox。然后，使用匈牙利匹配[24]在对象预测和地面真实对象之间进行集合对齐。在匹配每个假设和地面真实对象之后，使用标准学习来优化分类任务(使用多类交叉熵损失)和边界框回归任务(使用广义IoU和L1损失)。由于原始DETR的收敛速度较慢，我们使用DeformableDETR[52]以加快收敛速度。03.4. 训练0整体模型的训练分为两个阶段：1)仅使用标记数据对学生网络进行预烧训练；2)使用标记数据和omni-label数据对学生-教师进行训练，其中教师模型通过复制预烧学生模型进行初始化。04. 伪标签过滤0如图3所示，伪标签过滤器是我们Omni-DETR中利用弱注释的关键组件。它接收检测预测和omni-labeled图像的可用omni-labels，并生成伪标签来监督学生的学习。04.1. 简单的伪标签过滤0首先，我们提出了一些简单的伪标签过滤方法来处理不同的弱注释。目标检测器通常输出每个检测到的边界框bj的置信度向量sj∈[0,1]C。生成伪标签的一种常见方法是简单地对这些分数进行阈值处理。如果只有标签监督(TagsU)可用，可以通过对地面真实类别cj的置信度sjj进行阈值处理来生成伪标签。对于一个地面真实类别，如果没有预测大于置信度阈值的情况，那么将检索出前1个预测作为该类别的伪标签。当ˆσ = arg minσ∈℘KLtmatch(gi, ˆyσ(i)) = 1 − pciσ(i).(6)Lpmatch(gi, ˆyσ(i)) = (di,σ(i) + ei,σ(i)) ∗ ηi,σ(i),(7)93710如果有计数监督可用（TagsK），对于每个真实类别cj的nj计数，可以扩展为选择类别cj的前nj个预测。如果有点监督可用（PointsU），类似的策略是选择包含真实点的预测边界框。如果有额外的标签监督可用（PointsK），可以扩展为选择类别预测与点标签匹配的候选项[35]。然而，这些经验过滤规则对于每种类型的弱监督都是特定的，并没有提供统一的伪标签解决方案。04.2.统一伪标签过滤0接下来，我们介绍提出的统一方法3。形式上，过滤器应用于˜y=T(ˆy;yo)，其中ˆy={ˆycls，ˆybox}是教师网络的预测，ˆycls和ˆybox分别是类别和边界框的预测。这里，我们定义ˆycls=[z1，...，zK]T∈RK×C和ˆybox=[ˆb1，...，ˆbK]T∈RK×4，其中zk是逻辑向量（softmax之前的网络输出向量），ˆbk是相关的边界框预测，K是对象查询的数量。yo是第3.1节中的全标签。04.2.1无注释0当没有可用的注释（None）时，伪标签是从置信度得分中得出的，就像在SSOD[30]中使用的那样。具体而言，ˆycls被馈送到softmax层，产生[K个类别的概率p1，...，pK]T∈RK×C，其中pk是查询k的C个类别的概率。第k个预测的预测类别定义为ˆck=argmaxcpck，置信度得分定义为相关概率sk=pˆckk。通过收集预测索引集合I={k|sk>τ，k∈[1，K]}，使用边界框预测ˆybox=[ˆb1，...，ˆbK]T∈RK×4，然后定义伪标签为{(ˆbk，ˆck)|k∈I}，其中ˆbk是伪边界框，ˆck是其伪类别。04.2.2弱标注0受DETR[7]的启发，我们将伪标签过滤问题形式化为一个二分匹配问题，即教师预测的K个预测和可用的G个真实全标签{gi}Gi=1（Gτ，k∈[1，K]}|)，（5）0其中，pck是将第k个预测分配给类别cj的概率，|∙|表示集合的基数。预测计数是通过置信度阈值筛选的预测数量，如果没有，则设置为1。这是因为每个真实标签至少有一个对象。为了适应（4）中关于G个真实标签的匹配，我们将真实标签集重新写为{gi}={ci}Gi=1，其中G=∑Mjnj，每个标签cj重复nj次。请注意，对于不同的i，如果同一类别有多个对象，则ci可能相同。Lmatch(gi,ˆyσ(i))在（4）中定义为0在进行二部匹配（ 6 ）之后，伪标签为 { ( ˆ b ˆ σ ( i ) , c i )} G i =1 ，其中 ˆ σ ( i ) ∈ { 1 , ..., K }是与第i个真实omni标签匹配的索引。 ˆ b ˆ σ ( i )是预测的框， c i 是可用的真实类别。0当已知标签及其计数时， y o = { ( c j , n j ) } M j =1，其中 n j 是类别 c j的对象数量。不再需要预测计数。可以使用（ 6）计算最优匹配，以获得伪标签 { ( ˆ b ˆ σ ( i ) , c i ) } G i=1 。0当已知对象的点时， y o = { g i } = { p i ∈ R 2 } G i =1，其中 p i 是一个点，总共有 G 个点。匹配成本定义为0其中 d i,σ ( i )是预测框中心与真实点之间的L2归一化距离，通过最小-最大归一化在K×G距离上归一化到[0, 1]，而 e i,σ ( i ) = 1 −s σ ( i ) ，其中 s σ ( i ) 是 σ ( i ) -th预测的置信度。最后， η i,σ ( i )是一个指示器：如果第i个真实点在第 σ ( i )个预测框内，则 η i,σ ( i ) = 1 ，否则 + ∞。这个成本鼓励所选的预测框以小的几何距离和高置信度覆盖真实点。通过匈牙利匹配优化（ 7 ）获得伪标签 { ( ˆ b ˆσ ( i ) , ˆ c i ) } G i =1 。Lmatch(gi, ˆyσ(i)) = γLtmatch + (1 − γ)Lpmatch,(8)93720当已知对象的点和标签时，真实标签是 y o = { g i } = { (p i , c i ) ∈ R 2 × { 1 , 2 , ..., C }} G i =1 。我们将（ 6）和（ 7 ）线性组合作为整体匹配成本，0其中 γ 是权衡系数，以获得伪标签 { ( ˆ b ˆ σ ( i ) , c i ) }G i =1 。0当已知边界框但没有类别时， y o = { g i } = { b i ∈ R 4} G i =1 ，我们遵循[ 7 ]中的边界框成本定义，0L b match ( g i , ˆy σ ( i ) ) = λ iou L iou ( g i , ˆ b σ ( i ))+ λ L1 || g i − ˆ b σ ( i ) || 1 , (9) 其中 L iou是广义IoU损失[ 36 ]，以获得伪标签 { ( b i , ˆ c ˆ σ ( i ) ) }G i =1。尽管BoxesEC和BoxesU具有不同的框质量，但它们在此处的匹配成本中没有区分。上述讨论将所有弱注释的伪标签过滤统一为一个二部匹配问题，通过对集合匹配问题进行全局优化来执行。实验中将显示这种方法优于第4.1节的启发式选择。05. 实验0Omni-DETR在不同的数据集和设置上进行了广泛评估。05.1. 实验设置0数据集：MS-COCO [ 28 ]，PASCAL VOC [ 12 ]，Bees [ 3]，CrowdHuman [ 39 ]和Objects365 [ 38]用于评估。为了评估和比较Omni-DETR与解决不同问题的方法，我们使用[ 13 , 30 , 35 ]的多个实验设置。 (I)COCO-standard：我们从COCO train2017中随机采样 { 1 , 2, 5 , 10 , 20 , 30 } %的数据作为完全标记的训练数据，其余数据作为omni标记的训练数据。 (II)COCO-35to80：我们使用COCO-35（也称为valminusminival），即COCOtrain2017的35K图像子集，作为完全标记的数据，使用COCO-80，即COCO train2014的80K图像，作为omni标记的数据。(III) VOC-07to12：我们使用VOC07trainval作为完全标记集，VOC12trainval作为omni标记集。在COCO上，模型性能在COCOval2017上评估，在VOC上评估VOC07test。实现细节：为了公平比较，使用在ImageNet [ 10 , 20]上预训练的ResNet-50作为骨干网络。置信度阈值 τ = 0 . 7。对于强数据增强，按照[ 30 , 52]的方法，我们应用随机水平翻转、随机调整大小、随机尺寸裁剪、颜色抖动、灰度、高斯模糊和cutout补丁。对于弱数据增强，只使用随机水平翻转。为了模拟点注释，我们按照[ 9 , 35]的方法随机选择一些点作为真实标签。0mAP AP 50 AP 75010% 监督 28.0 44.3 29.5 + 90% 无 32.449.3 34.5 + 90% 标签U 34.7 52.4 37.2 +90% 标签K 35.2 53.5 37.7 + 90% 点U 34.151.9 36.2 + 90% 点K 35.7 54.2 38.6 + 90%方框EC 36.4 54.6 39.3 + 90% 方框U 36.854.8 39.40表2. 不同弱注释对10%COCO-standard完全标记数据基线的影响。0如果数据集具有实例分割，我们从实例掩码中采样一个点，否则在每个边界框内随机采样一个点。对于ExtremeClicking方框，由于[31]在VOC上只有部分注释，我们通过向其真实边界框注释添加噪声来模拟其他数据集上的类似注释，以使得生成的方框与VOC上的ExtremeClicking的分布接近。更多细节请参见补充材料。所有实验都使用教师模型进行检测性能评估。我们使用AP50:95作为评估指标，除非另有说明。为了加快实验速度，图像的最小高度和宽度设置为600像素，除了与使用标准800像素尺寸的其他方法进行比较的实验。05.2. 单一注释的评估0在COCO-standard-10%的设置下，我们首先在表2中评估了Omni-DETR在各个弱注释上的效果，以研究每个弱注释的影响。基线是在10%标记数据上进行标准监督学习。有几个观察结果可得。首先，额外的90%未标记数据在使用半监督学习时将基线提高了4.4％。添加额外的弱标签始终可以提高性能1.7-4.4％。其次，在所有注释格式中，点U的效果最小，方框U的效果最大。第三，ExtremeClicking方框（BoxesEC）经济实惠：比方框U的高质量方框差0.3％，但成本低5倍。第四，计数注释相对于标签注释（标签U对比标签K）提供了0.5％的增益。第五，将标签信息添加到点上（点U对比点K）可以提高1.6％。05.3. 与最先进方法的比较0Omni-DETR与以前的方法在不同的设置下进行比较。在本节中，“Supervised”是仅在可用的完全标记数据上进行训练的监督DeformableDETR基线。SSOD当没有注释可用时，Omni-DETR成为标准的半监督检测器，在表3中与其他SSOD方法进行比较。我们实现了监督的Faster R-CNN和Deformable1%5%10%20%5%10%20%30%0.50.60.70.80.90.000.250.50.751.00937301% 2% 5% 10% VOC0Faster R-CNN [30, 34] 9.1 12.7 18.5 23.9 42.1 FasterR-CNN� 11.7 14.9 20.7 25.6 42.6 Deformable DETR� 11.014.7 23.7 29.2 46.2 STAC [41] 14.0 18.3 24.4 28.6 44.6Unbiased Teacher [30] 20.8 24.3 28.3 31.5 48.7 HumbleTeacher [45] 17.0 21.7 27.7 31.6 53.00Omni-DETR 18.6 23.2 30.2 34.1 53.40表3.在COCO-standard和VOC-07to12上的SSOD结果比较。�表示我们的实现。0UFO 2 [35] 29.1 29.4 (+0.3) 30.1 (+1.0) Omni-DETR34.3 39.4 (+5.1) 40.2 (+5.9)0表4. 在COCO-35to80上与UFO2的WSSOD比较。括号中的数字是相对于监督基线的增益（UFO2使用Faster R-CNN，而我们使用Deformable DETR）。0监督 11.0 23.7 29.2 33.6 Fang等人[13] 18.4 27.4 31.335.00Omni-DETR（我们的模型）20.1 31.7 35.9 38.10表5. 在COCO-standard上使用标签的WSSOD结果比较。0DETR仅在标记数据上进行训练，作为基线。Omni-DETR在COCO的5%和10%，以及VOC上取得了最好的结果，并且在COCO的1%和2%上与最先进的方法相当。请注意，我们的Omni-DETR并不是专门为SSOD设计的，但它仍然取得了竞争力的结果。当有额外的标签注释可用时，SSOD变为带有标签的WSSOD。我们在他们的设置上与最先进的方法UFO 2[35]和Fang等人[13]进行比较。结果在表4和5中报告，显示我们的模型始终优于[13,35]。值得注意的是，在表5中，我们的模型在5%（10%）标记数据上训练时达到了31.7（35.9）的mAP，高于[13]在10%（20%）标记数据上训练的结果。在表4中，我们使用标签将监督基线提高了5.1％，而UFO 2的提高仅为0.3％。我们相对于UFO2的绝对改进为10％。当有额外的带有标签的点注释可用于SSOD时，问题变为带有点的WSSOD [9]。在表6和4中，将Omni-DETR与Point DETR和UFO2进行比较。从表6中可以看出，我们相对于PointDETR有显著优势（5-7％）。在表4中，使用点时，Omni-DETR相对于监督基线提高了5.9％，而UFO 2提高了1％，我们相对于UFO2的绝对增益为10.1％。OSOD除了表4之外，我们还与UFO 2进行了比较0在[35]的X % B设置上，其中X %B是使用COCO的10K图像的不同注释策略。在固定预算下，X %的预算用于完全标记的注释04 [26]提到Unbiased Teacher对于较小的批量大小较弱。0监督 23.7 29.2 33.6 35.2 Point DETR [9] 26.2 30.433.3 34.80Omni-DETR（我们的方法）32.5 37.1 39.0 40.10表6. 在COCO-standard上使用点进行WSSOD的比较。0UFO 2 [35] 14.1 11.1 4.5 Omni-DETR 21.519.5 9.10表7. 在COCO上与UFO 2的OSOD结果比较。0简单过滤统一过滤0TagsU TagsK PointsU PoinsK TagsU TagsK PointsU PointsK33.3 33.8 32.4 34.6 34.7 35.2 34.1 35.70表8. 在COCO-standard-10%上与简单过滤器的比较。0None 28.9 31.5 32.4 31.4 29.9 TagsU 31.134.1 34.7 33.9 33.10表9. 在COCO-standard-10%上τ的影响。0PointsK 34.1 35.3 35.7 35.5 35.20表10. 在COCO-standard-10%上γ的影响。0tions，其余的在PointsK上。如表7所示，Omni-DETR仍然相对于UFO 2具有一致的显著增益。05.4. 消融研究0我们在COCO-standard-10%设置上对Omni-DETR的一些关键组件进行了消融实验。与简单过滤器的比较：我们将提出的统一伪标签过滤器与第4.1节的简单过滤器进行了比较。表8显示，在不同设置下，提出的统一过滤器优于简单和启发式过滤器。这是因为统一过滤器中的匹配是通过匈牙利算法进行的全局解，而不是像简单过滤器中的启发式解。置信度阈值：第4.2.1节和（5）中使用的置信度阈值τ决定了伪标签的质量和数量之间的权衡。较大的τ导致通过阈值的示例较少，但质量较高，而较小的τ允许通过的示例更多，但更容易出现误报。表9报告了不同τ值（0.5到0.9）的结果。τ =0.7是最好的。γ的影响：（8）中的超参数γ在点注释的匹配过程中平衡位置和标签的重要性。其效果在表10中进行了评估，γ =0.5是最好的。伪边界框：在无偏教师[30]中，伪边界框不用于从无标签数据中学习，因为类别置信度分数不能反映边界框的好坏。然而，我们发现伪边界框是有用的，并且在我们的实验中提供了一致的0.5-1%的改进。一个可能的1020304050607020253035404550552004006008001000262830323436385075 100 125 150 175 200 6003840424446485014832333435363738281091011121314Fully+None10%Fully+90%TagsU10%Fully+90%TagsK10%Fully+90%PointsU10%Fully+90%PointsK10%Fully+90%BoxesEC10%Fully+90%BoxesUFully+TagsK+BoxesECFully+None+BoxesECFully+PointsU+BoxesECTagsUTagsKPointsUPointsKBoxesECBoxesUBees-6.16.46.450249.9 249.9CrowdHuamn-19.420.420.4158.5 792.4 792.4VOC20212.222.916.884102.6COCO8084.26.988.753.9269.5346Objects365365375.814.2381.7 110.655391393740小时0mAP0Bees0小时0mAP0CrowdHuman0小时0mAP0VOC0mAP0COCO0mAP0Objects3650图4. 精度（mAP）和注释成本的权衡。灰线是SSOD基准参考线。绿点表示使用不同弱标签的WSSOD结果。红色、蓝色和紫色线条分别是不同混合注释选择的OSOD结果。0改进的原因是Omni-DETR伪边界框的更高质量。05.5. 考虑预算的全监督检测0我们还经验性地研究了几种注释策略的注释成本和准确性之间的权衡。这里，注释策略是指混合不同注释格式的策略。我们测试了五个具有不同特征的多样数据集。每种注释类型的注释成本，以每张图像的秒数为单位，如表11所示，参考了[2, 31, 35,43]。对于每个数据集，我们

下载后可阅读完整内容，剩余1页未读，立即下载