弱监督检测变换的方法在对象检测任务中的应用

72 浏览量更新于2023-10-16 收藏 2.23MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

85基于弱监督检测变换的Tyler LaBonte1，3 Yale Song2* Xin Wang1 Vibhav Vineet1 Neel Joshi11微软研究院2Meta AI，FAIR3佐治亚理工tlabonte@gatech.edu，yalesong@meta.com，{wanxin，vivineet，neel} @microsoft.com摘要关键的对象检测任务是微调现有模型以检测新对象，但是标准工作流程需要边界框注释，这是耗时且昂贵的收集。弱监督对象检测（WSOD）提供了一个有吸引力的替代方案，其中对象检测器可以使用图像级标签进行训练。然而，目前的WSOD模型的实际应用是有限的，因为它们只在小数据规模上运行，并且需要多轮训练和细化。为了解决这个问题，我们提出了弱监督检测转换器，它可以有效地将知识从大规模的预训练数据集转移到WSOD中，对新对象进行微调。此外，我们利用预训练的知识来改进WSOD方法中经常使用的多实例学习（MIL）框架。我们的实验表明，我们的方法在大规模新对象检测数据集上的性能优于以前的最先进模型，我们的缩放研究表明，对于WSOD预训练，类数量比图像数量更重要。1. 介绍目标检测是计算机视觉中的一项基本任务，其中监督神经网络已表现出卓越的性能[55，53，44，6]。一个主要因素这些方法的成功在于具有细粒度边界框和分割注释的数据集的可用性[20，43，38，27，59，39]。然而，与图像分类相比，用于对象检测的注释过程相当昂贵且耗时[50]。我们考虑弱监督对象检测（WSOD），其目的是仅使用图像级类别标签（即，分类标签）。以前的WSOD模型[4，65]通常使用低精度高召回启发式[68，收回高可能性的提案。随着提案质量被确立为对象检测性能的主要因素[31]，实际方向是利用具有边界框注释的源数据集将语义（类感知）[67，5]或类不可知[69，81]知识转移到新对象的目标数据集这些策略使WSOD模型能够通过分别利用源数据集和目标数据集之间的类和对象相似性来生成更准确的建议和分类虽然源数据集中存在许多类被认为是有效传输的必要条件[69]，但当前的WSOD方法通常是为具有很少类的数据集设计和训练的。文献中广泛使用的设置是COCO-60[43，40]（60类）到PASCAL VOC[20]（20类），据我们所知，最大的源数据集是 ILSVRC-179[58，81]（179类），最大的新对象目标数据集是ILSVRCval 1b（100类）。这有两个主要的缺点，限制了WSOD模型在实践中的使用。首先，当目标数据集中的对象与源数据集中的对象在视觉上相似时，知识转移是最有效的。在应用中，对少数类别的培训可能会限制知识转移有帮助的领域。其次，当前的WSOD模型在多轮训练和细化[65，81]或在目标数据集上训练广告语义模型[5]的情况下表现最好。除了额外的计算之外，这些方法还需要人类来识别，例如，优化或伪地面真相挖掘步骤的最佳数量，如果存在数百个新类和许多下游任务，则这是不可扩展的。相比之下，实践中所期望的类似于预训练-微调框架，它在分类和完全监督的对象检测中是标准的[28，8]（尽管不是WSOD）。具体来说，我们希望在具有数百个类的大规模注释源数据集上预训练单个检测模型，然后使用该模型对具有图像级标签的新对象进行弱监督微调。这样一个框架将使83]，然后使用多实例学习（MIL）[16，46]来1Uijlings et al. [69]从ILSVRCval1a（100班）转移到*在华盛顿州雷德蒙德OpenImages[39]（600个类），但有显著的类重叠。86××框共享对象类预先训练和冷冻预先训练和微调从头开始训练图1：WS-DETR是一种混合方法，利用类不可知的DETR作为建议生成器，并利用类感知的DETR进行弱监督微调。这两个流共享对象查询。MIL分类器利用来自预训练的类不可知DETR的对象知识，仅使用图像级标签来检测新对象。实践者“毫不费力地”解决WSOD任务：源数据集的规模和多样性允许知识转移到各种不同的领域，而简单的单轮微调过程将使得能够进行计算上有效的WSOD训练，而无需语义模型或多轮细化的额外成本。为了解决这个实际场景，我们提出了弱监督检测Transformer（WS-DETR），它将DETR [6]与MIL架构集成在一起，用于对新对象进行可扩展的WSOD微调（详细信息见图1）。基于Transformer的方法非常适合这个问题，因为虽然它们缺乏CNN的归纳偏差，但它们擅长于视觉任务的大规模训练和迁移学习[6，18]。事实上，Transformer[70]是广泛使用的机器学习工作流的基础，在该工作流中，大量预训练的模型被微调以生成各种各样的下游任务，这与我们期望的WSOD框架密切相关。现有的MIL架构[4]主要基于两阶段Faster R-CNN-like[55] 结构，其中对对象提案执行感兴趣区域（RoI）池化，并将所得特征传递给分类头。我们的WS-DETR是一个混合体，它将这个两阶段框架的主动建议生成与Transformer模型的可伸缩性和简单性相结合。2我们在源数据集上用二进制对象标签预训练一个类不可知的DETR作为建议生成器，然后用冻结框预测器初始化一个模型，该模型来自一个类感知的DETR，该DETR在检测注释（包括类）上进行预训练，用于WSOD训练。代替RoI池，我们使用DETR此外，我们利用预先培训的知识，以改善MIL培训在两个方面。首先，我们证明2Zhuet al. [82]在完全监督的情况下，将DETR与两阶段方法相结合;我们的方法和目标不能直接比较。[81]的对象性正则化是用于合并预训练的类不可知模型的对象提议分数的最先进技术，其成为众所周知的MIL弱点的牺牲品，即过度拟合到新颖对象的独特分类特征[65]。我们提出了一种新的公式来估计联合对象和类概率，它可以纠正这个错误，而不需要框细化步骤[65]。其次，由于建议生成器输出hun-animals的对象建议，但只有少数几个有信心的，我们介绍了稀疏沿检测维中的MIL分类，提高性能，强调正确的分类有信心的建议。我们评估我们的WS-DETR的各种严格和具有挑战性的WSOD域的性能。对于大规模新对象检测，我们利用少镜头对象检测（FSOD）数据集[21]，其比用于WSOD的先前最大数据集[58，69，81]多4个源类和2个新目标类，并使用语义分割来最大化新颖性。与[81]相比，我们实现了最先进的性能，[81]的类不可知转移设置与我们密切相关。我们的WS- DETR在细粒度域的WSOD训练中是有效的-这是一个收集边界框标签很困难的实际场景 [30]。我们在 FGVC-Aircraft [45] 和iNaturalist [30]数据集上评估了细粒度的WSOD性能，并在多达2，854个类上展示了最先进的结果。最后，我们的缩放研究表明，对于WSOD预训练，类数量比图像数量更重要，这可能会为未来的数据集构建提供信息。2. 相关工作WSOD和MIL。早在深度学习时代之前，WSOD就已经被表述为MIL问题[16，46]。每个图像都被认为是一个包，对象建议作为实例，如果包包含某个类的至少一个实例，则该包对于该类是正的。该模型通常通过低精度高召回启发式算法[68，83]提供候选建议，并通过最小化类来学习识别最准确的建议对象分数框预测器类感知Transformer解码器类无关Transformer解码器类感知DETR主干类无关DETR主干MIL分类器87×j=1j=1--包装袋标签的识别错误。弱监督深度检测网络（WS- DDN）[4]是一种特别有效的方法，它将MIL集成到端到端学习框架中，联合优化分类层和检测层。随后的工作通过自我训练和框细化改进了WSDDN[35，15，65，80，77，66，75，79，37，56]， spa-[71]第一个问题是，如何确定一个最优解的最优解的最优解，[61]和分段[26，62，41]。我们的WS-DETR中的MIL分类器采用了类似WSDDN的方法，但我们建议使用类不可知模型的对象分数直接计算联合对象和类概率，不扩展WSDDN的值得注意的WSOD架构包括[29，2，60，1]。自我关注的方法也被[78，10，74，33，73，48，51，72，49，25]，尽管他们专注于注意力地图而不是Transformer训练。WSOD与知识转移由于初始框质量对WSOD性能至关重要[31]，因此使用启发式生成建议通常是不够的且不切实际的。有几种策略从完全或部分注释的源数据集中转移知识，这些数据集的类可能与目标对象不一致，包括对象计数注释[23]，语义关系[69，67，5]，分段[69，67，5]。[63]，客观评分[14，69，42，81]，框重新-[17]和外观转移[57，34，52，5]。此设置也称为域自适应、迁移学习或混合监督对象检测。我们的目标是实现从大型源数据集到各种目标域的简化知识转移，因此我们通过使用WSOD中预训练的类不可知模型的建议和分数来我们主要比较我们的方法，钟等人。[81]，最先进的快速R-CNN方法。除了架构，另一个关键的区别是，[81]允许对源数据集进行多次细化，而我们的方法只需要一次预训练迭代。检测Transformer（DETR）。与CNN相比，基于Transformer的方法[70]需要更多的数据和训练时间，但在大数据领域表现出色，并且在迁移学习方面特别有效[18]。DETR[6]引入了一个用于对象检测问题的Transformer框架。在DETR管道中，图像特征在被传递到Transformer编码器之前使用ResNet[28]主干进行扩展。解码器将许多学习对象查询作为输入，并关注编码器输出，前馈网络从中产生框和类预测。与FasterR-CNN[55]不同， DETR是用一组预测损失训练的，不需要非最大抑制、空间锚点或RoI池。社区在改进DETR方面取得了重大进展，实现了更快的收敛[82，24，11]和预训练任务[12，3]。我们扩展了可变形DETR[82]，使用高效的注意力机制进行更快的训练，以及DETReg[3]，它使用无监督的预训练来提高下游定位性能。据我们所知，我们提出了第一个基于MIL的DETR变体，适用于WSOD任务。值得注意的是，Chen等人[7]将DETR扩展到基于弱点的注释，这是一个不涉及MIL的不同设置3. 弱监督检测Transformer我们提出了弱监督检测变换器（WS-DETR），它集成了DETR与MIL的缩放WSOD微调新的对象。与之前需要多轮框细化[65]或伪地面实况挖掘[81]的工作相比，WS-DETR简化了过程，只需要预训练和单轮MIL训练。与其他基于transformer的方法一样，WS-DETR特别适用于大型预训练数据集。对于WSOD应用程序，这使得更准确的理解对象，从而在知识转移到新的对象更高的性能。3.1. 类无关DETR在预训练期间，我们利用在源数据集的二进制对象标签上训练的类不可知的DETR来预测边界框建议和对象置信度得分，以供WSOD微调期间使用类不可知的DETR模型扩展了可变形DETR[82]，这是具有多尺度特征和改进的训练效率的vanilla DETR[6]的变体，并预测了N个对象提案的固定集合大小。我们使用N=300，可变形DETR的默认值。计算完Transformer功能后，带有ReLU的3层网络返回建议coor。表示{pj}N，并且全连接层返回classi，将ficationlogitssjN解释为客观性评分。在弱监督微调期间，全连接层被丢弃，而有利于分别用于分类和检测的两个C可选地，我们还可以训练一个完全监督的类感知DETR（即，使用监督类标签而不是二进制对象标签）。如果是，则类不可知模型用于对象建议和评分，而类感知模型用于初始化弱监督分支。这种策略带来了性能的提升（在4.5节中讨论），并且很方便，因为许多预训练的模型一开始就是类感知的。另一方面，使用单个类不可知模型作为建议生成器和初始化一半的计算。我们的WS-DETR和以前基于Faster R-CNN的WSOD模型之间的一个关键区别是DETR使用位置嵌入（也称为对象查询）而不是使用RoI池来学习端到端因此，我们冻结了对象查询和框预测88∈∈LLIJj=1IJy（6）jij=1L LLJIJIJIJIJCJJJIJΣNIJNΣΣ。2在微调预训练的DETR时，类不可知模型的头。如果使用类感知检查点，则对象查询被设置为与类无关模型的查询相等;因此，类感知的Transformer解码器关注与其类不可知的对应物相同的位置。3.2. MIL分类器如图1所示，MIL分类器接收分类逻辑数CRN×C和检测对数DRN×C，并将其转换为图像级分类预测。分类对数在类维（列）上进行软最大化令σ表示z∈RN的softmax运算：实验zi遭受过拟合不同分类特征的常见MIL弱点[65]。为了纠正这一点并更有效地利用DETR中的预训练知识，我们提出了一种基于每个建议的联合对象和类概率的MIL分类器公式 [54] 。对于给定的建议 i ，令 ci=max1≤j≤Cσ c（C）和di= max1≤j≤CS（Dij）分别是其最大分类概率和最大检测概率。有两种情况会导致这种过拟合问题。首先，如果对于特定类别j，ci较高，但Dij较低，则模型可以在obj中进行惩罚，以增加Dij并容易地最小化图像的MIL然而，这可以通过增加λ来避免。更可能的解释是基于对象正则化器的弱点：用于给定提议i，正则化器只关心值σ（z）i=exp（z）.（一）Di而不是它在行中的位置是否实际上我们将类方式和检测方式的softmax定义为argmaxσ c（C）= argmax S（Dij）。（五）σc（A）=σ（（A）j）i和σd（A）=σ（Ai）j，其中AiIJ1≤j≤C1≤j≤C是A的第i行MIL 分类器中的软最大化矩阵是σ c（C）和σ d（D）;然后将它们逐元素相乘并在检测维度上求和，以获得图像级别分类预测{y}C：y∈j=<$σc（C）σd（D）。（二）i=1由于σc（C）的行和σd（D）的列都是非整数，且和为1，所以我们有一个条件：阿尔岛然后，使用图像级标签{y}C来com-如果这些值不匹配，则这种失败情况将导致每个建议的置信度较低，并且基本上按ci对它们进行排序，从而导致过拟合。事实上，我们观察到，当使用我们的WS-DETR与对象正则化时，最终的置信度通常为0.01或更低。我们希望这些独特的fea的整体概率由于目标可能性较低，预先训练的模型应当认识到该特征并不表示整个对象。因此，我们计算概率P[第i个提议是类j的对象和实例]=J计算负对数似然损失：Cj=1σc（C）S（si）. 根据这一公式，要求某些建议应该既有重要分类，和客观性的概率，它被列入最后LMIL=−1μyj=1log g（y）+（1−y）log g（1−y）。（三）预测.通过softmax使用归一化概率[4]，我们得到了新的图像级分类预测从预训练的类不可知模型进行知识转移的最先进方法是[81]的对象规则化技术，该技术使用类不可知模型分支。设S（x）=1/（1+e-x）表示x∈R的sigmoid1NLobj=maxS（Dij）−S（s i）。（四）N国际新闻报i=1请注意，我们的技术与客观性正则化是互斥的。我们在4.2节中表明，我们的修改成功地防止了对独特分类特征的过拟合此外，我们的技术简化了网络，因为我们基本上是使用对象配置，N i=11≤j≤C来自预训练的DETR的信息代替可学习的因此，对于系数λ，模型损失为=MIL+λobj。在推理期间，WS-DETR返回具有类别预测和置信度的框pi，置信度由argmax1≤j≤Cσc（C）σd（D）确定。3.3. 联合概率估计我们在第4.2节中表明，[81]的对象正则化技术对于一般的WSOD是不够的，因为它可以与ciJ89在MIL分类器中的检测分支，并且它通过在没有Lobj的情况下最小化L MIL来提高收敛性。3.4. MIL分类器预训练的DETR中存在的对象性知识也可用于减少多实例学习期间的噪声902IJ∈∥ − ∥××表1：Faster R-CNN （由[81]使用）和DETR方法在FSOD- 800上训练的类不可知性能，并在每个FSOD-200测试分割上进行评估，忽略类。我们使用[81]的代码库，它没有报告这项任务的精度。方法地图AP50MarZhong等[81]第八十一话类无关DETR−十八岁4 ±1。0三十6 ±1。6−二十六岁9± 0。94四十三0 ±1。650块5 ±2。162. 3 ± 3。0六十五5 ±3。2客观性得分很高为了更好地关注这些confi- dent建议，我们建议利用稀疏沿检测维的MIL分类。为此，我们在 MIL 分类器中沿检测维度应用sparsemax函数[47]而不是softmax函数;该操作将某些低置信度框置零，从而增加了对可能建议的正确分类的强调。具体来说，sparsemax re-将向量z∈RN的欧几里得投影转换为（N−1）维概率单形<$N−1={p∈RN：1<$p= 1，p≥0}：sparsemax（z）= argmin p z 2。（七）p∈N−1然后，我们用sparsemax（Di）j代替等式2中的σ d（D），用sparsemax（s）i代替等式6中的σ（s）i。虽然有许多稀疏技术，但我们选择sparsemax是因为它的理论依据，它的易用性，无需超参数调整，以及它在以前的MIL架构中的成功应用[76]（尽管不是在WSOD中）。损失函数的结构也使得它特别适合于MIL问题。在一个transmarticular分类设置中，有可能在损失函数中得到 log （ 0 ）但是，由于我们将sparsemax（D）与元素> 0的σ c（C）逐元素相乘，因此在乘积的每一列中都有一些元素>0。因此，我们仍然有一个vey（0，1），我们仍然可以应用负对数似然损失。4. 实验4.1. 大规模新目标检测为了评估我们的WS-DETR在高度新颖的对象上的性能，我们利用了少镜头对象检测（FSOD）数据集[21]，旨在测试少镜头学习模型在不同环境中对新颖对象的泛化性能。Fan等人[21]从现有的大规模监督数据集ILSVRC[58]和Open Images[39]构建了数据集，并将其语义树合并为Open Images超类。FSOD数据集包含1000个类，其中800个类保留用于训练表2：在FSOD-800预训练的FSOD-200分裂上的WSOD性能。我们的WS-DETR是用类无关的建议生成器和类感知的权重初始化的。受监督的DETR从类感知的FSOD-800检查点进行微调。方法地图AP50MarZhong等[八十一]20块6 ± 0。76三十二7 ±2。0三十四4 ±0. 43WS-DETR基础十三岁9 ±1。620块0 ± 1。9六十岁。1± 2。4WS-DETR稀疏28岁5 ± 0。86三十八岁。5± 0。6368岁0 ±4。3WS-DETR接头28岁6 ± 0。43三十七8 ±0。87六十五3 ±1。5WS-DETR完整28岁6 ± 0。25三十八岁。2± 1。167岁4 ±3。9监督DETR四十七7 ±1。3六十四0 ±1。0七十六。3± 1。2200个用于测试-我们称这些数据集为FSOD-800 和FSOD-200。生成这种训练/测试分割，使得测试类与语义树中的现有训练类别具有最大的距离，从而实现对真正新颖对象的泛化的挑战性设置。与少镜头对象检测相比，WSOD需要新对象的目标数据集进行模型微调。因此，我们利用FSOD-800作为预训练的源数据集，并创建了FSOD-200的三个随机训练/测试分割，用于对新对象进行训练和评估，这些对象将被发布用于可重复性。我们报告了基于具有两个自由度的t分布FSOD-800有52，350张图像，147，489个盒子，而FSOD- 200每个分裂有11，322张训练图像，28，008到28，399个盒子，2，830张测试图像，6，703到7，094个盒子。此设置比以前用于WSOD的最大数据集有4个源类和2个目标类[58，69，81]。虽然一些WSOD方法使用正确定位（CorLoc）度量[13]来评估定位精度，但该度量过于宽松，因为它只需要定位每个图像的单个对象。因此，我们改为使用每幅图像100次检测的平均召回率（mAR）来比较与类别无关的建议质量，尽管我们也报告了平均精度（mAP）和AP50进行比较。在表1中，我们比较了类不可知和类感知DETR与在FSOD-800上训练并在每个FSOD-200测试分割上评估的类不可知Faster R-CNN的性能。对于类感知的DETR，我们忽略类预测，只评估盒子两种DETR变体的性能都优于Faster R-CNN，并且类不可知的DETR和类感知的DETR具有相似的召回率，尽管类不可知的DETR具有更好的精确度。我们在第4.5节中展示了这种精度的提高转化为卓越的WSOD性能，证明了类不可知模型的额外预训练是合理的。为了简洁起见，我们使用第3.3节和第3.4节中的技术为WS-DETR的每个排列引入了短名称。“基础”指的是我们的模型，对象性注册表-91(a) WS-DETR Base（b）WS-DETR稀疏(c)WS-DETR接头（d）WS-DETR Full图2：我们的联合概率技术如何防止过度拟合FGVC-飞机数据集上的独特分类特征的可视化。最佳电子观看和放大。模型（c）和（d）都使用我们的技术。绘制的框是最高置信度检测。[81]的正则化;“稀疏”是指我们的稀疏性和对象正则化;“联合”是指我们的联合概率估计;而“完整”是指我们的稀疏性和联合概率估计。然后，我们在每个FSOD-200分割上使用类不可知的pro-bandwidth生成器和类感知的权重初始化来训练我们的WS-DETR。在表2中，我们详细介绍了我们的模型相对于[81]的最新基线和监督DETR上限的性能我们的联合概率技术或稀疏性的增加使mAP比WS-DETRBase提高了这表明，对于WS-DETR，正则化本身不足以将从源数据集学到的环对象性知识传递到下游WSOD任务。特别是，正如我们在下一节中所展示的，我们的联合概率技术对于防止过度拟合独特的分类特征至关重要此外，虽然[81]的方法在弱监督训练期间损失了15 mAR，但我们的WS-DETR相对于类不可知的预训练模型获得了2.5 mAR。4.2. 联合概率防止过拟合FGVC-Aircraft数据集[45]包括100种飞机的10，000张图像，其视觉特征在类别之间可能仅略有不同。它提出了一个相当简单的检测问题，因为目标对象很大并且居中。此外，由于“飞机”是FSOD-800源类之一，人们期望WSOD模型在此任务中表现良好。我们表明，我们的联合概率公式实现了这一结果，而在以前表3：使用FSOD-800预训练的FGVC-Aircraft数据集上的WSOD性能使用我们的联合概率技术的模型实现了接近监督的性能，而对象正则化方法由于过度拟合独特的分类特征而表现不佳。方法地图AP50MarZhong等[八十一]14.828.730.5WS-DETR基础5.28.563.4WS-DETR稀疏50.657.493.2WS-DETR接头77.783.693.4WS-DETR完整79岁。1八十五094 2监督DETR87.188.797.9工作[81]限制了检测性能。特别是，以前的模型对不同的分类特征--这里是飞机的机头或机尾--过拟合，这是[65]观察到的一个弱点，其补救方法已成为几个WSOD研究的主题[65，75，33]。这些解决方案通常包括通过自训练进行的多轮迭代框细化。相比之下，我们的方法利用来自预训练模型的对象知识来识别正确的建议，而无需任何额外的计算。在图2中，我们可视化了我们的WS-DETR方法的优势，以及它如何正确地选择覆盖整个飞机的边界框，而对象正则化技术过度适应独特的特征。在表3中，我们展示了每个模型在FGVC- Aircraft测试集上的精确度和召回率，并证明我们的模型达到了接近监督水平的性能。4.3. 对2，854个细粒度类进行WSOD的一个实际应用是在具有许多类的数据集上，这些类需要特定于领域的知识来进行标记。这种多样性的一个范例是iNaturalist 2017数据集[30]，这是一个细粒度的物种数据集，包含50万个盒子和5，000个类，其中2，854个具有检测注释。事实上，Hornetal. [30] 注意到边界框标记是特别困难的 - 最新的iNaturalist数据集包含10，000个物种和270万张图像，这几乎不可能标记检测任务，并且代表了弱监督方法的高度实用场景。WS-DETR模型在FSOD-800的预训练中看到了不同类型的植物和动物，但远不及iNaturalist的粒度和多样性，因为它有数千个叶类。这使得iNaturalist成为WSOD培训期间研究知识转移的有趣环境。在表4中，我们详细介绍了WS-DETR在92表4：使用FSOD-800预训练的iNaturalist 2017数据集上的WSOD性能。我们的WS-DETR初始化与类无关的建议生成器和类感知的权重。监督的DETR上限是从相同的类感知FSOD-800检查点微调的。[81]的方法对于子类任务不收敛方法13个超类mAP AP50 mAR2，854个子类mAP AP50 mARZhong等[八十一]44. 1七十六。757.1−−−WS-DETR基础0的情况。20的情况。431.91.73.726.3WS-DETR稀疏61岁179岁。383.330.438.2七十七。6WS-DETR接头五十四8七十084. 322.129.875.5WS-DETR完整六十岁。778岁783.1三十五4四十三575.5监督DETR79岁。2九十三688.651.558.885.6数据集中有13个超类和2，854个子类。虽然[81]的方法没有收敛于子类，但我们的模型实现了75%的监督性能。iNaturalist实验揭示了几个有趣的现象。首先，我们的WS-DETR在没有我们的联合概率技术或稀疏性的情况下不收敛，这表明我们的技术提高了训练稳定性和性能。其次，稀疏性的加入，我们的联合概率技术提高了结果高达8.3 mAP，显示其多功能性和有效性，即使没有一个完全连接的检测分支。第三，我们的WS-DETR超过了最先进的17 mAP，但不到3 AP 50;这表明，虽然Faster R-CNN能够在适度的IoU阈值下定位对象，但我们的WS-DETR中改进的定位和知识传递可以对高精度WSOD性能产生重大影响。我们注意到，虽然WS-DETR Sparse有时会达到最佳性能，但我们仍然建议在实践中实现WS-DETR Full始终在最佳模型的0.5 mAP内得分，并且在没有关于目标数据集的独特特征的先验知识的情况下， WS-DETRSparse可能由于其对对象性正则化的依赖而过拟合因此，正如在FGVC-Aircraft和iNaturalist子类中所看到的，WS-DETR Full在细粒度数据集中大大优于WS-DETR Sparse。4.4. COCO-60对VOC的性能虽然源数据集中存在许多类被认为是有效传输的必要条件[69]，但以前的WSOD方法通常是针对具有少量类和小图像集的数据集设计和训练的。一个这样的设置是PASCAL VOC[20]（20类），其中知识转移方法使用COCO-60[43，40]（60类）进行预训练，没有类重叠。如第1节所述，依赖COCO-60/VOC具有限制在实践中使用先前WSOD模型的缺点。然而，为了完整性，我们已经在这个常见的测试用例上测试了我们的方法（详见表5）。我们最好的方法是下面的领先方法[81]。这表5：使用COCO-60预训练的PASCAL VOC 2007上的WSOD性能受监督的DETR从相同的COCO-60检查点进行微调。Zhonget al. [81]包括伪地面真相挖掘。方法地图AP50MarWSDDN[4]−34.8−CASD[33]−56.8−Zhong等[八十一]−五十九7−WS-DETR基础18.228.458.4WS-DETR稀疏24.236.557.7WS-DETR接头23.433.858.4WS-DETR完整23.634.257.6监督DETR55.377.372.7与我们相对于 [81] 对于具有数百个新颖对象（如FSOD）的不同数据集我们相信这种不一致性说明了我们的方法的好处，它可以利用大规模的预训练来对现实世界中常见的复杂数据集进行弱监督检测。我们的研究结果表明，这种优势是由于我们的模型的可扩展性和我们微调端到端检测模型而不是ResNet[28，81]等分类模型的新方法;然而，我们的模型的限制-以前的方法适用于小规模COCO- 60/VOC案例，但不适用于大型和多样化的数据集，我们认为这在现实世界的应用中更常见。结合我们在第4.5节中的缩放研究，这表明WSOD研究是时候超越COCO-60/VOC的过度优化，这对于现实世界的数据集来说不是一个有用的模拟，并解决我们在工作中研究的复杂数据集。4.5. 消融研究我们使用WS-DETR Full对FSOD-800预训练进行了缩放研究，发现类数量比图像数量对下游WSOD性能的贡献更大（见图3）。第1组，图中的实线，是FSOD-800的随机分割，表示所有类别。组2（图中的虚线）具有与组1相同该实验设置隔离了具有相同数量的总图像的增加的预训练类的效果。我们在每组的每个百分比水平上取3个FSOD-800随机分裂，并对3个FSOD-200分裂进行微调。我们报告的平均值和95%CI关于一个t分布与8自由度。这是第一次严格的测试和Uijlings等人的假设证明。[69]对于WSOD93×图 3 ： FSOD-800 预训练 WS-DETR Full 与 FSOD-200WSOD的缩放研究我们测试预训练与百分之图像与.一个百分比的类，然后执行WSOD训练和评估我们举行了测试集。这表明预训练类数量比图像数量对性能的贡献更大表6：WSOD性能在每个FSOD-200分裂与FSOD-800预训练。我们利用我们的联合概率技术和无稀疏性。类感知的DETR在FSOD-800上使用类标签进行预训练，而类不可知的DETR仅使用二进制对象标签进行预训练提议生成器重量初始化地图AP50意识不可知十八岁0 ±1。1二十四岁3 ±1。4意识意识二十二岁1 ±1。729岁7 ± 2。3不可知不可知二十七岁0 ±1。0三十五8 ±1。7不可知意识28岁6 ±0。43三十七8 ±0。87它证明了我们使用FSOD-800代替具有较少类的较大数据集（如COCO [43]）的合理性。我们测试的类的最低比例（160个类）仍然是COCO-60的近3倍[43，40];这个级别的性能差距表明用于WSOD预训练的标准数据集太小了。我们注意到，图3的峰值约为80%的数据;我们认为这是由于预训练数据集中不相关类的随机丢失。未来的方向是量化类多样性对WSOD性能的影响;事实上，我们和Uijlings等人。[69]使用数量作为多样性的代理，这在理论著作中已经被证明[19]对于有效地微调新类别是必要的。在我们的上述实验中，我们使用类不可知的预训练DETR作为建议生成器，并使用类感知的预训练DETR作为权重初始化。这需要预训练两个单独的DETR模型，这对于大型源数据集来说可能是在这些情况下，我们可以通过使用类不可知模型作为权重初始化来减少计算在表6中，我们详细介绍了图4：FSOD-200保持测试装置上WS-DETR Full的结果示例。最好是电子版的放大版。蓝色代表地面实况，红色代表我们的WS-DETR预测。模型在测试集中没有看到类的绑定框标签。不同的提案生成器和权重初始化策略在每个FSOD-200分割上的性能与最佳模型相比，使用类无关建议生成器和权重初始化训练的WS- DETR仅损失1.6 mAP和2.0AP 50;这表明，虽然在类感知预训练期间学习的特征空间是有用的初始化，但类不可知模型可以在WSOD微调期间学习大多数必要的特征。5. 结论我们提出了弱监督检测转换器（WS-DETR），它集成了DETR与MIL架构的可扩展WSOD微调新的对象。我们的混合模型利用了两阶段检测器和端到端DETR框架的优势与现有的WSOD方法（仅在小数据规模下运行，需要多轮训练和优化）相比，我们的WS-DETR利用单个预训练模型进行知识转移，以在各种实际领域中进行WSOD微调。我们在新颖和细粒度的设置中实现了最先进的性能，我们的缩放研究表明，对于WSOD预训练，类数量比图像数量更重要。潜在的负面社会影响。对象检测模型具有恶意监视的潜力。我们的系统可能会产生意想不到的负面影响，因为它减少了检测细粒度人群类别所需的标记;我们明确反对这些申请。此外，在大规模数据集上预训练Transformers的环境成本很大，因此我们将发布我们的检查点供其他人使用，以最小的增加排放。94引用[1] Baptiste Angles ，Yuhe Jin ， Simon Kornblith ，AndreaTagliasacchi 和 Kwang Moo Yi 。 MIST ：多实例空间Transformer。第34届IEEE计算机视觉和模式识别会议（CVPR），2021年。[2] Aditya Arun角V. Jawahar和M.帕万·库马尔基于相异系数的弱监督目标检测。第32届IEEE计算机视觉和模式识别会议（CVPR），2019年。[3] Amir Bar ， Xin Wang ， Vadim Kantorov ， Colorado JReed ， Roei Herzig ， Gal Raghik ， Anna Rohrbach ，Trevor Darrell和Amir Globerson。DETReg：使用区域先验进行无监督预训练，用于对象检测。第35届IEEE计算机视觉与模式识别会议（CVPR），2022年。[4] Hakan Bilen和Andrea Vedaldi。弱监督深度检测网络2016 年第 29 届 IEEE 计算机视觉与模式识别会议（CVPR）[5] Tianyue Cao ， Lianyu Du ， Xiaoyun Zhang ， SihengChen，Ya Zhang，and Yan-Feng Wang. CaT：弱监督对象检测与类别转移。2021年第18届计算机视觉国际会议（ICCV）[6] 尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛纳夫、尼古拉斯·乌斯尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁伊科。使用变压器的端到端对象检测。2020年第16届欧洲计算机视觉会议（ECCV）[7] Liangyu Chen ， Tong Yang ， Xiangyu Zhang ， WeiZhang，and Jian Sun.积分作为查询：基于点的弱半监督目标检测。第34届IEEE计算机视觉和模式识别会议（CVPR），2021年。[8] Wei-Yu Chen，Yen-Cheng Liu，Zsolt Kira，Yu-ChiangFrank Wang，and Jia-Bin Huang.更仔细地观察少数镜头分类。2019年第七届学习代表国际会议（ICLR）[9] Ze Chen，Zhihang Fu，Rongxin Jiang，Yaowu Chen，and Xiansheng Hua. Slv：用于弱监督对象检测的空间似然投票。第33 届IEEE计算机视觉和模式识别会议（CVPR），2020年。[10] 崔俊锡和沈贤贞用于弱监督对象定位的基于注意力的丢弃层。第 32 届 IEEE 计算机视觉和模式识别会议（CVPR），2019年。[11] Xiyang D

下载后可阅读完整内容，剩余1页未读，立即下载