ProposalCLIP：无监督开放类别对象提案生成方法

8 浏览量更新于2023-10-25 收藏 14.48MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

0.0 0.2 0.4 0.6 0.8 1.096110ProposalCLIP：利用CLIP线索进行无监督开放类别对象提案生成0Hengcan Shi，Munawar Hayat，Yicheng Wu，JianfeiCai澳大利亚莫纳什大学数据科学与人工智能系0{hengcan.shi, munawar.hayat, yicheng.wu, jianfei.cai}@monash.edu0摘要0对象提案生成是计算机视觉中的一项重要而基础的任务。在本文中，我们提出了ProposalCLIP，一种面向无监督开放类别对象提案生成的方法。与之前需要大量边界框注释和/或只能生成有限对象类别的方法不同，我们的ProposalCLIP能够通过利用CLIP（对比语言-图像预训练）线索，在没有注释的情况下预测各种对象类别的提案。首先，我们分析了CLIP在无监督开放类别提案生成中的作用，并根据我们在提案选择上的经验分析设计了一个基于对象性的得分。其次，我们提出了一个基于图的合并模块，以解决CLIP线索的局限性并合并碎片化的提案。最后，我们提出了一个提案回归模块，根据CLIP线索提取伪标签，并训练一个轻量级网络来进一步优化提案。在PASCAL VOC、COCO和VisualGenome数据集上进行了大量实验，结果表明我们的ProposalCLIP能够比之前最先进的方法更好地生成提案。我们的ProposalCLIP还对下游任务，如无监督对象检测，有益。01. 引言0对象提案生成旨在预测图像中所有对象的一些类别无关的边界框提案。它是许多高级任务（如对象检测[11,23]，对象分割[12, 34-36]和图像字幕[19,24]）的基本和关键步骤。如何有效地生成尽可能少的提案以覆盖所有对象是对象提案生成中的关键挑战。传统的提案生成方法[1, 6, 41, 47,50]通常利用低级线索（如颜色、纹理、梯度和/或边缘）从滑动窗口框中选择提案。近年来，基于深度学习的方法[18,22, 31, 50]0一张吹风机的照片0一张遥控器的照片0一张手机的照片0一张笔记本电脑的照片0一张电视的照片0一张熊的照片0一张泰迪熊的照片0一张狗的照片0一张人的照片0一张牛的照片0前5个相似度00.0 0.1 0.2 0.3 0.4前5个相似度0图1. CLIP[28]图像-文本匹配结果示例。该预训练模型能够很好地识别开放类别的对象。然而，在图像的底部，它无法识别出“椅子”和“笔记本电脑”。0从CNN或Transformer中获取高级语义作为选择或回归提案的线索。尽管这些基于深度学习的方法显著提高了提案生成性能，但它们需要大量的边界框注释进行训练，这在大规模数据集中非常费时费力。同时，由于需要大量的注释工作，只能对有限数量的类别进行标注。因此，这些监督方法只能为有限的对象类别生成提案。然而，实际应用，如对象检索[2, 13]，图像字幕[19, 24]和指代基础[27,45]通常需要多种类别的对象提案。最近的一些努力[16, 37,42, 46]旨在解决这些挑战。ORE [16]和OVR-CNN[46]利用增量学习和图像字幕监督来回归96120识别其他对象类别的方法。然而，这些方法也需要大量的边界框和图像标题注释。没有人力密集型的注释，这些方法无法表现出色。LOST [37]和rOSD[42]提出了基于无监督深度学习的提案生成方法，利用来自其他任务的现成知识生成提案。具体而言，它们基于预训练分类网络的类激活图（CAM）和注意力图来预测提案。这些无监督方法避免了边界框注释，但只能识别有限的对象类别。此外，尽管CAMs/注意力图激活了一些显著区域，但非激活区域中存在许多对象。因此，这些方法生成的提案只能覆盖对象的部分，如表2和表3所示。0在本文中，我们提出了一种新颖的方法，称为ProposalCLIP，用于无监督和开放类别的目标提案生成。我们的方法可以通过利用现成的图像-文本匹配模型CLIP（对比性语言-图像预训练）[28]在不需要昂贵的边界框注释的情况下生成不同对象类别的各种提案。我们利用CLIP[28]的特征，因为它是在网络上的数百万个图像-语言对上进行训练的，因此有潜力推广到各种对象类别，如图1所示。然而，CLIP[28]不能直接用于目标提案生成，因为它只训练用于识别单个对象图像，不能很好地处理多个对象图像。例如，在图1的第二个图像中，它只忽略了“椅子”和“笔记本电脑”对象。因此，将CLIP应用于我们的任务是非常困难的。在我们的ProposalCLIP中，我们首先分析CLIP特征并基于我们的分析构建一个基于对象性的得分，用于提案生成。此外，我们设计了一个基于图形的提案合并模型，利用CLIP特征有效地组合不同的提案。我们还根据CLIP线索提取伪标签，训练一个框回归模型，进一步改进我们的提案。我们在三个常见数据集上进行实验证明了我们提出的方法的有效性。0我们的主要贡献可以总结如下：（1）我们提出了一种新颖的方法，可以在现实世界中有效地为开放类别生成提案，而无需注释。（2）据我们所知，这是第一项分析和利用CLIP线索作为目标提案生成的先验知识的研究。我们分析了CLIP用于提案生成，并设计了基于CLIP的提案选择模型、基于图形的提案合并模型以及提案回归模型，以进一步改进和调整CLIP线索。（3）大量实验证明我们提出的框架在三个常用数据集上取得了显著的改进，并对下游任务有益。02. 相关工作0监督的目标提案生成。完全监督的目标提案生成方法使用边界框注释来训练模型并从初始边界框中选择提案。BING[6]使用归一化的图像梯度（NG）作为线索，并训练支持向量机（SVM）来选择提案。BING++[47]进一步融合了边缘和分割来提高提案的定位质量。这些方法基于低级和中级线索。许多基于深度学习的方法已经被开发出来，以探索用于提案生成任务的更高级别线索。DeepBox [18]设计了一个四层CNN来重新排序由Edge Boxes[50]生成的初始提案。Faster RCNN[31]构建了一个区域提案网络（RPN），包括一个分类器和一个框回归器，用于选择和修正由锚点生成的边界框。RFP-Net [14]和Refinedbox [22]修改了RPN。RFP-Net[14]使用感受野（RFs）生成初始框，以消除RPN中锚点框的许多超参数。Refinedbox[22]用一个排序模型替换了RPN中的分类器，以重新排序Edge Boxes [50]生成的边界框。还有一些方法[3, 21,30]训练深度网络直接回归目标提案。尽管这些完全监督的方法可以获得高质量的提案，但它们需要大量的边界框注释进行训练。为了减少对人工注释的要求，弱监督方法[5, 15,33, 39, 40, 48,49]仅使用图像级标签而不是边界框注释。它们通常利用图像级标签训练分类网络，并从训练模型中生成类激活图（CAMs）。然后，它们从这些CAMs中提取提案。一些弱监督方法[5, 40,49]选择高置信度的提案作为伪标签，以在完全监督的方式下训练提案生成模型以提高准确性。图形技术也被用于几个作品中[15,39]，以提取种子和聚类中心以获得更好的提案生成。然而，弱监督方法仍然需要昂贵的图像分类注释和人工注释者。此外，完全监督和弱监督方法只能为有限数量的对象类别生成提案。无监督的目标提案生成。为了避免这些监督目标提案生成的限制，无监督方法近年来在研究中越来越受到关注，这些方法不需要对目标数据集进行注释。早期的方法，如Selective Search [41]和Edge Boxes[50]，利用颜色、纹理或边缘线索来预测提案。这些方法不包含训练过程，因此避免了人工注释。然而，这些方法只能利用低级别信息。高级信息，如深度学习特征，在无监督设置中很难使用，因为深度学习需要训练数据和注释。0.0 0.1 0.2 0.3 0.40.0 0.25 0.50 0.75 1.00.00.10.296130符号。为了解决这个问题，Detco[44]提出使用对比学习以自监督的方式训练深度学习模型。然而，通过对比学习训练的模型只能提取特征，仍然需要一个完全监督的检测器来预测边界框。受弱监督技术的启发，一些最近的方法[37, 42,43]从预训练分类模型提供的CAMs或注意力图中预测提议。Wei等人[43]，Vo等人[42]和Simeoni等人[37]分别使用基于PCA、显著性和种子的方法从CAMs/注意力图中生成提议。此外，这些方法还使用人类提供的图像组知识。图像集被人类分成多个组，每个组包含一个共同的对象。这些方法的一个常见问题是，由于预训练分类模型的限制，它们只能预测有限的对象类别的提议。此外，它们基于CAMs/注意力图搜索对象提议，这些图像突出显示图像中的重要区域，但忽略非激活区域中的对象。与这些方法不同，我们的方法可以为开放类别生成提议并覆盖多样的对象。CLIP线索。CLIP[28]是一个图像-文本匹配模型，包含一个视觉特征编码器和一个文本特征编码器。它通过大量的图像-语言对进行训练，将视觉特征和文本特征嵌入到统一的特征空间中。由于它显示出良好的识别多样化语言和对象类别的能力，它的特征空间已经被用作许多应用的线索，如图像生成[26]、图像-文本检索[2, 9, 38]、图像分类[7,32]和图像字幕[4]。受到这些工作的启发，我们利用CLIP特征作为线索进行无监督的开放类别对象提议生成。03. 提出的方法03.1. 用于提议生成的CLIP特征分析0以往基于深度学习的无监督提议生成方法利用预训练分类器作为先验知识提取显著的对象区域。然而，它们只能为固定数量的对象类别生成提议，因为它们的分类器是使用固定的类别集进行训练的。在本文中，我们利用CLIP[28]图像-文本匹配的先验知识作为线索。CLIP由一个视觉特征编码器（ViT [8]）和一个文本特征编码器（GPT-2[29]）组成，并将视觉和文本特征嵌入到同一个特征空间中进行匹配。与分类模型不同，CLIP是通过将图像与其相应的自然语言描述进行匹配来训练的，因此具有识别现实世界中多样化对象的潜力。然而，直接从CLIP的注意力图中提取对象，像以前的方法一样，忽略了非显著区域中的对象。同时，分离重叠实例也很困难[37]。0滑雪板0人0滑板0前五个相似度0前五个相似度0床0沙发人伞滑雪板0（a）一个正确的提议，同时与两个类别相似0（b）一个错误的提议，包含多个对象，因此得分较低0（c）一个错误的提议，只包含一个对象的一个有区别的部分，但得分很高0餐桌0刀0冰箱0三明治手提包0前五个相似度0图2. 一些CLIP匹配结果的示例提议。0与此同时，由于CLIP[28]是训练用于识别单个对象的，它无法直接对包含多个对象的图像进行特征编码。因此，我们的基本思想是使用现有的提议方法，如Edge Boxes[50]，提取大量候选的单个对象提议，同时利用CLIP的先验知识来评估它们的对象性以选择提议。为了评估对象性，我们首先使用CLIP图像编码器提取每个初始提议的视觉特征，同时使用文本特征编码器捕捉候选对象类别的文本特征。在特定的数据集中，如Microsoft COCO[20]，其对象类别（COCO有80个类别）可以作为候选对象类别。在现实世界中，我们可以使用一个大型名词字典作为候选对象类别。特征提取后，对于每个提议，我们计算其与每个候选类别的特征相似度，并使用softmax函数对这些相似度进行归一化。一种简单的方法是使用最大相似度作为对象性得分，因为一个提取得好的提议通常有一个确切的类别。然而，如图2（a）所示，在开放类别的提议生成中，一些提取得好的提议可能同时被分配给多个类别。0.60.50.40.30.2 0.1 0.00.300.250.200.150.10 0.05 0.000.120.100.080.060.04 0.02 0.0096140（b）COCO（80个类别）（c）Visual Genome（1600个类别）（a）VOC 2007（20个类别）0提案的百分比0熵0熵0提案的百分比0提案的百分比0熵0图3. 在PASCAL VOC 2007、COCO和VisualGenome训练集上的相似度熵分布。正确的提案表示其与真实值的IoU大于0.5，而错误的提案表示其与真实值的IoU小于0.5。0提案 VOC 2007 COCO Visual Genome0正确的提案0.56 1.29 3.38 错误的提案1.32 2.41 5.030表1. PASCAL VOC 2007、COCO和VisualGenome训练集上提案的平均相似度熵。0因为在现实世界中，语义上混淆的类别是不可避免的。使用多个相似度评估提案的客观性也不总是准确的。因此，我们提出了一种基于相似度熵的简单而有效的客观性估计方法。表1显示了不同数据集上不同提案的平均相似度熵。图3描述了相似度熵的分布情况。在这里，我们使用传统的提案方法[50]生成大量的提案，并将它们分为两种类型：正确的提案和错误的提案。正确的提案被定义为与真实值的IoU大于0.5的任何提案，而其他提案被定义为错误的提案。从表1和图3可以观察到以下情况：（1）在所有数据集上，正确的提案的平均CLIP相似度熵明显低于错误的提案；（2）正确的提案主要分布在低熵范围内，而错误的提案主导高熵范围；（3）不同的数据集显示出明显不同的熵范围。根据观察结果（1）和（2），在CLIP相似度熵上设置一个阈值可以直接过滤掉约40%的错误提案，同时保留大部分正确的提案。然而，正如观察结果（3）所指出的，不同的数据集需要仔细设置不同的阈值，这大大降低了在现实世界应用中的泛化能力。因此，我们建议通过百分比而不是阈值来过滤提案。0例如，我们可以选择60%的低相似度熵的初始提案，以去除大量错误的提案，同时保留正确的提案。同时，我们还建议使用CLIP相似度熵对提案进行重新评分，以获得更好的生成结果，如第3.2.2节所述。我们还观察到CLIP相似度熵的局限性。如图2（c）所示，对于仅包含对象的一个有区别的部分的错误提案，CLIP显示出较低的熵，并且无法基于相似度熵将其移除。为了解决这个问题，我们在第3.2.3节中提出了一种基于图的提案合并模型，该模型能够利用CLIP特征合并这种碎片化的提案。接下来，我们将根据这些观察和分析介绍基于这些观察和分析的ProposalCLIP。03.2. ProposalCLIP0我们的ProposalCLIP包含四个模块，如图4所示：（a）初始提案生成模型，从输入图像中获取候选提案，（b）基于CLIP特征空间的CLIP提案选择模型，用于从候选提案中细化提案，（c）基于图的合并模型，根据空间和CLIP线索合并碎片化的提案，（d）提案回归模型，进一步细化提案。下面我们介绍每个模块的详细信息。03.2.1 初始提案生成0给定输入图像I，我们首先获得初始提案{O_m}M_m=1，其中M是初始提案的数量，O_m∈R4表示第m个提案的坐标。我们的方法可以使用任何现有的提案生成模型来预测初始提案。在这里，我们以Edge Boxes[50]为例，它根据低级图像信息生成提案。除了提案坐标，现有的提案生成模型还预测了一个对象-0.8IoUi,j = Oi ∩ OjOi ∪ Oj(4)96150初始提议生成0CLIP相似性熵0CLIP特征0伪标签0训练0(a)初始提议生成(b)CLIP提议选择0(c)基于图的合并0(d)提议回归0图G子图0目标性分数MLP0输入图像0前K个提议0图4.我们ProposalCLIP的示意图。(a)初始提议生成模型提取初始提议。(b)CLIP提议选择模型根据CLIP线索选择和重新评分提议。(c)基于图的提议合并模型根据CLIP特征修正碎片化提议。(d)提议回归模型优化提议。0为每个提议Om计算目标性分数SLm。这个分数也可以在后续选择中使用。03.2.2 CLIP提议选择0根据第3.1节的分析，我们提出利用CLIP相似性熵来估计初始提议的目标性并选择提议。具体而言，对于每个初始提议Om，我们首先使用CLIP视觉编码器提取其特征Vm。然后，我们对每个候选对象类别的文本特征{Tc}Cc =1进行编码，其中C是候选类别的数量。接下来，我们计算提议的视觉特征与每个类别的文本特征之间的余弦相似性：0�Simm,c = Vm ∙0∥Vm∥∥Tc∥。 (1)0余弦相似性�Simm,c然后通过对所有类别进行softmax函数进行归一化，归一化相似性表示为Simm,c。然后，可以通过以下方式获得提议Om的CLIP相似性熵：0Em = -0c = 1 Simm,c × log(Simm,c)。 (2)0然后，我们过滤掉高熵提议，以去除大量的错误提议，但保留大部分正确提议。保留的T个提议由{Ot}Tt =1表示。在我们的实验中，我们移除了40%的高熵提议。然而，如图3所示，保留的提议中仍然存在许多错误提议。因此，我们0提出了一种基于CLIP的目标性分数，以重新排列保留的提议进行进一步选择，如下所示：0St = -T0C Et �� Tt = 1 E2t + λsim maxc = 1,...,C Simt,c + λsl SLt0(3)其中第一项是负熵分数，第二项和第三项分别是最大相似性和初始分数。我们将它们用作参考，因为当提议具有极高的最大相似性和初始分数时，它们也可能是正确的。不同提议的相似性熵通过L2归一化进行归一化。我们使用T0C自动将第一项加权到适当的范围内。λsim和λsl是用于控制每个项比例的系数。然后，我们根据这个目标性分数选择正确的提议。03.2.3基于图的提议合并0虽然我们的CLIP提议选择模型可以过滤掉大量的错误提议，但一些仅包含对象的一个可辨别部分的碎片化提议很难被过滤掉。因此，我们提出了一种基于图的提议合并模型来解决这个限制。具体而言，我们首先构建一个无向图G：G =。图中的节点N是由我们的CLIP提议选择模型选择的提议{Ot}Tt =1。边E是通过这些提议之间的空间和语义相似性计算得到的。我们使用两个提议之间的IoU（交并比）来评估它们的空间相似性，如下所示：PSimi,j =Vi · Vj∥Vi∥∥Vj∥.(5)ei,j = U(IoUi,j − ThrIoU)× U(PSimi,j − ThrP Sim)(6)�0.5( ˆOn − Yn)2,∥ ˆOn − Yn∥ < 1∥ ˆOn − Yn∥ − 0.5,∥ ˆOn − Yn∥ > 1�(7)96160其中 IoU i,j 是候选框 O i 和 O j之间的IoU。它们的语义相似性 PSim i,j通过它们的CLIP视觉特征的余弦相似性来估计：0在捕捉空间和语义相似性之后，计算图中的边缘：0其中 e i,j ∈ E 表示节点 O i 和 O j 之间的边缘。Thr IoU= 0 . 5 和 Thr P Sim = 0 . 9是IoU和视觉特征相似性的阈值，分别。U ( ∙ )表示单位阶跃函数。在这里，我们使用严格的标准生成边缘。只有当两个候选框重叠很好且具有非常相似的特征时，它们之间才有一条边（ e i,j = 1 ）。构建图 G后，我们确定所有的最大连通子图 {H k } K ′ k ′ =1。我们删除只包含一个节点（即一个候选框）的子图，并合并剩余子图 H k ′ 中的候选框。最后，生成并由 { ˜ O k } Kk =1 表示 K个合并的候选框。我们使用CLIP候选框选择模型评估合并候选框的目标性，通过生成它们的相似性熵 { ˜ E k } K k =1和目标性分数 { ˜ S k } K k =1。如果合并候选框的熵高于选定候选框中的最大熵（即 ˜ E k > max t =1 ,...,T E t），则删除一些合并候选框。剩下的合并候选框为：0将候选框添加到选定候选框集合中。03.2.4 候选框回归0我们进一步提出了一个候选框回归模型作为可选部分来精炼候选框。我们方法的前三个部分不需要任何训练。如果有一组没有注释的图像集，我们的候选框回归模型可以从该集合中提取伪标签并训练候选框精炼模型。为了提取伪标签，我们利用我们方法的前三个部分生成候选框。然后，我们选择前1%低熵候选框和前5%高初始分数候选框的交集作为伪标签 { Y n } N n =1 ，其中 N为伪标签的数量。我们构建了一个轻量级的多层感知机（MLP）来回归候选框。受RPN [ 31]的启发，我们将候选框的视觉特征作为输入。我们还输入整个图像的视觉特征和候选框的归一化坐标作为参考。我们的MLP由三个全连接层组成，具有批归一化和ReLU激活函数。第一层用于融合输入特征，第二层用于转换融合特征，最后一层输出精炼候选框的归一化坐标 ˆ O。模型通过Smooth L1损失进行训练，如下所示：0第二层用于转换融合特征，最后一层输出精炼候选框的归一化坐标 ˆ O 。模型通过SmoothL1损失进行训练，如下所示：0损失函数 =0其中 ˆ O n 是训练集上回归的候选框，Y n是伪标签。通过CLIP候选框选择模型估计了精炼候选框的目标性。如果精炼候选框的CLIP熵低于原始候选框且它们的IoU高于0.75，则用精炼候选框替换原始候选框。否则，保留原始候选框。04. 实验04.1. 数据集和度量0我们在三个目标候选框生成数据集上验证了我们的方法，PASCAL VOC 2007 [ 10 ]，COCO 2017 [ 20 ]和VisualGenome [ 17 ]。PASCAL VOC 2007 [ 10]包含9,963张图像和20个目标类别。它被分为训练集、验证集和测试集，分别包含2,501张、2,510张和4,952张图像。与先前的工作 [ 22 , 31]类似，我们在测试集上验证我们的方法，同时将训练集和验证集中的图像用于训练候选框回归模型。COCO 2017 [ 20]包含123,287张图像和80个目标类别，分为训练集（118,287张图像）和验证集（5,000张图像）。我们使用验证集进行测试，同时使用训练集提取伪标签。Visual Genome [ 17]包含107,228张图像。由于它有超过1,600个目标类别，我们选择它来评估我们方法的开放类别能力。我们随机选择了5,000张包含约50,000个边界框的图像进行测试，以及2,000张图像进行训练。我们称之为“Visual Genomemini”。我们采用常见的候选框生成度量，召回率和AR（平均召回率），来评估性能。Recall@ X是找到的与候选框的IoU大于阈值 X的真实目标对象的比例。AR是在从0.5到0.95的IoU阈值下的平均召回率。我们使用AP（平均精度）来评估无监督目标检测的性能。04.2. 实现细节0我们的方法可以使用任何现有的候选框生成技术作为我们的初始候选框生成模块。在我们的实验中，我们以Edge Boxes[50]为例，每个图像生成300个初始候选框。在CLIP候选框选择模型中，我们选择60%的低熵候选框，并将λsim设置为0.06，λsl设置为1。在基于图的候选框合并模型中，我们将ThrIoU和Thr P Sim设置为ini96170VOC 2007 COCO0召回率@0.5 (%) 平均召回率(AR) (%) 召回率@0.5 (%) 平均召回率(AR) (%) 方法 1 10 30 50 100 1 10 30 50 100 1 10 30 50 100 1 10 30 50 1000完全监督的DeepBox [18] - 58.1 71.8 77.2 84.5 - 33.9 44.5 49.2 54.9 - 21.9 32.3 38.4 47.5 - 12.5 18.9 22.5 27.8 RPN [31] - 60.1 73.8 80.7 89.0 - 28.4 38.1 42.7 48.9 -30.6 46.2 55.1 65.0 - 16.1 25.0 30.2 36.1 RefinedBox [22] - 79.5 88.6 90.8 92.4 - 49.8 56.1 57.7 59.0 - 44.6 57.3 62.4 68.1 - 30.4 38.2 41.1 44.30无监督的Selective search [41] 11.3 35.7 52.3 59.8 69.1 4.9 16.5 27.7 33.9 42.0 3.3 11.1 19.6 24.2 31.0 1.5 4.1 8.5 11.2 15.7 Edge boxes [50] 15.2 42.5 58.3 64.7 72.57.6 24.2 35.1 39.9 46.3 5.5 17.1 25.9 30.5 36.5 3.0 10.9 16.2 18.7 23.5 rOSD [42] 16.6 33.2 42.9 45.3 49.8 6.8 15.3 21.5 22.1 25.5 4.7 13.5 22.7 25.4 27.1 1.5 4.6 9.812.2 13.9 LOST [37] 18.8 23.7 25.4 26.3 27.7 7.2 10.2 11.7 12.6 13.7 5.0 6.6 7.4 7.8 8.5 1.6 2.4 2.8 3.1 3.6 我们的方法 22.1 52.1 65.8 71.7 78.0 10.6 29.6 39.3 43.5 48.311.2 27.1 33.5 35.7 38.3 4.8 14.3 20.2 23.9 26.80表2. 在PASCAL VOC 2007测试集和COCO验证集上的候选框生成结果。0召回率@0.5 (%) 方法 1 10 30 50 1000跨领域的基于COCO训练的Faster RCNN [31] 10.3 22.5 29.0 31.4 32.10无监督的Selective search [41] 4.0 11.3 17.8 28.1 38.7 Edge boxes [50] 4.914.5 23.9 33.8 45.8 rOSD [42] 5.6 15.7 25.5 28.3 33.5 LOST [37] 5.8 12.113.2 13.6 13.9 我们的方法 8.5 24.1 33.0 38.7 47.10表3. 在Visual Genome mini数据集上的候选框生成结果。0分别设置为0.5和0.9。在候选框回归模型中，我们训练MLP模型30个epochs，学习率为1e-5。所有实验在一块NvidiaRTX 3090 GPU上使用Pytorch深度学习平台[25]进行。04.3. 与现有技术的比较0我们首先比较了在VOC2007和COCO数据集上的无监督物体候选框生成性能。结果如表2所示。可以看到，与Edge boxes[50]相比，我们的方法在提取少量候选框（例如1个、10个和30个）时取得了很大的改进。在提取10个候选框时，我们的方法在VOC 2007和COCO上的Recall@0.5方面比Edgeboxes[50]提高了约10%。在提取大量候选框时，我们的方法也显示出显著的改进。与基于CNN的方法rOSD[42]和基于Transformer的方法LOST[37]相比，我们的方法在提取一个候选框时在VOC2007上提高了3.3%，在COCO上提高了6.2%的Recall@0.5。此外，rOSD [42]和LOST[37]都基于CAMs/注意力图，它们不能很好地生成多个候选框，而我们的方法可以同时预测一个图像的多个候选框。我们还报告了一些完全监督方法的结果，如[22]中所述。可以观察到，我们的方法优于完全监督的方法0在COCO数据集上，我们的方法在提取少量候选框时，与监督方法DeepBox[18]相比表现出色。这些优越的结果证明了我们方法的有效性。接下来，我们在Visual Genome mini[10]数据集上比较了开放世界候选框生成能力。如表3所示，我们的方法优于所有先前的无监督方法。在提取少量物体（1个和10个物体）时，基于COCO训练的Faster RCNN[31]表现出良好的性能，因为它经过充分训练以捕捉80个类别的物体。然而，由于没有其他物体类别的注释，它无法很好地提取更多的物体。我们的方法在提取更多物体时显示出更好的召回率。图5展示了一些定性结果。可以看到，基于COCO训练的Faster RCNN[31]无法捕捉到一些物体，例如“potato”和“drawing”。这是因为Faster RCNN[31]需要这些物体的注释。我们的方法可以在没有注释的情况下识别开放类别的物体，并成功提取这些物体。同时可以看到，我们的ProposalCLIP生成的前100个候选框优于Edge boxes [50]。04.4. 消融研究0各组件的贡献。表4显示了我们方法中不同组件的效果。我们发现，我们的CLIP提议选择模型取得了最大的改进，同时只稍微降低了速度。基于图的提议合并也显著提高了性能。我们在图5中可视化了我们基于图的合并模型生成的提议。可以看到，我们的模型成功地通过基于图的合并捕捉到了一些物体。提议回归模型在生成少量提议时降低了召回率。这可能是由于伪标签中不可避免的噪声引起的。然而，在大多数情况下，提议回归模型提高了性能。这些结果证明了我们的CLIP提议选择、基于图的提议合并和提议回归模型的有效性。目标性得分。我们在表5中报告了不同目标性得分的效果。可以看出，我们的相似性熵方法优于初始得分和最大相似性方法。Edge boxes [50]15.242.558.364.772.5L96180Faster RCNN 我们的方法 EdgeBox0真实标签0图5. Visual Genome mini数据集上的定性结果。从上到下：真实标签，Edge boxes [ 50 ]生成的正确提议，基于COCO训练的Faster RCNN[ 31 ]和我们的ProposalCLIP生成的100个提议。我们结果中的黄色框由我们的基于图的合并模型生成。0召回率@0.5（%）0方法 1 10 30 50 时间（秒）0初始提议（Edge boxes [ 50 ]） 15.2 42.5 58.3 64.7 0.9 + CLIP提议选择21.0 51.8 62.1 68.5 1.2 + 基于图的提议合并 21.6 52.4 64.6 70.8 1.5 +提议回归 22.1 52.1 65.8 71.7 1.90表4. 不同组件对PASCAL VOC2007测试集的影响。时间表示每张图像的运行时间。0召回率@0.5（%）目标性得分 1 10 30 50 1000初始得分 19.1 46.5 61.2 65.7 74.4 最大相似性 17.6 50.7 60.065.3 74.1 CLIP相似性熵 20.2 52.5 60.4 66.6 75.0我们的最终目标性得分 21.0 51.8 62.1 68.5 76.30表5. 不同目标性得分对PASCAL VOC 2007测试集的影响。0相似性熵优于初始得分和最大相似性。初始得分相较于原始的Edge boxes [ 50]有更好的性能，这要归功于我们的CLIP熵选择。我们的最终目标性得分达到了最佳性能。ProposalCLIP用于下游任务。我们进一步进行了一个实验，以证明我们的提议对于下游任务的有用性。表6展示了在COCO上无监督目标检测的性能。我们使用CLIP [ 28]作为分类器对每个提议进行分类，并利用NMS（非极大值抑制）生成最终结果。可以观察到，我们的ProposalCLIP以无监督的方式实现了8.5%的AP。局限性：我们的方法无法很好地处理小物体，比如第一张图像中的“花椰菜”物体。0方法 AP@0.5（%）0Edge boxes [ 50 ] + CLIP [ 28 ] + NMS 6.3LOST [ 37 ] + CLIP [ 28 ] + NMS 5.2 我们的方法+ CLIP [ 28 ] + NMS 8.50表6. COCO验证集上的无监督目标检测结果。0因为小物体通常具有低分辨率，所以很难使用CLIP来识别它们。同时，初始的提议生成模型也难以捕捉到小物体。我们将探索超分辨率技术来解决这个问题留给未来的工作。05. 结论0在本文中，我们提出了ProposalCLIP，一种有效的无监督开放类别目标提议生成方法。在我们的方法中，首先引入了一个提议选择模型，通过基于CLIP的目标性得分来识别开放类别目标并为其选择提议。其次，基于图的合并模型根据CLIP特征线索统一了碎片化的提议。第三，我们引入了一个回归模块，利用CLIP线索来优化提议。实验结果表明，我们提出的方法能够以无监督的方式找到开放类别的提议。我们的方法在三个常用数据集上的性能也远远超过了现有的最先进方法，并展示了对下游任务的好处。社会影响：我们在三个常用数据集上测试了我们的方法，这些数据集可能存在伦理偏见。为了减少这种影响，最好在现实世界中收集更多无偏见的数据。致谢：本研究部分得到了莫纳什FIT创业资助。[16] KJ Joseph, Salman Khan, Fahad Shahbaz Khan, and Vi-neeth N Balasubramanian. Towards open world object detec-tion. In Proceedings of the IEEE/CVF Conference on Com-puter Vision and Pattern Recognition, pages 5830–5840,2021. 196190参考文献0[1] Bogdan Alexe, Thomas Deselaers, and Vittorio Ferrari.测量图像窗口的目标性. IEEE transactions on pattern analysisand machine intelligence , 34(11):2189– 2202, 2012. 10[2] Shuai Bai, Zhedong Zheng, Xiaohan Wang, Junyang Lin,Zhu Zhang, Chang Zhou, Hongxia Yang, and Yi Yang.连接语言和视觉的基于自然语言的车辆检索. In Proceedings ofthe IEEE/CVF Conference on Computer Vision and PatternRecognition , pages 4034– 4043, 2021. 1 , 30[3] Nicolas Carion, Francisco Massa, Gabriel Synnaeve,Nicolas Usunier, Alexander Kirillov, and Sergey Zagoruyko.基于Transformer的端到端目标检测. In European Conferenceon Computer Vision , pages 213–229. Springer, 2020. 20[4] Soravit Changpinyo, Piyush Sharma, Nan Ding, and RaduSoricut. Conceptual 12m:将Web规模的图像文本预训练推向识别长尾视觉概念. InProceedings of the IEEE/CVF Conference on ComputerVision and Pattern Recognition , pages 3558–3568, 2021. 30[5] Gong Cheng, Junyu Yang, Decheng Gao, Lei Guo, andJun- wei Han. 高质量的弱监督目标检测提案. IEEE Transactionson Image Processing , 29:5794–5804, 2020. 20[6] Ming-Ming Cheng, Yun Liu, Wen-Yan Lin, Ziming Zhang,Paul L Rosin, and Philip H

下载后可阅读完整内容，剩余1页未读，立即下载