无监督的多目标发现：基于图像分割的方法

174 浏览量更新于2023-10-15 收藏 1.04MB PDF 举报

图像分割方法

深度学习模型

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

3277基于图像分割的无监督多目标发现Sandra Kara Hejer Ammar Florian Chabot Quoc-Cuong Pham Universite 'Paris-Saclay，CEA，List，F-91120，Palaiseau，France{firstname.lastname}@cea.fr摘要无监督对象发现旨在定位图像中的对象，同时消除大多数基于深度学习的方法所需的对注释的依赖。为了解决这个问题，我们提出了一个完全无监督的，自底向上的方法，多个对象的发现。拟议的方法是一个两阶段的框架。首先，利用自监督局部特征之间的图像内相似性分割出物体部分的实例。第二步合并和过滤对象部分，形成完整的对象实例。后者由两个CNN模型执行，这些模型从整个数据集中捕获对象的语义信息我们证明，我们的方法产生的伪标签提供了一个更好的精度召回权衡比现有的单个和多个对象的发现方法。特别是，我们提供了国家的最先进的结果，无监督类无关的对象检测和无监督图像分割。1. 介绍深度学习方法在解决几个计算机视觉任务（如对象检测和图像分割）方面显示出巨大的优势。然而，需要大量仔细标记的图像来训练可靠的深度学习模型，以达到高性能。由于这种手动注释的高成本，提出了几种方法来仅使用有限数量的注释数据，例如半监督学习、弱监督学习或少次学习。在这项工作中，我们解决了在没有任何监督的情况下定位图像中的对象的问题，称为无监督对象发现（UOD）。UOD可以用于与对象定位相关的其他视觉任务。在没有监督的情况下生成的伪标签已被证明为[34]中的图像实例检索提供可靠的对象先验。对于对象检测，它们可以用于初始化对象检测器，额外的注释[24]，或者在半监督设置中，当与少量标记数据[32]结合时。提供具有有限噪声的鲁棒伪标签是这些任务成功的关键。然而，这仍然是一个主要的挑战，特别是在完全无监督的情况下，其中没有提供关于图像中存在的对象的语义和局部化的许多方法通过利用不同图像中的对象propos- als对之间的图像间相似性[28，29]来解决这个问题如果没有精心设计的优化机制，这些方法的计算成本和复杂性会损害其可扩展性。此外，这些方法已被证明依赖于监督CNN特征来计算相似性。最近，视觉变换器（ViT）已经取得了出色的性能，在监督任务[8，7，1]和自监督学习[2，3]方面都优于CNN架构。特别是，在DINO [2]中，使用自蒸馏方案训练ViT模型会产生强对象定位提示。到目前为止，这些自我监督功能仅用于解决单个对象发现任务[24，31]。TokenCut [31]证明了应用于自监督ViT特征的谱聚类对于显着性检测的有效性，并显着改进了单个对象发现的最新技术水平。在这项工作中，我们提出了一种新的方法来解决多对象发现没有任何监督。我们探索自我监督的视觉Transformer（SS-ViT）功能，以本地化和分割图像中的多个对象实例。在每幅图像中发现多个物体并不是直截了当的，因为它需要清楚地定义一个物体是什么。事实上，对象要么被定义为有监督设置中的注释区域，要么被定义为每个图像中的显著区域，在无监督的单对象发现方法中。为了以完全无监督的方式解决多个对象的定位，我们建议使用在数据集级别捕获的语义信息来识别对象区域。换句话说，对象被定义为属于所发现的语义类别之一，在IM中，3278年龄收藏具体地说，数据集中存在的语义类别是以无监督的方式发现的。这些信息使用分类模型进行编码。然后，对象发现被设计为使用SS-ViT特征激活每个图像中的对象部分，并使用自监督分类器合并这些对象部分，以发现完整的对象实例。通过对目标检测基准PASCAL VOC [9]和MSCOCO [17]的广泛实验，证明了所提出框架的有效性。由于通过设计，我们的方法提供了逐像素的掩模建议，我们还表明，相同的框架解决了无监督图像分割任务。我们的贡献可以表述如下：• 我们提出了一个完全无监督的，自底向上的方法，多个对象的发现。我们首先发现对象部分使用图像内的相似性。对象部分使用数据库驱动的信息合并，以形成完整的对象实例。这两个阶段都利用自监督ViT功能来生成实例掩码。据我们所知，这是第一个工作，建立在SS-ViT功能，以解决多对象的dis细化任务。• 我们推广了标记切割[31]中基于显着性的方法，用于发现图像中多个对象的局部精细语义概念（对象部分）。• 我们提出了一种新的语义对象建议的区域分类器的自监督学习方法。该可视化模型对小程序级别的语义信息进行编码。• 我们在具有挑战性的目标检测基准上改进了无监督多目标发现、无监督类无关目标检测和无监督图像分割方面的最新技术2. 相关工作2.1. 无监督对象发现/协同定位我们可以区分，从以前的作品，两个不同的任务：对象发现和对象共定位。该方法包括在没有图像内容的任何先验知识的情况下定位图像中的这是真正的对象发现任务，这比对象共定位更具挑战性[29]。另一方面，协同定位的目的是定位图像之间的共同对象，共享相同的语义内容。在这种情况下，算法会被输入来自地面实况的完美图像簇因此，它是对象发现的弱监督版本。DDT [32]解决了协同本地化任务，并且是第一个证明受监督的用于对象共定位的CNN特征。在DDT中，对象是从给定聚类（语义类别）内的高相关性区域中选择的其他方法解决这两个任务，其中许多利用现成的区域建议之间的图像间的相似性。Cho等人 [4]通过迭代部件匹配和对象定位，将问题表述为结构和对象发现。同样，OSD [28]同时定位对象并发现图像集合的结构。它将任务形式化为优化问题。虽然OSD带来了很大的改进，但它高度依赖于[18]提供的监督建议该方法还遭受重叠区域pro-boundary，这防止它提出多个对象的每一个图像。rOSD [29]通过在CNN特征图内提供与局部最大值周围的高激活区域rOSD还限制每个局部最大值的建议数量请注意，这些方法虽然是无监督的，但它们是基于ImageNet [6]分类任务中的监督CNN特征构建的。LOD [30]将任务形式化为排名问题，并专注于确保所提出方法的可扩展性。它还展示了自监督CNN特征在单个和多个对象发现中的实用性。其他方法[24，31]解决了单个对象发现问题，并显示了自监督特征的潜力，特别是来自ViT模型的显著性检测。LOST [24]提出了一种基于补丁间相关性的种子扩展启发式算法。TokenCut [31]研究了在自监督ViT特征上使用谱聚类，这些特征被投影到一个新的空间中，从而实现更准确的二进制聚类[23]。在先前的多对象发现方法中，在对象性分数的计算中依赖于图像间相似性在我们的方法中，即使我们也使用数据集驱动的信息，我们通过训练视觉分类模型来编码语义类的信息来克服这个问题。这导致对象和非对象区域之间更好的分离，以及更好地检测表示不足的类。2.2. 无监督图像分割图像分割是将图像的所有像素分组为有意义的区域的任务，其中共享相同特征的像素被分配到同一区域[16]。由于这种密集注释的成本非常高，因此探索了弱监督和完全无监督的方法。在弱监督设置中，[33]将IM中存在的类类别的图像级标签作为输入。3279年龄，并利用视觉语言嵌入模型来创建每个类的粗略分割图。其他方法不使用任何形式的监督。一方面，我们发现了经典的方法，如k-means [11]，它专注于基于颜色和纹理特征的像素聚类，并将每个像素分配给具有最接近均值的聚类此外，基于图的分割（GS）[10]生成图像片段，同时基于区域比较确保这些片段不会过于粗糙或过于详细。最近，已经引入了基于非监督学习的图像分割方法。例如，IIC [13]学习最大化图像及其在块级集群上的增强之间的互信息。Kim等人。 [14，16]通过迭代特征聚类和网络参数调整来训练CNN。该方法是基于三个标准，以最大限度地提高空间连续的像素和像素分配到同一个集群之间的特征相似性，同时施加大量的集群。作者提出了两种无任何监督的标签分配解决方案（i）在[14]中使用简单线性迭代聚类进行超像素提取，(ii)通过使用[16]中的空间连续性损失来解决固定段边界的限制。这些方法通过提出密集对象候选来发现多个对象。其他几种方法以无监督的方式处理语义分割任务，而不提出密集对象发现。在我们的研究中，我们不考虑这些方法，因为我们解决了一个不同的任务。2.3. 自我监督的视觉转换器自我监督设置旨在学习没有真实标签的有用表示。它首先用于预训练CNN模型[12，19，27]，并显示出对下游任务的强大最近，使用用于视觉的变换器[7]的基于自我注意力的图像编码被证明对于大范围的监督视觉任务是有效的，例如分类[7]，语义分割[25]和密集预测任务[20]。ViT也成为视觉表征学习的神经网络的参考架构选择。除了受NLP启发的经典掩蔽自动编码范例之外，MoCo-v3[3]等还展示了用对比方法训练ViT的强大最近，自蒸馏方案被用于DINO[2]训练没有标签的ViT在训练过程中做出的选择导致有效的语义分离和学习特征的局部-全局对齐。特别地，所得到的注意力图强烈地激活对象区域，这为图像中的对象的定位提供了线索最近已经探索了SS-ViT特征以执行显著性检测和单个对象发现任务[24，31]。据我们所知，我们的方法是第一个在完全无监督的多对象发现管道中利用自监督ViT功能该方法输出对象实例掩码，也解决了无监督图像分割任务。这样的结果可以用作伪标签来初始化类不可知对象检测器的训练，而无需任何监督。3. 方法3.1. 概述最近，SS-ViT特征显示出很好地推广到基于显着性的任务[24，31]。在这项工作中，我们的目标是展示使用这些功能的潜力，多对象发现，没有任何监督。我们采用自下而上的方法，如图1所示，从图像内分析开始，用于发现对象部分。在数据集级别，两个CNN模型以自我监督的方式进行训练，使用精心选择的语义对象提案。这些模型用于合并和过滤对象部分，以形成完整的对象实例。图像内分析可以被视为TokenCut [31]对多对象发现任务的概括。与TokenCut类似，我们使用SS-ViT特征执行谱聚类，将图像分解为具有有用信息的特征向量。与TokenCut不同：（i）由于我们关注多个对象的定位，因此我们寻找更多的定位线索，而不仅仅是显着性。因此，我们使用多个特征向量，作为特征空间来应用局部聚类，而不是仅使用第二个特征向量。（ii）当我们试图解决多对象发现任务时，局部聚类的数量不再是已知的（显著性检测任务中的为了管理这一点，我们提出了一种算法，用于选择最佳数量的集群，没有任何知识的对象的数量，或se-mantic概念，在每个图像。该算法在第3.2节中详细介绍，旨在发现多个对象部分，同时限制过度分割。数据集级分析的目标是构建两个类标识符，以捕获图像集合中的主要语义类一个分类器用于合并由局部分割产生的对象部分，并将置信度得分与每个发现的对象相关联。第二分类器分离前景/背景类，并用于在合并阶段之后过滤剩余的噪声。我们执行图像聚类以获得用于训练两个模型的伪标签。由于图像可能包含多个语义概念，因此我们不使用整个图像，而是对选择性搜索[26]中的选定对象建议进行聚类。对于建议书的选择，我们建立了一个客观性评分，详见第3.3节。保留的顶级propos- als被分组为集群，用于训练分类器。最后，分类器级联使用，3280ΣKobjarea←←简体中文≥F {≤ ≤}我2J对所发现的对象部分进行降噪。这两个阶段都使用使用DINO训练的自监督ViT特征[2]。我们在第3.3节中展示了这些特征如何与我们的方法特别相关，因为它们具有一些属性，如语义分离、局部-全局对齐和对象区域激活。算法1用于语义概念1：初始化：K ←2CK←Kmeans（F，K）bid←arg max{area（CK（k）），1≤k≤3.2. 图像内语义概念在这一步中，我们扩展TokenCut [31]来发现多个K}k=1，kBid面积（CK（k））tiple对象在每个图像中，而不是解决显着去，添加语义概念True2：同时添加语义概念保护TokenCut构造一个加权图，其中节点是图像块的ViT嵌入，边缘对应于令牌之间的余弦相似性。然后将单对象描述形式化为规范化图割（Ncut）3：K←K+14：CK←K均值（F，K）5：新的obj区域k=1，k=b id新目标区面积（CK（k））问题，这是解决使用谱聚类：特征通过本征分解被投影到一个新的空间中。在6：如果第七章：目标区域> throwthen在这个空间中，第二小的特征向量提供了一个如此-解决二进制聚类的Ncut问题，如Shi和Malik [23]所示。同样，我们基于SS-ViT特征创建相似度图。然后将图像分解为具有有用信息的特征向量我们考虑N本征向量（N2）的局部聚类，因为我们的目标是捕捉图像中的多个对象在4.6节中研究了N的选择。所选择的N个特征向量表示执行图像像素的局部聚类的特征空间：每个像素用大小为N的新特征向量fi′表示，其中i在1和每个图像的像素总数n p之间变化。由于在完全无监督的设置中，每个图像中的语义概念的数量是未知的，因此我们使用如算法1中详述的迭代过程来确定聚类的最佳数量K。在新的特征向量空间中，对图像像素进行k均值聚类=fi′;1i np. 这将图像划分为K个组，我们将其表示为CK。我们认为背景簇是在图像中占据最大面积的簇。背景id表示为b id。所有剩余的簇表示对象区域。K递增，从K=2开始，直到没有新激活的重要对象区域。目标是激活图像中的多个对象区域，同时限制过度分割。图3第一栏提供了这一步骤的结果特别是，我们在最后一行看到，在某些情况下，该算法直接输出图像的最佳分割。这表明了它的有效性相比，一个简单的过度分割，其中使用预定义数量的集群，而不适应每个图像的内容。3.3. 数据集级语义对象建议如上所述，我们使用选择性搜索[26]（SeSe）区域建议作为对象先验，通过建议聚类来发现数据集中的语义类。这些建议提供了相当高的召回率。但是，他们的等级-obj area←新建obj area第八章：elseadd semantic concepts ←False9：返回K这是相当天真的：给定图像的过分割，基于颜色和纹理相似性，首先合并的区域被排在第一位。这使得即使是顶级专业人士也会受到很多噪音的因此，我们提出了一个新的排名的SeSe建议，选择最相关的。为了做到这一点，我们建立了一个客观的分数，基于对对象的区域的假设。请注意，对象性得分是在每个图像内计算的，独立于数据集中的所有其他图像具体地说，我们在这个计算中使用两个主要的度量：交集大于并集（IoU）和同一图像中对象提议之间的余弦相似性。给定M个提议（p1，p2，...， p M），我们将u ij定义为重叠率，sij定义为pi和pj 之间的相似度。对于后者，我们使用来自使用DINO训练的ViT的最后一层的CLS令牌之间的余弦相似性。设fi和fj是通过将pi和pj相对于SS-ViT传递而产生的特征向量（CLS令牌）。余弦相似性sij定义为：菲·菲·杰sij=（1）||F||||f||对象建议重新排序的新对象性得分是三个标准化项的加权和：score（pi）=α（SimL（pi）+DissimG（pi））+（1−α）H（pi）（2）该score的每一项都基于不同的假设：类目标区域具有很高的局部相似性。我们将给定提案的局部相似性定义为与其相邻提案的平均相似性，即具有IoU的提案，其中pi高于阈值t。我们注意到，这些pro-pronounces通常对应于相同对象的部分。我们K3281ΣΣΣ图1. 方法的流水线。左上：图像内分析，用于发现局部语义概念。下图：用于选择语义对象建议以训练自监督分类器的数据集级分析。右上：在每张图像上使用数据驱动的分类器进行部分合并和去噪。还记得我们使用的是使用DINO学习的SS-ViT特征，具有全局局部对齐目标。这意味着一个对象在DINO特征空间中靠近它的部件从这一点，我们推断，高相似性之间的pi和它的邻居增加了它的机会，包含一个对象。因此，我们让pi的所有邻居都投赞成票，在下面的局部相似性项中：M此度量用于量化变量的随机性[5]。在图像处理中，Px指的是图像p中灰度级x的分布（或RGB图像中的颜色强度）。前面的公式将较高的熵与具有更多细节和颜色变化的图像相关联。不稳定的、均匀的区域的特征在于低熵。因此，我们将低熵建议与背景相关联，通过在最终的对象性得分中添加熵项。SimL（pi）=sij，jj=1i，uij≥t（3）从图2中可以看出，与SeSe的两种模式相比，所提出的排名提高了固定数量的建议的检测率尤其如此类对象区域具有高的全局相异性。我们现在考虑全局相似性，即。p i和所有其他不与p i重叠的方案之间的平均相似性。考虑到现实世界图像中的前景/背景不平衡，图像中的大多数对象提议占用背景，并且具有相似的视觉内容（例如，“天空”）。相反，对象占据图像中不同的区域如果提案p i包含对象，则它具有低的总体相似性，因为背景中的所有对象提案都对它投了否定票。因此，p i将是高度不相似的，因此以下全局相异度项：MDissimG（pi）= 1−sij，j=i ，uij t（4）j=1类似物体的区域具有高熵。离散随机变量的香农熵定义为：H（p）=− Pxlog（Px）（5）X当少数提案被选中时。我们还将保留的前1名提案与两个排名进行了定性比较。我们记得，这个新排名的目的是减少顶级提案中的噪音量，这些提案将被保留用于聚类，如第3.4节所述我们选择使用SeSe提案，因为它很受欢迎。然而，建议的排名应该对其他提案有效，只要它们具有类似的分布，即边界框占据了整个图像，并因此验证了上面讨论的背景优势条件。3.4. 数据集驱动的自监督区域分类在对SeSe对象提案重新排序后，是将每个图像中的前P个对象先验转换为伪标签以训练多类分类器。这些将被用来合并和提炼发现的本地语义概念。我们使用一个足够大的P值来确保3282图2. 对对象建议进行排名的结果。左：在给定两种SeSe模式的保留顶级提案数量的情况下，检测率与我们的排名的比较。右：使用SeSe评分（上）和我们的评分（下）的top1提案示例。我们不仅选择对象，而且选择对象部分。这一点很重要，因为分类器必须学会将相同的语义类分配给对象及其部分，以实现准确的合并。我们对所有选定对象提案的SS-ViT特征使用k均值聚类[11]。通过找到最佳轮廓得分[22]来选择最佳聚类数量，该得分最小化平均聚类内距离并最大化平均最近聚类距离。利用SS-ViT特征中包含的语义信息，将语义相似的概念分组在一起。此外，每一组都包含对物体及其部件的建议。这主要归功于DINO使用的多作物所获得的聚类捕获数据集的全局语义信息。请注意，聚类的数量不一定等于数据集中注释的类的数量。然而，我们仍然可以本地化未发现的类别的实例，例如由于所选择的建议中的一些可能仍然属于背景（Bg）区域，所以所发现的伪类中的一些是我们旨在识别的Bg聚类。根据我们在3.3节中的评分，得分最低的提案是最有可能代表Bg地区的提案。这些建议中的每一个都被传递到SS-ViT以提取其特征。这些特征的平均向量被认为是Bg区域的模式。其中心与Bg模式的距离低于阈值tbg的聚类被认为是Bg聚类。在前景（Fg）和Bg组识别之后，我们将两种类型的标签与聚类相关联（i）每个Fg聚类被分配表示一个发现的语义类的id（ii）所有簇都具有指示其属于Fg还是Bg的二元标签这些图像聚类用于训练两个基于CNN的分类器，其中聚类id作为分类目标。第一个是多类分类器训练使用的FG集群分配对象和对象部分到一个特定的类。第二个分类器使用所有发现的聚类进行训练，并学习区分对象和Bg区域。3.5. 使用数据集级信息的实例分割在该最后步骤中，使用所获得的分类器来合并和细化在图像内分析中识别的对象部分。首先在每个分割区域上使用多类分类器：包围每个对象部分段的图像裁剪被传递到基于CNN的分类器。指定给同一类别的邻近区域将合并以形成完整的对象实例。然后将每个合并区域片段周围的图像裁剪传递到Fg/Bg分类器以消除分类为Bg的片段如果在合并之前使用，则其次执行该二进制分类以避免将小对象部分不正确地分类为Bg多类分类器还向每个对象分配置信度分数，这对于评估度量（AP@50，odAP）是必要的我们在图3中为拟议框架的每一步提供了说明。图3.结果示例。按列：局部概念发现的结果，部件合并后的分割结果，最终实例掩码分割，最终边界框。32834. 实验4.1. 实现细节根据先前的工作[29，30，24]，我们对三个检测和定位基准进行实验：VOC2007训练值、VOC2012训练值[9]和COCO20k，由从COCO2014训练值数据集中随机选择的19817张图像组成[24]。我们在下面的实现细节和超参数规范化的每一个解决任务.无监督多对象发现。在图像内分析中，局部聚类应用于使用DINO训练方案学习的SS-ViT特征。基于以前工作的结论[31，24]，我们使用补丁大小为16的变体ViT-S。使用最后一层的关键特征执行特征分解。为了找到局部聚类的最佳数量，我们将2%的新激活区域的分数（阈值=1）设置为收敛标准。02）。用于聚类的特征向量的数量在4.6节中进行了研究，并显示出对数据集是不变的：PASCAL VOC和COCO 20k的3个特征向量。对于目标提案重新排序，发现这三项对最终重新排序具有相同的影响，α=0。7，t=0。1.一、在这项工作中使用了选择性搜索单一模式的建议。对于样本级分析，选择每个图像中的P=20个顶级建议来训练分类器。距离阈值t bg=0。8用于分离Fg和Bg簇。我们使用ResNet50作为两个分类器的骨干，使用DINO预训练进行初始化。无监督类不可知的对象检测。我们遵循[24]中描述的相同配置来训练具有伪标签的类不可知Faster-RCNN我们还使用相同的批量大小和训练迭代次数，与以前的作品进行客观比较。保留建议的BER，从1开始，到数据集中任何图像中对象即使通过设计，我们的方法输出的pro-pronouns的数量减少，我们使用odAP与以前的作品进行比较。我们报告了odAP50，其中如果检测与地面实况边界框的重叠率高于 50% ，则检测被认为是正确的。和odAP@[50：95]，这是10个IoU值的平均odAP，从50%到95%不等。类无关无监督对象检测。计算经典类不可知的平均精度（AP@50）。无监督图像分割。在[16]之后，我们使用平均交集（mIoU）来评估无监督图像分割。mIOU被计算为每个真实掩码（连同背景）与具有最大IOU的检测到的掩码之间的平均IOU，而不考虑任何类别标签。4.3.无监督多目标发现我们遵循以前的作品，并使用odAP 4.2评估我们的方法注意，该度量特别适用于基于对象提议的排名来提议大量对象候选的方法。由于我们的方法是建立在图像分割的基础上，因此提出了有限数量的框：PASCAL VOC数据集中平均每个图像3个[9]。因此，我们的方法在召回率方面处于不利地位。尽管如此，我们在表1中显示了我们的方法在odAP@50和要求更高的odAP[50-95]指标上的优越性。更高的odAP[50-95]证明了我们返回的伪盒的准确性：由于这些是从实例掩码生成的，因此它们更好地包围对象，因此对于更高的IoU阈值条件仍然有效。此外，我们的方法使用自监督特征，这使得它完全无监督，不像以前的方法，它依赖于监督特征。无监督图像分割。在[16]之后，实验是在VOC2012验证集上进行的，该验证集由1446幅图像组成。使用mIOU评估多对象发现任务产生的掩码，参见第4.2节。4.2.测试和评估设置不同的指标用于评估不同的任务：无监督多对象发现。大多数多对象发现方法都是基于对象建议的排序。这使得它们能够产生大量的候选对象。然后问题就出现了，为了计算查全率、查准率，甚至是经典的AP 50指标，应该保留多少个建议，因为所有这些都会受到保留的顶级建议的数量的影响。[30]解决了这个问题，并提出了一个新版本的AP，适用于对象发现任务，称为odAP。odAP表示为精确度-召回率曲线下的面积，其中每个精确度-召回率点都是针对一个数字计算的方法特点odAP@50 odAP@[50-95]VOC07VOC12COCO20kVOC07VOC12COCO20kKim等人[15，24]Sup9.511.83.932.53.10.96滴滴涕+ [32、24]Sup8.711.12.413.04.10.73rOSD [29，24]Sup13.115.45.184.35.31.62LOD [30，24]Sup13.916.16.634.55.31.98我们自我15.417.65.446.88.12.11表1. odAP中的多对象发现性能（对象发现的平均精度）4.4. 类无关无监督目标检测最先进的多对象发现方法（MOD）通常依赖于基于图像间相似性的对象提议的排名。这些方法输出大量的对象候选者，然后出现的问题是，有多少边界框保持初始化的对象检测器。简单的单目标发现方法（SOD）的召回率非常有限我们认为3284我们的方法在这两种情况下都比以前的方法提供了更好的精度/召回权衡。为了证明这一点，我们训练了一个类不可知的对象检测器，使用我们的gener-我们的分数与原始的SeSe排名的建议，从两个设置。使用这个新的排名，我们可以确保排名靠前的建议对于分类器训练来说更可靠。伪标签。结果见表2。我们注意，与MOD方法相比，我们的方法在所有测试数据集上都有明显的改进。然而，与PAS- CAL VOC [9]数据集上的SOD方法相比，差距这可以通过PASCALVOC中的数据集偏差来解释：该数据集中的大在更复杂的COCO20k数据集上，我们的方法超过了这两个类别（MOD和SOD）。这证明了我们的伪标签的优越性，即使对于具有复杂场景的数据集也是如此。方法VOC 07VOC12COCO20K选择性搜索[26]EdgeBox [35] 2.9 4.2 1.6rOSD + CAD [29] 24.2 29.0 8.4LOD + CAD [30] 22.7 28.4 8.8[24] 2016年12月24日TokenCut + CAD [31] 26.2 35.0 10.5我们的+加元27.936.2 13.8方法召回@50箱数1 4 1020[26]第二十六话7.519.630.340.0[26]第二十六话7.919.930.740.9我们的：lSim +gDissim13.923.534.444.1我们的：lSim + E12.824.935.944.6Ours：总分15.727.136.945.0表4.在VOC 07测试集我们还提供了在图像内分析中使用的特征向量的数量的研究，以激活多个对象，同时限制噪声量。在表5中，我们评估了生成的伪盒的AP@50，以选择最佳的精度/recal权衡。我们对PASCAL VOC和COCO进行了研究，因为它们呈现了不同的对象分布。考虑到这项研究，对于两个数据集，在图像内分析中使用3个特征向量获得了报告的结果。表2.AP中的类无关无监督对象检测4.5. 无监督图像分割我们进一步评估了我们的方法在VOC12 [9]验证集上用于无监督图像分割的性能。任务（见表3）。我们的方法显着优于形式以前的国家的最先进的方法，发现对象掩模在一个完全无监督的方式。补充材料中提供了更多的定性结果。方法VOC 12k均值聚类[11]，k=2 0.3166k-means聚类[11]，k=17 0.2383基于图的分割（GS）[10]，τ=1000.2682基于图的分割（GS）[10]，τ=5000.3647IIC [13]，k=2 0.2729IIC [13]，k=20 0.2005Kim等人使用超像素[14] 0.3082Kim等人有连续性损失[16]，ν = 50.3520我们的0.4247表3.无监督图像分割可实现mIOU4.6. 消融研究在表4中，我们提供了对3.3中给出的不同等级评分的消融研究。我们评估了不同数量的保留顶级提案的召回@50（IoU=50%时的召回）。我们将总体排名得分的结果与从最终得分中删除其中一个术语时获得的排名进行比较。通过考虑所有3项获得最佳结果，这支持第3.3节中的假设我们也比较表5.AP@50作为所用本征向量数量的函数用于本地分析5. 结论和今后的工作提出了一种完全无监督的多对象发现方法这项工作的目的是解决在现有方法中观察到的一些局限性。也就是说，面向显著性检测的方法中的低召回率，以及当提出多个对象候选时的高噪声量。我们已经表明，将问题制定为无监督分割特别适合于减少生成的伪框中的噪声。这提供了更好的精度-召回权衡，这导致对象检测器的更好的初始化。仍然在这个方向上，我们可以进一步研究使用这些伪标记作为伪标记方法中的初始种子。类似地，我们可以研究这些对象可以与噪声处理机制一起使用。6. 确认这项工作得益于由法兰西岛地区委员会资助特征向量VOC07COCO20k222.15.9322.56.3421.36.0520.35.83285引用[1] 尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛纳夫、尼古拉斯·乌斯尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁伊科。使用变压器进行端到端对象检测。在欧洲计算机视觉会议上，第213-229页。Springer，2020年。[2] MathildeCaron ， HugoTouvron ， IshanMisra ， Herve'Je'gou ， Julien Mairal ， Piotr Bojanowski ， and ArmandJoulin.自我监督视觉转换器中的新兴特性。IEEE/CVF计算机视觉国际会议论文集，第9650-9660页，2021年[3] Xinlei Chen，Saining Xie，and Kaiming He. 训练自我监督视觉转换器的实验研究。在IEEE/CVF计算机视觉国际会议论文集，第9640-9649页[4] Minsu Cho ， Suha Kwak ， Cordelia Schmid ， and JeanPonce.野外无监督对象发现和定位：基于零件的匹配与自下而上的区域建议。在IEEE计算机视觉和模式识别会议论文集，第1201-1210页[5] Thomas M Cover和Joy A Thomas信息论与统计学。信息理论的元素，1（1）：279[6] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。2009年IEEE计算机视觉和模式识别会议，第248-255页。Ieee，2009年。[7] AlexeyDosovitskiy、LucasBeyer、AlexanderKolesnikov、Dirk Weissenborn、Xiaohua Zhai、ThomasUnterthiner 、 Mostafa Dehghani 、 Matthias Minderer 、Georg Heigold、Syl-vain Gelly、Jakob Uszkoreit和NeilHoulsby。一张图片相当于16x16个单词：用于大规模图像识别的变压器在学习代表国际会议上，2021年。[8] Alaaeldin El-Nouby，Natalia Neverova ，Ivan Laptev和Herv e'J e' gou 。训练视觉变换器进行图像检索。CoRR，abs/2102.05644，2021。[9] M. 埃弗灵厄姆湖，澳-地凡古尔角，澳-地K. I. 威廉斯，J.Winn和A. 齐瑟曼。 pascal 视觉对象类（ voc ）的挑战。International Journal of Computer Vision，88（2）：303[10] Pedro Felzenszwalb和Daniel Huttenlocher。高效的基于图的图像分割。国际计算机视觉杂志，59：167[11] J. A. Hartigan 和 M. A. 黄。一种 k-means 聚类算法。JSTOR：Applied Statistics，28（1）：100[12] Geoffrey E Hinton和Ruslan R Salakhutdinov.用神经网络降低数据的维数。science，313（5786）：504[13] Xu Ji，Joao F Henriques，and Andrea Vedaldi.用于无监督图像分类和分割的不变信息聚类。在IEEE/CVF国际计算机视觉会议，第9865[14] 金崎朝子基于反向传播的无监督图像分割。2018 IEEE声学，语音和信号处理国际会议（ICASSP），第1543-1547页[15] 金君熙和安东尼奥·托拉尔巴使用迭代链接分析的感兴趣区域的无监督检测。神经信息处理系统的进展，22，2009。[16] 金元吉，金崎麻子，田中雅之。基于可重构特征聚类的无监督学习图像分割。IEEE图像处理学报，29：8055[17] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。微软coco：上下文中的公用对象。欧洲计算机视觉会议，第740-755页。Springer，2014.[18] Santiago Manen ， Matthieu Guillaumin ， and Luc VanGool.用随机化的Doppler算法提出素数对象建议。2013年IEEE计算机视觉国际会议，第2536-2543页[19] Deepak Pathak 、 Philipp Krahenbuhl 、 Jeff Donahue 、Trevor Darrell和Alexei A Efros。上下文编码器：通过图像修复进行特征学习。在 Proceedings of the IEEEconference on computer vision and pattern recognition，pages 2536[20] Jaonary Rabarisoa，Valentin Belissen，Florian Chabot，and Quoc-Cuong Pham.用于密集预测任务的视觉变换器的自我监督预训练。arXiv电子印刷品，第arXiv：2205.15173页，2022年5月。[21] 任少卿、何开明、罗斯·格尔希克、孙健。更快的r-cnn：利用区域建议网络进行实时目标检测。神经信息处理系统的进展，2015年28日。[22] 彼得·马斯洛。剪影：聚类分析的解释和验证的图形辅助工具。 J. Comput. 应用数学，20（1）：53[23] Jiibo Shi和Jitendra Malik。归一化切割和图像分割。IEEE计算机协会计算机视觉和模式识别会议论文集，第731-737页[24] 放大图片作者：Oriane Sim'eoni，Gilles Puy，Huy V.Vo，Simon Roburin，Spyros Gidaris，Andrei Burgis，Patrick P'erez，Renaud Mar- let，and Jean Ponce.使用自我监督的transformer和无标签来定位对象。在BMVC，2021年。[25] Robin Strudel ， Ricardo Garcia ， Ivan Laptev ， andCordelia Schmid. Segmenter ：用于语义分割的Transformer。在IEEE/CVF计算机视觉国际会议集，第7262-7272页[26] Jasper RR Uijlings、Koen EA Van De Sande、Theo Gevers和Arnold WM Smeulders。目标识别的选择性搜索。International Journal of Computer Vision，104（2）：154[27] Pascal Vincent ， Hugo Larochelle

下载后可阅读完整内容，剩余1页未读，立即下载