多视角共分割和聚类变压器的无监督分层语义分割

178 浏览量更新于2023-10-25 收藏 19.57MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

25710多视角共分割和聚类变压器的无监督分层语义分割0Tsung-Wei Ke Jyh-Jing Hwang Yunhui Guo Xudong Wang Stella X. Yu UCBerkeley / ICSI0摘要0无监督语义分割旨在发现在图像内部和图像之间捕捉类别的物体和视角不变性的分组，而无需外部监督。分组自然地具有粒度级别，这在无监督分割中会产生歧义。现有方法避免了这种歧义，并将其视为模型外因素，而我们则接受并希望无监督分割具有分层分组的一致性。我们将无监督分割视为像素级特征学习问题。我们的想法是，一个好的表示不仅应该揭示特定级别的分组，还应该以一致且可预测的方式揭示任何级别的分组。我们通过在同一图像的多个视图之间进行共分割来强制空间分组的一致性，并通过粗粒度和细粒度特征之间的聚类变压器强制分组层次结构的语义一致性。我们提供了第一个数据驱动的无监督分层语义分割方法，称为分层分组（HSG）。通过捕捉视觉相似性和统计共现性，HSG在五个主要的物体和场景中心基准上的性能也远远超过现有的无监督分割方法。01. 引言0语义分割需要确定图像中每个像素的语义类别。从未标记的数据中学习这样的分割器特别具有挑战性，因为既不知道像素分组，也不知道语义类别。如果已知像素分组，则语义分割被简化为无监督图像（段）识别问题，可以应用对比学习方法[9，20，59，62]，但是应用于计算的段而不是图像。如果已知语义类别，则语义分割被简化为具有粗糙注释的图像级标签的弱监督分割问题；像素标记可以从图像分类器[32，34]预测。0图像再访[56] SegSort [26] 我们的HSG0图1.我们通过接受分组粒度的歧义并希望无监督分割具有分层分组的一致性来开发一种无监督语义分割方法。上：我们将其作为像素级特征学习问题来制定，因此一个好的特征必须能够以一致且可预测的方式最好地揭示任何级别的分组。我们通过多视图共分割来引导特征学习，并通过聚类变压器强制分组的一致性。下：我们的方法不仅可以提供分层语义分割，还可以在大多数无监督分割方法上大幅优化。显示的是Cityscapes的示例结果。0无监督语义分割的基本任务是分组，而不是以命名的方式进行语义划分，除了在同一组或不同组中标记段的方便性之外，这种命名并不重要。无监督语义分割的挑战在于发现在图像内部和图像之间捕捉类别的物体和视角不变性的分组，而无需外部监督，以便（图1）：1）婴儿的脸和身体是一个整体的部分25720在同一图像中；2）整个婴儿与图像的其余部分分开；3）与猫实例相比，婴儿实例更类似于另一个婴儿实例，尽管它们的姿势、光照和背景不同。针对这个挑战，已经提出了几种代表性的方法，基于不同的假设来解决。0• 相似性：SegSort[26]首先根据轮廓线索将每个图像分割成片段，然后通过片段间对比学习发现视觉上相似的片段的聚类。然而，仅凭视觉相似性来进行语义划分过于限制：一个语义整体通常由视觉上不相似的部分组成。身体的部分，如头部和躯干，外观差异很大；它们之间的绑定不是由于视觉相似性，而是由于它们的空间邻近性和统计共现性。0• 空间稳定性：IIC[29]最大化同一图像的两个视图之间的聚类互信息，通过已知的空间变换关系强制稳定的聚类，假设图像内部有固定数量的聚类等可能性。它最适用于粗糙和平衡的纹理分割，并且在场景复杂性扩展方面遇到了很大的困难。0• 图像级特征学习：[56,60]在以物体为中心的数据集上进行多尺度裁剪的表示训练，以提高图像内部的表示。这些方法在以场景为中心的数据集上效果不佳，其中一张图像具有多个主导语义类别。0分组和语义自然具有不同的粒度级别：手是一个由掌和五个手指组成的关节配置，同样，人由头、躯干、两臂和两腿组成。这种内在的分组层次结构带来了一个重大挑战：无监督分割方法应该针对哪个级别，并且基于什么进行确定？现有方法避免了这种模糊性，并将其视为分割建模之外的因素，或者是次要关注的一个方面。我们的关键见解是，视觉场景的内在分层组织不是场景解析的一个麻烦，而是我们可以利用和期望的一个普遍属性，用于无监督分割。这个想法之前已经导致了一个处理纹理和虚假轮廓的通用图像分割器，完全不需要对纹理或曲线性进行任何明确的表征[65]。我们现在将这个概念推进到数据驱动的表示学习：一个好的表示不仅应该揭示特定级别的分组，还应该以一种一致和可预测的方式揭示不同粒度级别上的任何分组。我们将无监督语义分割视为无监督像素级特征学习问题。我们的目标是基于特征空间中的分层聚类，为整个数据集中的每个图像产生一致的分层分割（图1）。具体而言，0具体而言，给定像素级特征，我们在图像内部和图像之间以及它们的变换版本（即视图）之间执行分层分组。每个级别上的分组对特征的改进提出了要求，以最大化不同组之间的区分度。我们的模型具有两个新颖的技术组成部分：1）多视角共分割不仅可以在视图之间强制空间一致性，还可以从视觉相似性和共现中简化的干净环境中引导特征学习；2）聚类变换器用于在特征分组层次结构的不同级别之间强制语义一致性。总结起来，我们的工作有三个贡献。01.我们提供了第一个无监督的分层语义分割方法，可以从任意图像集合中以数据驱动的方式生成部分和整体，无论这些图像来自以物体为中心还是以场景为中心的数据集。02.我们是第一个接受分组粒度的模糊性，并利用视觉场景的内在分组层次结构来学习像素级特征表示的方法。它可以通过视觉相似性和统计共现来发现语义。03.我们在以物体为中心和以场景为中心的数据集上，不仅在无监督（分层）语义分割方法上取得了很大的优势。02. 相关工作0图像分割是将图像划分为视觉上连贯的区域的任务。传统方法通常包括两个步骤：提取局部特征和基于不同标准进行聚类，例如模式发现[3, 10]或图分割[16, 42, 52, 66,67]。分层图像分割是从人类感知图像组织中进行监督学习的[2]：虽然每个单独的分割针对特定的分组级别，但是个别分割的集合在统计上呈现出感知层次结构。表示分层分割的典型选择是轮廓：首先检测轮廓以锐利地定位区域边界[25,63]，然后可以逐个删除轮廓以显示更粗糙的分割（OWT-UCM[2]）。这些模型是在个别的地面真实分割上进行训练的，希望从训练数据中的常见和罕见轮廓出现中自动产生粗糙和细粒度的组织。相反，我们的模型是在通过特征聚类无监督发现的多级分割上进行训练的，它还直接在片段上操作，而不是在轮廓上。语义分割是将图像划分为不同语义类别的区域的任务。大多数25730深度学习模型将分割视为图像识别的空间扩展，并将其制定为像素级分类问题。它们通常基于全卷积网络[7, 36,40]，结合来自多个尺度的信息[8, 18, 22-24, 31-33, 35,45, 53,64]。SegSort[26]不将分割形式化为像素级标签，而是直接在由轮廓勾勒的分割上进行像素-分割对比学习。它以非参数方式学习像素级特征，有或没有分割监督。SPML[32]将其扩展到将分割与各种形式的弱监督统一起来：图像级标签、边界框、涂鸦或点。无监督语义分割已经通过使用统计特征和图形模型[39, 49,54]对非参数方法进行建模。例如，[49]提出通过挖掘粗略对齐图像中匹配补丁的统计差异来发现区域边界。近期无监督语义分割方法大致有三个方向：1）一种方法是通过增加从图像中学到的特征的位置敏感性[9, 20, 59,62]，通过在不同视图之间基于特征对应的像素之间添加额外的对比损失，或者使用更强的数据增强和约束裁剪[51,56]。2）可以直接学习像素级特征编码器，通过最大化基于轮廓引起的分割[26]或基于OWT-UCM[2]导出的区域层次结构[68]的像素之间的区分度。分割由像素特征相似性指示，语义标签可以从标记集中检索到的最近邻推断出来。3）可以直接学习像素级聚类预测器，通过最大化在对应像素的同一实例的增强视图上的聚类预测之间的互信息[29,47]。我们的模型推进了像素级特征学习方法[26, 32,69]：它基于特征引起的层次分组本身进行特征对比，并且最引人注目的是直接输出一致的层次分割。03. 分层分组（HSG）0我们将无监督语义分割视为无监督像素级特征学习问题（图2）。基本思想是，一旦每个像素被转换为特征空间中的一个点，图像分割就变成了一个点聚类问题。语义分割和特征聚类形成了一对对偶过程：1）特征X的聚类定义了每个图像中的分割G：具有相同（不同）聚类中特征的像素属于相同（不同）的语义区域。这个思想被用来对具有手工特征的相似图像进行共同分割[30, 37,48]。2）分割G定义了特征X的相似性：像素应该在特征空间中靠近自己的分割组，并远离其他分割组。这个思想被用来0图2.方法概述。我们的目标是学习一个CNN，将每个像素映射到特征空间V中的一个点，以便连续导出的聚类特征X0、X1、X2产生良好且一致的像素分组Ge、G1、G2。它们的一致性通过聚类变换器Cl+1l来强制执行，该变换器指示第l级的特征聚类如何映射到第l+1级的特征聚类。注意，G0是由V的聚类得到的，Ge是由OWT-UCM边缘得到的。Pl是G1的概率版本，Gl是G1的二进制版本；P0�G0。对于l≥0，Pl+1是通过Cl+1l将Pl传播得到的。分组Ge、G1、G2反过来强加了所需的特征相似性并推动特征学习。我们对同一图像的多个视图进行共同分割，以捕捉空间一致性、视觉相似性、统计共现和语义层次。0学习给定分割的成对特征相似性[44]和像素级特征[26,32]。我们的关键洞察力是，一个好的表示不仅应该揭示出特定级别的分组 -正如过去的共分割方法所探索的那样，而且还应以一种一致且可预测的方式揭示出任何级别的分组。如果我们接受所有先前方法都避免的分组粒度的模糊性，并且希望在像素级特征上具有分层语义分割的一致性，那么我们不仅解决了共分割的缺点，而且提供了一种联合特征-分割学习解决方案。具体而言，虽然特征X或分割G都没有可用的监督，但我们可以期望：1）每个分割都能很好地分离特征，2）由下一级特征聚类定义的更粗糙的分割只是合并当前更精细的分割。这些强约束将特征学习引导到质量更好的分层分割，从而更好地捕捉语义。我们的模型有两个组成部分：1）多视图共分割，以增强特征聚类对视觉场景的空间变换和外观变化的鲁棒性，2）聚类变换器，以强制在特征分组层次结构的不同级别上实现一致的语义分割。这两者对于将像素特征映射到分割是必要的，从而对像素特征施加所需的成对吸引和排斥。在接下来的内容中，我们首先介绍了给定任何分组G的对比特征学习损失，然后描述了我们如何在图像内部和图像之间获得三种分组，以及如何评估它们的分组好坏并强制它们的一致性。We learn a pixel-wise feature extraction function f as aconvolutional neural network (CNN) with parameters θ. Ittransforms image I to its pixel-wise feature V . Let vvvi bethe unit-length feature vector at pixel i of image I:vvvi = fi(I; θ),∥vvvi∥ = 1.(1)uuus ∝ mean (vvvi : i in segment s) ,∥uuus∥ = 1(2)Lf(G)=�i−log�s∈G+iexp vvv⊤i uuusT�s∈G+iexp vvv⊤i uuusT+ �s∈G−iexp vvv⊤i uuusT(3)25740我们学习一个像素级特征提取函数f作为具有参数θ的卷积神经网络（CNN）。它将图像I转换为其像素级特征V。设vvvi是图像I中像素i处的单位长度特征向量：03.1. 像素-分割对比特征学习0假设I被分割成段（图3）。设uuus是段s的特征向量，定义为段内像素特征的（长度归一化）平均值：0考虑一批图像及其像素分组{(I,G)}。我们希望学习正确的特征映射器f，使得所有像素在特征空间中形成不同语义组的独特聚类。我们按照[26,32]的方法，不是在像素之间，而是在像素和分割之间制定期望的特征吸引和排斥。跨粒度级别的这种对比学习减少了计算量，改善了吸引和排斥之间的平衡，并且更加有效[59]。我们要最小化的对比特征学习损失为：0其中T是一个控制特征分布集中程度的温度超参数。理想情况下，vvv i应该被正集G + i中的分割所吸引，并被负集G −i中的分割所排斥。我们的图像批次包含一些训练实例的多个增强视图。对于图像I的特定视图中的像素i，G +i包括除i自己的分割外，图像I的任何视图中相同语义组的分割，以实现内部实例的不变性，而G −i包括图像I的任何视图中不同语义组的分割，以及除I之外的训练实例的分割，以最大化实例之间的区分度[26, 62]。03.2. 视图和层次一致的分割0从像素特征 V ，我们计算特征分组 G 0 和聚类特征 X 0。我们的初始像素分组 G e基于图像中检测到的OWT-UCM边缘。从 G l 预测 G l +1的下一级聚类特征 X l +1 和分组 G l +1，并确保它们的一致性。我们为了说明的目的使用了三个级别（图3），但我们的过程可以重复多个（更粗的）级别。0图像OWT-UCM特征↓↓聚类0连贯的区域 G e 细粒度 G 1 粗粒度 G 20图3。我们通过OWT-UCM边缘（Ge，第2列）或在细粒度和粗粒度级别上进行特征聚类（G 1，G2，第3-4列）来共同分割同一图像的多个视图。白线标记了由像素特征聚类和OWT-UCM边缘导出的分割。特征点（像素）的颜色在同一列中的行之间保持一致，表示在特征空间中的分组（图像中的分割），这是由视图之间的空间变换决定的。G 2的粗粒度分割仅合并了 G 1的细粒度分割，它们的一致性由我们的聚类变换器保证。最小化 L f( G e ) ，L f ( G 1 ) ，L f ( G 2 )分别确保我们学到的特征在低级一致性方面有基础，同时具有视图不变性，并能够捕捉多个级别的语义并生成分层分割。0基础聚类特征 X 0 和分组 G 0 ，G e。我们通过聚类像素特征对 I的每个视图进行分割，得到基础分组 G 0和聚类（质心）特征 X 0（图2）。在训练过程中，但不是测试过程中，我们根据图像的OWT-UCM边缘[14]将图像 I分割成固定数量的连贯区域，根据这些区域我们将每个 G 0区域分割成边缘一致的分割[26]，如图3中的白线所示。对于训练，我们通过推断出的连贯区域分割来获得像素分组 Ge ，该分割是根据每个视图从 I中的空间变换方式确定的。最小化 L f ( G e )鼓励特征不仅在图像中具有相似的外观，而且在 I的不同视图中具有不同外观的对应像素也具有相似的特征。前者使特征 f在尊重低级外观一致性方面有基础，而后者使特征具有视图不变性。下一级聚类特征 X l +1 和分组 G l +1。现在我们在 V 的特征空间中有分组 G 0，对于每个聚类，我们从 X 0中获得其质心特征。我们建模聚类特征 X l如何映射到聚类特征 X l +1 ，即 C l +1 l ：Pl(a) = Prob(Gl = a |xxx).(4)Cl+1l(a, b) = Prob(Gl+1 = b | Gl = a).(5)Pl+1(b) =�aPl(a) · Cl+1l(a, b).(6)Pl+1 = Pl × Cl+1l= P0 × C10 × C21 × · · · × Cl+1l.(7)partitions of equal sizes. We additionally maximize the sep-aration between cluster centroids.We first build a sparsified graph based on pairwise fea-ture similarity for X0. Let e be the number of edges in thisgraph, nl the number of centroids in Xl, A the n0×n0 con-nection matrix for edges, D the n0×1 degree vector of A,Ml the n0×nl soft assignment matrix where each row is Plfor a centroid of X0, and zzzl,k the normalized k-th feature ofZl in Fig. 4. Our goodness of grouping loss is:Lg =�l≥1+ 125750对应于图像中级别 l 的分割如何映射到级别 l + 1的分割。我们采用概率框架，其中任何特征点 xxx都有属于由其聚类质心确定的组的（软分配）概率。设 P l (a ) 是级别 l 上组 a 中 xxx 的概率：0为了确保同一组中的特征点在下一级保持在一起，我们引入了组间转移概率 C l +1 l ( a, b ) ，表示从第 l 级的组 a 到第l +1 级的组 b 的转移概率：0根据贝叶斯规则，我们有：0将 P l 写成行向量的形式，我们可以推导出级别 l +1的聚类特征 X 0 的软分组分配 P l +1 ：0聚类变换器。C l +1 l定义在每个实例的多视图共同分割上。我们学习一个函数，用一个变换器[5]来自然地捕捉所有训练实例的特征组转换。与KMeans、NCut [58]和FINCH[50]等非参数聚类方法相比，它能够实现更一致的分组。我们的聚类变换器从级别 l 到 l + 1 将组质心特征 X l映射到下一级组质心特征 X l +1 ，同时输出组转移概率 C l+1 l（图4）。一致的特征分组。在级别 l = 0 时，P 0具有二进制值，表示硬分组 G 0。对于下一级l，我们通过使用我们的聚类变换器 C l +1 l 传播 P l 并计算X l +1 来计算 P l +1。我们通过使用胜者通吃法将 P l +1二值化得到 G l +1。随着 l的增加，减少组的数量，我们得到一致的细粒度到粗粒度的分割 G 1，G 2（图2）。最小化 L f ( G 1 ) 和 L f ( G 2 )鼓励特征 f捕捉多个级别的语义并生成一致的分层分割（图3）。03.3. 分组的好坏0尽管聚类变换器可以确保不同层级之间的分组一致性，但我们仍然需要将特征学习引导到良好的分割。我们遵循[55]的方法，使用模块化最大化[46]和折叠正则化来监督我们的变换器。前者寻求一个分区，使得簇内（簇外）相似性高于（低于）总体期望，而后者鼓励等大小的分区。我们还最大化簇质心之间的分离。首先基于像素特征相似性构建一个稀疏图用于 X 0 。设 e为该图中的边数，n l 为 X l 中的质心数，A 为边的 n 0 × n 0 连接矩阵，D为 A 的 n 0 × 1 度向量，M l 为 n 0 × n l 的软分配矩阵，其中每一行对应 X0 的一个质心的 P l ，zzz l,k 为图4中 Z l 的第 k个特征的归一化特征。我们的分组好坏损失为：0图4. 我们的聚类变换器通过将特征 X l 映射到 X l +1并使用特征转换 C l +1 l来保持不同层级之间的一致性。在图2中，以 l = 0的级别为例，变换器编码器还从查询嵌入 Q l获取可学习的输入，并输出上下文化特征 Y l 。变换器解码器输出X l +1 和额外的投影特征 Z l +1 。转换预测为：C l +1 l =softmax � 1 √ m Y � l Z l +1 � ；m是特征维度。统计特征映射：计算 Y l的均值和标准差，通过全连接层进行转换，并添加到 Q l以进行实例适应。02 e DD � ) M l ) � �� 最大化模块性0+ √ n l � n 0 ∥ 1 � M l ∥ F − 1 �� 折叠正则化0j exp( zzz � l,k zzz l,j ) � �� 最大化质心间的分离03.4. 模型概述：训练和测试0我们的模型（图5）使用基于边缘的分组 G e和基于多级特征的分组 G l进行对比特征学习损失的训练，并且组的好坏L(f) = λELf(Ge) + λF25760图5. 我们的模型由两个关键组件组成：1）多视角共分割和2）分层分组。我们首先生成像素级特征 V ，从中进行聚类以获得基础聚类特征 X0 和分组 G 0 。每个 G 0 区域根据 OWT-UCM 过程得到的连贯区域进行分割，用白线标记。我们以多视角共分割的方式创建三个分组：G e、G 1 和 G 2 。我们通过推断每个视图相对于原始图像的空间变换来获得 G e 。从输入的图像 X 0 和其增强视图开始，我们进行特征聚类将G 0 合并为 G 1 ，然后将 G 1 合并为 G 2 。基于 G e 、G 1 和 G 2 ，我们为每个分组制定了像素到分割的对比损失。我们的 HSG学习为输入图像生成有区分性的表示和一致的分层分割。0损失函数，分别由 λ E ， λ F 和 λ G 加权:0l ≥ 1 L f ( G l ) + λ G L g .(9)0在测试时，使用与像素特征 CNN和聚类变换器相同的流程预测分层分割 { G l }。为了评估给定标记集的分割性能，我们遵循[26]的方法，使用 k 最近邻搜索预测每个分割特征的标签。04. 实验0我们在两个任务上对我们的模型进行了基准测试：无监督语义分割和分层图像分割，前者在五个主要的对象和场景数据集上进行，后者在 Pascal VOC上进行。我们进行消融研究以了解我们模型组件的贡献。我们采用 FCN-ResNet50 作为通用的主干架构。FCN头部包括 1 × 1 卷积、BatchNorm、ReLU 和 1 × 1卷积。具体来说，我们按照 DeepLabv3 [8] 的设置在ResNet50 中设置膨胀和步幅。我们在 res5 中将 MultiGrid 设置为 (1, 2, 4)。输出步幅在训练和测试时分别设置为 16 和 8。我们不使用任何预训练模型，而是在每个数据集上从头开始训练我们的模型。地面真值注释仅用于测试和评估的目的，不用于训练。0Pascal VOC 2012 [ 15 ]是一个通用的语义分割数据集，包含20个对象类别和一个背景类别。训练集和验证集分别包含1,464和1,449张图像。我们按照[ 7]的方法，使用额外的注释[ 19]增强训练数据，得到10,582张训练图像。按照[ 56]的方法，我们只进行推理而不进行VOC的训练。MSCOCO [ 38 ]是一个复杂的场景解析数据集，包含80个对象类别。对象嵌入在更复杂的场景中，每个图像中的对象数量比Pascal多（7.3个vs.2.3个）。按照[ 56 , 60]的方法，我们使用train2017分割（118,287张图像）进行训练，并在VOC验证集上进行测试。Cityscapes [ 11 ]是一个城市街景解析数据集，包含19个物体和物质类别。与MSCOCO和VOC不同，Cityscapes包含相似的街景场景，几乎涵盖了所有19个类别。训练/测试分割为2,975/500。KITTI-STEP [ 61 ]是一个用于城市场景理解、实例检测和物体跟踪的视频数据集。它具有与Cityscapes相同的19个类别的像素级标签。训练集和验证集分别包含12个和9个视频序列，或者5,027和2,981帧。COCO-stuff[ 4 ] 是一个场景纹理分割数据集，是MSCOCO的一个子集。与[ 29, 47]一样，我们使用15个粗糙的物质类别，并将数据集减少到至少75%的物质像素的52K张图像。训练/测试分割为49,629/2,175。Potsdam [ 17 ]是一个用于航空场景解析的数据集。原始的6000×6000像素图像被划分为8550个RGBIR200×200的补丁。包含6个类别（道路、汽车、植被、树木、建筑物、杂物）。训练/测试分割为7,695/855。Moco [20]28.1-15.369.513.760.3DenseCL [60]35.1-12.764.29.347.6Revisit [56]35.1-17.171.717.065.0SegSort [26]11.775.124.681.919.269.8Our HSG41.985.732.586.021.773.8COCO-stuffPotsdamDeepCluster 2018 [6]-19.9-29.2Doersch 2015 [13]-23.1-37.2Isola 2016 [28]-24.3-44.9IIC [29]-27.7-45.4AC [47]-30.8-49.3✓--13.040.9✓✓-13.841.7✓✓✓14.041.9mIoU41.241.340.641.925770验证集 VOC Cityscapes KITTI-STEP0训练集 MSCOCO Cityscapes KITTI-STEP0Moco [ 20 ] 28.1 - 15.3 69.5 13.7 60.3 DenseCL [ 60 ] 35.1 - 12.7 64.2 9.3 47.6 Revisit [ 56 ] 35.1 - 17.1 71.7 17.065.0 SegSort [ 26 ] 11.7 75.1 24.6 81.9 19.2 69.8 我们的HSG 41.9 85.7 32.5 86.0 21.7 73.80方法 mIoU 准确率 mIoU 准确率 mIoU 准确率0表1.我们的方法在不同类型的数据集上提供了更好的性能。结果是使用IoU和像素准确率指标在VOC、KITTI-STEP和Cityscapes验证集上报告的。在VOC中，对象类别根据图像场景进行分离。在Cityscapes和KITTI-STEP中，图像都来自城市街景，因此包含大部分相同的类别集合。实例判别方法应用基于图像的对比损失，在Cityscapes和KITTI-STEP上学习效果不佳，因为图像场景相似。相反，我们的HSG学习区分不同尺度的区域，并在两种类型的数据集上表现良好。0方法 mIoU 准确率 mIoU 准确率0SegSort [ 26 ] 16.4 49.9 35.0 59.0 我们的HSG 23.857.6 43.8 67.40表2.我们的方法在物质区域和航空场景解析数据集上优于基线方法。结果是使用IoU和像素准确率指标在COCO-stuff和Potsdam测试集上报告的。我们使用最近邻搜索评估我们的模型。我们的HSG取得了卓越的性能。0λ E λ G λ F 单视角多视角0表3.使用我们的分组好度损失和像素到分割对比损失进行正则化可以改善学习到的特征。结果是使用IoU指标在VOC验证集上报告的。我们的像素特征编码了更好的语义信息。0方法 KMeans NCut [ 58 ] FINCH [ 50 ] 我们的Transfomer0表4.我们的分层聚类变换器比其他非参数聚类算法更接近语义。结果是使用IoU度量在VOC验证集上报告的。我们的学习表示实现了更好的无监督语义分割。0图像 SegSort HSG 真实情况0图6.我们的框架在不同类型的数据集上表现更好。从上到下，每三行是来自VOC、Cityscapes和KITTI-STEP数据集的视觉结果。结果是通过分割检索预测的。我们的像素级特征比基线更精确地编码了语义信息。0无监督语义分割结果。所有模型都是从头开始训练，并通过IoU和像素准确性进行评估。对于VOC，我们遵循基线[56]在MSCOCO上进行训练。表1显示，我们的方法在VOC、Cityscapes和KITTI-STEP验证集上的mIoU分别比基线提高了6.8%、7.9%和2.5%。请注意，依赖于图像级实例区分的方法在Cityscapes和KITTI-STEP上效果不好。这两个数据集中的城市街景中的类别相似。我们的方法仍然可以通过区分这些图像中的区域来发现语义。对于COCO-stuff和Potsdam的纹理分割，25780图像 12个区域 6个区域 3个区域0图7.我们的聚类变换器在不同粒度的语义上捕捉到了语义。顶部：我们在VOC验证集上使用标准化前景覆盖度作为度量标准，与其他聚类算法进行比较。我们在评估中排除了背景区域。我们的HSG与地面真实情况更准确地重叠。底部：我们通过视觉结果比较了我们的分层分割（顶部行）与SE[14]-OWT-UCM过程（底部行）。我们还在底部行的最左边的图像中显示了检测到的边缘。每个图像被分割为12、6、3个区域。我们的方法更一致地揭示了从低级到高级的语义。0表2显示，我们的方法相对于IIC [29]和AC[47]分别取得了巨大的增益，分别为+26.8%和+18.1%。分层分割结果。我们根据与地面真实分割的重叠来评估分层分割。我们评估预测分割与每个图像内的地面真实分割之间的区域重叠，称为分割覆盖度[2]。然而，这样的度量标准会根据每个分割内的像素数而偏向于大区域。对于以对象为中心的数据集VOC，一个微不足道的全前景掩码将以覆盖度指标高排名。我们提出了一种标准化的前景覆盖度度量，通过关注前景区域和重叠比例而不是重叠像素计数来定义。为了测量地面真实分割S的平均前景区域重叠比例，由预测分割S'定义如下：0NFCovering(S'→S fg)= 10| S fg |0R ∈ S fg max R' ∈ S' | R ∩R' | | R ∪ R' | (10)0其中 S fg表示真实前景区域的集合。给定一个分层分割，我们在层次结构的每个级别上报告NF-Covering。图7显示，我们的聚类变换器在每个级别上产生与真实前景更好对齐的分割。可视化。图6显示了在VOC（在MSCOCO上训练）、Cityscapes和KITTI-STEP上的样本语义分割。与SegSort[26]相比，我们的方法更准确地检索出同类别的分割。对于较大的物体或材质类别，如飞机或道路，我们的结果在区域内更一致。我们的分割还更好地尊重物体边界。我们还将我们的分层分割与SE[14]-OWT-UCM进行了比较，后者完全基于低级线索。图7底部显示，当将图像分割为12、6和3个区域时，我们的分割更接近语义层次结构。消融研究。表3显示，我们的模型通过基于分层分组的特征学习损失和分组质量损失的添加而持续改进。它还显示，与单个图像相比，多视角共分割显著提高了性能。表4显示，我们的聚类变换器在分层分组方面提供了比其他非参数聚类方法更好的正则化效果。总结。我们提供了第一个基于多视角共分割和聚类变换器的无监督分层语义分割方法。我们的无监督分割在主要的对象和场景中心基准上优于基线，我们的分层分割发现了更准确的语义。致谢。本工作得到了伯克利深度驱动、伯克利人工智能研究共同体与Facebook、NSF2131111和Bosch研究赠款的部分支持。[15] Mark Everingham, Luc Van Gool, Christopher KI Williams,25790参考文献0[1] Rıza Alp G¨uler, Natalia Neverova, 和 Iasonas Kokkinos.Densepose: 野外密集人体姿态估计. 在IEEE计算机视觉与模式识别会议论文集中, 页码7297–7306, 2018. 12 , 140[2] Pablo Arbelaez, Michael Maire, Charless Fowlkes, 和 Ji-tendra Malik. 轮廓检测和分层图像分割.IEEE模式分析与机器智能交易 , 33(5):898–916, 2010. 2 , 3 , 8 ,150[3] Arindam Banerjee, Inderjit S Dhillon, Joydeep Ghosh, 和Suvrit Sra. 使用von Mises-Fisher分布在单位超球面上进行聚类.机器学习研究杂志 , 6(Sep):1345–1382, 2005. 20[4] Holger Caesar, Jasper Uijlings, 和 Vittorio Ferrari. Coco-stuff: 上下文中的物体和物品类别. 在IEEE计算机视觉与模式识别会议论文集中, 页码1209–1218, 2018. 60[5] Nicolas Carion, Francisco Massa, Gabriel Synnaeve,Nicolas Usunier, Alexander Kirillov, 和 Sergey Zagoruyko.基于Transformer的端到端目标检测. 在欧洲计算机视觉会议论文集中, 页码213–229. Springer, 2020. 5 ,0[6] Mathilde Caron, Piotr Bojanowski, Armand Joulin, 和Matthijs Douze. 用于无监督学习视觉特征的深度聚类. 在欧洲计算机视觉会议论文集中, 页码132–149, 2018. 70[7] Liang-Chieh Chen, George Papandreou, Iasonas Kokki-nos, Kevin Murphy, 和 Alan L Yuille. Deeplab:基于深度卷积网络、空洞卷积和全连接CRFs的语义图像分割.arXiv预印本 arXiv:1606.00915 , 2016. 3 , 60[8] Liang-Chieh Chen, George Papandreou, Florian Schroff,和 Hartwig Adam. 重新思考用于语义图像分割的空洞卷积.arXiv预印本 arXiv:1706.05587 , 2017. 3 , 60[9] Ting Chen, Simon Kornblith, Mohammad Norouzi, 和Geoffrey Hinton. 对视觉表示进行对比学习的简单框架. 在机器学习国际会议中, 页码1597–1607. PMLR, 2020. 1 , 30[10] Dorin Comaniciu 和 Peter Meer. 均值漂移:一种鲁棒的特征空间分析方法. PAMI , 2002. 20[11] Marius Cordts, Mohamed Omran, Sebastian Ramos, TimoRehfeld, Markus Enzweiler, Rodrigo Benenson, Uwe Franke,Stefan Roth, 和 Bernt Schiele.用于语义城市场景理解的Cityscapes数据集. 在IEEE计算机视觉与模式识别会议论文集中, 页码3213–3223, 2016.0[12] Jia Deng, Wei Dong, Richard Socher, Li-Jia Li, Kai Li, 和 LiFei-Fei. ImageNet: 一个大规模的层次化图像数据库. 在 2009IEEE计算机视觉与模式识别会议中, 页码248–255. Ieee, 2009. 13 , 170[13] Carl Doersch, Abhinav Gupta, 和 Alexei A Efros.通过上下文预测进行无监督的视觉表示学习. 在IEEE国际计算机视觉会议论文集中, 页码1422–1430, 2015. 70[14] Piotr Doll´ar 和 C Lawrence Zitnick.使用结构化森林进行快速边缘检测. IEEE模式分析与机器智能交易 ,37(8):1558–1570, 2014. 4 , 8 , 170John Winn, 和 Andrew Zisserman.Pascal视觉对象类别(voc)挑战. IJCV , 2010. 60[16] Pedro F Felzenszwalb 和 Daniel P Huttenlocher.高效的基于图的图像分割. IJCV , 2004. 20[17] Mar

下载后可阅读完整内容，剩余1页未读，立即下载