超像素采样网络：一种用于学习超像素分割的可训练深度网络模型

116 浏览量更新于2023-10-13 收藏 2.67MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

超像素采样网络Varun Jampani1、孙德清1、刘明宇1、杨明轩1、2、Jan Kautz11NVIDIA2 UC Merced{vjampani，deqings，mingyul，jkautz}@ nvidia.com，mhyang@ucmerced.edu抽象。超像素提供了图像数据的有效低/中级别表示，这大大减少了后续视觉任务的图像基元数量。现有的超像素算法是不可区分的，使得它们难以集成到端到端可训练的深度神经网络中。我们开发了一种新的可微分模型用于超像素采样，该模型利用深度网络来学习超像素分割。由此产生的超像素采样网络（SSN）是端到端可训练的，它允许学习具有灵活损失函数的特定于任务的超像素，并且具有快速的运行时间。广泛的实验分析表明，SSN不仅优于现有的超像素算法在传统的分割基准，但也可以学习超像素的其他任务。此外，SSN可以很容易地集成到下游深度网络中，从而提高性能关键词：超像素，深度学习，聚类。1介绍超像素是通过基于低级图像属性对图像像素进行分组而形成的图像的过分割[33]它们提供了图像内容的感知上有意义的镶嵌，从而减少了用于后续图像处理的图像基元由于它们的表示和计算效率，超像素已经成为已建立的低/中级图像表示，并且广泛用于计算机视觉算法中，诸如对象检测[35，42]、语义分割[15，34，13]、显著性估计[18，30，43，46]、光流估计[20，28，37，41 ]、深度估计[ 6 ]、跟踪算法[10，28，37，41]、图像分割[10，34，13]、图像分割[10，34，15]、图像分割[10，34，44][44]我只举几个例子。超像素特别广泛地用于传统能量最小化框架中，其中少量的图像基元极大地降低了优化复杂度。近年来，深度学习在广泛的计算机视觉问题中的应用急剧增加除了少数方法（例如，[13，18，34]），超像素很少与现代深度网络结合使用这主要有两个原因。首先，形成大多数深度架构的基础的标准卷积运算通常在规则网格晶格上定义，并且当在不规则超像素晶格上操作第二，现有的超像素算法是2Jampani等人深网络可微SLIC图像超像素采样网络超像素用于语义分割的图像超像素分割标签光流场的超像素图像超像素分割流图1：超像素采样网络的概述。给定的图像首先被传递到深度网络上，该深度网络提取每个像素处的特征，然后由可微分SLIC使用这些特征来生成超像素。这里示出了用于语义分割和光流的几个示例SSN生成的任务特定的超像素不可微分的并且因此在深度网络中使用超像素在另外的端到端可训练网络架构中引入了不可微分的模块在这项工作中，我们减轻了第二个问题，提出了一个新的深度dif-ferentiable算法的超像素分割。我们首先重新审视广泛使用的简单线性迭代聚类（SLIC）超像素算法[1]，并通过放松SLIC中存在的最近邻约束将其转变为可微算法。这种新的可微分算法允许端到端训练，并使我们能够利用强大的深度网络来学习超像素，而不是使用传统的手工制作的功能。深度网络与可微SLIC的这种组合形成了我们的端到端可训练超像素算法，我们称之为超像素采样网络（SSN）。图1示出了所提出的SSN的概述。给定的输入图像首先通过在每个像素处产生特征的深度网络。然后将这些深度特征传递到可微分SLIC上，SLIC执行迭代聚类，从而产生期望的超像素。整个网络是端到端可训练的。SSN的可微性质允许使用灵活的损失函数来学习任务特定的超像素。图图1示出了一些样本SSN生成的超像素。在包括BSDS500 [4]、Cityscapes [10]和PascalVOC [11]在内的3个不同分割基准数据集上的实验结果表明，所提出的超像素采样网络（SSN）与现有的优秀超像素算法相比表现良好，同时也更快。我们还证明，通过简单地将我们的SSN框架集成到使用超像素的现有语义分割网络[13]中，可以实现性能改进。此外，我们展示了SSN在学习其他视觉任务的超像素方面的灵活性。具体而言，在Sintel光流数据集[7]上的概念验证实验中，我们展示了如何学习更好地与光流边界而不是标准对象边界对齐的超像素。与现有的超像素算法相比，所提出的SSN具有以下有利特性：超像素采样网络3– 端到端可训练：SSN是端到端可训练的，可以轻松集成到其他深度网络架构中。据我们所知，这是第一个端到端可训练的超像素算法。– 灵活和任务特定的：SSN允许利用灵活的损失函数进行学习，从而导致任务特定的超像素的学习。– 最先进的性能：在大范围基准数据集上的实验表明，SSN的性能优于现有的超像素算法。– 有利的运行时间：SSN在运行时间方面也优于突出的超像素算法，使其适合在大型数据集上学习，并且对于实际应用也是有效的。2相关工作超像素算法传统的超像素算法可以广泛地分为基于图的方法和基于聚类的方法。基于图形的方法将超像素分割公式化为图形分区问题，其中图形节点由像素表示，并且边缘表示相邻像素之间的连接强度通常，通过求解离散优化问题来执行图划分这类算法中一些广泛使用的算法包括归一化切割[33]、Felzenszwalb和Huttenlocher（FH）[12]以及熵率超像素（ERS）[26]。由于离散优化涉及离散变量，因此优化目标通常是不可微的，使得难以在基于图的方法中利用深度网络。另一方面，基于聚类的方法利用传统的聚类技术，诸如用于超像素分割的k均值。这一类中广泛使用的算法包括SLIC [1]、LSC [25]和Manifold-SLIC [27]。这些方法主要进行k-均值聚类，但在其特征表示方面有所不同。虽然SLIC [1]将每个像素表示为5维位置和Lab颜色特征（XY Lab特征），但LSC [25]方法将这些5维特征投影到10维空间上并在投影空间中执行聚类。另一方面，流形-SLIC [27]使用2维流形特征空间进行超像素聚类。虽然这些聚类算法需要迭代更新，但用于超像素分割的非迭代聚类方案在SNIC方法中提出[2]。所提出的方法也是一种基于聚类的方法。然而，与现有技术不同的是，我们利用深度网络通过端到端的训练框架来学习超像素聚类的特征。如最近的调查论文[36]所述，其他技术用于超像素分割，包括分水岭变换[29]，几何流[24]，图形切割[39]，均值漂移[9]和爬山[5]。然而，这些方法都依赖于手工制作的功能，并且将深度网络纳入这些技术中并非易事。SEAL [38]最近的一项技术提出了一种方法通过不可微超像素算法绕过梯度来学习用于超像素分割的深度特征。与我们的SSN框架不同，SEAL不是端到端可区分的。4Jampani等人p我深度聚类。受深度学习在监督任务中的成功启发，有几种方法研究了使用深度网络进行无监督数据聚类。最近，Greff et. al. [17]提出了神经期望最大化框架，其中他们使用深度网络对聚类标签的后验分布进行建模，并展开EM过程中的迭代步骤进行端到端训练。在另一项工作[16]中，梯形网络[31]用于建模聚类的分层潜变量模型。赫尔希等等人[19]提出了一种用于分离和分割音频信号的基于深度学习的聚类框架。Xie等人al. [40]提出了一个深度嵌入的聚类框架，用于同步学习特征表示和聚类分配。在最近的一份调查报告中，Aljalbout et. al. [3]给出了基于深度学习的聚类方法的分类。在本文中，我们还提出了一种基于深度学习的聚类算法。与以前的工作不同，我们的算法是专为超像素分割任务，我们使用图像特定的约束。此外，我们的框架可以很容易地结合其他视觉目标函数来学习特定于任务的超像素表示。3预赛SSN的核心是一种受SLIC [1]超像素算法启发的可微聚类技术。在这里，我们在下一节描述我们的SSN技术之前简要回顾一下SLICSLIC算法是最简单也是最广泛使用的超像素算法之一。它易于实现，具有快速的运行时间，并且还产生紧凑且均匀的超像素。虽然SLIC算法有几种不同的变体[25，27]，但在原始形式中，SLIC是在五维位置和颜色空间（通常是缩放的XY Lab空间）中对图像像素执行的k均值聚类。形式上，给定图像I∈Rn×5，在n个像素处具有5维XY Lab特征，超像素计算的任务是将每个像素分配给m个超像素之一，即，计算像素-超像素关联映射H ∈ {0，1，···，m-1}n×1。SLIC算法如下操作首先，在5维空间中选取初始聚类（超像素）中心S0∈Rm×5这种采样通常是在像素网格上均匀进行的，并具有一些局部扰动，图像梯度给定这些初始超像素中心S0，SLIC算法在每次迭代t中以迭代方式进行以下两个步骤：1. 像素-超像素关联：将每个像素关联到五维空间中最近的超像素中心，即，计算每个像素P处的新超像素分配，Ht=arg mini ∈{0，…m−1}D（Ip，St−1），（1）当Ddee不具有D（a，b）上的Di s tacuut i时=||a−b||二、2.超像素中心更新：每个像素内的平均像素特征（XY Lab）每像素聚类以获得新的超像素聚类中心St。对于每一个超级-超像素采样网络5Ip|Ht =i我我Pi我Pi像素i，我们计算该簇的质心，St=1 Σ 一、（二）iZtpp其中Zt表示超像素集群i中的像素的数量。这两个步骤形成SLIC算法的核心，并且重复直到或者收敛或者对于固定次数的迭代。由于计算Eq.由于在所有像素和超像素之间计算1是耗时的，所以该计算通常被约束到每个超像素中心周围的固定邻域。最后，根据应用程序的不同，有一个可选步骤在每个超像素集群中的像素之间实施空间连接性。关于SLIC算法的更多细节可以在Achanta et.等[1]。在下一节中，我们将阐明如何修改SLIC算法来开发SSN。4超像素采样网络如示于图1、SSN由两部分组成：生成像素特征的深度网络，然后将其传递到可区分的SLIC。在这里，我们首先描述的可区分SLIC其次是SSN架构。4.1可微SLIC为什么SLIC不可微？更仔细地观察SLIC中的所有计算表明，不可微性是由于像素-超像素关联的计算而产生的，这涉及不可微的最近邻操作。该最近邻计算也形成SLIC超像素聚类的核心，因此我们不能避免该操作。我们的方法的一个关键是转换成一个可微的最近邻操作。代替计算硬像素-超像素关联{0， 1，· · ·，m−1}n×1（在等式 1），我们建议计算软关联Q∈像素和超像素之间的Rn×m具体地，对于像素p和超像素p，i在迭代t，我们替换最近邻计算（等式2）。1）在具有以下像素-超像素关联的SLIC中。t− D（I，St−1） −||I − St−1||2Qπ=epi= epi（三）相应地，新的超像素聚类中心的计算（等式（Eq. 2）被修改为像素特征的加权和St= 1ΣnZtQtIp，（4）其中Zt=Σip=1t是归一化常数。为方便起见，我们参考列将dQt规范化为Qt，然后可以对上一个像素进行重写Qp6Jampani等人我ZPi =.ΣΣ输入GT分段初始超像素SSNpixSSNdeep图2：从初始网格到学习的超像素。来自BSDS500数据集的示例视觉结果示出了初始超像素网格以及利用SSNpix和SSNdeep获得的超像素。为了计算绿色框中的每个像素的像素-超像素关联，仅考虑红色框中的周围超像素算法1超像素采样网络（SSN）输入：图像In×5.XYXY实验室功能输出：像素-超像素关联Q。n×m1：使用CNN的像素特征，Fn×k =F（I）。2：具有规则网格单元中的平均特征的初始超像素中心，S0m×k =J（F）。3：对于1中的每个迭代t到vdo4：计算每个像素p与周围超像素i之间的关联，te−||Fp−St−1||25：计算新的超像素中心，St=InQtFp;Zt=InQ t.6：结束itp=1pii我pPi7：（可选的）计算硬关联Hv; Hv=最大参数Qv.n×1p8：（可选）强制空间连接。Pii ∈ {0，…m−1}在e处，则t=QtI。Q的大小为n×m，并且对于所有的超像素m，计算所有像素和超像素之间的Q π是极其昂贵的。因此，我们将距离计算限制为每个像素到仅9个周围超像素，如使用红色和蓝色所示。图中的绿色方框二、对于绿色框中的每个像素，仅考虑红色框中的周围超像素来计算关联。这将Q的大小从n×m降低到n×9，使其在计算和内存方面都很有效。Q计算中的这种近似是在精神上类似于SLIC中的近似最近邻搜索。现在，在每个SLIC迭代的计算是完全differentiren- tiable，我们把这种修改后的算法作为可微SLIC。根据经验，我们观察到，用可区分SLIC中的软像素-超像素关联替换SLIC中的硬像素-超像素关联不会导致任何性能下降。由于这种新的超像素算法是可微的，因此它可以轻松集成到任何深度网络架构中。代替使用手动设计的像素特征Ip，我们可以利用深度特征提取器并端到端地训练整个网络。换句话说，我们将上面的图像特征Ip计算（等式3和4）具有k维像素特征Fp∈Rn×kcom-使用深度网络。我们将这种深度网络与可微分SLIC作为超像素采样网络（SSN）。Q超像素采样网络7图3：SSN的计算流程我们的网络由一系列卷积层组成，这些卷积层与批处理范数（BN）和ReLU非线性交织 ↑表示到原始图像分辨率的双线性上采样。然后将来自CNN的特征传递到可微分SLIC中的迭代更新上以生成超像素。算法1概述了SSN中的所有计算步骤该算法从使用CNN的深度图像特征提取开始（第1行）。我们用初始规则超像素网格中的平均像素特征来初始化超像素聚类中心（第2行）（图2）。2）的情况。然后，对于v次迭代，我们使用上述计算（第3-6行）迭代地更新像素-超像素关联和超像素中心尽管可以直接将软像素-超像素关联Q用于若干下游任务，但是取决于应用需要，存在将软关联转换为硬关联的可选步骤（第7行）此外，像在原始SLIC算法中一样，我们可以可选地跨每个超像素集群内的像素强制空间连接。这通过将小于某个阈值的超像素与周围的超像素合并并且然后为每个空间连接的分量分配唯一的集群ID来实现。注意，这两个可选步骤（第7行、第8行）是不可微的。像素和超像素表示之间的映射。对于使用超像素的一些下游应用，像素表示被映射到超像素表示上，反之亦然。利用提供硬集群的传统超像素算法，从像素到超像素表示的这种映射经由在每个集群内求平均来完成（等式10）。2）的情况。从超像素到像素表示的逆映射通过将相同的超像素特征分配给属于该超像素的所有像素来完成。我们也可以使用与SSN超像素相同的像素-超像素映射，使用从SSN获得的硬簇（算法1中的行7）。然而，由于硬关联的这种计算是不可微的，因此在集成到端到端可训练系统中时可能不期望使用硬集群。值得注意的是，由SSN生成的软像素-超像素关联也可以容易地用于像素表示和超像素表示之间的映射。当量图4已经描述了从像素到超像素表示的映射，其是与列归一化的Q矩阵的转置的简单矩阵乘法：S=Q（F），其中F和S不是像素并且分别是上像素。从超像素到像素表示的逆映射是通过对重新归一化的d Q（不被定义为Q ~）进行多重编译来完成的，其中，对超像素进行预处理。v次迭代深度网络可微SLIC计算像素-超像素关联计算超像素中心Conv-BN-ReLUConv-BN-ReLU池-Conv-BN-ReLUConv-BN-ReLU池-Conv-BN-ReLUConv-BN-ReLUConcat-Conv-ReLU8Jampani等人tation s，F=Q<$S. 在这些映射中，像素-子像素被给出为与关联矩阵的简单矩阵乘法，并且是可微的。稍后，我们将利用这些映射设计损失函数来训练SSN。4.2网络架构图3示出了SSN网络架构。用于特征提取的CNN由一系列卷积层组成，这些卷积层与批量归一化[21]（BN）和ReLU激活交织我们使用最大池化，其在第2和第4卷积层之后将输入下采样2倍以增加感受野。我们对第4和第6个卷积层输出进行双线性上采样，然后与第2个卷积层输出连接，最后的卷积层。我们使用3× 3卷积滤波器，每层中输出通道的数量设置为64，除了最后一层CNN输出k−5个通道。我们将此k-5通道输出与给定图像的XY Lab连接，从而产生k维像素特征。我们选择这个CNN架构的简单性和效率。其它网络架构是可设想的。所得的k维特征被传递到两个可微分SLIC模块上，该两个模块迭代地更新像素-超像素关联和超像素中心以进行v次迭代。整个网络是端到端可训练的。4.3学习任务特定的超像素端到端可训练SSN的主要优点之一是损失函数的灵活性，我们可以使用它来学习特定于任务的超像素。与任何CNN一样，我们可以将SSN与任何特定于任务的损失函数相结合，从而学习针对下游计算机视觉任务进行优化的超像素在这项工作中，我们专注于优化超像素的表示效率学习可以有效地表示诸如语义标签、光流、深度等场景特性的超像素。作为示例，如果我们想要学习将用于下游语义分割任务的超像素，则期望产生遵守语义边界的超像素。为了优化表示效率，我们发现特定于任务的重建损失和紧凑性损失的组合表现良好。特定任务重建损失。我们将我们想要用超像素有效表示的像素属性表示为R∈Rn×l。例如，R可以是语义标签（作为独热编码）或光流图。重要的是要注意，我们在测试时间期间不能访问R，即，SSN仅使用图像数据预测超像素。我们在训练期间仅使用R，以便SSN可以学习预测适合表示R的超像素。如前所述在第4.1节中，我们可以使用列规范化d将像素属性映射到超像素上，如在rixQ，R=QR，其中R∈Rm×l。在R上使用superpixelrepree tationR是一个映射的数据库，用于在R上使用rw-normalizedassociationmatrixQ~，R*=Q~S，其中R*∈Rn×l来操作pixel re p re e t at i on R *。Then重建损耗被给出为超像素采样网络9p我Lrecon=L（R，R*）=L（R，Q〜QR）（5）其中L（.，. ）表示任务特定的损失函数。在这项工作中，对于分割任务，我们使用L的交叉熵损失，并使用L1范数来学习光流的超像素。这里Q表示最后一次迭代的可微SLIC。为了方便起见，我们省略了v压实度损失。除了上述损失之外，我们还使用紧凑性损失来鼓励超像素在空间上紧凑，即，以在每个超像素集群内具有较低的空间方差令Ixy表示位置像素特征。我们首先将这些位置特征映射到我们的超像素表示中，Sxy=QIxy。因此，我们使用硬关联H（而不是软关联Q）通过将相同的备份像素分配给所有备份像素来创建新的映射，以使用备份像素来备份像素，Ixy=Sxy|Hp= i. 紧性损失被定义为以下L2范数：Lcompact= ||Ixy−I<$xy||二、（六）这种损失促使超像素具有较低的空间方差。SSN的灵活性允许使用许多其他的损失函数，这使得有趣的未来研究。我们在这项工作中使用的总损失是这两个损失函数的组合，L=Lrecon+λLcompact，其中我们在所有实验中将λ设置为10−54.4实施和实验方案我们使用CUDA将可微SLIC实现为神经网络层在Caffe神经网络框架中[22]。所有的实验都是使用Python接口的Caffe进行的。我们使用缩放的XYLab特征作为SSN的输入，位置和颜色特征尺度分别表示为γpos和γcolor。γ颜色的值与超像素的数量无关，并且被设置为0.26，颜色值在0和255之间。γpos的值取决于超像素的数量，γpos=ηmax（mw/nw，mh/nh），其中mw，nw和mh，nh表示沿图像宽度和高度。在实践中，我们观察到η= 2。五是做得好。对于训练，我们使用大小为201× 201和100个超像素的图像块。在数据增强方面，我们使用左右翻转，并且对于小的BSDS500数据集[4]，我们使用随机缩放图像的附加数据增强补丁. 对于所有实验，我们使用Adam随机优化[23]，批量大小为8，学习率为0。0001. 除非另有说明，否则我们对模型进行了50万次迭代训练，并根据验证准确性选择最终的训练模型。对于消融研究，我们用不同参数训练模型进行200K次迭代。重要的是要注意，我们使用单个训练的SSN模型来通过如上所述缩放输入位置特征来估计变化数量的超像素。我们使用可微分SLIC的5次迭代（v = 5）进行训练，并在测试时使用10次迭代，因为我们观察到更多迭代仅获得边际性能增益。https://varunjampani.github.io/ssn/ 有关代码和训练模型，请参阅www.example.com。10Jampani等人5实验我们在4个不同的基准数据集上进行实验。我们首先通过在突出的超像素基准BSDS500 [4]（第5.1节）上的实验来演示学习的超像素的使用。然后，我们展示了在Cityscapes [10]和PascalVOC [11]数据集上使用任务特定的超像素进行语义分割（第5.2节），以及在MPI-Sintel [7]数据集上使用光流（第5.3节）。此外，我们展示了SSN超像素在使用超像素的下游语义分割网络中的使用（第5.2节）。5.1学习超像素我们在BSDS 500基准数据集上进行消融研究并对其他超像素技术进行评估[4]。BSDS500包含200个训练图像、100个验证图像和200个测试图像。每个图像都用来自多个注释器的地面实况（GT）片段进行注释我们将每个注释视为一个单独的样本，产生1633个训练/验证对和1063个测试对。为了学习附着于GT段的超像素，我们在重建损失中使用GT段标签（等式10）。（五）。具体地，我们将每个图像中的GT段表示为独热编码向量，并将其用作重建损失中的像素属性R我们在等式中使用L的交叉熵损失。五、请注意，与GT标签具有含义的语义分割任务此数据集中的GT片段不携带任何语义含义。这不会对我们的学习设置造成任何问题，因为SSN和重建损失对于像素属性R的含义是不可知的。重建损失使用给定的输入信号R及其重建版本R*生成损失值，并且不考虑R的含义是否在图像中保留。评估指标。超像素在广泛的视觉任务中是有用的，并且存在用于评估超像素的若干度量。在这项工作中，我们认为Achiev-能够将分割准确度（ASA）作为我们的主要指标，同时还报告边界指标，例如边界召回（BR）和边界精度（BP）指标。ASA分数表示通过对超像素执行的任何分割步骤可实现的准确度的上限另一方面，边界精确度和召回率测量超像素边界与GT边界对齐的程度。我们将在补充材料中更详细地解释这些指标这些分数越高，分割结果越好。我们通过改变生成的超像素的平均数量来报告平均ASA和边界度量。边界精度和召回率的公平评估期望超像素在空间上连接。因此，为了无偏比较，我们遵循计算硬簇和对SSN超像素实施空间连接性（算法1中的第7-8行）的可选后处理。消融研究。我们参考图1所示的主要模型。3、深度网络中有7个卷积层，与SSN深度相同。作为基线模型，我们评估了用可微分SLIC生成的超像素，该可微分SLIC将像素XY Lab特征作为输入。这类似于标准SLIC算法，我们将其称为SSNpix，并且没有可训练的参数。作为另一个基线模型，我们超像素采样网络11SLICSNICSEEDSLSCERSETPSSCALPSSNpix边界精度97949296908895300 350 400 450 500 550600超像素数86300 350 400 450 500 550 600超像素数图4：对BSDS500的消融研究。测试集上的结果表明，ASA和BR得分都随着深度网络而显著提高，并且随着特征维度k和可微SLIC迭代v的数量增加而略有提高。用单个卷积层代替深度网络，该卷积层学习线性变换输入XY Lab特征，我们将其称为SSN线性。图图4示出了这些不同模型的平均ASA和BR得分，其中特征维度k和可微SLIC中的迭代次数v不同SSN 线性的ASA和BR已经可靠地高于基线SSNpix，这示出了我们的损失函数的重要性并且通过超像素算法反向传播损失信号。SSNdeep进一步大幅改善ASA和BR评分。我们观察到具有更高特征维度k和更多迭代v的分数略好。出于计算原因，我们选择k= 20和v= 10，并且从这里开始将该模型称为SSN深度。98 4597403596309525942093200 300 400 500 600 700 800 900 1000 1100超像素数158486889092949698100边界回忆图5：BSDS500测试结果SSN在ASA评分和边界精确度-召回方面优于其他与最先进技术的比较。图5示出了SSN与现有技术的超像素算法的ASA和查准率 - 查全率比较。我们与以下主要算法进行比较：[1][2][3][4][5][6][7][8][9][10][11][12][13][14][15][16][17][18][19 曲线图表明SSNpix与SLIC超像素表现相似，表明SLIC的性能在放松最近邻约束时不会下降。与其他技术的比较表明，SSN表现得更好的ASA评分和精确召回。图2示出了比较SSNpix和SSNdeep的视觉结果，并且图7示出了比较SSNdeep与现有技术的视觉结果。请注意，SSN深超像素平滑地跟随对象边界，并且也更集中在对象边界附近。SSNpix，v= 10SSN线性，v= 10SSN深度，v=10，k= 10SSN深度，v= 10，k= 20SSN深度，v= 10，k= 30SSN深度，v= 5，k=20SSN深度，v= 15，k= 20SSNpix，v= 10SSN线性，v= 10SSN深度，v = 10，k = 10SSN深度，v = 10，k = 20SSN深度，v = 10，k =30SSN深度，v = 5，k= 20SSN深度，v = 15，k = 20SLICSNIC种子LSCERSETPSSCALPSSNpixASA评分ASA评分BR评分12Jampani等人SLICSNICLSCERSSEALGSLICRSSNpix边界精度97 32963095289426932492912290200 300 400 500 600 700 800 900 1000 1100超像素数2050 55 60 65 70 75 80边界回忆图6：Cityscapes验证的结果。ASA和边界查全率表明，SSN表现良好，对其他技术。5.2用于语义分割的在本节中，我们介绍了Cityscapes [10]和PascalVOC [11]的语义分割基准的结果。实验设置与前一节的设置非常相似，唯一的区别是使用语义标签作为重建损失中的像素属性R因此，我们鼓励SSN学习超像素，坚持的emantic段。城市景观。Cityscapes是一个大规模的城市场景理解基准，具有像素精确的语义注释。我们用2975张训练图像训练SSN，并在500张验证图像上进行评估。为了便于实验-实验中，我们使用了半分辨率（512×1024）图像。图中的图6显示SSN deep在ASA方面与SEAL [38]超像素表现相当，同时在精度方面更好。记得了我们在图中示出了视觉结果。7、更多的是补充。运行时分析。我们报道了ap-GPU/CPU时间（毫秒）SLI [1]CPU350SNIC [2]CPU810种子[5]CPU160LSC [25]CPU1240欧洲遥感卫星[26]CPU4600SEAL-ERS [38]GPU-CPU4610GSLICR [32]GPU10SSN模型SSNpix，v=10GPU58SSN深度，v=5，k=10GPU71SSN深度，v=10，k=10GPU90SSN深度，v=5，k=20GPU80SSN深度，v=10，k=20GPU101表1：运行时分析。不同超像素技术的平均运行时间（以 ms 为单位），用于在512× 1024城市景观图像上不同技术的近似运行时间，用于在其上计算1000个超像素。表1中的512×1024城市景观图像。我们计算GPU运行时使用NVIDIA Tesla V100GPU。SSNpix和SSN深度指示SSN计算时间的显著部分是由于可微分SLIC。运行时表明，SSN是相当快的几个超像素算法的实现。PascalVOC。PascalVOC 2012 [11]是另一个广泛使用的语义分割基准，我们用1464个训练图像训练SSN，并在1449个验证图像上进行验证图图8（a）示出了不同技术的ASA分数我们不像GT语义边界那样用忽略标签扩大ASA分数表明SSN深度优于其他技术。我们还在该数据集上评估了BSDS训练的模型，并且仅观察到准确性的边际下降（图1B中的“SSN深度-BSDS”）。8（a））。这显示了SSN对不同数据集的泛化性和鲁棒性。一个示例视觉结果如图所示。7、更多的是补充。SLICSNICLSCERS密封GSLICRSSNpixSSN深ASA评分超像素采样网络13输入GT段SLIC LSC ERSSSNdeep（Ours）图7：不同分割基准上的示例视觉结果。注意SSN深超像素在对象边界周围的分离1002.5992.0981.597100 200 300 400 500600超像素数(a) VOC语义分割1.0200300400500600700800 900超像素数(b) MPI-Sintel光流图8：学习任务特定的超像素。(a)PascalVOC 2012 val-图1示出了（a）Sintel光流验证数据集上的EPE分数和（b）Sintel光流验证数据集上的EPE分数，其示出了SSN跨不同任务和数据集的鲁棒性。我们进行了一个额外的实验，其中我们将SSN插入到[13]的下游语义分割网络中，[13]中的网络具有双边起始层。这些算法利用超像素跨中间CNN表示进行远程数据自适应信息传播。表2示出了根据测试数据评估的该关节模型的交并（ IoU ）评分 IoU 相对于原始 SLICsuper表 2 ：具有下游 CNN 的 SSN 。IOU改进，基于VOC2012测试数据，将SSN集成到[13]的双边接收（BI）网络中。[13]中使用的像素表明，SSN也可以为使用超像素的下游任务网络带来性能改进5.3光流场的超像素为了证明SSN对回归任务的适用性，我们进行了一个概念验证实验，在实验中我们学习了遵守光流边界的超像素。为此，我们在MPI-Sintel数据集[7]上进行实验，并使用SSN来预测给定一对输入帧的超像素。我们使用GT光流作为重建损耗中的像素特性R（等式10）。5）并使用L1损失L，鼓励SSN生成可以有效地表示流的超像素SLICSNICSEEDSLSCERSSSNpixSSN深BSDSSSN深度PascalVOCCityscapesBSDS500SLICSNICLSCERSSSNpixSSN深终点误差（EPE）ASA评分方法IOUDeepLab [8]68.9+ 通用报告格式[8]72.7+ [13]第十三话74.1+ BI（SSN深度）75.314Jampani等人输入GT流LSC段流SLIC段流SSN深段流图9：Sintel光流的样品视觉结果。使用不同类型的超像素获得的分段流视觉效果表明，与其他技术相比，SSN深超像素可以MPI-Sintel数据集由23个视频序列组成，我们将其分成18个（836帧）训练序列和5个（205帧）验证序列的不相交集合。为了评估超像素，我们遵循与计算ASA类似的策略。也就是说，对于超像素内的每个像素，我们分配平均GT光流，从而产生分段流。图9示出了使用不同类型的超像素获得的样本分割流。然后，我们计算GT流和分段流之间的欧氏距离，这被称为端点误差（EPE）。EPE值越低，超像素用于表示流量越好。图中的示例结果。图9示出了SSN深超像素比其他超像素更好地与GT流的变化对准。图8（b）示出了不同技术的平均EPE值，其中SSN深度相对于现有超像素技术表现有利。这表明SSN在学习特定任务的超像素中的有用性。6结论我们提出了一种新的超像素采样网络（SSN），该网络利用通过端到端训练学习的深度特征来估计特定于任务的超像素。据我们所知，这是第一个端到端可训练的深度超像素预测技术。实验几个基准测试表明，SSN一贯表现良好，对国家的最先进的超像素技术，同时也是- ing更快。将SSN集成到语义分割网络中[13]还导致性能改进，显示了SSN在下游计算机视觉任务中的有用性。SSN速度快，易于实现，可以很容易地集成到其他深度网络中，并具有良好的经验性能。SSN已经解决了将超像素并入深度网络的主要障碍之一，这是现有超像素算法的不可微性质。在深度网络内部使用超像素可以有几个优点。超像素可以降低计算复杂度，特别是在处理高分辨率图像时。超像素还可以用于强制执行分段常数假设，并且还有助于长距离信息传播[13]。我们相信这项工作为在深度网络中利用超像素开辟了新的途径，并激发了使用超像素的新深度学习技术致谢。我们感谢杜伟志提供评估脚本。我们感谢Ben Eckart在补充视频中的帮助。超像素采样网络15引用1. Achanta，R. Shaji，A.， Smith，K.， Luc chi，A. Fua，P.，别跑了，S。：与现有技术的超像素方法相比，SLIC的超像素。 IEEE TransactionsonPatternAnalysandMachineIntellige （ TPAMI ） 34 （ 11 ）， 2274- 2282（2012）2. 阿昌塔河Susstrunk，S.：超像素和多边形使用简单的非迭代聚类。IEEE计算机视觉与模式识别会议（CVPR）（2017）3. Aljalbout，E.，戈尔科夫Siddiqui，Y.，Cremers，D.：使用深度学习进行聚类：分类学和新方法。arXiv预印本arXiv：1801.07648（2018）4. Arbelaez，P.，Maire，M.，福克斯角Malik，J.：轮廓检测与分层图像分割。IEEE Transactions on Pattern Analysis and MachineIntelligence（IEEE模式分析与机器智能学报）33（5），8985. Van den Bergh，M.，Boix，X.，Roig，G.，Van Gool，L.：种子：通过能量驱动采样提取的超像素。International Journal of Computer Vision（IJCV）111（3），2986. Van den Bergh，M.，Carton，D.，Van Gool，L.：深层种子：使用超像素恢复不完整深度数据。在：IEEE研讨会上的应用程序的ComputerrVision（WACV）。pp. 3637. 巴特勒DJWulff，J.，Stanley，G.B.，布莱克，M.J.：一个用于光流评估的自然主义开源欧洲计算机视觉会议（ ECCV ） pp. 611Springger（2012）8. Chen，L.C.，帕潘德里欧，G.，科基诺斯岛墨菲K Yuille，A.L.：使用深度卷积网络和全连接CRF进行语义图像分割。国际学习表征会议（International Conference on Learning Representations，ICLR）（2015）9. Comanicu ， D. ， Meer ， P. ： Mean Shift ： A Robust Approach TowardFeature Space Analysis.IEEE Transactions on Pattern Analysis and MachineIntelligence（TPAMI）24（5），60310. Cordts，M.，Omran，M.，Ramos，S.，Rehfeld，T.，Enzweiler，M.，Benenson河弗兰克，美国，Roth，S.，Schiele，B.：用于语义城市场景理解的cityscapes数据集IEEE计算机视觉与模式识别会议（CVPR）（2016）11. Everingham，M. Eslami，S.A.凡古尔湖威廉姆斯，C.K.，Winn，J.，Zisser-man ， A. ： PascalVisualObjectClasses 挑战：回顾展。

下载后可阅读完整内容，剩余1页未读，立即下载