交互式实例分割中使用内容感知指导图的优势

176 浏览量更新于2023-10-18 收藏 865KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

11602交互式实例分割Soumajit Majumder计算机科学第二研究所德国majumder@cs.uni-bonn.de计算学院新加坡国立大学yaoa@comp.nus.edu.sg摘要在交互式实例分割中，用户给出反馈以迭代地细化分割掩码。用户提供的目前系统中使用的导航地图纯粹是以距离为基础的，不是过于局限就是没有信息。我们提出了一种新的用户点击转换生成内容感知的指导地图，利用图像中存在的层次结构信息。使用我们的指导图，即使是最基本的FCN也能够优于现有的方法，这些方法需要在大规模分割数据集上预先训练的最先进的分割网络我们证明了我们提出的转换策略的有效性，通过全面的实验，我们显着提高国家的最先进的四个标准的交互式分割基准。1. 介绍交互式对象选择和分割允许用户交互式地选择感兴趣的对象，通过提供诸如点击、涂写或边界框之类的输入来控制像素级别。分割结果可用于下游应用，例如图像/视频编辑[6，30]、基于图像的医学诊断[50，51]、人机协作注释[2]等。GrabCut [45]是交互式分割的开创性示例，其通过迭代更新基于颜色的高斯混合模型从用户提供的边界框中分割对象。其他方法包括Graph Cuts [7]，Random Walk [18]和GeoS [13]，尽管最近的方法[32，35，36，52，53]使用卷积神经网络（CNN）等深度学习架构来解决问题。在标准的非交互式实例分割[4，15，21，22，23]中，RGB图像作为输入给出，并且预测每个对象实例的分割掩码。然而，在交互式设置中，输入由图1.现有的交互式实例分割[26，31，32，53]技术在生成指导图（第二列）时不利用任何图像信息。相比之下，我们提出的技术利用图像结构，如超像素和对象建议，使我们能够生成更多信息的指导地图（第一列，底部行）。RGB图像以及引导图帮助选择要分割的特定实例;当在迭代设置中工作时，它还可以帮助校正来自先前分段的错误[6，32，35，53]。用户反馈通常以点击[26，31，32，35，36，53]或边界框[52]的形式给出通过使用预先训练的CNN中编码的高级表示，生成高质量片段所需的用户交互数量已大大减少。然而，图像编码与引导信号之间仍然存在很大的不一致性，因为用户交互被转换为简单的原语，例如Eu-clidean [53，31，26]或高斯距离图[6，35，36]，后者是最近工作中的首选，因为它们能够定位用户点击[35]。这种导航地图的例子可以在图中找到。1第二列、第一行和第二行。11603我们的观察是，当前的引导信号甚至不像场景中最基本的图像这当然也排除了更复杂的结构，如对象假设，所有这些都可以在无监督的方式确定。因此，我们的动机是最大化的信息，可以利用从用户提供的点击，并生成更有意义的指导地图的交互式实例分割。为此，我们提出了一种简单而有效的用户点击转换，这使我们能够利用图像信息的层次结构，从基于超像素的外观和纹理等低级线索开始，到更高级的信息，如类独立的对象假设（见图1）。（3）第三章。我们的工作是第一次调查的影响，指导地图生成交互式分割。我们的研究结果表明，目前基于高斯和欧几里得距离的地图过于简单，不能充分利用图像中存在的结构。当前基于距离的导航地图的第二个也是常见的缺点是，它们在交互期间未能考虑对象的尺度。当涉及到分类[41]或分割[40]时，对象规模对网络性能高斯和欧几里得距离图主要用于定位用户点击，而不考虑对象比例。我们的算法粗略估计对象规模的基础上，用户提供的点击和细化相应的指导地图。我们的方法非常灵活，因为生成的指导图可以与接受指导作为新输入通道的任何方法配对[53，32，35，6]。我们通过实验证明，与现有的最先进技术相比，通过利用图像中的结构化信息提供内容感知指导可以显著提高性能，同时使用简单的现成CNN架构。我们工作的主要贡献如下：我们提出了一种新的转换用户提供的点击生成的指导地图，利用分层信息存在于场景中。我们提出了一个框架，它可以占一个对象的规模，并产生相应的指导地图，在一个基于点击的用户反馈方案。我们进行了一个系统的研究的影响，指导地图上的交互式分割perfor-曼斯时，在不同级别的图像层次结构的基础上产生的功能。我们在四个细分基准上实现了最先进的性能;我们提出的方法显著地减少了精确分割所需的用户交互量，并且每个实例使用最少的平均点击次数。2. 相关作品使用点击、涂鸦或边界框交互式地分割对象一直是计算机视觉研究中感兴趣的问题，因为它可以解决全自动分割方法所面临的一些质量问题。交互式图像分割方法的早期变体，例如参数活动轮廓模型[27]和intelligent scissors [39]，在执行分割时主要考虑边界属性;因此，它们往往在弱边缘上表现不佳。最近的方法是基于图割[7，45，49，30]，测地线[5，13]和/或两者的组合[19，44]。然而，所有这些算法都试图从诸如颜色和纹理之类的低级特征来估计前景/背景分布，这在一些情况下是不足的，例如，在具有相似前景和背景外观、复杂纹理和较差照明的图像中。与计算机视觉的许多其他领域一样，基于深度学习的方法在过去几年中也在交互式分割在[53]的初始然后基于先前预测的误差迭代地添加点击。在每个新的点击到达时，更新欧几里得距离变换映射并执行推理。重复该过程，直到获得满意的结果。随后的工作主要集中在使用较新的CNN架构[35，6]和迭代训练程序[35，32]进行扩展。在大多数这些作品中，用户指导以点击的形式提供[53，35，32，36，31]，然后将其转换为基于欧几里得的距离图[53，31]。在[6，35，36]中观察到的一个结果是，将点击编码为高斯导致了一些性能改善，因为它更好地定位了点击[35]，并且可以在单个通道中编码正点击和负点击[6]。在[9]中，作者探索了使用超像素来生成引导图。然而，与使用超像素来维持计算效率w.r.t.对于它们的图形优化，我们的引导图使用超像素来利用其中包含的局部相似性。这是我们在不同级别的图像结构中对用户输入进行编码的一般原则。在大多数情况下，很少有人关注如何将用户输入作为指导;交互式细分的主要焦点网络体系结构3. 该方法我们遵循以前的交互式框架[53，32，35，6]，其中用户可以提供····11604--Dd··SPG{}基于超像素的制导地图输入FCN预测基于目标的制导地图初始预测（可选）图2. 纲要给定输入图像和用户交互，我们将正面和负面点击（分别用绿色和红色点表示）转换为三个单独的通道（2通道基于超像素和1个基于对象提议的指导图），这些通道与3通道图像输入连接（表示为“0”）并馈送到我们的网络。此外，我们将来自前一次迭代的预测掩码的欧几里得绿色实线表示我们对对象缩放基于初始的正负点击对。输出是所选对象的地面实况贴图点击以分别指示前景和背景/其他对象（如图所示）2）的情况。我们将点击位置的集合表示为p0，p1，其中下标0和1分别用于正点击和负点击。到目前为止，已经通过作为图像网格的每个像素到交互点之间的距离的函数来生成引导图。更正式地，对于图像网格上的每个像素位置p，用于正点击和负点击的一对基于距离的引导图可以被计算为G（p）=mind（p，c）和G（p）=mind（p，c）。（一）到整个超像素然后，基于从每个超像素的质心到用户选择的超像素的质心的最小欧几里得距离，将指导值分配给场景中的每个其他超像素。我们可以把制导看作是方程的离散化版本。1基于低层图像结构。更正式地，令{S}表示来自图像的超像素集合，并且fSP（p）是将图像中的每个像素位置p映射到{S}中的对应超像素的函数。我们进一步定义了一个积极的和消极的苏-0c∈{p0}1c∈{p1}基于正点击和负点击设置的每像素，即，{s0=fSP（p0）}和{s1=fSP（p1）}。似-在欧几里德指导地图的情况下[53]，函数d（，）是欧几里得距离。然而，这种指导是图像不可知的，并假设场景中的每个像素都是独立的。我们提出的方法避开了这一假设，并提出了多个指导地图的生成与低层次和高层次的图像结构中存在的场景对齐。我们用超像素表示低级结构，用基于区域的对象建议表示高级结构，大的距离为基础的指导地图方程。1、我们生成了一对制导图。然而，我们不是单独处理每个像素，而是将超像素中心之间的距离传播到每个超像素内的所有像素，即。t（p）=mindc（s，fSP（p）），其中t=0，1，（2）s∈{st}dc（si，sj）是两个中心之间的欧几里得距离超像素si和sj的sc和sc关于ively，其中sc=我们将如何从这些结构中生成导航图，Σij（ixi/|SI|、Σiiyi/|SI|）在哪里|SI|表示数量第3.1节和第3.2节中的问题。3.1. 基于超像素的制导地图我们首先考虑一种基于非重叠区域的指导形式;在我们实现中，我们使用超像素。超像素将局部相似颜色的像素分组在一起，同时尊重对象边界[1]，并且是基于CNN之前的分割算法的标准工作单元以前的工作已经表明，大多数（如果不是全部）超像素中的像素属于同一类别[17，42，25]。基于这一观察，我们propa-门用户提供的点击标记在单个像素s内的像素为了在训练图像之间保持一致性，导航地图值在[0，255]之间缩放。当用户不提供点击时，所有像素值都设置为255。图2的第二列和第三列示出了示例引导地图。分别3。3.2. 基于对象的制导地图超像素可以在感知上被分组到类别独立的对象提议中。我们还从更高级别的图像结构中生成指导图，特别是基于区域的对象建议[3，29，37，43，47]。这样的建议在过去被认为是监管不力11605OpLSP-SCSPp图3. 导航地图的例子。我们将用户提供的正面（显示为绿点）和负面（显示为红点）点击转换为实例分割网络的指导图（第2列到第5列）。第二列和第三列分别对应于基于正超像素的引导图和基于负超像素的基于对象的引导地图和比例感知引导地图的示例分别在列4和5中示出。为了可视化的清晰度，我们反转了基于对象的指导图和比例感知指导图的值（最佳颜色）。用于语义分割[28，14]，并允许我们在引导图之前合并弱对象相关，即使用户提供的点击没有明确指定该实例。要做到这一点，我们从一组对象propos- als开始[43]，这些对象具有其像素支持的正点击。对于指导图中的每个像素，我们计算该像素所属的建议的数量。属于相同对象提议的像素更可能属于相同的对象类别，并且像素所属的提议的数量结合了相对于当前肯定点击的共现先验。更正式地说，让{Lp}是支持像素位置p的图像的对象建议的集合。基于对象的导航图可按如下方式生成：[10]，明确规定尺度会导致性能的改善[41]。隔离对象的交互式实例分割方法[36]往往具有优越的性能。为了分割对象实例，因此期望构造表现出与对象一致的空间范围的引导地图。大多数基于点击的交互式方法的共同限制常用的指导形式要么过于局部化[35]（在距离点击20像素处将指导图值剪切为0），要么没有信息[53]。假设现在我们对物体的像素尺度有了一些粗略的估计一个方便ΣG（p）=Σ1[pL]（3）使我们的指导地图具有比例意识的方法是将超像素和对象建议的贡献合并，p′∈{p0}L∈{L′}其中1[p<$L]是返回1的指示函数与这个比例一致。更具体地，我们可以通过截断超过我们的尺度测量s的某个因子f的距离，即，如果对象建议在其支持中或包含像素p，则该像素p将被提供给对象建议。类似于基于超像素的引导地图，基于对象的引导也被重新缩放到[0，255]。在没有Gt（p）=minΣΣGt（p），fs.（四）对于用户提供的点击，所有像素都设置为0。图4的第四栏中显示了一些例子。3.第三章。3.3. 规模感知指导我们可以将类似的约束应用于基于对象建议的指导，只考虑在公差因子f1和f2所限定的可接受尺寸范围内的建议：在图像中，对象实例可以表现出很大的O-SCΣ（p）=Σ21[pL]·1[f1≤|L|个/秒≤f2]。在其空间范围内的变化[46]。虽然深度CNN以处理不同温度下的物体而闻名p′∈{p0}L∈{L′}（五）G1160612neg12negnegneg21--2112关于我们3.4. 模拟用户交互即使在选择相同的对象实例时，不同的用户也不可能提供相同的交互输入。为了让模型完全捕捉不同用户的预期行为，需要大量的交互训练数据。我们不是从实际用户那里获得这些点击来进行训练，而是简单地模拟用户点击并相应地生成指导图。我们遵循[53]中提出的采样策略。对于每个对象实例，我们在对象内采样N个正点击，保持与对象边界的距离d（以像素为单位）和彼此的距离d（以像素为单位）。对于阴性点击，我们测试了[53]中概述的三种采样策略中的前两种，其中一种是从背景中随机采样N1次点击，确保距离对象边界dout像素和彼此dout像素的距离，另一种是N2次点击每个阴性对象（不感兴趣的对象）。上述点击采样策略有助于网络理解负面对象和背景等概念为此，我们还根据分割误差对Niter在获得初始预测之后，从误差中随机采样正或负点击。然后，用概率为0的新采样的点击来替换现有的点击集合。3 .第三章。为了模仿典型用户为了估计尺度测度s，我们保留前两次点击，一次是正的，一次是负的，并假设两者之间的欧几里得距离是一个粗略的比例测度;然后相应地设置f、f1和f2。4. 实验验证4.1. 数据集评价我们应用我们提出的指导图，并在四个公开可用的数据集上评估所得到的实例分割：[16]第四十六话：我的世界，我的世界[38]和MS COCO [33]。PASCAL VOC 2012由1464个训练图像和1449个验证图像组成，分布在20个对象类中。GrabCut由50幅图像组成，具有相应的地面实况分割掩码，用作COM-大多数交互式分割方法的一个基准通常，图像具有非常明显的前景和背景分布。Berkeley由100张带有单个前景对象的图像组成。该数据集中的图像代表了交互式分割设置中遇到的各种挑战例如前景和背景之间的低对比度、高纹理背景等。MS COCO是一个大规模的图像分割数据集，包含80个不同的对象类别，其中20个来自Pascal VOC 2012数据集。为了与[53，32]进行公平比较，我们对每个类别随机抽取10个图像进行评估，并将评估分为20个Pascal类别和60个其他类别。评估全自动实例分割通常使用地面实况和预测分割掩码之间的平均交集（mIoU）进行评估。交互式实例分割的评估方式不同，因为用户总是可以添加更多的积极和消极点击来改善分割，从而增加mIoU。因此，评估交互系统的既定方法是根据每个对象实例实现固定mIoU所需的点击次数。像[53，32，35，6]一样，我们将每个实例的最大点击次数请注意，与[53，32]不同，我们不使用条件随机场进行任何后处理，而是直接使用FCN的分割输出。4.2. 实现细节训练作为我们的基础分割网络，我们采用了由MatConvNet [48]提供的在PASCAL VOC 2012数据集[16] 上预训练的 FCN [34] 。输出层被替换为两类softmax层，以产生指定对象实例的二进制分割。我们使用PASCAL VOC2012分割数据集[16]的实例级分割掩码以及SBD [20]的10582个掩码对1464个训练图像进行我们进一步增加训练样本的随机缩放和翻转操作。我们对第一个卷积层（conv1 1）的额外通道使用零初始化。在[53]之后，我们首先微调了stride-32FCN变体，然后微调了stride-16和stride-8变体。训练网络以最小化平均二元交叉熵损失。01和Nesterov动量的随机梯度下降，默认值为0。9使用。点击采样我们生成具有各种点击次数和位置的训练图像;有时，点击最终是从同一个超像素中采样的，这减少了训练数据的变化。为了防止这种情况，并使网络对点击次数和训练位置更加鲁棒，我们从以下超参数中随机抽样，而不是将它们固定为单个值。使用：Npos={2，3，4，5}，N={5，10}，N={3，5}，d输入=15，20，40，d输入=7，10，20，d输出=15，40，60，dout=10，15，25。点击次数及其相对距离的随机性可以防止网络在训练过程中过度拟合。11607−××∞由于FCN是在PASCAL VOC2012上进行预训练的，因此我们希望网络能够从其20个类中的一个类中返回一个良好的对象实例图像的初始预测。因此，在训练过程中，当网络接收到没有任何实例歧义的图像时（即，具有单个对象的图像），我们以0的概率将引导图归零（对象引导图的值为0，基于超像素的引导图的值为255）。二是要善于引导，不走弯路。我们通过重置正或负来进一步提高鲁棒性，导致性能的进一步改进（参见表的第三①的人。对于具有单个明显前景对象的数据集，这种影响更为突出（例如，Berkeley和GrabCut数据集的相对改善分别为9.3%和14%）。最后，通过使反馈迭代，即。基于先前的分割错误，我们可以进一步减少点击次数。总的来说，我们的基于结构的指导图可以将点击次数减少35%到47%，并且明确证明在指导图中具有结构信息是非常有益的。主动超像素制导概率为0。4.第一章交互循环在评估期间，用户顺序地提供正点击和负点击以分割感兴趣的对象。在添加每次点击之后，重新计算引导地图;此外，来自先前迭代的口述掩码被提供为额外的通道[35]。新生成的引导图与图像连接，并作为FCN-8s网络的输入，生成更新的分割图。我们&使用[43]中提供的实现来生成超像素;平均每帧有500 - 1000个超像素。为了比较，我们也尝试了其他超像素化的变体。[54]第54话：虽然存在几种对象建议算法[47，8，43]，但我们仅使用MCG [43]，因为它已被证明具有更高质量的建议[14]。MCG的最后阶段返回一个我们忽略的排名。我们使用[43]的作者提供的PASCAL VOC2012和MS COCO的预计算对象提案对于GrabCut和Berkeley，我们在“精确”设置上运行MCG[43]4.3. 基于结构的指导我们首先看看基于超像素的指导的影响。作为基线，我们与[53]进行比较，[53]使用等式中给出的基于标准欧几里得距离的指导1（参见图2第二行中的示例）①的人。模拟与[53]类似，我们将基于超像素的正向和负向引导图与三个颜色通道连接起来，并将其作为FCN-8的输入[34]。我们使用使用MCG计算的超像素[43]。为了公平比较，我们非迭代地训练我们的网络，即，在训练期间，我们不基于预测中的误差来生成点击样本，并且不附加当前预测掩码的距离变换作为额外通道。看着桌子。1，我们看到我们基于超像素的指导地图显着减少了达到标准mIoU阈值所需的点击次数。基于对象的指导为网络提供了感兴趣对象的弱定位先验。将基于对象的引导与基于超像素的引导相SP +对象+迭代3.58 5.60 3.62表1.不同类型的指导需要点击。利用结构信息的引导图比基于欧几里得距离的引导需要显著更少的点击。SP是指超像素引导图，Obj是指基于对象的引导图，Iter是指迭代训练。4.4. 规模感知指南的影响由于固定大小的感受野，在分割小物体时，FCN遇到我们的尺度感知引导地图的好处是最明显的分割小对象;对于大型对象（32 32像素），它似乎没有太大的效果。为了突出我们的指南对小对象实例的影响，我们选择了 621 个对象的子集（来自 PASCALVOC2012），这些对象小于32 32;小于这个大小的对象更难识别[46]。在比例不可知的设置中，我们考虑所有在其像素支持中具有点击的对象属性，用于生成基于对象的引导图，即。(as如方程式所示。3;注意，这相当于有f1=0，f2=）. 由于规模的下限几乎没有影响，我们设f1=0。看看每个实例所需的平均点击次数，以达到小对象子集的85% mIoU（见图11）。4（a）），我们发现，当涉及到分割较小的对象时，具有软尺度估计可以提高网络性能。这主要是因为引导图忽略了在尺度上不一致的对象建议，并且可以通过诱导误导性的同现先验来降低网络当尺度s是基于地面实况（作为蒙板前景中像素数的平方根，见图中的黑色曲线）。4（a）），每个实例所需的平均点击始终低于规模不可知的情况，即使当我们将f2放宽到6时，即允许对象GrabCut@90%伯克利@90%VOC2012@85%欧几里德（[53]）6.048.656.88SP4.446.674.2311608估计量表地面实况量表比例无关（f2=+∞，f1=0）−×−4.第一章5 7六、54.第一章464.第一章3五、554.第一章24.第一章54.第一章1f2#超像素（单位：千）(a) （b）超像素图4. （a）规模意识指导。该图显示了分割小对象实例（小于32×32像素[46]）所需的平均点击次数，直到我们接受基于我们估计的对象比例和地面真实对象比例（计算为对象掩模中像素数的平方根）生成指导地图的对象建议为止。（b）超像素的数量。该图显示了针对不同数量的超像素在PASCAL VOC 12val比实际物体比例大6倍的建议。从点击估计比例当然比从地面真实掩码中获取时要准确得多（比较图中的黑色曲线与蓝色曲线）。（见第4（a）段）。尽管如此，即使是这样一个粗略的估计，我们发现，作为与规模无关的场景（比较红色虚线）的一致性，所需的点击次数有所ELS导致与MCG类似的性能然而，与超像素化方法无关，我们发现当基于超像素而不是基于像素的距离生成引导图时，总体上有所[43]第一届中国国际航空航天博览会[编辑图中的线（见第4（a）段）。在第一对阳性和阴性的情况下-√5004.454.824.23我们估计的物体尺度是πd，其中d是正和负之间的欧几里得距离10004.294.58尝试点击。在我们的实验中，我们观察到我们的...估计比例在50 - 300%之间变化，从地面真实比例）。与比例无关设置相比，在PASCAL VOC 2012val设置中，我们观察到0的改善。1点击小对象子集和改进0。对于大于32×32像素的对象，每个实例单击032次。用CNN分割小对象可能是有问题的[40];我们在初步实验中观察到类似的困难对于小于32 32像素的对象，PASCAL VOC 2012val set，我们要求平均值为4. 33点击次数明显高于我们的数据集平均值3。62次4.5. 超像素为了研究超像素化算法的影响，我们考虑了两个变体SLIC [1]和CTF [54]，并且仅使用基于超像素的引导图。平均而言，MCG [43]在默认设置下为每个图像生成500 1000个超像素。为了公平比较，我们使用SLIC和CTF生成500和1000个我们观察到，使用1000 SLICsuperpix-表2.超像素算法对于这项研究，我们只考虑基于超像素的地图作为指导，并使用SLIC [1]作为超像素算法。在极端情况下，所有超像素将在其支持中具有一个像素，并且引导图退化为现有交互方法中常用的欧几里得距离变换[53，31]。我们使用iFCN [53]中关于PASCAL VOC 2012 val集的报告结果作为我们的退化情况（如图12中的红色曲线所示）。第四条（b）款）。除了在PASCALVOC2012val set上报告的500和1000超像素的结果（如论文的表4所示）之外，我们使用SLIC生成2000，5000和10000超像素[1]。我们注意到初始的像素增益，但是随着超像素数量的增加，性能下降，因为我们的网络需要越来越多的点击来分割感兴趣的对象。随着超像素的数量增加，基于局部结构的分组的益处丧失，因为每个超像素被分割成相似和冗余的超像素。iFCNAvg.点击次数1 .一、11 .一、21 .一、5 23Avg.点击次数60的情况。51251011609≥≥≥方法基础网络GrabCut@90%伯克利@90%PascalVOC12@85%MS-Coco看到85%MS-Coco看不见的@85%iFCN [53][34]第三十四话6.048.656.888.317.82RIS-Net [32]DeepLab-LargeFOV [9]5.006.035.125.986.44ITIS [35]DeepLabV3+[12]5.60-3.80--DEXTR [36][11]第十一话4.00-4.00--VOS-野生[6]ResNet-101 [24]3.80-5.60--FCTSFN [26]自定义3.766.494.589.629.62IIS-LD [31]加拿大[55]4.79--12.4512.45我们[34]第三十四话3.585.603.625.406.10表3.实现特定mIoU所需的平均点击次数最佳结果以粗体表示。4.6. 与最新技术水平的比较我们将达到所需mIoU所需的平均点击次数（见表3）与文献中报道的其他这些方法在基础分割网络中有所不同，从基本的FCN到高度复杂的DeepLabV3，还使用了额外的CRF后处理。我们实现了所有数据集所需的最低点击次数，再次证明了基于现有图像结构应用指导图的好处。我们报告我们最好的训练SP+Obj+Iter网络的结果。为了在GrabCut和Berkeley上达到90%的mIoU阈值，我们的完整模型需要最少的点击次数，如表3所示，相对改进为5。79%，7。比目前的基准高出13%。对于PASCAL VOC 2012val集，我们观察到相对改善4。百分之七。对于MS COCO，我们观察到PAS- CAL VOC2012中的20个可见类别有更大的改进，因为我们的网络在这些对象类别上进行了大量训练。总的来说，我们实现了9. 7%和5. 在20个可见和60个不可见物体类别中占28%。我们注意到，尽管我们的基本网络是比较的方法中最原始的，但还是实现了这样的改进。FCN-8 s，与其他使用更深（ResNet-101）和更复杂（DeepLabV 3）网络架构的人相同。应该注意的是，FCTSFN [26]和IIS-LD [31]报告了所有80个MS COCO类别的结果，而不是单独报告20个可见和60个不可见类别的结果。我们也将我们的方法与[9]的方法进行比较。 [9]目标只有单个前景对象的图像。为了比较，我们只考虑我们的结果与一个单一的积极（前景）点击。我们发现，对于GrabCut和Berke-ley数据集，我们的mIoU分别高出4%和8%。5. 讨论结论在这项工作中，我们研究了交互式对象分割的指导地图的影响。传统的方法使用基于距离变换的方法来生成导航图，而忽略了导航图的固有特性。年龄结构我们提出了一个尺度感知的指导地图，使用分层图像信息，导致显着减少所需的平均点击次数，以获得一个理想的对象掩模。在实验过程中，我们观察到数据集内的对象实例在难度上变化很大。例如，在PASCAL VOC 2012上，基础网络在没有任何用户指导的情况下能够满足697个实例中的433个的85%mIoU标准类似意见GrabCut （ 90%mIoU ， 50 分中的 13 分）和 Berkeley（90%mIoU，100分中的15分）。另一方面，我们遇到的情况是，我们的算法反复耗尽20次点击预算，而不管采样的点击位置和基于预测误差的迭代反馈。这对于具有非常精细细节的物体尤其如此，例如自行车车轮中的辐条，部分遮挡的椅子等。基于这两个极端的情况下，我们得出结论，交互式分割可能不是那么相关的单一对象的实例，突出在场景的中心，应该具有更具挑战性的scenar-ios。另一方面，我们需要设计更好的算法来处理区域不连续的对象，I.E.有洞并且能够处理遮挡的情况。根据目标应用程序，可能需要专用的基础架构来有效处理这些情况。致谢本文的研究部分得到新加坡教育部学术研究基金一级的支持。引用[1] Radhakrishna Achanta ， Appu Shaji ， Kevin Smith ，Aurelien Lucchi，PascalFua，SabineSüsstrunk，etal. SLIC超像素与最先进的超像素方法的比较TPAMI，34（11）：2274[2] 米哈伊洛·安德里卢卡，贾斯珀·RR·乌伊林斯，以及维托里奥·费拉里.流体注释：一个用于完整图像注释的人机协作接口。在2018年ACM多媒体会议上的多媒体会议，第1957-1966页。ACM，2018。11610[3] 巴勃罗·阿贝莱斯，迈克尔·梅尔，查利斯·福克斯，还有吉坦德拉·马利克.轮廓检测和分层图像分割。TPAMI，33（5）：898[4] 白敏和拉奎尔·乌塔孙用于实例分割的深分水岭变换。在CVPR，2017年。[5] 薛白和吉列尔莫·萨皮罗。测地线铺垫：一个快速交互式图像和视频分割和抠图的框架。IJCV，82（2）：113[6] Arnaud Benard和Michael Gygli交互式视频对象分割在野外。arXiv预印本：1801.00269，2017年。[7] Yuri Y Boykov和M-P Jolly。交互式图切割用于ND图像中目标的最佳边界载于ICCV，2001年。[8] Joao Carreira和Cristian Sminchisescu Cpmc：使用约束参数最小切割的自动对象分割。TPAMI，（7）：1312[9] Ding-Jie Chen，Jui-Ting Chien，Hwann-Tzong Chen，and Long-Wen Chang. 点击和拍摄分割。在 AAAI ，2018。[10] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L Yuille.Deeplab：使用深度卷积网络、atrous卷积和全连接crfs进行语义TPAMI，40（4）：834[11] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L Yuille.Deeplab：使用深度卷积网络、atrous卷积和全连接crfs进行语义TPAMI，40（4）：834[12] Liang-Chieh Chen，Yukun Zhu，George Papandreou，Florian Schroff，and Hartwig Adam.用于语义图像分割的具有粗糙可分离卷积的编码器-解码器。在ECCV，2018。[13] 安东尼奥·克里米尼西托比·夏普安德鲁·布莱克Geos：测地线图像分割。ECCV，2008年。[14] 戴季峰、何开明、孙建。Boxsup：利用边界框来监督卷积网络进行语义分割。在ICCV，2015年。[15] 戴季峰、何开明、孙建。通过多任务网络级联的实例感知语义分割。在CVPR，2016年。[16] Mark Everingham ， Luc Van Gool ， Christopher KIWilliams，John Winn，and Andrew Zisserman.pascal视觉对象类（voc）的挑战。IJCV，88（2）：303[17] Alon Faktor和Michal Irani。基于非局部一致性投票的视频分割。InBMVC，2014.[18] LeoGrady ， ThomasSchiwietz ， ShmuelAharon ，andRüdigerWestermann.二维和三维交互式器官分割的随机游走：实施和验证。在MICCAI，2005年。[19] Varun Gulshan 、 Carsten Rother 、 Antonio Criminisi 、Andrew Blake和Andrew Zisserman。用于交互式图像分割的测地星凸性。CVPR，2010。[20] Bharath Hariharan、Pablo Arbelaez、Lubomir Bourdev、Subhransu Maji和Jitendra Malik。从反向检测器的语义轮廓见ICCV，2011年。[21] Bharat hHariharan，PabloArbela' ez，RossGirshick，andJi-tendra Malik.同时检测和分割。2014年，在ECCV[22] Bharat hHariharan，PabloArbela' ez，RossGirshick，andJi-tendra Malik. 用于对象分割和细粒度定位的超列。CVPR，2015。[23] Kaimi ngHe，Geor giaGkioxari，PiotrDolla'r，andRossGir-shick.面具R-CNN。InICCV，2017.[24] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在CVPR，2016年。[25] Xuming He，Richard S Zemel，and Debajyoti Ray. 在图像分割中学习和整合自上而下的线索。在ECCV，2006年。[26] Yang Hu，Andrea Soltoggio，Russell Lock，and SteveCarter.一种用于交互式图像分割的完全卷积双流融合网络神经网络，2018。[27] 迈克尔·卡斯安德鲁·维特金和德米特里·特佐普洛斯。Snakes：活动轮廓模型。IJCV，1（4）：321[28] Anna Khoreva 、 RodrigoBenenson 、 JanHendrikHosang、Matthias Hein和Bernt Schiele。简单做到：弱监督实例和语义分割。在CVPR，2017年。[29] 菲尔和克拉亨布尔以及弗拉德恩·科尔通。测地线对象建议。2014年，在ECCV[30] Yin Li，Jian Sun，Chi-Keung Tang，and Heung-YeungShum.懒拍在ACM Transactions on Graphics（ToG），第23卷，第303-308页中。ACM，2004年。[31] Zhuwen Li，Qifeng Chen，and Vladlen Koltun.基于潜在差异的交互式图像分割。在CVPR中，第577-585页[32] JunHao Liew ， Yunchao Wei ， Wei Xiong ， Sim-HengOng ， and Jiashi Feng. 区域交互式图像分割网络。InICCV，2017.[33] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。Microsoft COCO：上下文中的公用对象。2014年，在ECCV[34] 乔纳森·朗埃文·谢尔哈默和特雷弗·达雷尔用于语义分段的全卷积网络。CVPR，2015。[35] Sabarinath Mahadevan 、 Paul Voigtlaender 和 BastianLeibe。迭代训练的交互式分割。在BMVC，2018年。[36] Kevis-Kokitsi Maninis，Sergi Caelles ，Jordi Pont-Tuset和Luc Van Gool。深度极限切割：从极值点到对象分割。在CVPR，2018年。[37] Kevis-Koki tsiManinis ， JordiPont-Tuset ， PabloArbela'ez，and Luc Van Gool.面向卷积的边界。在ECCV，2016年。[38] Kevin McGuinness和Noel E Oconnor。交互式分割算法的比较评估。Pattern Recognition，43（2）：434[39] Eric N Mortensen和William A Barrett。智能剪刀的图像组成。在SIGGRAPH中。ACM，1995年。[40] Hyeonwoo Noh Seunghoon Hong和Bohyung Han。用于语义分割的学习反卷积网络在ICC

下载后可阅读完整内容，剩余1页未读，立即下载