交互式全图像分割方法的研究

15 浏览量更新于2023-10-17 收藏 1.5MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

11622一种联合考虑所有区域的交互式全图像分割方法Eirikur Agustsson谷歌研究eirikur@google.com贾斯珀河R. 谷歌研究jrru@google.com维托里奥·法拉利谷歌研究vittoferrari@google.comI) 注释器提供极值点的输入图像II) 从极值点进行机器预测III) 由注释者提供的纠正性IV) 从极端点和纠正涂鸦进行图1.我们的交互式完整图像分割工作流程的插图。首先（I）注释器标记极端点。（二）我们的模型（二）3）使用它们来生成分割。这将呈现给注释者，之后我们将：（三）注释者使用涂鸦进行更正（第二节）。4），和（IV）我们的模型使用它们来更新预测的分割（第4节）。（3）第三章。摘要我们解决了交互式全图像注释，其目标是准确地分割图像中的所有对象和填充区域我们提出了一个交互式的，基于涂鸦的一个符号框架，它对整个图像产生分割的所有区域。这使得共享，ING涂鸦更正跨区域，并允许注释器集中在最大的错误，由机器在整个图像。为了实现这一点，我们将Mask- RCNN [22]适应于快速交互式分割框架，并在完整图像画布中引入在像素级测量的实例感知损失最后，我们比较了COCO全景数据集上的交互式单对象分割[11，27，34]。我们证明了我们的交互式完整图像分割方法可以获得5%的IoU增益，在每个区域四次极端点击和四次纠正涂鸦的预算下达到90%的IoU1. 介绍我们解决的任务，交互式完整的图像分割，其目标是获得准确的分割图像中的所有对象和填充区域。完整的IM- 年龄注释对于许多应用都很重要，例如自动驾驶汽车[17，19]，盲[51]和自动图像字幕[25，56]。然而，创建这样的数据集需要大量的人力.例如，对单个图像进行注释时，1.5城市景观[17]。对于COCO+stuff [11，34]，注释一个图像需要19分钟（每个对象80秒[34]加上stuff区域3分钟[11]），对于123k图像总计39k小时。因此，显然需要更快的注释工具。本文提出了一个有效的交互式框架，用于完整的图像分割（图。1和2）。给定一幅图像，注释器首先在所有对象和填充区域上标记极值点[41这些提供了一个紧密的边界框，每个区域有四个边界点，并且可以有效地收集（每个区域7s [41]）。接下来，机器根据这些极值点预测完整图像的初始分割。然后，我们将具有预测分割的整个图像呈现给注释器，并在（A）注释器提供当前分割错误的涂鸦，以及（B）机器相应地更新预测分割之间进行切换（图1）。①的人。我们的完整图像分割方法比现代交互式单个对象分割方法有几个优点[24，30，31，32，36，37，60]：（I）它使注释者能够专注于整个图像中的最大误差，而不是一个给定对象的最大误差。(II)它在多个对象和素材区域之间共享注释。在我们的方法中，一个单一的涂鸦校正指定一个区域的扩展和相邻区域的收缩11623Gions（Sec. 3.2和图3）。在交互式单对象分割中，校正仅用于给定的目标对象。(III)我们的方法让区域在公共图像画布中竞争空间，确保一个像素只分配一个标签（图1）。第3.1节）。相反，在单个对象分割中，沿着边界区域的像素可能被分配给多个对象，导致矛盾的标签，或者没有标签，导致孔。同时，由于区域竞争，一个区域的校正会影响我们框架中的邻近区域（例如，图6）。(IV)除了标注对象实例，我们还标注了填充区域，捕获了重要的类，如路面或河流。我们通过调整Mask-RCNN [22]（图2）实现交互式交互式全图像分割。我们从定义边界框的极值点开始[41] 。因此，我们绕过了区域建议网络的掩码 -RCNN，并直接使用这些框来提取感兴趣区域（ROI）特征（第二节）。第3.1节）。之后，我们通过将它们连接到ROI特征来在Mask- RCNN中合并极值点和潦草的注释。我们以一种允许跨区域共享注释的方式对注释进行编码，从而实现上述优势（II）（第二节）。3.2）。最后，虽然Mask-RCNN [22]分别预测每个掩码，但我们将掩码预测投影回常见图像画布3.1中的像素。然后，我们定义一个新的损失，它是实例感知的，但让预测正确地竞争空间，实现上面的优势（III）。3.3）。据我们所知，所有深度交互式单对象分割方法[24，30 ， 31 ， 32 ， 36 ， 37 ， 60] 都是基于全卷积网络（FCN）[14，35，46]。为了效率，我们选择从Mask-RCNN [22]开始。FCN风格的交互式分割方法将校正连接到RGB图像的裁剪，并将其通过大型神经网络（例如，ResNet-101 [23]）。这需要在每次校正迭代时对每个区域进行完整的推断相反，在我们的Mask-RCNN框架中，RGB图像首先通过大型骨干网络。之后，对于每个区域，只需要在最终分割头上通过（图11）。2）的情况。这是更快和更有效的内存（秒。（六）。我们在越来越复杂的环境中进行彻底的实验：（1）单对象分割：在COCO数据集[34]上，我们的Mask-RCNN风格架构在极端点的单对象分割上实现了与DEXTR [37]相似的性能[41]。(2)完整图像分割：我们在COCO全景挑战[11，27，34]上评估了从极值点开始分割图像中所有对象和填充区域的任务我们在区域间共享注释的想法与我们的像素损失相结合(3)交互式全图像分割：在COCO panoptic挑战中，我们展示了我们三大优势的综合效果（一）-（三）以上：在每个区域四次极端点击和四次涂鸦的预算下，我们在交互式单个区域分割基线上获得了总共+5%的IoU增益。2. 相关工作弱标记数据的语义分割。许多作品通过从弱标记数据中训练来解决语义分割，例如图像级标签[28，44，58]，点击[5，6，13，57]，框[26，37，41]和scrib-bles[33，59]。可以使用端点[41]有效地注释框，端点也可以用作生成分割的额外信号[37，41]。这与我们的方法从每个区域的极值点开始有关。然而，上述方法根据在任何机器处理之前收集的注释进行操作。相反，我们的工作是在交互式场景中，注释器迭代地为当前机器分段提供校正注释。交互式对象分割。交互式对象分割是一个长期的研究课题。最经典的-CAL方法[3，4，8，47，18，16，21，38]将对象分割公式化为在像素上定义的规则图上的能量最小化，其中一元势捕获低级外观属性，并且成对或高阶势鼓励规则分割输出。从Xu et al.[60]，最近的方法使用深度神经网络进行交互式对象分割[24，30，31，32，36，37，60]。这些作品构建在全卷积架构上，如FCNs [35]或Deeplab[14]。他们输入RGB图像加上两个额外的通道，用于对象和非对象校正，并输出二进制掩码。在[15]中，他们在视频中执行交互式对象分割。他们使用Deeplab [14]来创建像素嵌入空间。注释器校正用于在此嵌入之上创建最近邻分类器，从而实现对象预测的快速更新。最后，Polygon-RNN [1，12]是一种有趣的替代方法。他们使用一个回流神经网络来预测多边形顶点，而不是预测一个遮罩。机器使用注释器所做的修正来改进其顶点预测。交互式全图像分割。最近，[2]提出了流体注释，它也解决了完整图像注释的任务。我们的工作分享了将注释者的精力集中在机器在整个图像。然而，[2]使用Mask- RCNN [22]来创建一个大型的固定片段池，然后为注释者提供一个有效的接口，以快速选择其中哪些片段应该形成最终的分割。相比之下，在我们的工作中，所有片段都是从初始极值点创建的，并且都是最终注释的一部分。然后，我们的方法能够校正段11624主干（ResNet）ROI作物分段负责人画布投影Softmax+X输入图像ZBI主干特征我我ROILi区级L映像级P全图像箱子从特征logit预测logit预测分割极值点注释图2：我们提出的基于区域的交互式完整图像分割模型（见第二节）。第3.1节）。我们从Mask- RCNN [22]开始，但使用用户提供的框（来自极端点）而不是RoI裁剪的框建议网络，并将RoI特征与注释器提供的纠正涂鸦连接起来。我们不是预测每个区域的二进制掩码，而是将所有区域预测投影到公共图像画布中，在那里它们竞争空间。该网络是端到端训练的，用于完整图像分割任务的新型像素损失3.3）。来精确匹配物体边界。一些较早的交互式分割作品在单个图像中处理多个标签[39，40，50，53]。我们提出了第一个这样做的交互式深度学习框架。此外，在这些作品的对比，我们明确地证明了互动的完整图像分割的好处，互动的单对象分割。其他关于交互式注释的作品。在[48]中，他们将分割网络与语言模块相结合，以允许人类通过以自然语言键入反馈来纠正分割这个形象”。[42]的工作仅使用人工验证来注释边界框，而[29]训练代理来确定验证或绘制边界框是否更有效。[49]的前卫工作有一台机器向注释者发送许多标记问题，包括对象类是否存在，框验证，框绘制以及查找图像中特定类的缺失实例。在[54]中，他们估计了具有图像标签、框或图像分割的信息量，他们使用这些信息量来指导主动学习方案。最后，一些作品通过注释器提供的交互属性来处理细粒度分类[9，43，7，55]。3. 我们的交互式细分模型本节介绍我们的模型，我们使用它来预-模型（极端点和涂鸦校正，第3.2）。最后，我们用新的损失函数描述模型训练3.3）。3.1. 模型架构我们的模型基于 Mask-RCNN [22] 。在 Mask 中 -RCNN推理如下进行：（1）输入图像X通过深度神经网络主干，如ResNet [23]，产生特征图Z。(2)一个专门的网络模块（RPN [45]）预测基于Z的盒子建议。(3)这些框建议用于通过RoI裁剪层（RoI-align [22]）从Z中裁剪出感兴趣区域（RoI）特征z。(4)然后，每个RoI特征z被馈送到三个独立的网络模块中，这些模块预测类别标签、细化的框坐标和分割掩码。图2说明了我们如何调整Mask-RCNN [22]以进行交互式完整图像分割。特别是，我们的网络需要三种类型的输入：(1)图像X，尺寸 W×H×3; （ 2 ） N 个尺寸 W×H 的注释地图S1，· · ·，SN（对于极端点和涂鸦校正，第2节）。3.2）;以及（3）由注释者提供的极值点确定的N个框b1，· · ·，bN这里N是数字-我们想要分割的区域的BER，这是由注释器确定的，并且可能因图像而异。与Mask-RCNN一样，图像X被馈送到我们的骨干架构（ResNet [23]）中，以生成大小为1W×1H×C，其中C为特征通道数R r从极端点和潦草的核心，（图）①的人。我们首先讨论模型架构（第二节）。第3.1节）。然后，我们将描述如何将注释提供给并且r是缩减因子。C和r都由下式确定：骨干网架构的选择。与Mask-RCNN相比，我们已经有了盒子，+++11625我1N1NY（x，y）b1，···，bN，所以我们不需要一个框建议模块。相反，我们直接使用每个框bi从特征图Z中裁剪出RoI特征zi。所有特征zi具有相同的固定大小w×h×C（即，w和h仅取决于ROI裁剪层）。我们将对应的注释图si连接到这个图上，这在第2节中描述3.2，并获得大小为w×h×（C+2）的特征图vi。使用vi，我们的网络预测一个logit映射li，w′× h′表示单个掩模的预测。虽然Mask-RCNN停止在这样的掩码预测，并使用sigmoid处理它们以获得二进制掩码，但我们希望预测相互影响。因此，我们使用框b1，...，bN来将所有掩模li的logit预测重新投影回原始图像分辨率，这导致N个预测图li。我们将这些预测图连接成一个大小为W×H×N的张量L。对于每个像素，我们通过对logits应用softmax来获得尺寸W×H×N的区域概率P（P（x，y），· · ·，P（x，y））=softmax（L（x，y），· ··，L（x，y）），（1）其中P（x，y）表示像素（x，y）被分配给区域i的概率。这使得多个附近的区域在公共图像画布中争夺空间。3.2. 删除注释3.3. 培训训练数据。作为训练数据，我们为所有图像中的所有对象和填充区域提供了地面真实掩模。我们用区域索引来表示图像X的（非重叠的）N个地面真实掩模这导致地图Y其将每个像素X（x，y）分配到区域Y（x，y）∈ {1，. N}个。Pixel-wise损失标准Mask-RCNN使用每个掩码预测分开这意味着相邻的遮罩之间没有直接的相互作用，它们甚至可能重叠。相反，我们提出了一种新的实例感知损失，让预测在原始图像画布中竞争空间。特别是，如在SEC中所描述的。3.1我们将所有区域特定的logit投影到单个图像级logit张量L中，其被softmax化为区域分配概率。尺寸为W×H×N的连接件P。如上所述，地面实况分割由具有{1，...，N}中的值的Y表示，其针对每个像素指定其区域索引。由于我们从地面真实掩模模拟极值点，因此区域分配概率P1、···、PN和Y之间存在直接对应。因此，我们可以针对区域分配的分类交叉熵（CCE）损失来训练我们的网络端到端图中的模型。2将RoI特征z与注释图s连接起来。我们现在描述如何创建s。首先，对于每个区域i，我们创建一个正注释图SiLpixelwise= Σ（x，y）-logP（x，y）（3）其大小与图像相同W×H。我们选择二进制的注释图，并通过粘贴在其上的区域i的所有端点和校正涂写。端点由直径为6像素的圆表示。涂鸦是3像素宽。对于每个区域i，我们折叠所有注释，将不属于i的数据集合并到单个ng ativ e注记地图中Sj。然后，我们将积极的和消极的注记映射为双通道注记映射Fi我们注意到，虽然CCE损失通常用于语义分割的全卷积网络[14，35，46]，但我们在基于Mask- RCNN的架构中使用它[22]。此外，通常损失定义在固定数量的类[14，35，46]上，而我们定义它在区域数量N上。区域的该数量可以根据图像而变化。（3）中的损失是在全分辨率公共图像画布中的像素上计算的。因此，更大的re-Fi：=.Si Σj/=iΣSj，（2）gion对损失的影响更大。然而，在我们的实验中，我们测量了地面实况掩码和预测之间的交集（IoU），它考虑了示于图 3. 第三章。最后，我们使用框 bi 将 RoI-align[22]应用于Fi，以获得所需的裁剪注释图si。我们构造Fi的方式使得能够在图像中的多个对象和填充区域之间共享所有的符号信息。一个区域的否定注释是通过收集所有其他区域的肯定注释而形成的。相比之下，在单个对象分割工作[3，8，18，16，21，24，30，31，32，38，36，37，47，60]正面和负面注释都只在目标对象上进行，并且它们从不共享，因此它们只对该一个对象有影响。所有区域都与其大小无关因此，我们对（3）中的项进行如下权衡。对于每个像素，我们找到包含它的最小盒子bi，并通过bi大小的倒数重新权衡该像素的损失。这导致每个区域对损失的贡献大致相等。我们的损失与[10]相似。他们使用Fast-RCNN [20]和选择性搜索区域[52]，并为每个区域生成类预测向量。然后，它们使用相应的区域将该向量投影回图像画布相反，在我们的工作中，我们将一个完整的logit映射投影回图像（图11）。2）的情况。在[10]中，J I11626注释正沟道负沟道Scribble模拟图3：我们演示了如何将区域（红色）附近的所有注释组合成两个特定于该区域的注释图。彩色区域表示当前预测的分割，白色边界描绘真实的对象边界。对于红色区域，极值点和单个正涂写被组合成单个正二进制通道。所有来自附近区域的涂鸦都被收集到一个负二进制通道中。图4：为了模拟校正涂鸦，我们首先对初始控制点进行采样，以指示我们想要扩展的区域（黄色），然后是从错误区域均匀采样的两个控制点（橙色）。logit通道的数量等于类C的数量，在我们的工作中，它取决于区域N的数量，每个图像可能会有所不同。3.4. 实现细节Mask-RCNN [ 22 ]的原始实现为每个RoI特征创建掩码预测，用于训练的所有类。在推理时，它使用预测类来选择相应的预测掩码。由于我们是在Mask-RCNN的基础上构建的，为了便于实现，我们也在框架中这样做。在训练过程中，我们使用类标签来训练特定于类的掩码预测logits。在推断期间，对于每个区域i，我们使用由Mask-RCNN预测的类标签来选择我们使用哪个掩码log-i作为li。因此，在推理时，我们有隐式的类标签。然而，类标签从来没有暴露给注释者，并且被认为与本文无关。4. 注释及其模拟我们的注释包括极端点和潦草的更正。我们选择了涂鸦校正[3，8，47]而不是点击校正[24，30，31，32，36，37，60]，因为它们在我们的场景中是更自然的选择。当我们考虑图像中的多个区域时，任何注释首先需要指示应该扩展哪个区域。通过涂鸦，可以从要扩展的区域内部开始，然后是指定如何扩展该区域的路径在我们所有的实验中，我们模拟注释，遵循以前的交互式分割工作[1，12，24，30，31、32、36、37、60]。模拟极端点。为了模拟注释器在开始时提供的极端点，我们使用[37]提供的模拟涂鸦修正。为了在交互式分割过程中模拟涂鸦校正，我们首先需要选择一个错误区域。错误区域是11627作为一个连接组的像素的地面实况region已被错误地分配给一个不同的区域（图2）。4）.我们通过测量分割质量（IoU）在完全纠正错误区域的情况下会我们使用它来创建注释器对最重要的错误区域进行校正（确切的方法取决于特定的实验，详见第二节）。（五）。为了纠正错误，我们需要一个从地面实况区域内部开始并延伸到错误区域的涂鸦（图1）。①的人。我们模拟这样的涂鸦与一个三步的过程，如图所示。4：（1）首先，我们随机采样接触地面实况区域的误差区域边界上的第一个点（图中的黄色点）。4;（2）然后我们在误差区域内均匀地采样两个点（图中的黄色点）。4）. (3)我们将涂鸦构造为通过这三个点的平滑轨迹（使用贝塞尔曲线）。我们重复此过程十次，并保留仅在地面实况区域内的最长涂写（虽然所有模拟点都在地面实况内，但曲线可能覆盖地面实况之外的部分）。5. 结果我们使用Mask-RCNN作为基本分割框架，而不是通常用于单对象分割工作的全卷积架构[14，35，46][24，30，31，32，36，37，60]。我们首先在SEC演示。5.1通过与非交互式设置中的DEXTR [37]进行比较，这是一个有效的选择，在非交互式设置中，我们从极值点[41]开始生成掩码。在第5.2节中，我们转向完整的图像分割任务，并展示了由于跨区域共享极值点和新的像素损失而产生的改进最后，在第5.3我们展示了交互式完整图像分割的结果，其中我们还跨区域共享涂鸦校正，并允许注释者在考虑整个图像的同时自由地将涂鸦分配给区域。11628方法IOUDEXTR [37]82.1DEXTR（已发布型号）81.9我们的单一区域模型81.6表1：COCO上的性能（仅对象）。我们的单区域模型的准确性与DEXTR相当[37]。X点不共享X点共享掩模损耗75.876.0逐像素损失78.479.1表2：从极值点（X点）预测掩模时COCO Panoptic验证集的性能。我们改变损失以及极端点是否在区域之间共享。左上角的条目对应于我们的单区域模型，右下角的条目对应于我们的完整图像模型。5.1. 单目标分割DEXTR。在DEXTR [37]中，他们从四个极端点[41]预测对象掩码。 DEXTR 基于 Deeplab- v2 [14] ，使用ResNet-101 [23]骨干架构和金字塔场景解析网络[61]作为预测头。作为输入，他们根据注释器提供的极值点从RGB图像中裁剪出一个边界框。极值点的位置是高斯模糊的，并作为热图馈送到网络，连接到裁剪的RGB输入。DEXTR分割模型在该任务上获得了最先进的结果[37]。我们模型的细节。我们将DEXTR与我们模型的单个对象分割变体（单区域模型）进行比较。它使用原始的Mask-RCNN损失，每个掩码单独计算为了与DEXTR进行公平比较，这里我们还使用了ResNet-101 [23]主干，由于内存限制，它将我们的RoI特征的分辨率限制为14 ×14像素和我们预测的掩码为33×33。而且我们使用他们发布的代码生成模拟极值点注释。与随后的实验相反，在这里我们也使用相同的高斯模糊热图来输入注释到我们的模型中，如[37]中所使用的。数据集。我们遵循[37]的实验设置，COCO数据集[34]，它有80个对象类。模型在2014年训练集上进行训练，并在 2017 年验证集（以前称为 2014 年minival）上进行评估。我们用所有实例的交集对并集的平均值来衡量性能。结果选项卡. 1报告了来自DEXTR [37]的原始结果，我们使用他们公开发布的模型进行复制，以及我们的单区域模型的结果。他们公开发布的模型和我们的模型提供了非常相似的结果（81.9和81.6 IoU）。这表明，Mask-RCNN风格的模型是有竞争力的常用的FCN风格的模型，为这项任务。5.2. 全图像分割实验装置。给定每个对象和填充区域的极值点，我们现在预测完整的图像分割。我们展示了使用像素损失的好处（第二节）。3.3）和跨区域共享极值点（即，一个区域的极值点被用作附近区域的负信息。3.2）。我们模型的细节。在初步实验中，我们发现，当将注释输入到分割中时，14 ×14像素分辨率的RoI特征限制了准确性头因此，由于内存限制，我们将RoI特征和预测掩码都增加到41×41像素，并切换到ResNet- 50 [23]。重要的是，从现在开始，在所有实验中，我们的模型都使用了第二节中描述的双通道3.2.数据集。我们在COCO全景挑战数据集[11，27，34]上进行实验，该数据集有80个对象类和53个东西类。由于最终目标是有效地注释数据，因此我们只在2017年训练集（15k图像）的12.5%上进行训练。我们对2017年的验证集进行评估，并测量所有图像中所有对象和填充区域的平均IoU。结果作为Tab。2显示，我们的单区域模型产生75.8IoU。它使用掩码损失，并且不跨区域共享极值点。当只共享极值点时，我们得到+0.2 IoU的小增益。相比之下，当只切换到像素损失时，结果会提高+2.6 IoU。共享极值点与我们的新损失相结合更有益，产生+0.7 IoU的额外总体而言，具有两种改进的该模型实现了79.1 IoU，比单区域模型高出+3.3。我们称之为全图像模型。5.3. 交互式全图像分割我们现在移动到我们的交互式完整图像分割的最终系统我们从我们的单个区域和来自Sec的全图像模型的极值点的分割开始。五点二。然后，我们之间的对话：(A)由所述注释者添加涂写校正，以及（B）相应地更新机器分段数据集和训练。和以前一样，我们在COCO panoptic挑战数据集上进行实验，并在2017年验证集上报告结果。由于在迭代过程中，我们的模型除了输入极值点外，还输入了涂鸦校正，因此我们训练了两个新的交互式模型：单区域涂写和全图像涂写。这些模块具有相同的体系结构，因为他们的同行在第二。5.2（仅输入极端点），但训练方式不同。为了创建训练数据，其中一个跨-11629全图像涂鸦（平均一个涂鸦）全图像涂鸦（每个区域一个涂鸦）单个区域涂鸦（每个区域一个涂鸦0.900.850.800.75IoU vs #scribbles/region0 2 4 6 8#scribbles/区域区域涂鸦模型，但只有2涂鸦为我们的全图像涂鸦模型。同样，要达到88%的IoU，需要7次涂鸦与4次涂鸦。这证实了跨区域共享注释和像素损失的好处也存在于交互式设置中。我们现在比较两个涂鸦分配策略上的完整图像涂鸦模型。如图5所示，使用自由分配涂鸦到区域的策略（平均一个涂鸦）带来了进一步的效率增益。完整图像涂鸦达到非常高的90% IoU，平均每个区域只有4个涂鸦相反，达到这个IoU需要使用其他策略在每个区域分配正好8个涂鸦。这展示了将注释工作集中在跨图5：交互式完整图像分割任务的COCO Panoptic验证集的结果。我们测量平均IoU与每个区域的涂鸦数量。我们比较了我们的全图像涂鸦模型在两个涂鸦分配策略下的单区域涂鸦基线。活跃模型，我们将其对应应用于2017年训练集的另外12.5%。我们生成模拟correc- tive scribbles中所描述的。4并在组合的极端点和涂鸦注释上训练每个模型（第2节）。3.2）。我们在交互式分割的所有迭代中保持这些模型不变。请注意，除了分享极端点，如在第二节。5.2，全图像涂写模型还跨区域共享涂写校正。分配涂鸦更正。当使用我们的单区域涂鸦模型时，在每次迭代中，我们为每个区域分配一个涂鸦。相反，当使用我们的完整图像涂鸦模型时，我们还考虑了另一种有趣的策略：平均每个区域一个涂鸦，但是注释者可以自由地将这些涂鸦分配给图像中的区域。这使得注释者能够将精力集中在整个图像中最大的错误上，通常会导致某些区域接收到多个涂鸦，而某些区域则没有。结果图5示出了注释质量（IoU）与成本（每个区域的涂写数量）的关系。在零涂鸦处的两个起始点与Tab的左上和右下条目相同。2，因为它们是使用相同的非交互式模型（仅从极端点）。我们首先使用相同的分配策略，将单个区域涂鸦与完整图像涂鸦进行比较：每个区域只有一个涂鸦图5显示，对于两个模型，准确性随着更多的涂写校正而迅速提高。然而，全图像涂写总是在符号工作和分割质量之间提供更好的权衡，例如，要达到85%的IoU，单个区域需要4次涂鸦整个形象。总的来说，在每个区域四次极端点击和四次涂鸦的预算下，我们比单个区域涂鸦获得了总共5%的IoU增益（90% vs 85%）。这一收益是由我们贡献的综合效应带来的：跨区域共享注释，像素损失，让区域在公共图像画布上竞争，以及自由涂鸦分配策略。图6示出了注释如何在迭代中进行的各种示例。请注意在第一个例子中，左侧熊上的校正涂鸦如何导致岩石的负这证明了共享涂鸦注释和区域间竞争的好处。6. 讨论Mask-RCNN vs FCNs. 我们的工作建立在Mask- RCNN[22]而不是基于FCN的模型[14，35，46]上，因为它更快，需要更少的内存。要看到这一点，我们可以重新解释图。2作为一个基于FCN的模型：忽略主干网络，用RGB图像代替主干特征Z，使分割头成为全FCN。在推理时，我们需要对每个区域的每个校正进行前向通过分割头当使用Mask-RCNN时，重型ResNet [23]骨干网络仅对整个图像应用一次，然后仅对每个区域应用一个小的4层分割头相反，对于FCN风格的替代方案，没有任何东西可以预先计算，分割头本身就是沉重的ResNet。因此，我们的框架在交互式注释过程中要快得多.在训练期间，通常将所有中间网络激活存储在存储器中。至关重要的是，对于每个区域，在分割头中生成不同的激活。对于FCN风格的模型，这是一个沉重的ResNet，需要大量的内存。这就是为什么DEXTR[37]报告了5个区域的最大批量。因此，很难在FCN风格的模型中训练我们的像素损失，因为这需要同时处理每个图像中的所有区域。IOU11630输入图像机器预测校正涂鸦机器预测带有来自极端点的极端点1 scribble/region 1 scribble/region由注释者提供由注释者提供和极端点最终结果9个涂鸦/区域和极端点地面实况图6：我们展示了我们的系统使用完整图像涂鸦模型和自由分配策略获得的示例结果。前两列显示输入图像的极值点和预测。第3列显示了第一个注释步骤，平均每个区域有一个涂鸦校正，第4列显示了更新后的预测。最后两列比较了9个步骤后的最终结果（平均每个区域使用9个涂鸦）与COCO地面实况分割。Neously（平均每个图像15个区域）。事实上，我们基于Mask-RCNN的架构（图1）。2）及其重新解释为一个基于FCN的模型跨越了一个连续。它的设计空间可以通过改变主干和分段头的大小以及它们的输入和输出分辨率来探索我们留下这样的探索之间的权衡内存需求，推理速度和模型的准确性为未来的工作。涂鸦和点模拟。像其他交互式分割工作[1，12，24，30，31，32，36，37，60]一样，我们模拟注释。如何最好地选择模拟参数，使模型能够很好地推广到真实的人类注释者，这仍有待研究。最佳参数将可能取决于各种因素，诸如期望的注释质量和所提供的校正的准确度7. 结论我们提出了一个交互式的注释框架，它对整个图像进行操作，以产生所有对象和填充区域的分割。我们的主要贡献来自于一次考虑整个图像：跨区域共享注释，将注释者的精力集中在整个图像上的最大错误上，以及Mask-RCNN的像素损失，其使区域在公共图像画布上竞争。我们已经通过对COCO全景挑战数据集的实验[11，27，34]表明，我们提出的所有元素都改善了注释成本和质量之间的权衡，导致每个区域仅使用四个极值点和四个校正涂鸦就可以实现90%的非常高的IoU（相比之下，基线为85%）。11631引用[1] D. Acuna，H.Ling、红腹锦鸡儿A.Kar和S.菲德勒用polygon-rnn++实现分割数据集的高效在CVPR，2018年。二、五、八[2] M. Andriluka，J. R. R. Uijlings和V.法拉利流体标记：用于完整图像注释的人机协作界面。ACM Multimedia，2018年。2[3] X. Bai和G.萨皮罗测地线铺垫：快速交互式图像和视频分割和抠图框架。IJCV，2009年。二、四、五[4] D. Batra，A. Kowdle，D. Parikh，J. Luo，and T.尘互动共同分割主题相关的图像与智能涂鸦指导。IJCV，2011年。2[5] A. Bearman，O. Russakovsky，V. Ferrari和L.飞飞这有什么意义：基于点监督的语义分割。2016. 2[6] S. Bell，P. Upchurch，N. Snavely和K.巴拉野外材料识别与上下文数据库中的材料CVPR，2015。2[7] A. Biswas 和 D. 帕里克基于相对反馈的分类器属性CVPR，2013。3[8] Y. Boykov和M.P. 好极了用于N-D图像中对象的最佳边界和区域分割的交互式图切割载于ICCV，2001年。二、四、五[9] S. 布兰森角 Wah ， F. Schroff ， B. Babenko ， P.Welinder，P. Perona和S.贝隆吉人类参与的视觉识别。ECCV，2010年。3[10] H. 凯撒，J。Uijlings和V.法拉利基于区域的语义分割和端到端训练。在ECCV，2016年。4[11] H. Caesar，J. Uijlings，and V.法拉利COCO-stuff：上下文中的东西和东西类。在CVPR，2018年。一、二、六、八[12] L. 卡斯特雷·乔恩，K。昆杜河 Urtasun和S. 菲德尔河用一个rnn注释对象实例。在CVPR，2017年。二、五、八[13] D.- J. Chen，J.- T.简，H.- T.陈和L. W.昌点击和拍摄分割。在AAAI，2018。2[14] L. Chen，G. 帕潘德里欧岛科基诺斯角墨菲和A. 尤尔。Deeplab：使用深度卷积网络，atrous卷积和完全连接的CRF进行语义图像分割IEEE Trans. on PAMI，2017. 二四五六七[15] Y. Chen，J. Pont-Tuset，A. Montes和L.范古尔Blaz-ingly快速视频对象分割与像素度量学习。在CVPR，2018年。2[16] M.- M. Cheng，V. A.普里萨卡留湾郑伯雄S.托和C.罗瑟Densecut：用于实时抓取的密集连接crfs。计算机图形学论坛，2015年。二、四[17] M.科德茨，M。奥姆兰，S。拉莫斯，T.雷费尔德，M。恩茨韦勒R.贝南森，美国弗兰克，S。罗斯和B。席勒用于语义城市场景理解的cityscapes数据集CVPR，2016年。1[18] A. Criminisi，T.夏普角Rother和P.佩雷斯测地线图像和视频编辑。ACMTransactions on Graphics，2010年。二、四[19] A. Geiger，P. Lenz，C. Stiller和R.乌塔松视觉与机器人技术的结合：KITTI数据集。国际机器人研究杂志，2013年。111632[20] R.格希克，J。多纳休，T. Darrell和J.马利克丰富的特征层次结构，用于准确的对象检测和语义分割。CVPR，2014。4[21] V. Gulshan，C. Rother，A. Criminisi、黑腹拟步行虫A. Blake和A.是的，先生。用于交互式图像分割的测地星凸性。CVPR，2010。二、四[22] K. 他，G. Gkioxari ，P. Doll a'r和R. 娘娘腔。面罩R-CNN. InICCV，2017. 一、二、三、四、五、七[23] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。在CVPR，2016年。二三六七[24] Y. Hu，黄毛菊A.索尔托焦河Lock和S.卡特一种用于交互式图像分割的全卷积双流融合网络。神经网络，2019。一、二、四、五、八[25] J. Johnson，A. Karpathy和L.飞飞DenseCap：用于密集字幕的完全卷积定位网络。在CVPR，2016年。1[26] A. 霍雷瓦 R. 本纳森， J. 宝相 M. 海因，还有B.席勒简单做到：弱监督实例和语义分割。在CVPR，2017年。2[27] A. Kirill ov，K. 赫利河吉希克角 Rothe r和P. 娃娃。全景分割。InArXiv，2018. 一、二、六、八[28] A. Kolesnikov和C.蓝伯特种子，扩展和约束：弱监督图像分割的三个原则在ECCV，2016年。2[29] K. Konyushkova，J.乌伊林斯角Lampert和V.法拉利学习边界框注释的智能对话框。在CVPR，2018年。3[30] H.勒湖迈湾Price，S.科恩，H. Jin和F.刘某交互式边界预测的对象选择。在ECCV，2018。一、二、四、五、八[31] Z.李角Chen和V.科尔顿。具有潜在多样性的交互式图像分割。在CVPR，2018年。一、二、四、五、八[32] J. 刘，Y。Wei，W.熊志国H. Ong和J.峰区域交互式图像分割网络。InICCV，2017. 一、二、四、五、八[33] D. Lin，J. Dai，J. Jia，K. He和J.太阳 Scribble-Sup：用于语义分割的Scribble-supervised卷积网络在CVPR，2016年。2[34] T.- Y. 林，M。迈尔，S。贝隆吉，J.Hays，P.Perona，D.Ra-manan，P. Doll a'r和C. 齐特尼克 MicrosoftCOCO ：上下文中的通用对象。2014年，在ECCV。一、二、六、八[35] J.朗，E. Shelhamer和T.达雷尔。用于语义分段的全卷积网络。CVPR，2015。二四五七[36] S. Mahadevan，P. Voigtlaender和B. Leibe迭代训练的交互式分割。在BMVC，2018年。一、二、四、五、八[37] K.- K. Maninis、S. Caelles，J. Pont-Tuset，andL.范古尔深度极限切割：从极值点到目标分割。在CVPR，2018年。一、二、四、五、六、七、八[38] N. S. Nagaraja，F. R. Schmidt和T.布洛克斯视频分割，只有几招。在ICCV，2015年。二、四[39] C. Nieuwenhuis和D.克莱姆斯交互式多标签分割的空间变化颜色分布。IEEE Trans. on PAMI，2013. 3[40] C. Nieuwenhuis，S.Hawe，M.Kleinste

下载后可阅读完整内容，剩余1页未读，立即下载