交互式图像分割的FocalClick方法：学术方法与工业需求的差距解决方案

151 浏览量更新于2023-10-25 收藏 1.28MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1300FocalClick：实用的交互式图像分割陈曦1赵志艳1张毅磊1段曼妮1齐东联2赵恒双3、41阿里巴巴集团2浙江大学3香港大学4麻省理工摘要交互式分割允许用户通过进行正/负点击来提取目标掩码。虽然许多以前的工作探索，仍然有学术方法和工业需求之间的差距：首先，现有的模型是不够有效的工作在低功耗设备;其次，他们表现不佳时，用于完善预先存在的掩模，因为他们无法避免破坏正确的部分。FocalClick通过预测和更新局部区域的遮罩来同时解决这两个问题。为了提高效率，我们将慢速预测分解到粗分割局部细化渐进合并将整个图像分成两个关于小作物的快速推断：关于目标作物的粗略分割和关于焦点作物的局部细化。为了使模型与预先存在的掩模一起工作，我们制定了一个子任务，称为交互式掩模校正，并提出渐进合并作为解决方案。渐进式合并利用形态学信息来决定在哪里保存和更新，使用户能够有效地改进任何预先存在的掩码。FocalClick实现了与SOTA方法相比具有竞争力的结果，具有显着更小的FLOP。在对预先存在的掩模进行校正时，它也显示出显著的优越性。代码和数据将在github.com/XavierCHEN34/ClickSEG上发布1. 介绍近年来，交互式细分引起了学术界和工业界的广泛关注. 它使用户能够方便地使用简单的交互来注释掩码，如涂鸦[1，11，21]，框[20，34，40]或点击[5，18，27、35、36、44]。在这项工作中，我们专注于基于点击的方法。在此设置下，用户连续放置正/负点击（如图中的红/绿点）。1）定义前景和背景，模型在用户每次点击后重新返回新的预测。基于点击的交互式分割的基本范例[44]是使用高斯图或圆盘来表示点击，然后将点击图与图像连接起来作为输入，并将其发送到分割模型以进行预测图1.在接收到新的点击后，FocalClick首先基于先前的掩码选择目标裁剪（黄色框）以执行粗略分割。然后，我们选择一个焦点裁剪（红框），根据粗预测和前一个掩码之间的最大差异区域进行细化。最后，渐进合并选择部分新的预测进行更新。面具在此基础上，前人从不同角度对SOTA进行了改进，并不断完善SOTA。然而，当我们将它们应用到实际场景中时，我们发现它们在以下几个方面并不令人满意。低功耗设备的效率。一个好的注释工具应该能够快速生成精细的蒙版。以前的大多数作品只关注准确性，并利用大模型和高分辨率输入。然而，当它们部署在个人笔记本电脑、边缘设备或具有大量请求的Web服务应用程序上时，它们会很挣扎当我们试图减少输入大小以加快周转时，它们的准确性会显著下降。使用预先存在的遮罩。在实际应用中，需要从头开始的遮罩注释任务并不多。预先存在的掩码通常由离线模型或其他形式的预处理提供。对它们进行修改可以方便注释。然而，先前的方法与外部给定的掩模不兼容大多数作品[5，18，22，27，35，44]不考虑前一个掩码作为输入。虽然[10，36]将之前的掩码与输入图像和点击映射连接在一起，但它们的性能并不好。如图2、RITM [36]几乎不摘下机舱的面具用户：添加点击新点击目标作物粗分割聚焦裁剪局部优化先前预测渐进合并1301想去除意外变化几乎不移除(a) 初始掩码（b）编辑图2.使用RITM [36]修改初始掩码的困难。负点击在（b）中以绿色标记。有几个负面的点击。此外，它会导致远离用户点击的意外变化。针对这些问题，我们对现有管道进行了深入分析。我们注意到，在注释过程中，当通过观察当前掩码连续添加单击时，每个单击都有一个特定的目标。例如，图1中新点击的目标是将球拍添加到前景中。在这种情况下，球拍区域比球员和网球场需要更多的注意力。然而，以前的工作忽略了这一意图，并在每次点击后对所有像素进行新的预测，这导致了上述两个问题：第一，预测良好的区域将被重复计算，导致计算冗余;第二，前一个掩码的所有像素将被更新，使得模型无法保留初始掩码中给出的细节。考虑到上述分析，我们提出了FocalClick，使模型专注于值得注意的补丁。为了获得更高的效率，FocalClick只对真正需要重新计算的补丁进行预测要对预先存在的遮罩进行局部校正，FocalClick仅更新用户打算修改的区域中的遮罩，并保留其他区域中的预测。•高效的流水线。如图1所示，给定一个新的点击，我们首先根据现有的掩码选择一个目标裁剪。该目标作物将被调整为低分辨率，并执行粗分割。然后，我们定位一个用户想要修改的小区域，并将其发送到Refiner中以提取细节。因此，我们将耗时的完整图像推断分解为两个快速的局部预测。•交互式掩模校正。我们制定了一个新的任务，称为交互式面具校正和构建一个基准来评估修改预先存在的面具的能力。我们还提出了渐进式合并作为解决方案。渐进式合并执行先前掩码和当前预测的形态分析，以决定在何处更新和保留。因此，正确的部分不会被破坏。总的来说，我们的贡献可以概括为以下几点：1）FocalClick是第一个管道，处理在-从完全局部视图进行交互式分割，以显著更小的FLOP达到SOTA。2)我们引入了第一个基准和子任务来评估校正预先存在的掩模的能力，并提出了相应的解决方案。3)这项工作使交互式分割更好地满足实际需要，这将有利于工业界和学术界。2. 相关工作交互式分割方法。在深度学习时代之前，研究人员[11，12，19，34]将交互式分割作为优化过程。DIOS[44]首先将深度学习引入到交互式分割中，将正面和负面点击嵌入到距离图中，并将它们与原始图像连接起来作为输入。它为基于点击的交互式分割制定了主要的管道和训练/验证协议。在此之后，[22，25]专注于模糊性问题并预测多个潜在结果，并让选择网络或用户从中选择。FCANet [27]强调了第一次点击的特殊性，并利用它来构建视觉注意力。BRS [18]首先引入了在线优化，使模型能够在注释期间更新。f-BRS [35]通过在特定层执行在线优化来加速BRS [18]。CDNet[5]将自我注意力引入交互式分割，以预测更一致的结果。RITM [36]和99%AccuracyNet [10]添加了先前的掩码作为网络输入，以使预测更加稳健和准确。这些方法取得了很好的性能，但他们遭受的推理速度慢，他们不能处理预先存在的面具。交互式分割的局部推理。一些先前的方法[5，35，36]还裁剪了最后预测目标周围的区域，用于后续步骤推断，这与我们的目标裁剪类似。然而，当他们预测这个作物上的最终遮罩时，他们需要保持分辨率。同样，FocalClick 利用Target Crop 来定位 Focus Crop区域，并且不依赖Segmentor来产生精细的细节，使我们能够将Target Crop调整为更小的尺度以获得更高的速度。[10，14，23]遵循类似的粗略到精细的模式，并添加额外的模块来细化原始预测。然而，RIS-Net [23]仅根据点击位置裁剪多个ROI以进行细化。EdgeFlow [14]和99%AccuracyNet [10]对原始预测的边界进行了细化。它们都以较大的计算量为代价得到较好的结果。相比之下，FocalClick选择具有更多聚焦策略的局部补丁它通过将流水线分解为粗分割和细化，显著降低了FLOP，从而实现了我们使交互式分割更实用的目标。1302Conv×3 Conv × 3形态分析对齐回来Conv ×1起来局部细化渐进合并最近点击上一个面具详细边界特征融合Logits茎转换分割器新点击Conv形态分析目标作物焦点裁剪粗分割最近点击上一个面具粗预测特征图像积极点击负面点击上一个面具Logits图像点击地图上的图3.我们将图像、两个点击贴图和前一个蒙版作为输入。我们使用半径为2的二进制磁盘来表示点击。首先，我们选择目标对象周围的目标裁剪，并将其调整为较小的尺寸。然后将其发送到Segmentor以预测粗略掩码。接下来，我们通过计算之前的掩模和粗略预测之间的不同区域来选择焦点裁剪，以细化细节。最后，渐进合并更新用户想要修改的局部，并保留其他区域的细节3. 方法我们提出FocalClick来弥合现有方法和工业需求之间的差距。我们首先介绍了我们的高效流水线，然后详细介绍了一个新的任务，称为交互式掩模校正和我们的基准。3.1. 高效管道我们的流水线的关键是将整个图像上的一个重推断分解为小块上的两个轻预测。FocalClick的流水线如图3所示。首先，目标裁剪选择目标对象周围的面片，将其调整为小比例，并将其发送到Segmentor以预测粗糙遮罩。之后，焦点裁剪选择一个需要细化的局部区域，并将放大的局部补丁馈送到细化器中。最后，渐进式合并将局部预测与全比例蒙版对齐。因此，我们在每次点击后只细化一个小的局部区域，但最终预测的所有像素都已通过分配给不同轮次的计算进行了目标作物目标是过滤掉与目标对象无关的背景信息。我们首先计算前一个掩码和新添加的点击的最小外部框，并以比率r TC=1扩展它。4、[35，36]。然后，我们裁剪输入张量（图像，上一个蒙版，点击贴图）并将它们调整为小尺度。粗分割。我们希望得到一个粗糙的面具这可以帮助我们定位焦点作物并进行进一步的细化。Segmentor可以是用于定制场景的任何分段网络[4，28，32，41，47]。我们选择当前的SOTA方法HRNet+OCR [38，46]和SegFormer [42]作为代表。提维斯如图3所示，我们遵循RITM [36]使用两个conv层来调整点击地图的通道和比例，并在茎层之后进行特征融合集中修剪。它的目的是定位用户想要修改的区域。我们首先比较原始分割结果与先前掩码之间的差异，以获得差异掩码Mxor。然后我们计算包含新点击的Mxor的最大连通区域，并为这个最大连通区域生成外部框。与目标作物类似，我们以比率r FC=1进行扩展。4.第一章我们注意到这一地区的重点作物。相应地，我们在输入图像上裁剪局部补丁并点击地图。此外，我们使用RoiAlign [16]来裁剪Segmentor预测的特征和输出logit局部细化。它恢复了 Focus Crop 中我们首先使用Xception convs [6]从裁剪的张量中提取低级同时，我们调整了RoiAligned特征的通道数为了得到精细预测，我们利用两个头来预测细节图Md和边界图Mb，并且通过更新粗略预测的逻辑数Ml的边界区域来计算精细预测Mr，如等式（1）中所示。1.一、Mr=Sigmoid（Mb）<$Md+（1−Sigmoid（Mb））<$Ml（1）渐进合并。在注释或编辑蒙版时，我们不希望模型在每次单击后更新所有像素的蒙版。否则，注释良好的细节将被完全重写。相反，我们只想在我们打算修改的有限区域进行更新.与计算焦点裁剪的方法类似，渐进合并使用形态学分析来区分用户意图。1303在添加用户点击之后，我们简单地用0.5的阈值二进制化新预测的掩码，并计算新预测和预先存在的掩码之间的差异区域，然后选择包含新点击的最大连通区域作为更新区域（图中绿色的部分（3）第三章。在这个区域中，我们将新预测的掩码更新到前一个掩码上，并且在其他区域中保持前一个掩码不变。当从预先存在的蒙版开始或从其他分割工具切换回来时，我们应用渐进式合并来保留正确的细节。在从头开始注释时，我们在10次点击后激活渐进模式培训监督。边界图Mb的监督是通过对分割基础事实下采样8次并返回来计算的。改变的像素可以表示需要更多细节的区域我们用二进制交叉熵损失法对边界头进行监控。粗分割由RITM [36]中提出的归一化焦点损失Lnfl监督对于精细预测，我们在NFL损失上添加边界权重（1.5），并且我们将其记为Lbnfl，总损失可以被计算为等式二、L=Lbce+Lnfl+Lbnfl（2）3.2. 交互式掩模校正在实际应用中，大部分注释任务提供了预先推断的掩码。在这种情况下，注释器只需要对它们进行更正，而不是从零开始。此外，在注释过程中，当注释器切换到抠图、套索或多边形工具并切换时，我们也希望保留由其他工具注释的像素。然而，现有方法在每次点击之后预测所有像素的新值因此，它们与修改预先存在的遮罩或合并其他工具不兼容。为了解决这个问题，我们做了以下尝试：1)我们构造了一个新的基准，DAVIS-585，它提供了初始掩模来衡量掩模校正能力。2)我们证明，我们的FocalClick显示出显着的优越性，在这个新的任务比其他作品。新基准： DAVIS-585 。现有的工作使用 Grab- Cut[34]、Berkeley [31]、DAVIS [33]、SBD [15]来评估基于点击的交互式分割的性能。然而，它们都没有提供初始掩码来衡量交互式掩码校正的能力。此外，GrabCut和Berkeley只包含50和100个简单的例子，使得结果不令人信服。SBD提供了2802个测试图像，但是它们被低质量的多边形注释。DAVIS是第一次引入交互式细分市场，DAVIS2016，它将所有对象合并到一个遮罩中。因此，它不包含小的对象，被遮挡的对象，和无显着的对象.在本文中，我们选择基于DAVIS [33]构建一个新的测试集，因为它具有高注释质量和多样性，我们做了两个修改：首先，我们遵循DAVIS2017，它分别注释每个对象或附件，使该数据集更具挑战性。对于30个验证视频，每个视频统一采样10个图像，并将不同的对象注释作为独立样本。然后我们过滤掉300像素以下的掩模，最终得到585个测试样本，因此我们称我们的新基准为DAVIS-585。其次，为了生成有缺陷的初始掩模，我们结合了两种策略：1）使用超像素在地面真实掩模上模拟缺陷。2)使用离线模型生成缺陷掩模。我们发现第一种策略有两个优点：1）它可以控制错误类型和初始IOU的分布。2)模拟的掩模可用于测量保留预先存在的掩模的正确部分的能力。因此，我们使用超像素算法*来模拟缺陷。我们首先使用掩模腐蚀和膨胀来提取地面真实掩模的边界区域。然后，我们定义了三种类型的缺陷：边界错误，外部FP（假阳性）和内部TN（真阴性）。在观察真实任务中的错误分布后，我们将这三种错误类型的概率设置为[0.65，0.25，0.1]，并遵循Alg。1控制每一个有缺陷的掩模的质量。为了确定质量范围，我们进行了用户研究，发现当用户的IOU低于75%时，他们打算丢弃给定的口罩。考虑到当前的基准测试使用NoC85（达到IOU 85%所需的平均点击次数）作为度量标准，我们将模拟掩码的IOU控制在75%到85%之间。4. 实验我们首先介绍了我们的模型的基本设置和基于点击的交互式分割的 train/val 协议。然后，我们比较FocalClick与当前SOTA方法在现有基准的准确性和效率。接下来，我们报告我们的新基准DAVIS-585的性能之后，我们进行消融研究，以验证我们的方法的有效性，交互式分割和掩模校正。4.1. 实验配置模型系列。为了满足不同场景的需求，我们设计了两个版本的模型，如表1所示。S1版本适用于边缘设备和Web浏览器的插件S2版本将适合CPU笔记本电脑。在本文中，我们进行了实验，在[22]中。它包含345个高质量的口罩，不同的场景。 [22]如：* 网址https://github.com/Algy/fast-slic1304←←←←←←×型号系列FocalClick-S1分段器输入精炼机输入FocalClick-S2256×256 256 ×256128 ×128256 ×256算法1使用超像素模拟缺陷掩模要求：图像，GTMask，maxIOU=0.85，minIOU=0.75SimMask GT而True则执行ErrorType Rand（[Boundary，External，Internal]）PixelNumber Rand（[50，100，200，300，500，700]）SuperPixels Slic（Image，PixelNumber）SimMask Merge（ErrorType，SuperPixels，SimMask）MaskIOU IOU（SimMask，GTMask）如果MaskIOU minIOU，则<打破如果MaskIOU> maxIOU，继续其他返回SimMaskend ifend whileSegFormer [42]和HRNet [38]作为我们的Segmentor，以显示我们管道的通用性在本文的其余部分，我们使用S1，S2来表示我们模型的不同版本表1. FocalClick系列。训练方案。我们通过在原始图像上随机裁剪一个大小为256 × 256的区域来模拟目标裁剪。然后，我们通过计算地面真实掩模的外部框来模拟焦点裁剪，或者以长度为对象长度的0.2到0.5的边界为中心进行随机局部裁剪然后，我们在模拟的Focus Crop上添加从1.1到2.0的随机扩展因此，Segmentor和Refiner的整个管道以端到端的方式一起训练。对于点击模拟的策略，我们利用RITM [36]之后的迭代训练[29]。除了迭代添加的点击之外，初始点击是随机跟随的地面真值掩码内部/外部的样本[44]。正/负点击的最大数量设置为24，概率衰减为0.8。对于超参数，遵循RITM [36]，我们在COCO [26]和LVIS [13]的组合数据集上训练我们的模型。我们还报告了在SBD [15]和大型组合数据集[2，7，13，24，26，39，45，48]上训练的模型的性能。在训练过程中，我们只使用翻转和随机调整大小，范围从0.75到1.4作为数据增强。我们应用β 1 = 0的Adam优化器。9，β1= 0。999 我们将30000个图像表示为epoch并使用230 epoch训练我们的模型公司现采用国际初始学习率为5×10−4，并将其降低10倍在190和220的时代。我们在两个V100 GPU上训练每个模型，批量大小为32。培训时间约为24小时。评估方案。我们遵循以前的作品[5，18，27，#35744;，进行公平的比较。在评估过程中，点击是用固定的策略自动模拟的例如，当从头开始时，第一次点击将被放置在地面实况遮罩的中心。将迭代地添加额外的点击，直到预测达到目标IOU（交集大于并集）或点击数量达到上限。对于指标，我们报告NoC IOU（点击数），这意味着达到目标IOU所需的平均点击数。根据以前的工作，点击次数的默认上限是20.如果模型未能在20次点击内达到目标IOU，则我们将该示例标记为失败。因此，我们还报告了NoF IOU（故障数）来衡量平均故障数。4.2. 与最新技术水平计算分析。FocalClick的目标是提出一种实用的掩模注释方法;效率是一个重要因素。在表3中，我们对参数数量、FLOP和CPU上的推理速度本文将前人的方法按主干和输入大小归纳为五个原型。在表3中，大多数作品使用大型号和400到600的输入大小，这使得它们很难在CPU设备上使用相比之下，FocalClick支持灯光模型和小输入尺寸，如128和256。我们的B 0-S1版本的FLOP比最轻的RITM小15倍[36]，比FCANet小360倍[27]。使用相同的Segmentor，我们的hrnet-18 s版本可以减少2到8倍的FLOPs与原始RITM [36]。此外，由于FocalClick是一种通用管道，可以适应各种分段器，因此可以通过使用更轻量级的架构（如[17，37]）来进一步降低FLOP。现有基准的业绩。与现有基准的比较结果见表2。我们根据训练数据将以前的方法分成不同的块一些早期的作品是在SBD上训练的[15]，这是一个相对较小的训练集。最近SOTA方法使用COCO [26]和LVIS [13]进行训练并获得更好的结果。为了进行公平的比较，我们报告了两种训练设置下的表现。我们注意到，FocalClick的不同版本都具有显著较小的FLOP，与1305GrabCut [34]伯克利[31]SBD [15]戴维斯[33]方法列车数据NoC 85NoC 90NoC 90NoC 85NoC 90NoC 85NoC 90图切割[3][12]第十二话[12]第十二届中国国际汽车工业展览会[编辑]/////7.9813.3211.367.247.1010.0014.5713.779.209.1214.2215.9614.0212.1112.5713.615.3612.2212.2112.6915.9617.6015.0414.8615.3115.1318.5916.7115.4115.3517.4119.5018.3117.7017.52DOS w/o GC [44][22]第22话：我的世界RIS-Net [23]CM指南[30]BRS [18][35]第三十五话CDNet-resnet50 [5]RITM-hrnet18 [36]SBD [15]SBD [15]SBD [15]SBD [15]SBD [15]SBD [15]SBD [15]SBD [15]SBD [15]8.025.083.20––2.502.221.7612.596.084.795.003.583.602.982.642.04––––5.084.343.693.2214.309.227.416.03–5.064.373.3916.7912.8010.78––8.087.875.4312.529.035.05––5.395.174.9417.1112.589.57––7.816.666.71Ours-hrnet18s-S2我们的分段器B 0-S2SBD [15]SBD [15]1.861.662.061.903.143.144.304.346.526.514.925.026.487.06FCANet（SIS）[27]99%AccuracyNet [10][35]第三十五话RITM-hrnet18s [36]RITM-hrnet32 [36][14]第十四话[15]第九届全国政协副主席[13]第十三届中国国际纺织品展览会[26][13]第二十三话：一个人[13]第二十三话：一个人[13]第二十三话：一个人--1.541.541.461.602.141.801.691.681.561.724.193.042.442.602.102.40-3.904.374.043.59--- 七点二十六分6.485.71---五点十七分4.704.114.547.90- 六块五5.985.345.77Ours-hrnet18s-S1Ours-hrnet18s-S2Ours-hrnet32-S2Ours-segformerB0-S1Ours-segformerB0-S2Ours-segformerB3-S2[13]第二十三话：一个人[13]第二十三话：一个人[13]第二十三话：一个人[13]第二十三话：一个人[13]第二十三话：一个人[13]第二十三话：一个人1.641.481.641.601.401.441.821.621.801.861.661.502.892.662.363.292.271.924.744.434.244.984.563.537.296.796.517.606.865.594.773.904.015.134.043.616.565.255.397.425.494.90Ours-hrnet32-S2Ours-segformerB3-S2大型数据集大型数据集1.301.221.341.261.851.484.353.706.615.843.192.924.814.52表2.GrabCut、Berkeley、SBD和DAVIS数据集的评估结果[第二、七、十三、二十四、二十六、三十九、四十五、四十八条]基础模型参数/MBFLOPs/G速度/msSegRefSegRefSegRefhrnet18s-400 [14，36]4.2208.9604700hrnet18s-600 [14，36]4.22020.17010200[36] 2019- 04 -1630.95040.42013870resnet50-400 [5，10，35]31.38084.63023590[27]第50.370216.550626758Ours-B0-S13.720.0160.430.174159Ours-B0-S23.720.0161.770.1714060Ours-B3-S245.60.02512.720.2063472Ours-hrnet18s-S14.220.0110.910.158050Ours-hrnet18s-S24.220.0113.660.1621351Ours-hrnet32-S230.950.02516.920.2065051表3. FocalClick系列和SOTA方法的计算分析。“B 0/3”是SegFormer-B 0/3的缩写。'Seg'表示Seg-指导者，'Ref'表示精炼者。‘400’, ‘600’, ‘512’ denote the de- fault 速度是指-确保在CPU笔记本电脑与2.4 GHz，4×英特尔酷睿i5.以前的SOTA方法。由于我们的目标是在表2的底部开发一种实用的方法，以探索实际场景中FocalClick的上限，因此我们还报告了在组合数据集上训练的结果[2，7，13，24，26，39，45，48]。这表明，当配备了大量的训练数据，FocalClick可以优于其他方法有很大的利润。13064.3. 掩模校正我们在DAVIS-585基准上评估掩模校正的性能，结果列于表4中。我们还报告了从头开始注释的结果。DAVIS-585提供的所有初始掩码的IOU都在0.75到0.85之间，并且已经很好地注释了一些具有挑战性的细节。因此，充分利用它们可以在逻辑上促进注释。然而，根据表4，RITM [36]在从初始掩模开始和从划痕开始之间没有显示出太大的相比之下当从预先存在的遮罩开始时，它需要的点击次数要少得多。此外，它表明FocalClick的S1版本可以在1/67 FLOP的掩模校正任务中优于RITM的大版本[364.4. 消融研究我们对我们的新模块进行了大量的消融研究，并报告了原始DAVIS和我们的DAVIS-585数据集的实验结果。整体分析。我们验证每一项的有效性，1307×方法从初始掩码从头NoC85NoC90NoC95NoF85NoF90NoF95NoC85NoC90NoC95NoF85NoF90NoF95RITM-hrnet18s [36]RITM-hrnet32 [36]3.713.685.965.5711.8311.35494680752352145.344.747.576.7412.9412.0952459180257230Ours-hrnet18s-S12.723.825.863757975.628.0813.735398274Ours-hrnet18s-S22.483.345.183143794.936.8711.974977239Ours-hrnet32-S22.323.094.942841744.776.8411.904876241我们的分段器B 0-S12.633.696.0838541046.219.0614.8164127315我们的分段器B 0-S22.203.084.822739684.997.1312.655086260Ours-segformerB3-S22.002.764.302235534.065.8911.124374218表4. DAVIS-585基准的定量结果。指标“NoC”和“NoF”表示目标IOU所需的平均点击次数和失败示例数。所有模型都在COCO[26]+LVIS [13]上训练。比率TC比率FC1.21.41.61.8不含TC1.25.15/7.215.16/7.505.23/7.905.37/8.216.37/10.491.45.07/7.105.13/7.425.15/7.775.30/8.236.19/10.321.64.99/7.075.10/7.315.11/7.805.20/8.176.26/10.251.84.99/6.955.07/7.335.08/7.645.28/7.966.26/10.19不含FC5.56/9.035.70/9.566.01/10.476.56/11.3110.70/15.60表5.对从头开始的交互式分割和交互式掩模校正的消融研究。'TC'、'FC'、'PM'表示目标裁剪、焦点裁剪和渐进合并。‘NoC’, ‘NoF’ stand for the Number of Clicks and the Number of图像比率GrabCut伯克利SBD戴维斯DAVIS-585焦点裁剪目标裁剪54.15%89.34%31.17%68.81%百分之十点一五27.56%百分之十一点六40.50%8.76%28.93%表6.重点作物和目标作物面积的统计我们报告相对于全尺寸图像的比率。表5中的新组分。我们首先基于SegFormer-B 0构建一个它将完整的图像作为输入，并且不应用TC（目标裁剪），FC（焦点裁剪）和PM（渐进合并），这与早期作品类似[18，22，44]。结果表明，这种流水线执行差，特别是对小的输入分辨率S1（128 - 128）。大多数测试样品在20次点击内未能达到目标IOU。然后，在逐步添加TC、FC和PM后，我们观察到每个组件都为初始掩码和划痕的注释带来了稳定的改善。通过比较S1和S2，我们发现朴素版本严重依赖于输入规模。性能从S2到S1大幅下降。但是，在TC、FC和PM的辅助下，可以弥补投入小的缺点种植策略分析我们首先计算焦点裁剪、目标裁剪的平均面积，并计算与完整图像的比例，见表6。结果表明，我们的裁剪策略在局部区域的选择和放大方面是有效的。在表7中，我们验证了我们的裁剪策略的鲁棒性表7. TC（目标作物）和FC（焦点作物）的扩展比率组合。数值显示DAVIS上的NoC 80/90最后一行/列显示了没有FC/TC的性能。埃吉结果表明，与模块化带来的改善相比，超参数引起的波动可以忽略不计。此外，对于表中的评价结果。2，4，我们简单地将这些比率设置为1.4，遵循以前的作品[5，35，36]。然而，表7显示，我们的工作可以通过更精细的调优达到更高的性能。我们还可视化了Refiner的中间结果，以证明其有效性。在图4中，第一列中的红框显示了Focus Crop选择的区域。黄色框表示目标裁剪（第一行显示第一次点击的情况;因此目标裁剪对应于整个图像）。第二列和第三列显示Segmentor和Refiner的预测结果。这表明Refiner对于恢复细节是至关重要的。图4. Refiner有效性的定性结果。第一列表示黄色的目标裁剪和红色的焦点第二列和第三列展示了优化前后焦点裁剪中的蒙版。方法戴维斯DAVIS-585NoC85NoC90NoF90NoC85NoC90NoF90Naive-B0-S110.7015.6025012.2615.99441+ TC5.709.561195.849.45184+ TC+ FC5.157.66725.418.52145+ TC+ FC+ PM5.137.42642.633.6954Naive-B0-S25.249.741297.0010.81251+ TC4.525.86584.026.5399+ TC+ FC4.155.55563.946.2393+ TC+ FC+ PM4.045.49552.213.08411308(1) 真实初始借据：0单击：92.1%单击借据：95.2%(2) 真实初始借据：0单击：52.7%单击借据：91.3%(3) 真实初始借据：81.3%单击：85.9%单击三次借据：98.5%(4) 真实初始借据：83.8%单击：92.1%单击借据：95.2%(5) 真实初始借据：75.6% 1-Click：70.1% 20-Click借据：23.7%图5. DAVIS-585基准的定性结果。结果由FocalClick-B3-S2预测。第1行和第2行显示了从头开始注释的示例。第3、4行展示了从初始掩码开始的情况。第5行显示了坏的情况。4.5. 定性结果定性结果如图5所示。前两行演示了从头开始的注释过程。FocalClick在几次点击内提供高质量的预测。最后三行显示了从预先存在的掩码开始的情况。我们的方法完全保留了良好的分割细节，并更新需要校正的区域。第5 行给出了一个失败的案例，表明Fo-calClick不能注释像降落伞绳这样的微小结构。在这种情况下，注释器可以放大并切换到画笔工具来手动修改它FocalClick支持用户切换回并继续其他区域的智能注释。5. 限制FocalClick提高了现有管道的效率和兼容性。但是，它仍然有以下局限性：1）作为图中的故障情况5、性能-对微小结构的处理仍然不能令人满意。它可以通过利用更精细的注释数据或抠图数据集来进一步改进。2)对于1080P以下的图像，可以忽略图像加载、移动、放大和可视化的时间。然而，对于4K图像，它们将成为速度的新瓶颈。为了建立一个实用的注释系统，还需要大量的工程工作。6. 结论在本文中，我们提出FocalClick来解决交互式分割的实际问题。FocalClick显著提高了现有管道的效率，使其能够部署在低功耗设备上。我们还提出了一个新的任务，交互式掩模校正，以满足现实世界的要求，并提出了相应的解决方案。谢谢。这项工作得到了香港大学创业基金的部分支持。1309引用[1] 白俊杰和吴晓东。基于容错涂鸦的交互式图像分割。CVPR，2014。[2] Ali Borji、Ming-Ming Cheng、Huaizu Jiang和Jia Li。显著对象检测：一个基准。TIP，2015年。[3] Yuri Y Boykov和M-P Jolly。交互式图切割用于ND图像中目标的最佳边界载于ICCV，2001年。[4] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L Yuille.Deeplab：使用深度卷积网络、atrous卷积和全连接crfs进行语义TPAMI，2017。[5] 陈曦，赵之言，于飞舞，张一磊，段漫妮。交互式分割的条件扩散。ICCV，2021。[6] 弗朗索瓦·肖莱。Xception：使用深度可分离卷积的深度学习在CVPR，2017年。[7] Wenyan Cong，Jianfu Zhang，Li Niu，Liu Liu，ZhixinLing，Weiyuan Li，and Liqing Zhang. Dovenet：通过域验证进行深度图像协调。在CVPR，2020年。[8] Dengxin Dai ， Hayko Riemenschneider ， and Luc VanGool.纹理示例的可合成性。CVPR，2014。[9] Mark Everingham ， Luc Van Gool ， Christopher KIWilliams，John Winn，and Andrew Zisserman.pascal视觉对象类（voc）的挑战。IJCV，（2），2010.[10] Marco Forte，Brian Price，Scott Cohen，Ning Xu，andFran c. 在交互式分割中达到99% 的准确率。arXiv：2003.07932，2020。[11] 利奥·格雷迪图像分割的随机游走TPAMI，2006年。[12] Varun Gulshan 、 Carsten Rother 、 Antonio Criminisi 、Andrew Blake和Andrew Zisserman。用于交互式图像分割的测地星凸性。CVPR，2010。[13] 阿格里姆·古普塔，皮奥特·多勒，罗斯·格希克。Lvis：用于大词汇实例分割的数据集。在CVPR，2019年。[14] Yuying Hao ， Yi Liu ， Zewu Wu ， Lin Han ， YizhouChen，Guowei Chen，Lutao Chu，Shiyu Tang，ZhiliangYu ，Zeyu Chen，et al. Edgeflow ：Achieving

下载后可阅读完整内容，剩余1页未读，立即下载