基于点击模仿的交互式图像分割及其性能评估

112 浏览量更新于2023-11-30 收藏 2.04MB PDF 举报

分割掩模

文件标签

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2255获取更多论文PseudoClick：基于点击模仿的秦柳1，2，孟正2，Benjamin Planche2，Srikrishna Karanam2，Terrence Chen2，MarcNiethammer1，and Ziyan Wu21北卡罗来纳大学教堂山分校，美国北卡罗来纳州教堂山2United Imaging Intelligence，Cambridge MA，美国{first.last} @ uii-ai.com，qinliu19@cs.unc.edu抽象的。基于点击的交互式图像分割的目标是在有限的用户交互下获得精确的对象分割掩模，即，by a minimum最小number数of user用户clicks点击.现有的方法需要用户提供所有的点击：首先检查分割掩模，然后迭代地提供错误标记区域上的点我们提出了一个问题：我们的模型能否直接预测点击的位置，从而进一步降低用户交互成本？为此，我们提出了伪点击，一个通用的框架，使现有的分割网络提出可以didate下一次点击。这些自动生成的点击，在这项工作中被称为伪点击，作为人类点击的模仿，以完善分割掩模。我们建立在现有的分割骨干的伪点击，并显示如何点击预测机制导致性能的我们对来自不同领域和模态的10个公共数据集进行了评估，表明我们的模型不仅优于现有方法，而且在跨领域评估中表现出强大的泛化能力我们在几个流行的基准测试中获得了新的最先进的结果，在Pascal数据集上，我们的模型通过减少12.4%的点击次数来实现85%的IoU，显著优于现有的最先进技术关键词：点击模仿，交互式图像分割，伪点击1介绍近年来，在用于各种应用的分割方法中已经看到了巨大的进步，语义对象/实例分割[1，2]、视频理解[3，4]、自动驾驶[5，6，7]和医学图像分析[8，9]。这些应用程序的成功在很大程度上依赖于大规模像素级注释掩码的可用性，这是非常费力和昂贵的获得。交互式图像分割，其目的是提取感兴趣的对象使用有限的人类交互，是一种有效的方式来获得这些注释。虽然已经研究了不同的交互类型，包括点击[10，11]，边界框[12，13，14]和涂鸦[15，16]，但我们只关注点击。arXiv：2207.05282v2 [cs.CV] 2022年7+v：mala2255获取更多论文分割网络下次点击prediction（）分割网络2Q. Liu等人现有方法我们图1：现有方法和我们的方法之间的关键区别是点击预测的能力。(a)说明现有方法。所有的点击都是由用户提供的。(b)我们的方法的插图，该方法基于当前的分割掩码预测下一次点击。该预测的伪点击用于细化分割掩模。请注意，在测试时，伪点击预测不需要手动分割。基于交互式分割，因为它具有最简单的交互，以及完善的培训和评估协议[10，11]。与基于涂写的方法[15，16]相比，基于点击的交互式分割不需要人工或复杂的过程来模拟用户输入。最近关于基于点击的交互式分割的工作已经使用各种推理时间优化方案[17]产生了最先进的分割性能，由于推理期间的多次向后传递，这些方案在计算上是最近，Sofiiuket al.提出了RITM[11]，这是一种简单的前馈方法，不需要对基于点击的交互式分割进行推理时间优化，当在具有不同和高质量标注的COCO[18]和LVIS[19]组合数据集虽然该领域中的现有方法已经显示出改进的性能，使用推理时间优化方案[17]或迭代掩码引导训练方案[11]，这些方法仍然需要用户提供所有点击。因此，用户需要交互式地检查所得到的分割掩模，然后为错误标记的区域提供点。我们提出了一个问题：分割模型能否直接预测点击的位置，从而进一步减少人类点击的次数？为此，我们提出了伪点击，一个新的框架，交互式分割，装备现有的分割骨干自动预测用户点击的能力。如图1所示，现有方法和我们提出的方法之间的关键区别是能够生成额外的，有益的和“免费”的伪点击作为人类点击的预测，用于细化分割掩模。伪点击是一个通用的框架，可以建立在现有的分割骨干，包括CNN和变压器。我们在以下亲中为现有的分段骨干配备点击预测机制，+v：mala2255获取更多论文PseudoClick：使用ClickImitation 3进行cedures：我们首先引入一个错误解码器，与主干的分段解码器并行，它为当前分段掩码产生假阳性（FP）和然后，我们从FP或FN映射中提取伪点击，这取决于哪个映射包含最大的错误。具体而言，应从FN图生成正点击，而应从FP图生成负点击。之后，生成的伪点击（我们每次生成一个伪点击）将在网络输入中更新，以便为下一个前向传递细化分割掩码。请注意，整个过程是对交互式分割中核心人类活动的模仿：视觉估计分割误差，即，过分割（ FP）或欠分割（FN），然后确定下一次点击应该是什么和在哪里。我们在10个公共数据集上对我们的方法进行了广泛的评估（见第二节）。4.1）。评价结果表明，我们的模型不仅优于现有的方法，但也表现出很强的泛化能力，在跨域的医学图像的评价。在Pascal数据集上，我们的模型通过减少12.4%和11.4%的点击次数，分别实现85%和90%的IoU，显着优于现有的最先进技术。对于BraTS[20]和ssTEM[21]的跨域评估，我们的方法显著优于现有方法。我们的主要贡献是：1) 我们提出了伪点击，一种新的交互式分割框架，直接模仿人类点击通过分割网络和细化的分割掩模与这些模仿的伪点击。我们提出的框架不同于现有的交互式分割方法，因为它提供了额外的，有益的，和“免费”的点击在注释过程中的人在循环。2) 我们表明，PseudoClick是一个高效和通用的框架，可以建立在不同类型的分割骨干，包括CNN和变压器，在调整超参数和修改网络架构的努力很少。3) 我们从多个领域和模式的基准进行了全面的评估实验结果表明，该方法不仅在域内测试中优于现有的最先进的方法，而且在跨域测试中也表现出很强的泛化能力。2相关工作基于点击的交互式图像分割。基于点击的交互式分割具有最简单的交互和完善的培训和评估协议[10，11]。 Xu等[10]首先将CNN应用于交互式分割，并提出了一种点击模拟训练策略，该策略启发了许多未来的作品[11，22，23]。与以前的基于点击的方法[11，24，23]相比，伪点击是独一无二的，因为它是第一个模仿人类点击的作品并利用自动生成的伪点击来细化分割+v：mala2255获取更多论文4问。Liu等人其他类型的互动反馈。除了点击之外，在该领域还探索了不同类型的用户交互，包括边界框[13]，涂鸦[25]和来自多个模态的交互[26]。基于边界框的方法的主要缺点是在所选区域内缺乏特定的对象参考，以及用于校正预测掩模的明确方法。内部外部引导（IOG）[13]通过将点击与目标对象的边界点相结合并允许对预测掩码进行校正来解决这个问题我们的方法与所有这些方法的不同之处在于，我们只使用点击作为交互。而不是探索更复杂的交互，我们试图模仿用户点击，并减少他们的数量需要获得预定义的准确性。模仿学习和超越。模仿学习的目的是模仿人类的行为，为一个给定的任务[27]。虽然该领域最近由于计算和传感的进步以及对智能应用的不断增长的需求而受到关注[28，29]，但在交互式分割任务中从未对其进行过探索。我们声称我们的方法与模仿学习高度相关因为它模仿了交互式注释过程中的核心用户活动：在确定下一个点应该是什么和在哪里之前，视觉地估计分割误差。SeedNet[24]首先提出了一种自动生成自动点击的强化学习方法。然而，他们的方法并不是模仿人类的点击，因为它会自动生成一个序列在没有人为干预的情况下，在最初的两次点击中获得隐含的长期奖励。因此，它更像是一种后处理方法。相比之下，我们的方法是对人类点击的模仿，因为它明确量化了FP FN错误，然后基于估计的错误生成下一次点击（就像人类注释者会做的那样）。我们的方法通过在现有的分段主干上引入伪点击生成机制来模仿这个过程，如第2节中所讨论的。3. 我们预测FP FN错误的想法对于分割也与[30]中提出的“预测损失”的想法有关3方法如图2所示，伪点击是一个通用框架，它建立在现有的分割框架上，具有两个附加模块：分割错误解码器模块和点击编码模块，该模块由人类点击和伪点击的编码掩码组成。节中3.1中，我们首先描述分割错误解码器，其输出两个错误映射，从这两个错误映射生成伪点击。节中3.2，进一步描述了伪点击的生成过程。节中3.3，然后我们介绍了将伪点击转换为空间信号以馈送到分割主干的编码机制。节中3.4，我们引入损失函数来训练我们的模型。节中3.5，我们通过提供有关所提出的方法的其他实现细节来结束整个部分+v：mala2255获取更多论文¬ ∧ ≥∧PseudoClick：使用ClickImitation 5进行伪点击编码阳性阴性自动下一次点击Prediction（）误差解码器分段主干阳性阴性人类点击隔离区地图地面实况编码监督图2：伪点击概述。给定图像和点击，网络输出分割图，以及分别预测分割掩码的假阳性和假阴性的两个错误图。然后，将从FP图或FN图生成伪点击（参见第3.2）。后即，网络通过将新的伪点击添加到点击编码来在第二正向传递中细化分段掩码。3.1分段错误解码器分段错误解码器与主干的分段解码器并行引入。它生成两个误差图，估计分割掩码的假阳性（FP）和假阴性（FN）误差。两个误差图都是概率图3，其可以被训练为两个二进制分割任务。由误差解码器生成的FP和FN图由地面实况FP图Mfp和地面实况FN图M fn监督，地面实况FP图M fp和地面实况FN图Mfn可以以以下方式从地面实况掩码M和分割概率图P获得：M（Pτ）; Mfn= M（P<τ），其中τ是概率阈值（默认设置为0.5）。由于训练分割错误解码器被公式化为两个二进制分割任务，所以错误解码器和分割解码器可以以多任务学习方式端到端地训练（参见第2节）。3.4）。为了帮助读者更好地理解所提出的错误解码器的功能，我们在图3中显示了错误解码器生成的错误映射。我们观察到，误差图提供了对真实误差的有意义的估计，因为可以通过比较分割掩模（第一行中的红色掩模）与地面真实值（最后一行中的白色掩模）来容易地估计这些错误映射的准确性对于下面介绍的可靠的伪点击生成是必不可少的。[3]请注意，我们称这些为概率图，但一般来说，它们可能会被错误地命名。如果需要，可以例如使用以下方法来改进校准：在[31]中。逐元素此外人为点击（Pos）人为点击（阴伪点击（正）伪点击（负）FN地图FP地图监督+v：mala2255获取更多论文6问。Liu等人图3：伪点击输出错误映射图的图示。给定第一次点击（第一行中的点），网络输出分割图（第二行），以及估计的FP和FN误差图（第三和第四行）。每列代表一个测试用例。所有测试图像均来自Cars数据集[32]。3.2伪点击生成给定当前分割掩码的预测FP和FN误差图，我们的方法从FP或FN图生成一个伪点击，这取决于哪个图包含最大的误差区域。首先，我们将两个错误映射转换为两个二进制掩码通过预定义的阈值（即，0.5），接着从包含最大连接误差区域的两个二进制掩码之一提取正/负点击-所提取的伪点击位于该区域的中心如果最大误差区域来自FP掩码，则提取的伪点击是负的（即，指示该区域不应被分割）;如果最大误差区域来自FN掩码，则所提取的伪点击是正的（即，指示该区域应当被分割）。最后，我们在专门为伪点击设计的编码映射上将新的伪点击编码为磁盘，下面将介绍。3.3伪点击编码如图2所示，人类点击和伪点击是分开编码的作为小的二进制磁盘在相应的编码映射，导致两个2通道磁盘映射。正点击被编码在正盘图中，而负点击被编码在负盘图中。请注意，我们选择使用磁盘映射而不是高斯映射进行点击编码是受到RITM[11]的启发，这表明磁盘映射比高斯映射更有效。我们执行元素明智的除了合并从伪点击和图像和人类点击的组合中提取的特征图提取的特征图。合并的特征图将被馈送到分段主干中以进行端到端训练。第一次接地FN概率FP概率隔离区概真相地地地+v：mala2255获取更多论文ΣPseudoClick：使用ClickImitation 7进行3.4损失函数虽然二进制交叉熵（BCE）损失被广泛用于监督交互分割任务[13，33，34，35，36]，但我们使用归一化焦点损失（NFL）[37]，其允许比BCE更快的收敛和更好的准确性，如[11]中所讨论的。NFL损失L可以写为：1γL（P（i，j））=−Ni、jP（i，j）（1−P（i，j））logP（i，j）（1）其中P（i，j）表示点（i，j）处的预测P，γ > 0是可调聚焦参数（如焦点损失[38]）。由于错误分支可以作为两个二进制分割任务进行监督（参见第二节）。3.1），我们也在训练中为他们使用NFL的因此，整体损失是三个NFL损失函数的组合L=（λ1Lseg（i，j）+λ2Lfp（i，j）+λ3Lfn（i，j））（2）i、j其中λ1、λ2、λ3>0表示每个分量的权重;Lseg（i，j）、Lfp（i，j）和Lfn（i，j）分别表示L（P（i，j））、L（Efp（i，j））和L（Efn（i，j））。3.5实现细节单击模拟进行培训和评估。我们自动模拟人类点击的基础上地面真相和当前分割快速训练和评估。对于训练，我们使用随机和迭代点击模拟策略的组合，类似于[11]。随机点击模拟策略生成一组正面和负面点击，而不考虑它们之间的顺序[10，17，39]。相比之下，迭代模拟策略按顺序生成点击-新的点击是基于使用先前点击集的模型产生的预测的错误区域生成的[36，40，41]。一旦模型被训练好，有两种模式对其进行评估：自动评估人的评价。对于自动评估，我们采用迭代点击模拟策略。请注意，自动模拟的点击可能与人工评估生成的点击不同。我们在补充材料中提供了一些通过人工评估获得的定性结果先前的分割作为额外的输入通道。将来自先前交互的输出分割掩码作为下一次校正的输入是很自然的，从而提供可以帮助提高分割质量的附加先验信息。将先前的分割掩码作为附加通道添加到RGB图像中，从而生成一个4通道图像作为输入。这个4通道图像将与人类点击编码映射连接，后者有两个通道（积极和消极点击在单独的注意，为了简洁起见，图2中未示出附加掩码输入。对于第一个交互，我们向模型提供一个空的掩码。+v：mala2255获取更多论文8问。Liu等人使用错误映射进行后处理从错误映射中提取伪点击。实际上，误差图可以直接用于细化分割掩模（例如，通过在Sec. 4.4）。我们认为，后处理的基础上FP FN地图可以被视为一个副产品我们的核心贡献--伪点击4实验4.1评价详情数据集。我们在10个公共数据集上评估了伪点击：GrabCut [16]，Berkeley [42]，DAVIS [43]，Pascal [44]，语义边界数据集（SBD）[45]，脑肿瘤分割挑战（BraTS）[20]，ssTEM [21]，Cars [32]，COCO[18]和LVIS [19]。由于COCO和LVIS数据集共享相同的图像集，并且在注释质量和对象类别方面彼此互补，因此它们可以组合为交互式图像分割任务的理想训练集[11]。因此，我们使用组合的COCO+LVIS进行训练，其余8个数据集进行评估。具体来说，我们使用COCO+LVIS数据集的训练集进行训练，并使用其验证集进行模型选择。Cars[32]数据集仅用于定性评估。我们在其余7个数据集的测试集上测试了训练好的伪点击模型;在这些数据集上没有进行微调对于DAVIS和BraTS数据集，我们不使用原始视频或卷。相反，我们分别从两个3D数据集中提取345和369个2D切片我们从BraTS中的每个体积中提取包含最大肿瘤区域的切片两个医学图像数据集，BraTS[20]和ssTEM[21]，用于跨域评估（参见第2.1节）。4.3）因为我们的模型是用自然图像训练的，这与医学领域的图像有很大的不同。我们建议读者参阅补充材料以了解更多细节。图4：DAVIS和BraTS数据集上前五次点击的mIoU比较+v：mala2255获取更多论文PseudoClick：使用ClickImitation 9进行分段主干。我们选择HRNet-18和HRNet-32 [46]作为我们的伪点击模型的骨干。为了表明伪点击是一个通用的框架，可以建立在大多数现有的分割骨干，我们还实现了伪点击两个最近提出的分割转换器：SegFormer-B5 [47]和HRFormer-base [48]。虽然这两种变压器在我们的实验中显示出了有希望的初步结果，但在相同的实验设置下，HRNet仍然评价模式和指标。我们用两种模式评估训练好的模型：自动评估和人工评估。对于自动评估，我们根据地面实况和当前分割掩码模拟人类点击（参见第二节）。3.5）;对于人工评估，人在环将基于他/她的主观评估提供我们使用标准的点击数（NoC）指标来衡量实现预定义的交集（IoU）所需的点击数具体来说，我们使用NoC@85和NoC@90作为两个主要指标来衡量分别获得85%和90% IoU所需的点击量。更多实施细节。我们采用与RITM [11]中相同的数据增强技术进行公平比较。伪点击不计入NoC@85%或NoC@90%指标，因为它们在人力方面是“免费的”。我们使用PyTorch在Python中实现我们的模型[49]。我们训练模型对于COCO+LVIS数据集上的200个epoch，初始学习率为5×10 −4，在epoch 50之后将降低到5×10 −5。在训练过程中，我们以320 × 480的固定大小裁剪图像，并将批量大小设置为32。我们优化使用亚当，β1=0。9，β2=0。999.所有模型都在一个单个NVIDIA RTX A6000 GPU。4.2与最新技术水平的我们将我们的结果与现有的最先进的方法进行比较，包括f-BRS[17]，IA+SA [40]，FCA [54]和RITM [11]。选项卡. 1显示了定量结果。我们提出的PseudoClick方法在五个基准数据集上的性能优于所有方法例如，与Pascal数据集上的RITM相比，我们的模型分别使用了12.4%和11.4%的点击次数来实现85%和90%的IoU。图图4显示了DAVIS和BraTS数据集的前几次点击的平均IoU图我们的方法在准确性和稳定性方面不断改进我们还在图6中的一些图像上可视化了所提出的方法的评估过程。从定性结果可以看出，我们的模型自动生成的伪点击可以准确地集中在假阳性和假阴性区域。因此，它们能够细化预测的分割掩码，从而减轻人工注释工作。计算分析如图所示。第七章+v：mala2255获取更多论文10问。Liu等人方法GrabCut Berkeley SBD DAVIS PascalNoC@90 NoC@90NoC@85 NoC@90 NoC@85 NoC@90GC[15]ICCV 0110.0014.2215.9615.1317.41--美国[50]13.7714.0215.0416.7118.31--[51]第五十一话14.5715.9617.6018.5919.50--美国[52]9.1212.5715.3115.3517.52--欧洲稳定委员会[52]9.2012.1114.8615.4117.70--美国[10]6.048.65--12.586.88-美国[53]4.79-10.785.059.57--BRS[33]CVPR 193.605.089.785.588.24--美国[17]2.724.577.735.047.41--[40]第四十话3.074.94-5.16-3.18-FCA[54]CVPR 202.083.92--7.572.69-SBD RITM-H182.043.225.434.946.712.513.03C+L RITM-H321.562.105.714.115.342.192.57SBD H18，带PC2.043.235.404.816.572.342.74SBD H32，带PC1.842.985.614.746.162.372.78C+L H32w/oPC1.552.115.684.095.272.142.52C+L H32，带PC1.502.085.543.795.111.942.25表1：GrabCut、Berkeley、DAVIS、SBD和Pascal数据集的评估结果。我们的模型在SBD或COCO+LVIS上训练（表示为C+L以上）数据集。最佳结果以粗体显示;次佳结果以下划线示出。“H18”和“H32”分别表示“HRNet-18”和“HRNet- 32”。“PC”表示模型是通过伪点击实现的。指标为NoC@85%和NoC@90%，分别表示实现85%和90% IoU所需的点击次数。第1次人为点击+1次伪点击第二次人类点击+2nd pseudo click地面实况每个实例图5：两个医学图像数据集的跨域评价：BraTS[20]（左）和ssTEM[21]（右）。评估是由人类注释通过我们内部开发的交互式分割GUI。对于BraTS数据集，我们对每个图像使用两次点击对于ssTEM数据集，我们严格地对每个实例使用三次点击。请注意，我们的模型是在自然图像上训练的，但在两个医学数据集上显示出非常强大的结果。人为点击（Pos）伪点击（阴性）人为点击（阴性）伪点击（位置）ssTEM情况1壳体2+v：mala2255获取更多论文PseudoClick：使用ClickImitation的交互式图像分割114.3跨域评估为了评估所提出的方法的泛化能力，我们对两个医学图像数据集进行了跨域评估：BraTS [20]和ssTEM [21]。具体来说，我们直接将在SBD或COCO+LVIS数据集上训练的伪点击模型应用于医学图像，而无需进行微调（灰度医学图像按通道方式复制3次，以与RGB图像具有相同的通道尺寸）。我们在Tab中报告跨域评估结果2、Tab。3. 我们观察到，我们的模型推广非常好的医学图像，无需微调。请注意，这些结果是由人工注释器评估的。两个医学数据集的一些定性结果如图所示。五、方法训练Finetune骨干mIoU@3 mIoU@5美国[11]N/AHRNet1854.974.4美国[11]N/AHRNet3251.777.1我们的SBDN/AHRNet1854.574.6我们的C+LN/AHRNet3264.080.1表2：BraTS数据集的跨域评价评价指标是3或5次人类点击的平均IoU（%）。方法训练Finetune骨干#点击mIoUCurve-GCN[55]CityScapes N/A ResNet-50 2 60.9[13]PascalN/AResNet-101383.7RITM [11]SBDN/AHRNet18377.3RITM [11]C+LN/AHRNet32386.4我们SBDN/AHRNet18380.9我们C+LN/AHRNet32387.2表3：ssTEM[21]数据集的跨域评价。评价指标是2或3次人类点击的平均IoU（%）。IOG和Curve-GCN方法的结果从相应的论文中复制4.4比较研究分段主干比较。我们在Tab中演示了。1，我们的方法优于现有的国家的最先进的使用HRNet-32作为其骨干。在这项研究中，我们实现了其他骨干，包括两个最近提出的视觉转换器SegFormer[47]和HRFormer [48]，与CNN相比，这些结果令人鼓舞。选项卡. 4显示了一致性结果。所有模型都在ImageNet[56]上进行了预训练，并在COCO+LVIS数据集上使用NFL损失函数进行了微调。我们使用SegFormer-B5[47]和HRFormer-Base[48]作为变压器。对模型进行训练和评估+v：mala2255获取更多论文12问。Liu等人图6：自然图像上的伪点击模型的定性评估。上图：一次伪点击的分割结果。第一行显示了第一次人类点击的结果;第二行显示了在第一次伪点击的帮助下分割掩码的改进底部：在多次点击的情况下，IoU大于90%第一行显示了仅使用人类点击的分割。第二行显示了人工点击和伪点击的分割。点击的颜色和形状遵循图1所示的相同规则。五、使用伪点击。评价指标为NoC@85%。虽然transformers实现了不错的结果，但实际上，当从CNN转换到transformers时，我们几乎没有花时间调整超参数和修改架构。这证明了我们的框架的灵活性和泛化能力。损失函数比较。在这项研究中，我们使用四种不同的损失函数训练伪点击模型：二进制交叉熵（BCE）损失，焦点损失（FL）[38]，软IoU损失[57]和归一化焦点损失（NFL）[37]。每个实验使用HRNet32模型。所有四个模型都是在COCO+LVIS数据集上训练的。结果在Tab。 5表明，与NFL训练导致最好的准确性。训练数据集比较。在这项研究中，我们在四个不同的训练数据集上训练了伪点击模型：Pascal，SBD，LVIS和COCO+LVIS。我们测试了四个数据集：Pascal，SBD，Berkeley和DAVIS。对于每个实验，我们的模型都基于HRNet32，并使用NFL损失函数进行训练我们+v：mala2255获取更多论文××PseudoClick：使用ClickImitation的交互式图像分割13Backbone Berkeley SBD DAVIS Pascal Loss Berkeley SBD DAVIS Pascal表4：不同分段主干的比较研究。表5：不同损失函数的比较研究。Train Berkeley SBD DAVIS PascalModel Param/M FLOPs/G Speed/sPascal2.335.875.672.66RITM-H3230.9516.570.137SBD1.673.514.742.37Ours-H32-PC36.7918.430.185LVIS 2.63 5.40 6.97C+L 1.40 3.46 3.791.94表6：不同训练数据集的比较研究。表7：计算分析。速度是衡量每点击秒（包括我们的伪点击）与NVIDIAA6000 GPU。报告结果在选项卡中。6. 我们观察到，在COCO+LVIS上训练的模型表现出最好的性能，突出了COCO和LVIS相结合训练交互式分割模型的好处。我们还注意到，在Pascal数据集上，在COCO+LVIS数据集上训练的模型甚至比该模型在Pascal数据集上训练。这再次突出了COCO+LVIS数据集的优势：1）大数据集大小。COCO+LVIS数据集的注释实例数量分别是SBD和Pascal的50倍和170倍; 2）多样性和高注释质量。后处理与伪点击。在这项研究中，我们直接使用这两个误差图来细化分割掩模。这两个误差图在训练期间用作分割分支的正则化。如图3所示，它们对分割掩模进行了合理的优化，因此可以用于细化分割掩模。为了实现这个目标，我们简单地从分割图中减去我们将后处理与添加一个伪点击进行比较比较结果见表1。8. 我们强调，基于FP FN地图的后处理也可以被视为我们工作的贡献，因为它是我们核心贡献的副产品。考虑到BraTS数据集上的两次人类点击，通过添加一次伪点击获得的相对mIoU比通过后处理获得的mIoU高5.2%，考虑到后处理的强大性能，这是相当可观的。ResNet511.943.494.872.18公元前1.443.533.971.98ResNet1011.853.444.142.02FL1.433.543.792.01SegFormer2.544.104.112.26软IoU1.443.633.962.10HRFormer1.844.534.802.62NFL1.403.463.791.94+v：mala2255获取更多论文14问。Liu等人兔崽子戴维斯mIoU@Human-clks235235基线（BL）23.251.277.380.285.689.3BL+后处理42.663.579.781.386.290.1BL+1伪点击44.864.080.183.787.490.8表8：添加一个伪点击与后处理。比较后处理和伪点击掩码细化给定一个固定数量的人类点击.上面的Baseline模型是我们在BraTS数据集上最好的PseudoClick模型（C+L HRNet32）。5限制所提出的方法的主要限制是，伪点击可能不像人类点击那样准确，因此可能导致分割精度下降。这可能会导致用户需要额外的工作来撤回放置不当的伪点击或通过放置更多点来纠正错误。幸运的是，通过分离两种类型的点击的编码映射，这个问题已经得到了极大的缓解。通过分离两个编码映射，在训练期间容忍不准确的伪点击，并且在评估期间不太可能导致准确性下降。在这个项目的早期阶段，我们发现了这个问题。在分离了两种类型的编码映射之后，正如我们当前的架构中所实现的那样，这个问题已经被大大消除了。6结论我们提出了伪点击，一种新的交互式分割框架，自动模仿人类的点击和有效地分割对象与模仿的伪点击。伪点击是一个通用框架，可以建立在不同类型的分割骨干，包括CNN和变压器，在调整超参数和修改网络架构的努力很少我们从多个领域和模态的基准测试中对PseudoClick进行了全面的评估，并进行了广泛的比较和跨领域评估实验，证明了所提出的方法的有效性和通用化能力。确认本出版物中报告的研究得到了美国国立卫生研究院（NIH）的支持，奖励编号为NIH 1R01AR072013。内容完全由作者负责，不一定代表NIH的官方观点。+v：mala2255获取更多论文PseudoClick：使用ClickImitation的交互式图像分割15引用1. A. Garcia-Garcia ， S. Orts-Escherano ， S. Oprea ， V. Villena-Martinez 和 J.Garcia-Rodriguez，2. S. Minaee，Y. Y.博伊科夫角Porikli，A. J. Plaza，N. Kehtarnavaz和D. Terzopou-los，3. L. Yang，Y. Fan和N. Xu，51884. N.许湖，加-地Yang，Y.范，D. Yue，Y.叶，中国植物研究所所长。Liang，J.Yang，and T. Huang，5. M. Cordts，M.Omran，S.Ramos，T.M. 恩茨韦勒河本纳森，联合弗兰克，S。罗斯和B。Schiele，32136. A. Geiger，P. Lenz，and R. Urtasun，KITTI视觉基准套件，”2012年IEEE计算机视觉和模式识别会议，第10033547. G. Neuhold，T. Ollmann，S. Rota Bulo和P. Kontakeder，49908. D. Shen，G. Wu和H.- I. Suk，2219. G.利琴斯T.库伊湾E. Bejnordi，A. A. A.塞蒂奥湾琼皮，M。加福里安，J. A.VanDerLaak，B. VanGinne k en和C. I. S'anchez，“A surv ey on deep learningin medical image an alysis，“医学图像分析，卷。42，pp. 6010. N.徐湾，澳-地普赖斯，S。Cohen，J. Yang，and T. S. Huang，“Deep interactiveobject selection ， ”in Proceedings of the IEEE Conference on ComputerVision and Pattern Recognition，pp. 37311. K.索菲尤克岛A. Petrov和A. Konushin，12. N.徐湾，澳-地普赖斯，S。Cohen，J. Yang，and T. Huang，13. S.张建辉<英>来华传教士。Liew，Y. Wei，S. Wei和Y. Zhao，1223414. J.Wu，Y.赵，J- Y. Zhu，S. Luo和Z. Tu，“Milcut：交互式图像分割的扫描线多实例学习范例”，在IEEE计算机视觉和模式识别会议论文集上，第100页。 256-263，2014。15. Y. Y. Boykov 和 M.- P.Jolly ， &“Interactive graph cuts for optimal boundary regionsegmentation of objects in ND images” ，在 Proceedings eighth IEEE internationalconferenceoncomputervision中。 ICCV 2001，vol. 1，pp.10516. C. Rother，V. Kolmogorov，and A. Blake，23，no. 3，pp. 309+v：mala2255获取更多论文16Q. Liu等人17. K.索菲尤克岛彼得罗夫岛Barinova和A. Konushin，862318. T.- Y. 林，M。迈尔，S。Belongie，J. Hay ys，P. Perona，D. 拉马南山口Dol l'ar和C. L. Zitnick，740-755，Springer，2014。19. A. Gupta，P.Dollar和R. Girshick，“Lvis：用于大词汇实例分割的数据集”，在IEEE/CVF计算机视觉和模式识别会议论文集上，pp. 535620. 联合拜德，S。Ghodasara，M.Bilello，S.Mohan，E.卡拉布雷斯，E。科拉克角法拉哈尼，J. Kalpathy-Cramer，F. C.北村山Pati，et al. ，21. S. Gerhard，J. Funke，J. Martel，A. Cardona和R. Fetter，2013年022. Q. Liu，Z. Xu，Y. Jiao和M. Niethammer，23. X. Chen，Z. Zhao，Y. Zhang，M. Duan，中国粘蝇D. Qi和H. Zhao，130024. G. 宋，25. H. K. Cheng，Y.- W. Tai和C.- K. Tang，555926. H. Ding、S.科恩湾价格，X。江，41727. A.侯赛因，M。M. Gaber，E. Elyan和C. Jayne，“模仿学习：一项调查of50，不。第2页。2017年1月28. T. Osa，J. Pajarinen，G. Neumann，J. A. Bagnell，P. Abbeel和J. Peters，“Analgorithmic perspective on imitation learning” ， arXiv 预印本 arXiv ： 1811.06711 ，2018。29. T. Zhang，Z. McCarthy，O. Jow，D.李，X。Chen，K. Goldberg和P. Abbeel，“从虚拟现实远程操作中进行复杂操作任务的深度模仿学习”，2018年IEEE机器人与自动化国际会议（ICRA），第100页。5628- 5 6 3 5 ， I E E E ，2 0 1 8 年。30. D.我和尤。S. Kweon，“主动学习的学习损失”，在IEEE/CVF计算机视觉和模式识别会议论文集上，pp. 93-102，2019年。31. Z.叮，X。Han，P. Liu，and M. Niethammer，“概率校准的局部温度缩放”，IEEE/CVF计算机视觉国际会议论文集，pp. 688932. J. Krause，M. Stark，J. Deng，and L. Fei-Fei，33. W.- D. Jang和C.- S. Kim，5297+v：mala2255获取更多论文PseudoClick：使用ClickImitation的交互式图像分割1734. K.- K. Maninis，S. Caelles，J. Pont-Tuset，and L. Van Gool，61635. J. H. Liew，S.科恩湾普赖斯湖Mai，S.H. Ong和J.Feng，cally meaningfu

下载后可阅读完整内容，剩余1页未读，立即下载