尺度多样的交互式图像分割方法MultiSeg的研究与应用

18 浏览量更新于2023-10-13 收藏 1.4MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

662MultiSeg：通过最少用户输入实现Jun Hao Liew1 *Scott Cohen2Brian Price2Long Mai2Sim-Heng Ong1JiashiFeng11新加坡国立大学2Adobe Researchliewjunhao@u.nus.edu{scohen，bprice，malong}@ adobe.com{eleongsh，elefjia}@ nus.edu.sg摘要现有的基于深度学习的交互式图像分割方法通常假设感兴趣目标总是单个对象，并且不能考虑用户期望的潜在多样性，因此当涉及分割对象部分或对象组时需要过多的用户输入。出于观察对象的一部分，完整的对象，和一个集合的ob-bands本质上不同的大小，我们提出了一个新的概念，称为规模多样性，其特征在于频谱分割w.r.t.不同的尺度。为了解决这个问题，我们提出了MultiSeg，一个尺度多样的交互式图像分割网络，它将一组二维尺度先验模型结合到模型中，以生成一组符合用户输入的尺度变化建议。我们明确地鼓励分割多样性在训练过程中合成不同的训练样本为一个给定的图像。作为一个结果，我们的方法允许用户快速定位最接近的分割目标，如有必要进一步细化。尽管它的简单性，实验结果表明，我们提出的模型是能够快速产生多样的，但合理的分割输出，减少用户的互动需要，特别是在许多类型的分割（对象部分或组）的情况下，预计。1. 介绍交互式图像分割采用用户输入（例如点击）以引导分割过程朝向期望的输出。与完全自动化的语义图像分割不同，交互式图像分割是一个半自动化的过程，允许添加额外的用户输入以进行细化，直到分割性能令人满意。在过去的几十年里，它已经成为一个热门的研究课题，具有广泛的应用领域，如数据注释，本地图像/视频编辑，图像合成和医学图像分析。现有的基于深度学习的交互式图像分割方法[16，18，23，26，27，36]已经证明了比以前使用的技术有显著的改进。这项工作主要是在Adobe Research实习期间完成的图1：（顶行）现有的交互式图像分割技术通常不考虑分割的多样性。尽管它们在提取单个对象上具有优异的性能，但是当分割局部部分或多个对象的组时，它们通常需要大量的用户输入。（底行）我们的移植MultiSeg产生一组符合给定用户输入的尺度变化分割。正（前景）和负（背景）点击分别由绿色和蓝色点击表示手工制作的特征，通常允许用户仅用几个用户输入来提取尽管这些模型在给定一些用户输入的情况下在提取单个对象方面表现出色，但实际上，感兴趣的目标可能并不总是单个对象。它可以是对象内的局部部分，也可以是该对象所属的一组对象然而，先前的技术没有考虑分割中的这种多样性，因此当分割目标不是单个对象时需要额外的用户输入图1示出了常规分割方法（[36]）如何处理不同的用户期望的分割。如第一列所示，这种模型在提取单个对象（人）时是有效的，在这种情况下只需要一次前景点击。然而，当分割目标是局部部分（花）时更大规模较小规模多个对象本地部分单个对象与多样性无多样性663花束），需要大量的背景点击来使人另一方面，当分割一组对象（第三列）时，我们注意到当向第二个对象添加额外的前景点击时，第一个对象（新娘）的分割质量显著下降。这样的方法既没有被设计也没有被训练以产生不同的分割结果。我们的主要思想是产生一组不同的segmenta- tions的建议，每个segmenta- tion应该符合用户输入的用户。随着用户提供更多的证据，模型应该很快收敛到其中一在最近的工作中，Liet al.[22]已经表明，利用分集损失来训练以鼓励网络捕获不同的分段模式可以提高分段性能。然而，[22]中的多样性培训框架是不受约束的，因为最重要的是，该方法仍然假设在给定用户点击的情况下的单个真实分割我们认为，一个好的分割系统需要能够建议的结果，既多样又有意义。实现这一点是一项非常重要的任务，因为合理分割的数量通常事先是未知的，并且不清楚如何最好地定义分割结果的多样性谱出于观察到不同的segmenta- tions（对象部分，完整的对象，和一组多个对象）在大小上本质上不同，我们建议施加一组二维尺度先验来表征分割的频谱，使得每个分割输出被约束为具有一定的规模，同时符合用户输入。有了这个，我们提出了MultiSeg，一个尺度多样的交互式图像分割网络，它在单个向前传递中根据用户输入产生一组尺度变化的建议。具体而言，鉴于一个（图像，用户输入）对，我们的模型产生多个输出与用户输入一致，其中每个分支寻求在给定的水平和垂直尺度内的可能的用户期望的分割为了训练这个模型，我们合成了包含模拟用户点击的多样性感知训练数据，以及与每个输入点击集对应的多个可能的图1（底行）示出了由我们的方法产生的示例结果请注意，花花束，单人，和三个人可以获得只需一个单一的前地面点击。广泛的实验分析表明，我们的模型是能够生成一组不同的，但合理的分割与用户输入一致。为了进一步改善用户体验，我们引入了一个对象分类器来选择最有意义的对象的建议。然后，我们向用户推荐排名靠前的建议。因此，用户不必仔细检查每个此外，当用户选择替代方案时，MultiSeg可以重用相应的尺度信息来约束后续分割输出。我们工作的主要贡献如下：• 我们建议使用比例因子来表征分割中的多样性，我们称之为比例多样性。• 我们提出了一种新的架构，它结合了规模的多样性，并产生一组规模变化的pro-bands的用户输入的条件。• 我们引入了一种新的管道来合成不同的训练样本，以明确地鼓励分割多样性。2. 相关作品交互式图像分割：早期的交互式图像分割方法主要利用边界属性进行分割[17，29]，而最近的方法基于图形模型，例如图切割[4，21，33]，随机游走[11]和测地线方法[2，7，31]。还提出了各种形式的先验以进一步提高分割性能[10，12，35]。然而，这些方法依赖于低级别的特征，如颜色或纹理，这通常导致较差的分割质量，特别是在复杂背景或变化的光照条件下。最近，与传统方法相比，基于深度学习的交互式分割方法显示出显著提高的准确性。Xu等[36]将稀疏用户点击转换成欧几里德距离图，并将它们与输入图像连接起来，以端到端的方式训练FCN。Liew等人[23]利用用户输入周围的局部区域上下文以及多尺度全局上下文先验进行局部细化。[26]提出了一个迭代训练过程，以解决训练和测试之间的不匹配。Hu等人[16]提出了一种完全卷积的双流融合网络，其在融合输入图像和用户点击之前单独地处理它们，使得用户输入对分割输出具有更直接的影响。另一方面，Polygon-RNN [1，5]将交互式图像分割公式化为多边形预测问题，其中使用递归DEXTR[27]将极值点（最左，最右，顶部和底部像素）转换为高斯热图，并与图像连接以执行分割。Le等人[18]提出了一种交互式边界预测网络，664规模128×64128×128256×128512×256FCN……0.560.070.640.75分尺度差异分割NMS+图割点击图片Top 3预测图2：MultiSeg概述。给定图像和距离变换的用户输入，FCN模型基于一组预定义的二维尺度输出一组尺度变化的分割掩码和对应的对象分数。最后，我们运行NMS以将最多前N个预测作为推荐给用户。边界点击作为输入。尽管如此，上述方法都没有解决分割的多样性，特别是当用户输入的数量很小时。各种预测：虽然有大量的工作，使不同的预测[3，9，13，19，20]，我们简要讨论的作品，产生一个不同的解决方案，在交互式图像分割。Batra等人[3]训练一个单输出模型，然后在推理过程中使用贪婪方法找到前M个最可能的解决方案，如果它接近预先发现的解决方案，则对每个新解决方案应用惩罚。然而，由于模型在训练期间不知道多个输出，因此存在训练测试差异。此外，不能保证发现的解决方案在语义上有意义。最近，Liet al.[22]在多选择学习设置下的公式化交互式图像分割，其中每个训练样本的损失被反向传播到在前向传递期间给出最低损失尽管如此，模式的数量是依赖于数据的，并且当一个或多个分支未能接收到任何训练信号时，在每个分支的输出背后没有可定义的含义或组织，并且没有方法来指导训练以确保学习可能的分割的全部与现有的作品不同，多样性要么是通过一些约束优化获得的，要么是以不受约束的方式学习的，这可能不涵盖所需的多样性范围，我们提供了一个明确的多样性定义，即规模，允许多样性和可解释的解决方案。据我们所知，这是第一个交互式图像分割工作，试图定义分割的多样性。3. 方法我们在第3.1节中讨论了多样性的定义，随后在第3.2节中详细介绍了网络架构，并在第3.3节中生成了多样化的训练数据。3.1. 规模多样性给定一组用户输入，我们的目标是生成一组不同的和语义上有意义的分割，其符合用户输入。然而，由于缺乏对多样性的具体定义，因此仍不清楚如何分离或区分不同的细分输出。一个合理的选择是基于一些分层划分来表示分段的频谱。例如，一个人可以被分割成身体部位和衣服。因此，在衬衫上放置正点击使得能够提取衬衫和整个人。然而，这样的训练数据的获得可能是昂贵的。此外，建模的层次关系是一个不平凡的任务。相反，我们提出了一个简单而有效的选择，这是在规模方面的特点分割的变化，我们称之为规模多样性。例如，图1中的花束、单人和三个人可以用不同的比例因子来表示。受最近的对象检测流水线[25，32]的启发，我们基于纵横比和大小的不同组合来定义二维（水平和垂直）尺度S这种二维参数化提供了更大的自由度来表示各种分段，与一维表示相比，例如：作为地区。考虑彩色图像X∈RH×W×3和一些用户输入U∈RH×W×2，我们将生成不同分割集的任务表述为学习由θ参数化的映射函数f（;θ，S），条件为：在一组预定义的标度S（在第4.1节中给出）上：Y=f（X，U;θ，S）（1）其中Y={Y=1，Y=2，.，Y<$M}∈RH×W×M是尺度多样的分割输出的集合，其中分割输出Ym对应于第m个尺度，M是第m个尺度的预定义的尺度。在下一节中，我们将详细讨论网络架构3.2. 尺度多样的交互式分割如图2所示，我们的模型将待分割的图像和一组用户提供的正点击和负点击作为输入，并生成M个尺度变化的分割掩码，其中对应的对象得分指示每个尺度下存在合理的分割然后我们665执行非最大抑制（NMS），并且仅保留前N个（例如N=3）预测作为对用户的推荐。在[23，36]之后，我们将图割[4]应用于网络预测以获得最终分割掩码。输入表示在[22，23，36]之后，我们首先将正点击C+和负点击C−转换为两个截断的欧几里得距离映射U=（U+，U−），然后与输入图像连接以形成网络的5通道输入（X，U）更多详情见[36]。网络架构在这里，我们提出了我们的分割网络f的架构。在这项工作中，我们采用DeepLabv 3 +[6]的ResNet-101 [15]变体作为我们的骨干架构。为了将DeepLabv 3+转换为我们规模多样的交互式分割网络，我们进行了以下三项修改：1）第一卷积滤波器被修改为接受用户输入U的附加两个通道;2)输出层被修改为具有对应于M个不同尺度的M个输出/分支; 3）在解码器之前附加全局平均池化层，之后是具有M个输出的新的全连接层，以预测M个分割掩码中的每一个的对象得分。为M个尺度不同的分段产生M由于阳性/阴性样本的分布通常是不平衡的，因为只有一小部分尺度包含对象，所以我们用类平衡S形交叉熵损失来训练分数3.3. 生成多样化的训练样本在上一节中，我们描述了如何将每个地面实况对象分配给相应的分支进行训练。然而，这并不能保证分割输出的多样性。相反，我们建议通过使用新的点击采样策略合成不同的训练数据来获得分割的多样性，以明确地鼓励模型在给定相同的用户输入集的情况下学习生成不同的预测注意，可以使用具有实例级注释的任何现有分割数据集，而不需要收集新的训练样本。对于每个对象，我们首先提取所有相邻对象，并基于对象的不同组合构建分割的分层列表1。然后，我们从用于训练的分割列表中随机采样K个ing.具体地说，给定K个地面真值掩码Y={Y1，Y2，...，Yk}，我们使用以下损失来鼓励模型学习分割中的多样性注意，所提出的尺度多样性是通用的。任何基于FCN的交互式图像分割网络都可以1Σ1L=Σ l（f（X，U;θ，{s}），Y）（3）通过如上所述的微小修改，可以轻松地转换为尺度多样的交互式分割对应物。|Y∈Y|Y∈Y|s ∈S|s∈S接下来，我们将描述如何训练我们的模型以产生尺度多样的分割掩码。给定一个真实分割掩码Y，我们首先计算一个封闭真实掩码的紧边界框然后，我们生成以与地面实况边界框相同的中心为中心但具有不同尺度的一组“锚”，并寻找与地面实况边界框重叠的具有大于0.5的交并（IoU）的在没有重叠大于0.5的尺度的情况然后，我们只通过这些分支反向传播损失：L=1l（f（X，U;θ，{s}），Y）（2）|s ∈S|s∈S其中L是标准S形交叉熵损失。由于并非所有尺度都必须对应于一些有意义的分割，因此我们还训练我们的MultiSeg以预测指示特定尺度是否包含对象的对象分数。具体来说，我们附加了一个全局平均池化层，然后在编码器的输出端添加一个全连接层，当只给出一个基本事实时，这种损失会减少等式（二）、请注意，我们以类不可知的方式组合相邻对象，即我们在形成一组不同的地面真值时忽略对象类。这使我们能够覆盖常见的cooccurring对象（例如，椅子上的人）。使用深度排序来组合具有相似深度的对象并考虑对象-对象交互可能有助于决定是否应将两个相邻对象一起分割，但这超出了本工作的范围今后将对此作进一步调查点击采样我们遵循[36]提出的点击采样协议来生成一组正点击和负点击。然而，该策略在采样点击用于训练时不知道多个可能的分割的存在为了明确地鼓励模型学习在给定相同的用户点击集合的情况下产生多个同样合理的分段，我们还包括另一个点击采样策略，其通过仅对K个地面实况掩码中的共同前景和背景上的正点击和负点击进行采样。采样后1分割的分层列表是指包括采样对象的对象的不同例如，给定对象实例a及其相邻实例b、c，分段的分层列表将是{a}、{a，b}、{a，c}和{a，b，c}。YY666点击，我们还添加了与这些点击一致的所有其他分割掩码用于训练。3.4. 推理在测试期间，给定一些用户点击，M个不同的分段可以在仅仅单个前向传递中获得。然而，每次添加新点击时，用户检查每个分割掩码是不切实际的，因为这比单独添加新点击花费明显更长的时间。这是进一步复杂化的，事实上，并非所有产生的分割都必须是语义上有意义的。此外，一些分段分支可能在该尺度下不具有语义上有意义的对象，并且分支将可能产生最接近该尺度的对象。因此，附近的尺度分支可以产生类似的分割输出。为了克服这一点，在测试期间，我们执行非最大值抑制（NMS）以去除冗余的建议，并保持最多前N个分割（在本工作中我们将N设置为3）作为对用户的建议在这种情况下，快速浏览通常足以快速定位最佳分割。图3示出了一个示例。给定初始肯定点击，我们将具有最高预测对象得分的分割掩码作为我们的默认输出，其将覆盖在主画布上以进行进一步处理。当选择替代方案时，将通过将来自该分支的分割输出作为下一轮的默认输出来重用从相应分支获得的尺度先验。否则，我们总是从第一轮中产生最高对象分数的分支中提取分割掩码作为默认输出。有趣的是，我们注意到，通常只在分割目标仍然不明确的前几轮中需要检查分割列表随着交互式分割过程的继续，模型最终缩小到给定更多点击的解决方案之一，并且用户可以专注于添加新的点击以进行细化。4. 实验由于本文的目标是产生不同的分割，以改善规模不同的任务中的交互式分割，我们评估我们的不同分割的质量，以及执行用户研究，显示我们的方法在更真实的情况下，目标选择不同的规模和数量的对象的然而，我们首先在传统的单对象分割上评估我们的方法。虽然我们的目标不是用最少的点击量来产生单个对象分割，而是更好地处理尺度多样的分割任务，但为了验证我们没有失去这种能力，看看我们的方法与先前的工作相比是有用的，这些工作已经微调到这个更有限的任务分段列表目标主画布图3：用户研究4.1. 实现细节我们在PASCAL VOC数据集[8]上训练了我们的MultiSeg网络，并按照惯例使用来自SBD [14]（10，582张图像）的额外标签进行了增强在第3.3节中讨论了不同训练数据的生成和用户点击的模拟所有图像都调整大小512×512在训练中我们采用随机水平扫描作为唯一的数据增强。网络从在ImageNet [34]，MS COCO [24]和PASCAL VOC数据集[8]上预训练的DeepLabv3+模型对于新层和第一个卷积层中的两个额外通道，我们从标准差为0.01的高斯分布中随机初始化它们。的学习率设置为 1×10−8 ，动量为 0.9 ，权重衰减为5×10−4。我们使用随机梯度下降训练我们的模型，批量大小为5张图像。一个NVIDIA Pascal Titan X GPU可支持20个epoch。所有的实验都是在PyTorch框架上进行的。对于所有实验，我们使用64、128、256的3个尺寸和1：1、1：2和2：1的3个纵横比。除此之外，我们还包括16×16，32× 32和32 ×32的3个额外尺度。512×512以覆盖极小和极大的物体，所以M=12。尽管我们的模型需要预测M=12个不同的预测，使用Pascal Titan X GPU，产生所有M个分割的平均单次前向通过仅花费不到100 ms，使其适合于实际的交互式分割应用。4.2. 单目标我们首先通过将其与最先进的交互式图像分割方法进行比较来评估我们的MultiSeg方法在分割单个对象方面的性能，这三个公共基准具有实例级注释，包括PASCAL VOC验证集[8]，GrabCut [33]和Berkeley数据集[28]。评估单输出交互式图像分割系统性能的标准做法如下：给定分割目标中心的初始正点击，模型输出初始预测。667表1：与最先进的交互式分割方法的比较。这些值是在给定数据集上实现特定IoU的平均点击次数。随后的点击被迭代地添加到最大错误标记区域的中心，并且重复该步骤，直到达到最大点击次数（固定为20）记录每个步骤的IoU。报告在特定数据集上实现特定IoU所需的平均点击次数。如果目标IoU无法在20次点击内实现，则点击数阈值为20。然而，由于我们的模型产生多个分割，我们还必须考虑在选择其中一个建议（#select）时所需的交互量。如第3.4节所述，给定第一次肯定点击，我们的MultiSeg在运行NMS后最多产生N个我们采用最高的分割掩码对象得分（Y_fault_t）作为我们的错误分割输出。同时，我们还找到了最佳分割掩模 w.r.t. 真值（Y=t），并计算其与默认输出的重叠如果两个掩码的IoU小于T1（意味着Ydefault和Ybest非常不同），并且IoU的相对改善大于T2，则我们将crease #选择1，并且来自该分支的分割输出后续的点击将以与之前相同的方式添加我们将T1和T2分别设置为0.5和0.05报告交互总数（点击次数和选择次数之和）定量结果总结于表1中。我们首先注意到，尽管我们的MultiSeg模型没有经过专门的训练来分割单个对象，但它的性能超过甚至优于其他经过训练的最先进的方法。有人可能会说，早期的方法使用较旧的主干架构，因此我们的改进可以完全基于此（尽管有些方法使用类似的高级架构：DEXTR [27]使用带有PSP头的 ResNet-101 ，而 ITIS [26] 使用基于 Xception 的DeepLabv 3+）。为了进一步研究这一点，我们使用完全相同的主干架构重新训练了DIOS，我们确实看到了其性能的大幅提升。我们表2：Fashionista数据集的定量评估实现了非常相似的结果，改进的DIOS没有对分割单一对象的强烈偏见这表明我们的MultiSeg在学习生成不同分割的能力的同时保留了分割单个对象的有趣的是，我们还注意到MultiSeg在Berkeley数据集上优于所有其他方法，因为它更好地处理由该数据集中的多个对象组成的样本。4.3. 局部零件的分割在这里，我们研究了模型在分割对象中较小部分时的泛化能力。我们使用Fashionista [37]，其中包含18个类别的685张图片对于每个图像，我们随机抽取一个地面实况进行评估。除了表示单输出模型的基于DeepLabv3+的 DIOS之外，我们还通过用[22]中引入的排序多样性损失替换尺度多样性设置来将我们的模型具体来说，它是用多样性损失训练的，该多样性损失通过分段分支反向传播每个地面真实掩码的损失，在正向传递期间损失最小，并且排名损失对生成的输出施加排序。我们称这种模型为MultiSeg-RDL。注意，由于所有方法使用相同的主干架构，因此允许我们直接比较单个对象分割、多样性损失方法和我们的尺度多样性方法。评估方案与以前相同。值得注意的是，对于MultiSeg-RDL基线，我们始终将第一个分割分支的预测作为默认建议，而不管上一轮是否选择了替代分支，因为模型经过训练以对其解决方案进行排名。结果总结在表2中。毫不奇怪，由于在训练中已经看到了“人类”类，因此默认分割通常覆盖整个人。因此，我们的MultiSeg需要大约 1 # 选择，以便分割较小的局部部分。MultiSeg-使用分级分集损失训练的RDL需要大量的#select，因为当选择替代分支时，它不会重用分集信息。另一方面，正如预期的那样，单解模型DIOS在分割对象部分时表现不佳，这可能是由于训练和测试之间的不匹配（模型被训练为分割对象实例，但被要求分割子部分）引入了对选择完整对象的强烈偏见。因此，需要大量的点击来“点击”身体部位。另一方面我们模型#点击次数#选择总数Dios9.13-9.13MultiSeg-RDL8.14 3.8712.01MultiSeg7.65 0.968.61分割PascalGrabCut伯克利模型(85 IoU %(90 IoU %(90 IoU %DIOS [36]6.886.048.65RIS-Net [23]5.125.006.03ITIS [26]3.805.60-DEXTR [27]4.004.00-[22]-4.79-FCTSFN [16]4.583.766.49DIOS（我们的）3.511.964.31MultiSeg（我们的）3.882.304.00点击次数3.562.223.876680.90.80.70.60.50.40.30.90.80.70.60.50.40.3024681012024681012分割数（m）分割数（m）(a)（b）第（1）款我们首先注意到DIOS的多样性得分不随m而变化，因为它只产生一个解。我们还与另一个基线进行了比较，该基线在没有第3.3节（MultiSeg-SingleGt）中描述的模拟训练数据的情况下进行了正如预期的那样，这个基线比我们的完整模型表现得更差，这表明不同训练样本的显式合成有利于生成不同的解决方案。另一方面，MultiSeg- RDL也比我们的完整MultiSeg模型表现更差，这表明通过规模显式定义输出分支是有用的。在比较图4（a）和4（b）时，我们看到当限制评估以使用多个可能的测试图4：（a）完整VOC数据集和（b）仅具有多个地面实况的图像上的m用尺度多样性训练的MutliSeg将其建议限制为遵守预定义的尺度，从而减轻了偏差，尽管它之前没有被训练来分割对象部分。4.4. 评估各种分割由于本文的主要思想是产生一组不同的分割推荐给用户，在这里，我们评估我们的模型的不同预测。受大多数不同预测文献[13，20]中使用的k-best oracle评估方案的启发，我们提出了一种新的评估度量，称为m-多样性得分，以评估存在多个正确答案时的不同分割。特别是，给定K个可能的基本事实Y ={Y1，Y2，…..Y∈M}，m-多样性得分定义如下：与用户输入一致的地面实况分割。接下来，我们还在图5中可视化由我们的MultiSeg、MultiSeg-SingleGt和MultiSeg-RDL生成的提议。我们观察到，MultiSeg-RDL在所有提案中产生视觉上相似的结果。由于它没有机制来鼓励每个分支机构产生独特的产出，它似乎从未学会所需的多样性。类似地，在没有多样化训练样本的情况下训练的 MultiSeg-SingleGt也产生具有有限多样性的建议另一方面，我们的MultiSeg强制每个分割分支提取相应预定义范围内最可能的区域。因此，可以仅通过单个肯定点击来获得不同的尺度变化输出集合。更多定性结果见图6。只要有一个积极的和消极的点击，我们的MultiSeg可以生成- erate各种各样的分割。更有趣的是，我们的模型可以分割对象部分（手臂，帽子和轮子），尽管它以前没有经过零件注释的训练。m-多样性得分=1Σ最大IoU（Y，Y）（4）4.5. 用户研究KY∈YY{∈Y{对于每个真实答案，我们从M个输出中找到最接近的预测，并计算其在IoU方面的准确性m-多样性分数被简单地定义为所有K个可能的地面事实的平均准确度。扫描M（通过在NMS之后获取前M个预测）允许我们绘制平均准确度与允许的预测数量的非递减曲线，如图4所示。我们在PASCAL VOC验证集上评估了我们模型的分割多样性[8]。对于每张图像，我们随机采样一个对象并找到它的邻居，以基于对象的不同组合形成然后，我们随机抽样一个积极的和消极的点击共同的前景和背景，分别进行评估。图4显示了完整VOC验证集的平均m多样性得分。在所有采样实例中，三分之二的实例没有任何相邻对象。因此，我们还在图4（b）中报告了具有邻居的那些样本的平均m-多样性得分我们还进行了用户研究，以证明所提出的方法与真正的人的输入的有效性。我们从PASCAL VOC [8]，COCO [24]，Berkeley [28]，Fashionista [37]和DAVIS[30]收集了50个图像，以编译由单个对象实例，部件和多个对象组成的基准。应当注意的是，相同的图像可以与多于一个注释相关联，从而模拟可以分割相同图像中的任何事物的实际场景我们的用户界面的快照如图3所示。用户可以选择使用鼠标左键和右键分别在主画布上添加正或负点击，或者选择右面板上建议的建议之一目标分割（我们希望参与者分割的基础事实）显示在单独的分割窗口上。所选的分割蒙版将覆盖在主画布上进行显示。我们招募了五名参与者，被要求执行30个交互式分割任务。每个样品用三种不同的模型（DIOS、DIOS和DIOS）测试DiosMultiSeg-RDLMultiSeg-SingleGtMultiSeg（我们的）DiosMultiSeg-RDLMultiSeg-SingleGtMultiSeg（我们的）- 多样性评分66916×16 32×32 64×64 64×128128×64 128×128 128×256 256×128256×256256×512512×256512×512（一）（b）第（1）款（c）第（1）款（一）（b）第（1）款（c）第（1）款图5：仅给定单个正点击，来自（a）MultiSeg、（b）MultiSeg-SingleGt和（c）MultiSeg-RDL的不同预测。点击后的输入图像显示在左侧。分割1分割2分割3分割1分割2图6：仅给出一次肯定点击（绿色）和一次否定点击（蓝色），显示了NMS和图切割优化后MultiSeg的前2或前3个分割结果。MultiSeg-RDL和MultiSeg），并且模型的顺序是随机的，使得参与者不知道驱动界面的分割模型。我们会记录点击次数、选择次数和实际所需时间，直到完成20次点击或达到85%的IoU。结果示于表3中。我们的MultiSeg使用最少的交互和时间来实现85%的IoU。5. 结论在这项工作中，我们提出了MultiSeg，一个规模多样的交互式图像分割网络，它将一组二维尺度先验模型纳入模型中，用于生成一组与用户输入一致的尺度变化分割为了实现这一点，我们还引入了一种新颖的多样化训练数据生成管道来显式地鼓励模型学习多样性。大量的实验结果表明，我们提出的模型能够产生多种多样的和语义上有意义的分割，是有用的，建立一个更有效的交互式分割系统。模型#点击次数#选择总数时间（s）Dios4.62-4.628.84MultiSeg-RDL4.24 0.144.389.47MultiSeg3.30 0.243.547.55表3：用户研究。鸣谢冯佳诗部分得到了NUS IDS R- 263-000-C67-646、ECRA R-263-000-C87-133和MoE Tier-II R-263-的支持。00- D17-112这项工作的部分支持来自Adobe的礼物。670引用[1] David Acuna，Huan Ling，Amlan Kar，and Sanja Fidler.使用Polygon-RNN++对分割数据集进行高效的交互式注释。在CVPR，2018年。[2] 薛白和吉列尔莫·萨皮罗。快速交互式图像和视频分割和抠图的测地线框架。载于ICCV，2007年。[3] Dhruv Batra 、 Payman Yadollahpour 、 Abner Guzman-Rivera和Gregory Shakhnarovich。马尔可夫随机场中的多样m-最佳解。ECCV，2012年。[4] Yuri Y Boykov和Marie-Pierre Jolly。ND图像中目标最佳边界区域分割的交互式图载于ICCV，2001年。[5] Lluis Castrejon，Kaustav Kundu，Raquel Urtasun，andSanja Fidler.使用多边形rnn注释对象实例。在CVPR，2017年。[6] Liang-Chieh Chen，Yukun Zhu，George Papandreou，Flo- rian Schroff，and Hartwig Adam.用于语义图像分割的具有粗糙可分离卷积的编码器-解码器。arXiv预印本arXiv：1802.02611，2018。[7] 安东尼奥·克里米尼西托比·夏普安德鲁·布莱克GeoS：Geodesic Image Segmentation。ECCV，2008年。[8] Mark Everingham ， Luc Van Gool ， Christopher KIWilliams ， John Winn ， and Andrew Zisserman.PascalVisual Object Classes（VOC）IJCV，2010年。[9] 作者：Michael Firman，Neill D.F. Campbell，LourdesAgapito，and Gabriel J.布罗斯托Diversenet：当一个正确的答案是不够的。在CVPR，2018年。[10] 丹尼尔·弗里德曼和张涛。基于形状先验的交互式图切割在CVPR，2005年。[11] 利奥·格雷迪图像分割的随机游走TPAMI，2006年。[12] Varun Gulshan 、 Carsten Rother 、 Antonio Criminisi 、Andrew Blake和Andrew Zisserman。用于交互式图像分割的测地星凸性。CVPR，2010。[13] AbnerGuzm a'n-r iv era，DhruvBatra和PushmeetKohli。多项选择学习：学习产生多个结构化输出。InNeurIPS，2012.[14] Bharath Hariharan、Pablo Arbelez、Lubomir Bourdev、Subhransu Maji和Jitendra Malik。从反向检测器的语义轮廓见ICCV，2011年。[15] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在CVPR，2016年。[16] Yang Hu，Andrea Soltoggio，Russell Lock，and SteveCarter.一种用于交互式图像分割的完全卷积双流融合网络神经网络，2019。[17] 迈克尔·卡斯安德鲁·维特金和德米特里·特佐普洛斯。Snakes：活动轮廓模型。IJCV，1988年。[18] Hoang Le，Long Mai，Brian Price，Scott Cohen，HailinJin，and Feng Liu.用于对象选择的交互式边界预测。在ECCV，2018。[19] Stefan Lee 、 Senthil Purushwalkam Shiva Prakash 、Michael Cogswell、David Crandall和Dhruv Batra。为什么M个头脑比一个头脑好：训练一个多样化的深层网络。arXiv预印本arXiv：1511.06314，2015。671[20] Stefan Lee 、 Senthil Purushwalkam Shiva Prakash 、Michael Cogswell 、 Viresh Ranjan 、 David Crandall 和Dhruv Batra。训练不同深度集合的随机多项选择学习。InNeurIPS，2016.[21] Yin Li，Jian Sun，Chi-Keung Tang，and Heung-YeungShum.懒拍ACM ToG，2004年。[22] Zhuwen Li，Qifeng Chen，and Vladlen Koltun.基于潜在差异的交互式图像分割。在CVPR，2018年。[23] Jun Hao Liew，Yunchao Wei，Wei Xiong，Sim-HengOng ，and Jiashi Feng. 区域交互式图像分割网络。InICCV，2017.[24] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、彼得罗·佩罗纳、德瓦·拉马南、彼得·多尔和C·L·劳伦斯·齐特尼克。Microsoft COCO：上下文中的公用对象。2014年，在ECCV[25] Wei Liu ， Dragomir Anguelov ， Dumitru Erhan ，Christian Szegedy，Scott Reed，Cheng-Yang Fu，andAlexander C Berg. Ssd：单发多盒探测器。在ECCV，2016年。[26] Sabarinath Mahadevan 、 Paul Voigtlaender 和 BastianLeibe。迭代训练的交互式分割。在BMVC，2018年。[27] Kevis-Kokitsi Maninis，Sergi Caelles，Jordi Pont-Tuset和Luc Van Gool。深度极限切割：从极值点到对象分割。在CVPR，2018年。[28] 凯文·麦吉尼斯和诺埃尔·奥康纳交互式分割的自动评估。计算机视觉和图像理解，2011年。[29] Eric N Mortensen和William A Barrett。用于图像合成的智能剪刀。计算机图形学与交互技术国际会议，1995年。[30] FedericoPerazzi、JordiPont-Tuset、BrianMcWilliams、Luc Van Gool、Markus Gross和AlexanderSorkine-Hornung。视频对象分割的基准数据集和评估在CVPR，2016年。[31] 布莱恩·L·普莱斯、布莱恩·莫尔斯和斯科特·科恩。用于交互式图像分割的测地线图切割。CVPR，2010。[32] 任少卿、何开明、罗斯·格尔希克、孙健。更快的r-cnn ：利用区域建议网络进行实时目标检测。InNeurIPS，2015.[33] 卡斯滕·罗瑟弗拉基米尔·科尔莫戈洛夫安德鲁·布莱克。Grabcut：使用迭代图切割的交互式前景提取。ACM ToG，2004年。[34] OlgaRussakovsky ， Jia Deng ， Hao Su ， JonathanKrause ，

下载后可阅读完整内容，剩余1页未读，立即下载