没有合适的资源?快使用搜索试试~ 我知道了~
13339基于首次点击注意的郑琳赵张琳卓陈明明程少平陆R南开大学http://mmcheng.net/fclick/摘要在交互式图像分割任务中,用户首先点击一个点来分割目标对象的主体,然后在错误标记的区域上迭代地提供更多的现有的方法不加区别地对待所有的交互点,忽略了第一次点击和其余点击之间在本文中,我们证明了第一次点击的关键作用为了更好地利用第一次点击,提出了一个名为第一次点击注意力网络(FCA-Net)的深层框架。该网络具有聚焦不变性、位置引导和容错能力,可以大大提高交互式分割的效果。在此基础上,提出了基于点击的损失函数和结构完整性策略,以获得更好的分割效果。可视化的分割结果和五个数据集上的充分实验证明了第一次点击的重要性和我们的FCA网络的优越性。1. 介绍交互式图像分割的目的是分割感兴趣的物质与最少的用户输入。它直接有益于许多应用,例如.图像编辑[8,11,29]和医学成像分析[46]。近年来,随着数据驱动的深度学习技术的普及,在某些领域对掩码级注释的需求急剧增加,例如显著对象检测[4,9,14,23],语义分割[34]、实例分割[21,35]、隐藏对象检测[15]和图像/视频操纵[17,28,48]。有效的交互式分割技术是迫切需要的,以减轻注记成本。因此,越来越多的研究者在这一领域进行着广泛的探索.已经探索了许多交互方式,例如边界框[10,43],涂鸦[2,6]和点[25,30、31、37、47]。绘制包围盒作为交互是一种应用广泛且方便的方法。但在大多数图1.在我们的方法中第一次点击的关键作用。我们利用第一次点击作为分割锚点来引导其他点击进行精确分割,而传统的基于点击的交互分割方法不加区别地对待所有点击。在某些情况下,用户通常需要对不够满意的分割结果进行进一步校正因此,更实用的方法是基于交互点或涂鸦,这可以通过迭代标记错误标记区域来进一步改善分割结果与绘制涂鸦相比,点的点击给用户带来的负担更小,因为它不需要拖动过程。基于点的方法的典型交互工作流程,见图。1,如下所示:用户首先在目标对象上提供一个正点。根据初始分割结果,用户进一步提供前景上的正点或背景上的负点,并对分割结果进行迭代细化,直到满足用户大量的传统的和基于深度学习的方法已经在这个方向上进行了探索。对于大多数现有的作品,他们不加区别地使用所有的交互点来生成最终的预测。然而,我们观察到,并不是所有的相互作用点具有相同的分割效果。我们收集真实人类互动的统计数据,133402000幅图像上的交互式分割方法[30],如Tab. 1.一、我们发现,第一次点击往往起着重要的作用,在互动细分。第一点的性能改善是显著的,并且第一次点击通常靠近目标对象的中心。结合上面提到的工作流程,可以直观地观察到第一次点击的重要性,它可以作为目标对象的位置指示和全局信息引导。从图1中可以看出,对象分割可以通过第一次点击获得精细的初始化。相反,其他交互点的目标是基于第一个交互点的结果实现更好的分割。因此,第一点更有利于获得对象的整体信息,而其他点则侧重于细化。基于上述分析,我们推测,特别对待第一次点击将有利于互动细分。本文首次将这两类问题分开处理。我们提出了一个首次点击注意力网络(FCA-Net),其中一个简单的路径上的基本分割网络构造进一步验证。在我们的网络中,我们使用第一次点击作为侧输入来监督全局分割。以第一次点击为锚点进行交互分割,可以更好地引导目标物体的位置和主体信息。预测蒙版将集中在第一次点击周围的区域,并获得更好的结果。对于网络训练,我们提出了一种改进的损失函数,它考虑了用户提供的所有点击,并侧重于点击周围的这些区域。最后提出了一种新的后处理策略,该策略可以有效地去除一些小的误预测区域,并保持分割对象的结构 完 整 性 。 我 们 在 GrabCut [43] , Berkeley [39] ,PASCAL VOC [13],DAVIS [42]和MSCOCO [32]数据集上进行了全面的实验并实现了最先进的性能再-对比实验的结果和分析证明了首次点击的唯一性和所提出方法的有效性。我们的贡献可归纳如下:这是第一个展示第一次点击的关键作用的作品。我们还提出了一个FCA网络,配备有简单而有效的模块,用于利用第一次点击的引导信息。提出了考虑用户注释的点击损失和结构完整性策略,有助于交互式分割任务的实现。五个数据集的最新结果证明了第一次点击的重要性以及我们的FCA网络、点击损失函数和结构性信息的有效性。整体战略。号12345678910Pi.751.076.045.027.020.017.015.015.009.010CD.769.312.243.207.201.211.189.188.178.186表1.用户交互的统计。PI:通过添加不同的交互点提高性能(平均IoU)CD:中心度,用于描述点与对象中心的接近程度(仅适用于正值)。更高的CD意味着更接近中心。计算细节在第二节中提到。三点五2. 相关工作在早期,大多数传统的交互分割方法主要利用手工特征。一些研究方法如[40]十分重视边界性质。基于图形模型的方法在[6]之后变得更加流行,其中交互式分割任务被建模为图切割优化问题,并且可以通过众所周知的最小切割/最大流算法[5]有效地解决。其中,在[43]中提出了一种称为GrabCut的基于图割的经典方法。该算法采用混合高斯模型作为颜色模型,以边界框作为输入,简化了分割过程。Kim等人[26]改进了[18]中提出的带重启的随机游走Kim等人[27]还引入了一个新的高阶公式,另外施加了软标签一致性约束。Gulshan等人[19] Baiet al. [3]两者都应用测地距离来优化交互式图像分割。Bai等人[2]提供了一种容错方法,允许用户有一些错误的交互。这些基于低层特征的分割方法不能适应复杂多变的场景。神经网络具有感知复杂的全局和局部特征的能力。随着深度学习的普及,越来越多的研究尝试将神经网络应用于交互式分割。近年来,Xuet al. [47]首先提出了一种基于CNN的模型,具有一些有效的点采样策略,用于该领域的训练。然后,Liew等人[31]提出了一种RIS-Net,根据正负点对捕获区域信息,进行局部细化。Song等人[44]应用强化学习使计算机产生更多潜在的交互点。Scuna等人[1]利用递归神经网络得到精确的分割,分割结果可以表示为多个点组成的多边形。然后Ling等人。[33]利用图卷积网络对上述基于多边形的方法进行了改进。Li等[30]使用神经网络来提供和选择更准确的选择,以解决交互式分割中的歧义情况。Maninis等人[38]提出了一种新的交互式极值点分割方法。Mahadevan等人[36]提出了一种有效的迭代训练策略。Hu等人[24]提高13341第一次点击注意距离图高斯图首先单击首次点击损失正点击负点击监督结果地面实况一般点击损失结果图像ResNetASPP解码器图2. FCA网络的整体架构。绿色部分显示了基本的分段网络,包括主干、ASPP和解码器模块。橙色部分显示了第一个点击关注模块。符号“”和“↑”分别表示级联和上采样操作。请咨询第3.1更多详情一种用于交互式分割的双流融合网络。Jang和Kim [25]提供了一种反向传播细化方案,以强制每个交互点具有正确的分割结果。Majumder和Yao [37]根据其他一些信息(如超像素),利用交互点生成特殊的指导图作为神经网络的所有这些方法都有一个共同点,即它们不加区别地处理神经网络中的所有相互作用点然而,我们发现并提出了第一点的唯一性,并将其作为我们的网络架构的特殊指导。3. 该方法本节包括五个部分。节中3.1中,我们介绍了我们提出的FCA网络,它专门处理第一点节中3.2中,我们描述了建议的点击损失的计算过程节中3.3,我们解释了后处理的结构完整性策略分成基本分段网络和第一点击关注模块。基本细分网络。在[25,30,31,37,47]之后,我们采用了通用的FCN架构,其特定结构类似于DeepLabv3+ [7]。 如图所示 在图2中,它包含三个部分: 骨干网,Atrous空间金字塔池化(ASPP)模块,以及解码器模块。我们以ResNet101 [22]为骨干。 我们将最后四个阶段的特征表示为:{F1,F2,F3,F4}。为了在交互分割中捕获多尺度对象,我们还采用了膨胀卷积在ResNet101的最后一个阶段,而不是大步前进,2.因此,主干的输出步幅为16。主干的输入是RGB图像与两个高斯映射的注释的阳性点和注释的阴性点连接。高斯图是根据欧几里德距离图计算的,如图所示。二、我们实验中的高斯半径设置为10。对于图中所示的ASPP模块,2、输入端为con-FCA-Net的预测节中3.4、我们分析一些连锁要素FCA),其中“欺诈”指欺诈─通过一些方式来获得第一次点击关注的好处连接操作和FFCA 是指第一个比较例。最后,我们将展示一个简单的-我们的交互点模拟策略和第二节中的训练设置的心理学细节。三点五3.1. 网络架构FCA网络的架构如图所示。二、为了更好地解释第一次点击的有效性,我们没有对广泛使用的交互式分割的网络结构做太多的修改。相反,一个简单的附加模块称为第一次点击注意模块被添加到基本的细分网络。因此,FCA-Net可以点击关注模块。连接的特征被馈送到具有不同扩张大小1,6,12,18和全局平均池化层的四个扩张卷积层然后,五个分支的输出特征被连接并馈送到一个额外的卷积层。对于图1所示的解码器模块,2、以低层特征F1和ASPP的输出特征作为输入,利用卷积层生成最终的预测结果。为了监督预测结果,我们设计了一个基于点击的损失函数来代替传统的二进制交叉熵损失函数。我们称之为一般点击损失,这是在第二节详细介绍3.2.13342Σ^^Σ˜首先点击注意模块。为了利用第一次点击的指导信息,我们设计了一个简单的模块,旁边的基本分割网络。它将低级特征F1和以第一次点击为中心的高斯图Mf作为连接特征(F1<$Mf)被送入6个3×3卷积层。 第一和第四层,我们将步幅取为2以降低分辨率。前三层的通道数为256,后三层的通道数为512。因此,输出特征FFCA具有512个通道。它将在ASPP模块之前并入基本分段网络。此外,我们用第一次点击损失来监督FFCA,它关注第一个点周围的这些像素。我们将在第二节中详细描述。3.2.为了更好地说明第一次点击关注的效果,在图中。3.我们可视化了有FCA(c-d)和没有FCA(b)的模型的预测概率图。请注意,在这三个测试(b-d)中,这些阳性点的坐标完全一致。 如可见于图3 (b)在没有边境禁区的情况下,这两个优点同样重要。通过引入FCA(c-d),模型的注意力发生了转移。在测试(c)和(d)中,用户标记的肯定点的顺序不同。我们可以看到,无论在哪里,第一次点击都会吸引更多的注意力,作为分割锚点,而其他点则起到辅助细节修复的作用。与同等对待交互点相比,FCA的引入使模型的工作更符合用户的真实交互行为。1.一、3.2. 点击损失为了更好地解释下面的部分,我们在这里定义了一些符号和操作。所有像素均表示为G。我们使用Gp和Gn来表示根据地面真实掩模的前景和背景中的像素集合A表示所有带注释的点。p和n分别代表积极点和消极点(一)(b)第(1)款(c)第(1)款(d)其他事项图3.第一次点击关注可视化。(b)是没有FCA的预测概率图;(c)和(d)是FCA作用于不同位置时的预测概率图。点击损失可以看作是一种加权二元交叉熵损失。传统的二进制交叉熵损失函数可以用公式表示如下:(p)= −(yplog(xp)+(1 − yp)log(1 −xp)),(二)其中,xp表示预测掩码中的点p的概率,yp表示地面实况掩码中的点p的标签(0或1)。首先,我们定义了一个函数来表示点p和一组注释点S之间的距离权重(例如,Ap和An),公式如下:(p,S)=1−min(φ(p,S),τ),(3)τ其中τ是每个注释点的影响范围。对于监督最终预测的损失函数,我们提出了一种称为一般点击损失(Lg)的损失,其考虑了所有点击,其公式如下:我们用d(p1,p2)来表示点p1和点p2之间的欧氏距离.我们用φ(p,S)表示从一点p到另一个区域的最短距离1Lg=N(wpp∈G·(p))。(四)S,其定义为:φ(p,S)=mind(p,p).(一)N是所有像素的数量。 重量在Equ。(4)可以代表如下:Ss∈Swp=.α+<$(p,Ap)(β−α),yp=1α+ n(p,An)(β −α),yp= 0、(五)对于二进制分割的任务,我们通常使用双-利用二元交叉熵(BCE)作为损失函数对神经网络进行损失函数有利于关注全局分割质量。对于交互式分割任务,我们更希望看到用户交互可以发挥指导作用。 最好是在这些相互作用点及其周围得到更准确的结果,因此我们设计了一个损耗其中α和β用于调整损耗范围对于监督FCA模块输出的损失函数,我们使用一种特殊的损失称为首次点击损失(Lf),它关注第一个点周围的区域。其公式如下:基于用户交互的功能,以帮助我们的FCA网络获得更好的性能。1Lf=N(wpp∈G·(p))。(六)13343˜p重量在Equ。(6)可以表示如下:wp=α+<$(p,{af})(β−α)yp,(7)其中af表示Ap中的第一点。在实验中,我们选择τ为100,α为0.8,β为2.0。3.3. 结构完整性战略通过实验,我们发现神经网络的预测模板可能包含一些分散的错误结果区域。在大多数情况下,人们更愿意在交互式分割任务中获得保持结构完整性的对象掩模。因此,我们提出了一个策略,以保持基于交互点的分割的结构完整性。通常,我们将0.5作为阈值,以从神经网络的输出中获得最终的二值化掩码。令P表示被预测为前景的这些点。我们将根据相互作用点,并得到新的P′,其公式如下:P′={p ∈P|(8)Aσ(p,a)=1}其中,当从点p1到点p2有一条八连通路时,σ(p1,p2)=1。结构完整性策略在大多数情况下都能奏效。它的效果可以在Tab中看到。二、3.4. 强度分析第一次点击关注真的能提高细分质量吗?在本节中,我们将通过比较图1中的一些视觉结果来说明加入首次点击监督的一些好处。4.第一章焦点不变性。我们知道,在大多数方法中,所有的积极和消极点都同样重要它们将所有注释的点作为输入来生成最终结果。除了第一个之外的这些阳性点经常被点击用于修复局部细节,并且可能靠近目标对象的边界。如果神经网络将这些点等同于第一个点,则通常会导致错误的分割。例如图4(a),我们想用白色桌布把桌子分段。第一次单击位于表的中心附近。另一个正值用于修复表边缘附近的错误。如果没有第一个点的指导,神经网络会错误地分割图像中的人,因为它平等地对待每个点在我们的第一次点击关注的帮助下,错误的分割会更位置指引。显然,第一个点引导目标对象的位置。如果有多个对象,图4.第一次点击关注的好处插图。左列和右列分别显示了使用和不使用FCA模块的预测掩码在场景中,在第一点的帮助下,局部区域的错误分割会更少。例如图4(b),我们想分割左边的羊。我们点击右羊周围的三个负点。在没有对全局位置信息的准确理解的情况下,网络可能误认为在由这些负点包围的区域中存在目标对象。这可能会导致一些错误,例如正确的羊的错误预测有了第一次点击的关注度,预测会集中在第一次点击的位置,得到更好的结果。容错能力。在交互式分割过程中,不可避免地会出现一些点击误差,尤其是在对象的边缘或背景与前景相似的区域例如图4(c),我们想分割企鹅。在目标对象的边界附近的右侧上的正点偶然落入背景区域中。我们可以看到,这可能会导致严重的分割错误,如右图所示。4(c)如果我们不使用第一次点击注意。有了第一个点的引导,这些误差点的影响将大大减少。3.5. 实现细节在本节中,我们将展示有关培训的一些细节由于用户注释在这些分割数据集中不可用,我们转而采取一些策略来模拟大多数论文中所做的各种交互点,包括(一)(b)第(1)款(c)第(1)款13344一般点击和第一次点击。我们还将在本节中介绍常规单击模拟。对于大多数点击,我们使用类似于[47]中的策略。前景和背景中的点击次数分别在[1,10]和[0,10]内随机确定对于正的点,它们被选择在前景上,至少P1像素远离对象边界和P2像素彼此。我们将A定义为这些先前注释的点的集合从候选集合Cp中选择新的正点,其可以表示如下:Cp={p∈ Gp|φ(p,Gn)>P1,φ(p,An)>P2}.(9)对于负点,它们在背景中被选择,距离对象边界N1<$N2个像素,彼此距离N3个从候选集合Cn中选择新的负点,其可以表示如下:Cn={p ∈ Gn|φ(p,Gp)∈(N1,N2),φ(p,Ap)>N3}. ( 十)在我们的实验中,我们在{5,10,15,20}中选择P1,P2在{7,10,20}中,N1在{15,40,60}中,N2在{80}中,N3在{10,15,25}。第一次点击模拟。第一次单击总是在目标对象上,并且通常靠近对象中心。因此,我们使用E(p)(在Tab中称为CD)。1)表示点p和物体中心之间的距离,其公式如下:E(p)=φ(p,Gn) .(十一)max∈pφ(p0,Gn)这里E(p)更接近1意味着第一点击点位于对象的更中心的位置。在我们的实验中,我们选择裁剪的训练图像中E(p)等于1的点作为第一点。它的高斯半径被设置为是一般点的三倍。培训设置。我们在增强数据集的10582个训练图像上训练FCA网络(PASCAL VOC [13])+ SBD [20]),其不包括PAS- CAL VOC数据集的验证图像。实际上,我们可以得到25832个实例级图像和相应的模板用于训练.输入的图像是按比例调整大小与其较小的一方修复-512像素。然后,我们用512×512像素,保证裁剪后的图像包含至少是物体的一部分我们对点击模拟采用相同的迭代训练策略[36,37我们将在ImageNet [12]上预训练的ResNet101作为骨干。我们将批量大小设置为8。我们将ResNet的初始学习率设置为0.007,其他部分设置为0.07,并采用具有0.9动量的随机梯度下降进行优化。我们采用多项式学习速率在30个时期内衰减,并且最后在另外3个时期内保持恒定的学习速率所有实验都是使用PyTorch [41] 框 架 实 现 的 , 并 在 单 个 NVIDIA TitanXPGPU上运行。4. 实验4.1. 评价详情数据集。我 们 采用以下广泛使用的数据集进行评估:• GrabCut [43]:数据集包含50张图像,用于大多数交互式分割方法。大部分的图像都有明显的差异,前景和背景。• Berkeley [39]:该数据集包含96张图像上的100个对象掩码。有些画面很难因为前景和背景中的相似外观,所以在该数据集中进行分割。• PASCAL VOC [13]:我们在此数据集中使用验证集,其中包含1449张图像和3427个实例。因此,我们将这些实例级对象面具验证。这些对象在语义上与用于训练的数据一致。• MSCOCO [32]:数据集包含80个类别的对象。我们将此数据集分为MSCOCO(可见)和MSCOCO(不可见),并对10幅图像进行如[31,47]中所做的评价。• DAVIS [42]:数据集用于视频对象分割。它包含了50个视频,都是高质量的。我们采样与[25]相同的10%帧进行评估。指标. 在[24,25,30,31,36,37,47]之后,我们采用平均交集超过并集(mIoU)作为度量。我们还采取了一个机器人用户模拟点击的评价。具体地,第一点无疑将是引导目标对象的分割的阳性点。我们将根据注释点获得预测掩码。然后,下一个点将被放置在最大误差区域的中心。我们绘制了mIoU和点击次数的曲线,以比较每种方法在固定交互上的性能。我们采用平均点击数(mNoC)作为评估指标,它反映了在数据集的每个样本上获得特定IoU阈值的平均交互每个数据集的IoU阈值选择不同,每个样本的默认最大上述设置与以往的工作一致。133451.01.01.00.90.90.90.80.80.80.70.60.70.60.70.60.50.40.50.40.50.40.30.30.30.20.20.20.10.10.10.01.00 2 4 6 8101214161820点击次数(a) GrabCut0.01.00 2 4 6 8101214161820点击次数(b) 伯克利0.01.00 2 4 6 8101214161820点击次数(c) Pascal VOC0.90.90.90.80.80.80.70.60.70.60.70.60.50.40.50.40.50.40.30.30.30.20.20.20.10.10.10.00 2 4 6 8101214161820点击次数(d) 戴维斯0.00 2 4 6 8101214161820点击次数(e) MSCOCO(见)0.00 2 4 6 8101214161820点击次数(f) MSCOCO(看不见)图5.点击数vs.我们的FCA-Net和其他10种方法在6组5个数据集上的平均IoU(NoC-mIoU)曲线方法GrabCut Berkeley PASCAL VOC DAVIS MSCOCO MSCOCO表2.比较5个数据集上6个数据集的平均点击次数(mNoC)SIS是指为后处理提出的结构完整性FCA-Net* 表示我们的模型以Res2Net [16]作为主干。推理时间。我们在Intel i7- 8700 K 3.70GHz CPU和单个NVIDIA Titan XP GPU上测试了推理速度。在512×512的图像上每次点击大约需要0.07秒。速度快,足以满足实时互动。4.2. 与最新技术我们将我们的结果与其他现有的方法进行了比较,包括图割(GC)[6],生长割(GRC)[45],随机行走(RW )[18],测 地线抠 图(GM )[3],欧 氏星凸(ESC)[19],测地线星凸(GSC)[19],RWGCGMESCGSCGRCDOSRISLDBRS我们RWGCGMESCGSCGRCDOSRISBRS我们RWGCGMESCGSCGRCDOSRIS我们RWGCGMESCGSCDOSLDBRS我们RWGCGMESCGSCGRCDOSRIS我们RWGCGMESCGSCGRCDOSRIS我们mIoU分数mIoU分数mIoU分数mIoU分数mIoU分数mIoU分数@90%@90%@85%@90%(可见)@85%(看不见)@85%GC [6]ICCV0111.1014.3315.0617.4118.6717.80GRC [45]POG0516.7418.2514.56N/A17.4017.34[18]第十八话12.3014.0211.3718.3113.9111.53美国[3]12.4415.9614.7519.5017.3214.86欧洲共同体[19]CVPR108.5212.1111.7917.7013.9011.63GSC [19]CVPR108.3812.5711.7317.5214.3712.45[47]第476.048.656.8812.588.317.82[31]第三十一话5.006.035.12N/A5.986.44[30]第30话4.79N/AN/A9.57N/AN/ABRS [25]CVPR193.605.08N/A8.24N/AN/A[37]第37话3.585.603.62N/A5.406.10FCA网络2.244.232.988.054.495.54FCA网络(SIS)2.144.192.967.904.455.33FCA网络 *2.163.922.797.644.345.3613346#FCANetPascal伯克利1BS4.215.742BS + FCA3.665.223BS + FCA + CL3.334.944BS + FCA + CL + Iter2.984.235BS2 + FCA + CL + Iter2.793.92表3.所提出方法的消融研究。BS:基线; BS 2:Res2Net实施的基线; FCA:首次点击注意力模块; CL:点击损失; Iter:迭代训练。深度对象选择(DOS)[47]、区域图像分割(RIS)[31]、基于潜在多样性的分割(LD)[30]、反向传播细化方案(BRS)[25]和内容感知多级指导(CMG)[37]。一些分数来自[25,30,31,47]。图5说明了每种方法在不同点击次数下的mIoU。在没有结构完整性策略的情况下,绘制了FCA网络的曲线进行后处理。我们可以看到,在大多数情况下,我们的方法在第一点之后的曲线优于其他方法。这符合我们的期望。以第一个点为主体,进行位置引导,神经网络预测的误差区域较少。因此,FCA网络可以产生更准确的结果。选项卡. 图2显示了六组五个数据集上的mNoC度量。我们的FCA网络在五个数据集上达到了最先进的水平。采用结构完整性策略对结果进行后处理,将进一步提高性能我们没有对网络架构做太多的修改,只是设置了一个简单的首次点击关注模块。但性能的提升是显著的,这也间接体现了第一点的独特有效性。4.3. 消融研究为了进一步验证我们的贡献,我们对PASCAL VOC和Berke-ley的验证集进行了消融研究。我们以基本的细分网络为基线(No.1),逐步配备本文中提到的策略 平均点击次数(mNoC)的消融结果见表1。3 .第三章。与基线相比,增加FCA模块,我们发现性能显着提高了0.55和0.52减轻mNoC。这一改进符合我们的预期,即通过引入FCA,首次点击的指导信息将得到更有效的利用。对比No.3和No.2,我们看到本文提出的点击损失带来了相当大的效果改善。我们还采用了相同的迭代训练策略[36,37],这在一定程度上提高了最终模型的效果。由于所提出的FCA网络只是探索第一次点击的关键作用的简单实现,因此我们没有过多地修改广泛使用的框架;因此,图6.说明拟议的FCA- Net可能存在的局限性带绿色环的点表示第一次单击。实际上,我们可以通过替换更强的骨架或更复杂的设计来获得更好的结果。例如,在No.5中,我们使用Res2Net [16]代替ResNet作为骨干,这进一步提高了准确性。最后,我们使用所提出的结构完整性策略对结果进行后处理,并在Tab中显示其可靠的改进。二、4.4. 局限性分析在本节中,我们将讨论FCA网络在某些特殊情况下可能存在的局限性如图6(a),由于第一次点击提供的强位置先验,我们的FCA-Net不擅长同时分割图像中的多个实例幸运的是,在现实世界的应用程序中,可以通过为每个实例对象的第一次单击进行注释来缓解这一限制在图6(b-c)中,我们示出了两个有趣的场景,其中由于结构或遮挡,这些实例的中心可能不会被用户点击在这些情况下,定位引导可能偏离中心。有时会导致分割结果不理想,用户不得不添加更多的点进行修复。5. 结论在本文中,我们探讨和演示的重要性,第一次点击互动分割。我们提出了一个FCA网络,它在基本的分割网络上添加了一个简单的模块,将更多的注意力转移到第一次点击上。我们还提出了一个有效的基于点击的损失函数为我们的FCA网络和一个新的策略,以保持预测面具的完整性。在5个数据集上的最新性能表明了首次点击的重要性和我们方法的优越性。确认本研究得到了新一代人工智能重大专项(批准号:2018AAA0100400,国家自然科学基金(61922046,61972216),国家青年人才支持计划,天津市自然科学基金(17JCJQJC 43700,18JCYBJC 41300)。卢少平是论文的通讯作者(一)(b)第(1)款(c)第(1)款13347引用[1] David Acuna,Huan Ling,Amlan Kar,and Sanja Fidler.使用polygon-rnn++对分割数据集进行有效的交互式注释。 在IEEE会议Comput. 目视模式识别,第859-868页,2018年。2[2] 白俊杰和吴晓东。基于容错涂鸦的交互式图像分割。在IEEE Conf. Comput. 目视模式识别第392-399页,2014年。一、二[3] 薛白和吉列尔莫·萨皮罗。测地线铺垫:一个快速交互式图像和视频分割和抠图的框架。国际计算机目视,82(2):113-132,2009. 二、七[4] Ali Borji、Ming-Ming Cheng、Qibin Hou、Huaizu Jiang和Jia Li。显著对象检测:一个调查。计算视觉媒体,第1-34页,2014年。1[5] 尤里·博伊科夫和弗拉基米尔·科尔莫戈洛夫。最小割/最大流算法在视觉中能量最小化的实验比较 IEEE Trans.模式分析马赫内特尔,26(9):1124-1137,2004. 2[6] Yuri Y Boykov和M-P Jolly。交互式图切割用于ND图像中目标的最佳边界在国际会议计算中目视第1卷,第105IEEE,2001年。一、二、七[7] Liang-Chieh Chen,Yukun Zhu,George Papandreou,Florian Schroff,and Hartwig Adam.用于语义图像分割的具有粗糙可分离卷积的编码器-解码器。以Eur.确认补偿目视,第801-818页,2018年。3[8] Ming-Ming Cheng,Qi-Bin Hou,Song-Hai Zhang,andPaul L.松香智能视觉媒体处理:当图形与视觉相遇。Journal of Computer Science and Technology,32(1):110-121,2017. 1[9] 作者:Niloy J. Mitra,Xiaolei Huang,PhilipH. S. Torr和Shi-Min Hu.基于全局对比度的显著区域检测。IEEE TPAMI,37(3):569-582,2015。1[10] Ming-Ming Cheng,Victor A Prisacariu,Shuai Zheng,PhilipH. S. Torr和Carsten Rother。Densecut:密集连接的crfs实 时 抓 取 。Comput. Graph. Forum , 34 ( 7 ) : 193-201,2015. 1[11] 张芳略,郑明明,Niloy J.Mitra,Xiaolei Huang,andShi-Min Hu.Repfinder:查找近似重复的场景元素进行图像编辑。A C M Trans.Graph. ,29(4):83:1-8,2010. 1[12] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi,and Li Fei-Fei. Imagenet:一个大规模的分层图像数据库。在IEEE Conf. Comput.目视模式识别,第248-255页Ieee,2009年。6[13] Mark Everingham , Luc Van Gool , Christopher KIWilliams,John Winn,and Andrew Zisserman.pascal视觉对象类(voc)的挑战。 Int. J. Comput. 目视,88(2):303二、六[14] Deng-Ping Fan , Ming-Ming Cheng, Jiang-Jiang Liu ,Shang- Hua Gao,Qibin Hou,and Ali Borji.显着的物体在混乱:把显着的物体检测到前景。以Eur.确认补偿目视,第186-202页,2018年。1[15] Deng-Ping Fan ,Ge-Peng Ji, Guolei Sun,Ming-MingCheng,Jianbing Shen,and Ling Shao.伪装物体探测。在IEEE Conf. Comput.目视模式识别,2020年。1[16] 高尚华,程明明,赵凯,新宇Zhang,Ming-Hsuan Yang,and Philip Torr. Res2net: 一13348新的多尺度骨干架构。 IEEE Trans. 模式分析马赫内特尔,2020年。七、八[17] 葛世明,金心,叶绮婷,洛赵,李强。通过对象感知最 优 边 界 搜 索 和 混 合 域 合 成 进 行 图 像 编 辑 。Computational Visual Media,4(1):71-82,2018。1[18] 利奥·格雷迪图像分割的随机游走。IEEE Trans. 模式分析马赫内特尔,28(11):1768二、七[19] Varun Gulshan 、Carsten Rother 、 Antonio Criminisi、Andrew Blake和Andrew Zisserman。用于交互式图像分割的测地星凸性。在IEEE Conf. Comput. 目视模式识别,第3129-3136页。IEEE,2010。二、七[20] BharathHariharan,PabloArbela'ez,LubomirBourdev,Subhransu Maji,and Jitendra Malik.从反向检测器的语义轮廓 在Int. Conf. Comput. 目视,第991IEEE,2011年。6[21] KaimingHe , GeorgiaGkioxari , PiotrDolla'r ,andRossGir-shick.面具R-CNN。在国际会议计算中目视,第2961- 2969页,2017年。1[22] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习 在IEEE会议Comput. 目视模式识别,第7703[23] Qibin Hou , Ming-Ming Cheng , Xiaowei Hu , AliBorji,Zhuowen Tu,and Philip Torr.具有短连接的深度监督显著IEEE传输模式分析马赫内特尔,41(4):815-828,2019. 1[24] Yang Hu,Andrea Soltoggio,Russell Lock,and SteveCarter.一种用于交互式图像分割的完全卷积双流融合网络。神经网络,109:31-42,2019。二、六[25] 张元东和金昌洙通过反向传播细化方案的交互式图像分割。在IEEE Conf. Comput.目视模式识别,第5297-5306页一、三、六、七、八[26] Tae Hoon Kim、Kyoung Mu Lee和Sang Uk Lee。基于重启随机游走的生成图像分割 以Eur.确认补偿目视第264-275页。Springer,2008.2[27] Tae Hoon Kim、Kyoung Mu Lee和Sang Uk Lee。用于交互式分割的非参数高阶学习。在IEEE Conf. Comput.目视模式识别第3201-3208页。IEEE,2010。2[28] ThucTrinhLe ,还有Almans a,YannGousseau 和Si-monMasnou。 使用一些注释从复杂视频中移除对象。计算视觉媒体,5(3):267- 291,2019。1[29] Yin Li,Jian Sun,Chi-Keung Tang,and Heung-YeungShum.懒拍ACM事务处理图表,23(3):303-308,2004. 1[30] Zhuwen Li,Qifeng Chen,and Vladlen Koltun.基于潜在差异的交互式图像分割。在IEEE Conf. Comput.目视模式识别,第577-585页,2018年。 一二三六七八[31] JunHao Liew,Yunchao Wei,Wei Xiong,Sim-HengOng,and Jiashi Feng.区域交互式图像分割网络。在国际会议计算中目视第2746-2754页。IEEE,2017年。一二三六七八13349[32] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。Microsoft coco:上下文中
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功