没有合适的资源?快使用搜索试试~ 我知道了~
26370FocusCut:深入交互分割的焦点视图0郑林1 郑鹏端1 张钊1,2 郭春乐1* 程明明101 南开大学计算机学院TMCC 2 商汤研究院0http://mmcheng.net/focuscut/0摘要0交互式图像分割是像素级标注和图像编辑中的重要工具。为了获得高精度的二值分割掩码,用户倾向于在目标细节周围添加交互点击,例如边缘和孔洞,以进行有效的细化。当前的方法将这些修复点击视为共同确定全局预测的指导。然而,全局视图使模型无法关注后续的点击,并且与用户意图不符。在本文中,我们深入研究了点击视图,重新赋予它们在对象细节中的决定性作用。为了验证焦点视图的必要性,我们设计了一个简单而有效的流程,名为FocusCut,它集成了对象分割和局部细化的功能。在获得全局预测之后,它从原始图像中以自适应范围裁剪以点击为中心的补丁,逐步细化局部预测。在不增加用户感知和参数的情况下,我们的方法已经达到了最先进的结果。大量的实验证明了FocusCut使得交互式图像分割的超精细分割成为可能。01. 引言0交互式图像分割旨在以最小的交互成本获得目标对象的准确二值掩码。它已经发展成为在像素级数据标注和图像编辑中不可或缺的工具。研究主要集中在两个方面。一方面是更高效的用户交互模式,另一方面是更有效地利用用户提供的交互。对于前者,交互模式得到了广泛的探索,主要基于边界框[50]、多边形[1, 6, 32]、点击[2, 29, 36]、涂鸦[3,48]以及一些组合[34,52]。其中,基于点击的方法由于其简单性已经成为主流。对于后者,研究人员探索了交互的模糊性[9, 26,30]、输入信息[31, 35]、反向传播[20,41]等。这些方法在不改变用户输入的情况下提供了更好的分割结果。0* C.L. Guo为通讯作者。0全局视图 焦点视图0图1.FocusCut的可视化展示。通过额外的焦点视图对鹰爪的细节进行了修复。红色和绿色的点击是用户在交互分割中用来指示前景和背景的。黄色的遮罩是预测结果。0近年来,随着大屏设备的增加和审美水平的提高,图像标注和图像编辑都需要更精细的分割掩码。在高精度交互分割中,对象细节的细化,如边缘和孔洞,通常需要更多的交互点击和时间。当用户在错误标记的区域点击时,他们倾向于将注意力集中在细节区域以进行高效的修复。然而,当前的方法将先前的点击一起考虑以确定全局预测。在新一轮的交互中,联合预测过程可能削弱新输入点击对其周围细节的决定性影响,并反馈不一致的结果。0为了更有效地进行细化,我们深入研究了点击视图以考虑其周围信息,这被称为焦点视图。在论文中,我们设计了一个简洁的流程,FocusCut,来验证焦点视图的重要性。交互分割网络的原始功能已经改变,我们赋予它一个新的角色,使其不仅可以分割目标对象,还可以修复局部细节。具体而言,在全局分割(我们论文中称为全局视图)之后,它从原始图像中以新点击点为中心裁剪一个局部补丁作为焦点视图,使用相同的网络进一步细化对象细节。逐步裁剪的过程如下:26380根据全局视图中预测变化动态调整裁剪范围。然后,根据我们的渐进焦点策略,裁剪范围将逐渐减小。为了与其他方法保持公平并更好地证明我们的观点,几乎没有将参数和特定模块插入到常用的交互式分割架构中。在GrabCut[40]、Berkeley[37]、SBD[15]和DAVIS[39]数据集上进行了全面的实验,证明了FocusCut的有效性。0贡献可以总结如下:0•通过考虑来自点击的局部分割,我们引入了焦点视图来把握用户意图。0•根据我们的观点,我们提出了FocusCut,一个简单而有效的流程来加强局部细化。0•在没有额外参数的情况下,FocusCut实现了最先进的性能,并且可视化结果反映了其在精细分割中的有效性。02. 相关工作02.1. 交互式图像分割0大多数传统的交互分割方法都是基于图像的低级特征构建模型,例如智能剪刀[38]和懒惰剪切[25]。基于GraphCut[5],Rover等人提出了一种称为GrabCut[40]的方法,使其更加方便。Grady等人开发了随机行者[14]算法,用于确定每个未标记像素的概率。Kim等人[22]通过引入重启模拟来改进它。然而,由于过于关注低级特征,这些方法在复杂环境中可能失效。由于神经网络能够全面考虑全局和局部特征,尽管也有一些工作[21, 46,47]进一步改进了传统方法,但基于深度学习的方法最近在这个领域成为主流。除了一些基于循环神经网络[1,6],图卷积网络[32]和强化学习[27,42]的工作外,大多数研究都是在传统的卷积神经网络上进行的。在这个任务中已经探索了多种交互模式。例如,极端点已经用于常见对象[36]、细长对象[29]和整个图像[2]的分割。边界点击[19,24]也被采用作为一种有效的交互方式。交互的组合,如边界框和点击[4,52],在该领域也很流行。其中,逐渐成为主流的是在前景和背景中提供点的方式,也是本文研究的交互模式。对于这种交互模式,Xu等人[51]首次提出了一种基于深度学习的算法,以及一个点击0映射转换和几种随机采样策略。为了充分利用用户的交互,Liew等人[28]提出了RIS-Net,利用来自点击对的局部区域来改进分割结果。Hu等人[17]为这个任务提供了一个双分支架构。Majumder等人[35]通过生成内容感知的引导图来改进用户点击的转换。Jang等人[20]开发了BRS来纠正初始结果中的错误标记像素,这在f-BRS[41]中得到了改进。Kontogianni等人[23]将用户纠正作为训练样本,并即时更新模型参数。为了处理用户交互的歧义,Li等人[26]耦合了两个卷积网络来训练和选择适当的结果。Liew等人[30]将尺度多样性引入模型,帮助用户快速定位所需的目标。Lin等人[31]强调了第一个点击的关键作用,并将其作为特殊的引导。Chen等人[9]引入了一种非局部方法来充分利用用户线索。大多数方法将用户交互转换为与整个图像大小相同的引导图。然而,我们将每个点击额外视为焦点视图,充分利用它们的潜力。02.2. 分割中的局部视图0在许多分割任务中,局部信息已经得到了充分利用。HAZN[49]可以自适应地调整视图的尺度以细化分割。GLNet[8]聚合了局部和全局分支捕获的特征图。此外,对于语义分割,AWMF-CNN[44]将不同局部补丁的放大倍数分配权重。CascadePSP[11]通过细化模块将原始图像的图像补丁馈送进去。类似地,MagNet[18]以渐进的方式细化具有不同尺度的局部补丁的分割结果。然而,对于语义分割任务,滑动窗口策略是不可避免的,导致计算和时间成本很大。由于交互分割的特殊性,局部视图可以由交互来决定,从而避免了这个缺点。在交互分割中,RIS-Net[28]证明了局部细化的重要性。它通过为每个正点击找到最近的负点击并构建一个边界框来生成局部补丁。局部特征是通过使用ROI池化层从主分支提取的,其输入是与转换后的点击拼接的图像。也就是说,局部细化仍然受到整个图像和其他点击的影响,在一定程度上削弱了局部点击的主导作用。此外,由于网络的下采样操作,局部特征在某种程度上会丢失。我们进一步采用了更纯粹的聚焦视图进行局部细化,直接将以每个点击为中心的局部补丁馈送到网络中,完全忽略整个图像和其他远处点击的影响。①④④26390共享0网络0全局视图0聚焦视图0② 判断和计算和更新0⑤粘贴0③裁剪0⑥ 输出0聚焦视图0图2.FocusCut的流程。该过程分为六个步骤:(1)将整个目标的6通道输入馈送到共享网络中,以生成全局视图中的预测;(2)对于当前点击,判断是否聚焦并根据当前和之前的预测之间的变化计算聚焦范围,然后使用当前预测更新之前的预测;(3)从原始图像中为每个聚焦点击裁剪相应范围的补丁;(4)将聚焦补丁的输入馈送到网络中,在聚焦视图中生成局部预测;(5)将补丁预测粘贴到全局预测中;(6)输出最终预测。03. 提出的方法03.1. 重新审视经典的流程0随着神经网络的发展,近年来关于交互分割的大部分工作都是通过引入卷积神经网络来进行的。由于交互分割可以被视为一种特定类型的分割任务,因此许多方法都是基于经典的用于语义分割的网络进行设计的,特别是DeepLab系列,尤其是DeepLab v3+[7]。网络架构包含一个主干网络,一个空洞空间金字塔池化(ASPP)部分和一个解码器部分。对于主干网络,交互分割中主要采用ResNet[16]。ASPP部分包含四个空洞卷积分支和一个全局平均池化分支。解码器部分通过融合主干网络的低层特征来细化ASPP模块的输出,生成最终的预测。对于交互分割,输入应包含交互信息。点击位置将被转换为两个点击图,例如距离、圆盘和我们使用的高斯图,表示正点和负点。交互分割中的大多数工作修改网络的输入部分,并将5通道图作为输入,其中包括RGB图像和两个点击图。可以通过添加另一个头来将5通道图编码为3通道图以满足标准架构,或者像我们一样直接更改第一个卷积层。输出将通过二进制交叉熵损失进行监督,并二值化为最终的预测。03.2. FocusCut流程0在交互式分割的过程中,用户经常通过提供更多的前景和背景点来修复错误分割的区域。随着点击数量的增加,后续的点逐渐用于修复更多的局部区域。特别是在后期阶段,很可能有许多交互点聚集在一起修复一个小区域。由于神经网络的感受野大小和下采样操作,同时分割整个对象和细节区域是困难的。0如图2所示,提供的FocusCut是一个交互式分割的流程,其中包含两个交互视图。一个是全局视图,用于分割整个对象,另一个是焦点视图,根据之前的粗略掩码来细化分割结果。为了反映我们方法的有效性,我们决定尽量不改变常用网络的架构。我们采用输出步幅为16的DeepLabv3+作为基础网络。不同之处在于我们将其视为一个共享网络,既可以学习整个对象的分割,也可以学习局部区域的细化。为了实现这一点,我们需要统一两个输入。由于焦点视图中的细化是基于粗略掩码生成的,我们在输入中添加了一个额外的通道,用于存储之前的预测结果。我们希望我们的网络能够在对象分割之外,基于之前的预测和交互点生成更准确的分割结果。为了实现这个目标,我们交替使用全局视图和焦点视图的数据来训练我们的网络。对于全局视图,我们采用迭代训练策略[33]。如果是迭代步骤,粗略预测将设置为之前的分割结果。对于其他情况,粗略预测将设置为空地图。RGB图像包含整个对象,并且根据对象掩码模拟点击,其中至少包含一个正点以指示对象的位置。在全局视图中,网络将以这个6通道的地图作为输入,生成整个对象的预测结果。对于我们的核心方法焦点视图,我们使用代表目标局部信息的补丁样本来训练网络。在第3.3节中,我们将详细描述生成补丁样本的过程。如图2所示,这个阶段的输入地图也是一个6通道的地图。然而,RGB图像将是从原始图像中裁剪出的局部区域,不代表对象,并且更加关注细节。与全局视图中的点击地图不同,这些点击地图必须包含地图的中心点,可以是正点也可以是负点。我们将通过处理局部真值来生成粗略掩码以减少其细腻度。这些地图将被连接并输入到网络中。图2详细展示了推理阶段。在这个阶段,用户将持续点击,直到结果满足用户的需求。由于第一个点击必然用于分割整个对象,我们从第二个点击开始引入我们的焦点视图。当添加当前点击时,首先采用全局视图的流程,如图2的顶部所示。根据当前点击的位置以及全局视图中当前预测P和之前预测P'之间的差异,判断是否应该经过焦点视图的额外路径。如果采用焦点视图,我们将计算当前点击的焦点范围r。这将在第3.4节中介绍。然后,根据焦点范围裁剪原始图像、点击和当前预测,得到一个局部补丁,将其输入到焦点视图的路径中生成局部预测ˆP,如图2的底部所示。值得注意的是,这里的图像补丁是从原始图像中裁剪出来的。对于高分辨率图像,这有助于避免信息丢失并获得更清晰的RGB补丁。最后,局部预测将被粘贴回原始预测中。如果补丁之间有重叠部分,则采用它们的平均值。在第3.4节中,我们还提供了一种渐进的焦点策略,以迭代地关注局部区域,以获得更好的结果。26400粗略预测根据迭代步骤设置为之前的分割结果。对于其他情况,将设置为空地图。RGB图像包含整个对象,并且根据对象掩码模拟点击,其中至少包含一个正点以指示对象的位置。在全局视图中,网络将以这个6通道的地图作为输入,生成整个对象的预测结果。对于焦点视图,我们的核心方法,我们使用代表目标局部信息的补丁样本来训练网络。在第3.3节中,我们将详细描述生成补丁样本的过程。如图2所示,这个阶段的输入地图也是一个6通道的地图。然而,RGB图像将是从原始图像中裁剪出的局部区域,不代表对象,并且更加关注细节。与全局视图中的点击地图不同,这些点击地图必须包含地图的中心点,可以是正点也可以是负点。我们将通过处理局部真值来生成粗略掩码以减少其细腻度。这些地图将被连接并输入到网络中。图2详细展示了推理阶段。在这个阶段,用户将持续点击,直到结果满足用户的需求。由于第一个点击必然用于分割整个对象,我们从第二个点击开始引入我们的焦点视图。当添加当前点击时,首先采用全局视图的流程,如图2的顶部所示。根据当前点击的位置以及全局视图中当前预测P和之前预测P'之间的差异,判断是否应该经过焦点视图的额外路径。如果采用焦点视图,我们将计算当前点击的焦点范围r。这将在第3.4节中介绍。然后,根据焦点范围裁剪原始图像、点击和当前预测,得到一个局部补丁,将其输入到焦点视图的路径中生成局部预测ˆP,如图2的底部所示。值得注意的是,这里的图像补丁是从原始图像中裁剪出来的。对于高分辨率图像,这有助于避免信息丢失并获得更清晰的RGB补丁。最后,局部预测将被粘贴回原始预测中。如果补丁之间有重叠部分,则采用它们的平均值。在第3.4节中,我们还提供了一种渐进的焦点策略,以迭代地关注局部区域,以获得更好的结果。3.3. 焦点补丁模拟0在本节中,我们将介绍我们的模拟算法,以生成用于训练的围绕点击的焦点补丁。我们发现,在交互分割的中后期阶段,用户经常在对象边界周围点击,以使边界更准确,而对象的细节通常靠近边界。我们生成0图3.焦点补丁模拟示例。右侧补丁的边框颜色表示左侧裁剪的对应部分。左侧的粉色掩码表示真实值,右侧的黄色掩码表示生成的粗糙掩码。这些模拟的点击也显示在补丁上。0算法1 焦点补丁模拟0αmax,βmin,βmax;01: 对象大小k = ��0i,j G i,j,G i,j∈{0,1};02: 从[αmin,αmax]中选择一个随机α;3: 焦点范围r= α∙k;4: 从G生成边界图B,Bi,j∈{0,1};5:从边界点集中随机选择一个边界点˜p(x,y),Bx,y=1;6:从[βmin,βmax]中随机选择βx,βy;7: p = (˜px +0输出:补丁中心p,焦点范围r。0模拟这种情况的补丁。我们在对象边界上选择一个点,并根据β在[βmin,βmax]范围内给它一个随机偏移量,作为补丁的中心点。焦点范围r是与对象大小相关的随机数。对象大小由k反映,并从真实值G和随机系数α在[αmin,αmax]范围内计算。详细的计算过程在算法1中描述。我们实验中的默认αmin,αmax,βmin和βmax分别为0.2,0.8,-0.3和0.3。根据补丁中心点p和焦点范围r,我们从(px-r,py-r)到(px+r,py+r)裁剪图像和相应的真实值作为一个正方形补丁。通过膨胀和随机腐蚀,我们生成一个粗糙的掩码作为先前预测。中心点将始终作为用户点击包含在内。我们还将在补丁中选择0�3个正负点来模拟围绕中心点的这些点击。这些补丁点击将被转换为点击地图,并与RGB图像和粗糙掩码一起输入网络。在图3中,我们展示了从椅子图像及其真实值中模拟的补丁。可以看出,我们的算法模拟了用户的交互位置并裁剪了不同的部分。至少包含一个交互点。̸26410补丁的中心点。这些粗糙的掩码具有较低的分割质量,但保留了宏观信息,使我们的神经网络关注细化。03.4. 焦点范围计算0在焦点视图的推理阶段,如何选择焦点范围对于细化非常重要。我们发现,尽管这些局部点击对于全局视图来说还不足够进行细节细化,但它们仍然可以在全局视图中产生一定的影响。因此,通过比较当前和先前的预测,可以估计当前点的影响范围。根据不同预测区域的大小和对象的大小,我们可以决定是否在该点周围进行焦点视图。上述过程基于用户点击预测错误的区域。实际上,用户有时会在预测已经正确的区域点击,例如,他们在预测的前景上放置正点击以细化小组件,或者在预测的背景上放置负点击以约束边界。对于这种情况,我们将始终通过焦点视图进行处理,焦点范围为点击点与先前边界之间的距离。因为我们的裁剪是基于正方形的,所以在实际计算中我们使用切比雪夫距离。函数η用于计算点a和b之间的切比雪夫距离:η(a, b) = max(|ax -bx|, |ay -by|)。算法2显示了该过程。默认的λ和ω分别为0.2和1.75。0算法2 聚焦范围计算0输入:先前和当前的全局预测,P′,P,全局视图中的补丁中心 p,常数 λ,ω;01: 预测变化 ∆ P = | P − P ′ |; 2: 如果 ∆ P p=1 则04: 通过 � A < λ ∙ � P 获得聚焦判断;05: ˜ r = max �{ a | A a =1 } η ( p , a );06: 否则7: ˜ r = min �{ a | P ′ a =1 − P′ p } η ( p , a );08: 将聚焦判断设置为true;09: 结束如果10: 通过放松系数生成 r, r = ω ∙ ˜ r;输出:聚焦判断,聚焦范围 r。03.5. 逐步聚焦策略0对于我们的聚焦视图,聚焦范围越小,可能聚焦的详细信息越多。基于此,我们提出了逐步聚焦策略(PFS),逐渐聚焦于需要更多修复的区域。这与传统的多尺度方式不同,尺度根据先前和当前补丁预测的变化动态变化。每次获得新的预测时,其部分将被用作下一个输入的聚焦视图。我们在算法3中展示了这个迭代过程。默认的T设置为3,ˆω设置为1.1,ε设置为2。0下一个输入在逐步聚焦视图中。我们在算法3中展示了这个迭代过程。默认的T设置为3,ˆ ω设置为1.1,ε设置为2。0算法3 逐步聚焦策略0输入:先前的补丁预测 ˆ P ′,聚焦视图中的补丁中心ˆp,常数 T,ˆ ω,ε;01: 对于 t = 1, 2, ∙ ∙ ∙ , T 和 ˆ r � = 0 做02: 生成新的补丁预测 ˆ P = Network ( ˆ P ′ );03: 预测变化 ∆ ˆ P = | ˆ P − ˆ P ′ |;0ε 像素生成区域 ˆ A;05: 如果 � ˆ A > 0 则06: ˜ r = max �{ a | ˆ A a =1 } η ( ˆp , a );08: 更新先前的预测 ˆ P ′ ← ˆ P;09: 根据 ˆ r 裁剪新的补丁;010: 否则011: ˆ r = 0;012: 结束如果013: 输出:最终的补丁预测 ˆ P。0标准的PFS需要迭代地利用当前预测来修复下一个补丁。这些多个迭代过程之间无法实现并行操作。因此,我们还提出了一种快速版本,通过牺牲一点性能来缓解这个问题并提高速度。每次轮换时,我们将上一个聚焦范围的0.8倍作为当前聚焦范围。同时,裁剪补丁的先前预测来自原始的全局预测。这样,三个轮换可以并行进行,加速计算过程。04. 实验04.1. 设置0数据集。我们采用以下广泛使用的数据集进行实验:0◦ GrabCut [ 40 ]:该数据集包含50个背景和前景有明显差异的图像。0◦伯克利[37]:该数据集包含96个图像和100个物体掩码,其中一些对于交互式图像分割任务具有挑战性。0◦ SBD [ 15 ]:该数据集包含8498个用于训练和2857个用于测试的图像。在本文中,我们在训练集上训练模型,并在验证集上评估模型,其中包括6671个物体掩码。0◦ DAVIS [ 39 ]:该数据集包含50个视频,最初用于视频图像分割。与之前的工作[9,20,41]一样,我们使用相同的345帧进行评估,其掩码质量很高。D&5 ↓BIoU&5 ↑ResNet-50GV4.5100.9172.4510.7857.8990.8629.7110.771GV + FV3.5600.9232.3650.7936.6490.8709.4240.785GV + FV + PFS3.4400.9292.1700.8046.3770.8709.3380.787ResNet-101GV4.2800.9222.7870.7927.7130.8689.5470.777GV + FV3.3500.9302.2720.8056.4750.8769.0380.793GV + FV + PFS3.0100.9332.0500.8116.2230.8798.8400.79626420# 候选 Berkeley DAVIS0表1.FocusCut的核心消融研究。我们使用指标'NoC@90'和'IoU&5'来评估整个对象的分割,使用'ASSD&5'和'BIoU&5'来评估细节的分割。'↑'和'↓'表示当指标较大或较小时,性能更好。在这个表格中展示了以ResNet-50和ResNet-101为骨干的实验。0评估指标。遵循之前的工作[9, 20,023, 26, 28, 30, 31, 35, 41,51],我们采用相同的机器人用户模拟点击。简言之,下一个点击将放置在最大误差区域的中心,通过比较地面真值和预测结果。我们采用点击数(NoC)作为评估指标,计算达到固定交并比(IoU)所需的平均点击次数。我们将目标IoU设置为85%和90%,分别表示为NoC@85和NoC@90。每个实例的默认最大点击次数限制为20,并且还将报告无法达到目标IoU的失败次数(NoF)。我们还使用第N次点击时的IoU指标(IoU&N)来表示分割质量。IoU-NoC曲线也用于表示后期交互阶段的收敛趋势。由于我们的方法对于细节的细化更有帮助,我们还引入了两个用于细节的指标。边界IoU(BIoU)[10]关注对象边界附近的IoU指标。平均对称表面距离(ASSD)用于评估预测和地面真值的边界相似性,在交互式医学图像分割中也被使用[45]。对于这两个指标,我们还采用第N次点击时的指标('BIoU&20'和'ASSD&20')来评估性能。IoU和BIoU越大,性能越好,而NoC和ASSD则相反。实施细节。采用在ImageNet上预训练的ResNet[16]作为特征提取器。训练过程持续40个时期,批量大小为8。每个时期的初始学习率为7×10^(-3),衰减率为0.9,采用指数学习率衰减策略。我们采用随机梯度下降法进行参数优化,动量为0.9,权重衰减为5×10^(-4)。我们使用随机翻转和裁剪来增强数据,裁剪大小为384像素。对于全局视图中的注释模拟,我们遵循[31]中的策略。推理阶段还采用了Zoom-In策略[41]。实验是在NVIDIA TitanXP的GPU上使用PyTorch [43]框架实现的。0速度分析。推理时间方便计算,因为我们的方法由两个具有共享网络的分支组成。我们将网络的速度设为'1×'。当引入焦点视图时,由于焦点视图的点击可以并行计算,速度为'2×'。当引入渐进焦点策略时,快速版本的速度仍然为'2×',因为所有的转向仍然可以并行进行。当我们采用默认的T时,标准版本的速度变为'4×'。对于具有不同分辨率的图像,输入将始终被调整为短边的固定长度。在我们的环境中,ResNet-50和ResNet-101的'1×'速度分别为0.0295和0.0346秒每次点击(SPC),其中384像素为固定长度。即使对于我们的标准版本,推理速度也足以满足实际应用的需求。04.2. 消融研究0如表1所示,我们进行了核心消融研究,以证明FocusCut中每个组件的必要性。我们选择了Berkeley和DAVIS数据集进行这些实验,因为Berkeley数据集与GrabCut数据集相似但更大,而SBD数据集的注释质量较差。我们在表1中使用了四个指标进行这些实验,其中前两个指标用于整个对象分割,后两个指标用于细节。对于渐进聚焦策略,我们还对不同轮次和设置的策略进行了消融实验。0引入聚焦视图。对于引入聚焦视图的核心部分,无论是对整个对象还是对细节,性能都有显著提升。对于核心指标,Berkeley和DAVIS数据集中的NoC都减少了约一个点击。我们在第5个点击处比较了其他三个指标的改进。IoU指标的提升表明聚焦视图带来了更完整的对象。BIoU的增加和ASSD的减少也表明我们的方法明显改善了细节,并提供了更准确的边界。无论是ResNet-50还是ResNet-101,无论使用哪个指标,它们的改进都是明显的。引入聚焦视图无疑是有用的。0246810 12 14 16 18 20949596979899GrabCut0246810 12 14 16 18 20919293949596Berkeley0246810 12 14 16 18 20888990919293DAVIS0246810 12 14 16 18 20899091929394SBDBRSf-BRS (50)f-BRSFCA-Net (50)FCA-NetFocusCut (50)FocusCutC@9026430图4. 展示了四个数据集中的局部IoU-NoC曲线,用于表示收敛趋势。'(50)'表示以ResNet-50为主干。0方法 GrabCut Berkeley SBD DAVIS0§ 不使用GC的DOS [51] CVPR16 8.02 12.59 - 14.30 16.79 12.52 17.110§ 使用GC的DOS [51] CVPR16 5.08 6.08 - 9.22 12.80 9.03 12.580§ RIS-Net [28] ICCV17 - 5.00 6.03 - - - -0† 潜在多样性 [26] CVPR18 3.20 4.79 - 7.41 10.78 5.05 9.570§ CM引导 [35] CVPR19 - 3.58 5.60 - - - -0† BRS [20] CVPR19 2.60 3.60 5.08 6.59 9.78 5.58 8.240§ MutiSeg [30] ICCV19 - 2.30 4.00 - - - -0§ 连续自适应 [23] ECCV20 - 3.07 4.94 - - 5.16 -0ResNet-50 2.18 2.62 4.66 - - 5.54 8.83 § FCANet [31] CVPR20 ResNet-101 1.88 2.14 4.19 - - 5.38 7.900ResNet-50 2.50 2.98 4.34 5.06 8.08 5.39 7.81 † f-BRS [41] CVPR20 ResNet-101 2.30 2.72 4.57 4.81 7.73 5.047.410ResNet-50 2.22 2.64 3.69 4.37 7.87 5.17 6.66 † CDNet [9] ICCV21 ResNet-101 2.42 2.76 3.65 4.73 7.66 5.336.970ResNet-50 1.58 1.78 3.48 3.76 5.86 5.18 6.59 † FocusCut* 我们的方法 ResNet-101 1.48 1.68 3.22 3.54 5.55 4.986.320ResNet-50 1.60 1.78 3.44 3.62 5.66 5.00 6.38 † FocusCut 我们的方法 ResNet-101 1.46 1.64 3.01 3.40 5.31 4.856.220表2. 在四个评估数据集中,NoC指标与其他方法的比较。符号†表示采用SBD [15]数据集进行训练。§表示采用增强的PASCAL VOC [13,15]数据集进行训练。*表示FocusCut的快速版本。0渐进聚焦策略。如表1所示,渐进聚焦策略可以辅助我们的方法并进一步提高其性能。在标准版本中,根据上一轮的输出,前一个预测的通道将进行迭代更新。表3显示了没有迭代预测的结果,可以发现在这种情况下性能会有一定程度的下降。在图5中,我们还展示了使用不同轮次策略的NoC@90指标。前几轮的性能改进是明显的,而后几轮的改进波动较大,因为补丁大小太小。由于迭代预测的操作和逐步确定焦点范围需要根据先前的结果进行,因此无法在设备上并行实现。标准版本可能会牺牲一定的速度,但我们还提供了一个快速版本,如表2所示,其中焦点范围的缩小因子设置为常数。这样,可以节省用于更新预测的时间,但仍然可以实现出色的性能。用户可以根据自己的需求和环境选择任何版本。04.3. 比较与讨论0性能评估。如表2所示,我们将我们的方法与其他方法在最常见的NoC指标上进行了比较。GrabCut、Berkeley、SBD和DAVIS数据集都与其他数据集一样进行了评估。表中提供了ResNet-50和ResNet-101的所有性能。我们可以发现我们提出的方法在所有数据集上都取得了最先进的性能。在表2中,我们还提供了我们方法的快速版本,虽然略逊于我们的标准版本,但与其他方法相比仍然表现良好。值得注意的是,几乎没有参数或模块插入到基线网络中,这充分反映了FocusCut的有效性。为了反映收敛趋势,我们裁剪并放大了IoU-NoC曲线,并在图4中显示。在图中,我们选择了一些具有可用代码的最新方法。由于FCA-Net使用了增强的PASCAL进行训练,因此它不在SBD子图中。我们可以发现,在后期交互阶段,我们的方法仍然有一定的上升趋势。第20次点击的结果显示,我们的方法具有更高的上限,反映出它可以更精细地分割对象。1232.93.13.33.53.7 ResNet-50ResNet-10189 106.06.26.46.66.8 ResNet-50ResNet-101BerkeleyDAVISNoC@90Net-101IoUBRS [20]775120.89f-BRS [41]785020.70FCA-Net [31]875422.56CDNet [9]654818.5926440迭代 迭代0图5. NoC@90 vs . 迭代次数的渐进焦点策略。0设置 Berkeley DAVIS0无IP 3.51 3.11 6.56 6.38 有IP 3.44 3.01 6.38 6.220表3.带有或不带有迭代预测(IP)的渐进焦点策略的NoC@90指标比较。0方法 Berkeley DAVIS0DOS [51] 4.150 0.594 7.402 0.741 LD [26] 2.2180.773 7.186 0.776 BRS [20] 1.099 0.866 6.188 0.829f-BRS [41] 1.218 0.866 6.318 0.825 FCA-Net [31]1.147 0.861 6.051 0.8340我们的方法 0.928 0.892 4.427 0.8740表4.具有可用代码的方法在第20次点击时详细度量(ASSD和BIoU)的比较。最后四个基于ResNet-101。LD是latent diversity的缩写[26]。0分割质量。图6显示了我们的FocusCut在一些情况下发挥主导作用的案例。例如,在飞机轮子等小部件的位置,FocusCut可以在前景中仅用一个点击生成出色的预测。在一些存在许多间隙的地方,例如图片中狗腿或人的手指之间的区域,虽然提供了背景点,但神经网络很可能从整体视角过度抑制它们,而我们的FocusCut可以很好地处理这种情况。与之前的工作[9, 20,41]一样,我们还在表5中展示了最近方法的失败图像数量(NoF)的度量。最大点击数为100的结果可以反映出对细节进行分割的性能。无论是NoF还是NoC指标,我们都超过了所有最新方法,并取得了新的最先进性能。此外,我们还将我们的方法与其他具有可用代码的方法进行了BIoU和ASSD指标的比较,实验结果在表4中可见。显然,我们的方法在ASSD和BIoU方面优于其他方法,显示了我们的方法在细节优化方面的有效性。在实际使用中,我们在用户界面上提供了一个作为放大镜的小窗口,用于显示鼠标附近的区域,这有助于用户在小区域中点击更准确的位置。0全图基线 焦点裁剪 GT0图6.FocusCut的质量结果及与基线的比较。预测和点击显示在上方。0方法 NoF 20 @90 NoF 100 @90 NoC 100 @900我们的方法 57 43 17.420表5.在DAVIS数据集中使用ResNet-50进行不同点击设置的比较。NoFN @90表示无法在N次点击下达到IoU 0.9的失败图像数量。NoC100 @90度量与NoC@90相同,最大点击次数为100。0限制分析。我们的方法需要多次运行分割,推理时间不可避免地会增加。即使对于快速版本,计算负担实际上是相同的。对于一些旧设备来说,时间消耗和计算负担可能仍然是一个瓶颈。05. 结论在本文中,我们引入了焦点视图来抓住用户从新输入的点击中的意图。我们通过一个简单而有效的流程FocusCut来实现焦点视图,其中通过全局视图更新以点击为中心的裁剪预测。在多个自适应范围下,裁剪更新是渐进的。在四个数据集上进行的大量实验证明了我们的FocusCut的优越性,创造了新的最先进的性能。0致谢:本工作由中国国家重点研发计划(编号2018AAA0100400)、国家自然科学基金委员会(编号61922046)、中国教育部科技创新工程、中国博士后科学基金(编号2021M701780)资助。我们还衷心感谢MindSpore、CANN和Ascend AI处理器对本研究的支持。[6] Lluis Castrejon, Kaustav Kundu, Raquel Urtasun, and SanjaFidler. Annotating object instances with a polygon-rnn. InCVPR, 2017. 1, 2[7] Liang-Chieh Chen, Yukun Zhu, George Papandreou, FlorianSchroff, and Hartwig Adam. Encoder-decoder with atrousseparable convolution for semantic image segmentation. InECCV, 2018. 3[9] Xi Chen, Zhiyan Zhao, Feiwu Yu, Yilei Zhang, and ManniDuan. Conditional diffusion for interactive segmentation. InICCV, 2021. 1, 2, 5, 6, 7, 8[11] Ho Kei Cheng, Jihoon Chung, Yu-Wing Tai, and Chi-KeungTang.Cascadepsp: toward class-agnostic and very high-resolution segmentation via global and local refinement. InCVPR, 2020. 2, 4[13] Mark Everingham, Luc Van Gool, Christopher KI Williams,John Winn, and Andrew Zisserman. The pascal visual objectclasses (voc) challenge. IJCV, 2010. 726450参考文献0[1] David Acuna, Huan Ling, Amlan Kar, and Sanja Fidler.Efficient interactive annotation of segmentation datasetswith polygon-rnn++. In CVPR , 2018. 1 ,
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索数据转换实验平台在设备装置中的应用
- 使用git-log-to-tikz.py将Git日志转换为TIKZ图形
- 小栗子源码2.9.3版本发布
- 使用Tinder-Hack-Client实现Tinder API交互
- Android Studio新模板:个性化Material Design导航抽屉
- React API分页模块:数据获取与页面管理
- C语言实现顺序表的动态分配方法
- 光催化分解水产氢固溶体催化剂制备技术揭秘
- VS2013环境下tinyxml库的32位与64位编译指南
- 网易云歌词情感分析系统实现与架构
- React应用展示GitHub用户详细信息及项目分析
- LayUI2.1.6帮助文档API功能详解
- 全栈开发实现的chatgpt应用可打包小程序/H5/App
- C++实现顺序表的动态内存分配技术
- Java制作水果格斗游戏:策略与随机性的结合
- 基于若依框架的后台管理系统开发实例解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功