没有合适的资源?快使用搜索试试~ 我知道了~
交互式分割方法CDNet的改进与性能提升 (CDNet: 改进交互式分割方法)
1交互式分割Xi Chen,Zhiyan Zhao,Feiwu Yu,Yilei Zhang,ManniDuan*阿里巴巴集团{xizhi.cx,zhiyan.zzy,feiwu.yfw,yilei.z} @ alibaba-inc.com,manyi@taobao.com摘要在基于点击的交互式分割中,掩模提取过程由正/负用户点击决定;然而,大多数现有方法没有充分利用用户提示,需要过多的点击次数来获得满意的结果。我们提出了条件扩散网络(CDNet),它将标记的表示从点击传播到具有两个亲和力水平的条件目的地:特征扩散模块(FDM)将特征从点击扩散到具有全局相似性的潜在目标区域;像素扩散模块(PDM)在局部连接区域内扩散点击的预测logit。因此,通过用户点击推断的信息可以被推广到适当的目的地。此外,我们提出了多样化训练(DT),减少了点击模拟带来的优化模糊性。通过FDM、PDM和DT,CD-Net可以更好地理解用户CDNet在几个基准测试中达到了最先进的性能。1. 介绍交互式分割是一个长期的研究课题;已经探索了各种形式的相互作用。人类可以提供边界框[26,30,15],涂写[16,6,1]或点击[27,20,32,11]来表达分割意图,其指导用于掩模提取过程的算法。分割目标可以是用户想要的任何东西,这要求交互式分割是一种灵活的工具,并使其成为一项具有挑战性的视觉任务。在这项工作中,我们解决基于点击的互动分割,我们的目标是通过更好地了解用户的意图,以改善现有的作品对于基于点击的交互式分割,用户放置正/负点击(图1B中的红/绿点)。1)指示前景/背景区域。一般来说,用户的点击包含两层信息:第一层是空间的-前景/背景的位置可以*通讯作者(a) 基线(b)CDNet(c)基线(d)CDNet图1. 基线法与CDNet的比较。 正/负点击标记为红色和绿色。扩散流以彩色箭头显示如红色箭头所示,CDNet将信息从点击传播到目标目的地,同时抑制白色箭头所示的无效流。通过点击的分布来指示;第二层是可视的-点击周围的区域的标签可以通过可视相似性来推断。在标准管道中,第一步是将点击编码到距离图[32,27,11,31]中,高斯映射[20,23,21,14]或超像素[22];接下来,编码的映射与原始图像连接并馈送到分割网络中进行预测。这种方法充分利用了空间信息,但忽略了视觉提示。因此,我们看到两个问题:1) 就像图中的例子。如图1(a)所示,点击的标签常常不能被一般化到远离点击的目标区域,即使目标区域的部分具有与点击几乎相同的外观。2)标签可能会溢出到错误的区域,即使目标有明确的边界,如图2所示。第1段(c)分段。为了解决上述问题,我们探索了对不同位置之间的亲和力进行建模,并将表示从点击扩散到未标记的区域。一个简单的解决方案是简单地基于特征相似性来建模亲和度。然而,这会导致过度概括:在图1(b)中,信息不应该从A传播到C(假设目标是底部的火烈鸟),即使它们在视觉上是相似的。73457346更大。为了处理过度泛化,可以直接考虑将扩散限制同样,由于目标是灵活定义的,可以是零件、实例或材料,因此固定的约束不会是万灵药。一般来说,既要扩大扩散范围又要避免过度泛化是一个两难的问题。面对这一挑战,我们进行了深入的研究提出了条件扩散网络(CDNet),该网络对点击产生的信息进行扩散,并对扩散目的地进行动态约束具体而言,设计了两个组件:• 特征扩散模块(FDM)生成条件亲和图。它首先考虑特征相似性,将点击的表示扩散到所有未标记的区域。然后,我们约束的扩散detination由一个原始的预测前景/背景的点击和图像的内容的分布。FDM以全局透视图在全映像中传播要素。• 像素扩散模块(PDM)在预测的logits上构造条件扩散源,并利用颜色相似性来扩散点击的标签该算法将扩散限制在颜色均匀的局部区域,避免了过度泛化。同时,迭代地进行扩散以扩大目标的范围。PDM主要细化细节。FDM和PDM协同工作,以粗到细的方式提取具有高级别和低级别一致性的表示。为了更好地训练CDNet,我们开发了一种称为多样化训练(DT)的实用训练制度,它减轻了由点击模拟引起的优化模糊性。CDNet将FDM/PDM/DT结合在一起,通过将点击的表示扩散到正确的目的地,更好地利用点击中包含的信息,并以更少的点击做出更好的预测。已 经 在 GrabCut [26] 、 Berkeley [24] 、 SBD [8] 和DAVIS [25]数据集上进行了大量实验。结果证明了我们的方法的有效性,并表明我们的CDNet达到了国家的最先进的性能。我们的贡献可归纳如下:1)我们制定了基于点击的交互式分割作为一个过程的条件扩散和提出CDNet,它预测更好的分割结果与更少的点击。2)我们设计了FDM和PDM,通过传播点击的标记信息,在不同层次上增强未标记区域3)为了更好地训练CDNet,我们开发了多样化训练,减少了点击模拟所造成的优化模糊性。2. 相关作品经典方法在深度学习时代到来之前,研究人员将交互式分割作为一个优化问题。GrabCut [26]使用高斯混合模型来解决颜色空间中的最大流问题测地线[7]计算点击点和其他像素之间的测地线[6]应用随机游走算法来预测未播种像素的标签。[12]提出了一种具有标签一致性约束的高阶方法。这些经典方法根据低水平相似性对像素之间的关系进行建模,这使得它们能够预测具有局部一致性的分割结果。然而,缺乏高层次的语义信息限制了经典方法的性能深度学习方法第一种基于深度学习的方法[32]将点击点嵌入到距离图中,并使用完全卷积网络来预测前景和背景的掩模。RIS-Net[18]添加了一个本地分支来优化人类点击的预测结果[22]使用超像素嵌入点击点,以提供具有局部一致性的指导。[17]预测多个潜在结果,并训练另一个网络从中选择。FCANet [20]强调了第一次点击的重要性,并提出了第一次点击关注以获得更好的结果。BRS [11]使用反向传播以在线方式微调引导图f-BRS [27]改进了中间特征,以获得更精确的掩模,与BRS相比速度更快这些基于学习的方法中的大多数仅使用点击来生成引导图以指示目标对象的粗略位置BRS和f-BRS使用点击点的给定标签来微调网络,但是在线学习在推理期间带来额外的计算,并且使得它们难以部署。与经典方法相比,深度学习模型具有更好的性能。然而,他们没有充分利用用户输入。3. 方法3.1. 产品线概述条件扩散网络(CDNet)的流水线二、蓝色方框表示常用的基线,我们在其上添加两个红色扩散模块。首先,我们将正点击和负点击嵌入为两个高斯映射,并将它们与原始RGB图像连接以获得5通道输入。第二,将输入馈送到分割网络中以提取高级特征。在这项工作中,我们使用DeeplabV 3 + [3]和ResNet-50 [9]主干。然后,将步长-8的高级特征和高斯图发送到特征扩散模块(FDM)。在该块中,点击周围的标记特征可以被传播到预期的未标记区域。接下来,在DeeplabV3+之后,我们用7347,W,2W8,8,W8,8,,W,1Concat分割模型FDMPDM图像高斯映射,W,3图2.我们的条件扩散网络的概述。FDM表示特征扩散模块。PDM表示像素扩散模块。虚线表示PDM仅在推断期间存在。低级特征,并将预测的logit上采样到原始图像的大小。然后,像素扩散模块(PDM)采用原始图像、高斯映射和预测的logits来迭代地将logits从点击传播到它们的邻居,这以低水平的一致性来细化预测PDM仅在推理期间存在在PDM之前,对物流进行培训监督。FDM和PDM都易于扩展,并且可以是用于不同分段模型的简单插件。使用FDM和PDM,点击的影响可以被放大,因为它们的标记表示被传播到更宽的范围,这使得模型能够做出更好的预测。3.2. 特征扩散模块特征扩散模块(FDM)将标记的高级特征从点击传播到条件目标。它使未标记的区域,以更好地表示通过匹配标记的模板,并帮助标签的点击,以推广到广泛和准确的目的地。FDM的实施受到自我关注系列的启发[5,10,29,33]。我们首先回顾自我注意的表述然后详细阐述了FDM的体系结构。3.2.1重新审视自我注意力Non-local Network [29]提出了自注意力的标准公式,其变体[5,10,29,33]被广泛应用于语义分割任务,并被证明是有效的。公式可以总结为Eq. 其中A表示测量每两个位置的特征之间的依赖性的亲和矩阵x支架对于输入功能。g、θ、是用1×1Convs实现的变换函数。yHW×C=Softmax(AHW×HW)×g(x)HW×C(1)A=θ(x)HW×C×(x)C×HW(2)利用自注意,x中的信息可以在每两个位置之间进行长距离传播,这有助于构建具有全局上下文的更统一的特征表示。3.2.2FDM概述关于Eq。(1)作为信息扩散的过程,等式(1)中的亲和矩阵是:(2)为每个位置分配相等的机会以充当扩散源;仅通过考虑语义相似性来决定扩散目的地。它适用于语义分割,但由于两个原因,它不是交互式分割的最佳解决方案:1)由于给出了正/负点击的标签,点击周围的特征更具信息性,应该优先进行扩散; 2)由于前景/背景是由点击动态定义的,我们不能使用实例或语义相似来统计地约束扩散目的地。是的为了解决上述问题,FDM通过动态地重新加权亲和矩阵引入两个附加特征:它突出了由点击引起的扩散流,同时对扩散目的地进行了约束。公式为Eq。(3)有限差分法采用两个条件亲和矩阵CAF/B来模拟前/背景信息的扩散流,并将扩散结果相加。FDM的流水线如图所示。3,我们首先计算原始亲和矩阵A,下面等式:(二)、然后,我们通过重新加权来生成条件亲和度矩阵。条件亲和度的细节将在下一段中介绍。y=CAF×g(x)+CAB×g(x)(3)3.2.3条件亲和性我们通过设置源约束和目的地约束来重新加权原始亲和力图。源约束突出显示从点击开始的扩散流;目的地约束定义了一个粗略的扩散范围,这防止了点击的标签被过度泛化。有了这些限制,在图。1(b),来自A的特征可以扩散到B,但不会传播到C。具体地,我们通过将高斯核放置在前景/背景点击上来生成源约束映射SF/B此外,我们通过在FDM的输入特征上添加一个辅助头来计算目标约束映射DF/BDF/B不被期望是准确的,它被用于控制每个位置的概率以从前景/背景源收集信息从另一个角度看,FDM可以看作是在DF/B基础上的进一步细化。由于SF/B、DF/B被归一化为[0,1],因此我们根据等 式 ( 1 ) 直 接 对 原 始 亲 和 度 矩 阵 A 重 新 加 权 。(四)、如图1B的右框所示。2,我们首先重塑A以形成RHW×H×W,并对S∈R1×W×H进行逐元素乘法,以突出从7348∈y=ΣSoftmax(Aij)·y(5)SFDFCAF一条件性重新加权HW ×HW条件性重新加权SBDBCAB例如SFSBDFDB图3.特征扩散模块的演示。我们首先测量特征之间的依赖性并生成原始亲和矩阵A;然后,我们在条件重加权块中应用源约束和目的地约束以得到条件亲和矩阵CA。在条件亲和映射的引导下,特征从源(点击点)传播到目标目的地以获得增强的表示。右部分演示了条件重加权块的具体结构。次点击然后,softmax函数对可以为每个目标聚合的源特征的总和进行归一化。之后,修改后的亲和图被重塑为RH×W×HW,并乘以DRH×W×1,以抑制跨前景/背景分裂的流。因此,我们得到两个条件亲和力矩阵CAF/B,其控制从前景/背景点击到对应目标区域的信息流。CAF/B=Softmax(SF/B⊙A)⊙DF/B(4)3.2.4功能分析FDM将正/负点击的要素传播到相应的目标。也可以从信息收集的角度进行分析。对于被预测为具有高置信度的前景/背景的特征,它们仅从前景/背景点击收集信息,这有助于对目标进行更统一的表示。对于具有不确定预测的特征,它们有相等的机会从前方和背景源收集信息。因此,根据特征相似度对前景和背景模板进行匹配,可以做出更可靠的预测。从优化的角度来看,FDM强制每个未标记特征更接近具有相同标签的点击特征,同时扩大具有相反标签的点击的距离,这有助于更统一和更有区分性的表示。3.3. 像素扩散模块像素扩散模块(PDM)的设计是为了补充FDM,并专注于细节,不能细化的高级功能。它遵循FDM公式,根据亲和度将信息从点击传播到未标记区域PDM需要具有丰富细节的表示,对全分辨率预测logits执行。3.3.1PDM概述由于计算资源的限制,FDM公式不能直接应用于全分辨率logits。因此,我们限制在局部区域的像素扩散和迭代实现的扩散。遵循FDM的基本形式,我们将PDM表示为Eq. 其中Aij表示logiti与其邻居j之间的亲和度;y0表示像素扩散源。信息从每个logiti迭代地传播到其相邻区域Nit+1tIjj∈Ni鉴于PDM的管道,仍有两个关键领域需要考虑:1)如何突出显示从点击开始的扩散流。2)如何在扩大扩散目标的同时避免过度泛化。首先,我们突出的流量,从点击,通过构建一个条件扩散源,其中点击周围的因此,点击的标签获得更高的优先级被传播出去;其次,我们使用颜色相似度计算亲和度,并将扩散的每次迭代限制在一个小范围内。以这种方式,当扩散遇到边界或急剧的颜色变化时,扩散将被截断。同时,我们迭代地进行像素扩散,这样增强的logits可以在颜色均匀的区域中进一步扩散。PDM的流水线如图所示。4.第一章给定输入图像、预测的logits和点击,我们构造条件扩散源并迭代地在局部邻域中传播源的信息。最后,我们将原始logits作为残差添加到扩散结果上,并将阈值设置为0以获得二元预测掩模。注意到PDM的整个流水线都可以用Conv层来实现。PDM在GPU上运行,效率高。高×宽1×高×宽高宽×高宽高宽×高宽高宽×高宽高×宽高×宽×硬件高×宽×1条件性重新加权SoftMax7349联系我们×个IJJ图4.像素扩散模块(PDM)的流水线。PDM将原始图像、点击的高斯图和预测的对数作为输入。它迭代地将信息从点击传播到邻居,以获得细化的预测图。3.3.2条件扩散源我们通过增加点击周围的信息浓度来构造条件扩散源。考虑到网络是用Sigmoid函数和交叉熵损失训练的为了操作logit,我们首先将logit的值归一化到一个可控制的范围内。具体地,我们根据等式将logit归一化为[-1,1](六)、然后,我们增强3.4. 多元化培训歧义是交互式分词的一个常见问题;分割结果与用户真实意图之间的偏差经常发生。例如图5、当只在骑手的腿上点击一次作为前景时,可以有许多可能的和合理的目标:腿、骑手或骑手/摩托车的整体。一些作品[17,19]专注于解决歧义的推理过程。他们建议预测多个掩码,并要求用户或选择网络选择其中之一。然而,我们的分析得出结论,如果模型是经过良好训练的,那么当更多的点击顺序放置时,推理过程中的歧义可以自然减少;真正的挑战在于训练,其中即使使用更大数量的点击也难以减少歧义。许多以前的作品[27,11,32,22]只是通过在给定的地面实况内/外随机采样正/负点击来模拟训练期间的交互归一化logitsy规范 通过将高斯核放置在面具不能保证点击可以澄清给出的地面实况的轮廓。 因此,很难点击的位置如等式图7示出了等式(7)的示例,其中幅度和标准导数被设置为1和10。ynorm=Tanh(yraw)×2(6)随着优化目标的变化,很好地训练模型。XX√y0=Enhance(ynorm)=ynorm+GF−GB(7)3.3.3动态扩散范围我们利用颜色相似性来衡量亲和力,这是一个强大的低级别功能,用于一些传统的方法。图片+点击Pred 1 Pred 2 Pred 3√X地面实况Pred4ods [26,13]。像素i和像素j之间的亲和度如等式(1)中所示。(八)、σi表示标准偏差。图5. 多样性培训示范我们预测N更多的潜在结果,并选择一个最相似的地面真相传播梯度。原来的头没有显示一=−|我-我|/σ(八)为了简单起见。每个扩散迭代被约束在n个邻域的局部范围内;亲和度也在本地计算。在这项工作中,我们使用四个3 - 3卷积滤波器与dila-tion 1,2,4,8采样的邻居,所以n=48= 32。然后,我们通过迭代地应用扩散来因此,信息流可以在具有均匀颜色的区域中走得更远,并且当遇到边缘时会被截断。3.3.4功能分析对于点击周围的区域,PDM将点击的logit传播到视觉上相似的邻居,这保证了点击周围的正确预测可以在局部区域中推广。对于远离点击的区域,PDM还利用局部一致性进行细化,它强制具有相似颜色的相邻像素来预测相似的标签。在这项工作中,我们通过开发多样化训练(DT)来减少歧义受[17,19]的启发,我们探索了潜在的多样性;不同的是,我们专注于训练过程而不是推理。图5描绘了DT的流水线。我们在训练期间添加另外N个潜在头部,并在推理期间移除在本工作中,我们设置N =4。我们用多样性损失和点击损失来监督这些潜在的头部如等式(9)、分集损失计算每个潜在头部的交叉熵,并选择最小的交叉熵来发起向后传播。通过这种设置,通过允许所有合理的预测来缓解模糊性。我们还设计了一个点击损失,以执行每个潜在的头部,使正确的预测周围标记的点击。如等式表示点击的高斯掩模,其仅保持点击区域中的梯度。总损失是原始二元交叉熵损失、多样性损失和点击损失Logits源高 * 宽N次迭代点击像素扩散结果高 * 宽Pred高 * 宽图像颜色相似性亲和力H * W * n点击头3头4损失4头2头1CDNet规范增强增强2我我亏损1损失2损失37350Σ×个×个×个如等式(十一)、在这项工作中,我们设置0,1,2为0.5,1,1。Ldiv= min(Lbce(Pi,gt)|i ∈ [1,n])(9)概率衰减率为0.7评价方案。为了公平的比较,我们遵循以前作品的协议[32,18,18,22,27,11],并自动生成点击:第一次点击被放置在L点击=i∈[1,n]MiLbce(Pi,gt)(10)地面实况遮罩的中心。随后的点击被迭代地放置在最大误差区域的中心,直到达到目标交集或最大点击数。Ltotal=a0Lbce(P0,gt)+a1Ldiv+a2Lclick(11)在推理过程中我们只保留原来的头。尽管在预测中被去除,但潜在的头部在训练期间做出贡献;它们帮助模型学习更好的表示。基于这些表示,原始头部学习输入点击的分布与预期掩码之间的投影关系,这使得原始头部能够在给定足够点击时在推理期间做出更好的预测。4. 实验4.1. 实验配置实施详情。对于5通道输入,我们将用户点击嵌入到两个高斯映射中,其中振幅为1,标准偏差为10。在f-BRS [27]之后,我们使用相同的Map Fusion块来使用11个卷积和LeakyReLU将5通道输入调整为3通道张量。因此,3通道张量可以被馈送到在ImageNet [4]上预训练的ResNet-50 [9]主干中。在推理期间,我们应用与f-BRS相同的裁剪策略。从第三次点击开始,我们计算预测蒙版周围的最小框,并将框扩展40%。然后,我们根据框裁剪图像,并仅在放大区域上应用交互式分割。训练超参数。我们在SBD [8]训练集上训练CDNet,其中包含8498张图像。我们用320 480裁剪训练图像。对于数据增强,我们应用随机旋转、翻转、随机调整大小(0.75 1.25)、随机亮度(-0.25 0.25)、随机对比度(-0.15 0.4)和RGB移位(移位限制= 10)。我们使用Adam优化器,β1=0。9,β2=0。999,120个时期。前两个时期是预热阶段,学习率从0线性增加到5 × 10-4。对于剩余的时期,应用余弦退火学习率。我们使用异步BatchNorm在4个GPU上训练我们的模型,批量大小为32。培训单击模拟。正/负点击通过在地面真实掩模内部/外部的采样点模拟[32]。前景和背景点的数量在[1,10]和[0,10]评估指标。我们报告了达到目标IoU所需的平均点击次数(NoC),并将目标IoU设置为85%和90%。我们将默认的最大点击次数设置为20,并报告20次点击无法到达目标IoU的失败次数(NoF)。由于响应时间对于工 业 应 用 是 重 要 的 , 我 们 还 报 告 了 每 点 击 秒 数(SPC)来测量我们的方法在单个1080 Ti GPU上的速度。4.2. 与最新技术水平的我们比较我们的条件扩散网络与其他国家的最先进的点击为基础的方法在四个基准。比较结果见表1。1.一、• GrabCut[26]:GrabCut数据集包含50张图像。它通常用于评估交互式分割模型的性能。• Berkeley[24]:Berkeley数据集包含96张图像,其中包含100个用于测试的实例掩码。• SBD[8]:SBD是一个相对较大的数据集,包含2,802张测试图像和6,671个实例掩码。• DAVIS[25]:DAVIS数据集被注释用于视频对象分割任务,其中包含50个视频。我们对与BRS [11]相同的345帧进行采样。结果分析。如Tab.所示。1,CDNet在所有四个数据集上都优于其他模型,具有较大的利润率。我们不包括FCANet [20],因为它比其他作品使用更多的训练数据。速度分析交互式分割通常用于需要即时反馈的注释工具。因此,推理速度是一个重要因素。FDM对整个图像上的亲和力进行建模,但其应用于具有低分辨率的特征。PDM应用于全分辨率logits,但它扩散的信息在局部邻域。因此,FDM和PDM带来的预算是可以承受的。在选项卡中。2.在DAVIS数据集上,我们比较了我们的方法与f-BRS [27]和BRS [11],以前的SOTA方法的运行速度。f-BRS [27]和BRS [11]应用在线学习来微调网络的参数,这使他们能够通过几次点击来做出准确的预测。7351方法GrabCut伯克利SBD戴维斯NoC@85NoC@90NoC@90NoC@85NoC@90NoC@85NoC@90图切割[2]7.9810.0014.2213.615.9615.1317.41测地线席子[7]13.3214.5715.9615.3617.6018.5919.50随机步行者[6]11.3613.7714.0212.2215.0416.7118.31欧氏星凸性[7]7.249.2012.1112.2114.8615.4117.70测地星凸性[7]7.109.1212.5712.6915.3115.3517.52Growcut [28]-16.7418.25----DOS w/o GC [32]8.0212.59-14.3016.7912.5217.11DOS与GC [32]5.086.08-9.2212.809.0312.58潜在多样性[17]3.204.79-7.4110.785.059.57RIS-Net [18]-5.00-6.03---[22]第二十二话-3.585.60----BRS [11]2.603.605.086.599.785.588.24f-BRS-B-50 [27]2.502.984.345.068.085.397.81我们2.222.643.694.377.875.176.66表1.GrabCut、Berkeley、SBD和DAVIS数据集的评估结果NoC@85/90表示获得85/90%的IoU所需的平均点击次数然而,在线学习是耗时且难以部署的。结果表明,CDNet不仅在准确率上优于BRS和f-BRS,而且速度也明显快于BRS。方法基线我们BRS[27]f-BRS [27]SPCNoC@900.208.420.236.661.477.930.327.81表2. DAVIS数据集上的推理速度比较。使用相同的硬件设置测量速度。以评估性能。由于DAVIS中的掩模具有高质量的注释, 并且DAVIS中的 图像覆 盖了各种 场景, 因此DAVIS上的结果更具说服力。我们首先证明了我们的三个核心组件的有效性:FDM、PDM和DT。然后,我们深入到细节,给一个深入的分析FDM和PDM。方法NoF20@90NoF100@90NoC100@90基线846424.03BRS [11]775120.89f-BRS [27]785020.70我们654818.59表3. DAVIS数据集上的NoC 100实验。NoF100@90表示无法到达IoU的失败映像数100下点击0.9 NoC100@90表示在100次点击下达到IoU 0.9所需的平均点击次数。100次点击的分析。遵循f-BRS [27],在表1中。3,我们还报告了DAVIS数据集上100次点击下的度量动机是传统NoC20评估需要20次点击的图像和需要200次点击的图像,具有相同的NoC结果。然而,许多图像需要超过20次点击,这使得NoC 20无法区分困难的图像。实验结果表明,在NoC100的度量下,该方法具有明显的裕度,性能优于f-BRS。4.3. 消融研究我们进行了大量的消融研究,以验证我们的方法的有效性。我们选择DAVIS [25]数据集(a) 基线(b)采用FDM(c)采用FDM+PDM图6. DAVIS数据集上的定性结果。三列展示了基线方法、我们使用FDM的方法以及我们使用FDM+PDM的方法的结果。核心组件的有效性。在选项卡中。4、验证了FDM、PDM和DT的有效性。第一行中列出的基线是具有5通道输入的DeeplabV3+ [3]。 结果表明,三个新模块都取得了稳定的 进步。具有DT的基线+可以用作更强的基线,而无需在干扰期间进行额外的计算。FDM带来了明显的改进,推理时间仅为0.01秒。PDM需要可承受的0.02秒,同时为NoC带来显著的改善CDNet配备了所有三个建议的组件,通过合理的计算获得了显着的性能增益7352版本DT FDMPDMNoC@80NoC@85NoC@90NoF@85NoF@90SPC基线4.275.608.4252840.198基线e+✓4.245.478.1451840.198CDNet✓4.105.407.6451720.208CDNet✓4.075.397.0649630.2213.895.176.6646610.230CDNet✓ ✓✓表4.DAVIS数据集上CDNet核心组件的消融研究FDM表示特征扩散模块。PDM表示像素扩散模块。DT指的是多样化的培训。对于度量,NoC代表获得目标IoU所需的平均点击次数。NoF表示在20次点击中无法到达目标IoU的失败案例数。SPC是SecondPer Click的缩写。与原始非局部层相比带来改进但是与FDM相比,它仍然是次优的。因此,FDM中的条件亲和力被证明是有效的。振幅00.20.512NoC@906.896.876.866.666.72表5.DAVIS数据集上特征扩散模块的消融研究S、D表示源约束、目的地约束。头顶FDM和PDM的定性比较如图所示。六、三列显示基线 、 具 有 FDM 的 CDNet 和 具 有 FDM+PDM 的CDNetFDM使得点击的特征能够被推广到更宽的区域,这有助于校正大区域的错误预测。PDM以低级别的一致性细化边界每列的点击位置并不完全相同,因为点击是根据4.1中介绍的评价方案生成的。FDM的实验。在选项卡中。5,我们证明了我们提出的条件亲和度的有效性。首先,由于FDM引入了用于目的地约束的辅助监督,因此我们在没有FDM的基线上添加辅助损耗以在第二行中进行比较。然后,我们开发了FDM的四种变体,具有不同的源和目的地约束设置:非局部可以看作是有限差分法的一种变体,不受任何约束; Source 2Full表示仅具有源约束的版本;Des 2Des使用FDM中的目的地约束映射来约束扩散源和目的地两者; Source 2Des-应用源/目标约束,但删除对目标约束的监督,并使模型以端到端的方式学习它。结果表明:1)单一的辅助损失不能带来改善。2)非局部性会产生负面影响。我们分析了很难直接学习具有固定卷积滤波器的条件亲和图进行交互式分割。3)单源/目标约束表6.在DAVIS数据集上进行10次迭代的PDM增强幅度实验。迭代0151020SPCNoC@900.2087.540.2167.150.2246.740.2306.660.2436.66表7.在DAVIS数据集上进行PDM的扩散迭代实验PDM的实验。PDM构造一个条件扩散源,并在局部区域迭代扩散信息。条件扩散源是通过使用高斯核增强点击周围的logits来构造的,如等式(1)。(七)、在选项卡中。6,通过改变高斯核的幅度,证明了条件信源的有效性。可以观察到,源增强带来稳定的改善,并且我们简单地将幅度设置为1。在选项卡中。7,我们探索了不同扩散迭代的在约10倍细化时,考虑到精度和速度之间的权衡,我们在这项工作中将迭代次数设置为10。5. 结论在本文中,我们制定了基于点击的互动分割作为一个信息扩散的过程,并提出了条件扩散网络。我们设计了一个特征扩散模块和一个像素扩散模块来将信息从点击点传播到目标区域。实验表明,我们的方法是有效的四个基准,并设置新的国家的最先进的。版本SDNoC@85NoC@90SPC基线辅助损失5.605.608.428.610.1980.198非本地人[29]Source2Full✓5.875.568.818.490.2020.203Des2Des✓✓5.628.100.208Source2Des−✓✓5.538.040.208FDM5.407.640.208✓✓7353引用[1] 白俊杰和吴晓东。基于容错涂鸦的交互式图像分割。IEEE计算机视觉和模式识别会议论文集,第392-399页,2014年。一个[2] Yuri Y Boykov和M-P Jolly。交互式图切割用于ND图像中目标的最佳边界第八届IEEE计算机视觉国际会议论文集。ICCV 2001,第1卷,第105-112页。IEEE,2001年。七个[3] Liang-Chieh Chen,Yukun Zhu,George Papandreou,Florian Schroff,and Hartwig Adam.用于语义图像分割的具有粗糙可分离卷积的编码器-解码器。在欧洲计算机视觉会议(ECCV)的会议记录中,第801-818页,2018年。二、七[4] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi,and Li Fei-Fei. Imagenet:一个大规模的分层图像数据库。2009年IEEE计算机视觉和模式识别会议,第248-255页。Ieee,2009年。六个[5] 傅军,刘静,田海杰,李勇,鲍勇军,方志伟,卢汉青.用于场景分割的双注意网络。在IEEE计算机视觉和模式识别会议论文集,第3146- 3154页三个[6] 利奥·格雷迪图像分割的随机游走。IEEE Transactionson Pattern Analysis and Machine Intelligence , 28(11):1768-1783,2006。一、二、七[7] Varun Gulshan 、 Carsten Rother 、 Antonio Criminisi 、Andrew Blake和Andrew Zisserman。用于交互式图像分割的测地星凸性。在2010年IEEE计算机学会计算机视觉和模式识别会议上,第3129-3136页IEEE,2010。二、七[8] BharathHariharan,PabloArbela' ez,LubomirBourdev,Subhransu Maji,and Jitendra Malik.从反向检测器的语义 轮 廓 2011 年 计 算 机 视 觉 国 际 会 议 , 第 991-998 页IEEE,2011年。二、六[9] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition,第770-778页,2016中。二、六[10] Zilong Huang,Xinggang Wang,Lichao Huang,ChangHuang,Yunchao Wei,and Wenyu Liu. Ccnet:Criss-cross attention for semantic segmentation.在IEEE计算机视觉国际会议论文集,第603-612页,2019年。三个[11] 张元东和金昌洙通过反向传播细化方案的交互式图像分割。在IEEE计算机视觉和模式识别会议的论文集中,第5297-5306页,2019年。一、二、五、六、七[12] Tae Hoon Kim、Kyoung Mu Lee和Sang Uk Lee。用于交互式分割的非参数高阶学习。在2010年IEEE计算机协会计算机视觉和模式识别会议上,第3201IEEE,2010。二个[13] John Lafferty , Andrew McCallum , and Fernando CNPereira.条件随机字段:用于分割和标记序列数据的概率模型。2001. 五个[14] Hoang Le,Long Mai,Brian Price,Scott Cohen,HailinJin,and Feng Liu.用于对象选择的交互式边界预测。在欧洲计算机视觉会议(ECCV)的会议记录中,第18-33页一个[15] Victor Lempitsky Pushmeet Kohli Carsten Rother和TobySharp基于边界框先验的图像分割在2009年IEEE第12届计算机视觉国际会议上,第277-284页IEEE,2009年。一个[16] Yin Li,Jian Sun,Chi-Keung Tang,and Heung-YeungShum.懒拍ACM Transactions on Graphics(ToG),23(3):303-308,2004. 一个[17] Zhuwen Li,Qifeng Chen,and Vladlen Koltun.基于潜在差异的交互式图像分割。在IEEE计算机视觉和模式识别会议论文集,第577-585页,2018年。二、五、七[18] JunHao Liew , Yunchao Wei , Wei Xiong , Sim-HengOng,and Jiashi Feng.区域交互式图像分割网络。2017年IEEE国际计算机视觉会议(ICCV),第2746-2754页IEEE,2017年。二六七[19] Jun Hao Liew,Scott Cohen,Brian Price,Long Mai,Sim- Heng Ong,and Jiashi Feng. Multiseg:来自最小用户 输 入 的 语 义 上 有 意 义 的 、 尺 度 多 样 的 分 割 在IEEE/CVF计算机视觉国际会议论文集,第662-670页,2019年。五个[20] Zheng Lin,Zhao Zhang,Lin-Zhuo Chen,Ming-MingCheng,and Shao-Ping Lu.第一次点击关注的交互式图像分割。在IEEE/CVF计算机视觉和模式识别会议论文集,第13339-13348页,2020年。一、二、六[21] Sabarinath Mahadevan 、 Paul Voigtlaender 和 BastianLeibe。迭代训练的交互式分割。arXiv预印本arXiv:1805.04398,2018。一个[22] Soumajit Majumder和Angela Yao。交互式实例分割的内容感知多级指导在IEEE计算机视觉和模式识别会议的论文集,第11602-11611页一、二、五、六、七[23] Kevis-Kokitsi Maninis,Sergi Caelles ,Jordi Pont-Tuset和Luc Van Gool。 深度极限切割:自国立塞切尼图书馆 对象分割。在IEEE计算机视觉和模式识别会议论文集,第616-625页一个[24] 凯文·麦吉尼斯和诺埃尔·奥康纳
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功