没有合适的资源?快使用搜索试试~ 我知道了~
26470通过相互引导和多实例细化进行人类实例抠图0Yanan Sun 1 , 2 Chi-Keung Tang 1 Yu-Wing Tai 201 香港科技大学 2 快手科技0{ now.syn, yuwing } @gmail.com cktang@cs.ust.hk0摘要0本文介绍了一种名为人类实例抠图(HIM)的新的抠图任务,要求相关模型自动预测每个人类实例的精确alpha遮罩。直接结合实例分割、软分割和人类/常规抠图等密切相关的技术,在需要解开多个实例之间交织的颜色(沿着毛发和细边界结构)的复杂情况下很容易失败。为了解决这些技术挑战,我们提出了一种人类实例抠图框架,称为InstMatt,其中使用一种新颖的相互引导策略与多实例细化模块协同工作,以描绘出具有复杂和重叠边界的人类之间的多实例关系(如果存在)。提出了一种名为实例抠图质量(IMQ)的新的实例抠图度量,解决了缺乏统一和公正的评估手段,强调实例识别和抠图质量的问题。最后,我们构建了一个用于评估的HIM基准,其中包括合成和自然基准图像。除了对具有多个和重叠人类实例的复杂案例进行了彻底的实验结果外,还对一般实例抠图进行了初步结果展示。代码和基准可在https://github.com/nowsyn/InstMatt中获得。01. 引言0移动互联网技术的快速发展引发了多媒体行业的快速增长,特别是自媒体领域,用户在其中广泛使用编辑工具来美化或重新创建他们的图像和视频内容。作为高效图像编辑的主要技术之一,图像抠图在深度神经网络在该任务中的广泛应用下取得了显著的改进。然而,现有的抠图方法在许多场景中仍然失败,或者不易使用,例如提取前景。0此工作是在YananSun在快手科技实习期间完成的,得到了快手科技和香港特别行政区研究资助局第16201420号资助。0实例分割0(MaskRCNN)0人类抠图0图像软分割(SSS)0人类实例抠图(我们的)0人类抠图0图1. 与相关任务的比较,包括来自SSS[5]的软分割结果,来自MaskRCNN [22]的实例分割结果,来自RVM[36]的人类抠图结果以及我们的结果,以及来自我们的人类实例抠图结果。0在去除背景人物时,人类通常会进行人类级别的编辑,如图1所示:如果我们想要独立提取和编辑每个人类实例怎么办?与语义与实例分割类似,现有的抠图方法专注于基于给定修剪图或已知对象类别的区域,无法区分实例。为了解决这个问题,我们提出了一项名为人类实例抠图(HIM)的新任务,旨在自动提取给定图像中每个人类实例的精确alpha遮罩。HIM与以下常规任务相似,同时具有根本性差异,使其成为一个独立的问题:1)实例分割旨在区分实例,但它只能产生不考虑半透明性的锐利对象边界;2)最近的软分割[5]能够生成具有实例感知特征的不同类别的多个实例的软分割,但无法处理相同类别的实例;3)常规抠图旨在提取精确的alpha遮罩,但缺乏实例感知性。总的来说,人类实例抠图是一个统一的任务,包含了上述相关任务的特征,同时引入了新的技术挑战。常规抠图基于图像合成。nn26480方程中,图像I是由前景F层和背景B层通过alphaα调制而成的组合:0I = αF +(1-α)B。(1)0为了适应多实例抠图,我们将2层方程1修改为多实例分层组合之一,其中每个实例层都被其相应的alpha α衰减:0I =0i = 0,α i Li,s.t.0i = 0,α i = 1(2)0其中L i和α i分别表示实例i > 0的前景和alpha抠图;L 0和α0分别表示背景及其相应的alpha抠图;n是实例的数量。这个方程也出现在[5,31]中,但所有这些相关的抠图和分割任务都不是实例感知的。实例抠图的目标是解决所有i >0的目标抠图α i。通过探索多个实例之间的复杂关系,我们提出了一种新的实例抠图框架,称为InstMatt,其中一种新颖的相互引导策略使得深度模型能够将混合的合成颜色分解为各自的实例。我们的相互引导策略既考虑了实例与背景之间的关系,也考虑了实例之间的关系。此外,我们还精心设计和构建了一个多实例细化模块,用于在实例之间交换信息,以同步预测进行进一步的细化。配备了新颖的相互引导和多实例细化,我们的InstMatt不仅能够产生高质量的人体alpha抠图,还能够区分图中的多个人体实例,如图1所示。对于这个新的实例抠图任务,现有的实例分割或抠图评估指标是不足够的,它们是为其中一个任务设计的。我们提出了一种新的度量标准,称为实例抠图质量(IMQ),同时衡量实例识别质量和alpha抠图质量。为了对实例抠图技术进行全面和综合的验证,我们构建了一个实例抠图基准,HIM2K,包括一个合成图像基准和一个自然图像基准,总共有2000张带有高质量抠图真值的图像。为了展示我们的技术贡献超越人体实例抠图的潜力,我们还展示了对不仅限于人体的多对象实例进行抠图的初步结果,这是一个有前途的未来方向。02. 相关工作02.1.抠取自然图像。图像抠图是一种像素级的任务,旨在提取前景对象的alpha抠图。0传统的抠图方法可以总结为两种方法。基于采样的方法[16,20,23,23]收集一组已知的前景和背景样本来估计未知的alpha值。基于传播的方法[6,7,12,21,30,31]假设相邻像素是相关的,并使用它们的亲和性将alpha从已知区域传播到未知区域。传统方法依赖于低级或统计特征,由于其有限的特征表示,很容易在复杂情况下失败。深度卷积神经网络(CNN)的广泛应用在很大程度上解决了这个特征表示问题。DCNN [15]和DIM[55]是第一个在抠图中应用CNN的代表性方法,随后又出现了一系列推动最新抠图性能的有价值的工作。基于深度学习的方法可以进一步分为三种方法。基于Trimap(或掩码)的方法[9,17,18,24,25,33,41-43,48,49,52,56]使用额外的Trimap来将模型聚焦于目标前景对象。通过精心设计网络,这些方法已经取得了出色的性能。在[35,45]中,通过使用一张没有相关前景对象的额外照片提供有用的先验信息,放松了用户提供的约束条件。无Trimap的方法[44,58]消除了对额外输入的依赖。这些方法利用注意力或显著性来定位前景对象并提取相应的alpha抠图。0人像抠图。人像抠图是一种特定类别的图像抠图任务,其中前景对象即人的语义信息是已知的。已知的人体语义有效地指导相关的人像抠图方法,因此它们通常不需要额外的输入。基于深度学习的人像抠图首先在[46]中提出,然后在SHM[11]中得到改进。BSHM[38]提出了一种利用粗糙注释数据提升性能的方法。MODNet[28]通过考虑低分辨率语义和高分辨率细节,解决了自动和快速的人像抠图问题。RVM[36]提出了一种视频人像抠图框架,使用循环解码器提高鲁棒性。此外,[57]中提出了一种级联框架,从低到高分辨率提取alpha抠图。02.2. 分割实例分割。实例分割同时需要实例级和像素级的预测。现有的方法可以分为三类。自上而下的方法[8, 10, 13, 22, 26,27, 34,40]首先检测实例,然后在检测到的边界框内分割对象。相反,自下而上的方法[19,39]首先学习每个像素的嵌入,然后将它们分组成实例。直接方法[53,54]不需要边界框和分组。它们通过一次分类预测实例掩码,而无需检测或聚类步骤。𝑀!𝑀"𝑀#𝛼!𝛼"𝛼#̸I = αiLi����target (T )+α0L0� �� �background (B)+n̸reference instances (R)(3)I = αtLt + αbLb + αrLr,s.t. αt + αb + αr = 1(4)26490MaskRCNN0三通道掩码10三通道掩码30三通道掩码20抠图分支 三通道抠图10抠图分支0抠图分支0三通道抠图20三通道抠图30多实例0细化0目标掩码 参考掩码 背景掩码0目标抠图 参考抠图 背景抠图0三通道掩码 三通道抠图0输入图像0输出0输出特征 输入图像0放大0相互引导策略0生成0图2.整体的InstMatt框架由相互引导和多实例细化组成。我们首先应用MaskRCNN获取实例掩码,然后为每个实例生成三通道掩码,为抠图分支提供相互引导。通过相互引导策略,我们将粗糙的三通道掩码升级为所有实例的精细三通道抠图。最后,设计了一个多实例细化模块(如图3所示),利用底层三通道抠图的信息差异进一步提高实例抠图的质量。0软分割。软分割是一种像素级任务,将图像分解为多个段落,其中每个像素可能部分属于多个段落。不同的分解方法会导致不同的段落。例如,软颜色分割方法[3, 4, 47, 50,51]将图像分解为具有均匀颜色的软层;光谱抠图[31]将图像聚类为一组光谱段落;SSS[5]通过聚合高级嵌入和局部纹理,将图像分解为软语义段落。02.3. 实例抠图0实例抠图将每个像素映射到一组带有唯一实例ID的软或分数alpha值。除了继承实例分割和软分割的困难之外,实例抠图还引入了新的算法挑战。具体而言,与实例分割相比,实例抠图中的每个像素可以部分地属于多个实例;与软分割相比,每个像素可以属于同一类别的多个实例。据我们所知,目前没有统一的框架可以同时解决实例抠图问题带来的这些技术挑战。在本文中,我们以人像实例抠图为例,提出了一个框架,通过我们的新颖的相互引导和多实例细化来解决上述问题。03. 方法0我们的HIM框架称为InstMatt,包括两个步骤,首先识别实例,然后提取它们各自的alpha遮罩。这使得模型能够全局发现实例,然后根据局部上下文对其进行细化。0上下文。图2说明了整个框架。03.1. 观察0稀疏性。方程2表明,给定像素可以属于多个实例,因此αi,i = 1 ∙ ∙ ∙n。然而,在现实生活中的图像中,即使包含许多实例,每个像素通常只包含不超过两个非零的α,属于一个实例和背景,或者两个重叠的实例,从而满足多实例抠图的稀疏性观察。0互信息和Tri-mattes。为了估计目标实例的alpha遮罩αi,其他实例j � =i可以被视为参考信息。注意,我们不将其他实例视为背景的一部分,因为它们具有不同的语义表示。因此,我们可以使用三个分量重新制定方程2,即目标实例T、任何其他实例R(也称为参考实例)和背景B:0j =1 且 j � = i α j L j0如果我们将分量R视为一个新的组合层,方程3则简化为稀疏表示的方程4,其中考虑了稀疏约束:0其中下标t、r、b分别表示三个分量T、R、B。对于目标实例,方程4意味着SeparationMulti-Instance InteractionAggregationn×Tri-mattesn×Featuresn×Tri-matttes𝒯-ReduceRefinementℛ-Reducen×Featuresℱ!ℱ!,#ℱ!,$ℱ!,%ℱ&ℱ&,#ℱ&,$ℱ&,%ℱ!,#ℱ!,$ℱ!,%$ℱ!,#ℱ&,#ℱ&,$ℱ&,%$ℱ!,$$ℱ!,%$ℱ!,#$ℱ!,$$ℱ!,%ℱ!$ℱ!,#$ℱ!,$$ℱ!,%$ℱ&,#ℱ&,#ℱ&,$ℱ&,%$ℱ&,$$ℱ&,%$ℱ&,#$ℱ&,$$ℱ&,%ℱ&ℱ!,#ℱ!,$ℱ!,%ℱ',#ℱ',$ℱ',%$ℱ!,#$ℱ',#$ℱ!,$$ℱ',$$ℱ!,%$ℱ',%……………………Refinement…Refinementℬ-Reduceℱ!,#ℱ!,$$ℱ',#ℱ&,#ℱ&,$ℱ'(!,#ℱ',$…………ℱ')!,#𝑛1𝑛 − 1 ×ℱ',#𝑛 − 1sumsumsubstractaverageℱ!,#$ℱ',$ℱ&,#ℱ'(!,#……ℱ')!,#ℱ',$𝑛 − 1sumaverageℱ!,%ℱ&,%ℱ',%……𝑛average$ℱ',%…Interchange features𝒯-Reduceℛ-Reduceℬ-ReduceMulti-Instance Refinement…𝒜!𝒜&ℱ&,#ℱ&,$ℱ&,%$ℱ&,#$ℱ&,$$ℱ&,%……𝒜!𝒜&…Mi,t = Mi,Mi,r =n̸Mi,b = 1 − Mi,t ∪ Mi,r(6)26500(b)多实例循环细化0(c)多实例并行细化0细化实例1 细化实例n0(d)特征降维0细化实例1 … n0(a)整体0图3.(a)我们的多实例细化模块的结构,实例之间通过多实例交互层交换信息以改进其特征。提出并讨论了两种代表性的多实例细化策略,即(b)循环细化和(c)并行细化。图(d)说明了两种细化方式中使用的三种特征降维操作。0每个像素的alpha遮罩可以相应地分解为三个分量α t、αr和αb(其中一个或两个分量可以为零)。这三个分量相互提供互信息,被统称为tri-mattes。03.2. 互相引导策略0给定一张图像,我们首先应用MaskRCNN[22]来提取人体实例的粗糙掩膜M。挑战在于将粗糙掩膜转化为每个实例的精确alpha遮罩。当只有一个实例存在时,该任务转化为传统的人体抠图,可以通过[56]或其他抠图技术来解决。为了处理多个实例,根据上述观察,我们提出了一种新颖的互相引导策略,使用三重掩膜tri-mask来实现。Tri-mask被定义为M t、M r和Mb的连接,分别遮罩了T、R和B的区域。对于实例i,Mi,t、M i,r和M i,b通过以下tri-mask生成公式计算得出,0j =1 且 j � = i M j (5)0随后,对于每个实例,我们将图像和其三重掩膜的连接作为输入,输入到一个抠图分支中提取其tri-matteA,即alpha遮罩α t、α r和αb的连接。抠图分支是一个编码器-解码器抠图网络,采用与[56]中使用的网络相同的结构。在抠图分支之后,我们提取所有实例的tri-mattes。为了监督A,采用多实例约束,将在第3.4节介绍。tri-mask中的先验信息为模型在像素分解中提供了全面的引导。一方面,M t、M r和Mb之间的相互排斥指导0模型用于区分人体实例和背景。另一方面,M t 和M r之间的分离指导模型区分实例。受到约束条件α t + α r + αb = 1的限制,我们强制模型以对比的方式学习互斥分解。03.3. 多实例细化0给定n个实例,通过前述的相互引导,可以得到n个三通道抠图(α t ,α r ,α b)的三元组。这种引导鼓励实例内的一致性,但不鼓励实例间的一致性,这可能导致不同实例之间重叠的三通道抠图不对齐。我们利用这种实例间的不一致性来纠正估计的alpha抠图的潜在错误。基于三通道抠图,我们设计了一个多实例细化模块(MIR),如图3所示,以进一步提高所有目标实例的alpha抠图的质量。0整体结构。我们的多实例细化模块包括三个步骤:分离、交互和聚合,如图3-(a)所示。对于每个实例,我们使用Fi表示在抠图分支的预测头之前的最终层的特征。虽然Fi包含了T、R和B的信息,但在这三个分量上进行单独的操作是不可行的。因此,我们使用三通道抠图提供空间注意力,以获得T、R和B的分离特征。具体而言,通过乘以α i,t、αi,r和α i,b,我们得到三个特征F i,t、F i,r和Fi,t,i∈{1,2,...,n}。T、R和B的分离表示使得实例之间可以自由地进行大规模的通信和交互。在第二步中,我们提出了一种新颖的多实例交互层,其中每个实例将其特征发送给其他实例,并接收来自其他实例的特征。由于特征的数量随实例的数量而变化,需要进行特征约简操作以整合这些接收到的特征进行细化。具体而言,̸̸iii26510从逻辑上讲,细化包括三个约简操作,即T-约简、R-约简和B-约简,其在方程7-9(图3-(d))中定义。0˜ F i,t =102(F i,t + 10n-10j = 1 F j,r -0j = 1 且 j ≠ i Fj,t)(7)0˜ F i,r =102(F i,r +0j = 1 且 j ≠ i F j,t)(8)0˜ F i,b =10n0j = 1 F j,b(9)0方程(7)-(9)可以看作是一种平均化过程。这种“平均化”可以提供实例之间的通信,以减轻不确定性并稳定收敛。在多实例交互层之后,我们将˜ F i,t ,˜ F i,r和˜ Fi,t重新统一,以产生一个增强的特征用于三通道抠图估计。0循环细化与并行细化。在多实例交互层中,实例交换特征信息后,存在许多细化可能性,因为实例可以同时或依次细化其特征。在这里,我们讨论了两种代表性的多实例交互层细化策略,即循环细化和并行细化,如图3-(b)和(c)所示:0•循环细化。实例按顺序利用其他实例的特征进行细化。例如,实例1首先细化其特征,然后将其细化后的特征发送给所有其他实例。接下来,实例2利用实例1的细化特征和其他实例的未细化特征进行特征细化,依此类推。最后,实例n根据所有其他实例的细化特征对其特征进行细化。0•并行改进。实例同时利用其他实例的特征来改进自己的特征。所有实例都基于其他实例的未改进特征来改进自己的特征。0两种改进策略都能有效利用多实例互信息来减轻异常值的影响。由于循环改进是有序的,非交互式应用中更适合并行改进。本文采用并行改进。更多比较和实现细节可以在补充材料中找到。03.4. 多实例约束0传统的抠图损失,即alpha损失和金字塔拉普拉斯损失,在实例抠图中仍然适用。特别地,我们应用alpha损失和金字塔拉普拉斯损失进行0分别表示αt,αr和αb。它们的总和分别表示为Lα和Llap。Alpha损失和金字塔拉普拉斯损失直接规范了估计的alphamatte与真实值之间的距离,没有考虑多个实例以及背景之间的组合约束和alpha约束。我们调整组合损失以适应多实例组合约束,如下所示的方程10,0Lmc=||αtFt+αrFr+αbFb-I||1 (10)0此外,我们还采用了三通道alpha约束作为方程11中的多实例alpha约束,以减少解空间:0Lmα=||αt+αr+αb-1||1 (11)0最后,总损失是上述损失的总和,如方程12所示,0L=Lα+Llap+Lmc+Lmα (12)0我们将方程12中定义的损失应用于抠图分支和多实例改进模块的三通道抠图。4. 基准0现有的基准是为实例分割设计的,例如COCO数据集[37],或者抠图,例如Composition-1K[55],但不适用于实例抠图。它们无法为实例抠图提供全面的评估。在本文中,我们提出了一个名为HIM2K的人体实例抠图基准,它由两个子集组成,分别是合成图像子集和自然图像子集,分别包含1,680张和320张图像。0合成子集。我们收集了各种人体图像,并精心提取了人体前景。然后,我们随机选择2-5个这样的前景F_i,并根据下面的方程13将它们迭代地组合到从BG20K[32]中采样的非人类背景图像上,其中I0是背景图像:0Ii=αiFi+(1-αi)Ii-1,其中i∈{1,...,n} (13)0将方程13扩展到每个前景对象层,可以得到一个统一的公式,如方程14所示:0Ii=I00j=1(1-αj)+0j=1 αjFj0k=j(1-αk) (14)0如果我们用L来表示前景图像F或背景图像I0,那么最后一次迭代的方程14可以简化为方程15,与方程2相同:0I=0i=0 α'iLi (15)IMQ =�α,ˆα∈TP S(α, ˆα)|TP| + 12|FP| + 12|FN |(16)S(α, ˆα) = 1 − min(wE(α, ˆα), 1)(17)IMQ =α,ˆαTP(α, ˆα)TP(18)26520图4. HIM2K示例:上面是合成图像,下面是自然图像。0其中α'i表示第i层Li的alphamatte,即当i>0时,实例i的目标估计值。0自然子集。考虑到合成图像和真实图像之间的领域差异,我们构建了一个自然子集进行公平评估。自然子集包含320张图像,包含多个人体实例,姿势和场景各异,通过使用Photoshop进行手动标注获得了真实的alphamatte。尽管可能存在不完美(但仍然相当准确)的注释,但我们发现超过98%的区域不包含超过3个重叠区域,这使得注释的真实性值得信赖。在自然子集上的评估可以验证不同方法在真实世界照片上的有效性和稳定性。图4显示了两个子集的示例。05. IMQ度量在本节中,我们介绍一种新的实例抠图度量标准。现有的度量标准设计用于抠图或实例分割,包括语义分割。实例分割度量标准,如掩码平均精度(maskAP),用于衡量二进制实例掩码的质量,因此不适用于评估过渡区域中具有分数值的alpha抠图。另一方面,最广泛使用的抠图度量标准,即四个误差MAD(或SAD)、MSE、Gradient和Connectivity,衡量的是没有实例感知性的alpha抠图质量。现有度量标准的上述限制需要一种新的度量标准,我们称之为实例抠图质量(IMQ)。0实例抠图质量。IMQ在关注实例识别质量和抠图质量的基础上衡量实例抠图质量。受到全景质量的启发,IMQ由方程16定义:0其中S是相似性度量函数;TP、FP和FN分别是真正例、假正例和假负例集合;α和ˆα是预测的和真实的实例alpha抠图。IMQ的计算分为两个步骤:实例匹配和相似性度量,如方程16所示。0实例匹配。为了将预测的实例抠图与真实的实例抠图进行匹配,匹配准则是alpha和ˆα之间的交并比(IoU)。我们首先通过应用α >0将每个实例抠图量化为二进制掩码,然后计算IoU矩阵。基于IoU矩阵,我们应用匈牙利匹配[1],一种贪婪的分配策略,实现一对一的分配。所有分配的预测实例抠图都被视为TP候选集,如果其IoU高于阈值(本文采用0.5),则将候选集分配给TP。在确定TP集之后,可以轻松得到FP集和FN集。0相似性度量。相似性度量准则定义如下方程17所示,其中w是平衡因子,E是误差函数,例如MSE。0我们将应用MSE误差函数来度量相似性的IMQ表示为IMQ mse。如果我们分别将误差函数E替换为MAD、Gradient和Connectivity,我们将得到IMQ mad 、IMQ grad 和IMQ conn 。0分析。与全景质量类似,IMQ可以分解为两个组成部分,如方程18所示,0| TP | � �� � 抠图质量(02 | FN | � �� � 识别质量(RQ)0RQ与F1-score具有相似的表达,F1-score是一种广泛用于识别任务的度量标准,而MQ用于衡量TP集的抠图质量。与现有的实例分割和抠图度量标准不同,RQ和MQ的结合为实例抠图质量提供了公平和全面的评估。06.实验在本节中,我们介绍我们的合成训练数据集、评估和消融研究。有关实现的更多细节,包括网络结构、数据增强和训练计划,可以在补充材料中找到。06.1.合成训练数据集0由于没有现成的人类实例抠图训练数据集,我们按照[55]的方法构建了我们的合成训练数据集,将人类实例合成到背景图像中。具体而言,对于前景,我们从Adobe ImageMatting数据集[55]、Distinctions-646[44]和自己收集的数据集中收集了38,618个带有抠图注释的人类实例。对于背景,我们使用了来自[32,49]的非人类高分辨率图像。为了生成合成图像,我们随机从前景集中选择2到5个实例,并将它们合成在一起。124563124563(Ours)26530图像 MaskRCNN CascadePSP SIM MaskGuided InstMatt (我们的方法)0图像 Patch CascadePSP MaskGuided InstMatt0图5. 真实世界图像上的定性比较。右侧显示了补丁1-6的放大图。0图像MaskRCNNCscadePSPInstMatt0图6. COCO数据集上的定性结果。0猫狗0图7. 对其他类别(例如猫和狗)的适应性。0在背景图像上合成前景图像。对每个前景图像进行随机裁剪和缩放。为了避免出现完全遮挡的实例等退化情况,我们在一定合理范围内对实例进行随机间隙或重叠的合成。合成是根据方程13进行迭代过程。最后,我们的训练数据集中包含了35000个带有多个实例的合成图像。06.2.人体实例抠图评估。我们在多个数据集上进行联合定性和定量评估,包括HIM2K、RWP636 [ 56 ]、SPD [ 2 ]、COCO[ 37]数据集以及更复杂的真实世界图像。HIM2K是人体实例抠图的提出基准。由于我们的方法是第一个解决实例抠图问题的工作,我们将我们的方法与实例分割方法[ 14 , 22]以及基于MaskRCNN [ 22 ]的现有最先进抠图方法[ 18 , 33, 48 , 56]进行比较。为了验证我们方法的有效性,我们还在人体抠图基准Real World Portrait 636(RWP636)和人体分割数据集Supervisely Person dataset(SPD)上进行比较。SPD包含5418张带有精细掩码注释的图像。我们从SPD中拆分出包含500张图像的子集作为测试数据集。表1和表2列出了三个测试集上的定量结果,显示我们的方法达到了最先进的性能。图5展示了复杂图像上的定性比较,表明实例抠图能够解决具有多个和重叠实例的挑战性案例,这是其他现有实例分割或抠图技术无法解决的。需要注意的是,虽然COCO是检测和分割任务中广泛使用的测试数据集,但其掩码注释是通过粗略多边形标记的,因此COCO不适合用于实例抠图任务的定量结果比较。因此,我们在图6中对COCO数据集进行了定性比较。与实例分割算法相比,我们的InstMatt框架在处理复杂抠图场景方面表现显著优越。QmseMaskRCNN [22]18.3725.650.4519.0724.2233.742.2726.6520.2625.36MaskRCNN + CascadePSP [14]40.8551.6429.5943.3764.5874.6660.0267.2042.2052.91MaskRCNN + GCA [33]37.7651.5638.3339.9045.7261.4044.7748.8133.8746.47MaskRCNN + SIM [48]43.0252.9040.6344.2954.4366.6749.5658.1234.6646.60MaskRCNN + FBA [18]36.0151.4437.8638.8134.8148.3236.2937.2335.0047.54MaskRCNN + MaskGuided [56]51.6767.0853.0355.3857.9871.1266.5360.8630.6453.16Image𝑀!𝑀! + 𝑀"𝑀! + 𝑀" + 𝑀#MaskRCNN [22]18.4418.48MaskRCNN + CascadePSP [14]30.5433.37MtMrMbMIRIMQmadIMQmse✓✗✗✗57.9871.12✓✓✗✗62.2574.35✓✓✓✗69.4079.74✓✓✓✓70.2681.3426540方法 HIM2K (合成子集) HIM2K (自然子集) RWP6360InstMatt (我们的方法) 63.59 78.14 64.50 67.71 70.26 81.34 74.90 72.60 51.10 73.090表1. HIM2K和RWP636 [ 56 ]上的定量比较。方程17中的平衡因子w设置为10。对于IMQ mad,IMQ mse,IMQ grad和IMQconn,数值越高越好。粗体数字表示最佳性能。0图8.不同掩码引导设置的比较。特别是当启用了所有三个组件时,放大图显示了最佳结果,其中金发和男人的肩膀清晰可见。0图像0实例10实例20MIR之前 循环MIR之后 并行MIR之后0MIR之前 循环MIR之后 并行MIR之后0图9. 多实例细化之前和之后的alpha通道。0在实例级别上,例如散焦、运动、模糊或细小的毛发结构。0超越人类的实例抠图。本文以人体实例抠图作为我们在实例抠图中的重点贡献。值得注意的是,我们的方法,包括互斥引导、多实例细化、多实例约束以及所提出的实例抠图度量IMQ,也可以应用于其他语义类的实例抠图。我们将我们的方法应用于另外两个流行的类别,即猫和狗。图7中的初步结果表明,我们的方法在其他语义类的实例抠图中可能具有良好的泛化性。06.3. 割舍研究0三通道抠图。三通道抠图为实例与背景以及实例与实例之间提供互斥引导。表3列出了具有不同互斥引导设置的模型的结果。0方法 IMQ mad IMQ mse0InstMatt (我们的方法) 30.67 39.560表2. SPD [ 2 ]上的定量结果。0表3. 三通道抠图和多实例细化结果。0三通道抠图引导设置。三通道抠图引导模型将每个像素部分分配给目标实例、其他实例或背景。值得注意的是,通过三通道抠图,由于遮挡而丢失的部分得到了恢复,如图8中的示例所示。由于互斥监督,丢失部分的表示与目标实例的表示类似,不能归因于背景或其他实例。0多实例细化。多实例细化将多个三通道抠图的alpha通道预测对齐。表3显示,我们的模型在有和没有多实例细化模块的情况下的IMQmse分别为81.34和79.74,表明我们的多实例细化有所改进。图9进一步显示,多实例细化有助于消除由于不同实例之间的信息同步而产生的异常值。07. 结论0在本文中,我们提出了一个新的任务,即人体实例抠图,并通过提出一种新颖的实例抠图框架来作为第一个重要的示例。我们的In-stMatt利用互斥引导来指导抠图分支为每个实例提取alpha通道,然后通过多实例细化模块在共现实例之间同步信息。InstMatt能够处理具有多个和重叠实例的具有挑战性的情况,可以适应人体实例之外的其他语义类实例抠图。我们希望所提出的方法,以及新的实例抠图度量和人体实例抠图基准,能够鼓励更多的未来工作。26550参考文献0[1] 匈牙利算法. https://en.wikipedia.org/wiki/Hungarian_algorithm . 60[2] supervisely. https://supervise.ly . 7 , 8 [3] Yagiz Aksoy,Tunc¸ Ozan Aydin, Marc Pollefeys, and Aljosa Smolic.通过颜色解混实现交互式高质量绿幕键控. ACM Trans. Graph. ,35(5):152:1–152:12, 2016. 30[4] Yagiz Aksoy, Tunc¸ Ozan Aydin, Aljosa Smolic, and MarcPollefeys. 基于解混的软色彩分割用于图像处理. ACM Trans.Graph. , 36(2):19:1–19:19, 2017. 30[5] Ya˘giz Aksoy,Tae-Hyun Oh,Sylvain Paris,MarcPollefeys和Wojciech Matusik。语义软分割。ACMTransactions on Graphics,37(4):1-13,2018年。1,2,30[6] Yagiz Aksoy,Tunc Ozan Aydin和MarcPollefeys。为自然图像抠图设计有效的像素间信息流。在计算机视觉与模式识别国际会议上,2017年。20[7] Xue Bai和GuillermoSapiro。用于快速交互式图像和视频分割和抠图的测地线框架。在计算机视觉国际会议上,2007年。20[8] Daniel Bolya,Chong Zhou,Fanyi Xiao和Yong JaeLee。YOLACT:实时实例分割。在计算机视觉国际会议上,2019年。20[9] Shaofan Cai,Xiaoshuai Zhang,Haoqiang Fan,HaibinHuang,Jiangyu Liu,Jiaming Liu,Jiaying Liu,JueWang和JianSun。解耦图像抠图。在计算机视觉国际会议上,2019年。20[10]陈浩,孙坤阳,田志,沈春华,黄永明和严友良。Blendmask:自顶向下与自底向上相结合的实例分割。在计算机视觉与模式识别国际会议上,2020年。20[11] Quan Chen,Tiezheng Ge,Yanyu Xu,ZhiqiangZhang,Xinxin Yang和KunGai。语义人体抠图。在ACM多媒体会议上,2018年。20[12] Qifeng Chen,Dingzeyu Li和Chi-KeungTang。Knn抠图。在IEEE/CVF计算机视觉与模式识别会议上,2012年。20[13] Xinlei Chen,Ross B. Girshick,Kaiming He和PiotrDoll´ar。Tensormask:密集物体分割的基础。在计算机视觉国际会议上,2019年。20[14]郑浩基,钟智勋,戴宇荣和邓志强。级联PSP:通过全局和局部细化实现类别不可知和超高分辨率分割。在计算机视觉与模式识别国际会议上,2020年。7,80[15] Donghyeon Cho,Yu-Wing Tai和In-SoKweon。使用深度卷积神经网络的自然图像抠图。在欧洲计算机视觉会议上,2016年。20[16] Yung-Yu Chuang,Brian Curless,David Salesin和RichardSzeliski。数字抠图的贝叶斯方法。在IEEE/CVF计算机视觉与模式识别会议上,2001年。20[17] Yutong Dai,Hao Lu和ChunhuaShen。学习亲和力感知上采样用于深度图像抠图。在计算机视觉与模式识别会议上,2021年。20[18] Marco Forte和Franc¸oisPiti´e。F,b,alpha抠图。CoRR,abs/2003.07711,2020年。2,7,80[19] Naiyu Gao,Yanhu Shan,Yupei Wang,Xin Zhao,YinanYu,Ming Yang和KaiqiHuang。SSAP:具有亲和金字塔的单次实例分割。在计算机视觉国际会议上,2019年。20[20] Eduardo SL Gastal和Manuel MOliveira。用于实时alpha抠图的共享采样。计算机图形学论坛,29(2):575-584,2010年。20[21] Leo Grady,Thomas Schiwietz,Shmuel Aharon和R¨udigerWestermann。用于交互式alpha抠图的随机游走。在VIIP会议论文集中,2005年。20[22] Kaiming He,Georgia Gkioxari,Piotr Doll´ar和Ross B.Girshick。MaskR-CNN。在计算机视觉国际会议上,2017年。1,2,4,7,80[23] Kaiming He,Christoph Rhemann,CarstenRother,Xiaoou Tang和JianSun。用于alpha抠图的全局采样方法。在计算机视觉与模式识别国际会议上,2011年。20[24]侯琪琪和刘峰。用于同时估计前景和alpha的上下文感知图像抠图。在计算机视觉国际会议上,2019年。20[25] 胡冠清和James J.Clark。基于实例分割的语义抠图用于合成应用。在计算机和机器人视觉会议上,2019年。20[26]黄兆进,黄立超,龚勇超,黄畅和王兴刚。掩膜评分R-CNN。在计算机视觉和模式识别IEEE会议上,2019年。20[27]柯磊,戴宇荣和邓志强。具有重叠双层的深度遮挡感知实例分割。在计算机视觉和模式识别IEEE会议上,2021年。20[28] 柯张瀚,李凯灿,周宇柔,吴秋华,茅祥宇,严琼和RynsonW. H.Lau。实时人像抠图真的需要绿幕吗?CoRR,abs/2011.11961,2020年。20[29] Alexander Kirillov,Kaiming He,Ross B.Girshick,Carsten Rother和PiotrDoll´ar。全景分割。在计算机视觉和模式识别IEEE会议上,2019年。60[30] Anat Levin,Dani Lischinski和YairWeiss。自然图像抠图的闭式解。在计算机视觉和模式识别IEEE/CVF会议上,2006
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Java集合ArrayList实现字符串管理及效果展示
- 实现2D3D相机拾取射线的关键技术
- LiveLy-公寓管理门户:创新体验与技术实现
- 易语言打造的快捷禁止程序运行小工具
- Microgateway核心:实现配置和插件的主端口转发
- 掌握Java基本操作:增删查改入门代码详解
- Apache Tomcat 7.0.109 Windows版下载指南
- Qt实现文件系统浏览器界面设计与功能开发
- ReactJS新手实验:搭建与运行教程
- 探索生成艺术:几个月创意Processing实验
- Django框架下Cisco IOx平台实战开发案例源码解析
- 在Linux环境下配置Java版VTK开发环境
- 29街网上城市公司网站系统v1.0:企业建站全面解决方案
- WordPress CMB2插件的Suggest字段类型使用教程
- TCP协议实现的Java桌面聊天客户端应用
- ANR-WatchDog: 检测Android应用无响应并报告异常
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功