级联图像抠图网络与变形图细化的精确阿尔法抠图方法

107 浏览量更新于2023-10-13 收藏 2.21MB PDF 举报

图像抠图

图像处理技术

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

7167基于变形图细化的级联图像抠图Yi ZijianYu1，2*，XuhuiLi1*，Huijuan Huangg2，Wen Zheng2，Li Chen1†1清华大学软件学院2Y-tech、快手科技{zj-yu19，lixh20} @ mails.tsinghua.edu.cn，{huanghuijuan，zhengwen} @ kuaishou.com，chenlee@tsinghua.edu.cn摘要图像抠图是指对前景对象的不透明度的估计。它需要正确的轮廓和前景物体的精细细节的抠图结果。为了更好地完成人体图像抠图任务，我们提出了级联图像抠图网络与变形图细化（CasDGR），它可以自动预测精确的阿尔法抠图从单个人体图像，而无需任何额外的输入。我们采用了一个网络级联架构来执行抠图从低到高的分辨率，这对应于粗到细的优化。我们还引入了基于图神经网络（GNNs）的可变形图细化（DGR）模块，以克服卷积神经网络（CNN）的局限性。DGR模块可以有效地捕获长程关系，并获得更多的全局和局部信息，以帮助产生更精细的α-matte。我们还通过动态地预测邻近的bors来降低DGR模块的计算复杂度，并且将DGR模块应用于更实验结果表明，我们的Cas-DGR的能力，以实现国家的最先进的性能合成数据集，并产生良好的效果，对真实的人类图像。1. 介绍图像抠图是指从一组给定的图像中提取高质量的阿尔法抠图（前景对象在每个像素处的不透明度）的问题抠图作为一种实用的图像处理技术，在图像和视频编辑中有着广泛的通常，图像I的组成被表示为如下的线性方程：Ii=αiFi+（1−αi）Bi，αi∈[0，1]，（1）其中，Ii是像素i处的RGB颜色，αi是像素i处的蒙版值，并且Fi和Bi是像素i处的前置和背景的RGB颜色。遮片是一个高度不适定的问题，即，有七个未知值*联合第一作者。†通讯作者是李晨。每个像素只有三个已知值，这增加了解决遮片问题的难度。尽管现有的工作已经提供了执行遮片的有效方式，但是它们仍然存在局限性。第一个限制是大多数现有作品[47，1，19，12，52]通过使用一次通过编码器-解码器网络来预测阿尔法遮片，这可能在前景和背景具有相似的局部特征时导致不准确的轮廓和伪影。这主要是由于这些方法从单尺度特征预测α蒙版第二个限制是现有的基于CNN的匹配方法不能很好地处理某些细长物体（例如，人的头发）。除了在网络架构中基本使用CNN之外，一些抠图作品还尝试在骨干网络之后使用基于CNN的模块来细化alpha抠图的细节Xu等[47]使用轻量级的全卷积神经网络（CNN）为alpha蒙版生成Cai等人[1]提出了一个prop-agation单位，可以细化阿尔法蒙版准确的细节和更少的文物。然而，这些基于CNN的细化方法受到卷积核的固定形状和有限的感受野的限制，导致在操纵细长物体时性能下降。为了克服第一个限制，我们模拟人类的抠图逻辑。在满足抠图任务时，人们通常首先确定前景物体的整体轮廓，然后在轮廓的指导下迭代改进边界区域的细节。因此，我们设计了一个网络级联结构的图像抠图，以产生更准确的轮廓和前景物体的细节。我们的方法从低分辨率图像中预测出粗糙的α纹理通过这种从低到高，从粗到细的管道，我们的网络可以用全局信息来补充局部信息，并用正确的轮廓和精确的细节来估计极其精细的阿尔法蒙版为了克服CNN的局限性，制作出更好的7168在细长物体上的性能方面，我们应用图神经网络（GNN）来提取具有更高质量的特征。与CNN相比，GNN已经显示出它能够更好地从数据中捕获长期依赖关系。一些现有的作品[33，21，51]使用GNN来提高检测和分割的性能。然而，这些基于GNN的方法受到高计算复杂度和时间消耗的限制，因为GNN需要大量的节点，因此只能应用于低分辨率的受可变形卷积网络[10]的启发，可以根据对象动态调整内核形状，我们提出了可变形图细化（DGR）模块，以降低图构建和传播的计算成本DGR模块使用卷积网络来预测相邻像素的坐标，并在像素之间执行信息聚合和传输。我们结合上述两种解决方案，并提出了一种称为级联图像抠图网络与可变形图细化（CasDGR）的方法。首先，网络级联架构的设计，以提高模拟的粗到细抠图逻辑。第二，采用DGR模型，以改善更合适的特征的获得和细长物体的处理。本研究的主要贡献如下：• 我们提出了一个端到端的自动图像抠图方法，从单个RGB图像产生高质量的阿尔法抠图。• 我们设计了一个网络级联架构，以粗到细的方式估计阿尔法蒙版。• 我们提出了一个基于GNN的可变形图细化模块，可以保留抠图结果的更多细节，并应用于更高分辨率的特征。一些现有的工作[47，31，26]需要三元映射作为附加输入。然而，高质量三图的构造是复杂的。自动抠图方法[52，38，34，30]的输入不包含三图更具挑战性，但对于某些应用程序更方便和可行，例如仅用于人类的抠图。我们的Cas- DGR也是自动的，可以实现良好的抠图性能与单一的RGB图像。与[38]类似，我们在Adobe人体图像数据集上测试了我们的方法[47]。实验结果表明，我们的方法可以达到国家的最先进的性能，并产生良好的视觉效果。更重要的我们还在自然人类图像上测试CasDGR。我们的方法在真实世界的人体图像上也表现出良好的性能2. 相关工作2.1. 图像抠图目前的抠图方法可以分为传统抠图方法和基于学习的抠图方法。传统方法。基于采样的方法[9，13，39，17，45]主要使用统计方法对已知前景和背景区域的颜色进行采样和建模，并确定每个未知像素的最佳颜色对并计算alpha蒙版。基于传播的方法[6，23，42，22，24]传播alpha值根据相邻像素之间的相似度将已知区域划分为未知区域。然而，传统的方法利用颜色信息和位置信息，而不是语义信息和上下文信息，这可能会导致丢失的基本细节。学习方法。基于学习的抠图方法弥补了传统方法的缺点，并且通常提供更好的性能。基于trimap的学习方法需要带注释的trimap作为额外的输入。Cho等人[8]利用[6]和[23]的结果和归一化的RGB颜色通过使用深度CNN来预测alpha蒙版。Xu等[47]首先提出了一种他们工作中的精修阶段可以产生非常尖锐的边界。Hou等人[19]使用两个编码器来提取局部和全局上下文信息并执行抠图。Cai等人[1]采用多任务学习方法完成两个子任务，并通过传播单元对两个子任务的结果进行处理，从而得到最终的alpha蒙版。Forte和Pitie '[12]提出通过使用单个编码器-解码器来预测前景，背景，alphamattesHao等人[31]优化了上采样算子并将其应用于图像抠图。Tang等人[43]利用采样网络和抠图网络进行颜色采样和抠图。自动方法不需要额外的三重映射，因此避免了三重映射的约束Shen等人[40]通过使用CNN来估计三元图，并且用[23]的方法执行抠图Sengupta等人[38]使用受干扰的背景和分割结果作为额外的输入来同时预测α蒙版和前景。Zhang等人[52]首先获得前地和背景的概率图，然后将它们融合以获得最终的α蒙版。Liu等[30]使用与精细注释数据耦合的粗略注释数据来改进抠图性能。Qiao等人[34]使用通道和空间注意机制从一组单图像中提取多层次特征大多数深度学习方法旨在基于单个编码器-解码器架构来增强匹配7169∈×在在re出来re×在rere以由粗到细的方式进行消光处理。提出了一种新的DGR特征细化模块。实验结果表明，这两种方法都能显著提高抠图效果。2.2. 网络串级网络级联是许多计算机视觉任务的有效架构，例如检测[28，3]，分割[25]和姿态估计[7]。使用网络级联的中心思想是以粗到细的方式解决具有挑战性的任务。Cai等人[3]提出了Cascade R-CNN，以实现检测结果的逐步细化。Chen等人[7]以高到低的分辨率预测人类关键点的多个热图，并使用总共五个阶段。类似于大多数以前的作品，每个阶段是由一个编码器-解码器的U-结构网络。受U2-Net [35]的启发，我们使用残差U块（RSU）作为每个阶段的骨干网络，因为它具有提取多尺度特征的能力和较低的计算成本。每个阶段的输入包含从原始图像缩放的具有不同分辨率的图像。我们的网络不需要其他额外的输入。在阶段m（m[2，4]）中，我们首先使用3 × 3卷积层从输入图像生成64通道特征图F_m。然后将Fm与来自前一阶段的细化特征映射Fm−1RSU块将两个特征图的拼接作为输入，然后输出具有相同分辨率的特征图Fm如M。 Fm被输入到可变形图形细化中RefineNet。Li等[25]处理了浅层的易分割区域和深层的难分割区域，提高了语义分割的准确性和速度。据我们所知，CasDGR是在图像抠图任务中采用网络级联架构的早期尝试。2.3. 图神经网络许多图神经网络（GNN）[37，27，8，20，16，44]已经被提出来解决图的一般问题。与CNN相比，GNN可以更好地从数据中捕获长程依赖关系，这有利于许多计算机视觉任务，例如检测[41，32，48]，分割[33，21，51，48]和姿态估计[50，2]。Luo等人[32]设计了用于RGBD显著对象检测的级联GNN，以利用RGB和深度图像中的有用信息Cai等人[2]使用图卷积网络来挖掘三维人体和手姿态的空间和时间关系在[33，21，41]中，作者提出了基于GNN的3D点云分割和检测方法然而，该方法表现出的数据大小的限制，导致高计算成本和运行速度的 GNN 。 DGMN [51] 和RepGNN [48]可以通过动态采样节点来降低计算成本，从而提高分割和检测的性能我们的工作可以预测每个节点的邻居，并采用到更高分辨率的特征图，从而帮助获得更多的细节，以解决图像抠图问题。3. 方法在本节中，我们首先介绍CasDGR的整体网络然后，损失函数和实施细节。3.1. 级联网络设计如图1所示，我们的方法的中心思想是使用网络级联架构来预测从低到高分辨率的alpha mates。CasDGR包括在外层(DGR)生成64通道细化特征的模块地图Fm.最后，使用3 × 3卷积层来预测来自Fm的1通道阿尔法遮片。此外，F_m被上采样两次，用于在下一级中与F_m+1RSU块的细节也如图1所示。编码器部分在特征图上连续地执行卷积和下采样，而解码器部分执行上采样和卷积以将特征图恢复到原始分辨率。跳过连接被应用于编码器和解码器之间的对应层。在深层使用Atrous卷积以进一步扩大感受野。与原始RSU块不同，我们在网络中的每个卷积层之后使用组归一化（GN）[46]而不是批归一化（BN），因为我们的CasDGR是用小批量（每个GPU上2个）训练的此外，当批量小时，BN的性能可能降低。CasDGR以粗略到精细的方式处理图像遮片任务，并从低到高分辨率预测多个阿尔法遮片。在早期阶段，网络从下采样的输入图像中提取与大得多的感受野一致这种方法可以帮助改善前景对象区域的检测来自这些较早阶段的预测的阿尔法遮片可以被认为是视觉感知中的前景对象的粗分割掩模。在后面的阶段中，通过使用更高分辨率的输入图像和来自前一阶段的特征图来进一步改进预测的阿尔法遮片;前者补充了在早期阶段可能丢失的细节，而后者提供了丰富的语义信息。DGR模块通过基于图的模型进一步改进所生成的特征图的质量，这将在后续部分中讨论。因此，我们的CasDGR可以逐步细化从阶段1到5的细节，同时保持前景的正确轮廓，从而产生7170∈出来出来Σ×出来re输入32×32256×256512×512级联细节64×64128×128U阶段3I1I2I3I4I5CC CUE1E2E3E4E5D1UD2UD3UD4UD5第四阶段DGR1DGR2DGR3DGR4UO1O2O3O4O5U向上采样编码器层C级联解码器层32×32阿尔法·马特64×64128×1283×3ConvDGR模块256×256512×512图1.建议的CasDGR概述主要架构是一个级联网络包含5个阶段，其中每一个阶段是一个编码器-解码器网络，给定一个输入图像，我们将其下采样为每个阶段的多尺度输入，并从低到高估计我们只使用最后一个阶段的预测alpha蒙版进行进一步评估。3.2. 可变形图精化邻域偏移邻域要素我们提出了可变形图细化（DGR）模块的特征图细化。DGR模块的细节我们把形状为H×W×C的特征图看作是H×W的合成输入要素WHWH2WHB��×��精细化特征WH在每个节点上创建一个图形，其中每个节点都是给C维特征加尾DGR模块的灵感来自B双线性插值Y通过可变形卷积网络[10]，其动态地调整卷积核。我们假设从解码器输出的特征图F_out_R_H×W×C中的每个像素最初具有K个相邻的邻居，并且使用卷积层将2D偏移应用于每个邻居。然后，我们计算邻域坐标并使用双线性插值方法从Fout中获得邻域特征值。我们设计了一个模型用于邻居的信息聚合和特征图的细化。对于F_out中的节点i，我们将其特征细化如下：sij=（W1Fi）T（W2Fi），j∈N（i），（2）图2.可变形图形细化（DGR）模块的图示输入是由RSU块输出的特征图。DGR首先为每个节点预测K个邻居坐标，并计算邻居的特征值。然后，DGR通过细化阶段更新每个节点的特征值。归一化s ij。归一化后的βij是节点i的邻居j的权重。最后，在Eq。4、将所有邻域的特征以不同的权重进行聚合。σ是ReLU激活函数。这个特征细化阶段exp（sij）（三）可以迭代地执行通过使用DGR模块，βij=Σk∈N（i）、exp（sik）我们的网络可以捕捉远处像素之间的远程关系。DGR还可以减少计算复杂度。i=σ（βijW2Fj），⑷j∈N（i），其中N（i）是节点i的邻居集合。W1，W2∈RC′×C是两个可优化的权矩阵当量2计算节点i和它的邻居j之间的相似度Sij。然后，Eq.使用softmax函数计算3，以通过动态预测邻居来构造图的复杂性和时间消耗。我们将DGR模块应用于级联网络中的第1级至第4级，并且通过DGR细化的特征图的最高分辨率可以达到256256，这高于先前的工作[33，48]。我们使用改进的特征图进行特征连接和alpha预测。细化3×3ConvF7171一×LLL一××我我| |L××∇∇L LL××一一一CG一CGC|Ω|i∈Ω我我我我我1G|Ω|i∈Ω我我一1我I1M−1我我|Ω|i∈Ω4.1.数据集和评估指标3.3. 损失函数在训练过程中，我们在CasDGR的每个阶段使用监督。我们的损失函数定义如下：L=ΣλmLm+LM+λcLM+λgLM，（5）m=1其中m（M= 5表示5个级）是级m的输出α与具有相同分辨率的标签之间的α预测损失，c是组成损失，并且g是梯度损失。我们将所有三个损失用于最后一个阶段，并且仅将alpha预测损失用于先前阶段。λm、λc和λg是每个损失项的权重。我们使用归一化的L1损失来计算所有三个损失：Lm=1Σ||αm−αm||、（6）其中，α m是像素i处的阶段m的预测alpha值，αm是调整为与像素i处的α m相同的分辨率的真实alpha值，Ω是αm和αm中的像素数。L=1Σ||I−αF−（1−α）B||、（7）方法[14]。 DGR模块中的3 × 3卷积层的参数被初始化为零。adam opti- mizer用于损失优化，初始学习率设置为1 e-4，其他超参数设置为默认值。我们将每个阶段的预测α值裁剪为0到1以用于损失计算，并在等式（1）中设置λm=λ=λ= 15在实验在测试期间，输入图像在将它们馈送到网络中我们评估512 512预测的阿尔法遮罩和地面真相之间的不同指标。我们在2个RTX 3090 GPU上训练CasDGR，批量大小为4。网络只需要大约1天就可以收敛到训练集。4. 实验在本节中，我们将我们的方法与Adobe人体图像数据集上的现有抠图方法进行比较，该数据集是从Adobe Composite-1 k Dataset [47]中收集的我们展示了所有测试方法的定量和可视化结果，并对我们的CasDGR进行了消融研究，以证明我们的方法中基本架构和组件的重要性。其中I是由前景F、背景B和地面实况阿尔法遮片组合的输入图像，类似于等式（1）中的1.一、α是最后阶段的预测结果L=1Σ||∇αˆ−∇α||、（8）数据集。Adobe Composite-1 k Dataset [47]包含431个用于训练的前景图像和50个用于测试的前景图像，具有高质量的alpha注释。根据Sengupta用于测试）。我们过滤半透明物体在其中，α1和α表示预测alpha和真实alpha的归一化梯度训练过程旨在最小化Eq.5. a、c可以提高预测的阿尔法遮片的逐像素精度，并且g有利于产生高度精确的边界。我们选择最后一个阶段的预测结果作为最终的输出alpha遮罩。3.4.实现细节我们使用PyTorch实现了CasDGR。在训练过程中，所有图像都被随机裁剪到512之间 512和800 800然后调整大小为512 512.对于数据增强，我们在每个训练对上采用水平随机翻转以及亮度、对比度和饱和度增强，以避免过拟合。我们对512 512图像进行下采样以降低分辨率，并将它们馈送到我们方法的不同阶段。训练集在每个时期被混洗。对于我们网络中的组归一化层，输入特征映射被分成几个32通道组。我们从头开始训练网络，直到损失收敛。RSU块中的所有卷积层均使用Xavier7172数据集，以接近地模拟真实世界中的人类抠图场景的数据分布对于训练集，每个前景图像与来自COCO数据集的100个背景图像组合对于测试集，将每个前置图像与PASCAL VOC 2012数据集的20个背景图像组合[11]。评估指标。我们使用四种常见的图像抠图度量来评估预测的alpha抠图，即绝对差之和（SAD），均方误差（ MSE ），梯度误差（ Grad ）和连接误差（Conn）。通常，SAD和MSE度量更关注数值差异，而[36]提出的Grad和Conn度量更关注人类观察者的视觉感知。4.2. Adobe测试数据集上的消融研究为了验证我们的方法的一些架构和组件的作用，我们通过使用Adobe测试数据集完成了下面讨论的消融研究DGR消融表1示出了不同数目的邻域和细化阶段的迭代次数对抠图性能的影响。与Cascade网相比7173×输入图像Ours-Baseline Ours-Cascade表1. DGR模块的消融研究。我们的基线：1级网络。Ours-Cascade：无DGR的5级级联网络。CasDGR：具有DGR的级联网络，K表示DGR中的邻居的数量，并且层表示迭代的数量。我们的CasDC我们的CasDGR GT表 2. Ours-CasDCN 对比 Ours-CasDGR （ K=5 ）。 FLOP 和Params的值与我们的Cascade相比增加了。结果是在一个GeForce RTX 3090卡上使用512 512输入尺寸测量的。批量大小为1。输入图像Ours-Baseline Ours-Cascade在没有DGR的情况下工作，具有不同设置的CasDGR可以在Adobe测试数据集上改进所有四个指标我们发现我们的CasDC我们的CasDGR GT仅考虑1个邻居可以有效地增加4个评估度量。当相邻节点数从1增加到5时，测试结果也得到了改善然而，进一步将邻居的数量增加到9将导致消光性能下降。增加细化阶段的迭代次数也有利于图像抠图。对于K的不同设置，具有2次迭代的CasDGR产生比1次迭代更好的结果。更多的迭代也会增加时间和内存消耗。为了平衡模型的效率和有效性，我们选择K= 5并将迭代次数设置为2作为其他实验中的默认值。网络级联体系结构的作用。如表1所示，与基线网络相比，级联网络在所有度量上都实现了实质性的改进，基线网络仅使用1级网络进行匹配。根据图3中的视觉结果，Ours-Baseline在结果中产生一些伪影，而Ours-Cascade可以生成视觉上更准确的alpha蒙版。网络级联架构有效地改善了抠图的定量和可视化结果。总资源部的作用表1显示了图3.消融研究的目视结果。关于评价指标的总秘书处在图3中的视觉结果方面，与Ours-Cascade相比，Ours-CasDGR可以进一步细化结果，这减少了一些伪像，并且完成了α蒙版的更多细节。此外，图3中的某些细节可以被使用。以清楚地分析我们的方法的抠图细化过程。在手持吹风机的女性图像的情况下，我们的基线并不能预测左下角吹风机的完整线材。在网络级联之后，Ours-Cascade可以预测相对完整的线路，但是它周围的一些伪像是明显的。最后，在Ours-CasDGR的细化处理之后，去除伪影，并且获得完整且精细的线材这种逐步求精的过程也验证了我们方法的设计思想和可行性。与DCN的比较我们通过用可变形卷积网络[10]替换我们的垫网络中的DGR来证明DGR模块的优越性。如表2所示，Ours-CasDGR优于Ours-CasDGR。模型伤心MSEGradConn我们的-基线我们的喀斯喀特3.782.920.00650.00464.672.853.732.77CasDGRK=1，1−层2.252.051.931.762.161.840.00250.00210.00180.00150.00230.00172.452.161.951.662.301.792.101.881.741.541.991.63CasDGRK=1，2−layerCasDGRK=5，1−层CasDGRK=5，2−层CasDGRK=9，1−层CasDGRK=9，2−层模型我们的CasDCNOurs-CasDGR层112伤心2.131.931.76MSE0.00230.00180.0015Grad2.271.951.66Conn1.931.741.54触发次数（G）+8.71+5.65+8.36参数（M）+0.57+0.12+0.16推断时间（ms）51.2341.3348.567174输入CFMLBMLKMKNN IM昏暗GCALFMBGM我们的CasDGRGT输入CFMLBMLKMKNNIM昏暗GCALFMBGM我们的CasDGRGT输入CFMLBMLKMKNNIM昏暗GCALFMBGM我们的CasDGRGT图4. Adobe测试数据集上的可视化结果。所有指标上的CasDCN。通过对一些模型属性的比较，我们的CasDGR能够以更少的Flops、Params和推理时间获得更好的抠图效果，这进一步证明了我们的方法的改进。图3中的视觉结果显示，基于前一种方法的更精细的α消光，Ours-CasDGR在视觉上也优于Ours-CasDCN。4.3. Adobe测试数据集我们比较了我们的方法在构建的Adobe人体图像数据集与不同种类的可用approaches。传统的方法：封闭式抠图（CFM）[23]，基于学习的抠图（LBM）[53]，KNN抠图（KNNM）[6]，随机游走抠图（RWM）[15]，7175××N图5.真实世界图像的结果。表3. Adobe测试数据集上的结果。Seg，B′，B：粗分割结果，高斯噪声干扰背景，以及背景抠图的原始背景[38]。[2018 - 12 - 18][2018 - 09 - 18][2018 - 09][2018 - 09 - 18]基于trimap的学习方法：深度图像抠图（DIM）[47]，IndexNet 抠图（ IM ） [31] 和引导上下文注意抠图（ GCAM ） [26] 。自动学习方法：后期融合抠图（LFM）[52]和背景抠图（BGM）[38]。期间的评估，我们调整大小输入图像以512 512分辨率来推断阿尔法遮片并计算预测的阿尔法遮片与地面实况之间的四个度量。对于需要三元图的方法，我们将Adobe数据集中的原始三元图的大小调整为512 - 512分辨率作为额外的输入。由于BGM [38]需要分割结果和受干扰的背景作为额外的输入，我们通过应用人分割[4]并添加侵蚀（5次迭代）、膨胀（10次迭代）和高斯模糊（〇= 5）来生成分割结果。我们还通过在原始背景中加入高斯噪声η（μ= 3，σ生成分割结果和干扰背景的方式与BGM [38]中的方式相同。定量结果示于表3中。我们的实验结果的含义如下：我们的CasDGR可以在Adobe测试数据集上的所有测试方法中的所有指标上实现最先进的结果，即，传统方法、基于trimap的方法和上述自动方法。实验结果表明，我们的方法可以达到最佳的人体抠图性能，通过使用一个单一的输入图像。我们的CasDGR优于其他抠图方法，特别是在Grad和Conn指标上。由于Grad和Conn更关注人类观察者的视觉效果，对比结果表明CasDGR在视觉感知上可以实现很好的抠图性能，这也被图4中的视觉结果所证明。如图4所示，我们的CasDGR对人类图像具有虽然GCA [26]和BGM [38]也可以生成精确的alpha蒙版，但它们在推理时需要精细的三重图或背景。我们的CasDGR只需要单个RGB图像，这对于抠图应用来说更加方便。4.4. 真实图像数据集作为现实世界的应用，对现实世界数据的性能对于抠图方法也是重要的为了验证我们的CasDGR对真实世界图像的抠图效果，我们在1）Chen等人构建的人类抠图数据集上测试我们的方法。[5]和2）由Yu等人提供的真实世界肖像-636数据集。[49]。图5显示了我们在Adobe人类图像数据集上训练的CasDGR模型也可以在真实世界的图像上产生高质量的alpha蒙版，而无需额外的输入。5. 结论在这项研究中，我们提出了一个级联图像抠图网络与变形图细化（CasDGR），可以从单个RGB图像产生我们采用网络级联架构，逐步细化前景细节。所提出的DGR模块将GNN应用于更在合成数据集和真实图像上的实验结果证明了该方法的优越性和通用性。6. 确认我们非常感谢匿名评论者提供的宝贵反馈和本研究得到了国家自然科学基金清华-快手未来媒体数据研究所（批准号：61972221，62021002）和国家重点研发计划（2019 YFB 1405703）TC 190 A4 DA/3的部分资助。方法伤心MSEGradConnCFM [23]3.480.00403.873.35LBM [53]3.680.00474.173.65KNNM [6]3.730.00443.903.67RWM [15]4.960.009310.564.93LKM [18]5.520.00535.324.65IM [31]2.290.00222.512.06DIM [47]2.580.00252.932.42GCAM [26]1.890.00171.991.68BGM [38]-Seg，B′2.300.00252.342.10BGM [38] -Seg，B2.280.00242.292.08LFM [52]4.350.00674.013.98Ours-CasDGR1.760.00151.661.547176引用[1] Shaofan Cai，Xiaoshuai Zhang，Haoqiang Fan，HaibinHuang ， Jiangyu Liu ， Jiaming Liu ， Jiaying Liu ， JueWang，and Jian Sun.解开图像抠图。国际计算机视觉会议（ICCV），第8818-8827页，2019年。[2] Yujun Cai，Liuhao Ge，Jun Liu，Jianfei Cai，Tat-JenCham，Junsong Yuan，and Nadia Magnenat-Thalmann.利用空间-时间关系通过图形卷积网络进行3d姿态估计。国际计算机视觉会议（ICCV），第2272-2281页[3] 赵伟蔡和努诺·瓦斯康塞洛斯。Cascade R-CNN：深入研究高质量的对象检测。 IEEE Conference计算机视觉和模式识别（CVPR），第6154-6162页，2018年。[4] Liang-Chieh Chen，Yukun Zhu，George Papandreou，Flo- rian Schroff，and Hartwig Adam.用于语义图像分割的具有粗糙可分离卷积的编码器-解码器。在欧洲计算机视觉会议（ECCV），2018。[5] Quan Chen ， Tiezheng Ge ， Yanyu Xu ， ZhiqiangZhang，Xinxin Yang，and Kun Gai. 语义人类铺垫。ACM国际多媒体会议，第618-626页，2018年。[6] Qifeng Chen，Dingzeyu Li，and Chi-Keung Tang.KNN垫子。IEEE Transactions on Pattern Analysis and MachineIntelligence，35（9）：2175[7] Yilun Chen，Zhicheng Wang，Yuxiang Peng，ZhiqiangZhang，Gang Yu，and Jian Sun.用于多人位姿估计的级联金字塔网络。IEEE计算机视觉和模式识别会议，第7103- 7112页[8] 赵东贤戴有荣和关仁素使用深度卷积神经网络的自然图像抠图在欧洲计算机视觉会议（ECCV），9906：626[9] Yung-Yu Chuang ， Brian Curless ， David Salesin ， andRichard Szeliski.数字抠图的贝叶斯方法。IEEE计算机视觉和模式识别会议（CVPR），第264-271页[10] Jifeng Dai，Haozhi Qi，Yuwen Xiong，Yi Li，GuodongZhang，Han Hu，and Yichen Wei.可变形卷积网络。国际计算机视觉会议（ICCV），第764-773页[11] 放大图片作者： Mark Everingham ， Luc Van Gool，Christopher K. I.约翰·威廉姆斯温恩和安德鲁·齐瑟曼。Pascal Visual Object Classes （ VOC ） InternationalJournal of Computer Vision（IJCV），88（2）：303[12] Mar c oForteandFran coisPiti e´. F， B，阿尔法矩阵。CoRR，abs/2003.07711，2004。[13] Eduardo Simoes Lopes Gastal和Manuel M.奥利维拉实时alpha抠图的共享采样。计算机图形论坛（CGF），29（2）：575[14] 泽维尔·格洛特和约舒亚·本吉奥了解训练深度前馈神经网络的困难。Proceedings of the Thirteenth InternationalConference on Artificial Intelligence and Statistics， 9 ：249[15] LeoGrady ， ThomasSchiwietz ， ShmuelAharon ， andRüdigerWestermann. 用于交互式 α- 遮片的随机游走。VIIP，2005：423[16] William L. Hamilton，Zhitao Ying，and Jure Leskovec.大图上的归纳表示学习。神经信息处理系统会议和研讨会，第1024-1034页[17] Kaiming He ， Christoph Rhemann ， Carsten Rother ，Xiaoou Tang，and Jian Sun.一种用于alpha抠图的全局采样方法。IEEE计算机视觉和模式识别会议（CVPR），第2049-2056页[18] 何开明，孙建，唐晓鸥。使用大核抠图拉普拉斯矩阵的快速抠图IEEE计算机视觉与模式识别会议，1：2165[19] 侯七七和凤琉。同时进行前景和alpha估计的上下文感知图像抠图。国际计算机视觉会议（ICCV），第4129-4138页，2019年。[20] 托马斯·N Kipf和Max Welling。图卷积网络的半监督分类。2017年学习表征国际会议[21] Loıc Landrieu和Martin Simonovsky。基于超点图的大规模点云语义分割。IEEE计算机视觉和模式识别会议（CVPR），第4558-4567页[22] Philip Greggory Lee和Ying Wu非局部matting。IEEE计算机视觉和模式识别会议（CVPR），第2193-2200页[23] Anat Levin，Dani Lischinski和Yair Weiss。一个封闭形式的解决方案，以自然图像抠图。IEEE Transactions onPattern Analysis and Machine Intelligence，30（2 ）：228-242，2008。[24] Anat Levin Alex Rav-Acha 和 Dani Lischinski 。光谱抠图。IEEE Transactions on Pattern Analysis and MachineIntelligence，30（10）：1699[25] 李晓晓，刘紫薇，罗平，陈昌来，唐晓鸥。并非所有像素都相等：通过深层级联的难度感知语义分割。IEEE计算机视觉和模式识别会议（CVPR），第6459-6468页[26] Yaoyi Li and Hongtao Lu.通过引导上下文注意的自然图像抠图AAAI，第11450-11457页[27] Yujia Li ， Daniel Tarlow ， Marc Brockschmidt ， andRichard S.泽梅尔门控图序列神经网络2016年学习表征国际会议[28] 放大图片作者：林宗毅，彼得 · 多尔，罗斯 ·B.Girshick，KaimingHe，Bharath Hariharan，and Serge J.贝隆吉用于对象检测的特征金字塔网络。IEEE计算机视觉和模式识别会议（CVPR），第936- 944页[29] 作者：Michael Maire，Serge J. Belongie，James Hays，PietroPerona，Dev aRamanan，PiotrDol la'r，andC.劳伦斯·齐尼克。Microsoft COCO：在上下文中常见的对象。在欧洲计算机视觉会议，8693：7407177[30] 刘金林，姚元，侯文迪，崔苗苗，谢轩松，张长水，华先胜。用粗糙的注释来增强语义人类铺垫。IEEE计算机视觉和模式识别会议（CVPR），第8560-8569页[31] Hao Lu，Yutong Dai，Chunhua Shen，and Songcen Xu.关键因素：学习索引深度图像抠图。国际计算机视觉会议（ICCV），第3265-3274页[32] 敖罗、李欣、范阳、焦志成、洪成、吕四维。用于RGB- D显著目标检测的级联图神经网络。在欧洲计算机视觉会议（ECCV），12357：346[33] Xiaojuan Qi，Renjie Liao，Jiaya Jia，Sanja Fidler，andRaquel Urtasun.用于RGBD语义分割的3D图神经网络。国际计算机视觉会议（ICCV），第5209-5218页[34] Yu Qiao，Yuhao Liu，Xin Yang，Dongsheng Zhou，Mingliang Xu，Qiang Zhang，and Xiaopeng Wei.用于图像抠图的注意力引导层次结构聚集。IEEE计算机视觉和模式识别会议（CVPR），第13673-13682页[35] 张子晨，张子晨，黄晨阳，马苏德汉 .Zaıane ，andMartinJaügersand. U2-net：使用嵌套的u结构进行更深入的显着对象检测。模式识别，106：107404，2020。[36] Christoph Rhemann ， Carsten Rother ， Jue Wang ，Margrit Gelautz，Pu

下载后可阅读完整内容，剩余1页未读，立即下载