基于注意力引导的分层结构聚合图像抠图

114 浏览量更新于2023-10-25 收藏 18.41MB PDF 举报

抠图算法

深度学习

身份认证购VIP最低享 7 折!

30元优惠券

136760基于注意力引导的分层结构聚合图像抠图0Yu Qiao 1，*，Yuhao Liu 1，*，Xin Yang 1，4，†，Dongsheng Zhou 2，Mingliang Xu 3，Qiang Zhang 2，Xiaopeng Wei 1，†01 大连理工大学，2 大连大学，3 郑州大学，4 北京工商大学0{coachqiao2018，yuhaoLiu7456}@gmail.com，{xinyang，zhangq，xpwei}@dlut.edu.cn，donyson@126.com0iexumingliang@zzu.edu.cn0摘要0现有的基于深度学习的抠图算法主要依赖于高级语义特征来改善 alpha 通道的整体结构。然而，我们认为从 CNN中提取的高级语义信息对于 alpha通道的感知贡献不均，我们应该将高级语义信息与低级外观线索相结合，以进一步改善前景细节。在本文中，我们提出了一种端到端的分层注意力抠图网络（HAttMatting），可以从单个 RGB 图像中预测更好的 alpha通道结构，无需额外输入。具体而言，我们采用空间和通道注意力以新颖的方式整合外观线索和金字塔特征。这种混合注意力机制可以从精细边界和自适应语义中感知 alpha通道。我们还引入了一种混合损失函数，融合了结构相似性（SSIM）、均方误差（MSE）和对抗损失，以指导网络进一步改善整体前景结构。此外，我们构建了一个大规模的图像抠图数据集，包括 59,600 张训练图像和 1000张测试图像（共 646 个不同的前景 alpha通道），可以进一步提高我们的分层结构聚合模型的鲁棒性。大量实验证明，所提出的 HAttMatting可以捕捉复杂的前景结构，并以单个 RGB图像作为输入实现最先进的性能。01. 引言0图像抠图是指从输入图像中精确估计前景的不透明度。这个问题以及它的逆过程（称为图像合成）已经在学术界和工业界得到了广泛研究。图像抠图是广泛应用于图像编辑、混合现实和电影制作等领域的一项基础技术。0* 共同第一作者。†共同通讯作者，他们领导了这个项目。项目页面：https://wukaoliu.github.io/HAttMatting/。0输入图像 HAttMatting（我们的方法）地面真值0图 1：我们的 HAttMatting 在 Composition-1k 测试集[37] 上生成的 alpha 通道。0应用领域广泛，包括在线图像编辑、混合现实和电影制作。形式上，它通过解决以下图像合成方程来建模：0I z = α z F z + (1 - α z) B z，α z ∈ [0, 1]（1）0其中 z 表示输入图像 I 中的像素位置。α z 、F z 和 B z分别指代像素 z处的透明度估计、前景（FG）和背景（BG）。这个问题非常不适定，对于给定的 RGB 图像中的每个像素，需要解决7 个值，但只有 3个值是已知的。数字抠图本质上是像素级的前景回归，我们认为前景的结构包含两个方面：自适应语义和精细边界，分别对应于方程式 1 中的 α z = 1 和 α z ∈ (0,1)。现有的抠图方法通常通过引入用户提供的修剪图作为辅助输入来解决方程式1。修剪图由黑色、灰色和白色组成，分别表示背景、过渡区域和绝对前景。过渡区域表示前景边界，与前景一起共同指导抠图算法。给定一个 RGB图像和相应的修剪图，传统的抠图方法利用颜色分布来预测alpha通道。然而，颜色特征在结构表示上是不适用的，可能导致前景和背景颜色无法区分时出现伪影和细节丢失。136770深度图像抠图（DIM）[37]将深度学习正式引入到抠图中，他们认为抠图对象共享一个可以用高级特征表示的共同结构。值得注意的是，DIM在细化阶段涉及到RGB图像，将高级语义与外观线索相结合。高级语义表示FG类别和轮廓，而外观线索揭示了纹理和边界细节。随后的抠图网络[3, 15, 23,34]大多设计了复杂的架构来提取高级语义，并从输入图像或低级CNN特征中融合外观线索。然而，他们的外观线索和高级语义都依赖于trimap作为辅助和昂贵的输入。一个明确定义的trimap需要费时费力的手工标注工作，对于实际应用中的新手用户来说是困难的。一些抠图工作[5,7]依赖于分割来生成trimap，这在一定程度上降低了alpha抠图的精度。Late Fusion[40]将分割网络生成的FG和BG权重图与初始CNN特征混合，以单个RGB图像作为输入预测alpha抠图。然而，当语义分割遇到困难时，后期融合会受到影响。上述方法直接将高级语义和外观线索输入到优化或融合阶段，而我们认为它们在组合之前需要适当的过滤。一方面，自然图像抠图实质上是一个回归问题，不完全依赖于图像语义，这意味着由深度网络提取的语义属性对FG结构的贡献不均等。另一方面，如图3所示，虽然外观线索保留了复杂的图像纹理，但它们也包含了FG之外的细节。然而，现有的抠图网络忽视了这种层次化特征的深入挖掘和提炼。本文综合探索了高级语义和外观线索，并提出了一种端到端的分层注意力抠图网络（HAttMatting），实现了这种层次结构的聚合。高级语义可以提供FG类别和轮廓，而外观线索提供纹理和边界细节。为了深入整合这种层次结构，我们对高级语义进行通道注意力选择适应抠图的特征，并对外观线索进行空间注意力以过滤图像纹理细节，最后将它们聚合起来预测alpha抠图。此外，我们利用均方误差（MSE）、结构相似性（SSIM）[35]和对抗损失[13]组成的混合损失用于优化整个网络训练。大量实验证明，我们的注意力引导的分层结构聚合可以仅通过RGB图像作为输入感知到高质量的alpha抠图。本文的主要贡献是：0• 我们提出了一种端到端的分层注意力Mat-0抠图网络（HAttMatting），可以在没有任何额外输入的情况下获得高质量的alpha抠图。HAttMatting非常方便新手用户使用，可以有效应用于不同类型的对象。•我们设计了一种分层注意力机制，可以聚合外观线索和高级金字塔特征，产生细粒度的边界和自适应语义。•我们采用均方误差（MSE）、结构相似性（SSIM）和对抗损失[13]组成的混合损失来改善alpha感知，为我们的HAttMatting训练提供有效的指导。•我们创建了一个大规模的抠图数据集，包括59,600个训练图像和1000个测试图像，总共646个不同的前景alpha抠图。据我们所知，这是最大的包含多样化前景对象的抠图数据集，可以进一步提高我们HAttMatting的鲁棒性。02. 相关工作0深度学习为自然图像抠图带来了巨大的进步，高度抽象了FG结构的表示，我们简要回顾了两类图像抠图方法：传统方法和深度学习方法。传统抠图。现有的抠图方法主要通过额外的输入来实现FG不透明度：trimap或涂鸦。trimap由FG、BG和过渡区域组成，用于划分输入RGB图像，而涂鸦则通过几个用户指定的涂鸦来表示这三个标签。过渡区域表示FG边界，这是图像抠图的关键点。虽然涂鸦方法[19, 20, 32,39]对于新手用户来说很方便，但它们会显著恶化alpha抠图，因为参考信息不足。因此，大多数方法利用trimap作为感知FG结构的必要辅助。传统抠图方法主要依靠从输入图像中提取的颜色特征来限制过渡区域。根据使用颜色特征的不同方式，它们可以分为两类：基于采样的方法和基于亲和性的方法。基于采样的方法[9, 11, 17, 26, 28,33]通过用一对特定的FG/BG像素表示过渡区域内的每个像素来解决alpha抠图。基于亲和性的方法[1, 6, 14, 18, 19,20,29]通过邻居像素之间的亲和性来感知FG边界，这些像素属于特定的标签和过渡区域。采样和亲和性方法主要利用颜色特征来预测alpha抠图，无法描述FG的高级结构。当FG和BG具有相似的颜色时，传统方法通常会产生明显的伪影。深度学习抠图。与其他计算机视觉任务类似，抠图对象也具有一般的结构。136780图2：我们的HAttMatting的流程。橙色框（金字塔特征蒸馏）表示对从ASPP[4]中提取的金字塔信息进行通道注意力蒸馏。灰色框（外观线索过滤）表示对从特征提取模块的block1中提取的外观线索进行空间注意力过滤。0可以用高级语义特征来表示的FG结构。Cho等人[8]将[19]和[6]的结果与输入图像连接起来，使用这个5通道的输入来预测alpha遮罩。Xu等人[37]提出了深度图像抠图（DIM），它将RGB图像与trimap结合起来作为联合输入，利用先进的语义来估计alpha遮罩。Tang等人[30]提出了一种基于采样和学习的混合方法来进行抠图。Cai等人[3]和Hou等人[15]都建立了两个分支来感知alpha遮罩，这两个分支相互加强，以改进最终结果。Hao等人[23]将上采样运算符与索引函数统一起来，以改进编码器-解码器网络。然而，所有这些抠图网络都依赖于trimap来增强它们的语义蒸馏，而对于普通用户来说，生成trimap是困难的。一些抠图框架[5,7]利用分割来生成trimap，这通常导致FG轮廓或边界不完整。Yang等人[38]使用LSTM和强化学习来生成有效的trimap，需要简单的用户交互和额外的反馈时间。虽然[2]中的多尺度特征组合可以自动生成alpha遮罩，但执行速度非常慢。Zhang等人[40]研究了用于FG和BG权重图融合的语义分割变体，以获得alpha遮罩。尽管他们在没有trimap的情况下实现了抠图，但在分割不适用的情况下会出现失败案例。03. 方法论03.1. 概述0从公式1可以得出结论，完整的FG对象应该由两部分组成：1）主体部分表示FG类别和轮廓（αz = 1），2）内部0位于过渡区域的纹理和边界细节（αz ∈ (0,1)）。前者可以通过先进的语义来建议，而后者通常来自输入图像或低级CNN特征，称为外观线索，它们的组合可以实现alpha遮罩。在本文中，我们认为在组合之前，先进的语义和外观线索需要经过适当的处理。首先，自然图像抠图应该处理不同类型的FG对象，这意味着我们应该蒸馏先进的语义来关注FG信息，并适当地抑制它们对对象类别的敏感性。其次，如图3所示，外观线索涉及不必要的BG细节，需要在alpha遮罩中擦除。基于以上分析，我们方法的核心思想是选择适应抠图的语义信息，并消除外观线索中多余的BG纹理，然后将它们聚合起来预测alpha遮罩。为此，我们采用通道注意力来蒸馏从Atrous Spatial PyramidPooling（ASPP）[4]中提取的先进语义信息，并对外观线索进行空间注意力，以同时消除FG之外的图像纹理细节。我们精心设计的分层注意机制可以从自适应语义和精炼边界中感知FG结构，它们的聚合可以实现更好的alpha遮罩。此外，我们设计了混合损失来指导网络训练，结合均方误差（MSE）、结构相似性（SSIM）和对抗损失[13]，分别负责像素精度、结构一致性和视觉质量。03.2. 网络架构0整体网络设计。我们提出的HAttMatting的流程如图2所示。我们利用Ltotal = λ1Ladv + λ2LMSE + λ3LSSIM,(2)136790(a)0(b)0(c)0(d)0(e)0(f)0图3：从ResNeXtblock1中提取的输入图像和相应的外观线索。这里我们选择了256个通道中的一个以获得更好的可视化效果。0考虑到ResNeXt[36]在提取高级语义信息方面的强大能力，我们将其作为骨干网络。对骨干网络进行一系列参数调整以获得更大的感受野。然后将block4的高级特征图输入到ASPP[4]模块中进行多尺度语义捕获。相应地，我们将block1的特征图作为外观线索在我们的方法中进行平均（图3）。HAttMatting使用通道注意力来提取金字塔特征，并对外观线索进行空间注意力以抑制冗余的背景细节。此外，我们利用鉴别器网络参考PatchGAN [16,42]来增强alpha通道的视觉质量。金字塔特征提取。提取的金字塔特征在前景结构回归中分配不均，因此我们对金字塔特征进行通道注意力以提取自适应的语义属性。如图2中所示的橙色框，我们将金字塔特征上采样4倍，然后利用全局池化来概括特征图。然后使用共享的MLP来提取语义属性。我们使用sigmoid层来计算通道注意力图，并将其与上采样的金字塔特征相乘以实现语义提取。通道注意力可以选择适应图像抠图的金字塔特征，并保留前景的轮廓和类别属性。金字塔特征是从深层的ResNextblock中学习到的，它们是高度抽象的语义信息，因此我们需要外观线索来生成alpha通道中的细节。外观线索过滤。图像抠图要求精确的前景边界，而高级金字塔特征无法提供这样的纹理细节。因此，我们在ResNeXtblock1和上采样之间建立了一个跳跃连接（图2），可以将外观线索传输到alpha通道生成中。block1可以捕捉到...0从输入图像中获取真实的图像纹理和细节，与第一个上采样具有相同的空间分辨率。从block1中提取的特征图在图3的第二行中显示，我们将这些低级特征作为我们的外观线索。这些外观线索可以描绘复杂的图像纹理，与alpha通道感知所需的边界精度相匹配。提出的HAttMatting可以利用外观线索增强结果中的前景边界。尽管外观线索展示了足够的图像纹理，但只有前景内部或周围的区域才能对alpha通道产生贡献。因此，我们引入空间注意力来过滤位于背景和强调前景内部的外观线索。具体而言，我们分别使用核大小为1*7和7*1来执行水平和垂直方向的注意力。图2中的灰色框显示了我们的空间注意力。通过上述两个滤波器核进行两个并行卷积来进一步处理注意到的金字塔语义。然后它们的串联作为注意机制处理初始外观线索，去除属于背景的纹理和细节。在此之后，我们将过滤后的外观线索和提取的金字塔特征连接起来以生成alpha通道。通道注意力和空间注意力的聚合共同优化了alpha通道的生成：一个负责金字塔特征的选择，另一个负责外观线索的过滤。这种精心设计的分层注意机制可以有效地关注低级和语义特征，并且它们的聚合产生具有细粒度细节的高质量alpha通道。03.3. 损失函数0像素回归相关的损失函数（L1或MSE损失）通常被用作alpha matte预测的损失函数[3,37]。它们可以通过像素级监督生成有竞争力的alphamatte。然而，这种回归损失只在绝对像素空间中衡量差异，没有考虑前景结构。因此，我们引入SSIM损失（LSSIM）来计算预测的alphamatte与真实值之间的结构相似性。结构相似性（SSIM）[35]已经证明在预测图像中提高结构一致性的能力[25,31]。除了上述的损失函数，我们还添加了对抗性损失（Ladv）[13]来提升预测的alphamatte的视觉质量。在提出的HAttMatting中，我们使用这个混合损失函数来指导网络训练，实现有效的alphamatte优化。我们的损失函数定义如下：0L adv，L MSE和L SSIM分别可以提高alphamatte的视觉质量、像素级准确性和前景结构相似性。λ1，λ 2和λ 3表示平衡系数。Ladv = E(I,A)[log(D(I, A))+log(1−D(I, G(I)))], (3)LMSE = 1|Ω|Ω�i(αip − αig)2,αip, αig ∈ [0, 1],(4)LSSIM = 1 −(2µpµg + c1)(2σpg + c2)(µ2p + µ2g + c1)(σ2p + σ2g + c2).(5)136800损失函数的平衡系数为：0其中，I表示输入图像，A表示预测的alpha matte。LMSE表示为：0其中，Ω表示像素集合，| Ω|表示像素数量（即输入图像的大小）。α i p和α ig分别表示像素i的预测和真实alpha值。LMSE可以确保alpha matte估计的像素级准确性。我们通过LSSIM来优化前景结构，如下所示：0其中，µ p，µ g，σ p和σ g分别表示α i p和α ig的均值和标准差。通过LSSIM的引导，我们的方法可以进一步提高前景结构。03.4. 实现细节0我们使用PyTorch实现了HAttMatting。在训练过程中，所有输入图像都被随机裁剪为512×512、640×640和800×800的大小。然后，它们被调整为512×512的分辨率，并通过水平随机翻转进行增强。为了加速训练过程并防止过拟合，我们使用预训练的ResNeXt-101网络[36]作为特征提取网络，而其他层则从高斯分布中随机初始化。对于损失优化，我们使用带有动量为0.9和权重衰减为0.0005的随机梯度下降（SGD）优化器。学习率初始化为0.007，使用“poly”策略[22]进行调整，幂为0.9，持续20个周期。方程2中的平衡系数λ 1，λ 2和λ3在第一个周期为0.05，1和0.1，之后调整为0.05，1和0.025，持续19个周期。我们的HAttMatting在单个GPU上进行训练，批量大小为4，网络收敛需要大约58小时，使用TeslaP100显卡。04. 实验0在本节中，我们在两个数据集上评估HAttMatting：公共的Adobe Composition-1k[37]和我们的Distinctions-646。首先，我们定量和定性地将HAttMatting与最先进的方法进行比较。然后，我们在这两个数据集上对HAttMatting进行消融研究，以展示几个关键组件的重要性。最后，我们在真实场景中执行HAttMatting来生成alpha matte。04.1. 数据集和评估指标0数据集。第一个数据集是公共的Adobe Composition-1k[37]。训练集包含431个具有相应真实alpha遮罩的前景对象。每个前景图像与来自MSCOCO数据集[21]的100个背景图像组合以生成输入图像。对于测试集，Composition-1k包含50个前景图像以及相应的alpha遮罩，以及来自PASCALVOC2012数据集[10]的1000个背景图像。训练集和测试集是通过[37]提供的算法合成的。第二个是我们的Distinctions-646数据集。AdobeComposition-1K包含许多连续的视频帧，以及来自同一图像的裁剪补丁，在它们的训练集中实际上只有大约250个不同的前景对象。为了提高训练过程中抠图网络的多样性和鲁棒性，我们构建了由646个不同前景图像组成的Distinctions-646数据集。我们将这些前景示例分为596个和50个，然后根据[37]中的合成规则生成59,600个训练图像和1000个测试图像。评估指标。我们根据四个常见的定量指标评估alpha遮罩：绝对差值之和（SAD），均方误差（MSE），梯度（Grad）和连通性（Conn），这些指标由[27]提出。更好的图像抠图方法应该生成高质量的alpha遮罩，从而降低上述四个指标的值。04.2. 与最先进方法的比较0在Composition-1k测试集上的评估。在这里，我们将HAttMatting与6种传统的抠图方法进行比较：Shared Matting[12]，Learning Based [41]，Global Matting [26]，ClosedForm[19]，KNN Matting [6]，Information-Flow[1]，以及8种基于深度学习的方法：DCNN [8]，DIM[37]，AlphaGAN [24]，SSS [2]，SampleNet[30]，Context-aware [15]，IndexNet [23]，Late Fusion[40]。SSS，LateFusion和我们的HAttMatting可以生成无需Trimap的alpha遮罩。对于其他方法，我们使用25个像素的随机膨胀生成的RGB图像和Trimap作为输入，参考[37]。为了公平对比，我们使用全分辨率的输入图像，并在图4中展示了视觉结果。定量比较结果在表1中报告，四个指标都是在整个图像上计算的。HAttMatting在传统方法上表现出明显的优势，这在图4和表1中可以清楚地观察到。与基于深度学习的方法相比，HAttMatting比DCNN、DIM、SSS和LateFusion具有更复杂的细节，并且优于SampleNet，因为我们采用分层注意机制来提取高级语义和外观线索，并通过聚合实现完整的前景轮廓和边界。我们的HAttMatting略逊于Context-Aware和IndexNet。前者建立了两个分支并采用FG图像监督来预测alpha遮罩，而后者学习索引函数来捕捉纹理和边界细节。尽管它们都能生成高质量的alpha遮罩，但在训练和推理阶段都需要强制使用Trimap，这限制了它们在实际应用中的效果。我们的HAttMatting只需要单个RGB图像作为输入，非常方便新手用户。136810输入图像 Trimap 闭合形式 [19] DCNN [8] SSS [2] DIM [37]0SampleNet [30] IndexNet [23] Context-Aware [15] Late Fusion [40] HAttMatting（我们的方法）Ground Truth0输入图像 Trimap 闭合形式 [19] DCNN [8] SSS [2] DIM [37]0SampleNet [30] IndexNet [23] Context-Aware [15] Late Fusion [40] HAttMatting（我们的方法）Ground Truth0输入图像 Trimap 闭合形式 [19] DCNN [8] SSS [2] DIM [37]0SampleNet [30] IndexNet [23] Context-Aware [15] Late Fusion [40] HAttMatting（我们的方法）Ground Truth0图4：Composition-1k测试集上的视觉比较。SSS [2]中的片段是手动选择的。0FG图像监督以预测alpha遮罩，而后者学习索引函数来捕捉纹理和边界细节。尽管它们都能生成高质量的alpha遮罩，但在训练和推理阶段都需要强制使用Trimap，这限制了它们在实际应用中的效果。我们的HAttMatting只需要单个RGB图像作为输入，非常方便新手用户。0对我们的Distinctions-646进行评估。对于我们的Distinctions-646数据集，我们将HAttMatting与8种最新的最先进的抠图方法进行比较，包括Shared Matting [12]，LearningBased [41]，Global Matting [26]，ClosedForm[19]，KNN Matting [6]，DCNN [8]，Information-Flow[1]和DIM[37]。对于其他基于深度学习的方法，由于它们的训练代码对我们不可用，我们无法在我们的数据集上进行评估。0我们还使用随机膨胀生成高质量的修剪图[37]，并在整个图像上计算相关指标。0定量比较显示在Tab.2中。我们的HAttMatting在所有四个指标上都明显优于所有传统方法，并且在Grad和Conn指标上优于DIM[37]，而在SAD指标上略逊于DIM[37]。值得注意的是，只有我们的方法可以在没有修剪图的情况下生成alphamattes，而其他所有方法都需要修剪图来限制过渡区域，从而有效提高了这些方法的性能。图5说明了与DIM[37]网络的视觉比较。在这里，我们扩大了过渡区域以减少修剪图的准确性，并且显示了与DIM的相应alphamattes在第四列中。视觉质量的恶化显而易见，过渡区域Shared Matting [12]125.370.029144.28123.53Learning Based [41]95.040.01876.6398.92Global Matting [26]156.880.042112.28155.08ClosedForm [19]124.680.025115.31106.06KNN Matting [6]126.240.025117.17131.05DCNN [8]115.820.023107.36111.23Information-Flow [1]70.360.01342.7970.66DIM [37]48.870.00831.0450.36AlphaGAN [24]90.940.01893.9295.29SampleNet [30]48.030.00835.1956.55Context-Aware [15]38.730.00426.1335.89IndexNet [23]44.520.00529.8842.37Late Fusion [40]58.340.01141.6359.74Shared Matting [12]119.560.026129.61114.37Learning Based [41]105.040.02194.16110.41Global Matting [26]135.560.039119.53136.44ClosedForm [19]105.730.02391.76114.55KNN Matting [6]116.680.025103.15121.45DCNN [8]103.810.02082.4599.96Information-Flow [1]78.890.01658.7280.47DIM [37]47.560.00943.2955.90136820输入图像修剪图 DIM [37] DIM+Large HAttMatting (我们的方法) 真实值0图5：我们Distinctions-646测试集上的视觉比较。“DIM+Large”表示我们将DIM与具有较大过渡区域的修剪图一起使用，而我们的方法可以在没有修剪图的情况下生成高质量的alpha mattes。0方法 SAD ↓ MSE ↓ Grad ↓ Conn ↓0HAttMatting (我们的方法) 44.01 0.007 29.26 46.410基础 126.31 0.025 111.35 118.71 基础 + SSIM 102.79 0.02188.04 110.14 基础 + 低 89.39 0.016 56.67 90.03 基础 + CA96.67 0.018 73.94 95.08 基础 + 低 + CA 72.73 0.013 49.5365.92 基础 + 低 + SA 54.91 0.011 46.21 60.40 基础 + 低 +CA + SA 49.67 0.009 41.11 53.760表1：Composition-1k测试集上的定量比较。灰色的方法（LateFusion和我们的HAttMatting）只接受RGB图像作为输入，而其他方法需要修剪图作为辅助以保证alphamattes的准确性。“基础”表示我们的基线网络，而相应的“基础+”表示我们在基线上组装不同的组件以生成alpha mattes。0区域扩展，这可以验证DIM对修剪图质量的强依赖性。alpha mattes pro-0HAttMatting生成的图像展示了复杂的纹理细节，这主要得益于我们模型中自适应语义和有效外观线索的聚合。0方法 SAD ↓ MSE ↓ Grad ↓ Conn ↓0基础 129.94 0.028 124.57 120.22 基础 + SSIM 121.79 0.025110.21 117.41 基础 + 低 98.88 0.020 84.11 92.88 基础 + CA104.23 0.022 90.87 101.9 基础 + 低 + CA 85.57 0.015 79.1688.38 基础 + 低 + SA 78.14 0.014 60.87 71.90 基础 + 低 +CA + SA 57.31 0.011 52.14 63.020HAttMatting（我们的方法）48.98 0.009 41.57 49.930表2：我们Distinctions-646测试集上的定量比较。"基础"的定义与表1相同。04.3.消融研究0我们HAttMatting的核心思想是提取自适应的金字塔特征并过滤低级外观线索，然后将它们聚合起来生成alpha抠图。为了实现这个目标，我们使用通道注意力（CA）和空间注意力（SA）对金字塔特征进行重新加权和过滤。136830（a）输入图像0（e）HAttMatting0（f）真实值0图6：不同组件的视觉比较。每个组件对alpha抠图有显著改进。0分别处理外观线索。我们还在损失函数中引入了SSIM来进一步改善前景结构。我们对这些组件进行了不同的组合，并在Composition-1k和Distinctions-646数据集上验证了它们的重要性。基础模型：这是我们的基线网络，只使用原始的金字塔特征生成alpha抠图，并通过L MSE和L adv进行优化。基础模型+SSIM：在我们的损失函数中加入了LSSIM。基础模型+低级线索：直接将低级外观线索与金字塔特征聚合，可以为alpha抠图提供复杂的纹理和细节。基础模型+通道注意力：在基线模型的基础上，我们使用通道注意力提取金字塔特征。通道注意力可以有效地抑制不必要的高级语义，并降低训练模型对前景类别的敏感性，这意味着网络可以处理各种前景对象，提高模型的通用性。基础模型+低级线索+通道注意力：这种组合集成了上述两个模块的优点，以提高性能。基础模型+低级线索+空间注意力：我们修改后的空间注意力可以消除外观线索中的背景纹理，改善后续聚合过程。基础模型+低级线索+通道注意力+空间注意力：我们将通道注意力、低级线索和空间注意力组合起来，以在没有SSIM的情况下实现出色的alpha抠图。定量结果如表1和表2所示。可以清楚地看到，每个组件都可以显著改善我们的结果。视觉比较如图6所示。通道注意力可以提供前景轮廓（图6c），而空间注意力可以展示细粒度的内部纹理和边界细节（图6d），它们的聚合可以生成高质量的alpha抠图（图6e）。04.4.真实世界图像上的结果0图7显示了我们在真实世界图像上的抠图结果*。评估模型是在Composition-1k上训练的。0*更多抠图结果请参见补充材料。0输入图像 Alpha抠图0图7：真实世界图像上的结果。0数据集。我们可以看到，HAttMatting能够在没有任何外部输入或用户交互的情况下实现高质量的alpha抠图。然而，如果输入图像有一些模糊（狗嘴下方的毛发），HAttMatting只能预测出模糊的前景边界。输入图像中的模糊会阻碍我们的外观线索过滤，并降低后续聚合过程的效果。05.结论和未来工作0在本文中，我们提出了一种分层注意力抠图网络（HAttMatting），它可以从单个RGB图像中预测高质量的alpha抠图。HAttMatting利用通道注意力提取适应抠图的语义信息，并进行空间注意力来过滤外观线索。大量实验证明，我们的分层结构聚合可以有效地提取输入图像的高级和低级特征，并在没有外部trimap的情况下实现高质量的alpha抠图。在未来，我们将探索更有效的策略来改进我们的注意力机制，我们相信这可以更有效地聚合先进的语义和外观线索，从而进一步提高网络的通用性和鲁棒性。0致谢0这项工作得到了中国国家自然科学基金会的部分支持，项目编号91748104，61972067，61632006，U1811463，U1908214，61751203，以及中国国家重点研发计划的部分支持，项目编号2018AAA0102003，2018YFC0910506，还得到了北京市食品安全大数据技术重点实验室开放研究基金的支持（项目编号BTBD-2018KF）。136840参考文献0[1] Yagiz Aksoy, Tunc Ozan Aydin, and Marc Pollefeys.设计有效的像素间信息流用于自然图像抠图。在CVPR，2017年。[2] Ya˘gız Aksoy, Tae-Hyun Oh, Sylvain Paris, Marc Pollefeys,and Wojciech Matusik. 语义软分割。ACM TOG，2018年。[3]Shaofan Cai, Xiaoshuai Zhang, Haoqiang Fan, Haibin Huang,Jiangyu Liu, Jiaming Liu, Jiaying Liu, Jue Wang, and Jian Sun.解耦图像抠图。在ICCV，2019年。[4] L. C. Chen, G Papandreou,I Kokkinos, K Murphy, and A. L. Yuille. Deeplab:基于深度卷积网络、空洞卷积和全连接CRFs的语义图像分割。IEEETPAMI，2018年。[5] Quan Chen, Tiezheng Ge, Yanyu Xu,Zhiqiang Zhang, Xinxin Yang, and Kun Gai.语义人体抠图。在ACM MM，2018年。[6] Qifeng Chen,Dingzeyu Li, and Chi Keung Tang. Knn抠图。IEEETPAMI，2013年。[7] D Cho, S Kim, Y. W. Tai, and I. S. Kweon.自动生成trimap和一致的抠图用于光场图像。IEEETPAMI，2016年。[8] Donghyeon Cho, Yu Wing Tai, and InsoKweon.使用深度卷积神经网络的自然图像抠图。在ECCV，2016年。[9]Yung Yu Chuang, B. Curless, D. H. Salesin, and R. Szeliski.一种贝叶斯方法用于数字抠图。在CVPR，2003年。[10] MarkEveringham, Luc Van Gool, Christopher KI Williams, JohnWinn, and Andrew Zisserman.Pascal视觉对象类别（VOC）挑战。IJCV，2010年。[11] XiaoxueFeng, Xiaohui Liang, and Zili Zhang.一种用于图像抠图的聚类采样方法。在ECCV，2016年。[12]Eduardo S. L. Gastal and Manuel M. Oliveira.实时alpha抠图的共享采样。CGF，2010年。[13] Ian JGoodfellow, Jean Pouget-Abadie, Mehdi Mirza, Xu Bing,David Warde-Farley, Sherjil Ozair, Aaron Courville, andYoshua Bengio. 生成对抗网络。在NeurIPS，2014年。[14] LeoGrady, Thomas Schiwietz, Shmuel Aharon, and R¨udigerWestermann.交互式alpha抠图的随机游走。在VIIP会议论文集，2005年。[15]Qiqi Hou and Feng Liu.上下文感知图像抠图用于前景和alpha同时估计。在ICCV，2019年。[16] Phillip Isola, Jun-Yan Zhu, Tinghui Zhou, and Alexei AEfros. 条件对抗网络的图像到图像转换。在CVPR，2017年。[17]L. Karacan, A. Erdem, and E. Erdem.基于KL散度的稀疏采样的图像抠图。在ICCV，2015年。[18] P Leeand Ying Wu. 非局部抠图。在CVPR，2011年。[19] Anat Levin,Dani Lischinski, and Yair Weiss. 自然图像抠图的闭式解。IEEETPAMI，2007年。[20] Anat Levin, Alex Rav-Acha, and DaniLischinski. 光谱抠图。IEEE TPAMI，2008年。[21] Tsung-Yi Lin,Michael Maire, Serge Belo

下载后可阅读完整内容，剩余1页未读，立即下载