MatteFormer：基于Transformer的图像抠图模型

155 浏览量更新于2023-10-25 收藏 21.08MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

116960MatteFormer：基于Transformer的图像抠图0GyuTae Park 1, 2, SungJoon Son 1, 2, JaeYoung Yoo 2, SeHo Kim 2, Nojun Kwak 101 首尔国立大学，韩国 2 NAVERWEBTOON AI，韩国0{gyutae.park, sjson718, yoojy31, seho.kim}@webtoonscorp.com, nojunk@snu.ac.kr0摘要0在本文中，我们提出了一种基于Transformer的图像抠图模型，称为MatteFormer，它充分利用了Transformer块中的trimap信息。我们的方法首先引入了一个先验令牌，它是每个trimap区域（例如前景、背景和未知区域）的全局表示。这些先验令牌被用作全局先验，并参与每个块的自注意机制。编码器的每个阶段由PAST（Prior-Attentive SwinTransformer）块组成，它基于SwinTransformer块，但在以下几个方面有所不同：1）它具有PA-WSA（Prior-Attentive WindowSelf-Attention）层，不仅使用空间令牌进行自注意，还使用先验令牌进行自注意。2）它具有先验记忆，累积保存先验令牌从前一个块传递到下一个块。我们在常用的图像抠图数据集Composition-1k和Distinctions-646上评估了我们的MatteFormer。实验结果表明，我们提出的方法在性能上取得了领先的状态，并且有很大的优势。我们的代码可在https://github.com/webtoon/matteformer上找到。01. 引言0图像抠图是计算机视觉中最基本的任务之一，主要用于精确分离前景对象，以进行图像编辑和合成。特别是，前景不仅包括像人类头发和动物毛皮这样的复杂对象，还包括像玻璃、灯泡和水这样的透明对象。自然图像可以表示为前景F∈RH×W×C和背景B∈RH×W×C的线性组合0其中α矩阵∈RH×W定义如下：0Ii = αiFi + (1 - αi)Bi，αi∈[0, 1]，(1)0NojunKwak受韩国政府（MSIT）资助，获得NRF（2021R1A2C3006659）和IITP（NO.2021-0-01343）资助。0图1.先验令牌通过底部的trimap生成，并与局部空间令牌连接以参与自注意机制。0其中，H、W和C分别表示高度、宽度和通道数（彩色图像为3），i∈[HW]表示像素索引。在图像抠图中，仅通过观察图像I来估计不透明度值α是一个高度不适定的问题，如果没有额外的信息可用。因此，在许多研究中，使用各种类型的额外用户输入（例如trimap、涂鸦、二值掩码、背景图像等），其中尤其是trimap是最常见的。Trimap对用户来说是成本高昂的绘制工作，但提供了关于前景、背景和未知像素等全局上下文的高质量信息。因此，设计一个模型充分利用这个用户输入是很自然的，许多利用trimap的工作已经为图像抠图开发出来，其中大部分基于卷积神经网络（CNN）。虽然CNN在计算机视觉任务中非常成功，但对于自然语言处理（NLP）任务来说，transformers取得了巨大的成功，最近有许多尝试将transformers引入下游视觉任务作为CNN的替代方案。[11]的开创性工作提出了VisionTransformer（ViT），并展示了与基于CNN的模型相比令人印象深刻的性能，展示了在视觉任务上的潜力。然而，ViT中实现全局自注意力需要很高的计算成本；它与补丁数量的平方成正比。116970为了克服这个限制，一些通用的Transformer骨干网络[10,30,52]通过使用局部自注意力方法来降低计算复杂性。例如，[30]通过在局部窗口内引入自注意力，使输入大小的计算成本线性化，并通过合并层减少深层中的空间标记数量，提出了分层Transformer结构。此外，他们提出了移动窗口方案，通过相邻窗口交换信息。不幸的是，由于移动窗口技术缓慢扩大感受野，特别是在较低层次上仍然很难实现足够大的感受野。在本文中，我们提出了一种基于Transformer的图像抠图模型，称为MatteFormer。我们首先定义了一个先验标记，它表示每个trimap区域的全局上下文特征，即前景、背景和未知区域，如图1所示。这些先验标记被用作全局先验，并参与每个块的自注意机制。编码器阶段由PAST（Prior-Attentive SwinTransformer）块组成，这些块基于SwinTransformer块[30]。然而，我们的PAST块与SwinTransformer块在两个方面不同。首先，它具有PA-WSA（Prior-Attentive WindowSelf-Attention）层，在该层中，自注意力不仅与空间标记一起计算，还与先验标记一起计算，如图1所示。其次，我们引入了先验记忆，记忆每个块生成的所有先验标记。通过这种方式，前一个块的先验标记可以在下一个块的PA-WSA层中被利用。我们在Composition-1k和Distinctions-646上评估了MatteFormer，这是图像抠图中常用的数据集。结果表明，我们的方法达到了最先进的性能。我们还对先验标记的有效性、自注意力图的可视化、ASPP的使用和计算成本进行了一些广泛的研究。简而言之，我们的贡献可以总结如下：0• 我们提出了MatteFormer，这是第一个基于Transformer的图像抠图架构。0•我们引入了先验标记，它表示每个trimap区域（前景、背景和未知）的全局信息，并将它们用作我们提出的网络中的全局先验。0• 我们设计了PAST（Prior-Attentive SwinTransformer）块，它是SwinTransformer块的一种变体，包括PA-WSA（Prior-Attentive Window Self-Attention）层和先验记忆。0•我们在Composition-1k和Distinctions-646上评估了MatteFormer，结果显示我们的方法以较大的优势达到了最先进的性能。02. 相关工作02.1. 自然图像抠图0传统方法。由于自然图像抠图被认为是一个不适定问题，大多数抠图算法利用用户输入作为额外的先验信息。经常使用的是trimap，它提供了关于前景、背景和未知区域的信息。传统方法主要利用颜色特征来预测alpha通道。根据使用颜色特征的方式，它们主要分为基于采样和基于传播的方法。基于采样的方法[8, 13, 15, 37,45]利用未知区域与已知（前景和背景）区域之间的颜色相似性来估计带有前景和背景颜色统计信息的alpha通道。另一方面，基于传播的方法[6, 16, 19-21,38]，也称为基于亲和性的方法，通过从已知区域（前景和背景）向未知区域传播alpha值来估计alpha通道，通过邻近像素的亲和性来实现。基于学习的方法。由于传统方法高度依赖颜色特征，这些方法可能会产生由于缺乏语义信息而产生的伪影。深度学习在许多其他视觉任务上取得了巨大成功，图像抠图性能也通过CNN得到了显著改进。同时，由于绘制trimap需要昂贵的人力成本，也进行了一些无需trimap的研究。对于基于trimap的方法，[51]提出了一个两阶段的架构并发布了Composition-1K数据集。[33]利用GAN（生成对抗网络）框架来提高性能。[40]将基于采样的方法与深度学习方法相结合。[18]设计了两个编码器，用于局部特征和全局上下文，估计前景和alpha通道。[31]提出了一个带有学习索引概念的索引引导的编码器-解码器结构。[22]开发了一个引导的上下文注意力模块，通过低级亲和性在全局范围内传播高级不透明度。[53]提出了一种基于补丁的高分辨率输入方法，该方法通过解决补丁之间的交叉补丁依赖性和一致性问题来处理。[27]设计了具有纹理补偿路径的模型，以增强细粒度细节。[39]使用抠图模式类别并提出了语义trimap。对于无需trimap的方法，[34,57]仅使用单个RGB预测alpha通道。[57]提出了两个解码器的结构，用于分类前景和背景，并在额外的网络中融合它们。[34]设计了分层注意力结构并提出了Distinctions-646数据集。[25,36]提出了使用额外的背景图像代替trimap的方法。[54]使用二进制掩码作为额外输入，并提出了一种方法来pq = 1116980图2.我们提出的MatteFormer的整体架构，具有简单的编码器-解码器结构和快捷连接。每个编码器阶段包括所提出的PAST（Prior-AttentiveSwin Transformer）块。trimap有助于在每个PAST块中生成先前令牌。先前令牌存储在先前存储器中，以供后续块使用。0通过解码过程逐步细化不确定区域。由于trimap起到了强烈的提示作用，基于trimap的方法通常比无trimap的方法表现更好。然而，许多算法仅通过将trimap与输入RGB通道简单连接来使用trimap，这并没有充分利用trimap的潜力。在这方面，我们遵循基于trimap的方法，并提出了通过先前令牌在网络中充分利用trimap的方法。02.2. 视觉任务中的Transformer0仅基于自注意机制，transformer [43]在自然语言处理（NLP）任务上取得了巨大成功，并且已成为大多数语言模型的基本结构。此外，[11]将transformer应用于图像分类任务，证明了基于transformer的架构作为CNN的替代方案可以实现竞争性能。基于ViT[11]及其后续工作[7，14，0[41，55]，研究人员已经研究了将transformer应用于典型的视觉任务。例如，已经提出了许多基于transformer的图像分类模型[10，23，28，30，35，42，48，49，56]，目标检测[1，3，30，47]，语义分割[30，50，58]，图像补全[44]和低级视觉任务[4，24，32]。同时，许多研究[10，30，46，49，52，56]已经在设计用于下游视觉任务的通用transformer骨干网络方面进行了研究。特别是，[10，30，52]侧重于减少计算成本的自注意力变体和提取多尺度特征的分层结构。例如，我们的基线使用的Swin Transformer[30]在局部窗口中执行自注意力，并允许窗口之间的交叉连接。然而，它在较低层面仍然具有接受域不足的限制。我们的方法通过先前令牌解决了这个问题。0并在图像抠图问题上实现了最先进的性能。03. 方法03.1. 网络结构0如图2所示，我们提出的名为MatteFormer的网络具有典型的编码器-解码器结构和快捷连接。每个编码器阶段由一个PAST（Prior-Attentive SwinTransformer）块和一个减少令牌数量的补丁合并层组成，PAST块是SwinTransformer块的变体版本。我们提出的PAST块通过先前令牌弥补了局部窗口内的自注意力导致的接受域不足。在解码器中，我们使用了一个非常简单的结构，与[54]中使用的结构类似，包含少量的卷积和上采样层。编码层中的中间特征通过快捷连接直接传递给相应的解码器层。03.2. 先前令牌0由于trimap包含明确的区域信息，因此设计网络充分利用这个强大的提示以获得更好的结果是很自然的。我们首先通过对应查询区域的所有令牌取平均值生成三个查询区域的先前令牌：前景、背景和未知区域。例如，在图1中，前景先前令牌是所有位于前景区域（图中的白色trimap区域）上的空间令牌的平均特征。具体而言，先前令牌p q 可以表示为0Nq0i = 1 rqi ∙ zi, q ∈ {fg, bg, uk}, (2)0其中q是查询，它取值为前景（fg）、背景（bg）或未知（uk），i是令牌索引，zi表示空间令牌的特征。rqi是一个二进制值，取决于第i个令牌是否在相应的查询区域（rqi =1）或不在（rqi = 0）。例如，如果第i个空间令牌在前景区域，则rfgi为1。116990图3. 提出的PAST（Prior-Attentive SwinTransformer）块（左）。它基于SwinTransformer块，但在两个方面有所不同。一是在PA-WSA（Prior-Attentive WindowSelf-Attention）层中不仅使用本地窗口中的空间令牌，还使用先前令牌（右）。另一个是它具有一个先前记忆。0其中q是查询，它取值为前景（fg）、背景（bg）或未知（uk），i是令牌索引，zi表示空间令牌的特征。rqi是一个二进制值，取决于第i个令牌是否在相应的查询区域（rqi =1）或不在（rqi =0）。例如，如果第i个空间令牌在前景区域，则rfgi为1。Nq = ΣNirqi是属于区域q的令牌数量，表示相应查询区域中有多少空间令牌。N表示空间令牌的总数。为了简化计算，如果与一个空间令牌对应的区域有多个查询区域，即该区域位于边界上，则将空间令牌分配给主导的查询区域。最后，假设先前令牌pq对应的查询区域具有信息丰富的表示。03.3. 先前注意力Swin Transformer块0在这项工作中，我们使用Swin Transformer[30]作为我们的基础模型，它在主流视觉任务（如图像分类、目标检测和语义分割）上展示了巨大的潜力，具有分层架构设计和移位窗口方案。它具有两个方面的高效性。一方面，非重叠窗口上的局部自注意力使模型能够以高效的计算覆盖大尺寸图像。另一方面，移位窗口分区允许跨窗口连接，增强了长距离依赖关系。然而，它存在一个限制，即移位窗口缓慢扩大感受野，导致注意力区域不足，特别是在较低层。为了解决这个问题，我们提出了一个Prior-AttentiveSwinTransformer（PAST）块，如图3所示。我们的PAST块基于SwinTransformer块，但在两个方面与其不同；首先，在自注意力层中，一个令牌不仅可以关注本地窗口中的空间令牌，还可以关注由先前令牌表示的全局特征。具体而言，我们的方法使用了三个先前令牌：前景、背景和未知先前令牌。其次，它具有一个先前记忆，用于存储从前一个块生成的先前令牌。累积的先前令牌在计算自注意力时作为先验使用于下一个块中。0在下一个块中，累积的令牌在计算自注意力时作为信息丰富的先验。我们的PAST块的详细结构如下：首先，在第3.2节中生成的先前令牌与本地窗口中的空间令牌进行连接。使用这些全局先前令牌和本地空间令牌，在Prior-AttentiveWindowSelf-Attention（PA-WSA）层中通过查询、键和值的矩阵乘法以多头方式执行自注意力。具体而言，自注意力机制如下所示：0注意力(Q，K，V) = SoftMax(QKT × s + B)V(3)0其中K，V∈R(M2 +Np)×d，Q∈RM2×d是键、值和查询矩阵，d是键、值和查询的特征维度，M是窗口大小，因此M2是窗口中的位置数。0在本地窗口中，45是令牌的数量。Np是先前令牌的数量，s是一个缩放因子。B是相对位置偏差，稍微修改自[30]。在本地窗口中的空间令牌之间，相对位置位于范围[-M +1，M -1]，沿x轴和y轴。在我们的情况下，由于我们使用了额外的先前令牌，我们设置了一个辅助矩阵ˆB∈R(2M-1)2 +Np。B的值∈RM2×(M2 +Np)取自ˆB，相对位置偏差B根据相对位置调整注意力图的值。通过这种方式，查询空间令牌可以同时关注本地空间令牌和全局先前令牌。先前记忆。来自不同PAST块的先前令牌对应查询区域具有不同的表示。也就是说，来自先前块的先前令牌可以向当前块提供信息上下文。为了实现这一点，我们首先定义一个先前记忆。与本地空间令牌一样，先前令牌依次通过PA-WSA、归一化和MLP层。之后，先前令牌被附加到先前记忆中。在下一个块中，累积的令牌被用作PA-WSA层中的先验，即后面的块比前面的块具有更大的Np。具体而言，图2中的每个阶段中的第b个块在相应的先前记忆中具有3×b个先前令牌。03.4. 训练方案0总损失函数定义为三个损失函数的加权和；L l1损失、合成损失[ 51 ]和Laplacian损失[ 18 ]，如[ 54]中所示。0L total = L l 1 + L comp + L lap (4)0其中L l 1是真实alpha和预测alpha之间的绝对差异。Lcomp表示真实图像和合成图像之间的绝对差异，它是根据使用真实前景、背景和预测alpha的公式(1)计算的。117000mattes. Llap衡量alpha图的拉普拉斯金字塔表示的差异，并捕捉局部和全局差异。在解码过程中，我们使用PRM (ProgressiveRefinement Module) [ 54]以精确的粗到细的方式生成输出图。首先，解码器从不同的中间层输出三个alpha图，其输出尺寸分别为输入分辨率的1/8、1/4和1/1，然后调整为输入分辨率。接下来，通过PRM，选择性地融合输出并逐渐改进不确定区域。具体而言，对于当前的输出索引l，通过以下方式计算精细的alpha图α l∈ R H × W，其中原始抠图输出α l ′ ∈ R H ×W和自我引导掩码g l ∈ R H × W：0α l = α l ′ ⊙ g l + α l − 1 ⊙ (1 − g l)，(5)0g l (x, y) =0如果0 < α l − 1 (x, y) <10，则为1，否则为0。(6)0其中⊙表示逐元素乘法。自我引导掩码g l是从先前的alpha图α l −1获得的。如果预测像素是确定的区域（前景或背景），则定义为0，如果是透明区域，则定义为1。将先前输出α l −1中的不确定像素替换为当前输出α l ′中的像素，根据g l进行更新。同时，不确定区域的α l −1的确信像素不会被更新。通过这种方式，确信区域被保留，当前输出只能专注于改进不确定区域。我们的数据增强设置与[ 22 ]和[ 54]类似。首先，我们进行一个随机的仿射变换，包括随机的角度、比例和翻转。然后，我们随机裁剪图像和修剪图到固定大小。之后，应用随机的颜色抖动。最后，将增强的前景与背景图像合成。04. 实验0在本节中，我们在两个公共数据集Composition-1k [ 51]和Distinctions-646 [ 34]上评估我们的MatteFormer，这两个数据集在图像抠图任务中常用。首先，我们描述实验环境；数据集、评估指标和实现细节。接下来，我们将我们的MatteFormer的结果与其他最先进的方法进行比较。最后，我们对我们提出的方法进行一些消融研究。04.1. 数据集和评估0Composition-1k提供了50个独特的前景图像，以及相应的真实alpha遮罩作为测试集。测试背景图像是从PASCAL预定义的。0VOC2012 [ 12]。通过合成前景和背景图像，总共有1,000个测试样本。训练集由431个带有真实alpha遮罩的前景对象图像组成。与测试集相比，训练背景图像是从MS COCO [ 26]中采样的。0Distinctions-646由646个独特的前景图像组成，比Composition-1k更具多样性和鲁棒性。前景样本分为596个训练样本和50个测试样本。与Composition-1k一样，测试背景样本是使用PASCAL VOC2012预定义的。前景图像是根据[51]中的相同合成规则与背景图像合成的。不幸的是，由于Distinctions-646没有像Composition-1k那样发布官方的修剪图，与之前的工作进行公平比较是困难的。0我们使用图像抠图中的四个主要定量指标对MatteFormer进行评估：绝对差值之和（SAD），均方误差（MSE），斜率（Grad）和连通性（Conn）。我们使用[ 51]提供的官方评估代码。请注意，具有较低指标值的模型可以预测更精确的alpha抠图。04.2. 实现细节0我们基于SwinTransformer块实现了PAST块。我们引入先验标记参与自注意机制，与空间标记一起馈送给同一层的其他层。为了简化起见，每个阶段都有一个先验记忆，仅记忆来自同一阶段的PAST块的先验标记。0我们的编码器首先使用在ImageNet上预训练的SwinTransformer的Tiny模型进行初始化，然后以端到端的方式在图像抠图数据集上进行训练。由于我们使用trimap和RGB图像作为网络输入，输入通道的数量为6，与预训练模型不同。因此，我们只将预训练的patch-embedding层的权重带到我们的patch-embedding层的前3个通道（RGB）。由于我们的相对位置偏差表ˆB的大小比预训练模型大，因为有了先验标记，我们将预训练的偏差表带到我们的偏差表权重的前面。将编码器特征传递给解码器层的快捷方式层由带有归一化层的3×3卷积组成。作为解码器，我们简单地遵循了[54]，使用了一个简单的基于CNN的结构，其中包含3×3卷积层和上采样层。快捷方式和解码器层都是随机初始化的。0训练时，我们将网络输入大小设置为512x512，批量大小为20，在2个GPU上进行。学习率初始化为4∙10^(-4)。我们使用带有β1 = 0.5和β2 = 0.999的Adam优化器。TrimapIndexNet [31]GTse-ithMG117010图像0GCA抠图 [ 22 ]0MG抠图 [ 54 ]0我们的MatteFormer0图4. Composition-1k上的定性比较结果。放大后效果更佳。0方法 SAD MSE ( 10^(-3) ) Grad Conn0基于学习的抠图 [ 59 ] 113.9 48 91.6 122.2 闭式抠图 [ 20 ] 168.191 126.9 167.9 KNN抠图 [ 6 ] 175.4 103 124.1 176.4深度图像抠图 [ 51 ] 50.4 14 31.0 50.8 AlphaGan [ 33 ] 52.4 3038.0 - IndexNet [ 31 ] 45.8 13 25.9 43.7 HAttMatting [ 34 ]44.0 7.0 29.3 46.4 AdaMatting [ 2 ] 41.7 10.0 16.8 -SampleNet [ 40 ] 40.4 9.9 - - 细粒度抠图 [ 27 ] 37.6 9.0 18.335.4 上下文感知抠图 [ 18 ] 35.8 8.2 17.3 33.2 GCA抠图 [ 22 ]35.3 9.1 16.9 32.5 HDMatt [ 53 ] 33.5 7.3 14.5 29.9 MG抠图 [54 ] 31.5 6.8 13.5 27.3 MG抠图-trimap* 28.9 5.7 11.4 24.9MG抠图-trimap,res50* 28.4 5.4 11.1 24.3 TIMINet [ 29 ] 29.16.0 11.5 25.4 SIM [ 39 ] 28.0 5.8 10.8 24.80我们的（MatteFormer） 23.8 4.0 8.7 18.90表1.Composition-1k测试集上的结果。*表示比较的基准，即我们使用trimap输入复现的MG抠图。原始MG抠图基于ResNet-34和MG抠图-trimap，res50*使用ResNet-50。04.3. 图像抠图数据集上的结果0Composition-1k.首先，我们在Composition-1k数据集上与最先进的模型进行比较。表1列出了最近方法的定量结果，并显示我们的方法优于其他方法，达到了新的最先进性能。我们将[ 54]作为我们的强基准进行比较，因为我们遵循了它的许多例子。0方法 SAD MSE ( 10^(-3) ) Grad Conn0基于学习的抠图 [ 59 ] 105.0 21 94.2 110.4 闭式抠图 [ 20 ] 105.723 91.8 114.6 KNN抠图 [ 6 ] 116.7 25 103.2 121.5深度图像抠图 [ 51 ] 47.6 9 43.3 55.9 HAttMatting [ 34 ] 49.0 941.6 49.90MG Matting-trimap* 23.9 7.4 14.0 22.4我们的方法（MatteFormer） 21.9 6.6 11.2 20.50表2.Distinctions-646测试集上的结果。*表示比较的基准，即我们使用trimap输入复现的MG Matting。0实验细节。然而，在原始论文中，它使用二进制掩码作为额外输入，而不是trimap。为了公平比较，我们重新训练了相同的模型和更大的模型（使用ResNet-50[17]骨干）并使用trimap将它们设置为比较的基准（在表1中标记为*）。我们不将[39]和[29]作为基准的原因是[39]使用了抠图模式的类别作为额外的语义信息，而[29]的性能略低于我们的基准模型，即使用trimap输入复现的MGMatting。图4显示了Composition-1k数据集上不同方法之间的视觉比较结果，证明了我们方法的有效性。Distinctions-646。在Distinctions-646的情况下，由于没有官方的测试集trimap，很难与先前报告的结果进行公平比较。我们首先通过将前景与阈值二值化并随机膨胀来从真实alpha抠图生成trimap。我们在Distinctions-646上训练了上述基线（MGMatting标记为*）和我们的MatteFormer，并在相同的测试环境中对它们进行评估。结果显示MatteFormer相比基线模型具有更好的性能。117020方法 SAD MSE ( 10 − 3 ) 渐变连接0基线（无先前令牌） 26.43 5.20 9.57 21.890基线 + GAP先前令牌 25.30 4.72 9.63 20.610基线 + uk先前令牌 24.70 4.46 9.10 19.73 + uk/fg/bg先前令牌24.19 4.05 8.72 19.19 + 先前记忆（MatteFormer） 23.80 4.038.68 18.900表3. 关于先前令牌和先前记忆使用的消融研究。基线使用Swin TransformerTiny模型作为编码器，没有先前令牌。结果基于Composition-1k数据集。0646，然后在相同的测试环境中对它们进行评估。结果显示MatteFormer相比基线模型具有更好的性能。04.4. 消融研究0先前令牌和先前记忆。在MatteFormer中，每个编码器阶段的构建块是PAST块，它是SwinTransformer块的变体版本，如第3.3节所述。为了展示PAST块对性能改进的贡献，我们进行了消融研究。我们从一个基线模型开始，其中将编码器设置为纯Swin TransformerTiny模型，没有先前令牌。基线的解码器和快捷方式与MatteFormer相同。在PA-WSA（Prior-Attentive WindowSelf-Attention）层中，局部窗口中的令牌不仅可以关注窗口内的空间令牌，还可以关注全局先前令牌。作为全局先前令牌，我们首先使用所有空间令牌的平均令牌（全局平均池化（GAP）令牌）。在这种设置下，我们在自注意力层中不使用任何trimap信息。接下来，我们使用未知先前令牌作为全局先前令牌。进一步，我们使用所有3个先前令牌：前景、背景和未知先前令牌。最后，我们提出的MatteFormer模型使用所有先前令牌，并引入先前记忆，使其能够访问前一块生成的所有先前令牌。结果显示在表3中。没有先前令牌的基线在所有指标上表现最差，符合预期。当使用未知先前令牌时，指标值低于使用GAP令牌作为全局先前令牌时。这表明通过trimap生成的先前令牌传递了比简单的GAP令牌更有用的信息。在使用3个先前令牌（前景、背景、未知）的情况下，性能优于仅使用1个先前令牌（未知先前令牌）。这表明局部窗口中的令牌可以在自注意力层中正确地参考所有三个先前令牌。引入先前记忆0（a）平均注意力图是在多头上平均的。我们仅绘制每个阶段的第二个块（块索引1），以简化显示。0（b）PA-WSA层中的多头注意力图。我们仅绘制第二阶段的最后一个块（块索引5），以简化显示示例。自注意力层具有12个多头。0（c）所有块上空间标记和先前标记的平均注意力比例。0图5.PA-WSA层中注意力图的消融研究。平均注意力图和平均注意力比例显示了对空间标记和先前标记的注意力有多少。0还显示了性能的改进。来自前几个块的先前标记有助于在当前块的PA-WSA层中生成更好的表示。0PA-WSA层中注意力图的可视化。在本小节中，我们展示了PA-WSA层确实具有先前注意属性。在图5中，我们可视化了平均注意力图、多头注意力图和局部空间标记与全局先前标记之间的平均注意力比例。我们在50个具有不同前景的测试图像上进行了研究。我们对所有窗口和样本的注意力图进行了平均。为了简化起见，我们在没有先前记忆的模型上进行了消融研究。在图5a中，我们首先可视化了平均注意力图。MG Matting-trimap*29.7M45.7G28.895.73MG Matting-trimap,res50*52.7M58.9G28.355.42117030具有ASPP 没有ASPP的方法0SAD MSE（10^-3）SADMSE（10^-3）0基线（无先前标记）26.97 5.35 26.43 5.20 + 未知先前标记 25.604.68 24.71 4.46 + 未知/前景/背景先前标记 25.52 4.38 24.19 4.05+ 先前记忆（MatteFormer）25.15 4.30 23.80 4.030表4.MatteFormer上使用ASPP（空洞空间金字塔池化）的消融研究。0PA-WSA层。由于本地窗口大小设置为7，y轴表示本地窗口中的49个查询空间标记。同时，x轴表示49个空间标记和3个先前标记（按顺序为未知标记、前景标记和背景标记）。我们可以观察到注意力图中的先前标记区域（最后三列）被激活。这意味着一个标记可以在自注意力层中关注先前标记，以引用我们预期的全局先验。图5b显示了每个头部的注意力图。我们可以看到每个头部的注意力模式不同，特别是在使用先前标记方面。例如，头部4和5主要使用未知的先前标记，头部6则关注未知和背景的先前标记。与此同时，头部0更多地关注空间标记而不是先前标记。头部3与空间标记一起使用了所有三个先前标记。在图5c中，我们定量地显示了所有块上局部空间标记和全局先前标记的平均注意力比例，显示了每个先前标记上的注意力有多少。图5c中有四条线，一条是局部空间标记上的注意力比例总和，另外三条是先前标记的比例。我们观察到在所有块中，PA-WSA层中使用了先前标记，正如我们所预期的那样。标记倾向于更多地关注未知的先前标记而不是已知的先前标记（前景和背景），这意味着未知区域对于预测alpha遮罩更具信息性。0ASPP（空洞空间金字塔池化）。许多最先进的图像抠图模型[25, 29, 34, 39,54]和许多语义分割方法在编码器和解码器之间使用ASPP（空洞空间金字塔池化）[5]来扩大感受野以获取全局表示。ASPP使用多个具有不同空洞率的空洞卷积滤波器来捕捉空间上远离的上下文特征。然而，我们发现ASPP在我们的模型中反而阻碍了性能。我们在Composition-1k上评估了具有ASPP和没有ASPP的MatteFormer的性能。所有没有ASPP的模型显示出比具有ASPP的模型更好的性能。由于我们的编码器基于Transformer，MatteFormer已经具有比基于CNN的模型更大的全局感受野。通过预定义的空洞卷积强制增加感受野，ASPP0方法参数 FLOPs SAD MSE ( 10 − 3 )0基准模型（无先验令牌）44.8M 55.9G 26.43 5.200我们的（MatteFormer）44.8M 57.2G 23.80 4.030表5. 参数和FLOPs。0在我们的模型中，ASPP是多余的。因此，与其他最近的方法不同，我们的模型不使用ASPP。0参数和FLOPs。在表5中，我们将我们的MatteFormer的参数数量和FLOPs与基准模型进行了比较，以展示我们方法的有效性。假设输入图像大小为512，用于计算FLOPs。SAD和MSE是在Composition-1k测试集上进行比较的。请注意，基准模型（无先验令牌）使用纯Swin TransformerTiny模型作为其骨干网络，并且不使用先验令牌。与MGMatting-trimap*和MGMatting-trimap,res50*不同，它不使用ASPP模块。首先，我们的基准模型的参数/ FLOPs比MGMatting-trimap,res50*模型少，但性能更好。这意味着基于Transformer的架构在图像抠图问题上有效。接下来，比较基准模型和我们的MatteFormer，我们可以观察到评估分数之间有很大的差距，而参数和FLOPs的增加很小。因此，表5表明，我们提出的使用先验令牌和先验记忆的方法在基于Transformer的架构上有效。05. 结论0在这项工作中，我们提出了MatteFormer，这是一个简单而有效的模型，它使用了一种名为PAST（Prior-AttentiveSwin Transformer）块的修改过的SwinTransformer块来解决图像抠图问题。我们引入了先验令牌，用于表示由给定的修剪图分隔的全局区域的上下文。在我们的PAST块中，先验令牌与局部空间令牌一起参与PA-WSA（Prior-Attentive WindowSelf-Attention）层中的自注意机制。因此，一个令牌可以同时关注局部空间令牌和全局先验令牌。我们在图像抠图问题的常见数据集上评估了MatteFormer。实验结果表明，我们的方法达到了最先进的性能。我们希望我们的MatteFormer能够成为基于Transformer架构的未来图像抠图模型的强大基准。我们的工作的一个局限性是它主要关注编码器结构和基于修剪图的方法。在未来的工作中，我们希望设计一个完全基于Transformer的模型，使用先验令牌，并将我们的模型扩展到无修剪图的方法。117040参考文献0[1] Josh Beal, Eric Kim, Eric Tzeng, Dong Huk Park, AndrewZhai, and Dmitry Kislyuk. 基于Transformer的目标检测方法.arXiv预印本arXiv:2012.09958，2020年。30[2] Shaofan Cai, Xiaoshuai Zhang, Haoqiang Fan, HaibinHuang, Jiangyu Liu, Jiaming Liu, Jiaying Liu, Jue Wang, andJian Sun.解缠图像抠图。在IEEE/CVF国际计算机视觉会议上，第8819-8828页，2019年。60[3] Nicolas Carion, Francisco Massa, Gabriel Synnaeve,Nicolas Usunier, Alexander Kirillov, and Sergey Zagoruyko.使用Transformer的端到端目标检测.在欧洲计算机视觉会议上，第213-229页。Springer，2020年。30[4] Hanting Chen, Yunhe Wang, Tianyu Guo, Chang Xu,Yiping Deng, Zhenhua Liu, Siwei Ma, Chunjing Xu, Chao Xu,and Wen Gao.预训练的图像处理Transformer。在IEEE/CVF计算机视觉和模式识别会议上，第12299-12310页，2021年。30[5] Liang-Chieh Chen, George Papandreou, IasonasKokkinos, Kevin Murphy, and Alan L Yuille. Dee

下载后可阅读完整内容，剩余1页未读，立即下载