背景抠图：手持相机拍摄的人物遮罩生成方法

66 浏览量更新于2023-10-25 收藏 12.75MB PDF 举报

背景抠图

深度网络

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

122910背景抠图：世界就是你的绿幕0Soumyadip Sengupta，Vivek Jayaram，Brian Curless，Steve Seitz和Ira Kemelmacher-Shlizerman0华盛顿大学0图1：使用手持智能手机相机，我们拍摄了一个场景的两张图像，一张有主体，一张没有主体。我们使用具有对抗性损失的深度网络来恢复alpha遮罩和前景颜色。我们将结果合成到一个新的背景上。0摘要0我们提出了一种通过使用手持相机在日常环境中拍摄照片或视频来创建人物的遮罩（每个像素的前景颜色和alpha）的方法。大多数现有的抠图方法要么需要绿幕背景，要么需要手动创建trimap才能产生良好的遮罩。虽然出现了无需trimap的自动方法，但它们的质量无法与之相媲美。在我们的无需trimap的方法中，我们要求用户在拍摄时额外拍摄一张没有主体的背景照片。这一步骤需要一点点预见性，但比创建trimap要少得多。我们使用具有对抗性损失的深度网络来预测遮罩。我们首先使用合成复合物的地面真实数据对抠图网络进行有监督的训练。为了弥合到没有标签的真实图像的领域差距，我们训练另一个由第一个网络和一个判别器引导的抠图网络，该判别器评估复合物的质量。我们在各种照片和视频上展示了结果，并且相对于现有技术取得了显著的改进。01. 引言0想象一下，通过使用手持智能手机在日常环境中拍摄照片或视频，您可以轻松地创建一个人的遮罩（每个像素的颜色和alpha）。如今，提取（“拉取”）高质量遮罩的最佳方法要么需要一个绿幕工作室，要么需要手动创建trimap（前景/背景/未知分割）（0背景/前景/未知分割）是一个费时的过程，通常需要仔细绘制头发的细节。虽然出现了不需要这两者的方法，但它们的质量无法与之相媲美。相反，我们建议在主体进入或离开画面之前额外拍摄（静态）背景的照片，并使用该照片进行背景抠图。在拍摄时额外拍摄一张照片只需要一点点预见性，但与事后创建trimap相比，这个工作量微不足道。对于视频输入，这个优势更加明显。现在，世界就是你的绿幕。0我们专注于针对人物的方法。即使在这种情况下 -给定背景照片，提取人物的遮罩 -问题也是不完全确定的，需要新的解决方案。0考虑图像I的合成方程，给定前景F，背景B和混合系数α：I= αF + (1 -α)B。对于彩色图像和标量α，给定B，我们有四个未知数（F和α），但每个像素只有三个观测值（I）。因此，背景抠图问题是不完全约束的。背景/前景差异提供了一个信号，但当人物的某些部分与背景颜色相似时，信号质量较差。此外，我们通常没有理想背景的图像：主体可能投射阴影并引起在没有主体的照片中看不到的反射，并且在手持拍摄两张照片之间没有重采样伪影的情况下，很难实现像素级的精确对齐。实际上，与产生真实B的情况相反，我们有一些扰动版本的B'。222920然而，当前的方法在复杂的身体姿势和头发、手指等细节方面存在失败。鉴于这些挑战和最近在解决抠图问题方面取得的成功，深度学习方法是一种自然的解决方案。我们提出了一个深度网络，该网络通过由原始图像、背景照片和帧中人物的自动计算的软分割组成的输入来估计前景和alpha。当可用时，网络还可以利用几帧视频，这对于连拍或性能捕捉非常有用。然而，我们的大部分结果，包括与单幅图像方法的所有比较，都不使用任何时间线索。我们最初在AdobeMatting数据集[35]上对网络进行训练，该数据集由可以合成到各种背景上的地面真实遮罩组成。实践中，我们发现这些合成图像与真实图像之间的领域差距不适用于使用标准网络的好结果。我们通过两种方式部分地缩小了这个差距：通过增加数据集的数据和设计一种新的网络 -“上下文切换块”，该网络更有效地在输入提示之间进行选择。对于真实图像，生成的遮罩仍然可能存在明显的伪影，特别是在合成到新背景上时更为明显。因此，我们还通过自我监督的方式在真实的未标记输入图像上训练网络，使用对抗性损失来评估新创建的合成图像，并最终改进抠图过程。我们的方法有一些局限性。首先，我们确实需要两张图像。基于trimap的方法可以说也需要两张图像以获得最佳结果 -trimap本身就是第二张手工制作的图像 -尽管它们可以应用于任何输入照片。其次，我们需要一个静态背景和小的相机运动；我们的方法在有人穿过或相机远离背景捕捉位置的背景上效果不好。最后，我们的方法专门用于一个或多个人的前景。尽管如此，我们认为，在静态背景前面没有大的相机运动的情况下，人物抠图是一个非常有用且不常见的场景，并且我们在这些情况下提供了最先进的结果。我们的贡献包括： •第一个无需trimap的自动抠图算法，利用随意拍摄的背景。•一种新颖的抠图架构（上下文切换块），用于在输入提示之间进行选择。 •一种自我监督的对抗性训练，以改进真实图像上的遮罩。 •在各种输入（手持、固定相机、室内、室外）上与各种竞争方法进行实验比较，展示了我们方法的相对成功。我们的代码和数据可在http://github.com/senguptaumd/Background-Matting上获取。02. 相关工作0抠图是照片编辑和视觉效果中常用的技术。在无控制的环境中，这被称为“自然图像抠图”问题；拉取抠图需要解决每个像素的七个未知数（F，B，α），通常需要借助于trimap来解决。在工作室中，主体被摄影在均匀照明、颜色恒定的背景前（例如绿幕）；如果主体避免穿着与背景相似的颜色，可以获得合理的结果。我们在工作中采取了中间立场：我们在自然（非工作室）环境中随意拍摄主体，但包括一张没有主体的背景图像，以使抠图问题更易处理。在本节中，我们讨论了关于自然图像抠图的相关工作，这些工作是在没有不寻常硬件的情况下捕获的。传统方法。传统的（非基于学习的）抠图方法通常需要trimap作为输入。它们可以粗略地分为基于采样的技术和基于传播的技术。基于采样的方法[11, 9, 14, 28, 32, 33,2]使用采样来构建已知前景和背景的颜色统计，并在“未知”区域解决抠图问题。基于传播的方法[6, 17, 19, 20, 30, 13,15]旨在将alpha通道从前景和背景区域传播到“未知”区域以解决抠图方程。Wang和Cohen[34]对许多不同的抠图技术进行了很好的调查。基于学习的方法。深度学习方法在自然图像抠图方面取得了新的成功，特别是在存在用户生成的trimap的情况下。一些方法将基于学习的方法与传统技术相结合，例如KNN抠图[29,7]。Xu等人[35]创建了一个包含真实抠图和合成到各种背景中的抠图数据集，并训练了一个深度网络来预测alpha通道；这些结果通过Lutz等人[22]使用对抗性损失进一步改进。最近，Tang等人[31]提出了一种采样和学习相结合的方法来预测alpha通道。Lu等人[21]提出了一种新的指导上采样和非池化操作，有助于网络预测更好的alpha通道。Cai等人[3]展示了对错误用户定义的trimap的鲁棒性。所有这些方法只预测alpha通道，而不是前景，留下了用于合成的前景颜色恢复的（非平凡的）问题。最近，Hou等人[16]引入了上下文感知抠图（CAM），它同时预测alpha通道和前景，从而解决了完整的抠图问题，但对错误的trimap不够鲁棒。与这些方法（以及传统方法）相反，我们的工作通过使用背景图像而不是trimap共同预测alpha通道和前景。最近，研究人员开发了一些在没有trimap的情况下执行抠图的算法，主要关注于人类（如我们所做）。Aksoy等人[1]引入了用于自然图像的全自动语义软分割。在[37,29]中，作者在没有trimap的情况下进行肖像抠图，利用分割线索。无trimap抠图也已扩展到处理整个身体[36,5]。这些方法旨在进行trimap预测，然后进行alpha预测。我们的工作也以人为中心；我们将我们的方法与最近的自动人体抠图算法[36]进行比较，并在背景图像的帮助下获得显著更好的性能。已知自然背景的抠图。Qian和Sezan[25]提出的差异抠图尝试通过简单的背景减法和阈值化来解决具有自然背景的抠图问题，但对阈值非常敏感，并产生二值抠图。类似地，通过背景减法进行变化检测[24,10]通常不会产生带有前景的alpha通道，并将阴影视为前景的一部分。一些传统方法，如贝叶斯抠图[9]和泊松抠图[30,12]，可以在其框架中处理已知背景，但还需要trimap。视频抠图。研究人员还专注于视频特定的方法。Chuang等人[8]通过利用已知背景和光流将贝叶斯抠图扩展到视频中，需要关键帧的trimap。可以使用基于流的时间平滑[18,27]（同样需要trimap）来鼓励时间上的一致性。3. 我们的方法322930图2：我们方法的概述。给定输入图像I和背景图像B'，我们通过软分割S和运动先验M（仅适用于视频）共同估计alpha通道α和前景F。我们提出了一个上下文切换块，有效地结合了所有不同的线索。我们还引入了对未标记真实数据的自监督训练，通过合成到新的背景中。0人们还开发了在没有trimap的情况下执行抠图的算法，主要关注于人类（如我们所做）。Aksoy等人[1]引入了用于自然图像的全自动语义软分割。在[37,29]中，作者在没有trimap的情况下进行肖像抠图，利用分割线索。无trimap抠图也已扩展到处理整个身体[36,5]。这些方法旨在进行trimap预测，然后进行alpha预测。我们的工作也以人为中心；我们将我们的方法与最近的自动人体抠图算法[36]进行比较，并在背景图像的帮助下获得显著更好的性能。具有已知自然背景的抠图。Qian和Sezan[25]提出的差异抠图尝试通过简单的背景减法和阈值化来解决具有自然背景的抠图问题，但对阈值非常敏感，并产生二值抠图。类似地，通过背景减法进行变化检测[24,10]通常不会产生带有前景的alpha通道，并将阴影视为前景的一部分。一些传统方法，如贝叶斯抠图[9]和泊松抠图[30,12]，可以在其框架中处理已知背景，但还需要trimap。视频抠图。研究人员还专注于视频特定的方法。Chuang等人[8]通过利用已知背景和光流将贝叶斯抠图扩展到视频中，需要关键帧的trimap。可以使用基于流的时间平滑[18,27]（同样需要trimap）来鼓励时间上的一致性。0我们系统的输入是一个人在静态自然背景前的图像或视频，以及仅包含背景的图像。拍摄过程很简单，只需要用户在拍摄后离开画面以捕捉背景，并且适用于任何具有锁定曝光和对焦功能的相机（例如智能手机相机）。对于手持拍摄，我们假设相机运动很小，并使用单应性将背景与给定的输入图像对齐。从输入中，我们还提取了主体的软分割。对于视频输入，我们还可以利用附近的帧来辅助抠图。0在第3.2节中，我们描述了一种自监督方案，进一步弥合领域差距并且通常提高抠图质量。该方法采用了一个对抗网络，由一个独立的深度抠图网络G Real 和一个鉴别器网络D组成，G Real 试图生成与G Adobe的输出类似的抠图，而鉴别器网络D对将抠图合成到新背景上的结果进行真假评分。我们在真实输入上联合训练G Real和D，监督由（现在固定的）G Adobe 网络应用于相同的数据。0我们方法的核心是一个深度抠图网络G，它可以为给定的输入帧提取前景颜色和alpha值，同时结合背景、软分割和（可选的附近视频帧），以及一个鉴别器网络D来指导训练以生成逼真的结果。在第3.1节中，我们描述了抠图网络，其中包含一种新颖的架构-“上下文切换块”，可以选择性地组合不同的输入线索。我们首先使用Adobe抠图数据集[35]对这个网络的副本G Adobe进行监督训练。我们使用非透明对象的已知前景和alpha抠图，然后将其合成到各种背景上（即真实源图像，但是合成图像）。我们的抠图网络以及一些数据增强有助于克服后期使用消费级相机（例如智能手机）捕捉的真实数据与合成合成图像之间的一些领域差距。0在这里，我们描述了我们的深度抠图网络，我们首先在Adobe抠图数据集上进行训练，仅限于非透明对象的子集。网络的输入是一个带有前景人物的图像I，与I对齐的背景图像B'（如前所述，B'与真实的B不同，没有主体），人物的软分割S，以及（对于视频）一堆时间上相邻的帧M，并且输出是前景图像F和alpha抠图α。为了生成S，我们应用人物分割[4]，然后进行侵蚀（5步），膨胀（10步）和高斯模糊（σ =5）。当有视频可用时，我们将M设置为I前后两帧的串联，即{I-2T，I-T，I+T，I+2T}，其中帧间隔为T；这些图像转换为灰度图像，忽略颜色线索，更加关注运动线索。在没有视频的情况下，我们简单地将M设置为{I，I，I，I}，也转换为灰度图像。我们将输入集合表示为X ≡{I，B'，S，M}。具有权重参数θ的网络计算如下：Here we describe our deep matting network, which weﬁrst train on the Adobe Matting Dataset, restricted to thesubset of non-transparent objects.The network takes asinput an image I with a person in the foreground, an im-age of the background B′ registered to I (as noted earlier,B′ is not the same as the true B with subject present),a soft segmentation of the person S, and (optionally forvideo) a stack of temporally nearby frames M, and pro-duces as output a foreground image F and alpha matte α.To generate S, we apply person segmentation [4] and thenerode (5 steps), dilate (10 steps), and apply a Gaussian blur(σ = 5). When video is available, we set M to be theconcatenation of the two frames before and after I, i.e.,{I−2T , I−T , I+T , I+2T } for frame interval T; these imagesare converted to grayscale to ignore color cues and focusmore on motion cues. In the absence of video, we simplyset M to {I, I, I, I}, also converted to grayscale. We de-note the input set as X ≡ {I, B′, S, M}. The network withweight parameters θ thus computes:(F, α) = G(X; θ).(1)4229403.1. 在Adobe数据集上的有监督训练0在设计和训练网络时，Adobe数据集与我们的真实数据之间的领域差距被证明是我们选择的一个重要驱动因素，如下所述。G的一个自然选择是基于残差块的编码器-解码器[38]，对输入{I，B'，S，M}进行操作。尽管我们期望这样的网络在恢复抠图时学习每个像素上应该信任哪些线索，但我们发现这样的网络表现不佳。当在Adobe合成合成数据上进行训练，然后在真实数据上进行测试时，得到的网络往往会出现错误，例如过度信任背景B'，并在F与背景颜色过于接近时生成孔洞；网络无法弥合领域差距。相反，我们提出了一种新的上下文切换块（CS块）网络（图2），以更有效地结合所有线索的特征，条件是输入图像。例如，当人物的一部分与背景匹配时，网络应该更多地关注该区域的分割线索。该网络具有四个不同的编码器，分别用于I，B'，S和M，每个编码器分别产生256个通道的特征图。然后，它通过应用1x1卷积、BatchNorm和ReLU（图2中的“选择器”块）将I的图像特征与B'、S和M的每个特征分别组合起来，为这三对产生64通道的特征。最后，这三个64通道的特征与原始的256通道图像特征进行1x1卷积、BatchNorm和ReLU（图2中的“组合器”块）的组合，产生编码特征，然后传递给网络的其余部分，包括残差块和解码器。我们观察到，CS块架构有助于从合成合成的Adobe数据集中进行泛化。0与真实数据的对比（图4）。更多网络架构细节请参见补充材料。我们使用AdobeMatting数据集[35]训练网络，该数据集提供了450个真实前景图像F�和alpha遮罩α�（从自然图像中手动提取）。我们选择了280个对应于非透明对象的图像子集（例如，玻璃制品除外）。与[35]一样，我们可以将这些前景与从MS-COCO数据集中提取的已知背景组合，通过随机裁剪、重新缩放和水平翻转进行增强。这些已知背景B与实际背景B'不同。我们不需要精确模拟B和B'之间的差异，只需扰动B以避免网络过于依赖其确切值。具体而言，我们通过随机应用小的伽马校正γ�N（1，0.12）或在前景区域周围添加高斯噪声η�N（µ∈[-7，7]，σ∈[2，6]）来生成每个B'。为了模拟不完美的分割指导S，我们对alpha遮罩进行阈值处理，然后进行侵蚀（10-20步）、膨胀（15-30步）和模糊（σ∈[3，5，7]）处理。对于运动线索M，我们在合成到背景之前对前景+alpha应用随机仿射变换，然后转换为灰度图像。为了计算I和M，我们使用合成方程，其中B作为背景，但我们将B'作为输入背景提供给网络。最后，我们使用有监督损失训练我们的网络G Adobe ≡ G（∙;θAdobe）：minθ Adobe EX�pX[∥α−α�∥1+∥�(α)−�(α�)∥10+2∥F−F�∥1+∥I−αF−(1−α)B∥1]，(2)0其中（F，α）= G（X;θAdobe），α上的梯度项鼓励更锐利的alpha遮罩[36]。03.2. 对未标记的真实数据进行对抗训练0尽管我们提出的上下文切换块（CS块）结合数据增强在弥合真实图像和使用Adobe数据集创建的合成图像之间的差距方面有显著帮助，但仍无法处理真实数据中存在的所有困难。这些困难包括（1）在手指、手臂和头发周围复制到遮罩中的背景痕迹；（2）分割失败；（3）前景的重要部分与背景颜色匹配；（4）图像与背景之间的错位（我们假设只有小的错位）。为了处理这些情况，我们的目标是从未标记的真实数据（真实图像+背景）中进行自我监督学习。关键洞察力是，估计的遮罩中的显著错误通常会导致在新背景上产生不真实的合成图像。例如，一个糟糕的遮罩可能包含源背景的一块，当它与新背景合成时，将具有原始图像的一部分minθReal EX, ¯B∼pX, ¯B[(D(αF + (1 − α) ¯B) − 1)2+ λ{2∥α − ˜α∥1 + 4∥∇(α) − ∇(˜α)∥1+ ∥F − ˜F∥1 + ∥I − αF − (1 − α)B′∥1}],(3)minθDisc EX, ¯B∼pX, ¯B[(D(αF + (1 − α) ¯B))2]+ EI∈pdata[(D(I) − 1)2],(4)BMTrimap-10, B2.531.33BMTrimap-20, B2.861.13BMTrimap-20, B′4.022.26CAMTrimap-103.674.50CAMTrimap-204.724.49IMTrimap-101.921.16IMTrimap-202.361.10Ours-AdobeB1.720.97Ours-AdobeB′1.730.99522950背景复制到新背景上，这是一个主要的视觉伪影。因此，我们可以训练一个对抗鉴别器来区分伪造的合成图像和（已捕获的）真实图像，以改进抠图网络。抠图网络（G Real ≡G（∙;θReal））和鉴别器网络D可以基于标准的鉴别器损失进行端到端的训练。然而，G Real可能会将α=1设置在所有位置，这将导致将整个输入图像简单地复制到传递给D的合成图像中。对于G Real来说，这个解决方案是“最优”的，因为输入图像确实是真实的，并且应该欺骗D。使用G Adobe进行初始化并以较低的学习率进行微调（对于稳定的鉴别器训练是必要的）并不是非常有效。它不允许网络权重发生显著变化，而这些变化对于在真实数据上生成良好的遮罩是必要的。相反，我们使用G Adobe进行师生学习。具体而言，对于一个真实的训练图像I和相关的输入X，我们获得（˜F，˜α）= G（X;θAdobe）作为“伪地面真实值”。现在，我们可以使用对抗损失和与“伪地面真实值”相比的抠图网络G（X;θReal）的输出进行训练，参考[26]；这第二个损失给予较小的权重，在训练期间逐渐减小。虽然我们以标准随机化方式初始化θ Real，但仍鼓励网络保持与G Adobe的行为相似，同时具有改善遮罩质量的灵活性。我们假设这种形式有助于网络避免陷入G Adobe的局部最小值，而是在附近找到一个更好的最小值来处理真实数据。我们使用LS-GAN[23]框架来训练我们的生成器GReal 和鉴别器D。对于生成器的更新，我们最小化：0其中 ( F, α ) = G ( X ; θ Real ) ，¯ B为给定的背景，用于生成由 D 观察到的复合图像，我们将 λ设为0.05，并在训练过程中每两个epoch减小一半，以使鉴别器发挥重要作用。我们在alpha损失上使用更高的权重（相对于公式2），特别是梯度项以鼓励锐度。对于鉴别器，我们最小化：0其中 θ Disc 表示鉴别器网络的权重，再次有 ( F, α ) = G (X ; θ Real ) 。作为后处理，我们将alpha通道阈值设为 α > 0.05 ，提取最大的 N 个连通分量，并将 alpha 设为 00算法附加输入 SAD MSE( 10 − 2 )0表1：Adobe数据集上的Alpha通道误差（数值越低越好）。0对于图像中不属于这些连通分量的像素，其中 N是图像中不相交的人物分割数量。04. 实验评估0我们将我们的方法与各种替代方法进行了比较，特别是最近在基准测试中表现良好的深度抠图算法：BM：贝叶斯抠图[9] -基于传统的trimap方法，可以接受已知背景[8]。（另一种选择是已知背景的泊松抠图[30，12]，效果要差得多。）CAM：上下文感知抠图[16] -基于trimap的深度抠图技术，可以预测alpha和前景。IM：索引抠图[21] -基于trimap的深度抠图技术，只能预测alpha。LFM：后期融合抠图[36] -无trimap的深度抠图算法，只能预测alpha。04.1. 合成复合Adobe数据集的结果0我们在26.9k个示例上训练了 G Adobe：269个对象在100个随机背景上合成，以及扰动后的背景作为网络的输入。我们使用批量大小为4，学习率为 1 e −4，使用Adam优化器进行训练。我们在Adobe数据集[35]的220个合成复合图像上进行了比较：11个保留的人物抠图在20个随机背景上合成，结果见表1。我们通过alpha通道阈值和膨胀的过程为每个alpha通道生成了一个trimap，具体过程参见[35]。我们通过10和20个步骤进行膨胀，生成了两个不同的trimap（更多的步骤会得到更宽的未知区域）。我们还通过应用小的随机仿射变换（平移 ∈ N (0 , 3) ，旋转 ∈ N (0 , 1 . 3 ◦ )以及小的缩放和剪切），然后进行伽马校正 γ � N (1 , 0 . 12) 和高斯噪声 η � N ( µ ∈ [− 5 , 5] , σ ∈ [2 , 4]) ，计算了扰动后的背景 B ′。对于我们的方法，我们只评估了应用G Adobe网络的结果（'Ours-Adobe'），因为它只在Adobe数据上进行了训练，与我们进行比较的其他基于学习的方法也是如此。我们将所有图像重新缩放为512×512，并测量估计的alpha通道与真实值（GT）之间的SAD和MSE误差，为算法提供两个不同的trimap和背景 B和 B ′。BM52.9%41.4% 5.7%0%0%CAM30.8%42.5% 22.5% 4.2%0%IM26.7%55.0% 15.0% 2.5%0.8%LFM72.0%20.0% 4.0%3.0%1%BM61.0%31.0% 3.0%4.0%1.0%CAM43.3%37.5% 5.0%4.2%10.0%IM33.3%47.5% 5.9%7.5%5.8%LFM65.7%27.1% 4.3%0%2.9%622960图3：（a-e）使用手持相机拍摄自然背景下的照片的结果alpha通道和前景；（e）是一个动态背景（喷泉）的失败案例。请参阅补充材料中的视频结果。0根据需要进行调整。我们在这个比较中省略了LFM，因为发布的模型是在Adobe数据的全部上进行训练的，包括这里使用的测试数据（由作者确认）。尽管如此，它的SAD和MSE分别为2.00和1.08e-2，而我们的方法的（真实测试）误差为1.72和0.97e-2。我们观察到，相对于BM，我们的方法对背景扰动更加稳健，并且在所有其他基于分割图的抠图算法（BM、CAM、IM）上都有所改进。随着分割图变得更加精确，基于分割图的抠图算法变得更好，但在实践中创建精确的分割图非常耗时。我们的目标是完全消除手动创建分割图的需求。04.2. 真实数据上的结果0我们拍摄了一些手持和固定相机的视频，使用智能手机（iPhone8）在室内和室外拍摄。固定相机设置包括一个廉价的自拍杆三脚架。在每种情况下，我们拍摄了一个主体四处移动的视频，以及一个没有主体的背景（单个视频帧）。所有帧都以高清（1920×1080）拍摄，然后根据一个人或多个人的分割掩模裁剪为512×512（输入分辨率为我们的网络）。我们在Adobe数据集[35]的280个对象上重新训练了 G Adobe，共计280k个复合图像。然后，我们分别在手持视频和固定相机视频上训练了两个独立的 G Real副本，以便网络更好地专注于输入风格。对于手持视频，我们通过同源性将捕获的背景与各个帧对齐，以考虑到轻微的相机抖动。总共，我们在手持相机上训练了18k帧，在固定相机上训练了19k帧。我们共拍摄了3390个0对于¯ B，我们使用了额外的背景帧。我们使用批量大小为8，学习率为1e-4用于 G Real ，学习率为1e-5用于 D ，并使用Adam优化器更新D 的权重。在连续更新 G Real 5次后，我们还更新 D 的权重。0我们的方法相对更好更好类似更差更差0表2：对10个真实世界视频（固定相机）进行的用户研究。0我们的方法相对更好更好类似更差更差0表3：对10个真实世界视频（手持）进行的用户研究。为了在真实数据上比较算法，我们使用了10个手持视频和10个固定相机视频作为我们的（保留的）测试数据。BM、CAM和IM方法都需要分割图。我们没有手动创建分割图（特别是对于视频序列来说是不可行的）。相反，我们应用了分割[4]，并将每个像素标记为人物类概率>0.95为前景，<0.05为背景，其余为未知。我们尝试了其他方法，包括背景减除，但效果不如分割好。为了评估结果，我们无法与地面真实抠图进行数值比较，因为我们的数据中没有这样的真实抠图。相反，我们将抠图与绿色背景合成，并对生成的视频进行用户研究。由于722970IM和LFM不估计 F （用于合成），我们将 F 设置为 I。我们还尝试了直接从抠图方程（给定 α 和 B ′ ）估计 F，但结果更差（见补充材料）。我们不使用任何时间信息，并将 M 设置为 { I, I, I, I } ，以便与之前的方法进行比较。0图4：上下文切换块（CS块）的作用。0图5：运动线索的作用。0在用户研究中，我们将由GReal网络生成的复合视频（'Ours-Real'）与每个竞争算法进行了直接比较。每个用户都会看到一个网页，显示原始视频、我们的复合视频和一个竞争的复合视频；最后两个的顺序是随机的。然后，用户被要求在1-5的评分尺度上评价复合视频A相对于B的优劣（1表示“差得多”，5表示“好得多”）。每个视频对都会有大约10个用户进行评分。用户研究的结果，将所有测试视频的得分汇总在表2和表3中。总体而言，我们的方法明显优于其他方法。我们的方法在固定相机结果上的改进效果略高一些；在手持结果上，由于注册误差可能导致非平面背景场景中的抠图错误，例如视差（见图6（f））。单图像结果显示在图6中，再次证明了我们的方法相对于其他方法的改进。我们0请注意，特别是LFM很难将焦点放在人物上。我们的方法在自然背景下使用手持相机生成的更多结果显示在图3中。在(c)和(d)中，我们展示了单个图像中多个人物互动的示例，在(e)中，我们展示了一个具有动态背景（喷泉）的失败案例。请参阅补充材料以获取视频结果和更多图像结果。05. 消融研究0运动线索的作用。如图5所示，视频运动线索M可以在前景颜色与背景匹配时有助于预测更清晰的抠图。（注意：与其他方法相比，我们没有使用运动线索，无论输入来源如何。）0更好更好类似更差更差0手持相机 16.4% 35.5% 42.7% 5.4% 0% 固定相机 17.3%15.5% 51.8% 10% 5.4%0表4：用户研究：Ours-Real vs Ours-Adobe。0'Ours-Real' vs'Ours-Adobe'。如预期，'Ours-Adobe'在合成复合Adobe数据集上的表现优于'Ours-Real'。'Ours-Real'的SAD得分为3.50，而'Ours-Adobe'的得分为1.73。然而，如图6所示的定性示例和额外的用户研究（表4）显示，'Ours-Real'在真实数据上明显优于'Ours-Adobe'。在手持拍摄方面，'Ours-Real'的增益更大；我们怀疑这是因为它是通过具有对齐错误的示例进行训练的。（我们尝试过在B'中引入对齐错误来训练'Ours-Adobe'，但结果总体上变差。）上下文切换块（CS Block）的作用。我们将我们的CSBlock架构与标准的基于残差块的编码器-解码器[38]方案进行比较，该方案在I、B'、S和M的简单连接上运行。我们发现，基于连接的网络在I和B'之间的颜色差异上过于关注，当它们的颜色相似时会生成空洞。CSBlock架构有效地利用了分割和颜色差异线索，以及存在时的运动线索，以产生更好的抠图，如图4所示（更多内容请参见补充材料）。经验上，我们观察到CS块在50个真实视频中有9个显著帮助，特别是当前景颜色与背景相似时。06.结论我们提出了一种背景抠图技术，可以在自然环境中轻松捕捉高质量的前景+alpha抠图。我们的方法要求摄影师在有（人类）主体的情况下拍摄一张照片，然后在没有主体的情况下拍摄一张照片。822980图6：相机固定和手持抠图方法的比较（a，b，c为相机固定，d，e，f为手持）。我们的方法在（f）中由于对齐错误而失败。0在拍摄过程中，物体没有太多移动。这种方法避免了使用绿幕或者费力地构建详细的三分图，这通常是高质量抠图所需要的。一个关键的挑战是缺乏背景抠图问题的真实地面实况数据。我们开发了一个深度学习框架，该框架在合成复合数据上进行训练，然后使用对抗网络进行实际数据的适应。0我们开发了一个在合成复合数据上进行训练，然后使用对抗网络进行实际数据适应的深度学习框架。致谢。本工作得到了NSF/Intel视觉和实验计算奖励＃1538618和UW RealityLab的支持。922990参考文献0[1] Yagiz Aksoy, Tae-Hyun Oh, Sylvain Paris, Marc Pollefeys, andWojciech Matusik.语义软分割。《ACM图形学交易（TOG）》，37（4）：72，2018年。30[2] Yagiz Aksoy, Tunc Ozan Aydin, and Marc Pollefeys.设计有效的像素间信息流以进行自然图像抠图。在《IEEE计算机视觉和模式识别会议论文集》中，页码29-37，2017年。20[3] Shaofan Cai, Xiaoshuai Zhang, Haoqiang Fan, HaibinHuang, Jiangyu Liu, Jiaming Liu, Jiaying Liu, Jue Wang, andJian Sun.解耦图像抠图。《国际计算机视觉会议（ICCV）》，2019年。20[4] Liang-Chieh Chen，Yukun Zhu，GeorgePapandreou，Florian Schroff和Hartwig Adam.具有扩张可分离卷积的编码器-解码器用于语义图像分割.在ECCV中，2018年。4，60[5] Quan Chen，Tiezheng Ge，Yanyu Xu，ZhiqiangZhang，Xinxin Yang和Kun Gai. 语义人抠图.在2018年ACM多媒体会议上，第618-626页。ACM，2018年。30[6] Qifeng Chen，Dingzeyu Li和Chi-Keung Tang. Knn抠图.IEEE模式分析与机器智能交易，35(9)：2175-2188，2013年。20[7] Donghyeon Cho，Yu-Wing Tai和Inso Kweon.使用深度卷积神经网络的自然图像抠图.在欧洲计算机视觉会议上，第626-643页。Springer，2016年。20[8] Yung-Yu Chuang，Aseem Agarwala，Brian Curless，David HSalesin和Richard Szeliski. 复杂场景的视频抠图.在ACM图形学交易(ToG)中，第21卷，第243-248页。ACM，2002年。3，50[9] Yung-Yu Chuang，Brian Curless，David HSalesin和Richard Szeliski. 数字抠图的贝叶斯方法. 在CVPR(2)中，第264-271页，2001年。2，3，50[10] Ahmed Elgammal，David Harwood和Larry Davis.用于背景减除的非参数模型.在欧洲计算机视觉会议上，第751-767页。Springer，2000年。30[11] Eduardo SL Gastal和Manuel M Oliveira. 实时alpha抠图的共享采样.在计算机图形学论坛中，第29卷，第575-584页。Wiley OnlineLibrary，2010年。20[12] Minglun Gong和Yee-Hong Yang.具有已知背景的准实时图像抠图.在2009年加拿大计算机和机器人视觉会议上，第81-87页。IEEE，2009年。3，50[13] Leo Grady，Thomas Schiwietz，ShmuelAharon和R¨udiger Westermann.用于交互式alpha抠图的随机游走.在VIIP会议记录中，第2005卷，第423-429页，2005年。20[14] Kaiming He，Christoph Rhemann，CarstenRother，Xiaoou Tang和Jian Sun. 用于alpha抠图的全局采样方法.在CVPR 2011中，第2049-2056页。IEEE，2011年。20[15] Kaiming He，Jian Sun和Xiaoou Tang.使用大核心抠图拉普拉斯矩阵的快速抠图.在2010年IEEE计算机学会计算机视觉和模式识别会议上，第2165-2172页。IEEE，2010年。20[16] Qiqi Hou和Feng Liu.用于同时估计前景和alpha的上下文感知图像抠图.国际计

下载后可阅读完整内容，剩余1页未读，立即下载