基于一致性正则图神经网络的视频抠图

174 浏览量更新于2023-10-13 收藏 3.05MB PDF 举报

时间相干性

图神经网络

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

4902基于一致性正则图神经网络的视频抠图王甜甜1、刘思飞2、田亚鹏3、李凯4、杨明轩1、5、61加州大学默塞德分校、2英伟达、3罗切斯特大学、4东北大学、5谷歌研究院、6延世大学摘要从视频学习时间上一致的前景不透明度，即，由于视频会议的蓬勃发展，视频抠图引起了极大的关注。以前的方法是建立在图像抠图模型之上的，当被适配到视频时，其在保持时间相干性方面失败。它们或者利用光流来平滑逐帧预测，其中性能取决于所选择的光流模型;或者天真地组合来自多个帧的特征图，这不能很好地对相邻帧中的像素的对应性进行建模。在本文中，我们提出了增强时间的一致性一致性正则图神经网络（CRGNN）的合成视频抠图数据集的帮助下。CRGNN利用图神经网络（GNN）来关联相邻帧，使得可以通过利用来自其相邻帧的信息来校正在一个帧中被错误预测的像素或区域。为了将我们的模型从合成视频推广到现实世界的视频，我们提出了一种一致性正则化技术，以在将alpha和前景与不同背景混合时加强它们的一致性为了评估CRGNN的有效性，我们进一步收集了具有注释的alpha mattes的真实世界数据集与需要手工制作的trimap或背景进行建模训练的最先进的方法相比，CRGNN在未标记的真实训练数据集的帮助下生成了良好的结果。源代码和数据集可在https://github.com/TiantianWang/VideoMatting-CRGNN.git获得。1. 介绍视频遮片旨在估计每个视频帧的前景不透明度（阿尔法遮片）。由于视频会议的蓬勃发展，它最近引起了人们的广泛关注。通常，预测的阿尔法遮片可以用于创建用于视频编辑的新合成。与二进制分割任务不同，抠图产生更好地表示对象边界或透明材质的软遮罩。简单地分割前景区域并不合成重新图1：不同模型的抠图结果。第一行显示图像和地面实况。第二行表示视频抠图方法[34]（左）和我们的方法（右）的预测。第三行示出了由前景和预测阿尔法生成的混合图像。显然，我们的方法可以预测头发上更微妙的细节。由于忽略了过渡区而导致了有意义的图像或视频合成为了获得准确的视频抠图，我们需要保证：（i）在各个帧上提取的α遮片应该准确地表示要提取的对象，即，空间精度，和（i i）提取的遮片不应导致明显的时间抖动，即，时间相干性。与空间精度相比，时间相干性在视频抠图中通常更重要，因为人类可视化系统在观看视频时对时间不一致性更敏感[42]。然而，由于缺乏大规模的视频抠图数据集，以前的方法通常建立在图像抠图模型之上的视频抠图系统。例如，一种简单的方式是直接逐帧应用图像抠图方法。然而，这将导致跨帧的不一致的为了改善阿尔法遮罩的时间相干性，先前的方法通常利用4903光流[25，39，27，35]来平滑逐帧预测，或者利用附近视频帧的堆栈来利用运动线索[34]。这些方法仍然导致若干问题。首先，从参考帧到查询帧的扭曲信息依赖于所使用的光流的质量通常，光流的更快的解产生不准确的传播，而更准确的解通常是耗时的。此外，仅仅在特征级组合多个帧忽略了帧之间的相互作用，并且没有及时地对像素的运动流进行建模。在本文中，我们专注于视频抠图的两个挑战。首先，如何使用现有的图像抠图数据集[48]生成时间上相干的alpha预测？第二，如何在将在合成数据集上训练的模型转移到真实视频时减轻域间隙？我们提出了一致性正则图神经网络（CRGNN）来解决这两个挑战。我们首先设计了一个图神经网络，在空间和时间上，与合成的视频抠图数据集的帮助下，以提高时间的一致性。其次，提出了一种一致性正则化技术，将我们在复合数据集上预训练的模型推广到真实数据集。特别地，我们构建了一个全连接的图神经网络，以提高时间的一致性，通过利用不同的帧之间的交互关系。在该图中，节点表示视频帧，并且边缘链接由成对关系表示的一对相邻帧。利用图形结构，我们鼓励跨帧传播信息，以便补充当前帧中丢失像素的信息，并随着时间的推移平滑预测。如图1所示，与不利用帧之间的交互的基于视频的方法[34]相比，所提出的方法可以生成更详细的结构，这证明了图神经网络在恢复由相邻帧辅助的丢失像素方面的优势作为辅助上述训练过程的另一个重要贡献，我们还提出了一个新的合成视频垫数据集，其中阿尔法是手动注释的绿屏视频。为了解决第二个挑战，我们需要调整我们在合成数据集上训练的模型，以适应真实的视频。因此，我们引入了一致性正则化对抗学习方案。一方面，我们强制执行一致性损失：我们将α和前景的预测与随机的新背景混合，转发该新图像以具有α/前景对的新版本，并鼓励它们一致。另一方面，我们引入了一个鉴别器，以更好地区分合成帧和真实帧的对抗方式。为了验证所提出的方法的有效性，我们在一个新的现实世界中评估我们的方法数据集，其中阿尔法蒙版被仔细地从背景中提取。与现有的方法，无论是利用trimap或背景作为输入建模训练，我们的无背景的方法实现了更好的性能对国家的最先进的合成和真实的数据集的帮助下，未标记的真实训练数据集。我们的贡献可以概括为三个方面：• 我们提出了一个图神经网络，充分利用多个视频帧之间的交互关系，以提高时间的连贯性与合成的视频抠图数据集的协助。• 我们提出了一种一致性正则化技术，以适应在合成的视频帧上训练的模型的真实的，它可以提高α和前景的一致性。• 我们提出了两个大规模的合成数据集和一个手动注释的真实数据集，为这一领域的未来发展。在所提出的数据集上进行了大量的实验，结果表明，所提出的方法对最先进的方法表现良好。2. 相关工作在本节中，我们将回顾与此工作密切相关的方法，包括图像抠图，视频抠图和图神经网络。图像抠图。早期的图像抠图方法可以可以大致分为基于颜色采样的技术[12，18，19，21，4，36]和基于阿尔法传播的技术[方法[1，10，20，26，37]。最近，基于卷积神经网络的方法已经在图像抠图任务[14，11，11，48，16，17]中实现了最先进的结果。46、15、8、38、49、7、28、22]。例如，Xu等人[48]建议基于阿尔法和合成图像损失从输入图像和三重图学习阿尔法遮片。Lu等人引入了内标池化和上采样操作。[28]以恢复边界细节。视频抠图。与图像抠图不同，视频抠图[2，6，39，27，25，30，34]旨在估计时间相干的α抠图。现有的方法通常利用传播模块来保持不同帧之间的相干性。例如，Lee et al.[2]首先以交互的方式在一些关键帧上生成三元图，然后将三元图传播到所有其他帧。Schahrian等人。[35]将每个视频帧和三重图作为输入，并使用抠图拉普拉斯算子来细化采样的背景和前景区域。Soumyadip et.等人[34]提出了一种无trimap方法，该方法利用附加的背景图像和分割图作为输入，并利用图像抠图数据集进行网络预训练。图神经网络。图神经网络（GNN）被提出来处理具有深度的4904i=1Y∈V∗⊕E= {{e我·i=1我i=1i、j我V{}JV{}图2：所提出的方法的概述给定视频帧和（伪）三重图，所提出的模型首先通过利用逐帧交互经由GNN预测然后将预测的前景和α与新的背景混合以生成新的图像，这些图像被转发到相同的GNN中以生成新的前景和α。提出了一致性正则化和鉴别器，以将在标记的合成视频上训练的模型推广到未标记的真实视频。学习，其已应用于诸如检测[32]、分割[43，29]和分类[41]等领域。先前的基于GNN的视频对象分割方法[43]利用GNN来挖掘图上的帧间关系，以预测每个帧的分割图。虽然使用GNN来利用帧间关系的动机是相似的，但与[43]相比，我们的方法显示出显着差异。首先，与[43]中的非局部结构相比，我们通过利用局部连接信息来利用帧间关系，这可以产生比非局部结构更清晰的边界其次，我们通过引入一致性正则化和对抗性学习来增强图神经网络，这可以帮助在复合数据集上训练的网络3. 该算法视频抠图是给定视频的任务=IV在V个帧中，目标是分解每个帧Ii如：Ii=Ai*Fi+（1−Ai） *Bi，（1）其中，Ai、Fi和Bi分别是阿尔法蒙版、前符号表示Hadamard乘积。视频抠图是一项具有挑战性的任务，因为它需要获得每个单独帧的高质量细节，同时保持跨帧的有利的时间对于模型训练，我们提出了一种新的一致性规则化方法，该方法加强了在不同背景下提取的前景和阿尔法遮罩的一致性。因此，学习的模型能够解决真实视频中背景的多样性和复杂性。此外，我们采用对抗性训练来进一步缩小合成视频和真实视频之间的领域差距。该框架可以在图2中找到。3.1. 合成视频抠图给定视频=I iV，其中对于每个帧I i具有地面实况标签i=（A i，F i，B i），我们根据A i生成三重映射T i，其提供前方、背景和未知区域的粗略信息，遵循现有的图像抠图方法[48，28]。编码器网络E将Ii和Ti作为输入，产生潜在表示xi∈RH×W ×C为xi=E（[IiTi]），（2）其中表示串联运算符。H、W和C分别表示特征图的高度、宽度和通道。我们建议使用GNN来建模帧之间的时间一致性核心思想是通过执行特征聚合来利用帧间关系，使得可以通过聚合由连接性（边）加权的关联节点的我们定义一个在t步有K个顶点的图，Gt=（Vt，Et），其中顶点Vt={xt}K表示有限的数据集（在下一节中介绍），并提出一个图中第i帧的潜在特征和边一种利用图形神经网络在空间和时间上关联像素因此，学习模型t ti、j顶点，Ki=1Kj=1 表示两个应该产生具有增强的时间相干性的视频抠图结果。为了将我们基于GNN的模型从合成视频推广到真实视频，其中背景是任意的并且没有真实的地面实况可用et=ft（xt，xt），（3）其中ft（）表示第t步的聚合函数特征聚合。在这里，我们采用可变形对齐[40，44]，其利用可变形卷积}}我们通过收集大规模的复合材料来完成这项任务4905我我JJ联系我们RΔi=1i=1VRVR不tt我我我我我=fθ（x，x），（4）FJ0nJ0nnJJ我{Δ||}|}R {}V{}特征聚合和节点状态更新过程将交替执行多达T次。诸如ConvLSTM的其他模型也可以用于节点状态更新。这里我们使用ConvGRU，因为它的参数更少，可以更有效地训练。网络预测在T个消息传递迭代之后，更新所有K个节点表示。然后，使用更新的表示来使用解码器Da和Df预测阿尔法遮片和前景，如Ai=Da（gT），Fi=Df（gT）.（八）图3：基于可变形对齐的特征聚合。输入帧通过下式重建：以实现特征聚合。不同于标准2D偏移到规则网格采样位置，I=AF+（1−A）B。（九）可变形卷积使得能够对采样网格进行自由形式的变形，这在用数据调节偏移增强的不规则网格上实现。给定两个特征嵌入xi和xj，正则卷积核（如3×3）计算如下t t tI j我们通过最小化alpha蒙版、前景和输入帧的预测误差之和来训练我们的模型，如下所示：Lgt=Lα+LFG+LFrm，（10）其中Lα=1ΣKAFKK我F F2和L=1ΣKIΘ=p，n，n=1，. . . ，代表-发送卷积核的偏移。=（1，1），（1，0），…，（0，1），（1，1）表示卷积核的规则网格。利用预测的Θt和特征嵌入xt，可以通过以下运算来公式化每个位置p0的对准特征图mtmt（p）=Σw（p）xt（p+p+ Δp）。（五）pn∈R3.2. 真实视频抠图与在图像抠图数据集上预训练的模型相比，在合成视频数据集上训练的所提出的基于GNN的模型可以帮助提高时间相干性[48]。然而，当应用于真实视频时，由于域间隙，它仍然可能失败。为了避免这种情况，我们提出了一种新的正则化方法，该方法在α和前景，当将它们与不同的背景混合时。此外，我们采用对抗式训练由于偏移ρη通常是分数，因此使用类似于[13]的双线性插值来实现上述操作。这产生具有与输入特征图相同的空间分辨率的偏移图。学习的偏移可以捕获运动线索，并且还探索相邻特征以保持整个视频之间的时间相干性然后计算第i帧的聚合特征。日期：gt=fa（mtxt），（6）其中，表示级联运算，f表示方案，以进一步减轻域之间的差距合成视频和真实的。具体地，设=I iV是从合成集合中绘制的视频，并且设=U iU是从真实场景中提取的视频。被标记但没有。一致性正则化所提出的一致性正则化不需要标签，因此当利用和时，它可以相同地应用于我们的模型作为输入，除了产生trimap的方式，这是我们基于GNN的模型的另一个输入。针对每个帧i∈ V，我们直接用基生成三重映射Ti卷积运算。图3说明了特征聚合过程。节点状态更新。每个顶点聚合来自其相邻顶点的信息以更新其原始表示。在第t个传递步骤中，我们使用ConvGRU [3，43]将节点状态更新过程建模为gt=fg（fc（gt···gtg···g），x），（7）Θt偏移XtConvMtJj偏移字段可变形曲线-+ConvGt$Xt我-两个特征+连接Θi=1i=1哪里不4906V∗−∗truth alpha matte，遵循先前的图像抠图方法[48，28]。因为，由于地面真值alpha数据不可用于训练，所以伪三元图由基于DeepLabv3的分割图生成[9]。作为示例，我们的GNN模型利用Ii和Ti作为输入，并生成阿尔法遮片Ai和前地面Fi. 然后，Fi与一个随机新w合成i0i−1i +1K i将背景B乘以αAβi以生成新帧，其中fc是用于降维的卷积算子。 fg（·，·）代表门控递归单元（GRU）。Ii=AiFi+（1Ai）B. 合成框架Ii为再次输入GNN模型并生成新的alpha4907∗−∗con∼ − × −F我我我(a) 来自合成数据集的示例（b）来自真实数据集图4：视频抠图数据集。（a）前两行示出了具有相同前景对象的合成视频帧前景首先从具有简单背景的视频生成，然后与两个不同的背景合成。(b)第一行示出了原始真实视频帧，并且第二行指示使用注释的前景和alpha将对象与新背景混合。（a）和（b）中的第三行表示带注释的alpha。哑光A¯i和用于研磨的预处理F¯i。Fi和Fi应该一个鉴别器来区分它是真实的还是合成的-它们应该彼此一致，因为它们表示针对不同背景的相同对象。也是如此Ai和Ai。此外，新框架可以由以下组成：被绑住了这反过来增强了域对齐结果。我们通过以下方式优化对抗损失LadvminE[D（U）2]+ E[（D（U r）−1）2]，（14）I¯i=A¯iF¯i+（1A¯i） B，并且I¯i也应该与I¨i一致。因此，我们定义了一致性cy正则化器θDUiPR我，BPBUrPR作为c孔 =Lcon−α+Lcon −FG+Lcon −Frm，（11）其中PR和PB是实帧的分布，并且背景图像。Ur表示从真实视频采样的随机帧。D是鉴别器其中Lcon−α=1ΣKKKi=1FAKi=1FθD表示D的参数。1ΣK且Lcon−Frm=1ΣKIcon同样，我们可以得到一致性正则化子Lr网络利用实际帧作为输入。一致性正则化损失Lc当和而所提出的方法随机采样一个帧作为真实输入。多样性-rcon，我们可以达到我们的学习目标con看跌期权可以帮助鉴别器更好地区分合成帧和真实帧。Ladapt=Lcrcon+Lgt+L′gt 、（十二）4. 数据集其中Lgt由等式（1）计算。（10）使用（Ai，Fi）和地面真值标签（A i，F i）。L′gt由Eq. （10），但使用（A′i，F′i）和（Ai，Fi）。对抗性学习。对抗性学习已被广泛用于解决领域适应问题。在这里，我们引入对抗学习来进一步缩小领域差距。受[5]的启发，我们通过用任意小的平移前景对象来移动δ µ（[σ，σ] [其中σ定义局部移位的范围。我们可以合成一个合成图像，Ui=Au[p+δ]*Fu[p+δ]+（1−Au[p+δ]） *B. 其中，Au和Fu是从实帧Ui预测的。Au[p]据我们所知，只有一个用于视频抠图的标记数据集[33]。它包含3个训练视频和10个测试视频，这不足以训练深度学习模型，并且由于无法获得地面事实，研究人员很难对其进行评估。Sengupta等人[34]捕获人类视频抠图数据集，仅提供视频，但没有注释。由于缺乏注释，他们建议利用在图像抠图数据集上预训练的模型[48]来预测用于训练视频抠图模型的伪标签。然而，这将产生时间抖动并且不能保持时间相干性。标签数据正在成为该主题发展的瓶颈。在本文中，我们提出了两个合成的数据集，以al-我我我索引指定位置处的图像像素，并且p指示坐标。通过将真实帧的alpha和前景预测与随机背景合成，我们可以获得难以识别的合成图像。解决这个问题。此外，为了评估所提出的方法在标记的复合数据集上训练到真实数据集的通用性，我们还提供了一个真实世界的数据集。这些数据集包含高分LL+Li=1虽然[34]也使用了鉴别器，但建议方法与输入的方法不同。 [34]原住民，4908辨率（HD）4909××××MSE伤心梯度连接MESSDdtDIM [48]13.3298.92129.188.5617.48[第28话]10.9195.07120.073.0514.45国际会议*[28]13.8497.09136.984.5717.89LF [49]29.61141.4168.5131.732.58中文（简体）11.62101.0123.978.2114.93我们的9.224 73.50 112.158.4912.23(a) 合成数据集。(b) 真实数据集。表1：两个人类抠图数据集的定量结果为了更好地显示性能差异，上述措施的数字已按比例放大或缩小。五个度量的比例因子从左到右为1000、0.01、0.01、0.01、1000。IM* 意味着我们使用建议的数据集重新训练IM。最佳结果以粗体显示。仿射变换我们的模型首先在图像抠图数据集[48]上进行预训练，然后使用标记的合成数据和未标记的真实数据进行微调。对于图像抠图数据集，我们使用随机仿射变换生成一个3帧的短视频片段来模仿表2：辅助类别数据集的结果。视频和注释都是使用Adobe After Effects和Photoshop精心手动创建的。图4示出了来自所提出的数据集的一些示例。合成视频数据集。由于越来越多的兴趣在视频上的人类抠图，我们提出了一个合成的数据集与人类类别（合成人类抠图数据集）。我们还提供了一个数据集的类别，除了人类（辅助类别数据集），以验证我们的模型在人类类别和其他类别的泛化。这两个数据集中的视频在绿屏或简单背景下进行注释。由于背景的简单性，很容易为每个视频生成高质量的alpha蒙版和相应的前景。对于人体抠图数据集，有20个训练视频（6312帧）和10个测试视频（3807帧）。对于辅助类别数据集（例如，cat，plant）、20个训练视频（3983帧）和10个测试视频（1722帧）。为了扩大数据集的多样性，每个前景视频使用groundtruth alpha mattes与不同的背景合成。真实视频数据集。为了衡量自然视频的性能对于每个视频，以30fps的帧速率每10帧手动注释alpha和前景，这总共导致711帧被标记。5. 实验我们使用数据增强方案来增加输入数据的多样性。首先，我们随机裁剪以具有不同分辨率的未知区域中的像素为中心的图像和三重图对（例如，480四百八十，六百四十六百四十960 960），并将其调整为480 480由于内存约束我们还利用随机旋转，缩放，剪切-以及垂直和水平翻转，物体的运动流。由于难以生成具有透明性等类别的伪三元图在测试阶段中，通过阈值化从地面实况阿尔法遮片生成所有数据集的三元图，并且以核大小25来扩张未知区域。我们采用了类似的编码器和解码器结构介绍[28]。我们删除了最后两个池化层，因此编码器的输出大小是输入图像的1/8。除了预测层之外，用于预测α和前向的解码器Da和Df具有相同的结构用于预测alpha和前景的预测层的输出通道被设置为1和3。对于判别器，我们采用PatchGAN [24]中提出的结构。用于平衡不同损耗的目标Ladapt和Ladv中的所有权重被设置为1。顶点的数目K和迭代步数T被设置为3。在单个Nvidia2080 Ti GPU上的5.1. 比较结果评估指标。为了证明所提出的方法的有效性，我们评估了五种流行的方法的结果，包括SAD，MSE，梯度[33]，连接性[33]和时间相干性（MESSDdt）[17]。这些度量可用于评估所述算法的准确性。每个单个帧的相位和视频内的时间相干性。前四个度量被广泛用于图像级抠图评估。然而，与图像相比，远程视频具有更多的特征。一个关键特征是时间相干性，这意味着物体在不同帧之间移动应该是一致的，以获得更好的人类感知能力。合成数据集上的结果。我们首先评估所提出的算法和国家的最先进的方法对亲MSE伤心梯度连接MESSDdtDIM [48]10.6979.8774.5472.757.676[第28话]9.21681.5664.9763.725.595国际会议*[28]5.73454.3143.8244.683.297LF [49]20.61113.0168.7108.213.90中文（简体）20.97145.5147.5116.29.867[34]13.5790.15130.884.857.388MSE伤心梯度连接MESSDdtDIM [48]25.03402.1167.4407.416.47[第28话]37.30582.8115.3597.116.67LF [49]49.25478.7339.0466.325.07中文（简体）25.95461.392.97468.611.70我们20.65378.887.54365.010.414910图5：在合成数据集上的视觉比较。图6：真实数据集上的视觉比较。提出了合成的人体抠图数据集和辅助分类数据集。我们包括现有的基于图像的抠图方法[48，49，28，23]和基于视频的方法[34]。从表1a和表2可以看出，方法实现了更好的性能相比，所有其他方法评估的所有五个指标。与基于图像的方法相比，性能增益源自CRGNN的利用，其利用多帧CRGNN地面实况中文（简帧CRGNN[第28地面实况帧4911在整个视频之间的信息，并帮助恢复丢失的预测的特征聚合。与基于视频的方法BM [34]相比，所提出的方法实现了更好的性能，因为可变形特征聚合辅助的CRGNN可以充分挖掘帧之间的交互。真实数据集上的结果。为了进一步验证所提出的方法的有效性，我们评估的结果上提出的现实世界的数据集。定量结果示于表1b中。我们看到我们的CRGNN在所有方法中表现最好，这证明了我们将视频抠图制定为GNN和一致性正则化技术组合的核心思想的有效性。定性结果。图5和图6显示了合成视频数据集和真实视频数据集的视觉结果。从这些结果中，我们可以清楚地看到，所提出的方法预测帧的更微妙的细节，例如图5的第二列中的草，并且更好地抑制背景，如图6的第二列所示。这些进一步证实了所提出的方法的视频抠图任务的优越性。MSE伤心梯度连接MESSDdt基线10.2190.23130.767.2315.31变体+GNN9.48078.38123.262.8113.45+一致性9.26073.21115.460.7512.69+鉴别器9.22373.49112.158.4912.23节点数#59.23074.62115.758.5312.30#79.22873.77115.258.5012.27非本地agg.-9.95489.45128.965.6813.56表3：对所提出的网络的变体的消融研究“基线”是指不使用 GNN 的图像级模型。 ‘+’ means the progressiveconnection of dif- ferent5.2. 消融研究我们进行了消融研究，以调查所提出的方法的每个重要组成部分的效果所提出的图神经网络的有效性。为了分析我们的CRGNN的贡献，我们通过去除帧间关系引入基线模型，即使用类似于[ 28 ]的编码器-解码器结构的图像级基线。每个视频帧都被逐帧转发如表3的第二行所示，与第一行中的图像级模型相比，GNN确实带来了显著的性能改进，这得益于在增强时间相干性方面引入一致性正则化策略的有效性。为了研究一致性方案的有效性，我们在表3中提供了具有和不具有预测一致性的结果。与不利用α、前景和帧一致性的结果（第二行）相比，利用预测一致性可以生成更好的结果（例如，第二行）。MSE：9.260 v.s. 9.480）。性能增益来自更好的特征表示图像地面实况非局部聚集我们可变形的聚合体图7：真实数据集上的可变形聚合和非局部聚合的视觉比较通过一致性正则化增强。对抗学习方案的有效性。表3中的第四行示出了引入判别器可以进一步提高基于一致性正则化的性能，这得益于判别器的优点，以区分图像是合成图像还是真实图像。不同节点数的比较我们报告的性能使用不同数量的节点在测试阶段。如表3所示，增加节点数量会产生类似的结果。与非本地结构的比较。非局部结构[45]已广泛用于各种任务的特征聚合，例如视频对象分割[31]和对象检测[47]。通过枚举嵌入空间中的所有可能位置来聚合特征如表3所示，与利用非局部结构进行聚合相比，所提出的方法可以生成更好的结果。6. 结论在本文中，我们专注于增强视频中的抠图的时间相干性。不同于以往的方法建立在图像抠图模型，我们建议保持时间的一致性，充分利用整个视频帧间的关系。我们使用一个图神经网络与相邻帧的注释合成视频抠图数据集的帮助。为了将所提出的模型从合成视频推广到现实世界的视频，我们提出了一种正则化方案来加强α，前景和预测帧的一致性。此外，我们用alpha mattes注释了一个真实世界的数据集，以评估所提出的方法的有效性。在合成数据集和真实数据集上的大量实验表明，所提出的CRGNN模型对最先进的方法表现7. 确认这项工作得到了NSF CAREER Grant #1149783的部分支持。4912引用[1] Yagiz Aksoy、Tunc Ozan Aydin和Marc Pollefeys。为自然图像抠图设计有效的像素间信息流在CVPR，2017年。2[2] 薛白，王爵，大卫·西蒙斯。暂时地-相干视频抠图2011年计算机视觉/计算机图形协作技术与应用国际会议。2[3] 尼古拉斯·巴拉斯、李耀、克里斯·帕尔、亚伦·考维尔。深入研究卷积网络以学习视频表示。arXiv预印本arXiv：1511.06432，2015。4[4] Arie Berman，Arpag Dadourian，and Paul Vlahos.方法用于从图像中去除所选对象周围的背景，2000。美国专利6，134，346。2[5] Adam Bielski和Paolo Favaro 对象分段的出现-扰动生成模型中的心理状态NeurIPS，2019。5[6] 妮可·布罗施阿斯玛·胡斯尼 Christoph Rhemann，以及玛格丽特·格劳兹基于高效滤波的时空相干交互式视频对象分割。在联合DAGM（德国模式识别协会）和OAGM研讨会，2012年。2[7] 蔡少凡，张小帅：海滨范浩强Huang ， Jiangyu Liu ， Jiaming Liu ， Jiaying Liu ， JueWang，and Jian Sun.解开图像抠图。在ICCV，2019年。2[8] Guanying Chen，Kai Han，and Kwan-Yee K.黄。Tom-net：从单个图像学习透明对象抠图。在CVPR，第9233-9241页，2018年。2[9] 陈良杰、乔治·帕潘德里欧、弗洛里安·施洛夫和哈特维格·亚当。重新思考语义图像分割的atrous卷积。arXiv预印本arXiv：1706.05587，2017. 4[10] Qifeng Chen，Dingzeyu Li，and Chi-Keung Tang. Knnmat-婷TPAMI，2013年。2[11] 赵东贤戴宇荣和权仁生使用深度卷积神经网络的自然图像抠图。在ECCV，2016年。2[12] Yung-Yu Chuang，Brian Curless，David H Salesin，and理查德·塞利斯基。数字抠图的贝叶斯方法载于CVPR，2001年。2[13] Jifeng Dai，Haozhi Qi，Yuwen Xiong，Yi Li，GuodongZhang，Han Hu，and Yichen Wei.可变形卷积网络。InICCV，2017. 4[14] 丁恒辉，蒋旭东，刘爱群，Nadia Magne-纳特·塔尔曼和王刚用于场景分割的边界感知特征传播。在IEEE/CVF计算机视觉国际会议论文集，第6819-6829页，2019年。2[15] 丁恒辉，蒋旭东，帅兵，刘艾群，和王刚。基于上下文对比特征和门控多尺度聚合的场景分割方法.在CVPR，2018年。 2[16] 丁恒辉，蒋旭东，帅兵，刘艾群，和王刚。语义相关性促进了形状变化的上下文分割。在CVPR，2019年。2[17]Mikhail Erofeev，Yury Gitman，Dmitriy Vatolin，Alexey Fe-dorov和Jue Wang。感知激励基准视频抠图在BMVC，2015年。6[18] Xiaoxue Feng，Xiaohui Liang，and Zili Zhang.一种基于稀疏编码的图像抠图聚类抽样方法。在ECCV，2016年。2[19] Eduardo SL Gastal和Manuel M Oliveira。共享抽样用于实时阿尔法抠图。计算机图形学论坛，2010年。2[20] Leo Grady，Thom as Schiwietz，Shmuel Aharon，andRu¨ diger韦斯特曼用于交互式α-遮片的随机游走。2005年在VIIP。2[21] Kaiming He ， Christoph Rhemann ， Carsten Rother ，Xiaoou Tang，and Jian Sun.一种用于alpha抠图的全局采样方法。CVPR，2011。2[22] 侯七七和凤琉。基于上下文感知的图像抠图算法同时前景和α估计。在ICCV，2019年。2[23] 侯七七和凤琉。基于上下文感知的图像抠图算法同时前景和α估计。在ICCV，2019年。六、七[24] Phillip Isola，Jun-Yan Zhu，Tinghui Zhou，and Alexei A埃夫罗斯使用条件对抗网络的图像到图像翻译。在CVPR，2017年。6[25]Sun-Young Lee，Jong-Chul Yoon，and In-Kwon Lee.Tem-局部相干视频抠图。Graphical Models，2010. 2[26] Anat Levin，Dani Lischinski和Yair Weiss。一个封闭形式的解决方案，以自然图像抠图。TPAMI，2007年。2[27] Dingzeyu Li，Qifeng Chen，and Chi-Keung Tang. 动议─知道用于视频抠图的knn拉普拉斯算子。InICCV，2013. 2[28] Hao Lu，Yutong Dai，Chunhua Shen，and Songcen Xu.关键因素：学习索引深度图像抠图。在ICCV，2019年。二三四六七八[29] 敖罗、李欣、范阳、焦志成、洪成、刘四维。基于级联图神经网络的rgb-d显著目标检测。在ECCV，2020年。3[30] J Moon，D Kim和R Park。基于背衬的地面估计Proc. World Acad.科学，工程技术，2005年。2[31] Seoung Wug Oh、Joon-Young Lee、Ning Xu和Seon JooKim.使用时空记忆网络的视频对象分割。在ICCV，2019年。8[32] Siyuan Qi，Wenguan Wang，Baoxiong Jia，Jianbing Shen，和朱松春通过图解析神经网络学习人-物交互在ECCV，2018。3[33] Christoph Rhemann，Carsten Rother，Jue Wang，MargritGelautz，Pushmeet Kohli，and Pamela Rott.一个感知动机的图像抠图在线基准测试。CVPR，2009。五、六[34] Soumyadip Sengupta，Vivek Jayaram，Brian Curless，Steve作者声明：John W.背景材质：世界是你的绿幕。在CVPR，2020年。一、二、五、六、七、八[35] Ehsan Shahrian，Brian Price，Scott Cohen和Deepu Rajan。时间相干和空间精确的视频抠图。在计算机图形学论坛，2014年。2[36] Ehsan Shahrian，Deepu Rajan，Brian Price和Scott Co-hen。使用综合采样集改进图像抠图。CVPR，2013。2[37] Jian Sun，Jiaya Jia，Chi-Keung Tang，and Heung-Yeung沈泊松铺垫。在ACM Transactions on Graphics（ToG）中，2004年。24913[38] Jingwei Tang，Yagiz Aksoy，Cengiz Oztireli，MarkusGross，and Tunc Ozan Aydin.基于学习的自然图像抠图采样。在CVPR，2019年。2[39] 珍汤、珍江苗、炎力丸、滇勇张某通过不透明度传播的视频抠图。计算机视觉，2012年。2[40] Yapeng Tian，Yulun Zhang，Yun Fu，and Chenliang Xu.Tdan：用于视频超分辨率的时间可变形对齐网络。在CVPR，第3360-3369页，2020年。3[41] PetarVelicko vic'，GuillemCucurull，ArantxaCasanov a，Adriana Romero，Pietro Lio，and Yoshua Bengio.图at-tension网络。arXiv预印本arXiv：1710.10903，2017。3[42] 保罗·维勒加斯和泽维尔·马里沙尔。感知加权用于视频序列中的分割掩模的评估标准。TIP，13（8）：1092-1103，2004. 1[43] Wengguan Wang，Xiankai Lu，Jianbing Shen，David J Crandall和凌少。通过关注图神经网络的零镜头视频对象分割。在ICCV，2019年。三、四[44] Xintao Wang，Kelvin CK Chan，Ke Yu，Chao Dong，和陈谌来。Edvr：使用增强的可变形卷积网络进行视频恢复。在CVPRW，第0-0页，2019年。3[45] 王小龙、Ross Girshick、Abhinav Gupta和Kaim-他。非局部神经网络。在CVPR，2018年。8[46] Yu Wang，Yi Niu，Peiyong Duan，Jianwei Lin，andYuanjie Zheng.基于深度传播的图像抠图。在IJCAI，2018。2[47] 萧凡一和李勇在。视频对象检测对准的时空存储器。在ECCV，2018。8[48] Ning Xu，Brian Price，Scott Cohen，and Thomas Huang.深度图像抠图。在CVPR，2017年。二三四五六七[49] Yunke Zhang，Lixue Gong，Lubin Fan，Peiran Ren，Qixing Huang，Hujun Bao，and Weiwei Xu.用于数字抠图的后期融合cnn。在CVPR，2019年。二六七

下载后可阅读完整内容，剩余1页未读，立即下载