带有场景模板的流引导视频修复

157 浏览量更新于2023-10-14 收藏 20.88MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

145990带有场景模板的流引导视频修复0Dong Lao Peihao Zhu Peter Wonka Ganesh SundaramoorthiKAUST，沙特阿拉伯0{dong.lao, peihao.zhu, peter.wonka, ganesh.sundaramoorthi}@kaust.edu.sa0摘要0我们考虑填补视频中缺失的时空区域的问题。我们通过引入与场景（没有缺失区域）中的图像相关的生成模型和从场景到图像的映射，提供了一种新颖的基于流的解决方案。我们使用该模型共同推断出场景模板，即场景的2D表示，和映射。这确保了生成到基础场景的帧间流的一致性，减少了基于流的修复中的几何失真。通过新的（L2-L1）插值方案，将模板映射到视频中的缺失区域，创建清晰的修复图像，并减少常见的模糊和失真伪影。我们在两个基准数据集上展示了我们的方法在定量和用户研究中优于最先进的方法。101. 引言0视频修复是将空间-时间区域（即遮罩区域）填充为与视频其余部分自然融合的内容的问题。这在视频编辑任务中非常有用，包括去除水印或不需要的对象和视频恢复。由于视频具有时间规律性，为了修复给定的帧，自然而然地使用其他帧的数据，因为其他帧的数据可能对应于遮罩区域后面的场景的部分。许多最先进的视频修复方法是流引导的[7，29，19，5]，它们采用将其他帧的未遮罩数据复制到给定帧的遮罩区域中的方法，使用光流。虽然这些方法通过其他帧从场景中输入合理的数据进行修复，但与单幅图像修复方法（例如[3，35]）不同，后者试图从图像中的其他区域或通过数据集学习来幻化遮罩区域的图像值，它们高度依赖于光流的质量。尽管随着深度学习的进展，光流已经取得了显著的进步，以至于最近的基准光流方法已经取得了很大的进展01 数据集和代码：https://github.com/donglao/videoinpainting0图1：与最先进技术的比较。我们的方法使用从场景中生成图像的生成模型来推断与场景一致的流。与最先进的DFG[29]、STTN [37]、OnionPeel [19]、FGVC[5]相比，这减少了修复中的视觉失真。附加材料中有动画。0数据集只产生了很小的误差，但在应用光流进行修复时存在两个复杂性。首先，用于修复的遮罩区域中所需的光流是如果遮罩区域内的内容被移除以显示遮罩遮挡的场景部分，则需要的光流。由于无法直接确定这一点，因此它是通过数据学习的幻化光流，通常是通过数据[29，5]学习的。然而，无法保证这与场景或其他帧的幻化一致，从而在修复中产生视觉失真。其次，即使光流存在微小误差，也会在修复的视频中产生明显的视觉失真，随着光流在多个帧上的聚合，这种失真进一步放大，因为可能需要来自远处帧的数据。已经尝试通过将时间规律性应用于光流来减少这些错误[29，38，37，5]，但这些简单的正则化器（帧之间的光流接近）可能与场景几何不一致，并且仍然会产生视觉失真（图1）。在本文中，我们旨在通过推导出一个紧密模拟从场景中生成图像的物理图像形成过程的生成模型，并使用它来推断光流，从而减少由于物理上不合理和时间上不一致的光流而导致的视频修复中的视觉失真。该模型表示了3D场景（所有场景对应的部分）146000将视频外部的场景模板视为2D场景模板。第t帧的修复图像是场景模板在第t帧中视野内的部分的映射（一般的分段平滑变形）到图像域。该模型约束变形与场景和图像一致。通过自然且高效地强制所有从模型生成的成对图像之间的映射必须正确匹配图像，从而实现时间一致性。我们的推理过程从该模型中联合计算变形和场景模板，从而减少修复中的失真。我们的贡献具体包括：1.通过将场景的生成模型应用于图像，推断出光流和场景模型（场景模板），从而解决了光流引导的修复问题。与现有方法相比，我们的方法产生了更具时间一致性和合理的成对光流，从而得到了更具时间一致性且具有更少几何失真的修复结果。2.我们提出了一种新颖的L2-L1组合优化过程，该过程通过与插值策略结合使用，显著提高了修复质量，并进一步减少了几何失真和模糊伪影。3.我们首次引入了去除视频中遮挡物的基准数据集（前景去除）。我们引入了一个定量的协议，而以前的方法则依赖于视觉比较。4. 我们在DAVIS[21]和前景去除数据集上展示了我们算法的优势，并与最先进的方法进行了用户研究和定量比较，结果表明我们的方法具有更好的效果。02. 相关工作0视频修复: 单图像修复方法[4, 3, 36, 35, 8,17]在过去几十年中取得了成功。然而，当应用于视频数据时，它们通常会产生由于缺乏时间一致性而产生的伪影。早期的视频修复方法[28, 20,18]将基于补丁的单图像技术扩展到视频数据。最近的作品[7, 22, 29, 14, 38,5]使用光流或其变种来建模帧间的时空对应关系。为了在掩膜区域内产生光流，非学习方法[22,7]依赖于能量最小化，假设光流的平滑性; [29,5]是一种深度学习解决方案，首先计算图像对之间的光流，然后使用神经网络在掩膜区域内产生光流。端到端学习方法[11, 26, 19, 38, 2, 37,15]在其损失函数中建模了帧间对应关系。例如，[38]在惩罚时间不一致性的同时，联合推断外观和光流。由于受到硬件限制，这些方法只处理少量固定帧或以低分辨率运行。由于我们的方法没有这样的限制，并且能够产生连续的结果。0与场景的一致性相比，我们的方法表现更好。分层方法：我们的方法与分层方法[23, 27, 13,10]相关，分层方法将场景表示为可以互相遮挡的移动2D层。分层方法是强大的工具，可以应用于运动分割[1, 32, 24,34, 12, 30,31]，因为它们提供了一种原则性的视频遮挡推理方法。我们采用分层形式来创建我们的场景模板，使用光流和深度学习的现代进展，然后用于修复。03. 计算场景模板0我们为场景模板和模板到每个图像的一组变换（变形）制定了一个联合推理问题。场景模板，即背景，是场景的辐射的2D表示，不包括前景，即与待修复图像中的掩膜区域相对应的场景部分。推理问题源于一个生成模型，该模型通过几何变换解释了图像是如何通过场景模板形成的；这些变换模拟了由相机视点变化和动态场景引起的变换。这种推理通过与生成模型和场景模板的一致性约束，使得掩膜后面的运动变得合理，并在视频帧之间保持一致。这减轻了帧间流传播方法的问题，后者旨在在没有场景一致性的情况下幻化掩膜后的图像中的运动。这种幻化可能导致错误，并通过时间传播在多个帧上进一步放大。给定场景模板和变换，修复结果是将模板映射到待修复图像的掩膜（参见图2）。03.1. 符号和假设0视频是一组帧，表示为{Ii} Ti = 1，其中Ii：D � R2 → Rk（k=3表示RGB值）是一幅图像，D是图像域，T是帧数。我们将背景的辐射函数表示为f：Ω → Rk，Ω �R2是场景模板的域（通常比D大以容纳来自所有图像的数据）。我们将从场景模板域到每个图像域的映射（变形）表示为{wi：Ω → D} Ti =1。注意，wi实际上只将场景Ω在帧i中的可见部分映射到D，这对于处理移动相机是很重要的（下一节中的细节）。wi是非刚性的，因此可以处理动态场景/背景。我们的模型假设图像（遮挡区域外）是从场景中获得的，如Ii（x）=f（w-1i（x））+ηi（x），其中ηi（x）是一个噪声过程（用于模拟未建模的干扰，例如小的照明变化，阴影等），w-1i是从图像i到模板的逆映射。为了计算，η1)The ﬁrst term above favors warps (and templates) such thatthe mapping of the visible part of the scene radiance intothe image domain matches the image intensity for all pix-els outside the mask Mi. Each pixel in each image outsideMi maps to the scene template, and so each x ∈ D\Micorresponds to some point in Ω, though not each point in Ωwill correspond to some point in D. This is desired sincethe scene encompasses more than just what is visible froma single frame Ii. This is particularly important as we as-146010图2：我们方法的示意图。通过分段平滑的变形w-1i将图像中的未遮挡区域映射到场景模板中。注意，与图像中的遮挡区域对应的场景模板的部分是从其他帧中自然填充的。场景模板和变形是联合推断的。这确保了变形与场景及彼此的一致性，因为该公式隐含地要求通过场景模板的成对映射wj ◦w-1i必须正确匹配Ii和Ij的未遮挡部分。在时间t上，视野中的场景模板通过推断的变形映射到给定的视频帧，以获得帧t中的修复结果。0将被假设为一个均值为零的高斯噪声过程，与x和i无关，遵循朗伯假设。在视频修复中，每个帧都有给定的掩码Mi。这些可以由用户注释提供，也可以利用对象分割算法。Mi可以包含多个对象（可能以不同的方式移动），大小和形状任意。修复是为了恢复M后面的辐射度。03.2. 能量最小化公式0现在，我们将场景模板f和变形wi作为联合能量最小化问题进行推断。注意，如果f已知，则可以通过光流问题确定wi。反之，如果wi已知，则可以通过将掩码外的区域反向映射到Ω来确定模板辐射度。由于它们都不知道，所以问题被设置为对变形和场景模板的联合能量最小化，如下所示：0E f (f, {wi} Ti = 1) =0T �0i = 10�0D \ Mi | Ii (x) - f (w-1i(x)) | 2 2dx +0i = 1 E Reg(wi)。0假设相机可能会发生变换，因此在帧中只有场景模板的一部分可见（见图2），因此第一项只惩罚辐射度f(w-1i(x))在可见部分与图像强度偏离的程度。第二项是所需的变形规则，以使问题在光圈问题的情况下成为良好的问题。我们将在第3.3节中讨论正则化的具体形式。可以认识到，这个公式与光流类似，但也有一些关键的区别。我们不是在帧之间进行映射，而是在图像和场景模板之间进行映射（待确定），从而提供了与场景及彼此的自然一致性，这在以前的修复工作中是不存在的。03.3. 优化0为了优化，我们迭代地更新场景模板，给定当前估计的warp，反之亦然，给定模板的估计，更新warp。对于场景模板的更新：给定w i 的估计，Ω被计算为每个图像域的反向warp的并集，即 Ω = ∪ T i =1w − 1 i ( D )。注意，Ω 可能比 D 更大。我们现在根据 Ω更新场景模板辐射度 f。由于 f仅出现在（1）的第一项中，我们可以忽略第二项来确定f。通过变量的改变来计算在 Ω上的积分，可以将求和移到积分中。然后可以证明 f的全局优化器是：0f � ( p ) = � T i =1 I i ( w i ( p )) 1 i ( w i (p )) J i ( p )0� T i =1 1 i ( w i ( p )) J i ( p )，p ∈ Ω(2)0其中 1 i ( ∙ ) 是 D \ M i 的指示函数，即 1w∗i = arg minw146020算法1：场景模板的优化。01：选择一个关键帧 I k 2：通过 w i = w ki 对 w i进行初始化 3：重复 // 更新warp和模板 4：Ω =∪ T i =1 w − 1 i ( D )，通过（2）计算 f05：对于所有的 i，通过计算 f 到 I i 的光流来更新 w i 和 w − 1 i// 并行计算06：直到收敛0D \ M i，即 I i 中的背景区域，否则为0，并且 J i ( p ) =det � w i ( p )，这是由于变量的改变导致的，用于衡量 Ω和 D 之间的变形区域。为了获得 p处的辐射度，需要计算与 p 对应的所有图像帧 i上的像素的加权平均值。对于warp的更新：给定模板 f �的估计，我们通过最小化（1）来更新 w i。这相当于计算0�0D \ M i | I i ( x ) − f � ( w − 1 i ( x )) | 2 2 d0（3）对于每个i，这类似于光流问题，但只匹配非掩码区域（D \ Mi），并且 I i ( D ) 和 f ( Ω )的域的形状不同。为了方便起见，通过在整个域 Ω上进行平滑扩展，将 w i 扩展到整个域Ω，该扩展通过模板在帧 i中可见部分之外的空间正则性来确定。为了自然地处理不同形状的域，我们使用 SobolevFlow [33] 来改进当前 w i的估计的初始化。我们选择一个关键帧（例如，中间帧） Ik 作为场景模板，并将w i 初始化为关键帧和帧 i之间的光流，即 w i = w ki。注意，k 和 i可能表示远离的帧，因此可能涉及大的位移，对光流方法来说是具有挑战性的。因此，我们首先通过普通光流计算相邻帧之间的光流，即 w i ( i +1) 和 w ( i +1)i，然后通过适当的连续帧光流的递归组合来计算 wki。为了计算帧间光流，我们使用 SobolevFlow[33]，它自然地允许排除掩码区域 M i的计算，从而得到准确的光流。为了加快计算速度，我们使用基于深度学习的光流（FlowNet2[9]）来初始化整个图像中的光流，然后通过空间正则性替换掩码内部的光流。我们在0算法2：场景模板/修复（更快）。01：初始化：t = 1，通过恒等映射初始化 w 1 2：t ←t + 1，获得新的帧 I t 和掩码 R t 3：通过光流计算 wt,t − 1 和 w − 1 t,t − 104: 对于所有i，通过w_i ← w_t(t-1) ◦ w_i更新warp5: 重复更新warp和模板 6: 通过(2)更新模板f07: 对于所有i，通过I_i和f之间的光流更新w_i和w_-1_i // 并行计算08: 直到收敛 9: 通过(5)计算修复结果10: 转到步骤20正向和反向方向，令w_-1_ij =w_ji进行初始化，使得所有warp都有逆。算法1总结了优化流程。经验上，最多需要2次迭代收敛。03.4. 场景模板的高效更新0当处理具有大范围背景运动的较长视频时，Ω可能会变得任意大，降低计算和内存效率。然而，通常不需要完整的场景模板来修复一帧I_i，因为w_-1_i(M_i)通常只映射到模板的一小部分。因此，我们进一步提出了一种高效的实现方法。为此，我们确保场景模板与最新的帧I_t对齐，具体操作如下。假设模板与I_t对齐，那么给定一个新的帧I_t+1，我们通过组合w_i ← w_i ◦ w_(t+1)t和w_-1_i ← w_t(t+1) ◦w_-1_i来更新warp以对齐I_t+1，并通过(2)更新f。然后我们将Ω裁剪为D（与I_t+1匹配），并且w_-1_t+1(M_t+1)很可能保持在D中，因为w_-1_t+1接近恒等映射，初始模板与I_t+1对齐。这也使得通过现有的光流方法处理w_i的细化更容易，因为I_i和f的域相同。此外，由于每个更新是独立的，w_i是并行计算的。算法2展示了这个方案，用于实验。由于每个帧只由前面的帧修复，初始帧可能仍然存在空洞。为了缓解这个问题，我们先进行前向修复，然后进行后向修复，填充初始帧。在实验中，我们发现使用滑动窗口的7帧来解决优化问题已经可以得到良好的结果。然而，我们的方法可以处理更多帧的情况（例如Figure2中的60帧），而不会受到硬件限制。04. 修复0虽然我们可以简单地通过在先前部分中计算的w_i将模板f映射到掩膜区域M_i以进行修复，从而产生修复结果，但是这样会导致模糊。L2L2+L1Mt146030图像0图3：示例：L2 vs L2 +L1。L2创建平滑但模糊的修复结果。通过L1正则化，修复结果保持锐利和刚性外观。0可能导致模糊的结果，因为(1)中的L2范数可能导致模板模糊，因为(2)中的时间平均化。为了减轻这些影响，我们为修复后的辐射P_t解决一个能量最小化问题：M_t -> R_k0通过L1插值模板f和映射到掩膜的其他帧的原始图像值之间的L1范数，通过插值产生修复结果。0距离，以减少时间模糊，如下所示：0E_img(P_t) =0|P_t(x) - f*(w_-1_t(x))|^2_20+ β0i=1 |P_t(x) - I_i(w_ti(x))|1 1_t(w_ti(x))] dx,0(4)第一项衡量修复结果与映射到M_t的模板的相似度，第二项衡量修复结果与其他帧映射到M_t的相似度。1_t(w_ti(x))表示w_ti(x)在第i帧中是否可见。令{t_1x, ...,t_mx_x}表示w_ti(x)映射到M_t的m_x帧。根据[16]，(4)有一个闭式解：0P � t ( x ) = 中位数 { I t 1 x ( w tt 1 x ( x )) , ∙ ∙ ∙ , I t mx x ( wtt mx x ( x )) ,02 ) β } , (5) 其中 y = w − 1 t ( x )。修复是对映射到掩码以及模板外观的不同帧的像素进行时序中值滤波。图3显示了这种L1公式减少模糊的示例。现在我们讨论在（5）中对变换像素的图像的评估，这需要插值。这个选择对于产生视觉上合理的结果至关重要。常见的选择是最近邻或双线性插值。在图4a中，我们通过旋转光流传播一个玩具模板，并展示了每种方案的效果。双线性插值保留了形状，但边缘模糊，因为像素值是白色和黑色像素在端点周围的线性组合。最近邻保留像素值，因此不会模糊。然而，将端点四舍五入到最近的像素会导致几何失真。两者都存在缺陷。0模板流 GT 双线性最近邻0(a) 通过旋转光流传播的玩具模板。双线性最近邻最佳实践0(b) 修复结果：不同的插值方法。0图4：插值伪影。双线性插值导致模糊；最近邻插值导致失真。我们的组合得到了最逼真的结果。0在流引导修复中，插值方案在整个视频中进一步放大和传播。我们提出了一个简单而有效的解决方案，解决了流基础修复中长期被忽视的问题。我们在计算模板（2）时应用双线性插值，以避免几何失真。在获得具有良好对齐变形的平滑模板后，我们在计算修复（5）时应用最近邻插值，以保留刚性边缘。这样可以得到最少伪影的结果。如图4b所示，仅使用双线性插值会导致模糊的结果，而仅使用最近邻插值会导致失真。我们的组合得到了最佳结果。在上述的修复之后，可能还有一些未填充的掩码像素，因为它们对应于整个视频中从未显示的场景中的点。为了填充这些像素，我们使用DeepFill [ 35 ]，遵循[ 29 , 5 ]的方法。05. 实验0据我们所知，目前还没有视频修复基准数据集，只有用于对象分割的数据集（DAVIS [ 21]）。虽然可以使用DAVIS中的分割掩码进行视频修复（例如[ 29 , 5]），但是没有真实的标准，评估依赖于用户研究。作为补充，许多方法[ 29 , 38 , 11 , 37]在背景视频上组合移动对象或掩码，因此可以对修复准确性进行数值评估。由于数据是以不同的方式创建的（有些没有公开发布），直接进行定量比较是不可行的。因此，我们在这种设置下引入了一个新的数据集，称为“前景去除”数据集，其中包含了衡量修复准确性和时间一致性的定量评估协议。该数据集将公开提供。DAVIS [ 21]包含50个视频中的3455帧，每帧都有像素级的注释。任务是去除标注的移动对象。我们进行了用户研究。TPSNR↑TSSIM↑Avg↑#1↑TPSNR↑TSSIM↑PSNR↑SSIM↑FID↓Ours+F+S29.080.881--34.580.93529.150.8571.042Ours+S30.860.9227.2458130.140.89528.170.8251.179DFG[29]27.580.8526.8945730.740.88628.280.8031.376146040DAVIS前景去除0ILA[38] 30.59 0.894 5.12 95 31.35 0.910 25.64 0.769 1.2920OnionPeel[19] 26.24 0.817 - - 29.31 0.822 28.71 0.833 1.0510STTN[37] 29.04 0.874 - - 34.07 0.926 27.62 0.817 1.1360DeepFill[35] 19.56 0.554 3.96 24 20.77 0.639 19.31 0.568 2.5460FGVC [5] 30.71 0.916 - - 32.89 0.936 31.76 0.886 0.8330Ours+FGVC流 30.94 0.921 - - 34.56 0.947 31.89 0.894 0.8020表1：定量结果。在两个数据集上，我们的方法在时间一致性和修复质量方面表现最好。我们的结果在用户研究中更受欢迎。F：FlowNet2[9]；S：SobolevFlow [33]。0图5：DAVIS上的用户研究。我们的方法获得了最高的平均和中位数评分。我们的方法还获得了最多的第一名排名。0通过邀请来自领域内外的24名志愿者对每个视频的修复质量进行评分，评分范围为1到10。视频以15帧每秒的速度显示，用户可以自由停止、重新播放和放大。方法的排序是随机排列的（用户不知道）。每个用户需要对至少15个序列进行评分，我们总共收集了871个结果。我们还根据[38]评估了时间一致性，通过测量相邻帧中修复区域的视觉相似性，标记为TPSNR和TSSIM。前景去除数据集包括25个由29到90帧组成的合成视频，其背景来自YouTube。我们将DAVIS和SegtrackV2[25]的移动前景粘贴到背景视频中。该数据集包含了代表性的挑战性案例，包括视角变化、背景变形、光照变化、快速放大、运动模糊、图像噪声（如雨）和恒定（如过曝）区域。我们通过计算PSNR、SSIM和Frchet Inception Distance[6]与真实值的差异来评估修复准确性，并像DAVIS一样评估时间一致性。比较：我们将我们的方法与最先进的方法进行比较。它们是：流引导的DFG [29]和FGVC[5]；端到端的ILA [38]、OnionPeel [19]、STTN[37]；以及单图像的DeepFill[35]。对于用户研究，我们选择了DFG、ILA和DeepFill，因为它们代表了每个方法类别。由于[38,29,19]的作者发布的代码在不同的分辨率下运行，我们将所有结果调整为相同的分辨率，以进行公平的数值和视觉比较。如第3.3节所述，我们使用SobolevFlow[33]进行流细化（Ours+S）。为了与[29]进行比较，我们使用FlowNet2[9]进行流初始化（Our+F+S）。我们与使用更先进的流方法的FGVC[5]进行比较。对于这个比较，我们使用[5]使用的流来初始化我们的方法。0我们使用SobolevFlow[33]进行流细化（Ours+S）。为了与[29]进行比较，我们使用FlowNet2 [9]进行流初始化（Our+F+S）。我们与使用更先进的流方法的FGVC[5]进行比较。对于这个比较，我们使用[5]使用的流来初始化我们的方法。05.1. 结果0DAVIS数据集：图6显示了DAVIS上的代表性视觉结果。我们的结果比其他竞争方法更具视觉可信度。DFG容易出现由于帧间传播和最近邻插值引起的失真。OnionPeel和ILA的结果模糊（在其他基于学习的方法[37,11,14]中也经常观察到）。我们的方法保留了刚性物体的外观，显示了L2-L1优化和插值策略的有效性。在长期遮挡的视频中（如图1），我们的方法明显优于竞争方法，因为该方法对流误差累积不太敏感。图5总结了用户研究。我们的方法具有最好的平均用户评分。它还获得了最多的第一名排名（允许并列）。在67%的评分中，我们的方法在四种方法中排名最好。表1显示了定量结果。Ours+S在时间一致性方面表现最好。这可能是因为基于区域的SobolevFlow公式提供了更一致的背景运动估计。通过与[5]使用相同的流进行初始化，我们实现了更好的时间一致性，这表明我们的方法的场景一致性改进了甚至更先进的光流（也参见图1）。前景去除数据集：图9和表1显示了数据集上的定性和定量结果。我们的方法获得了视觉上可信的结果。由于数据集包含更具挑战性的背景运动，并且FlowNet2具有处理复杂运动的更强能力，Ours+F+S获得了卓越的性能。与DAVIS类似，我们的方法改进了[5]。我们想要强调图9中的两个案例：在汽车场景中（第二列），我们的方法成功处理了两个具有不同运动的前景对象；在马场景中（第五列），我们的方法处理了强烈的相机运动。ImageOurs+SOurs+F+SDFGOnionPeelILAImagesImages146050图6：在DAVIS数据集上的比较。通过我们的场景模板和相应的优化和插值方案，我们的方法获得了最逼真的结果。最好放大查看。0结果0图7：从动态场景（来自DAVIS）中删除固定区域的示例。动画请参见补充材料。0放大区域（DAVIS）：文献中考虑了在具有动态物体的场景中去除视频固定区域的内容。我们的公式（1）原则上可以应用于这种情况（图7）。然而，为了获得高精度，需要在光流中进行额外的遮挡推理，这将成为未来工作的重点；本文的重点是说明场景模板的好处。即使使用我们目前的方法，我们的结果与[5]（固定区域的最新技术）相当：在DAVIS上，PSNR为28.02对比28.20，SSIM为0.959对比0.957，遵循[5]的实验设置。我们在补充材料中提供了详细的讨论。05.2. 进一步应用和讨论0不完整注释：以前的工作没有考虑处理不完整或不准确的注释。0结果0(a) 缺失注释的修复。0标签估计原始结果阴影去除0(b) 自动阴影估计和去除。0图8：不完整注释的修复。我们的方法可以用于纠正不完整的注释。它通过（6）估计缺失的注释并进行修复。红色：给定的注释；蓝色：估计的掩码。0完美注释。现有方法（例如[7，29，38，5]）假设完美注释。实际上，掩码通常来自用户注释或分割算法，因此整个视频可能无法获得注释或可能包含错误。图8显示了两个示例。在第一个示例中，只提供了前10帧的掩码；在第二个示例中，掩码中不包括阴影。我们的方法可以通过对场景模板（从可用的噪声注释计算）和图像之间的残差进行阈值处理来估计前景掩码：ImageGTOurs+F+SDFGOnionPeelILAImageDFGDFG+OursRt = {|It(x) − f(w−1t (x))|22 > α},α = 0.1.(6)146060图9：前景去除数据集的比较。我们的新数据集包含了包括不规则背景运动、光照变化、快速缩放、运动模糊、图像噪声和恒定区域在内的挑战性案例。我们的方法获得了最具视觉合理性和时间一致性的结果。最好放大查看。0图10：多帧聚合改善了规律性即使使用相同的光流，我们的方法显示出比帧间传播更强的规律性。0只提供了前10帧的掩码；在第二个示例中，掩码中不包括阴影。我们的方法可以通过对场景模板（从可用的噪声注释计算）和图像之间的残差进行阈值处理来估计前景掩码：0我们的方法推断缺失的注释并纠正不正确的注释，因此据我们所知，它是第一个能够在注释不完整的情况下进行修复的方法。这使得完全自动的前景去除算法成为可能，这可能是未来的研究方向。多帧聚合改善了规律性：在这个实验中，我们使用与DFG相同的光流（不包括）0细化），因此唯一的区别是多帧聚合与帧间传播。在DAVIS上，TPSNR从27.58上升到30.53，TSSIM从0.852上升到0.966，显示出更强的时间一致性。我们甚至可以观察到具有更强空间规律性的结果，如图10所示。这显示了我们场景模板的优势。06. 结论0我们提出了一种新颖的基于流引导的视频修复方法，引入了场景模板，它是背景的二维表示。该方法通过非刚性映射将帧间的外观信息聚合到场景模板中，然后将模板映射到图像进行修复。这样可以得到比现有基于流的方法更合理和时间连贯的流场，因为映射必须与场景保持一致。我们提出了一种简单的插值方案，显著减少了修复产生的伪影。实验证明，我们的方法在两个数据集上在修复准确性和时间连贯性方面达到了最先进的结果。我们的方法还可以处理缺失和噪声的用户标注遮罩。146070参考文献0[1] T. Brox and J. Malik. 长期分析点轨迹进行目标分割.在欧洲计算机视觉会议论文集中，页码282-295，2010年。20[2] Y.-L. Chang, Z. Y. Liu, K.-Y. Lee, and W. Hsu.带有3D门控卷积和时间PatchGAN的自由形式视频修复.在IEEE国际计算机视觉会议论文集中，页码9066-9075，2019年。20[3] A. A. Efros and W. T. Freeman.图像拼贴用于纹理合成和转移.在第28届计算机图形学与交互技术年会论文集中，页码341-346，2001年。1, 20[4] A. A. Efros and T. K. Leung. 非参数采样的纹理合成.在第七届IEEE国际计算机视觉会议论文集中，卷2，页码1033-1038，1999年。20[5] C. Gao, A. Saraf, J.-B. Huang, and J. Kopf.基于流边引导的视频补全.在欧洲计算机视觉会议（ECCV）论文集中，2020年。1,2, 5, 6, 70[6] M. Heusel, H. Ramsauer, T. Unterthiner, B. Nessler,and S. Hochreiter.通过两个时间尺度更新规则训练的GAN收敛到局部纳什均衡.在神经信息处理系统进展中，页码6626-6637，2017年。60[7] J.-B. Huang, S. B. Kang, N. Ahuja, and J. Kopf.动态视频的时间连贯补全.ACM图形学交易（TOG），35（6）：196，2016年。1,2, 70[8] S. Iizuka, E. Simo-Serra, and H. Ishikawa.全局和局部一致的图像补全. ACM图形学交易（SIGGRAPH2017会议论文集），36（4）：107：1-107：14，2017年。20[9] E. Ilg, N. Mayer, T. Saikia, M. Keuper, A. Dosovit-skiy, and T. Brox. 光流估计的演化：Flownet 2.0.在IEEE计算机视觉和模式识别会议论文集中，页码2462-2470，2017年。4, 60[10] J. D. Jackson, A. J. Yezzi, and S. Soatto.通过移动和变形层进行动态形状和外观建模.计算机视觉国际期刊，79（1）：71-84，2008年。20[11] D. Kim, S. Woo, J.-Y. Lee, and I. S. Kweon.深度视频修复.在IEEE计算机视觉和模式识别会议论文集中，页码5792-5801，2019年。2, 5, 60[12] D. Lao and G. Sundaramoorthi.最小延迟移动物体检测. 在IEEE会议论文集中。0在计算机视觉和模式识别的IEEE会议论文集中，页码4250-4259，2017年。20[13] D. Lao and G. Sundaramoorthi.将分层模型扩展到3D运动.在欧洲计算机视觉会议（ECCV）论文集中，页码435-451，2018年。20[14] S. Lee, S. W. Oh, D. Won, and S. J. Kim.深度视频修复的复制和粘贴网络.在IEEE国际计算机视觉会议论文集中，页码4413-4421，2019年。2, 60[15] A. Li, S. Zhao, X. Ma, M. Gong, J. Qi, R. Zhang, D.Tao, and R. Kotagiri.短期和长期上下文聚合网络用于视频修复.arXiv预印本arXiv:2009.05721，2020年。20[16] Y. Li和S. Osher.具有应用于基于PDE的去噪的新中值公式。数学科学通讯，7(3):741-753，2009年。50[17] G. Liu，F. A. Reda，K. J. Shih，T.-C. Wang，A.Tao和B. Catanzaro.使用部分卷积进行不规则孔洞的图像修复。在欧洲计算机视觉会议（ECCV）论文集中，页码85-100，2018年。20[18] A. Newson，A. Almansa，M. Fradet，Y.Gousseau和P. P´erez.复杂场景的视频修复。SIAM图像科学杂志，7(4):1993-2019，2014年。20[19] S. W. Oh，S. Lee，J.-Y. Lee和S. J. Kim.洋葱皮网络用于深度视频补全。在IEEE国际计算机视觉会议论文集中，页码4403-4412，2019年。1, 2, 60[20] K. A. Patwardhan，G. Sapiro和M. Bertalmio.对遮挡和被遮挡对象进行视频修复。在2005年IEEE国际图像处理会议上，卷2，页码II-69。IEEE，2005年。20[21] F. Perazzi，J. Pont-Tuset，B. McWilliams，L. VanGool，M. Gross和A. Sorkine-Hornung.用于视频对象分割的基准数据集和评估方法。在计算机视觉和模式识别中，2016年。2, 50[22] M. Strobel，J. Diebold和D. Cremers.用于视频补全的流和颜色修复。在德国模式识别会议上，页码293-304。Springer，2014年。20[23] D. Sun，E. B. Sudderth和M. J. Black.随时间的分层分割和光流估计。在计算机视觉和模式识别（CVPR）的IEEE会议上，页码1768-1775。IEEE，2012年。20[24] B. Taylor，V. Karasev和S. Soatto.通过遮挡持久性进行因果视频对象分割。146080在计算机视觉和模式识别的IEEE会议论文集中，页码4268-4276，2015年。20[25] D. Tsai，M. Flagg和J. M.Rehg.基于多标签MRF优化的运动一致跟踪。BMVC，2010年。60[26] C. Wang，H. Huang，X. Han和J. Wang.通过共同学习时间结构和空间细节进行视频修复。在AAAI人工智能会议论文集中，卷33，页码5232-5239，2019年。20[27] J. Y. Wang和E. H. Adelson.用层表示移动图像。IEEE图像处理交易，3(5):625-638，1994年。20[28] Y. Wexler，E. Shechtman和M. Irani.时空视频补全。在2004年IEEE计算机学会计算机视觉和模式识别会议上，CVPR2004.，卷1，页码I-I。IEEE，2004年。20[29] R. Xu，X. Li，B. Zhou和C. C. Loy.深度流引导的视频修复。在计算机视觉和模式识别（CVPR）的IEEE会议上，2019年6月。1, 2, 5, 6, 70[30] Y. Yang，B. Lai和S. Soatto.Dystab：通过动态静态引导的无监督对象分割。在IEEE /CVF计算机视觉和模式识别会议论文集中，页码2826-2836，2021年。20[31] Y. Yang，A. Loquercio，D. Scaramuzza和S. Soatto.通过上下文信息分离进行无监督的移

下载后可阅读完整内容，剩余1页未读，立即下载