没有合适的资源?快使用搜索试试~ 我知道了~
210540细节中的魔鬼:视频修复的诊断评估基准0Ryan Szeto和Jason J.Corso密歇根大学0{sztor, jjcorso}@umich.edu0摘要0近期视频修复工作中的定量评估大大增加,但用于评估性能的视频和掩码内容却受到相对较少的关注。尽管相机和背景场景的运动等属性本质上改变了任务的难度,并对方法产生不同的影响,但现有的评估方案未能对其进行控制,因此对修复失败模式提供了最少的洞察力。为了填补这一空白,我们提出了风景视频修复的诊断评估基准(DEVIL),它包括两个贡献:(一)一个根据几个关键修复失败模式标记的视频和掩码的新数据集;(二)一种评估方案,该方案根据固定内容属性对数据集进行切片采样,并根据重建、真实性和时间一致性质量对每个切片的性能进行评分。通过揭示输入内容特定特征引起的性能系统性变化,我们的挑战性基准使得对视频修复方法进行更深入的分析成为可能,并成为该领域的宝贵诊断工具。我们的代码和数据可在github.com/MichiganCOG/devil上获得。01. 引言0视频修复,即在视频中填充缺失像素的任务,推动了现代视频编辑技术的发展,并为电影和社交媒体等领域提供了令人瞩目的应用,如去除水印和前景物体[1,29]。与图像修复相比,视频修复更具挑战性,因为它具有额外的时间维度,这不仅增加了解空间的复杂性,还对高质量预测的要求增加了额外的约束 -特别是,预测在空间结构和运动方面必须是连贯的。尽管任务的难度很大,但由于问题受到的关注越来越多,现代结果已经变得非常令人信服。0最近收到的视频修复工作[4, 9, 16, 20, 25, 28, 30,31]中,定量评估大大增加;然而,现有的评估方案未能充分强调用于评估性能的视频和掩码的重要性。通常,视频修复被视为一种重建问题:通过从视频中遮挡任意区域(即“损坏”)并评估模型恢复被遮挡值的能力来量化性能[4, 18,28]。然而,重建的难度取决于掩码的形状和运动,以及“未损坏”视频中存在的内容。例如,给定一个静态掩码,修复固定摄像机拍摄的视频要比修复移动摄像机拍摄的视频更困难。在前一种情况下,掩码下方的区域从未可见,因此模型需要“凭空想象”其外观;而在后一种情况下,模型可以从其他帧中传递外观信息,这是许多视频修复方法的核心策略。视频修复的难度与被修复的视频和掩码的内容密切相关;基于这一原则,我们提倡更加注重内容信息的诊断评估,这有助于识别现代修复方法的优点和缺点,并改进剖析分析。迄今为止,用于评估的视频在这方面被低估,它们来自于其他任务的数据集(例如面部分析[22, 23]和物体定位[21,27]),而不是被选择为重要的修复场景。特别是,它们包含了对于原始任务来说是必要的偏见,但却妨碍了对于视频修复的细粒度分析。例如,物体定位视频始终包含突出的、移动的前景物体;因此,标准的修复评估方案不可避免地低估了无前景物体的视频的性能。此外,其他类型的运动,如相机和背景场景的运动,明显影响视频修复的性能,但在标准数据集中没有进行控制。在这项工作中,我们提出了风景视频修复的诊断评估基准(DEVIL)。它bgsm-l bgsm-hcm-l cm-hbgsm-l bgsm-hcm-l cm-hbgsm-l bgsm-hcm-l cm-hbgsm-l bgsm-hcm-l cm-hbgsm-l bgsm-hcm-l cm-hfgd-l fgd-hfgpm-l fgpm-hfgs-l fgs-hfgd-l fgd-hfgpm-l fgpm-hfgs-l fgs-hfgd-l fgd-hfgpm-l fgpm-hfgs-l fgs-hfgd-l fgd-hfgpm-l fgpm-hfgs-l fgs-hfgd-l fgd-hfgpm-l fgpm-hfgs-l fgs-hBG scenemotion(bgsm-*)Low (*-l)High (*-h)Cameramotion(cm-*)FG dis-placement(fgd-*)FG posemotion(fgpm-*)FG size(fgs-*)is composed of two parts—the DEVIL dataset and theDEVIL evaluation scheme—which combine to enable afiner-grained analysis than has been possible in prior work.Such granularity is achieved through content attributes, i.e.,properties of source videos or masks that characterize keyfailure modes by affecting how easily video inpainting mod-els can borrow appearance information from nearby frames.Specifically, the DEVIL dataset contains source videos la-beled with low/high camera and background scene motionattributes, and occlusion masks labeled with low/high fore-ground displacement, pose motion, and size attributes (Fig-ure 1).Meanwhile, the DEVIL evaluation scheme con-structs several slices of the DEVIL dataset—sets of video-mask pairs in which exactly one content attribute is keptfixed—and summarizes inpainting quality through metricsthat capture reconstruction performance, realism, and tem-poral consistency (Section 5.2).By controlling for con-tent attributes and summarizing inpainting quality per at-tribute across several metrics, our DEVIL benchmark pro-vides valuable insight into the failure modes of a given in-painting model and how mistakes manifest in the output.We use our novel benchmark to analyze the strengthsand weaknesses of seven state-of-the-art video inpaintingmethods.By quantifying their inpainting quality on tenDEVIL dataset slices under five evaluation metrics, we pro-vide the most comprehensive and fine-grained evaluation ofmodern video inpainting methods to our knowledge. Ourhead-to-head, multi-faceted comparisons allow us to drawseveral important conclusions. For example, we show thatvideo inpainting methods in which time and optical floware carefully modeled consistently achieve the best perfor-mance across several types of input data. We also show thatthe relative rankings between methods are highly sensitive210550(a) DEVIL内容属性 (b) 带注释的DEVIL数据集0图1:我们的DEVIL数据集的视觉概述。 (a)表征我们数据集的内容属性,并用于创建用于评估的数据集切片(即具有固定属性的视频-掩膜对集合)。我们为展示这些属性设置超过一定阈值的视频标记低/高背景场景运动或摄像机运动(第4.2节)。对于遮挡掩膜,我们构建捕捉所需属性设置的采样参数,并使用它们来渲染掩膜(第4.3节)。 (b)我们数据集中的视频、掩膜和注释。给定的视频或掩膜可能具有多个属性标签或没有标签;同一属性的标签是互斥的(例如,掩膜不能同时具有低和高的前景位移)。0对于度量标准以及源视频和掩膜内容,突出了全面评估的必要性。最后,我们表明,控制源视频和掩膜属性可以揭示有洞察力的故障模式,这些故障模式可以追溯到所讨论的修复方法的设计。我们全面的诊断基准测试能够提供有洞察力的分析,并成为视频修复研究的宝贵工具。总结起来,我们提供以下贡献:•我们向我们所知道的第一个专门为视频修复设计的诊断数据集,其中包括代表多种修复故障模式的基于内容的属性的注释;•我们引入了一种新颖而全面的评估方案,涵盖了十个数据集切片和五个视频修复质量评估指标;•我们在我们的基准测试中分析了七种最先进的算法,提供了迄今为止对视频修复方法最全面的定量评估;和•我们确定了视频修复方法中的系统性错误,并强调了未来工作的方向。我们的基准测试可在https://github.com/MichiganCOG/devil上获得。02. 相关工作02.1. 方法0大多数视频修复算法从视频的已知部分借用视觉外观信息来填充未知部分。例如,基于对齐的方法计算相邻帧之间的局部或全局对齐,并在对齐位置传播像素。210560(对齐可以通过经典特征对应[7,10]或深度神经网络[18,20,30]找到)。基于补丁借用的方法将视频视为时空张量,并将已知区域的立方体或体素迭代地粘贴到未知区域,以最大化全局一致性。[11,19,26]。流引导方法沿着连续帧之间估计的光流传播视觉信息,其中未知区域的光流基于已知区域进行迭代或分层计算,以提高性能[9,14,16,28]。尽管某些方法没有利用显式的外观借用,例如自动编码器方法[4,5,25,31],但我们使用其普遍性来指导我们的实验设计。具体而言,我们控制影响从其他帧借用相关外观信息的难度的基于内容的属性,这可以通过我们的多样化数据和全面的注释实现。02.2. 数据集0早期视频修复工作中使用的源视频数据集较小,并围绕定性分析进行[11,19,26];因此,很难在各种场景下比较早期方法的性能。最近的视频修复方法改为使用大规模数据集,这些数据集的结构范围从对齐的人脸视频[22]和驾驶视频[6]到来自互联网的无约束视频[21,27],以实现更全面的分析。前景对象分割数据集DAVIS[21]和YouTube-VOS[27]因其注释可用于从视频中移除对象而变得特别受欢迎。与大多数先前的工作不同,我们专门为修复任务收集新颖的视频,强调影响视频修复模型能够在帧之间传递外观信息的属性。我们还使用背景场景的视频而不是带有前景对象的视频,这使我们能够分离与前景运动无关的故障模式。在遮挡掩码方面,常用的是静态矩形[25,28]或来自其他视频的前景遮罩[16,18,20,31]。还探索了程序化遮罩生成;例如,Chang等人[4,5]在画布上渲染了几笔,每笔都有几个控制点,这些点具有一定的概率随机移动。我们通过添加物理约束来扩展他们的工作,以更好地控制遮罩的大小和运动。此外,我们根据直接影响视频修复模型能够在帧之间传递外观信息的属性选择遮罩采样参数。03. DEVIL基准概述0在介绍DEVIL视频修复基准之前,我们首先定义任务本身。让V∈{0,...,255}H×W×3×T是一个输入的RGB视频,其中T0帧和分辨率为W×H。V包含一个占位值,用于表示缺失的体素(例如0),其位置由输入遮挡掩码M∈{0,1}H×W×T指示。视频修复旨在生成V的修复版本V�,具有以下特点:•重建性能:V�是Vgt的忠实重建,在V是从某个未损坏的真实源视频V gt派生的“损坏”视频的情况下。•真实性:V�与真实视频无法区分。•时间一致性:V�显示出最小的时间闪烁伪影。这些标准在第5.2节中更严格地定义。我们的DEVIL基准是一组旨在提供对视频修复方法及其在各种输入数据上的行为的详细理解的工具。我们的基准有两个主要组成部分:(i)DEVIL数据集,其中包含经过特殊策划、渲染和注释的源视频和遮挡掩码,以识别视频修复中特定的故障模式;(ii)DEVIL评估方案,它在DEVIL数据集的几个“切片”上报告一组基于质量的指标,每个切片代表一个特定的故障模式。DEVIL数据集通过五个视频级内容属性捕捉内容复杂性,即影响给定视频-遮挡对修复难度的属性,通过影响从附近帧获取外观信息的相关性和可用性。具体而言,它包含具有低和高相机和背景(BG)场景运动的源视频,以及具有低和高前景(FG)位移、姿态运动和大小的遮挡掩码(图1a)。此外,视频和遮挡还用这些属性及其设置(低或高)进行了注释,以实现针对其存在进行有针对性的评估。第4节严格定义了这些属性,并描述了我们收集视频、遮挡和属性注释的过程。与此同时,我们的DEVIL评估方案在我们的数据集的多个“切片”上衡量修复质量,即由某个属性设置特征化的视频-遮挡对集合。在每个切片中,固定一个数据集属性,而其他属性自由变化。通过在多个切片和指标上测量修复质量,我们的基准提供了有关模型何时以及如何失败的有价值的信息。在第5节中,我们详细描述了我们的DEVIL数据集切片和评估指标。04. DEVIL数据集04.1. 收集DEVIL的源视频01 术语“前景”(FG)来自于前景对象去除应用。thus, it is useful to evaluate on videos of background sceneswithout foreground objects, where the complete ground-truth background appearance is known (and foreground be-havior can be controlled explicitly via occlusion masks).Data from other video understanding tasks do not satisfythis criterion, since they generally feature foreground ob-jects which ground the original task. This is especially truefor the two most popular datasets used in video inpaint-ing work, DAVIS [21] and YouTube-VOS [27], which wereoriginally collected for foreground object segmentation.For this reason,we collect our own videos ofbackground-only scenes, similar to Zhang et al. [31]. Inparticular, we target scenic landscape videos in which peo-ple have filmed natural outdoor locations from both casualand cinematic viewpoints. Because the primary subject ofthese videos is the background, they are substantially lesslikely to contain prominent foreground objects, and are thusgood targets for curating our source video collection.To collect scenic landscape videos, we first searchFlickr [15] using the query term “scenic”, and retain videosfrom a fixed set of users who have primarily uploaded high-quality, non-post-processed content between 2017-2019.Then, we apply a combination of automated and manualfiltering to remove videos with foreground objects or shottransitions. Finally, we split the filtered videos into clipscontaining between 45-90 frames, constituting a total of1,250 clips (examples are shown in Figure 1). Additionaldetails are provided in the supplementary materials.2105704.2. 注释DEVIL源视频属性0对于我们的DEVIL源视频,我们注释了两种类型的内容属性:相机运动和背景场景运动(图1a)。相机运动包括由相机的姿态相对于场景的变化引起的帧与帧之间的差异(即相机外参);背景场景运动是指由场景本身的变化引起的帧与帧之间的差异,例如奔跑的水体或因强风而摇摆的树木(即物体检测意义上的“物体”类之间的运动[8])。我们选择这些属性有两个原因。首先,它们代表了两种具有不同低级特征的复杂运动源,视频修复模型必须很好地复制这些运动源以产生令人信服的预测。其次,它们通过影响帧间外观信息的相似性和相关性来影响视频修复模型。例如,高相机运动可以揭示或遮挡场景的某些部分,或者由于透视关系而改变场景的外观;高背景场景运动不断改变纹理的逐帧外观。这些属性很难仅基于RGB视频帧来具体量化;然而,通过视觉检查和代理估计,可以区分出低运动和高运动的极端示例。因此,对于给定的属性,0我们将视频标记为低运动或高运动,但只针对极端情况下的一小部分视频进行标记(未标记给定属性的视频仍可能出现在不控制该属性的片段中)。这不仅减少了标签的歧义性,还放大了由于在低和高设置之间改变给定属性而引起的性能差异,从而突出了故障模式。为了注释相机运动,我们使用经典的仿射对齐技术,并通过变形引入的无效像素量来衡量相机运动的程度;然后我们在两侧对结果进行阈值处理,产生低运动和高运动标签。至于背景场景运动,我们根据视野中包含大量流动水体的百分比手动分配低运动和高运动标签。更多细节请参见补充材料。04.3. DEVIL掩码和属性0对于遮挡掩码,我们考虑三个属性,这些属性影响附近帧中相关外观信息的可用性(图1a):•前景位移:掩码的质心随时间在视野中的移动程度;•前景姿态运动:掩码的形状随时间在视野中的变化程度(与质心的位移无关);•前景大小:每帧被掩码占据的平均像素数。具有高前景位移或姿态运动的掩码随时间逐渐显示场景的互补部分,而前景大小明确决定了可以依赖的外观信息量。为了生成具有低和高属性设置的掩码,我们根据Chang等人的程序化斑点生成策略进行调整。具体来说,我们调整他们的笔画宽度、速度和随机性参数,以对应于低或高的前景位移、姿态运动和大小。有关掩码生成过程的更多细节,包括我们扩展的细粒度控制单个斑点的方法,请参阅补充材料。05. DEVIL评估05.1. DEVIL数据集的切片0在DEVIL数据集上进行评估的朴素方法是随机选择一组测试集,其中包括配对的源视频和遮挡掩码,而不考虑它们的属性;然而,这对于了解导致给定方法预测错误的故障模式提供了很少的见解。相反,我们逐个控制每个属性,以分离其对预测的影响。具体而言,对于每个属性设置,我们构建DEVIL数据集的切片,即预先确定的视频-掩码对集合,其中给定属性被固定为低或高,其他属性不受控制。通过报告6. Experiments210580(a)真实值0(b)VINet0(c)CPNet0图2:如果重建或真实性性能低(如VINet和CPNet的结果所示),高时间一致性可能表明过度模糊的预测。待修复区域在(a)中用黄色轮廓标出。0通过分别对每个切片进行性能评估,我们的基准测试可以更细粒度地突出故障模式。我们按照以下方式构建DEVIL数据集的切片。给定所需的属性设置(例如低相机运动),我们随机选择150个具有该设置的源视频或掩码(请记住,属性仅适用于源视频或掩码模态之一)。然后,在另一模态中,我们从所有可用的DEVIL实例中随机选择150个实例(例如,对于低相机运动切片,我们随机选择所有渲染的DEVIL掩码)。最后,我们将选定的源视频和掩码配对在一起。05.2. 评估指标0我们评估合成修复结果(即已知区域被合成到修复预测中)。输入被调整为832×480的分辨率;对于无法处理此分辨率的方法,我们对源视频和掩码都进行镜像填充,运行方法后,从结果中裁剪出填充区域以保持公平。我们根据本节剩余部分所述的三个修复质量指标来量化性能,包括重建、真实性和时间一致性。0重建捕捉视频修复方法在给定参考视频中(即没有遮挡掩码的版本)预测原始内容的程度。我们报告两个重建指标:使用预训练的AlexNet骨干网络[17]的学习感知图像块相似度(LPIPS)指标[32],以及我们自己的基于视频的变体,称为感知视频剪辑相似度(PVCS)指标,使用预训练的I3D骨干网络[3]。这些指标测量深度神经网络相应特征之间的距离。LPIPS在参考视频和修复后的视频的相应帧之间计算,而PVCS在滑动窗口中的相应10帧剪辑之间计算。06. 实验0时间一致性衡量了闪烁伪影的扩散程度,即场景中相应点的颜色在连续帧之间的变化程度。我们从Gupta等人的工作中采用了补丁一致性度量,记为PCons:对于每一帧,我们提取遮挡掩码中心的50×50补丁,在下一帧中计算该补丁与相邻补丁之间的最大峰值信噪比(PSNR),并对所有帧的结果求平均。需要注意的是,更强的时间一致性并不总是理想的:低质量的预测结果,如恒定颜色或模糊的修复结果,可能会产生较高的时间一致性分数(见图2)。0为了展示我们的DEVIL基准的实用性,我们使用原始作者提供的公开代码、模型权重和默认运行参数,分析了七种代表性的最新视频修复方法的性能:0•光流和颜色的联合优化(JointOpt)[14]:在优化光流估计和沿光流找到合适的补丁之间交替进行。在我们的方法中,这是唯一一个非深度学习的方法。 • VINet[16]:通过光流将中间特征空间上的特征进行空间变换来递归地预测下一帧。 •深度流补全网络(DFCNet)[28]:预测视频的光流,然后沿着光流传播已知值来修复缺失区域。 •复制粘贴网络(CPNet)[18]:使用任务驱动的深度神经网络估计帧之间的仿射变换,然后通过注意力在对齐的帧之间复制特征。 •洋葱剥皮网络(OPN)[20]:通过关注已知区域中的相关位置,迭代地修复当前缺失区域的外部。 •时空变换网络(STTN)[30]:使用Transformer[24]解码整个视频中的多尺度补丁来修复缺失区域。 •光流边缘引导视频修复(FGVC)[9]:210590低FG位移 高LPIPS ▼ PVCS ▼ FID ▼ VFID ▼ PCons ▲ 方法 LPIPS ▼ PVCS ▼ FID ▼ VFID ▼ PCons ▲ 0.00504 0.1910 7.73 0.0513 36.96 JointOpt0.00206 0.0995 1.71 0.0197 36.07 0.00643 0.3053 21.68 0.1064 47.92 VINet 0.00370 0.2258 8.29 0.0648 44.39 0.00479 0.1822 7.29 0.0507 55.81DFCNet 0.00190 0.1028 2.08 0.0241 56.35 0.00419 0.2254 12.72 0.0740 42.36 CPNet 0.00236 0.1462 4.85 0.0367 40.33 0.00379 0.1887 7.29 0.046635.14 OPN 0.00253 0.1474 3.46 0.0305 34.60 0.00411 0.2265 8.18 0.0660 39.90 STTN 0.00293 0.1602 3.68 0.0390 38.39 0.00465 0.1914 9.17 0.049537.02 FGVC 0.00200 0.0986 1.89 0.0182 38.15 0.00471 0.2158 10.58 0.0635 42.16 平均值 0.00250 0.1401 3.71 0.0333 41.180低FG姿态运动 高LPIPS ▼ PVCS ▼ FID ▼ VFID ▼ PCons ▲ 方法 LPIPS ▼ PVCS ▼ FID ▼ VFID ▼ PCons ▲ 0.00401 0.1643 5.79 0.0419 36.84 JointOpt0.00296 0.1266 3.85 0.0282 36.56 0.00618 0.2869 17.00 0.0956 46.40 VINet 0.00435 0.2456 10.51 0.0730 46.03 0.00354 0.1604 5.06 0.0430 54.07DFCNet 0.00294 0.1237 3.38 0.0305 55.17 0.00383 0.2060 10.34 0.0655 41.60 CPNet 0.00323 0.1681 6.33 0.0481 41.16 0.00319 0.1794 6.01 0.043335.18 OPN 0.00289 0.1606 3.68 0.0367 34.54 0.00395 0.2101 6.96 0.0575 39.80 STTN 0.00328 0.1809 4.77 0.0481 39.14 0.00391 0.1634 6.03 0.039237.58 FGVC 0.00290 0.1261 4.39 0.0259 37.75 0.00409 0.1958 8.17 0.0551 41.64 平均值 0.00322 0.1617 5.27 0.0415 41.480低前景大小 高LPIPS ▼ PVCS ▼ FID ▼ VFID ▼ PCons ▲ 方法 LPIPS ▼ PVCS ▼ FID ▼ VFID ▼ PCons ▲ 0.00078 0.0495 1.99 0.0102 36.18 JointOpt0.00591 0.2324 7.30 0.0530 37.19 0.00118 0.1094 6.31 0.0288 43.81 VINet 0.00839 0.4312 23.63 0.1488 50.07 0.00069 0.0519 0.93 0.0119 53.80DFCNet 0.00556 0.2240 7.71 0.0627 57.80 0.00073 0.0680 2.35 0.0155 39.17 CPNet 0.00679 0.3048 13.21 0.0969 43.91 0.00084 0.0563 0.95 0.011934.30 OPN 0.00571 0.2874 8.71 0.0708 35.09 0.00113 0.0786 2.02 0.0194 38.24 STTN 0.00645 0.3149 10.89 0.0911 41.12 0.00087 0.0528 1.66 0.011937.89 FGVC 0.00543 0.2322 9.76 0.0564 38.26 0.00089 0.0666 2.32 0.0157 40.48 平均 0.00632 0.2896 11.60 0.0828 43.350低背景场景运动 高LPIPS ▼ PVCS ▼ FID ▼ VFID ▼ PCons ▲ 方法 LPIPS ▼ PVCS ▼ FID ▼ VFID ▼ PCons ▲ 0.00247 0.1199 3.70 0.0257 39.36 JointOpt0.00512 0.1680 3.89 0.0333 34.91 0.00434 0.2549 13.01 0.0791 47.87 VINet 0.00543 0.2793 14.39 0.0796 47.02 0.00275 0.1381 5.97 0.0387 54.00DFCNet 0.00362 0.1620 3.40 0.0398 40.00 0.00279 0.1691 6.57 0.0499 43.38 CPNet 0.00398 0.2070 5.24 0.0591 41.48 0.00254 0.1587 4.90 0.039736.67 OPN 0.00367 0.1819 4.27 0.0349 33.55 0.00299 0.1873 6.60 0.0569 40.82 STTN 0.00447 0.2030 4.15 0.0438 38.78 0.00314 0.1347 7.70 0.037039.16 FGVC 0.00376 0.1697 4.57 0.0356 36.50 0.00300 0.1661 6.92 0.0467 43.04 平均 0.00429 0.1958 5.70 0.0466 38.890低相机运动 高LPIPS ▼ PVCS ▼ FID ▼ VFID ▼ PCons ▲ 方法 LPIPS ▼ PVCS ▼ FID ▼ VFID ▼ PCons ▲ 0.00269 0.1311 3.03 0.0253 39.39 JointOpt0.00275 0.1319 2.36 0.0220 33.84 0.00610 0.2909 17.87 0.0863 48.39 VINet 0.00467 0.2417 10.44 0.0613 44.00 0.00254 0.1169 3.58 0.0224 55.22DFCNet 0.00352 0.1353 3.34 0.0293 45.13 0.00344 0.1585 5.25 0.0339 44.04 CPNet 0.00496 0.2227 7.21 0.0697 39.56 0.00357 0.1749 3.64 0.034034.81 OPN 0.00327 0.1679 4.60 0.0332 32.35 0.00349 0.1521 4.34 0.0280 41.95 STTN 0.00529 0.2410 8.95 0.0783 36.38 0.00284 0.1378 6.28 0.025842.65 FGVC 0.00312 0.1239 3.05 0.0206 34.61 0.00352 0.1660 6.28 0.0365 43.78 平均 0.00394 0.1806 5.71 0.0449 37.980表1:每种修复方法在每个DEVIL切片上的性能和评估指标。粗体表示最佳方法;▼和▲表示较低或较高更好。0图3:所有DEVIL切片上每种方法的平均性能。误差线显示十个切片的标准误差。0通过利用非相邻帧之间的光流并使用边缘信息来解决分段平滑的光流预测,扩展了DFCNet [28]。06.1. 综合分析0在表1中,我们报告了所有评估方法在每个DEVIL切片上的性能;在图3中,我们比较了它们在所有切片上的平均性能。我们观察到,JointOpt、DFCNet和FGVC在重建指标LPIPS/PVCS和逼真度指标FID/VFID方面始终优于其他方法或在一个标准误差范围内表现相当。它们在推理过程中都明确解决了修复视频的光流问题,这表明计算任务驱动的光流是产生最高质量视频修复结果的关键因素。此外,JointOpt在最近的基于深度学习的解决方案中仍然具有竞争力,这表明模型具有很高的能力。0通过将传统子程序(例如PatchMatch[2])调整为深度学习,可以改进模型。三个中间层方法(OPN、STTN和CPNet)在不同的时间步骤之间借用中间特征,但不使用时间作为有序结构。与此同时,VINet通过循环单元对时间进行建模,但在评估的方法中,它的时间感受野最短,无法将来自未来时间步骤的信息传播到整个视频。这些结果表明,将时间建模为具有长程依赖的适当有序结构可以极大地提高修复质量。在时间一致性方面,DFCNet在相邻帧的预测光流图上直接传播像素值,因此达到了最高的PCons。有趣的是,尽管JointOpt和FGVC也沿着光流传播值,但它们的PCons较低,可能是因为它们能够从非相邻帧传递候选值。LPIPSVFIDPVCSFID210600图4:根据模型性能的平均值比较DEVIL切片的难度(数值越低越好;误差线显示七个模型的标准误差)。测试时给定的内容类型,特别是遮罩内容,极大地影响了任务的难度。0低 高 低 高 OPN DFCNet DFCNet JointOpt STTN FGVCJointOpt FGVC CPNet JointOpt FGVC OPN FGVC CPNetCPNet DFCNet DFCNet OPN STTN VINet JointOpt STTNOPN CPNet VINet VINet VINet STTN 低 高 低 高 OPN FGVCDFCNet FGVC FGVC JointOpt JointOpt JointOpt DFCNetDFCNet FGVC DFCNet JointOpt OPN STTN OPN STTNCPNet CPNet VINet CPNet STTN OPN CPNet VINet VINetVINet STTN0LPIPS0VFID0相机运动 FG位移0表2:根据三个变量(度量标准LPIPS/VFID、属性FG位移/相机运动以及属性的设置低/高)按性能从最好到最差排序的方法。最强的方法(用粗体突出显示)依赖于这三个变量,表明没有一种方法能够主导我们具有挑战性的基准。0VINet和CPNet在牺牲适当的纹理或运动的低质量预测的情况下实现了高时序一致性(图2);这两个模型的行为表明,当重建和真实性性能也很高时,时序一致性才具有最有意义的意义。0DEVIL属性难度:我们现在分析DEVIL属性如何影响整体修复难度,以突出它们在视频修复评估中的实用性。在图4中,我们通过计算对应测试切片上所有方法的平均PVCS来比较每个DEVIL属性设置的难度。遮罩属性对视频修复的难度有着重要影响;特别是较大的前景位移和姿态运动,以及较小的前景大小,会导致更好的性能。这些趋势是有道理的-当遮罩较小且随时间移动较多时,其他帧中可用的相关外观信息更多。相比之下,相机和背景场景运动的整体影响较小,因为每种方法对这些属性的敏感性不同(请参见第6.2节)。
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功