没有合适的资源?快使用搜索试试~ 我知道了~
通过视频帧插值优化视频预测
178140通过视频帧插值优化视频预测0吴越 温强 陈启峰 香港科技大学0(a) 驾驶场景 (b) 人体运动0(c) 动画 (d) 自然场景0输入� +1 �+30图1.我们的方法可以在各种场景中产生可信的视频预测结果,无需外部训练,例如驾驶场景、人体运动、动画和自然场景。我们用红色箭头表示输入帧的运动。视频结果在补充材料中呈现。0摘要0视频预测是一项外推任务,通过过去的帧预测未来的帧,而视频帧插值是在两帧之间估计中间帧的插值任务。我们目睹了视频帧插值的巨大进展,但是在野外的一般视频预测仍然是一个未解决的问题。受到视频帧插值的照片级结果的启发,我们提出了一种新的视频预测优化框架,通过视频帧插值进行视频预测,在插值模型的基础上解决外推问题。我们的视频预测框架基于预训练的可微分视频帧插值模块进行优化,无需训练数据集,因此训练和测试数据之间没有领域差异问题。此外,我们的方法不需要任何额外的信息,如语义或实例图,使得我们的框架适用于任何视频。广泛的实验0在Cityscapes、KITTI、DAVIS、Middlebury和Vimeo90K数据集上的实验表明,我们的视频预测结果在一般场景中具有鲁棒性,并且我们的方法优于其他需要大量训练数据或额外语义信息的视频预测方法。01. 引言0视频预测是一项外推任务,通过给定一些过去的帧来预测未来的视频帧。视频预测具有广泛的应用,包括机器人规划、自动驾驶和视频处理[6, 23, 39,41]。例如,预测的视频可以帮助自主机器人通过未来的视觉信息更好地规划未来的动作。视频预测也是无条件视频合成的基本任务,可以分解为图像合成和未来视频预测。视频预测是一个具有挑战性的外推问题。178150视频帧插值G 视频帧插值G0� ��� = � �0� − � � 10� �0插值结果 � �+10� � �→>�+10�0� ���� = �0p0∆ � � �+1→� (p) 10� �0Warp0� ����� = � 1 � ��� + � 2 � ���� �� �+1→� : = �� �+1→� − λ �� �����0�� �+1→�0输入帧 � �−1 输入帧 � � 优化目标 � � �+1→� �� �+1→� 预测帧 �� �+10图2. 我们方法的概述。我们通过视频帧插值G[11]来优化光流˜ft+1→t。我们的优化目标是图像级距离Limg和我们预测的光流˜ft+1→t与G生成的光流fGt→t+1之间的一致性约束。0一些研究[18, 20, 22,42]只将RGB帧作为视频预测的输入,并发现视频预测问题难以解决,因为视频预测的固有复杂性和未来状态的不确定性。因此,最近,为了简化问题,已经采用了许多对建模场景的约束和假设。然而,这些假设降低了这些视频预测模型的泛化能力。FVS[45]和Lee等人[15]需要语义地图来分解场景。Bei等人[4]首先预测语义地图,然后合成未来帧。Qi等人[35]需要深度地图来重建3D点云。然而,在一般场景中,这些额外的信息往往很难获得或正确估计。这些强假设限制了这些方法只适用于满足这些假设的数据。例如,无法检测到一些对象(包括未见过的对象)将导致性能下降。当这些额外信息不可用或质量较差时,这些方法的性能下降,并且无法在真实世界的各种视频中应用。0此外,这些外部方法通常需要针对每个特定场景训练一个模型,使它们难以推广到其他场景。例如,将在驾驶场景上训练的视频预测模型应用于人体运动数据集是困难的,因为运动差异很大。0为了解决这些问题,我们提出了一种基于优化的视频预测方法,无需外部训练(训练时不需要外部数据集)。0并且能够产生最先进的结果。我们的观点是,我们可以将视频预测问题视为基于视频帧插值(VFI)的优化问题。受到VFI的最近成功的启发,我们将这两个问题连接起来,以一种新的方式解决视频预测问题。我们的方法不需要任何假设,如语义分割,并且可以应用于任何视频。我们在多个数据集上评估了我们的方法,我们的方法可以超越现有技术。我们的贡献可以总结如下:0•我们提出了第一个视频预测的优化框架。我们将视频预测的外推问题视为基于VFI的优化问题。0•我们的框架非常灵活,不需要任何语义或实例映射,也不需要关于场景的先验知识或外部训练。我们的方法适用于任何场景和任何分辨率的视频预测。0•我们的方法在各种数据集上获得了出色的性能,并且超过了需要额外信息的现有视频预测方法。我们的方法比仅以RGB帧作为输入的外部学习方法有很大的优势。02. 相关工作02.1. 视频预测0早期的研究采用RGB帧作为输入,采用了几种机制来改进视频预测。MCNet [ 42 ]˜x∗t+1 = argmin˜xt+1E(G(xt−1, ˜xt+1), xt),(1)˜xt+1 = warp(xt, ˜ft+1→t).(2)˜f ∗t+1→t = argmin˜ft+1→tE(G(xt−1, warp(xt, ˜ft+1→t)), xt). (3)˜ft+1→t = δ(−ft→t−1).(4)178160将场景分解为内容和运动组件。DVF [ 20 ]提出了深度体素流来合成未来帧。然而,野外视频预测仍然非常困难,因为其固有的高复杂性和不确定性。因此,引入了对场景的显式建模、约束和假设。齐等人 [ 35 ]利用深度图重建3D点云。高等人 [ 7 ]利用语义图来强制布局一致性。FVS [ 45 ]需要语义分割和实例分割将场景分解为背景和前景身份。贝等人 [ 4 ] 和李等人 [ 15 ]也需要语义图。尽管视频预测的性能逐渐提高,但这些方法的泛化能力可能会降低。很难将这些方法应用于没有这些额外注释的数据。此外,当测试数据来自于与训练数据不同的领域时,这些方法可能会受到性能下降的影响。例如,将在机器人场景上训练的模型应用于驾驶场景是困难的,因为这两个领域的运动非常不同。因此,我们提出了一种基于优化的视频预测方法,可以在没有外部训练的情况下产生最先进的结果(因此没有领域差距)。02.2. 视频帧插值0与视频预测问题的挑战相反,VFI最近取得了巨大的成功,这激发了我们的模型设计。VFI旨在在连续输入帧之间插值出中间帧。有三类算法:基于核的 [ 2 , 3 , 29 , 30],基于相位的 [ 24 , 25 ],和基于运动的 [ 2 , 3 , 10 , 13 ,19 , 21 , 27 , 28 , 32 , 33]。这些基于运动的方法使用双向光流将两个连续帧向前和向后扭曲以获得中间帧。我们的方法采用了基于运动的框架。Super SloMo [ 13 ]线性组合双向流作为中间流的初始近似,以进一步细化。Park等人 [ 33 ] 进行了非对称双边运动估计。Sim等人 [ 37 ]首次处理了具有大运动的4K视频的VFI。RIFE [ 11 ]是一种实时插值算法,以粗到精的方式估计中间流。与视频预测中的领域差距问题不同,VFI中的领域约束要少得多。这些方法不需要额外的信息,如语义图和深度图,即使在复杂运动的情况下也能产生出色的插值性能。受到VFI的成功启发,我们将视频预测视为基于VFI的优化问题。02.3. 基于优化的方法0由于基于学习的方法在训练数据和测试数据之间存在域间差异,基于优化的方法在测试数据上仍然具有竞争力。Gatys0et al . [ 8 ]提出了第一个基于优化的神经风格迁移方法。Shaham etal . [ 36 ]在单个图像上优化了一个生成模型,可以从图像中生成高质量和多样化的样本。Lei et al . [ 16 , 17 ]优化了一个网络以提高时间一致性。Mildenhall et al . [ 26]在场景的稀疏输入视图上优化了一个全连接网络,用于新视角合成。这些基于优化的方法启发我们提出了一个框架,不仅解决了域间差异问题,还在优化过程中为用户提供了即时控制。03. 方法03.1. 问题描述0设 x t 为时间步骤 t时的视频帧。我们的框架的输入包括最近的两个RGB帧 x t− 1 和 x t 。我们的目标是预测未来的帧 { ˜ x t +1 , ˜ x t+2 , . . . } 。我们采用预训练的视频插值网络 [ 11 ],记为G 。我们首先关注预测下一帧 ˜ x t +1,因为我们可以逐个顺序地预测未来的帧。在优化过程中,G 的参数保持不变。我们的主要目标是0其中 E是一个衡量图像相似性的目标函数。在这里,我们利用一个VFI网络 G 来约束 x t − 1 , ˜ x t +1 和 x t之间的关系。为了简化优化过程,我们选择优化预测帧 ˜ xt +1 和最后观察帧 x t 之间的光流 ˜ f t +1 → t,而不是直接优化 ˜ x t +1 。 ˜ x t +1 是通过反向变形 [12 ] 计算得到的:0然后,方程 1 可以重写为0光流初始化。为了简化方程 3的优化过程,一个好的做法是从一个产生近似运动的光流 ˜ ft +1 → t 开始。因此,我们利用 f t → t − 1的负光流进行初始化:0我们首先计算 − f t → t − 1 ,作为对 f t − >t +1的粗略近似。然后,我们将 ˜ f t +1 → t 初始化为 − f t →t − 1 的反转。 δ 表示类似于光流反转层 [ 46 ]的操作,将正向光流转换为反向光流(详见补充材料)。然而,直接优化方程 3 仍然很困难,因为对 ˜ f t +1 → t的约束是间接的,优化过程很难收敛。IGt−1= warp(xt−1, f Gt→t−1),(5)IGt+1= warp(˜xt+1, f Gt→t+1),(6)IGt= IGt−1 × mG + IGt+1 × (1 − mG),(7)ϕ(p) =(12)PredNet [22]✓×××MCNET [42]✓×××DVF [20]✓×××Vid2vid [43]✓✓××Qi et al. [35]✓✓×✓Seg2vid [31]✓✓××FVS [45]✓✓✓×HVP [15]✓✓××SADM [4]××1781703.2. 视频帧插值网络0因此,我们提出利用网络 G 的中间结果。给定 x t − 1 和 ˜ x t +1 作为输入, G 生成两个方向的光流 f G t → t −1 , f G t → t +1 ,以及一个掩码 m G 。上标 G表示它是网络 G 的输出。视频插值网络将 x t − 1 和 ˜ x t+1 向时间步骤 t 进行变形:0其中 I G t − 1 是通过使用 f G t → t − 1 对 x t − 1进行变形得到的中间插值帧。 I G t +1 是通过使用 f G t → t+1 对 ˜ x t +1进行变形得到的中间插值帧。最终的插值结果是 I G t − 1 和 IG t − 1 的加权和。我们使用 I G t +1 而不是 I G t ,因为 IG t +1 与 ˜ x t +1 有更密切的关系,并且可以消除 m G的影响。我们使用 I G t +1 和 x t 之间的 L 1 距离:0L img = || I G t +1 − x t || 1 ,(8)0我们还认为 f G t → t +1 和 ˜ f t +1 → t之间存在前后一致性关系。这个约束意味着经过前向和后向传播后,像素应该回到原来的位置:0L cons =0如果 ∆ ˜ f t +1 → t ( p ) > 1,(9)0其中 ∆ ˜ f t +1 → t ( p ) 是从像素位置 p处的前向和后向流检查中获得的差异:0∆ ˜ f t +1 → t ( p ) = p − p ′ + f G t → t +1 ( p′ ) ,(10)0p ′ = p + ˜ f t +1 → t ( p ) ,(11)0我们的总目标函数为 L total = ω 1 L img + ω 2 L cons,其中 ω 1 和 ω 2 是损失权重。03.3. 光流修复0光流中总是存在遮挡区域:一些像素在连续帧中没有对应的像素。遮挡区域中估计的光流是不可靠的。因此,我们设置一个阈值α来屏蔽这些区域,并使用光流修复来填补空洞:0如果 ∆ ˜ f t +1 → t ( p ) >α,则为1,否则为0。0否则为0。0如果 ϕ ( p )为1,则其光流被视为不可靠,并通过邻近有效流值的线性组合进行修复,其权重与无效像素与有效像素之间的距离成反比。0外部学习方法0外部训练 语义实例深度0优化方法0我们的 × × × ×0表1. 与其他视频预测方法在方法需求方面的比较。0我们尝试使用类似Softmax Splatting [ 28]的自适应权重来解决遮挡问题,但发现不适用于我们的框架。详细分析见补充材料。03.4. 实现0多帧预测。对于多帧预测,我们选择逐帧优化下一帧。我们尝试将优化目标设置为多个光流,并同时优化多个未来帧。结果表明,逐帧优化下一帧更加稳定。所有数据集的输入帧长度设置为2。超参数 ω 1 , ω 2 , α经验性地设置为1.0,3.0,1.5。我们采用RAFT [ 40]来估计用于优化目标初始化的光流。使用Adam优化器 [ 14],每个未来帧进行3000次迭代,学习率为0.1。我们采用仅在Vimeo90K [ 47 ]上预训练的VFI方法RIFE [ 11]进行所有实验。在优化过程中,固定RIFE [ 11]的网络权重。04. 实验0我们将我们的方法与表1中的最先进方法进行比较,以方法需求为基准。由于未来视频预测的复杂性,许多最近的方法为视频预测添加了一些额外的假设,例如语义地图 [ 4 , 15 , 31 , 35 , 43 , 45 ],实例地图 [ 45 ]和深度地图 [ 35]。这些假设可能会提高预测性能,但大大降低了它们的泛化能力。此外,这些方法需要一个训练数据集来训练神经网络。然而,我们的方法通过将视频预测问题转化为优化问题来避免这些限制。我们不需要外部训练,也不对数据做任何假设。我们的方法非常通用,并且优于以前的基于外部RGB的方法和使用额外假设的方法 [ 31 , 43 , 45]。关于长期预测的统计分析和更多的视觉比较见补充材料。178180Cityscapes KITTI0MS-SSIM(×1e-2)↑ LPIPS(×1e-2)↓ MS-SSIM(×1e-2)↑ LPIPS(×1e-2)↓ 输入 t+1 t+3 t+5 t+1 t+3 t+5t+1 t+3 t+5 t+1 t+3 t+50外部学习方法0PredNet [22] RGB 84.03 79.25 75.21 25.99 29.99 36.03 56.26 51.47 47.56 55.35 58.66 62.95 MCNET [42] RGB 89.69 78.07 70.58 18.8831.34 37.34 75.35 63.52 55.48 24.05 31.71 37.39 DVF [20] RGB 83.85 76.23 71.11 17.37 24.05 28.79 53.93 46.99 42.62 32.47 37.4341.59 Vid2vid [43] RGB+S. 88.16 80.55 75.13 10.58 15.92 20.14 N/A N/A N/A N/A N/A N/A Seg2vid [31] RGB+S. 88.32 N/A 61.639.69 N/A 25.99 N/A N/A N/A N/A N/A N/A FVS [45] RGB+S.+I. 89.10 81.13 75.68 8.50 12.98 16.50 79.28 67.65 60.77 18.48 24.6130.490优化方法0我们的 无外部训练 94.54 86.89 80.40 6.46 12.50 17.83 82.71 69.50 61.09 12.34 20.29 26.350表2.在Cityscapes和KITTI数据集上与最先进方法的比较。S和I表示该方法需要语义地图或实例地图作为输入。我们的方法在视频预测方面可以大幅超越以前的方法。0图3. 在KITTI上的多帧预测比较。如粉色框所示,DVF[20]未能将蓝色汽车的运动与背景分离,并产生了“放大”效果,这是数据集中主要的运动,由行驶汽车的前进运动引起。FVS[45]错误地预测了蓝色汽车在t+3和t+5时的运动,导致了不正确的帧预测结果。我们的模型可以在没有外部训练的情况下正确捕捉到蓝色汽车的运动。04.1. 在驾驶数据集上的评估0我们首先在具有语义信息的驾驶数据集上评估我们的方法和相关基线,因为一些基线需要额外的语义地图。数据集。Cityscapes[5]和KITTI数据集[9]包含驾驶序列。我们的评估设置遵循[45]。基线。所有基线都是在Cityscapes和KITTI的相应训练集上训练的。我们将基线分为两类。一类是只使用RGB帧作为输入的方法,如PredNet [22],MCNet [42]和DVF[20]。另一类是需要一些额外信息的方法,如语义地图、实例地图,包括Vid2vid [43],Seg2vid [31]和FVS[45]。然而,这些假设限制了这些方法只在有额外上下文时适用。0可访问性差,降低了其潜在的泛化能力。我们使用多尺度结构相似性指数测量(MS-SSIM)[44]和LPIPS[48]作为评估指标。较高的MS-SSIM和较低的LPIPS表示更好的性能。0定量结果。虽然我们的方法没有使用Cityscapes和KITTI的训练集,但我们的方法仍然可以产生出色的结果。如表2所示,我们的方法在短期和长期视频预测方面都可以大幅超越基于RGB的方法。我们的方法在t+1、t+3、t+5的预测中,相对于DVF[20]的MS-SSIM分别提高了12.75%、13.98%、13.06%,LPIPS分别提高了62.81%、48.02%、38.07%。此外,与利用语义或实例分割的方法相比,我们的方法在Cityscapes上的MS-SSIM仍然可以超越FVS [45]的6.11%。178190DAVIS Middlebury Vimeo90K0MS-SSIM(×1e-2)↑ LPIPS(×1e-2)↓ MS-SSIM(×1e-2)↑ LPIPS(×1e-2)↓ MS-SSIM(×1e-2)↑ LPIPS(×1e-2)↓ t+1 t+3 t+1t+3 t+1 t+3 t+1 t+3 t+1 t+10外部学习方法0DVF [20] 68.61 55.47 23.23 34.22 83.98 65.54 13.57 25.70 92.11 7.73 DYAN [18] 78.96 70.41 13.09 21.43 92.96 83.91 7.98 15.03 N/A N/A0优化方法0我们的方法 83.26 73.85 11.40 18.21 94.49 87.96 6.07 10.82 96.75 3.590表3. 在不同数据集上的评估。与DAVIS,Middlebury和Vimeo90K上的最新方法进行比较。0真实值 DVF [20] DYAN [18] 我们0图4. 在DAVIS和Middlebury数据集上的视觉比较。0真实值 DVF [20] 我们0t + 1 t + 1 t + 3 t + 1 t + 30图5. 在Vimeo90K上的多帧预测。由于Vimeo90K包含三元组,我们使用两帧作为输入,因此没有与t + 3对应的真实值。0在KITTI上,t + 1,t + 3,t +5预测的LPIPS分别提高了33.21%,17.55%,13.58%。0短期和长期视频预测。这是因为我们的方法基于来自VFI的强大约束:最近的VFI模型可以产生优秀的插值结果,可以被认为是地面真实。而其他方法使用手工设计的损失函数,这些方法可能会过度拟合训练集中的主要运动,即由前向车辆移动引起的“放大”效果,而不是学习真实的运动。定性结果。在图3中,我们将我们的方法与最近的视频预测方法DVF [20](RGB)和FVS [45](RGB +语义+实例)进行了比较。DVF[20]倾向于被“放大”运动所主导,而不能预测真实的运动,因为驾驶数据集是由前向移动的相机捕获的。FVS[45]使用手工设计的2D仿射变换来近似移动车辆的运动。然而,复杂的运动,包括非刚性变形和3D旋转,无法通过2D仿射变换捕捉到。此外,DVF和FVS依赖于语义和实例分割,当这些假设不成立时,它们的性能会下降。在Cityscapes上的视觉比较见补充材料。178200输入 我们的方法 输入 我们的方法0图6. 在不同数据上的下一帧预测性能。左图是最后观察到的帧,我们用红色箭头表示输入帧的运动。右图是我们方法预测的下一帧。0过度拟合训练集中的主要运动,即由前向车辆移动引起的“放大”效果,而不是学习真实的运动。定性结果。在图3中,我们将我们的方法与最近的视频预测方法DVF[20](RGB)和FVS [45](RGB+语义+实例)进行了比较。DVF[20]倾向于被“放大”运动所主导,而不能预测真实的运动,因为驾驶数据集是由前向移动的相机捕获的。FVS[45]使用手工设计的2D仿射变换来近似移动车辆的运动。然而,复杂的运动,包括非刚性变形和3D旋转,无法通过2D仿射变换捕捉到。此外,DVF和FVS依赖于语义和实例分割,当这些假设不成立时,它们的性能会下降。在Cityscapes上的视觉比较见补充材料。04.2. 在不同数据集上的评估0由于我们的优化框架不需要外部训练,我们的方法可以推广到任何分辨率的任何视频。与此同时,之前在数据集A上训练的外部方法在应用到数据集B时可能会出现性能下降,这是由于A和B之间的域差异引起的。为了证明我们方法的普适性,我们在不同数据集上进行了交叉数据集评估。数据集。我们在多个数据集上评估我们的方法,包括DAVIS[34],Middlebury-Other [1]和Vimeo90K[47]数据集。DAVIS [34]:有30个序列0组件 SSIM ↑ PSNR ↑ LPIPS ↓0零 0.7719 23.79 0.1230 噪声 0.7669 23.64 0.12280无 L img 0.8939 28.86 0.0660 无 L cons 0.873228.43 0.1221 L img 使用MSE 0.8877 28.97 0.1232使用 L interp 0.8963 28.87 0.0693 长期 L img 0.697821.75 0.16570无光流修复 0.8882 28.94 0.11390完整模型 0.8975 29.10 0.06460表4. 剔除研究。0在验证集中,分辨率约为854×480的序列。Middlebury[1]:有10个分辨率约为640×480的视频。Vimeo90K[47]:测试集中有3782个分辨率为448×256的三元组。我们每隔十个剪辑取一个剪辑,形成测试集。基线方法。我们将我们的方法与最新的两种外部方法DVF [20]和DYAN[18]进行比较,这两种方法只接受RGB帧作为输入,因为它们可以应用于这些数据集。其他需要额外假设的方法无法进行比较,因为它们的假设不成立。我们使用它们在UCF101[38]上的预训练模型在这些数据集上测试这两个模型。定量结果。如表3所示,我们的方法在DAVIS上的LPIPS中比DYAN[18]提高了12.90%,在Middlebury上提高了23.97%,在t+ 1,t +3预测中提高了15.0%,28.00%。请注意,我们的方法仍然是than the intermediate output IGt+1 in Eq. 8. Long-term Limg:setting the input frame length as 4 and add a long-term con-straint between xt−3, ˜xt+1 and xt−1. The results show thatthe combination of Limg and Lcons performs best. Limgprovides a more direct constraint than Linterp. Long-termLimg has performance degradation because when the mo-tion is too large, the accuracy of VFI decreases .Flow inpainting. If we remove the optical flow inpaint-ing procedure, then our performance also drops because op-tical flow inpainting effectively corrects invalid flow values.Other pretrained VFI models. We also try utilizing Su-per SloMo [13] as our VFI backbone and find this methodalso works for our framework. For the next frame predic-tion on Cityscapes, the MS-SSIM for Super SloMo [13]and RIFE [11] is 0.9199 and 0.9454.Thus, we chooseRIFE [11] as our VFI backbone.178210在长期预测中具有鲁棒性。在Vimeo90K数据集上,我们的方法在下一帧预测的LPIPS方面比DVF[20]提高了53.56%。虽然这两个基线在UCF-101上可能表现良好,但UCF-101和这些测试视频之间存在领域差异问题。这种领域差异现象通常存在于视频预测任务中,因此大多数视频预测方法[4,18,20,22,31,42,45]通常为每个数据集训练一个单独的模型,甚至为每个数据集采用不同的假设。与此不同的是,VFI任务中的领域差距似乎不是一个问题。VFI方法[11,33]可以使用一个数据集进行训练,并且可以在各种数据集上产生出色的结果。通过VFI提供的强大约束条件,我们的方法没有领域差异问题(无外部训练):每个序列都通过将FVI网络作为约束来独立优化。定性结果。如图4和图5所示,我们的方法产生了比基线更好的预测结果。基线在物体边界周围产生失真伪影或在运动复杂时无法进行预测。与此同时,我们的方法可以稳健地预测未来的帧。由于Vimeo90K数据集只提供了三帧,我们将前两帧作为未来帧预测的输入(只有t +1预测的真实值)。如图5所示,我们的方法可以在长期内产生高质量的预测结果。我们收集了一些来自YouTube的真实视频,例如图6所示的电影片段,以展示我们方法的普适性。我们还在BAIR Pushing [6]和Penn Action[49]数据集上展示了一些视觉结果。我们的方法可以在多样化的数据上产生强大的结果。04.3. 割舍研究0我们进行了割舍研究,以展示每个组件的重要性,如表4所示。我们的割舍研究是在Cityscapes上进行的。我们使用下一帧预测的性能来评估不同的组件。视觉比较结果在补充材料中呈现。初始化。如果我们将优化目标设置为预测帧,则优化无法收敛。因此,我们选择优化光流,这样可以从观察到的帧中复制像素,从而简化优化过程。如果我们将光流初始化为零或高斯噪声,则性能变差。如果我们将光流初始化为f t → t −1的副本,则性能与我们的完整模型相似。这表明良好的初始化有助于优化的收敛。损失函数。我们使用几个变体的损失函数进行实验。没有Limg:仅由L cons 监督。没有L cons:仅由L img 监督。L img使用MSE损失而不是Eq. 8中的L 1 损失。带有L interp:使用VFI I Gt的插值结果而不是Eq. 8中的中间输出 I G t +1。长期Limg:将输入帧长度设置为4,并在 x t − 3, ˜ x t +1和 x t −1之间添加长期约束。结果表明,L img 和L cons 的组合效果最好。Limg 提供了比L interp 更直接的约束。长期L img由于运动过大时VFI的准确性降低而导致性能下降。光流修复。如果我们去除光流修复过程,则性能也会下降,因为光流修复有效地纠正了无效的光流值。其他预训练的VFI模型。我们还尝试将Super SloMo[13]作为我们的VFI骨干,并发现该方法也适用于我们的框架。对于Cityscapes上的下一帧预测,Super SloMo [13]和RIFE[11]的MS-SSIM分别为0.9199和0.9454。因此,我们选择RIFE[11]作为我们的VFI骨干。0图7. 我们的模型在不同的优化迭代中。04.4. 收敛性分析0如图7所示,我们在分辨率为256×512的Cityscapes上进行了收敛性分析. 在前400次迭代中,优化快速收敛.在400次迭代后,预测结果逐渐改善.在3000次迭代后,预测结果仍在缓慢改善.05. 结论0我们提出了第一个将视频预测问题作为基于VFI的优化问题的视频预测优化方法,解决了大多数视频预测方法中的领域差异问题.我们的方法可以胜过最先进的方法,并且可以适应任何分辨率的任何视频.尽管我们的方法缓解了领域差异问题并呈现出令人印象深刻的性能,但与其他外部学习方法相比,通过我们的方法优化每一帧需要更多时间.在补充材料中,我们对模型大小和推理时间进行了与其他方法的比较.正如我们观察到的,我们模型中的大部分运行时间都花在了VFI网络内的梯度传播上[11],这启发我们设计一个更高效的加速骨干网络.178220参考文献0[1] Simon Baker, Daniel Scharstein, J. P. Lewis, Stefan Roth,Michael J. Black和Richard Szeliski.用于光流的数据库和评估方法. 在ICCV, 2007. 70[2] Wenbo Bao, Wei-Sheng Lai, Chao Ma, Xiaoyun Zhang,Zhiyong Gao和Ming-Hsuan Yang. 基于深度的视频帧插值.在CVPR, 2019. 30[3] Wenbo Bao, Wei-Sheng Lai, Xiaoyun Zhang, ZhiyongGao和Ming-Hsuan Yang. MEMC-Net:基于运动估计和运动补偿的神经网络用于视频插值和增强. TPAMI,43(3):933–948, 2021年3月. 30[4] Xinzhu Bei, Yanchao Yang和Stefano Soatto.学习语义感知动力学进行视频预测. 在CVPR, 2021. 2, 3, 4, 80[5] Marius Cordts, Mohamed Omran, Sebastian Ramos, TimoRehfeld, Markus Enzweiler, Rodrigo Benenson, Uwe Franke,Stefan Roth和Bernt Schiele.用于语义城市场景理解的Cityscapes数据集. 在CVPR, 2016. 50[6] Chelsea Finn, Ian Goodfellow和Sergey Levine.通过视频预测实现物理交互的无监督学习. 在NeurIPS, 2016. 1, 80[7] Hang Gao, Huazhe Xu, Qi-Zhi Cai, Ruth Wang, FisherYu和Trevor Darrell. 用于视频预测的传播和生成解耦. 在ICCV,2019. 30[8] Leon A Gatys, Alexander S Ecker和Matthias Bethge.使用卷积神经网络的图像风格转移. 在CVPR, 2016. 30[9] Andreas Geiger, Philip Lenz, Christoph Stiller和RaquelUrtasun. 视觉与机器人技术相结合: KITTI数据集. I. J. RoboticsRes., 2013. 50[10] Shurui Gui, Chaoyue Wang, Qihua Chen和Dacheng Tao.FeatureFlow: 通过结构到纹理生成实现鲁棒的视频插值. 在CVPR,2020. 30[11] Zhewei Huang, Tianyuan Zhang, Wen Heng, BoxinShi和Shuchang Zhou. RIFE: 实时中间流估计用于视频帧插值.arXiv预印本arXiv:2011.06294, 2020. 2, 3, 4, 80[12] Max Jaderberg, Karen Simonyan, Andrew Zisserman等.空间变换网络. NIPS, 2015. 30[13] Huaizu Jiang, Deqing Sun, Varun Jampani, Ming-HsuanYang, Erik G. Learned-Miller和Jan Kautz. Super slomo:高质量估计多个中间帧用于视频插值. 在CVPR, 2018. 3, 80[14] Diederik P Kingma和Jimmy Ba. Adam:一种用于随机优化的方法. 在ICLR, 2015. 40[15] Wonkwang Lee, Whie Jung, Han Zhang, Ting Chen, JingYu Koh, Thomas E. Huang, Hyungsuk Yoon, HonglakLee和Seunghoon Hong.重新审视用于持久长期视频预测的分层方法. 在ICLR, 2021. 2, 3, 40[16] Chenyang Lei,Yazhou Xing和QifengChen。通过深度视频先验实现盲视频时间一致性。在NeurIPS,2020年。30[17] Chenyang Lei,Yazhou Xing,Hao Ouyang和QifengChen。用于视频一致性和传播的深度视频先验。TPAMI,year =To Appear。30[18] Wenqian Liu,Abhishek Sharma,Octavia Camps和MarioSznaier。Dyan:一种基于动态原子的视频预测网络。在ECCV,2018年。2,6,7,80[19] Yu-Lun Liu,Yi-Tung Liao,Yen-Yu Lin和Yung-YuChuang。使用循环帧生成的深度视频帧插值。在AAAI,2019年。30[20] Ziwei Liu,Raymond Yeh,Yiming Liu,Xiaoou Tang和AseemAgarwala。使用深度体素流进行视频帧合成。在ICCV,2017年。2,3,4,5,6,7,80[21] Ziwei Liu,Raymond A Yeh,Xiaoou Tang,YimingLiu和AseemAgarwala。使用深度体素流进行视频帧合成。在ICCV,2017年。30[22] William Lotter,Gabriel Kreiman和DavidCox。用于视频预测和无监督学习的深度预测编码网络。在ICLR,2017年。2,4,5,80[23] Pauline Luc,Natalia Neverova,Camille Couprie,JacobVer- beek和YannLeCun。预测语义分割的未来更深入。在ICCV,2017年。10[24] Simone Meyer,Abdelaziz Djelouah,BrianMcWilliams,Alexander Sorkine-H
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功