没有合适的资源?快使用搜索试试~ 我知道了~
2071×××FLAVR:用于快速帧内插的流无关视频表示塔伦·戈伊*UCSDDeepakPathakCMU曼莫汉·钱德拉克Du TranMeta AIhttps://tarun005.github.io/FLAVR/摘要视频帧插值大多数现代帧内插方法依赖于相邻帧之间的显式双向光流,因此对处理遮挡时的底层流估计的准确性敏感,同时还引入了不适合有效部署的计算瓶颈。低fps动作识别Flavr下游任务光流估计高fps对象分割是的。在这项工作中,我们提出了一种无流的方法,是完全端到端可训练的多帧视频插值。我们的方法,FLAVR,利用3D时空内核直接学习运动属性从未标记的视频,并大大简化了训练,测试和部署帧插值模型的过程因此,FLAVR提供高达6速度相比,当前多帧插值的最新方法,同时在Vimeo-90 K,Adobe-240 FPS和GoPro等流行基准上最后,我们通过演示FLAVR的各种新应用(包括动作识别、光流估计和视频对象跟踪),证明了帧插值是视频的一种有竞争力的自监督预训练任务。补充材料中提供了代码和训练模型。1. 介绍视频帧内插[2,9,26,29,35,39,44,45,47,77]旨在在视频中生成与视频的其余部分在空间和时间上一致的现有帧之间的不存在的中间帧,在克服商业摄像机的有限采集帧速率和传统上,帧内插一直被视为一个主要的图形问题,其中的方法是复杂的和硬编码。大量的现有作品使用流扭曲进行帧插值[22,26,45,77],其中输入帧用于从预先训练的流预测网络估计(通常是双向的)光流图,可能是*TK在Meta AI实习期间完成的工作图1:我们的贡献我们提出了FLAVR,一种简单高效的单次多帧插值架构。准确度(PSNR)与FLAVR的推理速度(fps)与GoPro 8x插值的当前方法相比,具有512 512输入图像。FLAVR比目前最准确的方法(QVI)快6倍,比目前最快的方法(SepConv)快2倍,同时保持相同的质量。FLAVR对于各种下游应用程序来说也是一个有用的自监督借口任务以及其他信息,如单目深度图[2]和遮挡掩模[3]。然后,通过使用向后[2,26]或向前扭曲[44,45]对中间时间步长处的帧进行插值。然而,这些基于光流的方法以及提出的替代方案[7,22,29,46,47,52]通常面临以下限制中的至少一个计算成本:由于它们主要依赖于光流和像素级扭曲过程,因此它们在训练和推理方面的效率较低,这使得它们不太适合最终应用。例如,QVI [76],DAIN [2]和BMBC [50]以秒为单位生成用于8插值的帧(图1)。1)同时要求用户部署自定义CUDA内核,禁止跨边缘设备无缝部署。2. 建模复杂轨迹:建模能力仅限于考虑线性[2,26]或二次[8,76]运动轨迹,并且使用现有方法扩展这些以考虑更复杂的运动是不平凡3. 表示不灵活:通过接受预先计算的光流作为输入,许多方法只专注于学习空间扭曲和插值,因此在此过程中学习的表示无法转移到帧插值之外的任务。在这项工作中,我们的目标是实现视频插值的视觉质量和推理速度之间的良好权衡我们假设,强大的视频表示是至关重要的成功帧内插,并提出FLAVR更快更慢踢足球不太准确更准确2072−×××(流-一个诺斯替视频再现网络)来共同解决所有上述需求。FLAVR利用时空内核进行运动建模,并且被设计为在单个前向通道中直接预测多个中间帧, FLAVR是基于流的帧内插方法的一种简单且可扩展的替代方法,与现有方法相比,该方法显著提高了训练、部署和推断速度的容易性(图1)。1,3a),同时实现最先进的插值精度(表1)。1、2)。我们还认为,从原始视频中学习的模型应该能够同时推理对象,运动和动作之间的复杂协同作用,以实现准确的帧插值。这是因为不同的动作和对象具有不同的运动特征,并且通过所学习的表示来精确地捕获这些属性对于精确的帧插值是至关重要的。我们将这一论点建立在从视频中进行自我监督表示学习的背景下[10,19,51,67]。 虽然受欢迎的前-文本任务,如帧排序[14,30,42,69,72],像素/颜色跟踪[66,68]或对比学习[16-为此,我们展示了FLAVR预训练的实用性,以提高各种下游任务的性能,如动作识别,光流估计和视频对象分割。总的来说:• 我们提出了FLAVR,一个可扩展的和无流的3D CNN架构的视频帧内插。据我们所知,FLAVR是第一个视频帧插值方法,它既不含光流,又能够进行单次多帧预测(Sect.(3)第三章。• FLAVR在数量和质量上都优于或可与当前多个标准基准(包括Vimeo-90 K、UCF 101、DAVIS、Adobe和GoPro)上的方法进行比较,同时在视频插值的准确性和推理速度方面提供最佳权衡(Sect.5,图1和4)。• 我们证明了FLAVR自我监督学习的视频表示可以用于各种下游任务,如动作识别,流量估计和视频对象分割(第二节)。(六)。2. 相关工作视频帧插值视频帧插值是一个经典的计算机视觉问题[37],最近的方法采用基于相位[39,40],基于内核[7,35,46,47,52,56]或基于流的方法之一,其中基于流的方法[2,3,8,23,26,34,44,45,59,76 -80]是最常见的方法。成功基于流的方法的关键思想是使用流预测网络,例如PWC-Net [61],来计算双向输入帧[26]之间的光流,其引导帧合成以及预测遮挡掩模[3,26,77]或单目深度图[2]以推断遮挡。虽然在生成逼真的中间帧方面很大程度上是成功的,但它们的性能受到底层流量估计器的准确性的限制,该流量估计器在存在复杂遮挡的情况下可能是有噪声的,从而导致明显的伪影。它们还假设帧之间的均匀线性运动,这对于现实世界的视频来说远非理想。最重要的是,流预测和随后的变形使帧预测变慢,阻止了快速插值.最近的工作放松了线性运动假设,使用二次扭曲[33,76],代价是增加了模型复杂性和推理时间。CAIN [9]使用通道注意力作为帧插值的合适成分,但未能明确捕获输入帧之间的复杂时空依赖性。此外,许多最近的方法仅针对单帧内插[23,59,64]。我们通过设计一个端到端的架构来解决所有这些问题,该架构通过学习通过3D时空卷积推理运动轨迹和属性,同时联合优化输出质量和推理时间,直接预测给定视频中任意数量的中间最近,VFIT [57]使用变压器解决视频帧内插问题,但仅限于单帧内插,而FLAVR能够以最小开销进行时空滤波由于其在捕获复杂的空间和时间依赖性方面的成功,3D时空卷积非常常用于视频理解任务,如动作识别[6,12,13,62,71],动作检测[58,73]和字幕[74]。在这项工作中,我们将视频帧插值问题作为视频表示学习的问题,并探索3D卷积在此任务中的有效性,旨在优化推理时间和部署开销,同时保持高精度。3. 使用FLAVR的帧内插在视频帧内插中,任务是从较低帧速率的输入视频生成高帧速率的视频。我们将k定义为插值因子,其中k-视频帧插值对应于在输入视频中的每对原始帧之间生成(k-1)个附加中间帧,其在空间上和时间上都与视频的其余部分一致。先前的方法要么是专门为2插值[9,23,29,59,64]设计的,要么需要多个推论,预测所有k帧[2,3,50,76]。相比之下,我们的目标是设计一个框架,这是简单的,但使单杆k预测的任何值的k。由于长视频的训练和生成超出了当前硬件的能力,我们提出了一个简单的采样过程,以有效地提高视频质量。2073...××K−--×----× ××联系我们×× × ×L1损失FLAVR网络时间窗口(13帧)原始视频内插帧(a) 取样程序(b) 拟议体系结构图2:FLAVR架构。(a)一个具体的例子,我们的采样过程为4插值(k=4)与4帧输入(C=2)。(b)我们的FLAVR是具有3D时空卷积(橙色块)和去卷积(黄色块)的U-Net风格架构。我们在所有(去)卷积层(蓝色块)之后使用通道门控。最终的预测层(紫色块)被实现为卷积层,以将3D特征映射投影到(k-1)帧预测中。这种设计允许FLAVR在一次推理前向传递中预测多个帧。最好用彩色观看。原始视频的cient培训,然后是网络架构的构建从未标记的视频中采样训练数据我们可以直接从原始视频中生成训练所需的输入和地面实况,如下所示。 令k为插值因子,V为具有帧速率fFPS 的原始视频,其中帧由A i指示。为了生成用于k视频帧插值问题的训练数据,我们以k的采样步长对V的帧进行子采样,以形成具有f fps的低帧速率视频V′,其中帧指示为的A。然后,为了在Nytw o之间执行插值,在V <$i的位置(i,i+1)处的帧,g iv enbyA<$i ,A<$i+1,我们使用V<$i中以A<$i和A<$i+1为中心的大小为2 C的 移 动 时 间 风 作 为 输 入 , 并 且 原 始 视 频 V 中 A<$i 和A<$i+1之间的所有帧作为地面实况。 这将产生大小为2的C帧(包括A<$i和A<$i+1)的输入剪辑和大小为k 1的输出剪辑。FLAVR是灵活的处理任何时间上下文C,而不仅仅是直接的邻居A<$i,A<$i+1 ,这有助于我们对复杂的轨迹进行建模,并提高插值精度。采样的输入帧在时间维度上被连接,导致输入维度2C H W3,其中H、W是输入视频的空间维度。图1中展示了这种取样程序的说明。图2a针对具有来自过去和未来(C = 2)的两个上下文输入的4插值(k=4)的情况。在这案件,框架A<$1,A<$2,A<$3,A<$4为A1,A5,A9,A13作为输入来预测A6、A7、A8在A<$2,A<$3(i=2)之间。直觉上,紧邻的vant用于帧插值,而不是更远的帧。在我们的实验中,我们发现,对于大多数常见的设置,使用四个上下文框架(C=2)足以在所考虑的数据集上进行准确的预测本文详细研究了补充语中输入语境C架 构 概 述 我 们 提 出 的 建 议 架 构 的 FLAVR 图 。 2b.FLAVR是一个3D U-Net,扩展像素生成任务中使用的流行2D Unet [54],通过用3D卷积(3DConv)替换编码器和解码器中的所有2D卷积,以准确地对输入帧之间的时间动态进行建模,从而获得更好的插值质量。每个3D滤波器是大小为ci co th w的5维滤波器,其中t是时间大小,并且(h,w)是内核的空间大小ci和co是层中输入和输出通道的数量。附加的时间维度在对时间抽象(如运动轨迹、动作或视频中的帧之间的对应关系)我们观察到,我们的网络确实沿着时间维度学习了非平凡的表示,这些表示可以在下游任务中重复使用,例如具有有限标记数据的动作识别(Sect.(六)。据我们所知,我们是第一个利用3D Unets进行帧内插任务的公司。实际上,任何3D CNN架构都可以用作编码器骨干,我们使用18层的ResNet-3D(R3 D)[12]作为我们的基础骨干。 我们评估了具有群卷积[63]作为主干的3DCNN的不同变体,以实现最佳精度/速度权衡,并在图中给出了完整的分析和结果。4.我们从R3 D-18中删除了最后一个分类层,产生了5个conv块conv 1到conv 5,每个块由两个3D卷积层和一个跳过连接组成我们还删除了所有的时间步幅,因为像步幅和池化这样的下采样操作可以删除对于生成更清晰的图像至关重要的细节。但是,我们在网络的conv1,conv3和conv4块中使用空间步长2,以保持计算可管理。解码器基本上通过使用渐进式多尺度特征上采样和特征融合从编码器捕获的深层潜在表示构建输出帧对于 上 采 样 , 我 们 使 用 步 长 为 2 的 3D 转 置 卷 积 层(3DTransConv)。为了处理通常观察到的棋盘状伪影[49],我们在最后一个3DTransConv层之后添加了一个3DConv层我们也3DConv选通模块3D转换+的X6464128128256(x256(x512512FLAVR网络3D卷积ReLU3D卷积3D平均值池FC层乙状3D转置卷积ReLU2074−∈⊙× ×−⊙∈×× × ×J×Ni=1j=1JJJΣΣ(一)包括跳过连接,该跳过连接直接将编码器特征与沿通道的相应解码器组合,以融合精确和尖锐内插所需的低电平和高电平信息。解码器的输出是3D特征图,然后通过由2D卷积实现的时间融合层,其中来自时间维度的特征沿着通道级联并融合到2D空间特征图中。这有助于聚合和合并存在于多个帧中的信息以用于预测。最终,该输出通过7× 7 2D卷积预测大小为H W3(k1)的输出的内核,然后沿着通道维度分裂以得到(k1)输出帧。我们的网络旨在有效地处理对于任何k值的插值,对体系结构的改变最小。时空特征选通特征选通技术被用作深度神经网络中的自注意机制的一种形式,用于动作识别[41,71],图像分类[21]和视频插值[9]。我们应用门控模块后,每一层在我们的架构。 给定大小为fi=C T H W的中间特征维度,选通层的输出fo为由fo=σ(W.pool(fi)+b)fi给出,其中WRC×C和bRC是可学习的权重和偏置参数,是时空池化层,并且是沿着通道维度的逐元素乘积。这样的特征选通机制将适当地学习以增加权重并集中于特征图的某些相关维度,其学习用于帧插值的有用线索,如运动边界。损失函数我们现在可以训练整个网络端到端使用像素级 损失 像 L1损失 之间 的预测 和 地面 真相框架,L({I},{I})=1Nk−1||I(i)−I(i)||1,其中{I∈(i)}以及{I}是第i个训练剪辑的第j个预测帧和第j个地面实况帧,k是插值因子,N是训练中使用的小批量的大小。使用FLAVR的表示学习为了成功地预测中间帧,FLAVR必须准确地推理运动轨迹,估计和捕获特定于对象的运动模式,并重建高级语义细节和低级纹理细节。了解网络学习了什么类型的运动信息以及这种表示对哪些任务有用是很有趣的。因此,我们研究了在无监督表示学习的背景下使用视频帧内插的可能性,通过在帧内插任务上预训练FLAVR,并将学习到的特征表示用于动作识别和光流估计任务。这一目标具有双重目的,即深入了解在训练帧插值模型期间学习到的表示的性质,同时还提高下游任务与随机初始化相比。4. 实验装置数据集。我们使用从30 FPS视频中提取的Vimeo-90K 数 据 集 [77] 中 的 七 元 组 来 训 练 单 帧 插 值 网 络(k=2)。我们在训练分割上训练我们的模型,并在数据集的测试分割上对其进行评估。继[76]之后,我们还验证了我们提出的方法的通用化能力。对于单帧插值,我们报告了在Vimeo-90 K上训练的模型在UCF 101[28]生成的100个五元组对于多帧插值,我们使用Go-Pro [43]作为训练集,并报告Adobe数据集[60]和GoPro数据集[43]的结果,用于8插值。培训详情。我们使用R3 D-18主干作为FLAVR中的标准编码器我们还评估了3D CNN的不同变体,其中group conv [63]作为主干,以实现最佳的准确性/速度权衡。对于数据增强,我们利用问题的对称性,在训练过程中随机选择输入序列,并反转帧的时间顺序。我们的超参数选择和更多训练细节在补充中提供。评估指标。根据以前的工作,我们使用PSNR和SSIM指标报告我们的方法的定量结果。对于多帧插值,我们报告所有预测帧上的度量的平均值,并且还额外报告TCC(时间变化一致性)[8]。由于这些定量测量与人类视觉系统没有很强的相关性[48],我们还进行了用户研究,以分析和比较我们生成的视频与其他竞争方法。基线。我们与许多先前的作品进行比较,这些作品执行视频帧插值,包括(i)DAIN [2],(ii)QVI [76],(iii)BMBC [50],(iv)Super- SloMo [26],(v)CAIN [9]和(vi)AdaCoF [29]。我们无法与SoftSplat [45],AAO [8],M2M [22]和RRPN [81]等最近的作品进行比较,因为他们的官方训练代码无法在线获得,从而无法在本文中使用的设置上进行公平的再训练关于各基线比较的说明。这些先前的作品中的每一个都在各自的论文中使用不同的训练和测试设置来报告它们的数字,因此不同作品的数字不同。例如,DAIN [2]和AdaCoF [29]在Vimeo-90 K的三元组拆分上训练和测试,而SuperSloMo [26]和QVI [76]在私有自定义数据集上训练他们的模型。为了确保公平性和统一的评估测试平台,我们通过重新训练[2,9,26,29,35,76]的基线模型来解释所有这些变化,直到Vimeo的七元组分裂收敛,1.我们注意到,虽然FLAVR像QVI一样从输入视频中获取4个输入帧,但扩展了先前的方法,如2075×××Vimeo-90K UCF101 DAVISPSNR(↑)SSIM(↑)PSNR(↑)SSIM(↑)PSNR(↑)SSIM(↑)DAIN [2]RGB+深度+流动33.350.94531.640.95726.120.870QVI [76]RGB+流35.150.97132.890.97027.170.874DVF [35]RGB27.270.89328.720.93722.130.800[47]第四十七话RGB33.600.94431.970.94326.210.857凯恩[9]RGB33.930.96432.280.96526.460.856[26]第二十六话RGB32.900.95732.330.96025.650.857BMBC [50]RGB34.760.96532.610.95526.420.868AdaCoF [29]RGB35.400.97132.710.96926.490.866FlavrRGB36.25±0. 060.97533.31±0. 020.97127.43±0. 020.874表1:Vimeo-90 K、UCF 101和DAVIS数据集上的2x插值比较上表包括使用训练的附加网络来预测光流和/或深度图的方法下表表示仅使用RGB作为输入的方法第一个和第二个最佳方法用粗体和下划线文本标记。我们的方法始终优于只采用RGB作为输入的先前作品,以及另外需要光流和/或深度输入的作品。AdobeGoPro在UCF101数据集和27. 44在DAVIS数据集上,方法DAIN [2]输入RGB+深度+流动PSNR29.50SSIM0.910PSNR29SSIM0.91FLAVR显然提供了更好的性能相比,所有以RGB图像作为输入的基线方法QVI [76]RGB+流33.680.9730.550.933并且表现得与加法相当或更好DVF [35]RGB28.230.89621.940.776通常需要深度或流图作为输入。 这些数据集[26]第二十六话FlavrRGBRGB30.6632.200.3910.95728.5231.310.8910.94共同构成了一个广泛的困难,复杂的运动和闭塞,FLAVR优于表2:与Adobe和GoPro数据集上最FLAVR优于所有以前的工作,只使用RGB作为输入。SuperSlomo、BMBC、AdaCoF也采用4个输入帧,需要对其架构进行重要的重新设计因此,我们使用他们论文中报告的标准设置重新训练方法,但使用我们的数据集。5. FLAVR与最先进的产品相比如何单帧插值。我们在Tab中报告单帧插值1、对应于2 ( k=2 ) 从 15 FPS 到 30 FPS 的 插 值 。 我 们 观 察 到FLAVR在Vimeo-90 K数据集上的表现优于先前的方法, PSNR 值为 36。25 , SSIM值为 0。 九百 七十 五FLAVR是一种更普遍适用的方法,其性能优于[26,35,47],帧之间的均匀线性运动。FLAVR的性能也优于[9],后者使用类似的端到端架构,但使用2D卷积,强调了使用3D时空内核实现的更重要的是,FLAVR在没有任何额外输入的情况下也优于DAIN [2]和QVI [76]。此外,我们在UCF101和DAVIS数据集上测试了我们训练的FLAVR模型,没有重新训练。这些对于视频帧插值来说相对更具挑战性,视频帧插值包含来自一系列动态场景的复杂对象和人体运动尽 管 如此,PSNR为33。33所有设置的其他方法。最后,FLAVR还与使用视觉变换器的当代作品VFIT[57](Vimeo-90 K上的PSNR为36.48,UCF-101上的PSNR为33.36)竞争[11]。FLAVR还可以从改进的骨干中受益,例如3D Transformer [4],这将在未来的工作中进行多帧插值。 对于多帧设置,我们在Tab中报告了8(k=8)插值的结果。2,这相当于通过生成7个中间帧从30FPS到240FPS。我们的方法产生的PSNR为31。31,SSIM评分为0。94,这比所有先前提出的用于帧插值的方法都在Adobe数据集上,我们的方法明显优于除QVI之外的所有方法,但QVI还使用了光流估计器,这有助于更好地识别Adobe数据集。此外,我们在GoPro上评估了TCC [8],以获得FLAVR、QVI、DAIN恢复的0.78、0.76、0.73很明显,FLAVR优于那些以前的作品。AOO [8]报告0.83,但它是在自定义数据上训练的在4(k=4)插值的情况下也可以观察到类似的改进,结果在补充材料中此外,我们通过使用FLAVR对来自DAVIS数据集的几个序列进行定性结果显示在图中。5.这些结果表明,即使对于多帧内插的情况下,所提出的FLAVR架构的有效性。请注意,FLAVR需要2076FlavrFLAVR-G2QVIFLAVR-G4FLAVR-G8FLAVR-G16DainBMBCSuperSlomo× × × ×××××××××5432102x 4x 8x 16x32x插值因子(k)0.80.60.40.20.040.037.535.032.530.027.525.0SNU-Film数据集上的简易中等硬度极限(a) 推理时间与插值因子(b) 用户研究结果(c) 性能与任务难度图3:分析。(a)不同方法对不同插值因子的推断时间(无IO的前向传递)FLAVR的推理时间几乎没有变化,(b)DAVIS用户研究中FLAVR与Super-SloMo和QVI的比较。FLAVR的性能明显优于Super-SloMo,与QVI相当(c)FLAVR与其他方法在SNU-Film数据集上的比较FLAVR在所有任务难度水平上都优于所有比较方法。针对每个插值因子k进行再训练,尽管对于大多数在实际应用中,所需的内插因子是事先已知的。Middleburry上的结果我们在Middleburry [1,55]数据集的公开可用测试图像上FLAVR在提交时分别在后院,常绿,低音序列中排名第2,第5,第8完整的结果可在公共排行榜上获得363534331 2 3 4 5 672倍插值(a) 2×插值313029281 2 3 4 5 6 78倍插值(b) 8倍插值(链接),并与其他方法的定性比较提供了补充材料。速度与准确性权衡。 实现实时视频帧插值应用的一个主要挑战是优化更快的推理速度和更好的插值质量之间的权衡。也许我们的工作最重要的贡献是提出了一种方法,通过以最小的运行时间实现最佳性能,在这两个因素之间取得最佳平衡。如图1、FLAVR为多帧插值模型提供了改进的这种改进是可能的,主要是因为我们在计算光流或深度方面不需要开销,并且在单个前向传递中预测所有帧我们还显示在图。3a,使用我们的方法的推理速度随着插值因子k的增加而优雅地缩放,而大多数先前的方法导致k的线性增长。我们实现了运行时的改进2. 7 ,6。2和12. 7了8 ,16和32插值分别相对于QVI,是一种有竞争力帧内插方法,与目前最快的Super- Slomo相比,具有更高的插值精度。我们还对使用群卷积[63]对FLAVR的速度-精度权衡的影响进行了深入的消融,并在图中展示了结果。4.具体来说,对于每个3D卷积块,我们用具有g=1,2,4,8和16的组的通道分离卷积块[63]替换残差块,在图中用FLAVR,FLAVR-2x,FLAVR-4x等4.第一章注意g=1表示我们的图4:速度、精度和参数权衡比较。速度(FPS,x轴)与各种基线的精度(在PSNR中,在y轴上)以及FLAVR的各种架构选择每个模型中的参数数量a是2,b是8插值。FLAVR-Gx对应于具有x个群卷积的FLAVR。总之,与许多最近的方法相比,FLAVR实现了最佳的所有其他实验中的默认设置我们在Vimeo-90 K上展示了2插值的结果,以及GoPro数据集上的8插值结果。我们 发 现 , 与 提 供 类 似 性 能 的 基 线 相 比 ( 例 如 ,QVI),FLAVR至少6比8插值更快(参见图4 b,FLAVR-G8与QVI)。此外,与给出类似推理时间速度的基线相比,FLAVR提供 至 少 3dB 的 准 确 度 增 益 ( 参 见 图 4b , FLAVR 与SuperSloMo)。这些结果表明,FLAVR是一个灵活的架构,实现最佳的速度精度权衡视频帧内插相比,现有的方法。对任务难度的鲁棒性 我们使用SNU-Film数据集[9]验证了我们方法性能的鲁棒性,该数据集由视频组成,根据输入帧之间的时间间隔,插值难度不同。我们使用的四种设置都很简单(120-240 FPS),例如:从120FPS输入预测240 FPS视频,中等(60-120 FPS),硬(30-60 FPS)和极端(15-30 FPS)。图3c,我们将我们 的 方 法 的 性 能 与 先 前 的 作 品 ( 包 括 CAIN [9] 和AdaCoF [29])进行了比较,并报告了在所有难度设置中始终比所有方法更好的性能具体来说,我们看到收益为1。28DBQVISuperSloMoFLAVRDAINBMBCFlavrQVISuperSloMo没有偏好FLAVR与SuperSloMoFLAVR与QVI+1.44dB+1.62dB我们的(FLAVR)CAIN(AAAI'20)AdaCoF(CVPR'20)Super slomo(CVPR'18)DSepConv+1.28dB+0.67dB该隐DainO埃斯洛姆SupBMBCVR-G4FLAVR-G8FLAVR-G16佛罗里达QVIFLAVR-G2Flavr推断时间(秒)偏好比例PSNR(dB)峰值信噪比(dB)峰值信噪比(dB)2077×模型PSNRSSIMR2D-18-2I33.980.966R2D-18-4IR3D-18-4I36.3 0.975(a) 编码器拱的影响。模型PSNRSSIM无融合35.10.9713融合-相加35.70.9737熔融-熔融36.30.975(b) 特征融合模型PSNR SSIM无步幅36.3 0.975w/2x步幅35.4 0.961w/4x步幅(c) 时间步幅的影响模型PSNRSSIML1损失36.30.975L2损失35.30.965Huber损失35.30.964L1+VGG丢失35.910.962(d) 损失函数表3:FLAVR结构在(a)不同骨干、(b)融合方法、(c)颞跨和(d)功能丧失上的消融结果具有2D Resnet-18的编码器,其采用4个图像的逐通道级联,FLAVR给出1。3dB增益(PSNR)(表3a)验证了时空网络的选择。此外,我们发现,使用没有大步在节奏方面(36。3 dB)的性能优于使用步幅2(35. 4dB)或4(35. 21分贝),支持的假设,时间步幅伤害捕捉清晰的像素级细节(表。第3c段)。同样,我们观察到在训练期间将基于VGG的感知损失[27]添加到L1损失中,在PSNR方面是劣的(表1)。第3d段)。我们包括额外的结果,通道门控的影响,以及支持定性结果的补充材料。(a)Overlay(b)GT(c)SloMo (d)QVI(e)FLAVR图5:与最先进方法的定性比较。在DAVIS平台上对FLAVR与Super-SloMo(SSM)、QVI在几个视频序列更多的定性结果和生成的视频与补充材料一起提供。和1. 62dB,分别与硬设置和中等设置中的次佳方法[9]相比,由于帧之间的大运动和较长的时间间隔,这被用户研究。常用的定量指标(如PSNR和SSIM)与人类对图像质量的视觉感知并不密切相关[20,48]。因此,从DAVIS 2017数据集[53]的90 HD视频开始,我们使用我们的方法以及QVI [76]和Super-SloMo [26]使用8插值生成SloMo视频。我们在补充中提供了有关该研究的更多细节,并在图中总结了结果3b. 首先,当比较我们的方法与超级SloMo时,用户压倒性地喜欢我们的视频,因为生成的视频看起来更真实,边缘和运动边界周围的伪影最少,这是由于精确的插值。 与QVI相比,用户在35%的视频中选择了FLAVR,而QVI在40%的视频中选择了FLAVR;而对于20%的视频来说,差异是可以忽略不计的。这些结果进一步支持了我们的假设,即为了现实世界的部署,基于光流和扭曲的帧插值方法可以用我们的基于学习的方法代替,该方法提供更快的推理(图2)。3a)性能损失最小。消融术。我们提供了详细的消融到各种设计选择的架构,网络和损失功能的Vimeo-90 K数据集在选项卡。3,并在此列出突出的观察结果。首先,我们发现,与6. FLAVR在支持下游应用程序方面有多大作用?动作识别我们通过在下游动作识别任务中重用FLAVR训练的编码器来评估FLAVR学习的内部表示的语义特性。我们移除解码器并将分类层附加然后,整个网络在UCF 101和HMDB 51数据集上进行端到端的微调。为了隔离在视频插值任务上预训练编码器所带来的好处,我们完全从头开始训练3D resnet(R3D)基线,并从Tab中观察。4a,在Vimeo-90 K数据集上进行帧插值任务预训练的FLAVR明显优于随机初始化基线13。08%的UCF-101和4。HMDB-51占48%FLAVR在视频上的表现也明显优于之前的自监督方法,这些方法使用像Video-GAN [65]和流描述符[36]这样的低级借口任务,表明帧内插可以学习有用的运动表示。最后,FLAVR比使用DVF [35]的预训练实现了更好的准确性,这表明我们用于帧插值的特定方法总是比体素流更有利于下游动作识别。已知成功的帧内插本质上取决于可靠的光流估计[70]。我们通过对MPI Sintel [5]和Kitti [15,38]数据集上的光流估计训练网络进行微调来研究这一假设,并在Tab中报告相应的EPE(终点误差)。4b.与使用相同主干架构的随机初始化相比,使用FLAVR进行微调可以实现更低的EPE,证明我们的模型可以学习有用的流特征。2078JFJF→× → ×→方法预训练于Arch.UCF101HMDB51随机初始化- R3D-18 50.02 19.00监督动力学-400D-18 87.70 59.10对比[17]动力学-400R3D-18[65]第六十五话UCF101自定义52.10- LMD [36]NTU RGB自定义[35]第35话自定义52.40-Vimeo-90KR3D-1863.10 23.48(a) 动作识别。数据集FlowNet Random Finetune对[24]Init.FlavrMPI-Clean [5]2.02 4.41 2.92MPI-Final [5]3.14 5.27 3.90基提-12 [15] 4.09 9.25 5.23基蒂-15 [38] 10.06 17.22 13.68(b) 光流估计15→30 FPS&嗯嗯CRW 六十八点二FLAVR+CRW66.663.9 69.48 30 FPSCRW 六十四点五FLAVR+CRW62.860.5 六十五点一(c) VOS掩码传播。表4:用于各种下游应用的FLAVR。a FLAVR作为UCF 101和HMDB 51上动作识别的自我监督借口任务b用于MPI(Sintel [5])和Kitti [38]数据集上的光流预测。c用于低fps DAVIS视频的视频对象分割掩码传播 Jm将区域相似性度量为平均IoU,而Fm是边界对齐度量。输入@15 FPS CRW@15FPS 2x FLAVR@15FPS + CRW输入@15 FPS CRW@15FPS 2x FLAVR@15FPS + CRW图6:DAVIS上的视频对象分割掩码传播。FLAVR有助于改善低fps视频中的视频对象跟踪FLAVR首先用于将视频上采样为更高的帧速率,然后是标准对象段传播,例如,CRW [25]应用于插值视频。参考表。4c用于量化改进。我们注意到,我们的目标不是超越更复杂的流专用架构[24,32],而是了解我们是否可以通过对帧插值进行预训练,使用像我们这样的简单架构来学习有用的流特征到目前为止,我们评估了FLAVR在下游任务中的表现质量,但它的原始输出在改善下游应用方面有多好?为了研究这一点,我们考虑视频对象分割标签传播的任务,其中任务是通过提取视觉对应来在整个视频中传播对象掩码[25,31,68,75]。当前的方法假设在 训 练 和 测 试 期 间 访 问 30FPS 视 频 ( 例 如 , 来 自DAVIS)来执行标签传播,但是如果输入来自低fps视频,则查找对应关系的能力以及因此标签传播的准确性会大大下降在这种情况下,FLAVR可以用来提高视频对象分割(VOS)的准确性为了验证这一点,我们对DAVIS数据集的测试视频进行了2(30FPS)15FPS)和4(30FPS)8FPS)因素,然后应用CRW [25]中提出的标签传播算法。此外,我们还应用FLAVR进行帧内插,k=2,4,以恢复原始的30FPS视频在每种情况下,并再次应用CRW算法上采样的视频。从Tab。4c和图6,我们观察到FLAVR可以有效地用作中间步骤,以改善低fps视频上的标签传播结果有关该实验的更多细节见补充资料。7. 讨论为什么FLAVR工作? 虽然光流引导合成是一种成功的帧内插方法,但我们采用一种实现相同目标的替代路线,并探索使用无流的端到端架构来完成此任务。我们提出的问题,帧插值作为一个视频表示学习问题,并假设学习丰富的运动和对象表示在一起是足够的,在一个无流设置的快速插值。遵循这一思想,我们设计了一个简单的流不可知的架构,使用3D卷积,可以有效地学习运动和语义时,提出了大规模的视频数据,使用提出的训练机制从这个意义上说,我们将先前基于流的方法中的运动建模和帧合成的不同组件集成到单个端到端架构中。重申我们的假设,我们发现我们的网络,从视频中学习有用的运动属性此外,我们的插值方法易于训练和部署,没有开销,同时享受更快的推理速度。我们还邀请读者查看与补充材料一起提供的进一步定性结果和生成的视频。在局限性方面,作为一种数据驱动的端到端方法,FLAVR与其他基于深度学习的方法一样,学习到的表示的可解释性有限,对训练分布之外的数据的泛化能力有限。尽管如此,我们希望FLAVR能刺激帧内插研究的新方向,并有足够的机会找到更简单、更有效的方法来解决这些限制。致谢我们要感谢Adrian Smith为我们提供昆虫视频。TK和MC部分由NSF CAREER Award 1751365支持。2079引用[1] Simon Baker、Daniel Scharstein、JP Lewis、StefanRoth、Michael J Black和Richard Szeliski。光流数据库和评价方法International Journal of ComputerVision,92(1):1[2] Wenbo Bao,Wei-Sheng Lai,Chao Ma,XiaoyunZhang,Zhiyong Gao,and Ming-Hsuan Yang.深度感知视频帧插值。在IEEE计算机视觉和模式识别集,第3703-3712页[3] 包文波,赖伟胜,张晓云,高智永,杨明轩。MEMC-net:运动估计和运动补偿驱动的神经网络,用于视频插值和增强。IEEE Transactions onpattern analysis and machine intelligence,2019。[4] Gedas Bertasius , Heng Wang , and LorenzoTorresani
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Fisher Iris Setosa数据的主成分分析及可视化- Matlab实现
- 深入理解JavaScript类与面向对象编程
- Argspect-0.0.1版本Python包发布与使用说明
- OpenNetAdmin v09.07.15 PHP项目源码下载
- 掌握Node.js: 构建高性能Web服务器与应用程序
- Matlab矢量绘图工具:polarG函数使用详解
- 实现Vue.js中PDF文件的签名显示功能
- 开源项目PSPSolver:资源约束调度问题求解器库
- 探索vwru系统:大众的虚拟现实招聘平台
- 深入理解cJSON:案例与源文件解析
- 多边形扩展算法在MATLAB中的应用与实现
- 用React类组件创建迷你待办事项列表指南
- Python库setuptools-58.5.3助力高效开发
- fmfiles工具:在MATLAB中查找丢失文件并列出错误
- 老枪二级域名系统PHP源码简易版发布
- 探索DOSGUI开源库:C/C++图形界面开发新篇章
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功