没有合适的资源?快使用搜索试试~ 我知道了~
STVSR:VideoINR 基于神经表示的视频时空超分辨率
2047VideoINR:学习视频隐式神经表示连续时空超分辨率陈泽源1陈银波 2刘静雯2徐兴乾3,6ViditGoel6王张阳5 石汉飞6,5,3<$王小龙2<$1个USTC2加州大学圣地亚哥分校4UT奥斯汀5俄勒冈大学6Picsart AI Research(PAIR)摘要视频通常将流和连续的视觉数据记录为离散的连续帧。由于存储成本对于高保真度的视频是昂贵的,所以它们中的大多数以相对低的分辨率和帧速率存储。空时视频超分辨率(STVSR)是将时间插值和空间超分辨率结合在一个统一的框架内的一种新的视频超分辨率技术。然而,它们大多只支持固定的上采样尺度,这限制了它们的灵活性和应用.在这项工作中,而不是以下的离散表示,我们提出了视频隐式神经表示(VideoINR),我们展示了它的应用STVSR。学习的隐式神经表示可以被解码为任意空间分辨率和帧速率的视频。我们表明,VideoINR在常见的上采样尺度上使用最先进的STVSR方法实现了竞争性性能,并且在连续和训练分布外尺度上显著优于先前的工作。 我们的项目页面在这里,代码可在https://github.com/Picsart-AI-Research/VideoINR-连续空间时间超分辨率。1. 介绍我们以流和连续数据的形式观察视觉世界然而,当我们用计算机中的摄像机记录这样的数据时,它通常以有限的空间分辨率和时间帧速率来存储由于记录和存储大时间尺度的视频数据的高成本,我们的计算机视觉系统通常需要处理低分辨率和低帧率的视频。这在诸如视频对象检测等识别系统中引入了挑战[53],并且我们仍在努力学习从离散帧中识别运动和动作[4,12]。当将视频呈现回人类时(例如, 在电视上),必须以高分辨率将其†通讯作者。基本插值空间我们的插值空间图1.视频隐式神经表示(VideoINR)将任何3D时空坐标映射到RGB值。这一性质使得能够将STVSR的潜在插值空间从固定的空间和时间尺度扩展到任意帧速率和空间分辨率。更高的帧速率,更好的用户体验。如何将低分辨率视频在空间和时间上恢复到高分辨率,成为许多下游应用的重要问题和第一步。开发了时空视频超分辨率(STVSR)方法[15,21,28,37,38,47,48],以在给定低分辨率和低帧率视频作为输入的情况下同时提高空间分辨率和帧率。研究人员最近提出在一个阶段中同时执行超分辨率,而不是在空间和时间上分别执行超分辨率[15,21,47,48]。直观地,当应用空间缩放时,来自多个帧的时间上的聚合信息可以揭示每个帧的缺失细节,并且在给定更高和更丰富的空间表示的情况下,时间内插可以更平滑和准确。单阶段的端到端培训已显示出将两者的优势统一起来(x,y,t)视频INRX TY连续视频RGB内插帧查询插值帧时间尺度不空间尺度编码器解码器2048双方虽然这些结果是令人鼓舞的,但大多数方法只能执行超分辨率到固定的空间和时间尺度比。在本文中,我们提出学习一种连续的视频表示,而不是固定尺度的超分辨率我们的关键思想是学习一个隐式神经表示,这是一个神经函数,它将时空坐标作为输入,并输出相应的RGB值。由于我们可以连续地对坐标进行采样,因此可以以任何空间分辨率和帧速率对视频进行解码我们的工作受到最近在3D形状表示的隐式函数[10,13,14,26]和使用ConvNet [7]的局部隐式图像函数(LIIF)的图像表示方面的进展的启发与图像不同,空间插值可以基于像素之间的梯度,低帧速率下跨帧的像素梯度很难计算。网络需要理解像素和对象的运动来执行插值,这很难单独通过2D或3D卷积来建模。我 们 提 出 了 一 种 新 的 视 频 隐 式 神 经 表 示(VideoINR)作为一个连续的视频表示。在STVSR任务中,两个低分辨率图像帧被连接并转发到编码器,该编码器生成具有空间维度的特征图然后,VideoINR用作生成的特征图上的连续视频表示它首先定义了一个连续的空间特征域的空间隐式神经表示,高分辨率的图像特征是根据所有的查询坐标采样。我们不是使用卷积操作来执行时间插值,而是学习时间隐式神经表示,以首先输出给定高分辨率特征和采样时间作为输入的运动流场。该流场将被应用回以扭曲将被解码为目标视频帧的高分辨率特征。由于所有的操作都是可微的,我们可以在特征级端到端学习运动,除了重建误差之外没有任何额外的监督。总而言之,给定输入帧,编码器生成特征图,然后可以由VideoINR解码为任意空间分辨率和帧速率。在我们的实验中,我们证明了VideoINR不仅可以在训练分布内的尺度上表示任意空间和时间分辨率的视频,而且还可以外推到分布外的帧速率和空间分辨率。给定学习的连续函数,代替每次解码整个视频,它允许在需要时仅解码特定区域和时间尺度的灵活性。我们使用Vid 4 [23],Go-Pro [29]和Tube 240 [41]数据集进行实验我们证明了VideoINR在分布空间和时间上具有poral规模和显着优于其他方法的分布规模。我们强调我们的主要贡献如下:• 我们提出了一种新的视频隐式神经表示作为一个连续的视频表示。• 所提出的方法允许用一个网络有效地表示任意空间和时间分辨率的视频。• VideoINR实现了分布外泛化,并大幅优于基线。2. 相关工作内隐神经表示。内隐神经表征已被证明是用于各种任务的紧凑但强大的连续表征,包括3D重建[10,13,14,26]和生成[5,11,36]。这些表示通常将信号表示为神经函数,该神经函数将坐标映射到神经辐射场中的带符号距离[34]、占用率[8,24]或密度和RGB值(NeRF [27])。最近的工作也显示了将此想法应用于2D图像建模的有希望的结果[1,7,20,40,50]。我们的连续视频表示受到这个快速发展的领域的启发,并为视频提供了特定的设计,其中可学习的流可以利用具有感应偏差的视频帧中的对应关系。视频帧插值。视频帧内插(VFI)的目的是在输入的视频帧之间合成看不见的帧. Meyer等人[25]提出了一种基于相位的方法,其中,跨多尺度金字塔的级别的信息被组合用于内插帧的合成。Niklaus等人[32,33]介绍了一系列基于内核的VFI算法,其中他们将目标帧的像素合成作为输入帧上的局部卷积。基于光流的VFI方法[2,18,30,31,49,51]利用光流预测网络(例如,PWC-Net [42])来计算输入帧之间的双向流,作为新帧合成的指导。为了更好的性能,还将包括遮挡掩模[18,51]、深度图[2]和循环一致性[35]在内的其他信息视频超分辨率。视频超分辨率(VSR)旨在提高低分辨率视频的空间分辨率。早期的方法[3,43,51]通常建立在滑动窗口框架上,其中它们预测输入帧之间的光流并执行空间扭曲以进行显式特征对齐。后来,内隐对齐开始了这项任务的新趋势[6,17,19,44,45]。例如,TDAN [44]采用可变形卷积(DCN)[9,52]在特征层对齐不同的输入帧EDVR [45]进一步将DCN扩展到多尺度融合,以实现更准确的对齐。Kelvin等人介绍了BasicVSR [6],在其中他们分析了基本组件2049特征编码输入帧连接空间INR编码器编码特征时间INR采样空间坐标时间坐标运动流运动流场空时表示空时表示解码空间INR解码网翘曲取样扭曲的空间坐标图2. 视频隐式神经表征(VideoINR) 两个输入帧被连接并编码为离散特征图。基于该特征,空间和时间隐式神经表示将3D时空坐标解码为运动流向量。然后,我们根据运动流通过变形采样一个新的特征向量,并将其解码为查询坐标的RGB预测我们在此图中省略了多尺度特征聚合部分。为VSR模型,并建议了一个双向传播计划,以最大限度地收集信息的输入。时空视频超分辨率(STVSR)的目标是同时提高给定的 低 分 辨 率 低 帧 率 视 频 的 空 间 和 时 间 分 辨 率 。Shechtman等人[38]通过组合来自多个输入视频序列的信 息 并 应 用 方 向 时 空 正 则 化 来 解 决 该 问 题 。Mudenagudi等人[28]提出了STVSR的统一框架,其中视频被建模为马尔可夫随机场,并将最大后验估计作为最终解决方案。Shahar等人[37]介绍了一种有效的STVSR时空补丁递归先验最近,随着深度学习的进步,研究人员开始采用强大的卷积神经网络来解决这个任务[15,21,47,48]。Xi- ang等。[47]提出了一种统一的神经网络来合成丢失帧的特征,并使用可变形的ConvLSTM来对齐和聚合提取的时间信息以进行重建。STARNet [15]在额外的光流输入的帮助下,杠杆化了时间和空间之间的相互信息关系。TMNet [48]提出了一种时间调制块来调制,计算可变形卷积核,用于支持任意时刻的帧内插。所有这些STVSR方法都被设计为在训练之前定义的特定上采样空间尺度上执行超分辨率,其中一些[15,47]只能在预定义的时间推断中间帧。因此,这些方法的应用范围受到限制。VideoINR作为一个连续的视频表示,支持在任意空间分辨率和帧速率的帧插值。VideoINR在应用过程中更加灵活,可以在更多的情况下使用,例如非均匀插值和局部区域的视频放大。3. 视频隐式神经表征给定具有有限空间分辨率和帧速率的视频,我们的目标是找到视频的连续表示。该表示将任意时空坐标(xs,xt)解释为RGB值。为此,我们引入了视频隐式神经表示(VideoINR),它可以实现连续的时空超分辨率。它是由多层感知器(MLP)参数化,(x,y,t)X不YRGB值插值结果(x,y)2050FMMFStS不SSSSS不形式s=f(xs,xt),(1)时间坐标xt。通过网络直接生成目标解码特征可能相当困难,因为网络不仅必须学习目标之间的运动模式,其中,f是由下式定义的建议的视频表示:编码特征和网络参数。xs是2D空间坐标,xt是时间坐标,并且s是预测的RGB值。为了学习这种隐式神经表示,我们建议将空间和时间解耦,并为它们中的每一个学习连续表示。图2展示了我们模型的概述。 给定空间-时间坐标(xs,xt)和由编码器从输入帧提取的特征,空间隐式神经表示(SpatialINR)解码空间坐标xs并输出对应的特征向量(Sec.第3.1节)。然后将特征转发到查询坐标处的运动流的时间隐式3.2)。该流程被应用回以扭曲由SpatialINR定义的连续特征以用于新的特征向量(第二节)。3.3),其最终被解码为目标RGB值(Sec.第3.4段)。3.1. 连续空间表示受LIIF [7]的启发,我们学习了一种空间隐式神经表示(SpatialINR),它通过离散编码特征映射定义了一个连续的2D特征域。该连续域将任意2D空间坐标解码成对应的特征向量。具体地,由编码器生成的我们对最接近查询空间坐标xs的特征向量(图2中的深蓝色长方体)进行采样,将其与查询坐标和特征向量之间的相对位置信息连接起来,并将它们输入到a函数fs中,以输出xs处的连续特征(图2中的绿色长方体)。这个过程可以表示为:Fs(xs)=fs(z≠,xs-v≠),(2)其中s是由SpatialINR定义的连续特征域,z是最接近查询坐标xs的特征向量,并且v是特征向量z的空间坐标。输入帧以及上下文信息。相反,我们建议学习一个连续的运动流场的连续时间表示。具体地,给定时空坐标(xs,xt)和两个连续输入帧I0和I1,TemporalINR将坐标映射到运动流M(xs,xt)=ft(xs,xt,I0,I1),(3)其中是连续运动流场,ft是时间INR的函数。受益于SpatialINR提供的2D连续特征域,我们可以用xs处的连续特征替换I0、I1和xs。因此,方程可以写为:M(xs,xt)=ft(xt,Fs(xs)),(4)其中Fs(xs)是在等式2中定义的特征域。3.3.时空连续表示通过空间和时间的两个连续表示,我们的目标是将它们组合成一个统一的视频时空从时空坐标(xs,xt)开始,我们首先使用SpatialINR来预测xs处的连续特征。然后利用TemporalINR来生成查询坐标的运动流。基于这些输出,我们通过对连续特征域进行扭曲来获得时空特征扭曲的特征在xs对应于x0s处的连续特征。两个坐标之间的关系可以写为:其中(x s,x t)是(x s,x t)处的运动流向量。我们连续查询这个新的空间坐标二维特征域,并获得一个新的特征向量(图2中的浅绿色长方体),它被视为我们在坐标(xs,xt)处的连续时空表示的特征。因此,连续时空特征st可以公式化为:LIIF和SpatialINR之间的主要区别在于,LIIF被提出用于连续图像表示,而F(x, x)=F(x0)=F(x+M(x, x)),(6)SpatialINR定义了一个连续的特征域,该特征域应该被进一步用于对视频中的时间3.2.连续时间表示提出的SpatialINR定义了一个新的连续特征域在2D空间。我们的下一步是学习连续时间隐式神经表示(Tempo- ralINR),并将特征域从2D空间扩展到3D空间和时间,这可以通过解码在实践中,我们为运动流场生成两个独立的流,并连接相应的扭曲特征。直观地,TemporalINR可以隐式地学习目标帧与输入帧之间的双向对应,而无需显式监督。3.4. 特征解码基于连续时空表示,我们可以得到对应于任意时空坐标的特征。最后一步是将要素解码为RGB2051U⇥⇥⇥⇥⇥值一种简单的设计是直接将获得的空时特征用于解码。然而,由于基于MLP的网络架构,每个预测像素的RGB值取决于单个特征向量,导致网络感受野的大小有限。为了减轻这一缺点的负面影响,我们通过聚合不同尺度的特征来丰富解码网络的输入信息详细地说,我们将编码的功能,以及两个输入帧解码。由于这些额外的功能通常是低分辨率的目标分辨率相比,我们的样本特征向量对应的查询坐标的双线性插值。然后将所有特征组合在一起以预测RGB输出。3.5. 帧合成从第3.1节到第3.4节,我们专注于预测特定坐标处的RGB值为了合成整个帧,我们需要查询它的所有像素的坐标。给定这些坐标,我们可以将SpatialINR的连续特征转换为高分辨率的特征图。我们也可以为潜在的高分辨率插值帧生成一个完整的运动流场。因此,我们不必像在一个输入坐标的情况下那样在扭曲之前和之后转发SpatialINR两次相反,我们直接基于运动流扭曲整个高分辨率特征图,并将扭曲的特征输入到解码网络中以一次合成目标帧。4. 实验4.1. 实验装置数据集。我们使用Tube240数据集[41]作为训练集,其中包括由手持摄像机拍摄的720P的133个视频我们按照[48]将这些视频分为训练、验证和测试子集,分别为100、16和17个视频。所有视频都被转换成图像序列进行训练和测试。每个序列包含大约3000帧,这些帧在训练中被视为高分辨率帧然后在Matlab中使用imresize函数生成低分辨率的副本,默认设置为双三次插值。我们使用滑动窗口从图像序列中选择帧进行训练。滑动窗口的长度我们将第1帧和第9帧作为网络输入。第2到第7帧作为地面实况帧,我们在每次迭代中随机选择其中三个作为我们网络的监督。VideoINR的训练分为两个阶段。在第一阶段,我们将下采样空间尺度固定为4。在第二阶段,我们随机抽样尺度均匀分布(1,4)。我们在第4.3节中提供了有关此两阶段培训策略的更多讨论。使用包括Vid 4 [23]、Tube 240 [41]和Go- Pro [29]的数据集进行评价。在Vid4上,我们只进行STVSR的单帧插值实验。对于Tube240和GoPro,我们在他们的测试集上进行评估从数据集中的视频中提取的图像序列被分成9帧视频剪辑的组。我们将每个剪辑中按比例4下采样的第1帧和第9帧馈送到模型中,以生成从第1帧到第9帧的9个高分辨率帧。我们分别评估中心帧的平均度量(即,第1、第4、第9帧)和所有9个输出帧。它们在表1中表示为-中心和-平均值。实作详细数据。 我们使用亚当优化器[22],1= 0。9和102=0.999。学习率初始化为110- 4,并且每150,000次迭代用余弦退火衰减到110-7该模型是在总600,000次迭代,批量大小为24。第一训练阶段包括450,000次迭代,而第二阶段包括150,000次迭代。一批中的输入帧通过相同的空间尺度下采样,并随机裁剪成大小为32 32的补丁我们执行数据通过随机旋转90○、180○和270○以及水平翻转来增强。我们使用Zooming SlowMo [47]作为编码器。对于连续空间和时间表示中包含的两个函数,我 们使用两个 隐藏维度为64, 64,256的 3层SIREN [39]。对于解码网络,我们采用了隐藏维度为64,64,256,256的4层SIREN。如[47,48]中所建议的,我们选择Charbonnier损失函数进行优化。评 价 峰 值 信 噪 比 ( PSNR ) 和 结 构 相 似 性 指 数(SSIM)[46]用于评估模型性能。我们还比较了模型大小和推理时间来衡量模型的效率4.2. 与最新技术水平的我们将VideoINR与最先进的两阶段和一阶段STVSR方 法 进 行 比 较 。 对 于 两 阶 段 方 法 , 我 们 采 用SuperSloMo [18],QVI [49]和DAIN [2]进行视频帧插值(VFI);双三次插值,EDVR [45]和BasicVSR [6]用于视频超分辨率(VSR)。对于一阶段方法,我们将VideoINR与最近开发的Zooming SlowMo [47]和TMNet[48]进 行 了 比 较 。 为 了 进 行 公 平 的 比 较 , 我 们 在Tube240 数 据 集 上 从 头 开 始 训 练 三 种 VFI 方 法 和Zooming SlowMo。对于TMNet,正如在原始论文中提到的,需要两阶段训练方案来实现收敛,我们在Vimeo90K [51]数据集上预训练模型,并在Tube240数据集上对其进行微调[41]。因此,与其他方法相比,TMNet在更多的数据上进行训练,这可能会导致比较中 的 一 些 优 势 。 为 了 与 只 支 持 固 定 帧 插 值 的ZoomingSlowMo 相 比 , 我 们 训 练 了 一 个 新 版 本 的VideoINR,名为VideoINR-fixed,其插值时间固定为0.5。定 量 结 果 。 我 们 在 表 1 中 提 供 了 VideoINR 和 其 他STVSR方法之间的分布定量比较。单帧插值的研究2052⇥ ⇥表1. 对基准数据集进行定量比较,包括Vid4 [23],GoPro [29]和Observe 240 [41]。最好的三个结果以红色、蓝色和粗体突出显示。我们省略了在GoPro-Average和Tube 240-Average上的Zooming SlowMo和VideoINR-Fixed的结果,因为这两个模型只在固定时间进行合成帧的训练。VFI方法Sr方法Vid 4 GoPro-中心GoPro-平均Adobe-中心Adobe-平均参数PSNR SSIM PSNR SSIM PSNR SSIM PSNR SSIM PSNR SSIM(百万)[18]第十八话双三22.420.564527.040.793726.060.772026.090.743525.290.727919.8[18]第十八话EDVR [45]23.010.613628.240.832226.300.796027.250.797225.950.768219.8+20.7[18]第十八话基本VSR [6]23.170.615928.230.830826.360.797727.280.796125.940.767919.8+6.3[18]第十八话双三22.110.549826.500.779125.410.755425.570.732424.720.711429.2[18]第十八话EDVR [45]23.600.647127.430.808125.550.773926.400.769225.090.740629.2+20.7[18]第十八话基本VSR [6]23.150.642827.440.807026.270.795526.430.768225.200.742129.2+6.3DAIN [2]双三22.570.573226.920.791126.110.774026.010.746125.400.732124.0DAIN [2]EDVR [45]23.480.654728.010.823926.370.796427.060.789526.010.770324.0+20.7DAIN [2]基本VSR [6]23.430.651428.000.822726.460.796627.070.789026.230.772524.0+6.3[47]第四十七话25.720.771730.690.8847--30.260.8821--11.10TMNet [48]25.960.780330.140.869228.830.851429.410.852428.300.835412.26VideoINR-固定25.780.773030.730.8850--30.210.8805--11.31视频INR25.610.770930.260.879229.410.866929.920.874629.270.865111.31表2. GoPro数据集上分布外量表的定量比较。通过PSNR和SSIM评价模型性能。TMNet的一些结果被加粗,因为它不支持推广到训练外分布空间尺度。时间尺度空间尺度[18]第十八话[七]《中国日报》DAIN [2] + LIIF [七]《中国日报》TMNet [48]视频INR⇥6⇥6⇥6⇥4⇥6⇥1226.70 /0.798823.47 /0.693121.92 /0.649526.71 /0.799823.36 /0.690222.01 /0.649930.49 /0.8861--30.78/0.895425.56/0.767124.02/0.6900⇥12⇥12⇥12⇥4⇥6⇥1225.07 /0.749122.91 /0.678321.61 /0.645725.14 /0.749722.92 /0.678521.78 /0.647326.38 /0.7931--27.32/0.814124.68/0.735823.70/0.6830⇥16⇥16⇥16⇥4⇥6⇥1224.42 /0.729623.28 /0.688321.80 /0.648124.20 /0.724422.80 /0.672222.22 /0.642024.72 /0.7526--25.81/0.773923.86/0.712322.88/0.6659表3. VideoINR和基线缩放Slomo模型之间的分布外每平方米的定量比较[47]。在GOPRO数据集上进行评价。- A B是指A上采样空间尺度和B上采样时间尺度。方法GoProPSNR- ⇥4⇥2SSIMGoProPSNR- ⇥16⇥4SSIM缩放Slomo30.690.884723.380.6708视频INR30.260.879223.450.6710STVSR 包 括 Vid 4 、 GoPro-Center 和 Adobe-Center ,VideoINR-Fixed实现了与其他最先进型号具有竞争力的性能,而VideoINR的性能略有下降。我们将这一观察结果归因于VideoINR和VideoINR-Fixed之间的训练目标的差异。VideoINR的训练设置-固定的目标是在预定义的时间合成帧因此,它只学习输入帧之间的固定模式,而不是像VideoINR那样学习连续表示,从而在性能上具有优势。在Vid 4上,TMNet表现最好,我们假设这是因为TMNet使用更多数据进行训练,如2053图3. STVSR模型在不同上采样时间尺度上的推断时间。空间比例设置为4。我们选择最有效的两阶段方法(SuperSlomo + EDVR)作为基线。第4.2节。对于包括GoPro-Average和Adobe-Average的STVSR的多帧插值,VideoINR实现了最佳性能,这表明所提出的隐式神经表示在建模视频中的时间信息方面提供了进步。在表2中,我们给出了分布外空间和时间尺度上STVSR方法的比较。对于两阶段STVSR方法,我们选择SuperSloMo和DAIN作为2054⇥⇥⇥ ⇥⇥T=0 T=0.125 T=0.250 T=0.375 T=0.500 T=0.625 T=0.750 T=0.875DAIN +基本VSRTMNet视频INRDAIN +基本VSRTMNet视频INRT=0 T=0.17 T=0.33 T=0.50 T=0.67 T=0.83图4. 不同STVSR方法在任意帧内插上的定性比较。第一个例子的插值时间在训练分布中,第二个例子的时间在分布外。最好放大以获得更好的可视化效果。VFI方法和LIIF作为SR方法,因为它可以在任意上采样尺度上执行超分辨率。我们还把TMNet纳入比较,因为它可以在时间尺度上通用化。我们在GoPro [29]数据集上进行实验。我们观察到VideoINR的性能远远优于其他方法,这证明了我们的连续视频表示在分布外泛化方面的优势此外,我们进一步比较了VideoINR与Zooming SlowMo(VideoINR的编码器)在分布范围外的比例。由于Zooming SlowMo仅支持插值固定帧,因此我们将模型应用两次以实现分布外推断。在表3中,我们观察到,虽然缩放SlowMo在单帧插值上表现稍好( 42)、VideoINR实现在分销外测试中表现更好(16 4)。我们比较了STVSR方法的推理时间,图3.我们观察到,不同方法的效率在上采样时间尺度2处接近,并且VideoINR推断比多帧插值上的其他模型更快。我们将此功能归因于VideoINR的设计,其中两个输入帧之间的所有潜在帧可以在编码后直接由MLP合成。定性结果我们在图4中展示了定性比较。我们比较了VideoINR与 两种 STVSR 方 法, DAIN + BasicVSR 和TMNet。第一个样本的选定我们发现DAIN+ BasicVSR在非分销环境下会降级(参见第二个示例中骑手的头部)。TMNet无法恢复两个输入帧之间有大运动的对象(见第一个示例中的花的性能2055⇥⇥表4. VideoINR架构设计的消融研究。在GOPRO和Tube240数据集上进行评估。-f/m是指去除流对应和多尺度特征聚合。-s是指通过单个网络对时间和空间进行解码。架构设计GoPro-中心GoPro-平均Adobe-中心Adobe-平均PSNR SSIM PSNR SSIM PSNR SSIM PSNR SSIM视频INR30.260.879229.410.866929.920.874629.270.8651视频INR(-f)29.630.871928.760.861429.190.864128.500.8569视频INR(-m)29.990.875129.280.865529.680.869029.040.8606视频INR(-s)29.860.874129.200.865429.420.867828.950.8613表5. 使用不同数据设置训练的VideoINR上的消融研究。在GOPRO上评估-平均。-0.04是指在整个训练过程中将下采样空间尺度固定为0.04- 连续是指从头开始通过连续空间尺度训练VideoINR培训设置空间PSNR⇥2SSIM空间PSNR⇥3SSIM空间PSNR⇥4SSIM空间PSNR⇥6SSIM空间PSNR⇥12SSIM视频INR29.610.873429.140.868529.410.866925.400.759024.110.6913VideoINR(-100)VideoINR(-连续)28.2527.460.84900.826828.6228.350.86260.850729.5028.820.86960.854125.2425.100.75670.753323.8223.620.68570.6801VideoINR在分布内和分布外的时间坐标上都是稳定的,这表明学习连续视频表示有助于提高STVSR任务中的模型泛化能力。4.3. 消融研究运动流场 运动流是VideoINR的关键组成部分。以前的视频插值方法[16,18]已经证明,这种可学习的流有助于插入具有锐利边缘和清晰细节的帧我们认为,运动流场带来了两个主要的优点。首先,流场可以捕获大运动的非局部信息和时间背景。其次,我们显式地对特征应用空间扭曲,这作为训练的归纳偏差。在VideoINR和VideoINR(-f)之间的表4中,我们表明,当不包含运动流时,性能会降低。使用不同的数据设置训练VideoINR。在表5中,我们比较了在不同数据设置上训练的VideoINR的性能。如前所述,VideoINR遵循两阶段训练策略:第一阶段为固定下采样空间尺度,第二阶段为从均匀分布采样的连续空间尺度。VideoINR-4表示在VideoINR的整个训练过程中,空间尺度固定为4。VideoINR-continuous表示从头开始使用连续下采样空间尺度训练的VideoINR。我们发现,当我们只在连续尺度上训练VideoINR时,性能会显著下降。我们假设这是因为网络需要同时学习空间和时间表示,当空间特征的尺度不断变化时,学习这种时间表示变得非常困难。此外,我们观察到,使用固定空间尺度训练VideoINR在该特定尺度下的性能略好然而,在这方面,将其泛化性能与两阶段训练的VideoINR进行比较,并与VideoINR(-G4)在空间上的比较除了104以外的其他等级。其他设计选择。 我们在表4中提供了更多消融研究。通过比较VideoINR和VideoINR(-m),我们发现提出的多尺度特征聚合有助于性能的提高。我们还尝试用单个网络来代替SpatialINR和TemporalINR,也就是说,我们仅使用一个网络来生成连续运动流,并且仅对编码 的 特 征 和 输 入 帧 应 用 空 间 扭 曲 。 VideoINR 和VideoINR(-s)之间的结果表明,使用两个函数表示空间和时间的性能优于仅使用一个网络。5. 讨论结 论 在 本 文 中 , 我 们 提 出 了 视 频 隐 式 神 经 表 示(VideoINR)。它可以以任意的时空分辨率表示视频,这为解决时空视频超分辨率(STVSR)任务带来了天然的优势。大量的实验表明,VideoINR在常见的上采样尺度上与最先进的STVSR方法具有竞争力,并且在分布外尺度上大幅优于先前的作品。局 限 性 和 未 来 的 工 作 。 我 们 观 察 到 , 存 在 少 数VideoINR表现不佳的情况。这些情况通常需要处理非常大的运动,这仍然是视频插值的开放挑战。鸣谢。这项工作的部分支持来自Picsart的礼物。2056引用[1] Ivan Anokhin 、 Kirill Demochkin 、 Taras Khakhulin 、Gleb Sterkin、Victor Lempitsky和Denis Korzhenkov。具有条件独立像素合成的图像生成器。在IEEE/CVF计算机视觉和模式识别会议论文集,第14278-14287页,2021年。2[2] Wenbo Bao , Wei-Sheng Lai , Chao Ma , XiaoyunZhang,Zhiyong Gao,and Ming-Hsuan Yang.深度感知视频帧插值。在IEEE/CVF计算机视觉和模式识别会议论文集,第3703-3712页二、五、六[3] Jose Caballero 、 Christian Ledig 、 Andrew Aitken 、Alejandro Acosta 、 Johannes Totz 、 Zehan Wang 和Wenzhe Shi。结合时空网路与运动补偿之即时视讯超解析。在IEEE/CVF计算机视觉和模式识别会议论文集,第4778-4787页,2017年。2[4] Joao Carreira和Andrew Zisserman。你好,动作识别?新模型和动力学数据集。在IEEE计算机视觉和模式识别会议的论文集,第6299-6308页,2017年。1[5] Eric R Chan,Marco Monteiro,Petr Kellnhofer,JiajunWu,and Gordon Wetzstein. pi-gan:周期性隐式生成对抗网络用于3D感知图像合成。在IEEE/CVF计算机视觉和模式识别会议的论文集,第5799-5809页,2021年。2[6] Kelvin CK Chan,Xintao Wang,Ke Yu,Chao Dong,and Chen Change Loy. Basicvsr:搜索视频超分辨率及更高分辨率的基本组件。在IEEE/CVF计算机视觉和模式识别会议论文集,第4947-4956页,2021年。二、五、六[7] Yinbo Chen,Sifei Liu,and Xiaolong Wang.用局部隐式图像函数学习连续图像表示在IEEE/CVF计算机视觉和模式识别会议论文集,第8628-8638页,2021年。二、四、六[8] 陈志勤和张浩。学习生成式形状建模的隐式字段。在IEEE/CVF计算机视觉和模式识别会议(CVPR)上,2019年6月。2[9] Jifeng Dai,Haozhi Qi,Yuwen Xiong,Yi Li,GuodongZhang,Han Hu,and Yichen Wei.可变形卷积网络。在IEEE/CVF计算机视觉和模式识别会议论文集,第764-773页,2017年。2[10] Boyang Deng , John P Lewis , Timothy Jeruzalski ,GerardPons-Moll , GeoffreyHinton , MohammadNorouzi,and Andrea Tagliasacchi.美国宇航局神经关节形状近似。在计算机Springer,2020年。2[11] Terrance DeVries , Miguel Angel Bautista , NitishSrivastava,Graham W Taylor,and Joshua M Susskind.利用局部条件辐射场的无约束场景生成。arXiv预印本arXiv:2104.00670,2021。2[12] Christoph Feichtenhofer , Haoqi Fan , Jitendra Malik ,and Kaiming He. 用 于 视 频 识 别 的 慢 速 网 络 。 在IEEE/CVF计算机视觉国际会议论文集,第6202-6211页,2019年。1[13] Kyle Genova 、 Forrester Cole 、 Avneesh Sud 、 AaronSarna和Thomas Funkhouser。三维形状的局部深度隐式函数。IEEE/CVF会议论文集计算机视觉和模式识别,第4857- 4866页,2020年。2[14] Kyle Genova 、 Forrester Cole 、 Daniel Vlasic 、 AaronSarna、William T Freeman和Thomas Funkhouser。 使用结构化隐函数学习形状模板。在IEEE/CVF计算机视觉国际会议论文集,第7154-7164页,2019年。2[15] MuhammadHarisGregShakhnarovich 和 NorimichiUkita。时空感知多分辨率视频增强。在IEEE/CVF计算机视觉和模式识别会议论文集,第2859-2868页第1、3条[16] 黄哲伟,张天元,温恒,石博新,周书昌。Rife:用于视频帧插值的实时中间流估计。arXiv预印本arXiv:2011.06294,2020。8[17] 矶部隆、徐佳、谷书航、李松江、王胜金、齐天。具有递归结构-细节网络的视频超分辨率。在欧洲计算机视觉会议上,第645-660页。Springer,2020年。2[18] Huaiizu
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索AVL树算法:以Faculdade Senac Porto Alegre实践为例
- 小学语文教学新工具:创新黑板设计解析
- Minecraft服务器管理新插件ServerForms发布
- MATLAB基因网络模型代码实现及开源分享
- 全方位技术项目源码合集:***报名系统
- Phalcon框架实战案例分析
- MATLAB与Python结合实现短期电力负荷预测的DAT300项目解析
- 市场营销教学专用查询装置设计方案
- 随身WiFi高通210 MS8909设备的Root引导文件破解攻略
- 实现服务器端级联:modella与leveldb适配器的应用
- Oracle Linux安装必备依赖包清单与步骤
- Shyer项目:寻找喜欢的聊天伙伴
- MEAN堆栈入门项目: postings-app
- 在线WPS办公功能全接触及应用示例
- 新型带储订盒订书机设计文档
- VB多媒体教学演示系统源代码及技术项目资源大全
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功