全知框架的视频超分辨率：以现在和未来的SR输出为依据的高效方法

89 浏览量更新于2023-10-13 收藏 1.31MB PDF 举报

视频超分辨率

混合框架

身份认证购VIP最低享 7 折!

30元优惠券

4429全知视频超分辨率彭毅1、王中原* 1、姜奎1、姜军军2、3、路涛4、田欣5、马佳一51武汉大学计算机学院多媒体软件国家工程研究中心2哈尔滨工业大学计算机科学与技术学院3鹏程实验室4武汉工程5武汉大学{yipeng，kuijiang，xin.tian}@ whu.edu.cn，{wzy hope，junjun0595}@ 163.com，{lutxyl，jyma2010} @ gmail.com摘要最近的视频超分辨率（SR）方法要么采用迭代方式来处理来自时间滑动窗口的低分辨率（LR）帧，要么利用先前估计的SR输出来帮助递归地重建当前帧。少数研究试图将这两种结构结合起来，形成一个混合框架，但未能充分发挥其作用。在本文中，我们提出了一个无所不知的框架，不仅利用以前的SR输出，而且还利用SR输出从现在和未来。全知框架更具有一般性，因为迭代框架、递归框架和混合框架都可以被视为其特例。建议的全知框架，使发电机的行为比其他框架下的同行。在公开数据集上的大量实验表明，该方法在客观度量、主观视觉效果和复杂度等方面均优于现有方法.GOVSR（我们的）迭代经常性&杂交图1：Vid4 [1]数据集上的性能和时间成本。红色圆圈表示迭代方法，蓝色圆圈表示递归和混合方法。更多详情请参见表4和表6。说明了几十个国家的最先进的（SOTA）VSR方法的性能和速度。1. 介绍超分辨率（ SR ）的目的是从对应的低分辨率（LR）图像重建高分辨率（HR）图像。作为S-R中最基本的问题，单图像超分辨率（SISR）已经得到了较为深入的研究，在统一的框架下，研究者只需设计不同种类的卷积神经网络（CNN）[4，14，32，31，3]就可以解决这个问题。基于SISR，视频超分辨率（VSR）也已经被开发，尽管已经提出了很多工作[1，22，19，27，29，11，10]，但是在VSR中还没有一个统一的框架占主导地位。图1*通讯作者。代码：https://github.com/psychopa4/OVSR。由于SISR只需要一幅输入图像，因此大多数SISR方法都集中在探索不同的生成器网络，以便在统一的框架下从这一幅图像中提取特征。然而，由于VSR涉及连续的视频帧作为输入，用于处理的时间信息的不同方案我们在图2中展示了不同类型的VSR框架。如图2（a）所示，最新的VSR方法[1，22，25，30，12，24，29，23，11]应用迭代方式来处理来自时间滑动窗口的LR帧，其中我们仅示出窗口大小为3的情况。给定视频帧序列，迭代框架将整个VSR处理视为多个独立的子过程。从理论上讲，这些子过程在时间上不相关，并且可以同时处理，这意味着它们享有并行计算的优势。4430..................GGGGGGGGGGGGGGG..................(a) 迭代振动时效(b) 复发性VSR(c) 混合振动时效......向前............向前............落后............向前......(d) 局部全知VSR（e）全局全知VSR图2：VSR的不同类型的框架，其中“G”表示生成器网络。红色、黑色和蓝色箭头分别表示过去、现在和未来的信息。ing [29]。然而，迭代框架只能通过增加窗口大小来获得更多的相邻LR帧，而忽略了先前估计的SR输出，这正是阻止其获得更好性能的原因。如图2（b）所示，递归框架[19，10]按顺序处理视频帧，而它不能利用后续帧来帮助恢复当前帧，这限制了它的潜力。虽然有少数研究[5，27]试图将这两个框架结合起来形成一个混合框架，如图2（c）所示，但它只能接收来自过去的估计隐藏状态，并且它们没有取得令人满意的结果。循环和混合框架仅利用先前的隐藏状态，这启发我们想知道如果我们进一步尝试涉及来自现在和未来的隐藏状态会怎样。为此，我们提出了全知框架.具体来说，我们集成了两个子网络：前体网络Netp和后继网络Nets合并到全知框架中。后继网络继承由前驱网络生成的隐藏状态，并且因此设法利用来自过去、现在和未来的LR帧和隐藏状态。如图2（d）和图2（e）所示，全知框架可以进一步分为两类：局部全知和全局全知。局部全知框架单向处理视频帧，全局全知框架单向处理视频帧双向的全局全知框架使得任何LR帧能够从同一视频序列中的所有其他帧接收信息，然而，它不适合于像直播这样的延迟敏感的实时任务，而本地全知框架则很适合。总体而言，在本文中，我们提出了一个更通用的全知框架，利用LR框架和估计隐藏状态的过去，现在和未来。事实上，如图2所示，迭代、循环和混合框架可以被视为我们提出的全知框架的特殊对应物。我们在不同的框架下探索了同一种生成器网络我们的模型在性能和复杂度上都超过了其他SOTA方法，因此我们希望这个框架能够成为VSR的标准框架，在这个框架下，研究人员可以自由地设计更有效的生成器网络，显式或隐式的运动信息捕获模块，或者损失函数来挖掘它的潜力。2. 相关工作2.1. 迭代视频超分辨率随着深度学习技术的发展，大量基于CNN的SISR方法，如. SRCNN [4]，VDSR [14]，具有4431一些早期的VSR方法[1，13，17]受到启发，并简单地将SISR的架构应用于VSR。这些方法将VSR看作是SISR的多输入耦合，采用迭代框架求解，根据生成网络的不同，这些迭代方法又可分为两类：迭代[18，12，24，29，23，11，28]和递归[22，25，30，7]。第特别地，RVSR-LTD [18]设计了具有金字塔结构的时间自适应EDVR [24]已经设计了具有时间和空间注意力（T-SA）融合模块的金字塔、级联和可变形（PCD）对准模块以实现奇妙的结果，然而，其训练资源要求是禁止的。PFNL [29]提出了一种具有非局部相关性提取模块的渐进融合网络，其在性能和复杂性方面都获得了惊人的结果TDAN[23]设计了一个时间上可变形的对齐网络，TGA [11]利用具有2D和3D残差块的混合模块进行组间融合。另一组基于迭代的方法采用递归生成器网络来转移时间相关性。DRVSR [22]利用ConvLSTM [21]模块来捕获长距离时间信息，基于此，MMCNN [25]设计了一个多存储器残差块来增强存储能力。MTUDM [30]提出了一种超密集的内存残留块，以构建更浅但更宽的网络。RBPN [7]将[6]扩展到视频SR，其逐步将LR帧发送到投影模块中。总之，这些迭代方法一直致力于设计越来越复杂的发电机网络，但同时也带来了巨大的计算成本。2.2. 递归和混合视频超分辨率关于递归方法，FRVSR [19]提出了一种帧递归网络，以利用最后重建的SR帧来重建当前帧，这是快速的，但不够鲁棒。RSDN [10]设计了一个双通道网络来学习帧的结构和细节。然而，这些循环方法拒绝来自后续LR帧的辅助。FFCVSR [27]和RLSP [5]试图形成混合框架，但无法实现美妙的结果，因为1)混合框架仍然不能利用来自现在和将来的估计的隐藏状态，以及2）它们的幼稚网络设计使它们反对最大化它们的潜力。3. 方法3.1. 全知视频超分辨率如图2所示，混合VSR结合了迭代VSR和递归VSR的思想，它同时采用相邻LR帧和先前估计的SR作为源信息输出。理论上，相邻LR帧提供LR空间中最基本的时空信息，并且估计的SR输出可以保留连接到HR空间的更多。因此，将它们组合以充分利用空间-时间相关性是很自然的。基于上述分析，我们想知道如果我们进一步引入估计的SR输出从现在和未来。然而，经过长时间的考虑，我们认为，如果只处理通过视频帧在一个单一的时间，如迭代，recurren- t，或混合VSR的想法是不可能实现的。最终，如图2（d）和图2（e）所示，我们设法设计了两个子网：前体网络Netp和后继网络Nets以形成OVSR框架。前驱网络首先遍历LR帧，生成SR帧和各时间步的隐藏状态，后继网络利用相应的LR帧和估计的隐藏状态重构所有SR帧我们进一步添加由前驱和后继两者生成的SR帧以用于细化以重构最终SR输出。根据先驱网络和后继网络的方向，OVSR可以进一步分为局部全知VSR（LOVSR ）和全局全知VS-R（GOVSR）。LOVSR的Netp和Nets都以相同的方向处理然后，我们通过巧妙地反转Netp的方向来设计GOVSR，通过该GOVSR，任何LR帧都可以访问同一视频序列中的所有其他帧，因此它被称为“全局全向”。虽然GOVSR能够利用所有帧来帮助在任何时间步重建一个帧，但它严重依赖于未来的信息。然而，在LOVSR很适合的一些延迟敏感的实时任务中，如实况广播和在线会议，太远的未来帧实际上是不可访问的。总之，LOVSR适合在线VSR，GOVSR更适合离线VSR。尽管如此，无所不知的VSR，无论LOVSR还是GOV-SR，都可以利用LR帧和来自过去、现在和未来的估计的隐藏状态。最近，BasicVS- R [2]也提出了一个适合离线VSR的双向框架，而忽略了在线VSR的情况。值得一提的是，建议的全知-该框架不需要发电机网络的特定结构，相反，任何种类的现有发电机网络都可以容易地插入到图3所示的体系结构中，只要它们满足等式（1）和等式（2）所示的形式。4432......残余块CCC...CC...C=L−×不t−1不不电话+1不不不不不不不不t tt不图3：我们的模型在全局全知框架下的整体架构，以及局部全知情况可以根据图2（d）推断。“红色、黑色和蓝色箭头分别表示过去、现在和未来的信息。3.2. 网络设计然后，我们详细介绍了我们的模型在全知框架下的具体网络设计。尽管我们提出的OVSR在理论上能够利用更多的源信息，但它仍然需要一个设计良好的溶解层[20]。我们在每个卷积层（除了upgrade模块中的最后一个）之后设置Leaky ReLU激活[9]，参数α= 0。二、前体网络可以描述为ISRp，Hp=Netp（{ILR，ILR，ILR}，Hp），（1）发电机网络，以实际发挥其潜力。福图ttt−1不电话+1电话+1最后，我们从 PFNL [29] 学习渐进融合残差块（PFRB），其是复杂的并且显示出有效和高效。其中{ILR，ILR，ILR}代表相邻LR其中，SR_p和H_p表示SR帧和由前体生成的隐藏注意，Hp是针对GOVSR，应该是p电话+1为了将PFRB与全知框架相结合，我们对其进行了改进，以体现3个通道。如图3所示，我们在而不是LOVSR的H t1。继承网络可以描述为I SRs，H s= Net s（{I LR，I LR，I LR}，{H s，Hp，Hp}），t tGOVSR，并且可以推断LOVSR情况因为t−1不电话+1t−1t电话+1（二）前驱网络和后继网络共享类似的结构，其中ISRs和Hs表示SR帧和隐藏状态t t实际上，我们只需要引入后继网络。我们调整PFRB以体现3个通道，它们分别包含来自过去、现在和未来的我们首先采用一个卷积层来融合对应的由继任者产生。我们添加由Netp和Nets生成的SR帧以形成最终输出。ISR=ISRs+ISRp，（3）LR帧ILR和隐藏状态Ht以获得特征FLR。因为Net继承Net，我们自然将Net限制为t ts p p相应地，这3个特征分别包含来自过去、现在和未来的信息然后，在剩余块中，从这3个通道中提取特征主要学习低频结构和网络来研究帧内的高频细节我们采用Charbonnier损失函数[16]来形成损失函数：独立地并且合并在一起，其中帧内s-空间相关性和帧间时间相关性是L=0。（IHR−ISR）2+ε2+α。（IHR−ISRp）2+ε2，从这3个通道中被级联并由33卷积层以获得更新的隐藏状态H s. H_s被升级到I_SR_s，并且然后由SR帧，以重构最终SR输出ISR，其中，放大模块由2个卷积层组成，每个卷积层之后是子像素卷积。Conv 3x3LReLUConv 3x3LReLUConv 3x3LReLUConv 3x3LReLUConv 3x3LReLUConv 1x1LReLUConv 3x3LReLUConv 3x3LReLUConv 3x3LReLU残余块Conv 3x3LReLUConv 3x3LReLU高档LReLUConv 3x3高档残余块残余块充分利用[29]。在网络的末端，功能（四）4433不其中I HR表示原始HR帧，α被设置为调整前驱网络的权重，ε根据经验设置为10−3。总之，我们的模型充分利用了时空核心-LR帧中包含的关系和来自过去、现在和未来的估计的隐藏状态。4434LOVSR0+61+52+4三加三4+2五加一6+0峰值信噪比/dB不××不×××不31.2531.0030.7531.231.031.431.231.030.5030.830.830.2530.0030.630.430.630.429.7530.230.229.50020406080100120140迭代次数/k（一）30.0020406080100120140迭代次数/k（b）第（1）款30.0020406080100120140迭代次数/k（c）第（1）款31.631.231.431.031.230.83130.830.630.430.230.630.430.230.0020406080100120140迭代次数/k（d）其他事项30.0020406080100120140迭代次数/k（e）图4：（a）在不同VSR框架下训练的类似生成器网络。（b）（c）在训练期间通过改变等式⑷中的α来调整ISRP（d）（e）调整Netp和Nets的比例，其中4. 实验4.1. 实现细节我们首先采用公共MM 522数据集[25]进行训练-表1：不同模型的性能、参数、FLOP和测试时间成本。在[29]中的20个序列上评估PSNR，而在4×SR下相对于1280 × 720 HR帧评估FLOP和测试时间成本。ing，它包含522个32帧序列，场景在训练过程中，我们采用了[29]中的20个视频序列进行评估。当在MM522数据集上训练时，我们在Vid4 [1]和UDM10 [30]测试数据集上测试模型。我们还在另一个公共训练数据集Vimeo-90 K [26]上进行了实验，并在其测试数据集Vimeo-90 K-T上测试了模型（请参见sup.jsp）。补充材料）。如在[12，24，29，10]中，我们采用σ =1的高斯模糊。6然后4下采样方案。我们使用Adam [15]优化器，β1=0。9和β2=0。999我们将批处理大小设置为16，并将LR大小输入为六四六四我们只为消融研究提供7个连续帧，并训练我们的最终模型以及重建其他模型。SOTA方法中，我们设置了2个额外的帧用于馈送LR LR4.2. 全知vs迭代、循环和混合我们比较了相同的生成器网络下的迭代，经常性，混合和无所不知的框架（表示为IVSR，RVSR，HVSR和OVSR），其中只有必要的调整，以满足这些框架的输入/输出的形式。请注意，IVSR，RVSR和HVSR仅体现一个生成器网络，因此我们必须添加双三次放大帧IBic用于残差学习[8，14]。It−1，H t−1在开始，It+1，H t+1在结束[5]。初始学习率为1×10−3，并线性不对于LOVSR和GOVSR，我们还替换I带IBic的SRp在120K次迭代之后，其变为1 10−4然后，学习率进一步衰减到5 × 10- 5和1 × 10- 5，直到收敛。整个训练过程持续大约300 K-400 K次迭代。我们在Python 3.6、PyTorch 1.6和NVIDIA RTX 2080TiGPU上进行了实验。在等式（3）中，并且我们在等式（4）中设置α=0公平的比较。我们将多通道PFRB集成在-在这些框架中，我们为IVSR、RVSR和HVSR设置了5个PFRB，过滤器编号为64。如图4（a）和表1所示，HVSR在PSNR方面大大优于IVSR和RVSR，这证实了HVSR的有效性。GOVSRLOVSRHVSRIVSRRVSRLOVSR= 1= 0.1= 0.01= 0+双三次GOVSR= 1= 0.1= 0.01= 0+双三次GovSR0+61+52+4三加三4+2五加一6+0峰值信噪比/dB峰值信噪比/dB峰值信噪比/dB峰值信噪比/dB模型IVSRRVSRHVSRLOVSRGOVSR参数（M）1.8641.8661.8681.8971.897FLOPs（G）107.780107.696107.796109.746109.746测试时间（ms）23.0623.3323.2925.3525.35峰值信噪比（dB）30.6630.6031.1031.2431.274435不表2：通过调整PSNR（dB）的权重来评估的PSNR通过改变等式（4）中的α来计算I SR p。设置+双三次α=0α = 0。01α =0。1α=1LOVSR31.2431.2531.2331.2631.17GOVSR31.2731.2831.3631.3231.30表3：通过调整前体和后继网络中的残余块来评估的PSNR（dB）。“4+2” de- notes setting 4 residual blocksin设置0+61+52+4三加三4+2五加一6+0LOVSR31.1231.2631.2031.2331.2831.2631.24GOVSR31.2031.3631.4031.4631.5231.4731.43利用来自过去的隐藏状态和未来的LR帧的有效性。然而，正如第1节和第3.1节所讨论的，HVSR仍然无法利用来自现在和未来的隐藏状态然后，为了训练我们的模型LOVSR和GOVSR，我们首先在Netp中设置1个PFRB，在Nets中设置5个PFRB，并将过滤器数量调整为56。此设置旨在保持这5个模型的参数、计算和时间成本几乎相同。如表 1 所示，在相似的参数下，LOVSR和GOVS- R在PSNR上分别超过HVSR约0.14 dB和0.17 dB。GOVSR算法利用全局信息重构视频序列中的所有帧，具有更大的优势。总的来说，类生成器网络在全科学框架下取得了巨大的进步，这无疑证明了它的有效性。4.3. 重建细化在第4.2节中，由于IVSR、RVSR和HVSR不拥有前体网络，因此我们采用双三次放大结果来替换OVSR前体给出的SR帧。然而，双三次放大对于我们的全知框架来说并不是最佳的。由于OVSR由前体网络和后继网络组成，我们自然会考虑让前体网络和后继网络分别学习因此，我们在训练期间改变等式（4）中的α以探索最佳选项。训练曲线如图4（b）和图4（c）所示，而具体数字如表2所示。对于LOVSR，我们发现α=0。1是最佳选择，它超过了“+Bicubic”0.02 dB。对于GOVSR，设置α= 0。01的PSNR达到31.36 dB，超过了“+Bicubic”的0.09 dB。我们认为净p和净s在GOVSR合作更好地由于全球信息利用。值得一提的是，在某些情况下，尤其是当如图4（b）和图4（c）所示，对前体（α=0）不加限制，模型在训练过程中可能会突然下降，但最终仍会收敛。4.4. 前体和后继体在第4.2节和第4.3节中，我们仅在OVSR的前体中设置1个PFRB，在后继中设置5个PFRB。然而，Netp和Nets的最佳比例仍需要探索。因此，我们保持残差块的总数固定（6），并且调整Netp（从0到6）和Nets（从6到0）中的残差块以找到适当的比例。训练曲线如图4（d）和图4（e）所示，而具体数字如表3所示。显然，“0+6”或“6+0”都不是最佳或次佳的选择，这验证了同时设计前体网络和后继网络的必要性。LOVSR和GOVSR两者在前体中具有4个残余块并且在后继中具有 2 个残余块的情况下实现其最佳性能，但是GOVSR在最佳设置下实现31.52dB，这再次证明了利用全局信息的优点。注意，优化后，LOVSR和GOVSR模型的峰值信噪比分别达到31.28dB和31.52dB，分别优于在类似的参数和计算成本下，我们的OVSR优于现有的IVSR、RVSR和HVSR，足以证明进一步涉及从现在和未来估计的隐藏状态的有效性。4.5. 与SOTA方法的比较由于大多数方法在不同的训练数据集上使用不同的下采样内核来训练它们的模型，因此仅根据它们的论文来比较这些方法是不公平的。因此，我们在相同的训练数据集上使用相同的下采样内核重新实现了数十种SOTA VSR方法。由于PFNL [29]已经在相同的训练条件下重建了DRVSR [22]、FRVSR [19]和DUF 52L[12]，因此我们采用它们的公共代码。基于PFNL的公共代码，我们在TensorFlow平台上重新实现了MM-CNN[25]和MTUDM [30]M. 此外，我们在PyTorch平台上重建了RBPN [7]，EDVR [24]，FFCVSR [27]，TDAN [23]，RSDN [10]和RLSP [5]我们不能重新训练TGA，因为它需要太多的GPU内存，我们必须在论文中报告结果我们首先在MM522上重新实现了这些VSR方法[25]训练数据集，然后在Vid 4 [1]和UD-M10 [30]测试数据集上测试它们PSNR和SSIM值仅在YCbCr色彩空间的亮度通道上计算，跳过第一和最后两个帧并省略。4436表4：通过放大因子4的Vid 4测试数据集[1]上的不同视频SR模型的PSNR（dB）/ SSIM。红色和蓝色分别表示最佳和次佳结果。*表示原始论文中报告的结果。方法日历市树叶走平均平均价格DRVSR [22]22.88 /0.758627.06 /0.769825.58 /0.730729.11 /0.887626.16 /0.786725.52 /0.7600FRVSR [19]23.46 /0.785427.70 /0.809925.96 /0.756029.69 /0.899026.70 /0.812626.69 /0.8220美国有线电视新闻网[25]23.63 /0.796927.47 /0.808326.01 /0.753229.94 /0.903026.76 /0.815426.28 /0.7844MTUDM [30]23.76 /0.802627.67 /0.814526.08 /0.758730.16 /0.906926.92 /0.820726.57 /0.7989DUF 52L [12]23.85 /0.805227.97 /0.825326.22 /0.764630.47 /0.911827.13 /0.826727.34 /0.8327RBN [7]24.33 /0.824428.28 /0.841326.46 /0.775330.58 /0.913027.41 /0.838527.16 /0.8190EDVR [24]24.30 /0.824228.04 /0.838226.45 /0.774430.63 /0.914027.36 /0.837727.35 /0.8264法国民族解放阵线[29]24.37 /0.824628.09 /0.838526.51 /0.776830.64 /0.913427.41 /0.838327.40 /0.8384FFCVSR [27]24.39 /0.825027.80 /0.831426.70 /0.786830.55 /0.912427.36 /0.838926.97 /0.8300RLSP7-256 [5]24.60 /0.833528.14 /0.845326.75 /0.792530.88 /0.919227.60 /0.847627.55/-TDAN [23]23.56 /0.789627.53 /0.802826.00 /0.749129.99 /0.903226.77 /0.811226.86 /0.814TGA* [11]24.47 /0.828628.37 /0.841926.59 /0.779330.96 /0.918127.59 /0.841927.59 /0.8419RSDN9-128 [10]24.74 /0.838628.75 /0.855427.00 /0.801330.85 /0.918327.83 /0.853427.92 /0.850LOVSR-4+2-56（我们的）24.71 /0.83780.850226.94 /0.796930.97 /0.920427.78 /0.851327.78 /0.8513LOVSR-8+4-56（我们的）24.93 /0.843929.08/0.861627.11 /0.807331.23 /0.923928.09 /0.859228.09 /0.8592LOVSR-8+4-80（我们的）25.10 /0.851528.97 /0.866627.25 /0.812431.47 /0.927328.20 /0.864428.20 /0.8644GOVSR-4+2-56（我们的）24.88 /0.846328.74 /0.861427.06 /0.807531.27 /0.924527.99 /0.859927.99 /0.8599GOVSR-8+4-56（我方）25.16/0.855628.76 /0.868327.36/0.81931.60/0.929028.22/0.868028.22/0.8680GOVSR-8+4-80（我方）25.28/0.858129.10/0.876927.49/0.823031.79/0.931428.41/0.872428.41/0.8724表5：UDM 10测试数据集[30]上的不同视频SR模型的PSNR（dB）/ SSIM，放大因子为4。红色和蓝色分别表示最佳和次佳结果。方法原始人拱墙礼堂带Caffe相机鼓掌湖摄影polyflow平均DRVSR [22]35.83/0.954741.16/0.967129.00/0.903934.32/0.957939.08/0.971545.19/0.990536.20/0.963531.15/0.844036.60/0.962737.91/0.956536.64/0.9472FRVSR [19]36.24/0.957941.65/0.971029.81/0.918134.54/0.958939.82/0.974646.07/0.991236.51/0.965931.70/0.862336.95/0.965538.38/0.959737.17/0.9525美国有线电视新闻网[25]36.95/0.963642.12/0.972930.05/0.921735.23/0.964540.29/0.976046.89/0.992237.32/0.970431.76/0.864237.81/0.970438.85/0.964937.73/0.9561MTUDM [30]37.16/0.965542.33/0.974430.37/0.927435.46/0.966140.68/0.977347.15/0.992437.69/0.972732.03/0.873438.18/0.972739.10/0.967038.02/0.9589DUF 52L [12]36.92/0.963842.53/0.975430.27/0.925735.49/0.966041.03/0.978547.30/0.992737.70/0.971932.06/0.873038.02/0.971939.25/0.966738.05/0.9586RBN [7]38.50/0.972943.53/0.979031.23/0.937635.49/0.967841.83/0.981049.25/0.994038.35/0.975732.48/0.883738.96/0.977140.38/0.973239.00/0.9642EDVR [24]38.46/0.973243.35/0.978331.15/0.937235.97/0.969641.76/0.980849.49/0.994738.22/0.975932.21/0.879039.40/0.979340.47/0.973939.05/0.9642法国民族解放阵线[29]38.35/0.972443.55/0.979231.18/0.936936.01/0.969141.84/0.980849.26/0.994138.33/0.975632.53/0.886538.95/0.976840.04/0.973439.00/0.9645FFCVSR [27]37.50/0.966742.98/0.976630.50/0.927035.71/0.966941.27/0.979848.65/0.993637.88/0.972732.23/0.872938.42/0.973939.74/0.969138.49/0.9599RLSP7-256 [5]38.05/0.970443.46/0.978731.01/0.934236.05/0.969342.06/0.981849.14/0.993938.41/0.975632.60/0.886539.03/0.977140.38/0.974839.02/0.9642TDAN [23]37.95/0.969942.60/0.974730.54/0.928335.23/0.964540.59/0.977348.38/0.993637.42/0.971431.87/0.866838.28/0.974039.00/0.966038.19/0.9586RSDN9-128 [10]38.36/0.971943.68/0.979631.65/0.941636.13/0.969642.22/0.982449.88/0.994638.48/0.976232.67/0.886039.47/0.979340.44/0.973539.30/0.9655LOVSR-4+2-56（我们的）38.26/0.971843.57/0.979431.22/0.937636.23/0.970242.28/0.982549.43/0.994238.51/0.976332.73/0.890539.24/0.978140.43/0.975339.19/0.9656LOVSR-8+4-56（我们的）38.61/0.973643.84/0.980431.78/0.943736.52/0.971742.79/0.983650.28/0.994838.95/0.978132.89/0.893239.89/0.980740.99/0.977339.65/0.9677LOVSR-8+4-80（我们的）39.01/0.975544.13/0.981532.24/0.948036.80/0.973243.16/0.984350.52/0.995039.26/0.979333.13/0.900640.29/0.982041.32/0.978539.99/0.9698GOVSR-4+2-56（我们的）38.44/0.972743.73/0.980231.48/0.940836.32/0.970842.58/0.983349.54/0.994238.80/0.978132.89/0.896939.44/0.979040.45/0.976739.37/0.9673GOVSR-8+4-56（我方）38.79/0.974744.12/0.981832.30/0.948836.82/0.973443.09/0.984150.46/0.994939.35/0.980233.22/0.904440.29/0.982141.17/0.979139.96/0.9703GOVSR-8+4-80（我方）39.01/0.975744.44/0.982832.53/0.951037.03/0.974443.07/0.984550.60/0.995039.58/0.980933.34/0.906640.48/0.983041.28/0.979140.14/0.97134437在每个帧的四个边界上产生8个像素[13，29]。如表4所示，我们的重型模型G 0 VSR-8+4- 80实现了最佳结果，而我们的中型模型G 0 VSR-8+4-56实现了第二好的性能。基于LOVSR的模型由于不能利用全局信息而表现得比基于GOVSR的模型稍差，但它们仍然优于大多数其他SOTA方法。由于Vid4数据集仅包含4个低分辨率场景分辨率，我们进一步测试这些方法上一个更大的测试数据集UDM10。由于许多方法没有在UDM10数据集上进行实验，我们只在表5中报告了我们重建的结果。我们的重型型号GOVSR-8+4- 80实现了最佳性能，而GOVSR-8+4-56和LOVSR-8+4-80实现了相当的性能。为了进行全面的比较，我们展示了这些方法的更多细节，例如。框架和发电机的类型4438×真相FFCVSRRBPNEDVRPFNLTDANRLSP7-256RSDN 9 -128LOVSR-8+4-80（我方）GOVSR-8+4-80（我表6：不同视频SR方法的综合比较方法框架生成器帧参数（M）FLOPs（T）1280×720时间（ms）/FPS1280× 720时间（ms）/FPS1920× 1080DRVSR [22]迭代复发性31.7220.415123.6/ 8.09276.2/ 3.62FRVSR [19]复发性复发性25.0580.34877.5/ 12.90172.1/ 5.81美国有线电视新闻网[25]迭代复发性510.5823.347696.7/ 1.441548.9/ 0.65MTUDM [30]迭代复发性55.9191.672506.9/ 1.971127.6/ 0.89DUF 52L [12]迭代迭代75.8242.3481108.0/ 0.902499.8/ 0.40RBN [7]迭代复发性712.7728.5166555.7/ 0.1514935.8/ 0.07EDVR [24]迭代迭代720.6992.954436.7/ 2.29979.2/ 1.02法国民族解放阵线[29]迭代迭代73.0030.940231.0/ 4.33567.0/ 1.76FFCVSR [27]混合混合35.5810.32250.8/ 19.69112.7/ 8.87RLSP7-256 [5]混合混合35.5530.32042.9/ 23.3191.9/ 10.88TDAN [23]迭代迭代52.2850.558102.3/ 9.78225.4/ 4.44TGA [11]迭代迭代77.0580.700383.5/ 2.61869.7/ 1.15RSDN9-128 [10]复发性复发性26.1800.35659.3/ 16.86132.0/ 7.58OVSR-4+2-56（我方）无所不知无所不知31.8970.11025.4/ 39.3756.1/ 17.83OVSR-8+4-56（我们的）无所不知无所不知33.4800.20146.5/ 21.51101.9/ 9.81OVSR-8+4-80（我们的）无所不知无所不知37.0620.40781.2/ 12.32178.5/ 5.60图5：Vid4 [1]数据集日历帧数、参数、 FLOP 、测试时间成本和每秒帧数（FPS）。如表6所示，我们的轻型型号OVSR-4+2-56实现了最快的速度，能够实现720 p的实时4VSR。我们的中等模型OVSR-8+4-56在PSNR上远远超过了所有其他SOTA方法，并且仍然比几乎所有方法都快。我们的重型型号OVSR-8+4-80不得不牺牲速度以实现最佳性能，这是必要的，也是值得的。如图5所示，我们的方法可以重新存储更清晰的细节.总之，我们的方法优于这些SOTA VSR同行在客观指标，主观视觉效果和复杂性。5. 结论在本文中，我们提出了一个全知的框架VSR，它可以分为局部全知的VS- R和全局全知的VSR。LOVSR适合在线VSR，GOVSR适合

下载后可阅读完整内容，剩余1页未读，立即下载