没有合适的资源?快使用搜索试试~ 我知道了~
具有显式时间差异建模的视频超分辨率方法
174110来回看:具有显式时间差异建模的视频超分辨率0Takashi Isobe 1 Xu Jia 2 * Xin Tao 1 Changlin Li 1 Ruihuang Li 30Yongjie Shi 4 Jing Mu 1 Huchuan Lu 2 , 5 Yu-Wing Tai 1 *01 快手科技 2 大连理工大学 3 香港理工大学 4 北京大学 5 鹏城实验室0{isobetakashi, taoxin, lichanglin, mujing03, daiyurong}@kuaishou.com0{xjia, lhchuan}@dlut.edu.cn csrhli@comp.polyu.edu.hk shiyongjie@pku.edu.cn0摘要0时间建模对于视频超分辨率至关重要。大多数视频超分辨率方法采用光流或可变形卷积来进行显式的运动补偿。然而,这些时间建模技术会增加模型的复杂性,并且在遮挡或复杂运动的情况下可能失败,导致严重的失真和伪影。在本文中,我们提出在低分辨率和高分辨率空间中探索显式时间差异建模的作用。我们不是直接将连续的帧输入到VSR模型中,而是计算帧之间的时间差异,并根据差异的程度将像素分为两个子集。它们分别使用具有不同感受野的两个分支进行处理,以更好地提取互补信息。为了进一步增强超分辨率结果,我们不仅提取空间残差特征,还计算了高频域中连续帧之间的差异。这使得模型可以利用未来和过去的中间超分辨率结果来改善当前的超分辨率输出。不同时间步的差异可以被缓存,以便将来自时间上更远的信息传播到当前帧进行改进。在几个视频超分辨率基准数据集上的实验证明了所提出方法的有效性以及其对现有方法的优越性能。01. 引言0超分辨率(SR)是一项重要的视觉任务,旨在从低分辨率(LR)观测中恢复高分辨率(HR)图像。单图像超分辨率(SISR)[2,7,10,18,19,21,31,41,46]方法主要依赖于从大型数据集中学习的图像先验或图像内的自相似性来合成高频内容,而0*通讯作者0图1. Vid4[27]上的VSR性能比较,以PSNR(dB)和运行时间(ms)为指标。我们提出的ETDM方法在高效性方面优于先前的方法。0视频超分辨率(VSR)方法[1,15,16,22,25,28,37,43]期望从相邻帧中提取有价值的互补细节,这些细节可以提供更多信息来缓解病态问题。由于深度学习技术的发展,这两个任务都取得了显著的进展。随着越来越多的视频被记录下来,VSR已经成为许多应用程序(如视频修复,实时流媒体和监控)中的关键组成部分。0为了有效地探索帧内丰富的时空信息,一些方法[4,23,36,37,40,42,45]尝试通过显式或隐式的运动补偿来对帧间的时间信息进行建模。然而,显式的运动补偿[40,42]会增加模型的复杂性,并且在运动估计中不可避免地会产生错误,导致失真和降低超分辨率结果的质量。具有隐式运动补偿的方法,例如3D卷积层[17,29],完全依赖于模型的容量,忽略了174120有价值的时间先验。另一种方法是以单向或双向的循环方式探索时间信息。它们可以在隐藏状态中积累丰富的历史信息,无论是仅来自过去[9, 13, 15, 28,34],还是从未来和过去同时提取有益的互补信息以进行细节恢复[3,5,43]。然而,它们要么在每一帧上积累不平衡的历史信息,要么需要大量的内存缓存。尽管已经提出了许多技术来提取互补信息,但尚未明确探索不同时间步的帧之间的差异和超分辨率结果的差异。最近,探索了显式时间差异建模的想法,并成功应用于视频相关任务,以改善性能或效率。在[38,39]中,作者提出利用帧之间的RGB差异作为模拟运动的高效替代方法。时间差异网络能够有效地捕捉短期和长期信息,这对于动作识别任务至关重要。在这项工作中,我们探索了显式时间差异建模在低分辨率和高分辨率空间中的作用。VSR以单向循环的方式进行,以提高效率并避免双向循环的大内存缓存。我们提出的方法不是直接将连续的帧输入到VSR模型中,而是计算参考帧和相邻帧之间的时间差异。相邻帧根据差异的程度分为两个子集,较小的子集作为低方差区域,较大的子集作为高方差区域。它们分别与参考帧一起输入到具有不同感受野的两个分支中。这两个分支的输出被合并并输入到空间残差头部以重建初始的超分辨率结果。此外,未来残差头部和过去残差头部分别用于基于初始空间残差特征的未来和过去时间步的高分辨率空间中的时间差异建模。通过这种方式,当前步骤的结果将通过允许模型在未来和过去的中间估计中前后查看而在高分辨率空间中进一步增强。此外,不同时间步的空间残差特征之间的时间差异将被缓存。因此,来自更远时间步的信息可以传播到当前时间步进行综合改进。与双向方法相比,所提出的方法既享受了单向网络的效率,又具有双向信息传播的能力,但具有灵活的缓存。所提出的方法在几个基准数据集上取得了优异的性能。我们进行了几项消融研究来检验其组成部分的有效性。我们的主要贡献如下:(1)一个新的框架,以显式方式探索低分辨率和高分辨率空间中的时间差异0和HR用于VSR任务;(2)一种新颖的前后推理策略以提高性能;(3)在几个VSR基准测试中对抗现有技术的有利性能。02. 相关工作0多帧超分辨率。一些方法以明确的方式探索时间信息。Xue等人[42]提出了一种新的亚像素运动补偿层,用于同时计算光流和上采样。TDAN [36]和EDVR[40]采用可变形卷积在特征级别进行运动对齐。然而,具有明确运动补偿的方法会导致巨大的计算成本,并且运动估计中不可避免的错误可能容易产生伪影。为了避免这些问题,[14,17,44]使用隐式运动补偿进行VSR。Jo等人[17]提出使用3DCNN来估计动态上采样滤波器。在[44]中,Yi等人提出了一个非局部提取模块,用于建模相邻帧和参考帧之间的时空相关性。MuCAN[24]根据基于块匹配策略的最相似的前K个块选择和融合跨帧的补丁。这些具有精心设计模块的方法取得了有希望的结果,但不可避免地增加了运行时间和模型复杂性。与这些工作不同,我们提出在LR空间中明确计算帧间时间差,以更好地处理低方差和高方差区域的互补信息。所提出的方法在结合多帧时间信息进行细节恢复方面非常有效。用于视频超分辨率的循环网络。另一种方法尝试以循环方式利用长期的时间信息。FRVSR[34]以循环方式传播最后构建的高分辨率帧。RSLP[9]引入高维潜在状态以隐式传播时间信息。RSDN[13]采用双分支来处理VSR中的结构和细节组件的不同困难。这些方法只将先前估计的结果传播到当前时间步以进行恢复,这导致不同帧的信息不平衡。通常,第一帧遭受严重失真。[3,5,12]通过在双向方式下维护两个隐藏状态,同时传播过去和未来的估计结果。然而,这些方法必须将整个序列作为输入,这会消耗内存,并且不适用于实时任务,如实时广播。LOVSR[43]基于单向循环网络提供了一种妥协的策略,首先使用一个网络生成下一个时间步的隐藏状态,并将其传播回当前时间步的另一个网络进行重建。此外,SR结果没有明确用于细化。与[43]不同,我们提出的ETDM明确地模拟了HR空间中相邻时间步之间的时间差,使得当前步骤的超分辨率能够从过去和未来时间步的初始SR结果中受益。此外,通过缓存两个指定时间步之间的所有时间差,自然地可以将前向和后向传播从一个时间步扩展到任意时间顺序。ILVt−1 = M LVt−1 ⊙ It−1,IHVt−1 = M HVt−1 ⊙ It−1,(1)ILVt+1 = M LVt+1 ⊙ It+1,IHVt+1 = M HVt+1 ⊙ It+1,(2)Ft = (IHRt− IHRt+1) − (I↑t − I↑t+1)= (IHRt− I↑t ) − (IHRt+1 − I↑t+1).(3)174130并且,通过单个网络可以将过去和未来的信息传播到当前时间步。此外,累积相邻时间步之间的时间差可以将任意时间步的SR结果传播到当前步骤以进行全面的细化。总体而言,本文的主要贡献是有效利用LR和HR空间中的时间差来恢复细节。03. 方法03.1. 概述0在这项工作中,VSR以单向循环方式进行。对于每个时间步,网络将相邻帧I t − 1,I t,I t+1和先前估计的SR结果作为输入。所提出方法的关键是明确地模拟LR和HR空间中的时间差异。形式上,我们将It表示为参考帧,并且时间差异由I t与相邻帧I t ±1之间的差异定义。所提出管道的概述如图2所示。我们提出的方法包括LR空间和HR空间中的时间差建模。在LR空间中,所提出的区域分解模块计算参考帧与相邻帧之间的差异。此外,它根据差异的程度将相邻帧分解为低方差(LV)和高方差(HV)区域。然后,它们分别由具有不同感受野的两个CNN分支进行处理,以更好地提取互补信息。我们还鼓励模型在HR空间中预测相邻时间步的SR输出之间的时间差异,这使得当前步骤的超分辨率可以从过去和未来时间步的初始SR结果中受益。此外,通过缓存两个指定时间步之间的所有时间差异,可以自然地将前向和后向传播从一个时间步扩展到任意时间顺序。03.2. 显式时间差异建模0时间差异。视频超分辨率的目标是利用邻近帧的互补信息为参考帧重建更丰富的细节。图3显示了不同区域的不同变化水平,这激发了我们根据时间差异的水平将邻近帧的区域分为低方差(LV)和高方差(HV)区域。LV区域的整体外观略有变化。因此,帧间的主要差异在于细节。至于HV区域,帧间的整体外观变化很大,可能提供来自不同角度的粗粒度互补信息。这里,对二值化的时间差异图像应用了一个 3 ×3 的中值滤波器,并进一步处理结果。0通过一组形态学运算处理,以获得LV区域的差异掩膜 MLV。同时,可以通过 M HV = 1 − M LV获得HV区域的差异掩膜。邻近帧 I t − 1 和 I t +1的LV区域和HV区域可以分别通过以下公式获得:Eq. 1 和Eq. 2。0其中 ⊙表示逐元素乘法。由于自然图像的平滑性,LV区域更可能对应于帧间运动较小的区域,而HV区域可能对应于运动较大的区域。因此,它们应该通过具有不同感受野的单独模型进行处理。0LR空间中的时间建模。这里我们只以时间步骤 t的LV区域分支为例来解释其模型设计。LV区域分支的输入是对应连续时间步骤的掩膜帧 { I LV t − 1 , I t , I LV t +1 },以及前一个时间步骤的隐藏状态 h LV t −1。它们被连接起来,然后经过一个卷积层和几个残差块进一步处理。通过这种方式,这个循环单元 H t能够从时间上聚合具有小方差和运动的区域的互补信息。HV区域的分支以类似的方式设计,但是所有的卷积层都配备了扩张率为2,以处理可能的大运动和更大的感受野。LV分支和HV分支的输出分别表示为 h LV t 和 h HV t。0HR空间中的时间建模。此外,我们还计算HR空间中的时间差异以进行进一步的细化。HR空间中的时间差异在相邻的时间步骤之间建立了一个桥梁,使得信息能够传播到当前时间步骤进行细化。每个分支的输出 h LV t − 1 和 h HV t − 1被组合并输入到三个残差头部,即空间残差头部、过去残差头部和未来残差头部。空间残差头部被设计用于计算双三次上采样的参考帧与高分辨率真实帧之间的空间残差,表示为S t。未来残差头部计算相应的高分辨率时间差异 ( I HR t −I HR t +1 ) 与双三次上采样的时间差异 ( I ↑ t − I ↑ t +1 )之间的空间残差,这也等价于不同时间步骤的空间残差之间的时间差异,表示为 Eq. 3 中的 F t。0类似地,过去残差头计算时间差异的空间残差 ( I HR t − IHR t − 1 ) − ( I ↑ t − I ↑ t − 1 )𝑅!"#$,&&'(𝐻&)(𝐻&'(𝐼&'(*+𝐼&)(*+𝐼&'(,+𝐼&)(,+ℎ&)(,+ℎ&)(*+𝐼&𝐼&……ℎ&,+𝑆&𝑆&'(𝑃&'(𝐹&𝑃&𝑅-./&0,&&)(ℎ&*+𝐹&)(𝑆&)(𝑆&1𝐼&'(𝐼&𝐼&)(𝐼&𝐼&*201…𝑅!"#$%,$$'(𝑅!"#$%,$$')…𝑅!"#$%,$*($'(𝑅!"#$%,$*($')…𝐹$…𝑅!"#$%,$*($𝑅!"#$%,$*($')*(𝑅!"#$%,$*($…𝑅+,-.,$'($*)'(𝑅+,-.,$'($…𝑅+,-.,$'($*)𝑅+,-.,$'($*(…𝑅𝑃$…𝑅+,-.,$$*)𝑅+,-.,$$*(𝑆$174140反向流动0前向流动隐藏状态流动0双三次插值0上采样0逐元素0加法0逐元素0减法0深度到空间0操作0输出0C0C0特征提取0HV0未来残差0头0空间残差0头0过去残差0头0C02D卷积0残差0块0输入0前后反馈0细化0区域分解0模块0反向细化0前向0细化0ReLU02D卷积0时间步骤t+10时间步骤t0时间步骤t-10C 连接0LR空间中的时间建模 HR空间中的时间建模0特征提取0LV0图2.显式时间差异建模(ETDM)提出框架的流程图,以单向方式进行VSR。通过在LR和HR空间中显式建模时间差异,所提出的方法能够充分利用过去和未来时间步骤的补充信息和SR结果。0图3.两个连续帧之间像素差异图的示意图。颜色表示差异的程度。0表示为Pt。通过使用HR空间中相邻时间步骤之间的时间差异,可以将过去和未来时间步骤的初始SR估计传播到当前时间步骤以改进其SR结果。03.3.前后反馈细化0在本节中,我们将详细介绍HR空间中的时间差异和其他时间步骤的估计如何帮助改进当前时间步骤的SR结果。0N -Future0缓冲区0$ 更新0更新0时间步骤t-10N-Past缓冲区0时间步骤t-10时间步骤t+1 时间步骤t+10图4.时间步骤t下N-Past和N-Future缓冲区的更新示意图。0基于双向的方法[3, 5,43]的有希望的VSR结果可以归功于其双向传播,它允许模型从中聚合信息Rt−1forth,t = St−1 − Ft−1,Rt+1back,t = St+1 − Pt+1, (4)Rt−lforth,t = St−l − (l�i=1Ft−i).(5)Rt+lback,t = St+l − (l�i=1Pt+i).(6)Rmforth,t+1 = Rmforth,t − Ft,Rkback,t−1 = Rkback,t − Pt.(7)L = 1N�t=1(LFt + LPt + LSt + L174150整个序列。然而,它必须缓存所有中间隐藏状态,限制了它在许多场景中的应用。在本文中,所提出的方法也允许传播双向信息以增强当前帧,但只使用单向循环网络进行,而不需要大型缓存。具体而言,通过在HR空间中预测的时间差异,可以将相邻的时间步骤St-1和St+1分别传播到当前步骤如下:0其中,R t − 1 forth,t和R t +1back,t分别表示从过去和未来传播到当前时间步t的空间残差。对于R m forth,n(m n),上标表示未来使用信息的时间步骤,下标表示反向传播到的目标时间。为了进一步改进当前的SR输出,使用从其他时间步骤传播的信息,我们将R t − 1 forth,t,R t +1back,t和St连接起来作为卷积层的输入,然后经过几个残差块获得改进的空间残差S' t。最终的超分辨率图像是通过将像素洗牌的S't添加到双三次上采样的参考帧上生成的。0将任意时间顺序的改进扩展。将从一个时间步骤的前向和后向传播扩展到任意时间顺序l是很自然的,通过累积几个时间步骤的时间差异。例如,从时间步骤(t -l)到t的前向传播可以表示为:0类似地,我们也可以将空间残差从未来时间步骤(t +l)传播到t,0为了充分利用从不同时间步骤传播到当前时间步骤的信息,我们维护大小为N的N-Past Buffer和N-FutureBuffer,以缓存所需的中间结果,即{R t − l forth,t,l =1,∙∙∙,N}和{R t + l back,t,l =1,∙∙∙,N},用于前向和后向改进。空间残差S t将通过与之前解释的单个时间步骤缓存相似的方式,使用N-Past和N-Future Buffers中的所有元素进行进一步改进。0缓冲区更新。一旦获得了时间步骤t的最终SR结果,循环模型将对帧It+1进行相同的超分辨率操作。在这种情况下,模型0不仅需要更新的隐藏状态,还需要更新的缓冲区,缓存来自不同时间步骤的所有中间空间残差。缓冲区更新遵循先进先出原则,即最旧的中间结果R t − N forth,t +1和R t + Nback,t − 1分别从N-Past Buffer和N-FutureBuffer中移除。同时,新的中间结果R t forth,t +1和R tback,t −1分别添加到这两个缓冲区中。对于缓冲区中的其余元素,它们的更新如下:03.4. 损失函数0与大多数VSR工作[3,37,44]类似,只使用重建损失来监督VSR模型的训练。然而,这里的监督来自于空间重建和时间重建。对于每个时间步骤,我们计算初始估计和改进的空间残差与地面真值之间的差异作为空间重建损失。0∥ S GT t − S ′ t ∥ 2 + ε 2 ,(8)其中S GTt是地面真值空间残差,ε被设定为1×10−3。由于空间改进是基于过去和未来多个时间步骤的空间残差估计计算的,因此对模型的参数间接施加了更严格的监督。此外,时间残差也受到相应地面真值的监督。0∥ P GT t − P t ∥ 2 + ε 2 . (9) 总损失 L 可以计算如下,0N0t ) . (10)04. 实验04.1. 实现细节0数据集。一些先前的工作在私有数据集上训练其VSR模型,这对于公平比较来说不合适。在这项工作中,我们采用了广泛使用的Vimeo-90K[42]作为我们的训练集,该训练集包含约90K个具有不同运动类型的7帧视频剪辑。在训练过程中,我们随机采样大小为256×256的HR视频序列中的区域作为目标。类似于[5,9,13,43,44],通过对目标补丁应用标准差为1.6的高斯模糊,然后进行4倍下采样,得到相应的64×64的低分辨率补丁。我们在Vid4 [27]、SPMCS [35]和UDM10[44]等四个广泛使用的基准数据集上进行评估。使用PSNR和SSIM在YCbCr空间的Y通道上评估SR结果。PSNR和SSIM的测量不包括第一个和最后一个帧。我们还使用与NTIRE挑战中使用的相同的下采样设置在REDS上训练和评估所提出的方法。实现细节。所提出的ETDM在LV和HV分支上采用了2个残差块,每个卷积层具有96个通道。进一步的特征提取使用了16个残差块。为了减轻先前估计的隐藏状态中的大运动,ETDM采用光流[33]对特征进行空间对齐,类似于[3,8,26]。我们采用64个通道的16个残差块进行来回细化。为了有效利用所有给定的帧,我们在序列的开头和结尾分别用第一帧和最后一帧的镜像进行填充。N-Past和N-Future缓冲区中的元素分别初始化为零,以便在第一帧进行VSR。模型使用Charbonnier惩罚损失函数[6]进行监督,并使用Adam优化器[20]进行优化,设置β1 = 0.9和β2 =0.999。每个小批量包含16个样本。初始学习率为1×10-4用于VSR模型,2.5×10-5用于光流估计器。我们采用余弦退火方案[30]。Model #RFB#Param.Vid4 [27]UDM10 [44]28.0M28.0439.6838.2M28.2939.8848.4M28.8140.11datasets, including Vid4 [27], SPMCS [35] and UDM10 [44].The SR results are evaluated in terms of PSNR and SSIM onthe Y channel of YCbCr space. The PSNR and SSIM aremeasured excluding the first and the last one frames. We alsotrain and evaluate the proposed method on REDS with thesame down-sampling setting used in the NTIRE challenge.Implementation details. The proposed ETDM adopts 2residual blocks for LV and HV branches where each convo-lutional layer has 96 channels. 16 residual blocks are usedfor further feature extraction. To alleviate the large motionin previously estimated hidden state, ETDM adopts the op-tical flow [33] to perform the spatial alignment on features,similar to [3, 8, 26]. We adopt 16 residual blocks with 64channels for back-and-forth refinement. To effectively utilizeall given frames, we pad each sequence with the reflecting ofthe first frame and last frame at the beginning and end of thesequence, respectively. The elements in N-Past and N-FutureBuffer are respectively initialized with zeros for conductingVSR at the first frame. The models are supervised with Char-bonnier penalty loss function [6] and optimized with Adamoptimizer [20] by setting β1 = 0.9 and β2 = 0.999. Eachmini-batch consists of 16 samples. The initial learning rateis set to 1 × 10−4 for VSR model and 2.5 × 10−5 for opticalflow estimator. We adopt Cosine Annealing scheme [30].174160表1. 使用缓冲区大小为N =3的所提出的ETDM的消融研究。"R"是区域分解模块。"F"和"B"分别表示前向和后向细化。01 8.0M 27.89 39.460I ! ↑(双三次插值)GT0图5.中间和细化的SR结果的可视化。所提出的来回细化产生了更清晰的边缘和更精细的纹理。0表2.在HR空间中使用光流(OF)进行来回细化的所提出的时间差异建模的比较。运行时间是在HR图像尺寸为1280×720时计算的。0N = 0 N = 1 N = 30OF [33] ETDM OF [33] ETDM0运行时间(毫秒)62 96 67 163 70 Vid4 [27] 28.04 28.29 28.18 28.5428.81 UDM10 [44] 39.68 39.76 39.77 40.01 40.110总的训练轮数为90。训练数据通过标准翻转、旋转和额外的时间反转操作进行增强。所有实验都在一台装有Python3.6.4、PyTorch 1.1和V100 GPU的服务器上进行。04.2. 消融研究0对ETDM组件的消融。在本节中,我们在Vid4[27]和UDM10[44]测试集上检验了所提出的ETDM框架的每个组件的有效性,如表1所示。为了公平比较,这些模型具有相似数量的参数。基线模型(模型1)是通过将原始连续帧作为两个分支的输入而不进行区域分解来设计的。模型1在Vid4和UDM10上分别达到27.89 dB和39.46dB。通过将相邻帧分为LV和HV区域,即模型2,在Vid4和UDM10上分别比模型1提高了+0.15dB和+0.22dB。这种改进应归功于模型更好地利用了相应分支的LV和HV区域的互补信息。通过明确建模HR空间中的时间差异,模型3利用传播的SR结果进行细化,并在Vid4和UDM10上比模型2分别提高了+0.25dB和+0.20dB。通过进一步将未来的SR结果传播到当前时间步,模型4在Vid4和UDM10上比模型3分别提高了+0.52dB和+0.23dB。我们还在图5中可视化了中间和细化的SR结果。所提出的来回细化可以产生更好的细节和更强的边缘。0在HR空间中对时间建模的削减。我们采用SPyNet[33]作为HR空间中的替代时间建模技术,用于前后细化,其中过去和未来的估计SR根据HR空间中估计的光流对齐到当前时间步。在这个实验中,我们使用缓冲区大小N = 1和N =3来检查两种时间建模方法之间的差异。如表2所示,光流和时间差异的细化都可以提高基线的性能。然而,我们的方法在时间建模方面比光流更高效。通过进一步观察较远的时间步骤,即N =3,我们的方法在Vid4和UDM10上分别比基线模型提高了0.77dB和0.43dB,时间略有增加。在这种情况下,光流方法变得比我们的方法慢2倍。此外,它的性能也稍逊于在HR空间中明确建模时间差异的方法。一个可能的原因是光流方法的运动估计和对齐不准确,导致失真和错误,从而恶化最终的超分辨率性能。174170帧0PSNR(分贝)0图6. 不同信息传播策略随时间的结果。0与最先进的方法的比较0为了检验所提方法的有效性,我们将所提出的前后传播与其他种类的单向传播[15]和双向传播[3]方法进行比较。为了公平比较,我们去除了所提模型的LV和HV分解步骤,并尽量保持其参数数量与其他两种方法相同。如图6所示,双向方法(蓝线)在前几个时间步骤中明显优于单向方法(绿线),但在最后两帧中达到了可比较的性能。通过一次前后传递的细化,即N =1,我们的削减方法在前几个时间步骤中表现稍差,但在序列中间之后表现优于双向方法。需要注意的是,当视频包含大量帧时,双向方法将不得不缓存整个视频帧的隐藏状态,这将导致内存问题。0讨论。单向循环模型将历史信息存储在隐藏状态中,以补充当前时间步的细节。双向循环模型采用两个隐藏状态,不仅聚合了过去时间步的信息,还聚合了未来时间步的信息,因此比单向循环模型表现更好。然而,它们都只0我们的方法采用隐含状态来隐式地将所有过去或未来的信息压缩成一个表示,其中一些对当前帧很重要的特定补充信息可能会丢失。我们的方法明确地建模了相邻时间步之间的时间差异,这不仅利用了相邻时间步的特定补充信息进行细化,还可以使用基于缓存的时间差异来增强当前估计结果,从更多的时间步骤开始。04.3. 与最先进的方法的比较0在本节中,我们将我们的方法与几种最先进的VSR方法进行比较,包括TOFlow [42]、DUF [17]、RBPN [11]、EDVR[40]、PFNL [44]、TGA [14]、FDAN [26]、FRVSR[34]、RLSP [9]、RSDN [13]、RRN [15]、DAP[8]、GOVSR [43]、BasicVSR [3]和IconVSR[3]。前七种方法在局部窗口内进行VSR,例如7帧。在这些方法中,TOFlow、RBPN和EDVR明确估计参考帧与相邻帧之间的运动。DUF、PFNL、TGA和FDAN通过隐式运动补偿进行VSR。FRVSR、RLSP、RSDN、RRN和DAP以单向循环的方式对每一帧进行超分辨率处理。GOVSR、IconVSR和BasicVSR以双向方式进行VSR。这些方法在原始训练设置上存在一些差异。TOFlow、RBPN和EDVR的原始工作中使用了不同的下采样核,而DUF、PFNL、FRVSR、RLSP和GOVSR模型是在不同的数据集上训练的。因此,为了公平比较,我们尽力在公开可用的代码的基础上在相同的训练设置下重建这些模型。此外,我们还根据NTIRE挑战赛中使用的相同下采样设置,在REDS[32]上重新训练了大多数这些VSR方法。最先进方法的定量结果如表3所示。ETDM在这些数据集上在速度和重建质量之间取得了良好的平衡。在处理320×180的视频序列进行4×超分辨率时,我们提出的带有缓冲区大小为N =3的ETDM达到了14fps。它比多帧超分辨率方法EDVR快约4倍。此外,我们提出的带有单向隐藏状态传播的ETDM也优于基于双向的方法,即IconVSR和GOVSR,它们将整个视频序列作为输入,并且必须记住由正向传播产生的所有中间SR结果。与其他最先进的方法的定性比较如图7所示。我们的方法在三个数据集上产生了更高质量的HR图像,包括更细的细节和更锐利的边缘。其他方法要么容易产生一些伪影(例如,衣服上的错误条纹),要么无法恢复丢失的细节(例如,建筑物的小窗户)。174180表3. 对4×VSR的Vid4 [27]、SPMCS [35]、UDM10 [44]和REDS4[32]进行定量比较(PSNR(dB)和SSIM)。红色文本表示最佳性能,蓝色文本表示次佳性能。运行时间是在HR图像尺寸为1280×720时计算的。'†'表示数值要么来自论文,要么使用提供的模型计算得出。'uni'和'bi'分别表示单向和双向。0Method #Frame Params (M) Runtime (ms) Vid4 [27] SPMCS [35] UDM10 [44] REDS4 [32]0Bicubic 1 N/A N/A 21.80/0.5426 23.29/0.6385 28.47/0.8253 26.14/0.7292 TOFlow [42] 7 1.4 1610 25.85/0.765927.86/0.8237 36.26/0.9438 27.93/0.7997 DUF [17] 7 5.8 1086 27.38/0.8329 29.63/0.8719 38.48/0.9605 28.66/0.8262RBPN [11] 7 12.2 1513 27.27/0.8285 29.54/0.8704 38.56/0.9605 30.15/0.8593 EDVR [40] 7 20.6 378 27.85/0.8503 -/-39.89/0.9686 31.09/0.8800 PFNL [44] 7 3.0 295 27.36/0.8385 30.02/0.8804 38.88/0.9636 29.63/0.8502 TGA [14] 7 5.8375 27.59/0.8419 30.31/0.8857 39.19/0.9645 -/- FDAN † [26] 7 9.0 - 27.88/0.8508 -/- 39.91/0.9686 -/-0FRVSR [34] uni 5.1 137 26.69/0.8103 28.16/0.8421 37.09/0.9522 -/- RLSP [9] uni 4.2 49 27.51/0.8396 29.64/0.879138.50/0.9614 30.47/0.8685 RSDN [13] uni 6.2 94 27.92/0.8505 30.18/0.8811 39.35/0.9653 -/- RRN [15] uni 3.4 4527.69/0.8488 29.84/0.8827 38.96/0.9644 -/- DAP † [8] uni - 38 -/- -/- 39.50/0.9664 32.39/0.9069 GOVSR [43] bi 7.181 28.47 / 0.8722 30.34 / 0.8981 40.08 / 0.9703 31.91 / 0.89900BasicVSR † [3] bi 6.3 63 27.96/0.8553 -/- 39.96/0.9694 31.42/0.8909 IconVSR † [3] bi 8.7 70 28.04/0.8570 -/-40.03/0.9694 31.67/0.8948 ETDM uni 8.4 70 28.81 / 0.8725 30.48 / 0.8972 40.11 / 0.9707 32.15 / 0.90240Vid40UDM100SPMCS0PFNL GT GOVSR Bicubic EDVR IconVSR RSDN ETDM0图7. 对4×VSR的Vid4 [27]、SPMCS [35]和UDM10 [44]测试集进行定性比较。放大以获得更好的可视化效果。05. 结论0在这项工作中,我们提出了一种新颖的单向递归网络,通过在LR和HR空间中进行显式时间差建模。对于LR空间的时间建模,我们提出计算输入帧之间的时间差,并根据差异的程度将其分为两个子集。它们分别与参考帧一起输入到具有不同感受野的两个分支中,以更好地提取互补信息。为了进一步改进SR结果,我们还计算了时间差。0在HR空间中,我们建立了相邻时间步长的SR结果之间的桥梁,使过去和未来时间步长的中间SR结果能够传播到当前时间步长进行改进。大量实验证明,所提出的方法优于现有的最新双向递归方法。0致谢该研究部分得到了中国自然科学基金的支持,编号为62106036、61725202、U1903215,以及中国中央高校基本科研业务费专项资金,大连理工大学编号为82232026.174190参考文献0[1] Jiezhang Cao, Yawei Li, Kai Zhang和Luc Van Gool.视频超分辨率变换器. CoRR, abs/2106.06847, 2021年.0[2] Kelvin CK Chan, Xintao Wang, Xiangyu Xu, JinweiGu和Chen Change Loy. Glean:用于大因子图像超分辨率的生成潜在库. 在CVPR, 2021年.0[3] Kelvin CK Chan, Xintao Wang, Ke Yu, Chao Dong和ChenChange Loy. Basicvsr:视频超分辨率及其它领域中必要组件的搜索. 在CVPR, 2020年.0[4] Kelvin CK Chan, Xintao Wang, Ke Yu, Chao Dong和ChenChange Loy. 理解视频超分辨率中的可变形对齐. 在AAAI,2021年.0[5] Kelvin CK Chan,Shangchen Zhou,XiangyuXu和陈长乐。Basicvsr++:通过增强传播和对齐改进视频超分辨率。在CVPRW,2021年。0[6] Pierre Charbonnier,Laure Blanc-Feraud,Gilles Aubert和MichelBarlaud。用于计算成像的两种确定性半二次正则化算法。在CVPR,1994年。0[7]董超,陈长乐,何凯明和唐晓欧。学习用于图像超分辨率的深度卷积网络。在ECCV,2014年。0[8] Dario Fuoli,Martin Danelljan,Radu Timofte和Luc VanGool。具有可变形注意金字塔的快速在线视频超分辨率。CoRR,abs/2202.01731,2022年。0[9] Dario Fuoli,Shuhang Gu和RaduTimofte。通过循环潜空间传播实现高效视频超分辨率。CoRR,abs/1909.08080,2019年。0[10] Muhammad Haris,Gregory Shakhnarovich和NorimichiUkita。用于超分辨率的深度反投影网络。在CVPR,2018年。0[11
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- IEEE 14总线系统Simulink模型开发指南与案例研究
- STLinkV2.J16.S4固件更新与应用指南
- Java并发处理的实用示例分析
- Linux下简化部署与日志查看的Shell脚本工具
- Maven增量编译技术详解及应用示例
- MyEclipse 2021.5.24a最新版本发布
- Indore探索前端代码库使用指南与开发环境搭建
- 电子技术基础数字部分PPT课件第六版康华光
- MySQL 8.0.25版本可视化安装包详细介绍
- 易语言实现主流搜索引擎快速集成
- 使用asyncio-sse包装器实现服务器事件推送简易指南
- Java高级开发工程师面试要点总结
- R语言项目ClearningData-Proj1的数据处理
- VFP成本费用计算系统源码及论文全面解析
- Qt5与C++打造书籍管理系统教程
- React 应用入门:开发、测试及生产部署教程
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功