没有合适的资源?快使用搜索试试~ 我知道了~
35740空间-时间空间手牵手:通过循环投影相互学习实现空间-时间视频超分辨率0胡梦顺1,2†,姜奎1,2†,廖亮3,肖静1,2,姜俊俊4,王铮1,2‡01 国家多媒体软件工程研究中心,人工智能研究所,计算机学院,武汉大学 2 湖北省多媒体与网络通信工程重点实验室 3南洋理工大学 4 哈尔滨工业大学0摘要0空间-时间视频超分辨率(ST-VSR)旨在生成具有更高分辨率(HR)和更高帧率(HFR)的超分辨视频。直观地说,先驱的基于两阶段的方法通过直接组合两个子任务完成ST-VSR:空间视频超分辨率(S-VSR)和时间视频超分辨率(T-VSR),但忽略了它们之间的相互关系。具体而言,1)T-VSR到S-VSR:时间相关性有助于准确的空间细节表示;2)S-VSR到T-VSR:丰富的空间信息有助于时域预测的改进。为此,我们提出了一种基于一阶段的循环投影相互学习网络(CycMu-Net)用于ST-VSR,通过S-VSR和T-VSR之间的相互学习充分利用空间-时间相关性。具体而言,我们提出通过迭代的上下投影来利用它们之间的相互信息,其中空间和时间特征被充分融合和提炼,有助于高质量的视频重建。除了在基准数据集上进行广泛的实验外,我们还将我们提出的CycMu-Net与S-VSR和T-VSR任务进行了比较,证明我们的方法明显优于现有方法。代码可在以下网址公开获取:https://github.com/hhhhhumengshun/CycMuNet。01. 引言0空间-时间视频超分辨率(ST-VSR)旨在从给定的低分辨率(LR)和低帧率(LFR)输入中生成高分辨率(HR)和高帧率(HFR)的视频序列。由于其广泛的应用[29, 30,53],如HR慢动作生成、电影制作、高清电视升级等,这个任务引起了极大的关注。已经取得了巨大的成功。0† 平等贡献 ‡ 通讯作者0最近在ST-VSR任务中取得了显著的进展,如图1(a)所示,可以大致分为两类:基于两阶段和基于一阶段的方法。前者将其分解为两个连续的子任务:空间视频超分辨率(S-VSR)和时间视频超分辨率(T-VSR),分别使用图像/视频超分辨率技术[19, 51, 58]和视频帧插值技术[28,40]完成。然而,由S-VSR任务生成的更多空间信息可以用于时域预测的细化,而由T-VSR任务预测的更多时间信息可以用于空间细节的重建。因此,基于两阶段的方法由于缺乏探索S-VSR和T-VSR之间耦合关系的能力,远未能产生令人满意的预测结果。最近,将这两个子任务集成到一个统一的框架中,采用一阶段的过程变得更加流行。根据并行或串行处理模式(图1(b)(i)为并行处理,(ii)(iii)为串行处理),已经开发出多种多样且有效的方案。不幸的是,并行方法[29,30]几乎没有考虑两个子任务之间的耦合关系,而串行方法[53,55]未能充分利用相互关系,因为它们只关注单向关系,如“T到S”或“S到T”。特别是,单向学习会积累重建错误,我们将其定义为跨空间(空间和时间空间)错误,从而导致超分辨结果中明显的混叠效应。为了充分利用空间和时间信息,我们提出了一种具有相互学习的一阶段方法,并设计了一种新颖的循环投影相互学习网络(CycMu-Net)用于ST-VSR。如图1(c)所示,CycMu-Net的理念是探索相互关系并实现空间-时间融合以消除跨空间错误。具体而言,CycMu-Net的关键部分是空间和时间嵌入空间之间的迭代上下投影单元。35750T S0(a)基于两阶段的方法0LL0(b)基于单阶段的方法(c)我们提出的方法0S-VSR网络T-VSR网络S T0LL LR & LFR图像 LH LR & HFR图像0HL HH0HH HR & HFR图像0S T0LL0LH HH0HL HR & LFR图像0S T0LL0HH0S T0S T0HH LH HH0S T0LL LL LL0图1.ST-VSR的不同方案。(a)基于两阶段的方法:(i)它们通过独立使用先进的S-VSR方法和T-VSR方法之一来执行ST-VSR任务,然后再使用另一种方法(ii)。 (b)基于单阶段的方法:它们将S-VSR和T-VSR任务统一到一个模型中,采用并行或级联方式,而不考虑S-VSR和T-VSR之间的相互关系。(c)相互方法:我们的方法通过S-VSR和T-VSR之间的相互学习充分利用相互关系。0通过聚合时间关系来实现空间细节的准确表示,并通过更新的空间预测进行时间信息的反馈细化。我们在ST-VSR任务及其两个子任务(包括S-VSR和T-VSR)上验证了所提出的CycMu-Net。实验结果表明,CycMu-Net在所有任务上都取得了比SOTA方法更好的改进效果。我们的贡献总结如下:1)我们提出了一种新颖的基于单阶段的循环投影互学习网络(CycMu-Net),用于空间-时间视频超分辨率,可以充分利用S-VSR和T-VSR之间的互学习来利用耦合的空间-时间相关性。2)为了消除跨空间错误并提高推理准确性,我们设计了迭代的上下投影单元,以利用S-VSR和T-VSR之间的互信息进行更好的空间-时间融合。在这些单元中,提供了更多的空间信息来改进时间预测,同时利用时间相关性来促进纹理和细节重建。3)我们对ST-VSR、S-VSR和T-VSR任务进行了广泛的实验,进行了全面的评估,结果显示我们的方法在与最先进方法的比较中表现良好。02. 相关工作02.1. 空间视频超分辨率0S-VSR旨在通过时间对齐和空间融合将LR帧超分辨为HR帧。因此,这个任务的关键在于充分利用多个帧之间的时间相关性。一些方法使用显式的运动估计(例如光流)进行时间对齐,然后将所有对齐的参考帧融合用于S-VSR[3, 6, 42,47, 50,56]。然而,光流估计容易出错,可能会降低S-VSR的性能[34]。0为了解决这个问题,一些方法提出应用可变形卷积来基于多个运动偏移对更多的空间像素进行采样,以实现隐式对齐[13, 61][7, 49,51]。这种方法是有效的,但耗时,因为在超分辨目标帧时需要对所有参考帧进行对齐。其他研究者提出使用递归网络来探索全局时间相关性,这些网络可以独立地传播帧间信息[8, 26, 53,55]。然而,仍然需要额外的运动估计网络来辅助基于递归网络的S-VSR方法处理大规模和复杂的运动[53, 55]。02.2. 时间视频超分辨率0T-VSR(即视频帧插值)旨在生成两个连续帧之间不存在的中间帧。完成这个任务的关键是找到连续帧之间的对应关系,以合成中间帧。流行的T-VSR方法主要分为两类:基于卷积核和基于光流的方法。前者通过学习动态卷积核来隐式对齐输入帧,用于对输入帧进行重采样以生成中间帧[11, 18,33, 39, 40,44]。由于仅对局部邻域补采样,上述方法通常会导致模糊的结果。相比之下,后者首先估计两个连续帧之间的双向光流,然后根据预测的光流进行变形合成中间帧[2, 3, 24, 25,28, 37,38]。虽然取得了令人印象深刻的进展,但它们在很大程度上依赖于当前先进光流算法的准确性[27, 41, 46, 48]。02.3. 空间-时间视频超分辨率0ST-VSR技术倾向于提高低分辨率和低帧率视频的空间和时间分辨率[22, 30, 53, 55]。……In this section, we first provide an overview of the pro-posed Cycle-projected Mutual learning network (CycMu-Net) for ST-VSR. As shown in Figure 2, given two LR in-put frames L0 and L1, our goal is to synthesize HR inter-mediate frame Ht and the corresponding HR input framesH0 and H1 (2×, 4×, or 8×). In addition, we also gener-ate a LR frame Lt as a intermediate result. The proposedCycMu-Net first extracts the representation from the inputframes by a feature extractor (FE). To synthesize the initial-ized LR intermediate representation, we introduce a cascad-ing multi-scale architecture as our feature temporal interpo-lation network (FTI-Net), designed to learn bi-directionalmotion offsets to handle complex motions and interpolateintermediate representation by deformable convolution. Tomake full use of the mutual relations (“T-to-S” or “S-to-T”)35760FE FTI- N0�� 00�� 10�� 000�� 100�� 0 0 ~�� 100上投影0� 0 1 ~� 1 10下投影0�� 0 1 ~�� 110第1次迭代0�� 0 ��−1 ~�� 1 ��−10上投影0R0�� t0第(M-1)次迭代0� 0 �� ~� 1 �� �� 0 ~�� 10R0R0R0上投影0图2.循环投影互相学习网络(CycMu-Net)的架构。给定两个低分辨率输入帧,我们首先通过特征提取器(FE)从输入帧中提取表示,并通过特征时间插值网络(FTI-Net)获得初始化的中间表示。然后,我们采用互相学习来利用S-VSR和T-VSR之间的互信息,并通过M个上投影单元和M-1个下投影单元获得M个2×高分辨率和低分辨率表示。最后,我们将多个2×高分辨率表示和低分辨率表示连接并输入重建网络(R)以分别重建相应的高分辨率图像和低分辨率中间帧。0例如,Shechtman等人采用定向空间-时间平滑正则化来约束高空间-时间分辨率视频重建[43]。Mudenagudi等人将他们的ST-VSR方法制定为后验-Markov随机场[17],并通过最大图割[5]进行优化。然而,上述方法计算消耗巨大,并且无法建模复杂的空间-时间相关性。最近,基于学习的方法尝试将S-VSR和T-VSR统一到单阶段框架中进行ST-VSR。Kim等人利用多尺度U-net学习基于多尺度空间-时间损失的ST-VSR[30]。Haris等人提出利用预训练的光流模型来探索空间-时间相关性进行帧插值和细化[22]。Xiang等人设计了一个统一的框架,通过可变形卷积插值中间特征[51],通过双向可变形ConvLSTM探索全局时间相关性[54],最后通过重建网络[53]重建高空间-时间视频。受到[53]的启发,Xu等人引入了一个局部时间特征比较模块来提取视频中的局部运动线索,在各种数据集上取得了更好的性能[55]。然而,如图1(b)所示,S-VSR和T-VSR之间的相互关系尚未得到充分探索,导致重建误差累积。为了解决这个问题,我们提出了一个循环投影互相学习网络,通过空间和时间融合(S-VSR和T-VSR)的迭代操作,在前向传播和反向优化过程中学习空间-时间相关性。02.4. 互相学习0互相学习是让一群未经训练的学生进行合作学习并相互教授解决任务的方法[59]。Dual-NMT利用互相学习来0互相教授两个跨语言翻译模型的机器翻译[23]。TanmayBatra等人提出了学习多个模型并相互传递对象属性以识别相同的对象类别集合的方法[4]。Dong等人采用这个工具来利用来自不同层次的特征融合非相邻特征进行图像去雾[15]。我们工作最接近的是DBPN[19],它提出利用互相迭代的上采样和下采样层来学习低分辨率和高分辨率图像之间的非线性关系,以指导图像超分辨任务。先前的研究已经验证了互相学习技术在低级任务中的有效性[14, 16, 21,60]。然而,现有的方法倾向于利用互相学习来改进不同尺度空间的映射关系(“低分辨率到高分辨率”和“高分辨率到低分辨率”)。受到这些方法的启发,我们引入了一种新颖的循环投影互相学习机制,以合作地表征空间和时间特征。03. 循环投影互学习网络𝑙0𝑚−1𝑙1𝑚−1−1−1−1𝑒𝑒𝑡𝑚−1𝑒1𝑚−1ℎℎ𝑡𝑚ℎ1𝑚ℎℎ𝑡𝑚ℎ1𝑚𝑑0𝑚𝑑𝑡𝑚𝑑1𝑚𝑟0𝑚𝑟𝑡𝑚𝑟1𝑚𝑙0𝑚𝑙𝑡𝑚𝑙1𝑚[um−10, um−1t, um−11] = UP0([lm−10, lm−1t, lm−11]),(1)(2)(3)35770� � �−10模块0� 00� �0� 10尺度放大0模块0尺度缩小模块0�0模块0尺度放大0上投影单元0下投影单元0图3.循环互学习网络中提出的上投影单元(UPU)和下投影单元(DPU)的示意图。0在S-VSR和T-VSR之间的相互关系中,我们采用相互学习,即通过迭代的上投影单元(UPUs)和下投影单元(DPUs)来消除跨空间错误。经过多次迭代后,我们获得多个HR和LR表示,然后将它们连接到重建网络(R)中生成相应的HR图像H0,Ht和H1(2×,4×或8×)和LR图像Lt。03.1. 循环投影互学习0受到[19]的启发,该论文通过相互连接的上采样和下采样层充分解决了低分辨率和高分辨率图像之间的相互依赖关系,我们在本文中提出了一个新的相互学习模型,包括迭代的UPUs和DPUs来探索S-VSR和T-VSR之间的相互关系。特别地,通过UPUs,时间相关性提供了更多线索来补偿详细的空间表示,而通过DPUs,丰富的空间细节用于改进时间预测。如图3顶部所示,UPU捕捉S-VSR的时间相关性。我们首先将先前的LR时间表示l m − 1 0,l m − 1 t和l m − 11投影到相应的HR表示u m − 1 0,u m − 1 t和u m − 11,基于一个尺度放大模块,可以描述如下:0其中UP0(∙)表示尺度上投影模块。它首先通过融合resblocks[57]执行多帧渐进融合,这些resblocks隐式利用了帧内空间相关性和帧间时间相关性,然后通过双线性插值和1×1卷积对每个特征进行上采样。m = 1, 2 ...,M表示UPU的数量。然后,我们尝试将超分辨率表示投影回LR表示,并计算相应的对应关系0ingresiduals(errors)em-10,em-1t和em-11,它们分别是反投影表示和原始LR表示之间的误差,可以定义如下:0[em-10,em-1t,em-11] = DN([um-10,um-1t,um-11])0-[lm-10,lm-1t,lm-11],0其中DN(∙)表示尺度下投影模块。它首先通过2步长的4×4卷积将输入降低到原始输入分辨率,然后通过融合resblocks[57]进一步隐式探索LR表示的帧内空间相关性和帧间时间相关性。最后,我们再次将残差表示投影回HR表示(反投影),并消除相应的原始超分辨率表示误差(跨空间误差),以获得单元的最终超分辨率输出0[hm0,hmt,hm1] = UP1([em-10,em-1t,em-11])0+ [um-10,um-1t,um-11],0其中UP1(∙)表示尺度上投影模块。如图3底部所示,DPU的过程非常相似,但其主要作用是通过投影先前更新的HR表示来获得精细的LR时间表示,这可以提供丰富的空间细节。(有关公式证明、尺度上投影模块和尺度下投影模块的更多详细信息,请参见补充材料)03.2. 空时视频超分辨率0CycMu-Net的整体框架如图2所示,包括以下子模块:特征提取网络、特征时间插值网络、多个上投影单元、多个下投影单元和重建网络。具体而言,我们通过特征提取网络(FE)提取多个帧之间的表示,并通过特征时间插值网络(FTI-Net)插值中间表示。然后,我们使用提出的多个UPU和DPU通过相互学习获得多个LR和HR表示。最后,重建网络(R)通过连接所有LR和HR表示生成LR中间帧和HR中间帧。下面我们描述每个子模块的详细信息。特征时间插值网络。可变形卷积[13,61]已被证明对于视频帧插值[10]和视频超分辨率[49]非常有效。一些方法通过采用多尺度框架扩展了可变形卷积,并探索了更广范围的偏移量,以处理小位移和大位移的特征对齐[51, 53, 55]。受到它们的启发,我们为我们的特征Lr = λ1ρ(Lt − LGTt) + λ2ρ(Ht − HGTt)+ λ3ρ(H0 − HGT0) + λ4ρ(H1 − HGT1),(4)35780时间插值网络(FTI-Net)来估计输入帧之间的双向运动偏移量。在运动偏移量估计的同时,我们采用可变形卷积来插值缺失的中间帧的前向和后向表示。为了融合这两个表示以获得初始中间表示,我们使用两个可学习的卷积核来估计权重,根据它们的重要性自适应地融合这两个表示。(有关FTI-Net的更多详细信息,请参见补充材料)重建网络。在通过提出的迭代上下投影利用S-VSR和T-VSR之间的相互关系之后,我们将多个HR表示连接并输入卷积层以重建相应的HR帧。此外,我们还基于多个LR表示重建一个LR中间帧。为了优化整个CycMu-Net,我们使用重建损失函数:0x 2 + ω 2 是Charbonnier惩罚函数[ 9 , 32 ]。我们将常数ω 和权重 λ 1 , λ 2 , λ 3 和 λ 4 设置为 10 − 3 , 1, 1 , 0 . 5 和 0 . 5 , respectively.03.3. 实现细节0我们使用Pytorch1.9实现了提出的CycMu-Net,使用四个NVIDIA2080Ti进行模型优化,使用AdaMax优化器[ 31],动量为0.9。批量大小设置为10,图像分辨率为64×64。初始学习率设置为4×10 −4,并在每20个epoch时减小10倍,共进行70个epoch。我们比较HR中间帧 H t以评估ST-VSR。此外,我们还将我们提出的CycMu-Net与S-VSR和T-VSR方法进行比较,其中分别使用4×HR帧 H 0和LR中间帧 L t 进行S-VSR和T-VSR的评估。04. 实验结果04.1. 数据集和评估指标0Vimeo90k [ 56 ].我们使用Vimeo90K数据集来训练我们提出的CycMu-Net。该数据集包含来自14,777个视频剪辑的许多不同场景的三元组,图像分辨率为448×256。其中,51,312个三元组用于训练,3,782个三元组用于测试。为了增加数据的多样性,我们使用水平和垂直翻转或反转输入帧的顺序进行数据增强。为了在训练过程中与其他算法进行公平比较,我们将原始图像缩小到064×64,使用双三次插值进行2×和4×超分辨率,使用双三次插值将其缩小到32×32进行8×超分辨率。UCF101 [ 45 ].UCF101数据集包含各种人类动作的视频。其中有379个分辨率为256×256的三元组用于测试。原始图像在测试中被采样为32×32、64×64和128×128,用于8×、4×和2×超分辨率任务。Middlebury [ 1 ].Middlebury数据集被广泛用于评估视频帧插值算法[ 2 , 10]。在这里,我们选择提供真实中间帧的Other集合,仅用于在T-VSR任务上测试我们的方法。该数据集中的图像分辨率约为640×480像素。评估指标。我们使用峰值信噪比(PSNR)、结构相似性指数(SSIM)[ 52]和平均插值误差(IE)进行性能评估。较高的PSNR和SSIM值以及较低的IE值表示更好的超分辨率和插值性能。04.2. 与最先进方法的比较0ST-VSR.我们将我们的CycMu-Net与基于两阶段和一阶段的最先进ST-VSR方法进行比较。对于基于两阶段的ST-VSR方法,我们使用SepConv [ 40 ]、AdaCoF [ 33 ]和CAIN [ 12]来进行T-VSR任务,而使用Bicubic插值、RBPN [ 20]、DBPN [ 19 ]和EDVR [ 51]来进行S-VSR。对于基于一阶段的ST-VSR方法,我们将我们的CycMu-Net与Zooming SlowMo [ 53 ]、STARnet [22 ]和TMNet [ 55]进行比较。为了公平比较,我们使用Vimeo90K数据集中的三个三元组对SlowMo和TMNet方法进行重新训练。定量结果。定量结果在表1中呈现。我们可以看到,除了参数更少之外,一阶段的方法在所有指标上都显示出明显的优势。特别是,对于Vimeo90K数据集上的8×超分辨率,最佳的两阶段方法(SepConv+RBPN)比我们的方法低0.66dB。此外,与最先进的一阶段方法相比,我们提出的CycMu-Net在所有数据集上以及所有指标上均优于STARNet [ 22]、Zooming Slow-Mo [ 53 ]和TMNet [ 55],同时只有STARnet的十分之一的参数。所有这些结果验证了我们提出的ST-VSR任务的方法的有效性。定性结果。图4显示了七个ST-VSR基线的定性结果,以及它们的PSNR和SSIM值。如预期的那样,基于两阶段的ST-VSR方法往往会产生模糊的结果(见黄色框),因为它们忽略了S-VSR和T-VSR之间的相互关系,这有助于准确的纹理推断。与基于两阶段的方法相比,基于一阶段的ST-VSR方法可以生成完整的结果。然而,这些方法忽视了S-VSR为时序预测的精细化提供了丰富的空间信息,导致生成的结果没有更多的纹理信息。35790T-VSR S-VSR UCF101 Vimeo90K UCF101 Vimeo90K UCF101 Vimeo90K Parameters Method Method PSNR SSIM IE PSNR SSIM IE PSNR SSIM IE PSNR SSIM IE PSNR SSIM IE PSNR SSIMIE (百万)0SepConv [40] Bicubic 29.988 0.944 4.531 30.628 0.937 4.234 26.189 0.874 7.154 27.287 0.866 6.582 22.877 0.779 11.201 24.181 0.782 9.989 21.7 SepConv [40] DBPN [19] 32.041 0.9583.729 32.179 0.955 3.415 28.380 0.915 5.573 28.969 0.903 5.268 25.135 0.845 8.298 26.016 0.834 7.717 21.7+10.4 SepConv [40] RBPN [20] 31.859 0.957 3.795 32.377 0.958 3.300 28.6500.920 5.400 29.507 0.914 4.912 25.323 0.823 8.067 26.409 0.846 7.275 21.7+12.7 SepConv [40] EDVR [51] — — — — — — 28.650 0.920 5.388 29.481 0.914 4.909 — — — — — —21.7+20.70AdaCoF [33] Bicubic 30.056 0.945 4.458 30.760 0.936 4.203 26.187 0.874 7.133 27.243 0.864 6.624 22.877 0.778 11.193 24.160 0.781 10.029 21.8 AdaCoF [33] DBPN [19] 32.167 0.958 3.63032.341 0.954 3.401 28.557 0.917 5.430 29.214 0.903 5.207 25.164 0.845 8.253 25.935 0.832 7.804 21.8+10.4 AdaCoF [33] RBPN [20] 31.997 0.958 3.692 32.537 0.957 3.288 28.840 0.9225.237 29.584 0.914 4.865 25.349 0.851 8.026 26.155 0.841 7.466 21.8+12.7 AdaCoF [33] EDVR [51] — — — — — — 28.848 0.923 5.226 29.700 0.916 4.810 — — — — — — 21.8+20.70CAIN [12] Bicubic 29.931 0.941 4.627 30.578 0.931 4.412 25.987 0.865 7.456 26.908 0.851 7.035 22.505 0.743 12.166 23.820 0.759 10.691 42.8 CAIN [12] DBPN [19] 31.741 0.954 3.90431.796 0.946 3.819 27.814 0.901 6.105 28.100 0.877 6.125 23.672 0.779 10.561 24.764 0.784 9.478 42.8+10.4 CAIN [12] RBPN [20] 31.721 0.955 3.896 31.980 0.949 3.702 27.995 0.9065.930 28.377 0.887 5.855 23.566 0.781 10.498 24.605 0.787 9.437 42.8+12.7 CAIN [12] EDVR [51] — — — — — — 28.339 0.911 5.711 28.690 0.893 5.642 — — — — — — 42.8+20.70STARnet [22] — — — — — — 28.829 0.920 — 30.608 0.926 — — — — — — — 111.6 Zooming Slow-Mo [53] 32.200 0.959 3.630 33.270 0.963 2.982 28.931 0.923 5.184 30.621 0.9274.354 25.376 0.850 8.054 26.829 0.851 7.018 11.1 TMNet [55] 32.211 0.960 3.620 33.298 0.964 2.974 28.988 0.924 5.149 30.699 0.929 4.311 25.424 0.852 7.984 26.994 0.854 6.874 12.3CycMu-Net 32.258 0.960 3.608 33.545 0.965 2.885 29.020 0.925 5.130 30.750 0.929 4.287 25.486 0.853 7.931 27.062 0.856 6.827 11.10表1. ST-VSR的最新方法的定量比较(2×,4×,8×从左到右)。红色和蓝色的数字表示最佳和次佳性能。0叠加的LR AdaCoF+Bicubic AdaCoF+DBPN SepConv+RBPNAdaCoF+RBPN(24.425/0.804)(26.995/0.858)(28.383/0.885)(27.835/0.877)0CAIN+RBPN Zooming Slow-Mo TMNet CycMu-Net Ground-Truth(25.700/0.810)(28.582/0.887)(28.829/0.890)(28.983/0.893)0图4. Vimeo90K数据集上与最新方法的视觉比较(8×)。0方法 UCF101 Vimeo90K 参数0PSNR SSIM IE PSNR SSIM IE(百万)0Bicubic 27.254 0.889 6.232 28.135 0.879 5.994 — DBPN [19] 30.898 0.938 4.21131.484 0.928 4.137 10.4 RBPN [20] 31.309 0.943 4.035 32.417 0.939 3.759 12.7EDVR [51] 31.452 0.944 3.974 32.558 0.941 3.680 20.7 CycMu-Net 31.463 0.9443.980 32.472 0.940 3.735 11.10表2.UCF101和Vimeo90K数据集上S-VSR(H0)的最新方法的定量比较。0(见红色和黄色框)。相反,我们提出的方法探索了S-VSR和T-VSR之间的相互关系,这有助于生成更清晰的结果和更清晰的结构和纹理。(更多的视觉比较见补充材料)S-VSR。我们将提出的网络与包括双三次插值和DBPN[19]在内的图像SR方法以及S-VSR进行比较0包括RBPN [20]和EDVR[51]等方法。在S-VSR上的结果显示在表2中,表明S-VSR方法(EDVR [51]和RBPN[20])通过参考多帧进行时间相关性可以实现比图像SR方法(双三次插值和DBPN[19])更好的性能。此外,我们可以看到我们的CycMu-Net与EDVR具有可比较的结果,但它只需要EDVR的一半参数和三个三元组而不是七个帧进行训练。这也验证了我们网络的强大泛化能力,我们提出的上投影单元通过利用T-VSR中的时间相关性对S-VSR任务是有帮助的。T-VSR。我们将我们提出的网络与包括SpeConv-Lf [40]、SepConv-35800叠加的低分辨率 EDSC DAIN AdaCoF++ CAIN CycMu-Net 真实值(1.826)(1.868)(1.812)(3.054)(1.539)0图5. Middlebury数据集上的时序视频超分辨率的视觉比较。0叠加的低分辨率 模型(a) 模型(b) 模型(c) 模型(d) 真实值(27.182/0.887)(27.276/0.893)(27.528/0.897)(27.673/0.900)0图6. Vimeo90K数据集上四个变体的消融研究的视觉比较(4×)。0方法 UCF101 Vimeo90K MB-Other 参数0PSNR SSIM IE PSNR SSIM IE IE(百万)0SpeConv-L f [40] 37.883 0.982 2.264 36.506 0.985 1.936 1.355 21.6 SpeConv-L 1 [40]37.953 0.983 2.221 36.788 0.986 1.845 1.310 21.6 EDSC [11] 37.946 0.983 2.27137.326 0.988 1.824 1.302 8.9 DAIN [2] 38.172 0.983 2.131 36.686 0.986 1.862 1.34624.0 CyclicGen++ [35] 37.644 0.981 2.261 33.935 0.973 2.660 1.750 19.8 AdaCoF++[33] 38.387 0.983 2.088 36.874 0.987 1.857 1.304 21.8 CAIN [12] 35.407 0.979 2.84934.857 0.979 2.729 2.369 42.8 CycMu-Net 38.850 0.984 2.012 39.074 0.990 1.4220.983 11.10表3. T-VSR(L t)的最新方法的定量比较。0L1 [40],EDSC [11],DAIN [2],CyclicGen++[35],AdaCoF++ [33]和CAIN[12]。T-VSR的结果显示在表3中。我们发现我们提出的方法在视频帧插值方面明显优于最先进的方法。例如,我们提出的CycMu-Net的PSNR值分别比UCF101和Vimeo90K数据集上的EDSC[11]高出1.1dB和1.6dB。此外,我们在图5中展示了四种时序视频超分辨率方法的可视化结果和IE值,我们提出的方法产生的中间帧具有更多细节(例如鞋子)。我们将这归因于在训练ST-VSR网络时,我们充分利用了通过下投影单元从S-VSR获得的HR信息。因此,插值帧可以从S-VSR获得更多纹理和详细信息。04.3. 模型分析0消融研究。为了进一步验证CycMu-Net中的关键模块,我们进行了全面的4×SR消融研究。0方法 FTI PU UCF101 Vimeo90K0FFI DFI PP CP PSNR SSIM IE PSNR SSIM IE0模型(a) � 28.861 0.922 5.243 30.170 0.921 4.616 模型(b) � 28.9260.924 5.161 30.510 0.926 4.4150模型(c) � � 28.940 0.924 5.150 30.544 0.926 4.3900模型(d) � � 28.996 0.924 5.144 30.650 0.928 4.3380表4.不同模块性能(4×)的定量比较。FTI表示特征时序插值,FFI表示融合特征插值,DFI表示可变形特征插值,PU表示投影单元。PP表示纯投影单元,CP表示循环投影单元。0模型(a):使用融合特征插值(FFT)网络来指导融合输入帧的输入信息,并产生没有运动估计的中间表示。然后,两个像素洗牌层将这些表示作为输入,并通过卷积产生4×SR视频。模型(b):我们将可变形卷积作为隐式运动估计加入到模型(a)的特征插值网络(FTI-Net)中,形成我们的可变形特征插值(DFI)网络,如第3.2节所述。模型(c):在模型(b)的基础上,我们在特征时序插值网络和重建网络之间添加了额外的迭代纯投影单元(PP),而没有上下采样。模型(d):CycMu-Net的完整版本。图6和表4显示了视觉和数值比较结果。与不进行运动估计的模型(a)相比,模型(b)的结果表明采用可变形卷积的效果更好。228.9390.9235.18130.4800.9264.4207.3428.9820.9245.14930.6010.9274.3609.2629.0200.9255.13030.7500.9294.28711.1829.0300.9255.13030.7530.9294.28213.01029.0440.9255.12830.7910.9294.27314.935810叠加的LR M=2 M=4 M=6 M=8 M=10 真实值(26.095/0.897)(26.195/0.901)(26.214/0.901)(26.229/0.902)(26.330/0.904)0图7. Vimeo90K数据集上不同数量的上投影单元和下投影单元的消融研究的视觉比较(4×)。0M UCF101 Vimeo90K 参数0PSNR SSIM IE PSNR SSIM IE(百万)0表5. 不同投影单元数量(4×)的性能定量比较。0对于隐式帧插值的解决方案可以在Vimeo90K数据集上带来0.34dB的增益,并改善视觉效果(例如移动汽车的边缘)。基于模型(b),普通投影单元的添加(模型(c))可以帮助模型(b)生成具有更清晰结构的汽车。不幸的是,它们无法恢复关键细节(例如车牌)。相反,我们提出的模型(d)可以生成更可信的SR结果。这证明了我们提出的上投影单元和下投影单元消除了跨空间错误,而普通投影单元放大了错误。上投影单元和下投影单元的影响。为了证明我们的上投影单元和下投影单元的有效性,我们通过设置不同数量的投影单元构建了多个网络(M = 2, 4, 6, 8,10)。在4×上的视觉和数值结果如图7和表5所示。随着上投影单元和下投影单元的数量增加,CycMu-Net生成具有更完整结构和细节(例如篮球)的结果,并在两个数据集上在PSNR,SSIM和IE方面取得更好的结果。考虑到效果和效率之间的权衡,我们将M设置为6来预测所提出的CycMu-Net的最终结果。这也验
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 高清艺术文字图标资源,PNG和ICO格式免费下载
- mui框架HTML5应用界面组件使用示例教程
- Vue.js开发利器:chrome-vue-devtools插件解析
- 掌握ElectronBrowserJS:打造跨平台电子应用
- 前端导师教程:构建与部署社交证明页面
- Java多线程与线程安全在断点续传中的实现
- 免Root一键卸载安卓预装应用教程
- 易语言实现高级表格滚动条完美控制技巧
- 超声波测距尺的源码实现
- 数据可视化与交互:构建易用的数据界面
- 实现Discourse外聘回复自动标记的简易插件
- 链表的头插法与尾插法实现及长度计算
- Playwright与Typescript及Mocha集成:自动化UI测试实践指南
- 128x128像素线性工具图标下载集合
- 易语言安装包程序增强版:智能导入与重复库过滤
- 利用AJAX与Spotify API在Google地图中探索世界音乐排行榜
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功