视频超分辨率的时间可变形对齐网络（TDAN）

127 浏览量更新于2023-10-25 收藏 1.11MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

3360TDAN：用于视频超分辨率的时间可变形对齐网络田亚鹏1，张玉伦2，付云2，徐晨良11罗切斯特大学2，东北大学{yapengtian，chenliang.xu}@ rochester.edu，yulun100@gmail.com，yunfu@ece.neu.edu摘要视频超分辨率（VSR）旨在从其对应的低分辨率（LR）帧（参考帧）和多个相邻帧（支持帧）恢复照片般逼真的高分辨率（HR）视频帧。由于摄像机或物体的不同运动，参考框架和每个支撑框架不对齐。因此，时间对齐是VSR的一个具有挑战性的重要问题。以往的VSR方法通常利用参考框架和每个支撑框架之间的最优流来扭曲支撑框架以实现时间对准。然而，不准确的流和图像级变形策略两者将导致变形的支持帧中的伪影。为了克服这一局限性，我们提出了一种时间可变形的对齐网络（TDAN），以自适应地对齐参考帧和每个支持帧在特征级，而无需计算光流。TDAN使用来自参考帧和每个支持帧的特征TDAN通过使用相应的内核，将支撑框架转换为与参考框架对齐。为了预测HR视频帧，利用采用对齐帧和参考帧的重构网络。实验结果表明，TDAN能够减轻时间对齐的遮挡和人为因素，基于TDAN的VSR模型优于最近几个国家的最先进的VSR网络，具有相当的或甚至更小的模型大小。源代码和预训练模型在https://github.com/YapengTian/TDAN-VSR中发布。1. 介绍视频超分辨率（VSR）的目标是从其对应的低分辨率（LR）视频帧（参考帧）和多个相邻LR视频帧（支持帧）重建高分辨率（HR）视频帧。HR视频帧包含更多的图像细节，并且更受人类喜爱因此，VSR技术在许多实际应用中是理想的，如视频HR双三次美国[1]图1. 漫游序列中帧的VSR结果。我们发现，我们的方法可以恢复更准确的图像结构和细节比最近的DUF网络。监控和高清电视（HDTV）。为了超分辨LR参考帧，VSR将利用LR参考帧和多个LR支持帧。然而，LR参考框架和每个支撑框架可能由于相机或对象的运动而不对准因此，振动时效中的一个重要问题是如何使支承框架与参考框架对准以前的方法[2，3，4，5，6]通常利用光流来预测参考帧和支持帧之间的运动场，然后使用它们相应的运动场来扭曲支持帧因此，光流预测是这些方法的关键。流计算或图像级扭曲操作中的任何错误都可能在对齐的支持帧中的图像结构周围引入伪影。为了缓解上述问题，本文提出了一种时间可变形对齐网络（TDAN），它在不使用光流的情况下执行一级时间对齐。与以前的基于光流的VSR方法不同，我们的方法可以在特征级自适应地对齐参考帧和支持帧，而无需显式的运动估计和图像扭曲操作。因此，对齐的LR视频帧将具有较少的令人讨厌的图像伪影，并且重建的HR视频帧的图像质量具体来说，受可变形卷积[7]的启发，我们的TDAN使用来自参考帧和每个支持帧的特征来进行变形。3361动态预测采样卷积核的偏移。这些动态内核，然后应用于支持帧的功能，采用时间对齐。在这里，给定不同的参考帧和支持帧对，该模块将生成其相应的采样内核，这使得TDAN具有强大的能力和灵活性，以处理时间场景中的各种运动条件。利用对齐的支持帧和参考帧，利用重构网络来预测与LR参考帧相对应的HR视频帧。在广泛使用的振动时效基准上的实验结果：Vid 4 [8]和SPMC-30 [4]表明，我们的框架实现了有希望的性能，与Vid 4上的最近ToFlow [5]、FRVSR [6]和FSTRN[9]相比，PSNR改善超过0.5dB，与SPMC-30上的最近DUF [ 1 ]相比，改善超过0.6dB。在图1中，我们展示了与DUF的视觉比较，我们可以看到我们的方法重建了更多的图像细节。本文的贡献有三个方面：（1）提出了一种新的用于特征级配准的时间可变形配准网络（TDAN），它避免了以前基于光流的方法所采用的两阶段过程，并且能够探索图像上下文以减轻遮挡;（2）提出了一种基于TDAN的端到端可训练VSR框架;（3）在Vid 4和SPMCs-30基准数据集上，我们的方法取得了比最近几个最先进的VSR性能更好的性能。我们工作的早期版本于2018年首次发布到ArXiv [10]。在那之后，它已经对我们的社区产生了良好的影响，并且最近的作品包括用于视频超分辨率和去模糊的EDVR [11]和用于时空视频超分辨率的Zooming Slow- Mo [122. 相关工作单图像超分辨率（SISR）：考虑到SISR的长期研究历史，我们在本节中只介绍基于深度学习的方法。Dong等人[13]首先提出了一种端到端图像超分辨率卷积神经网络（SRCNN）。Kim等人[14]介绍了一个20层的深度网络：带剩余学习的VDSR。Shi等人[15]学习了一个有效的子像素卷积层，将最终的LR特征映射放大到HR输出中，以加速SR网络。更深入的网络，如LapSRN [16]，DRRN [17]和MemNet [18]，被探索以进一步提高SISR性能。然而，在以前的方法中使用的训练图像具有有限的分辨率，这使得训练更深和更宽的网络非常困难。最近，Zerofteet al.引入了一个新的大型数据集（DIV2K），1000 DIVerse 2K分辨率RGB图像在NTIRE 2017挑战[19]。当前最先进的SISR网络[20，21，22，23，24，25，26]在DIV2K上训练，远远超过了之前的网络最近的一项调查是在[27]。视频超分辨率（VSR）：已经观察到，时间对准严重影响VSR系统的性能。以前的方法通常采用基于光流的两阶段方法。他们在第一阶段通过计算光流进行运动估计，并在第二阶段利用估计的运动场进行图像扭曲/运动补偿例如，Liaoet al.[28]使用两种经典的光流方法，TV-L1和MDP流[29]，使用不同的参数生成HRSR草案，然后通过深度草案集成网络预测最终的HR帧Kappeler等人[30]将插值的流扭曲帧作为CNN的输入来预测HR视频帧。然而，这两种开创性的方法都使用了经典的光流算法，这些算法与帧重建CNN分离，并且在推理过程中比流CNN慢得多。为了解决这个问题，Caballeroet al. [2]介绍了第一个端到端VSR网络：VESCPN，它联合训练流量估计和时空网络。Liu等[3]提出了一种时间自适应神经网络来自适应地选择时间依赖性的最佳范围，并提出了一种校正光流对准方法来更好地估计运动。Tao等人[4]基于光流网络计算LR运动场，设计了一个新的层，利用运动的亚像素信息，同时实现亚像素运动补偿（SPMC）和分辨率增强。Xue等人[5]通过面向任务的流（TOFlow）开发了面向任务的运动提示，其实现了比固定流算法更好的VSR结果。Sajjadi等人[6]将传统的VSR模型扩展为帧递归VSR框架。 Kim等人[31]介绍了一种时空流估计网络，以捕获长距离时间依赖性。然而，即使使用最先进的光流估计网络也不容易获得足够高质量的运动估计。即使具有精确的运动场，基于图像扭曲的运动补偿也将在图像结构周围产生伪影，其可能被传播到最终重建的HR帧中。所提出的TDAN在不依赖于光流的情况下执行特征方面的一阶段时间对准，这将缓解这些先前基于光流的VSR网络中的问题。最近，Joet al.[1]提出了使用动态上推滤波器和Li等。[9]利用基于3D卷积的残差网络进行VSR。然而，没有明确的时间对齐，他们有有限的能力，在处理各种不同的时空视觉模式。可变形卷积：由于固定的核配置，CNN在建模几何变换方面具有固有的局限性。为了增强CNN的转换建模能力，Daiet al. [7]提出了一个3362我不不不不不我我我我iTDAN我不是LL图2.提出了基于TDAN的VSR框架。在这里，我们仅示出了具有一个支撑框架的框架。在我们的实现中，4个相邻的支持帧用于探索更多的时间信息。可形成卷积运算。它已被应用于AD-Dress几个高层次的视觉任务，如对象检测，特征提取：该模块提取视觉特征FLR和FLR分别从ILR和ILR经由共享的I T I T[7，32]，语义分割[7]和人体姿势估计[33]。虽然可变形卷积在这些高级视觉任务上显示出优越性，但很少在低级视觉问题中进行探索。3. 方法3.1. 概述特征提取网络该网络由一个卷积层和k1残差块[34]，其中Re-LU作为激活函数。在我们的实现中，我们采用了[20]中修改后的残差结构。提取的特征，然后用于特征的时间对齐。可变形对齐：可变形对准模式-ule以FLR和FLR作为输入来预测采样I t让我LR∈RH×W×C是第t个LR视频帧，用于特征FLR的参数Θ：而IHR∈RsH×sW×C是对应的HR视频Θ=f（F LR，F LR）。（三）帧，其中s是放大因子，H×W表示帧大小，C是指信道号。我们目标是从参考LR帧ILR和2N个支持LR帧恢复HR视频帧IHR{lr，...我勒，我勒，...，I LR}。因此，我们的振动时效框架-θi t在这里，Θ={△pn |n=1，. -是的-是的、|R|}是指卷积核的偏移，其中R={（−1，−1），（−1，0），…，（0，1），（1，1）}给出一个规则网格t−Nt−1电话+1t+N一个3x3k的内核。利用Θ和F LR，对准特征F LR′工作取连续的2个N+1帧{ILR}t+Ni iii=t−N可以通过可变形的作为输入来预测HR帧IHR，其在图1中示出。二、它由两个主要子网组成：时间可变形对准网络（TDAN），卷积：F LR′=f（FLR，Θ）。（四）每个支撑框架具有参考框架和超分辨率（SR）重建网络以预测HR更具体地，对于对准特征图F LR′上的每个位置p 0，我们有：frame.TDAN采用LR支撑框架ILR，LRF LR′（p）=Σ w（p ）FLR（p+p+△p ）的情况。（五）我参考帧ILR作为输入来预测对应i0ni0n np∈Rt′对齐LR帧ILR在支撑框架中：n卷积将在不规则的位置ILR′=f（ILR，ILR）.（一）pn+△pn，其中△pn可以是分数的。解决将2N个支撑架分别送入TDAN，可得到2N个对应排列的LRframes{ILR′，. ILR′，ILR′，...，ILR′}。问题，该操作是通过使用双线性插值，这与[7]中提出的插值相同。在此，可变形对准模块由以下几个部分组成：t−Nt−1电话+1t+N常规和可变形卷积层。为2N个对齐的帧与参考帧一起然后被馈送到超分辨率（SR）重建中采样参数生成函数fθ，它连接FLR和FLR，并使用3×3瓶颈层来减少I t网络我们最终可以重建HR视频帧：连接特征图的通道号。然后，IHR=f（ILR′，...， ILR′，ILR，ILR′，...，ILR′）。（二）采样参数由卷积预测tSRt−Nt−1t电话+1t+N联系我特征提取器Θ重建层联系我conv瓶颈层偏移发生器偏移Sr重建网络convconcatSrconcatconv可变形转换DC3363我不具有核大小的图层|R|作为输出通道号。最后，从Θ获得对准特征F LR′，并且3.2. 时间可变形对准网络LRi给定 LR 支持帧 ILR 和 LR 参考帧 ILR ，所提出的TDAN将在时间上将ILR与ILR对准。它主要由三个模块组成：基于可变形卷积运算。在实践中-tice，除了用于对齐的可变形卷积外，我们使用2个额外的规则可变形卷积层和1个额外的规则可变形卷积层I t提取、可变形对齐和对齐帧重建，结构用于增强变换灵活性的fdc之后，模块的能力。第4.3节包含消融3364我不我不srt t2研究了附加不同数量的可变形卷积层的模块的性能我们注意到参考系FLR的特征是：框架：L1吨/吨+N=ILR′−ILR.（六）不仅用于计算偏移量，其信息将不传播到支撑件的对准特征中对齐2Ni t2i=t−N，t标架F LR′。此外，自适应学习的fset将隐式地捕获运动线索并探索相同图像结构内的相邻特征以用于对准。对齐帧重建：虽然可变形对齐具有捕获运动线索并将FLR与FLR对齐的潜力，但是隐式对齐难以学习SR重建网络的目标函数通过L1重建损失定义：L=IHR′−IHR2。（七）结合这两个损失项，我们就有了用于训练VSR框架的整体损失函数：I t没有监督。因此，我们恢复对齐的LR帧ILR′用于ILR，并利用对准损失来强制L=Lalign+ Lsr。（八）我我可变形对准模块对有用特征用于精确的时间对准。对齐的LR框架在训练我们的VSR框架时，这两个损失项同时优化。因此，我们基于TDAN的LR′我可以从对齐的VSR网络是端到端可训练的。此外该具有3×3卷积层的特征图在将2N个参考和支持帧对连续地馈送到TDAN之后，我们可以获得对应的2N个对齐的LR帧，其将用于在SR重建网络中预测HR视频帧IHR3.3. SR重构网络我们使用SR重建网络从对齐的LR帧和参考帧恢复HR视频帧IHR。该网络包含三个模块：时间融合、非线性映射和HR帧重构，其将分别聚合来自不同帧的时间信息、预测高级视觉特征以及恢复LR参考帧的HR帧。时间融合：为了跨时空融合不同的帧，我们直接连接2N+1帧，然后将它们送入3×3卷积层以输出融合的特征图。非线性映射：具有k 2个堆叠残差块的非线性映射模块[20]将把阴影融合特征作为输入来预测深度特征。HR帧重建：在LR空间中提取深度特征后，受EDSR[20]的启发，我们利用放大层来增加特征图的分辨率，并采用Shi等人提出的子像素卷积。 [15 ]第10段。在实践中，对于×4放大，将使用两个子像素卷积模块。最终的HR视频帧估计IHR’将通过来自缩放特征图的卷积层获得。3.4. 损失函数两个损失函数Lalign和Lsr分别用于训练TDAN和SR重建网络。注意，我们没有对齐的LR帧的地面实况。到对TDAN进行了优化，利用参考帧作为标签，使对齐后的LR帧靠近参考帧TDAN可以用自我监督来训练，而不需要任何注释。3.5. 对拟议TDAN给定参考帧和一组支持帧，所提出的TDAN可以采用时间对准来将支持帧与参考帧对准。它有几个优点：一段时间对齐：大多数先前的时间对准方法是基于光流的，其将时间对准问题分成两个子问题：流量/运动估计和运动补偿第如本文所讨论的，这些方法的性能高度依赖于流估计的准确性，并且基于流的图像变形将引入令人讨厌的伪影。与这些两阶段的时间对齐不同，我们的TDAN是一个阶段的方法，它在特征级对齐支持帧。它通过自适应采样参数生成隐式地捕获运动线索，而无需显式地估计运动场，并从对齐的特征重建对齐的帧。自我监督训练：光流估计是两阶段方法的关键。为了保证流估计的精度，一些VSR网络[4，5，3]采用了简化了额外的流量估计算法。与这些方法不同的是，TDAN内部没有流量估计，并且可以以自监督的方式进行训练，而不依赖于任何额外的监督。探索：对于帧中的每个位置，其由光流计算的运动场仅涉及一个潜在位置p。这意味着扭曲帧中的每个像素将仅复制p处的一个像素或使用分数位置的内插值。然而，除了利用p处的信息之外，我们的可变形对准模块可以自适应地在采样位置处探索更多特征，这些特征可以与p共享相同的图像结构，并且它将有助于聚集更多上下文以实现更好的对准帧重构。我3365方法双三VSRnet [30]VESCN [2]Liu等[3]第一章[22]第二十二话RDN [21]RCAN [23]TOFlow [5]TDAN视频423.79/0.63324.73/0.69725.34/0.73025.53/0.74925.33/0.73125.40/0.73525.42/0.73725.90/0.76526.42/0.789SPMCs-3027.08/0.744-/--/--/-29.76/0.83029.92/0.83630.07/0.84129.47/0.83130.38/0.854表1.在BI配置下，Vid 4和SPMC-30上不同网络的PSNR（dB）和SSIM，放大因子为4。前2个结果用红色和蓝色突出显示。HR Bicubic VSRnet [30] VESCN [2] Liuet al.[3]第一章城市/BI步行/BD[22]第二十二话：我的世界HR双三次DRVSR [4] DUF [1] TDANHR双三次DRVSR [4] DUF [1] TDAN图3.Vid4数据集上4×VSR的目视比较我们观察到，所提出的TDAN恢复更好的图像结构和细节比其他国家的最先进的VSR网络，这表明TDAN在时间对齐利用信息像素从LR支持帧的强大能力因此，本文提出的TDAN比基于光流的模型具有更强的探测4. 实验4.1. 实验设置数据集：在我们的实验中，我们使用Vimeo超分辨率数据集等。 [5] 包含 64612 个训练样本，分辨率为448×256，作为我们的训练数据集，31帧来自Temple序列[28]作为验证数据集。与其他方法相同，我们在Vid4基准[ 8 ]上评估了我们的模型，其中包含四个视频序列：城市、步行、日历和树叶， Vid4 中的每个序列至少有 30个720×480视频帧。此外，我们还对不同的方法进行了较大的测试比较集合：SPMCs-30 [4]。它有30个不同的动态场景，每个序列有31个960×520 HR帧。由于某些方法无法获得重构帧或源代码，因此我们将不报告SPMC-30上的结果。评价衡量标准：PSNR，SSIM[35]，和VQM VFD [36]被用作定量比较不同VSR网络的评估指标。我们使用参考帧和相应的对准的支持帧作为评估时间对准性能的度量1.根据以前的方法[1，6，2]的评估，我们裁剪图像边界附近的8个像素，忽略前3帧和后3帧。降解方法：我们将基于TDAN的网络与当前最先进的VSR和SISR网络进行了比较：VSRnet [30]，ESPCN[15]，VESCPN [2]，Liu etal. [3] ， TOFlow [5] ， DBPN [22] ， RDN [21] ， RCAN[23]，[4][5][6][7][8][9][10][11][12][13][14][15][16][17][18][19的前八个网络采用 Matlab 函数 imresize 和选项 bicubic（BI）来生成LR视频帧。SPMC、FSRVSR和DUF通过首先经由高斯核模糊HR帧并且然后对模糊帧进行下采样（简称为BD）来获得LR帧。请注意，我们比较了 FRVSR-3-64 和DUF-16 L模型，它们与我们基于TDAN的VSR网络具有相似的模型大小。最近，RBPN[37]显示了有希望的VSR结果。然而，其模型尺寸比我们的TDAN大6倍以上，因此我们不将其纳入比较。我们用两种不同的退化方法训练了两个不同的TDAN模型，以进行公平的比较。实施详情：在我们的实现中，k1= 51没有地面实况对齐帧，因此我们使用参考帧作为伪标签来近似测量时间对齐质量。3366car05 001/BIHR RCAN [21] ToFlow [5] TDANphilips hkc01 001/BDHR Bicubic DUF [1] TDAN图4. SPMC-30视频帧上4×VSR的视觉比较方法双三DRVSR [4]FSRVSR [6]FSTRN [9]德国[1]TDAN视频423.47/0.61626.03/0.77526.17/0.79824.76/0.72026.85/0.81626.86/0.814SPMCs-3026.68/0.73029.89/0.840-/--/-30.14/0.85730.80/0.869表2. BD配置下放大因子为4的不同网络的PSNR（dB）和SSIM。我们的TDAN在SPMC-30上实现了比其他方法显著的改进，SPMC-30包含多样化和动态的场景。支持TDAN参考支持对齐图5.学习的采样位置的可视化所提出的TDAN将支持帧与对应的参考帧对准，并且基于从参考帧和支持帧两者学习的采样位置，从来自支持帧的特征重构对准帧支持帧中的绿点指示用于通过TDAN预测对齐帧中标记有红色的对应像素的采样位置。我们使用3层3×3内核从支持帧的特征图中采样因此，我们为每个输出像素（红点）显示9个3个绿色采样点请注意，我们直接在支持框架上显示采样，而不是特征图，5x5红色框的中心点表示目标像素，以便更好地可视化。和k2=10个残差块分别用于特征提取和SR重构网络。我们使用了一个下采样因子：在我们的实验中，s = 4。每个训练批包含64×5LR RGB补丁，大小为48×48，其中64表示批量，5表示连续输入帧的数量。我们实施了我们的与PyTorch [38]网络，并采用Adam [39]作为优化器。FlowVSR参考图6.FlowVSR和TDAN在具有非常大的时间间隙（60帧）的支持/参考帧对上的时间对准结果TDAN可以利用包含与来自支持帧的目标像素（红点）类似的内容（绿色区域）的丰富图像上下文来采用准确的时间对准。注意，对齐是在支持帧的特征图上执行的，因此用于对齐的实际利用的图像区域将比绿色区域大得多。4.2. 比较BI降解结果：表1显示了BI配置的定量比较。请注意，我们的TDAN使用与TOFlow相同的训练数据集，其他VSR方法没有发布它们的训练数据或训练源代码。因此，我们直接根据所提供的结果与他们的方法进行了比较。我们可以看到，我们的TDAN实现了最好的性能在所有比较的最先进的基于流的VSR网络和SISR网络。3367BI配置上4×VSR的目视结果如图所示3和图4.第一章我们可以发现，SISR网络在不使用支撑框架的情况下工作：DPBN，RDN，和RCAN，无法恢复丢失的图像细节，如城市图像中的建筑结构和汽车图像中的数字采用运动补偿，VESCN [2]，Liuet al.[3]和TOFlow [5]可以补偿来自支持帧的缺失细节。我们的TDAN恢复更多的精细图像细节比别人，这表明了所提出的框架的有效性。BD降解结果：表3显示了BD配置的定量比较。我们的方法优于基于流的网络（例如，DRVSR和FRVSR）和基于3D卷积的FSTRN，并在Vid4数据集上实现了与DUF相当的结果当在更大的数据集上进行测试时：SPMCs-30，我们的TDAN明显优于其他方法，比DUF提高了0.64dB应该注意的是，DUF和FRVSR分别采用7帧和10帧作为输入，而我们的TDAN采用5帧作为输入，利用较少的序列信息。BD配置的视觉结果如图所示。图3和图4。与最近的DUF [1]相比，得益于强大的时间对齐网络，所提出的TDAN在利用支持帧中的信息方面更有效因此，它更有能力恢复图像结构，例如Walk中的婴儿脸和Philipshkc01 001中的桥梁结构。视频质量评估我们进一步将TDAN与最先进的VSR网络进行比较：Liuet al. [3]、ToFlow [5]、DRVSR [4]和DUF [1]对视频质量评估指标的评估：VQM VFD [36]见表3。TDAN优于最近的基于流的方法：Liu等[3]、ToFlow [5]和DRVSR [4]，并在SPMC-30上实现了比DUF更好的性能。实验结果进一步证明了TDAN在恢复自然视频的时空结构方面的能力方法Liu等ToFlowTDAN-BIDRVSRDUFTDAN-BD视频40.1130.1040.0940.1000.0840.084SPMCs-30-0.00490.042-0.0430.038表3. BI和BD设置下的VQM VFD [36]结果。注意，VQMVFD可以测量恢复视频的时空一致性质量，并且越小越好。型号尺寸：表4显示了具有领先VSR性能的几个网络的参数编号。我们可以看到，最先进的SISR网络：RDN、RCAN和TOFlow具有比TDAN更大的模型尺寸。我们提出的TDAN与FRVSR和DUF的参数数目相当。即使在这样一个轻量级的模型，所提出的TDAN仍然取得了良好的VSR性能，这进一步验证了所提出的一个阶段的时间对齐框架的有效性方法RDNRCANTOFlowFRVSRDUFTDAN参数/ M22.3015.506.202.001.901.97表4.几种具有领先VSR性能的网络的参数数（×106）模型SISRMFSRFlowVSRD2D3D4D5PSNR30.0730.9731.1731.0631.2131.3231.39表5.不同基线模型和TDAN变量在验证视频序列上的VSR性能。4.3. 消融研究为了进一步研究我们的TDAN，我们将其与三种模型进行比较：SISR，MFSR和FlowVSR，它们在与TDAN相同的Vimeo超分辨率数据集上训练。SISR模型仅使用参考帧作为输入，而MFSR直接将支持帧和参考帧连接起来作为输入。FlowVSR采用光流法对支撑框架进行变形，然后将对齐后的支撑框架和参考框架送入SR重构网络。我们使用SpyNet [40]预测FlowVSR的光学流量，如ToFlow [5]中所示。为了公平比较，MFSR和FlowVSR网络具有与TDAN相同的SR重构网络。由于SISR网络中只使用参考帧，因此SISR中只有第一个卷积层的输入通道数与其他卷积层此外，我们比较了我们的TDAN模型与不同数量的可变形卷积层：2，3，4和5这四个模型都有一个可变形卷积层，用于从支持帧中采样特征，以及图中2用于自适应地利用视觉上下文。对于D3，D4和D5，为了增强偏移生成器的能力，它们在图中的卷积偏移生成器之前分别具有额外的二、TDAN 对 VSR 的有效性表 5 显示了 SISR 、 MFSR 、FlowVSR、D2、D3、D4和D5网络的VSR性能。可以看出，MFSR优于SISR，FlowVSR、D2、D3、D4和D5 优于 MFSR; 我们的 D3 、 D4 和 D5 的性能优于FlowVSR。这些观察结果表明，即使没有时间对齐，利用支持帧也可以提高VSR性能; TDAN和基于流的变形有助于处理运动问题和利用支持帧中的有用信息;建议的TDAN（例如，D3、D4和D5）可以实现比基于光流的FlowVSR模型更好的性能，即使具有更少的参数;更多的可变形层可以增强TDAN的能力。为了将TDAN设置为与FRVSR和DUF具有可比性的模型大小，我们在实验中使用D4从定性和定量的比较，在SEC。4.2，我们发现即使是D4也达到了最先进的VSR性能。为什么TDAN能够进行时间对齐？图-3368支持参考FlowVSR TDAN图7. FlowVSR和TDAN在Foliage上的时间对准结果。两个视觉遮挡区域被突出显示。一辆黑色的汽车（红框）出现在支撑框架中，但没有显示在参考框架中;白色汽车的一部分显示在参考框架中，但不在支撑框架中（绿框）。TDAN可以有效地缓解遮挡问题，并利用丰富的视觉上下文恢复具有精细细节的照片级真实感图像。视频4市走日历树叶Avg.FlowVSRTDAN34.4949.6326.2848.1430.0444.7430.7346.7730.5047.32表6. FlowVSR和TDAN在Vid4数据集中的620个LR视频帧上的时间对齐结果。图5示出了基于学习的偏移和Temple上的时间对准结果的支持帧上的采样位置的可视化。我们看到，采样位置倾向于捕获具有不同形状的包含类似内容的视觉区域作为用于时间对准的输出像素，而不是像在对象检测中那样跨越整个对象[7]，并且TDAN完美地将支持帧与参考帧对准。另一个与FlowVSR进行额外视觉比较的示例如图所示。六、我们看到TDAN可以利用包含类似内容的图像上下文作为来自支持帧的目标像素来处理视觉遮挡（粉红线）和大运动和变形（另外两条线），但是基于光流的FlowVSR由于其有限的探索容量（一个像素）而失败实验结果表明，可学习的采样机制为TDAN提供了强大的能力，可以利用丰富而有用的上下文信息，这使得TDAN可以有效地使用时间对齐。图7进一步比较了TDAN和FlowVSR在树叶上的时间对准性能。显然，FlowVSR生成了模糊的对齐帧，无法解决遮挡问题。相比之下，我们的TDAN可以很好地处理视觉遮挡，具有更强的探索能力。表6示出了不同时间对准方法的定量结果。我们可以发现，TDAN实现了显着更好的时间对齐性能比FLowVSR，这进一步证明了所提出的时间对齐框架的优越性。5. 限制在这项工作中，我们只使用了一个轻量级的TDAN模型，只有190万个参数。尽管我们的TDAN可以有效地利用时间信息，但较小的模型可能不足以恢复某些图像结构和细节。TDAN的一个故障案例如图所示8.我们可以看到，TDAN未能HR RCAN至Flow TDAN图8. TDAN的失败案例。非常深的SISR网络：RCAN算法能准确地恢复城市视频帧中显示图像区域的结构，而TOFlow和TDAN算法则不能。恢复建筑物中的结构，但非常深的SISR网络：RCAN能够准确地重建它们，这表明LR参考框架能够提供足够的线索来恢复结构，而不需要来自LR支持框架的额外信息。因此，为了获得更准确的结构和细节重建，有必要学习大型模型.在TDAN中，我们使用LR参考帧作为标签来定义L对齐。然而，LR参考帧与实际对齐的LR帧不完全相同，这将使标签有噪声。像[41]这样用于在标签噪声下学习的鲁棒算法可以被考虑用于改善L对齐。6. 结论在本文中，我们提出了一个单阶段时间对齐网络：TDAN用于视频超分辨率。与将时间对准问题分成两个子问题的复杂的基于光流的方法不同：在运动估计和运动补偿方面，TDAN经由特征级的可变形采样模块隐式地捕获运动提示，并且直接从采样的特征预测对准的LR视频帧，而无需图像方面的扭曲操作。此外，TDAN能够探索图像上下文信息。基于TDAN的VSR网络具有先进的一级时间对齐设计和强大的探测能力，性能优于几种现有的VSR网络。致谢这项工作得到了NSF 1741472、1813709和1909912的部分支持本文仅反映作者的观点和结论，而不是资助机构。3369引用[1] Younghyun Jo、Seoung Wug Oh、Jaeyeon Kang和SeonJoo Kim。使用动态上采样滤波器的深度视频超分辨率网络，无需显式运动补偿。在CVPR中，第3224-3232页，2018年。一、二、五、六、七[2] Jose Caballero，Christian Ledig，Andrew P Aitken，Ale-jandro Acosta ， Johannes Totz ， Zehan Wang ， andWenzhe Shi.利用时空网路与运动补偿的即时视讯超解析。在CVPR，第1卷，第7页，2017年。一、二、五、七[3] Ding Liu ， Zhaowen Wang ， Yuchen Fan ， XianmingLiu ， Zhangyang Wang ， Shiyu Chang ， and ThomasHuang.学习时间动态的超分辨率视频见ICCV，第2526-2534页。IEEE，2017年。一二四五七[4] Xin Tao，Hongyun Gao，Renjie Liao，Jue Wang，andJiaya Jia.细节揭示深度视频超分辨率。在ICCV，第22-29页，2017年。一、二、四、五、六、七[5] Tianfan Xue，Baian Chen，Jiajun Wu，Donglai Wei，and William T Freeman.具有面向任务流的视频增强。IJCV，2019年。一、二、四、五、六、七[6] Mehdi SM Sajjadi 、 Raviteja Vemulapalli 和 MatthewBrown。帧循环视频超分辨率。在CVPR中，第6626-6634页，2018年。一、二、五、六[7] Jifeng Dai，Haozhi Qi，Yuwen Xiong，Yi Li，GuodongZhang，Han Hu，and Yichen Wei.可变形卷积网络。InICCV，Oct 2017. 一二三八[8] 刘策，孙德清.贝叶斯自适应视频超分辨率研究。TPAMI，36（2）：346-360，2014年。二、五[9] Sheng Li ， Fengxiang He ， Bo Du ， Lefei Zhang ，Yonghao Xu，and Dacheng Tao.用于视频超分辨率的快速时空残差网络在IEEE计算机视觉和模式识别会议（CVPR）上，2019年6月二、五、六[10] Yapeng Tian，Yulun Zhang，Yun Fu，and Chenliang Xu.Tdan：用于视频超分辨率的时间可变形对齐网络。arXiv预印本arXiv：1812.02898，2018。2[11] Xintao Wang，Kelvin CK Chan，Ke Yu，Chao Dong，and Chen Change Loy. Edvr：使用增强的可变形卷积网络进行视频恢复。在CVPR研讨会，2019年。2[12] Xiaoyu Xiang，Yapeng Tian，Yulun Zhang，Yun Fu，Alle- bach Jan，and Chenliang Xu.慢速缩放：快速准确的单级时空视频超分辨率。在IEEE计算机视觉和模式识别会议上，2020年6月。2[13] Chao Dong ， Chen Change Loy ， Kaiming He ， andXiaoou Tang.学习用于图像超分辨率的深度卷积网络。见ECCV，第184-199页。Springer，2014. 2[14] Jiwon Kim，Jung Kwon Lee，and Kyoung Mu Lee.使用非常深的卷积网络实现精确的图像超分辨率。CVPR，第1646-1654页，2016年。2[15] WenzheShi，JoseCaballero，FerencHusza'r，JohannesTotz，Andrew P Aitken，Rob Bishop，Daniel Rueckert，and Zehan Wang.使用有效的子像素卷积神经网络实现实时单幅图像和视频超分辨率。在CVPR，第1874-1883页，2016年。二、四、五[16] 赖伟胜，黄家斌，纳伦德拉·阿胡贾，杨明轩。用于快速和精确超分辨率的深度拉普拉斯金字塔网络。在CVPR，第2卷，第5页，2017年。2[17] Ying Tai，Jian Yang，and Xiaoming Liu.基于深度递归残差网络的图像超分辨率。在CVPR，第1卷，第5页，2017年。2[18] Ying Tai ， Jian Yang ， Xiaoming Liu ， and ChunyanXu.Mem- net：一种用于图像恢复的持久存储网络。在ICCV，第4539-4547页，2017年。2[19] Radu Timofte，Eirikur Agustsson，Luc Van Gool，Ming-Hsuan Yang ，Lei Zhang ，Bee Lim ，Sanghyun Son ，Heewon Kim ， Seungjun Nah ， Kyoung Mu Lee ， etal.Ntire 2017对单个图像超分辨率的挑战：方法和结果。在CVPR研讨会上，第1110-1121页。IEEE，2017年。2[20] Bee Lim ， Sanghyun Son ， Heewon Kim ， SeungjunNah，and Kyoung Mu Lee.单图像超分辨率的增强深度残差网络。在CVPR研讨会，第1卷，第4页，2017年。二、三、四[21] Yulun Zhang，Yapeng Tian，Yu Kong，Bineng Zhong，and Yun Fu.用于图像超分辨率的残差稠密网络在CVPR，2018年。二、五、六[22] MuhammadHarisGregShakhnarovich 和 NorimichiUkita。用于超分辨率的深度反投影网络。在CVPR，2018年。二、五[23] Yulun Zhang ， Kunpeng Li ， Kai Li ， Lichen Wang ，Bineng

下载后可阅读完整内容，剩余1页未读，立即下载