盲视频超分辨率：基于深度卷积神经网络的端到端训练框架

7 浏览量更新于2023-10-13 收藏 1.36MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

4811×深度盲视频超分辨率潘金山1白浩然1董江新1张佳伟2唐金辉1 *1南京理工大学2商汤科技(d)KGAN[2]+ZSSR[34]（a）低分辨率（LR）输入帧（f）TOFlow [43] （g）去模糊[30]+EDVR[12]（h）w/o内核建模（i）我们的图1。盲视频超分辨率结果（4）.现有的视频超分辨率算法通常假设退化中的模糊核是已知的或预定义的，并且在恢复过程中不对模糊核进行建模我们证明了盲图像超分辨率方法不能很好地处理视频超分辨率问题（参见（c）-（d）），而没有对模糊核进行建模的现有视频超分辨率方法不能有效地捕获视频超分辨率问题的固有特性，这因此导致过度平滑的结果（参见（e）-（h））。我们的算法显式地估计低分辨率视频的模糊核，这是能够产生更清晰的结果与更精细的结构细节。摘要现有的视频超分辨率（SR）算法通常假设退化过程中的模糊核是已知的，并且不对退化过程中的模糊核进行建模。然而，该假设不适用于盲视频SR，并且通常导致过度平滑的超分辨率帧。在本文中，我们提出了一种有效的基于深度卷积神经网络（CNN）的盲视频SR算法。我们的算法首先从低分辨率（LR）输入视频估计模糊内核。然后，与估计的模糊核，我们开发了一种有效的图像去卷积方法的基础上的盲视频SR的图像形成模型，以产生中间的潜在帧，使清晰的图像内容可以恢复。为了有效地探索来自相邻帧的信息，我们从LR输入视频中估计运动场，通过特征提取网络从LR视频中提取特征，并且基于运动场从LR输入中扭曲所提取的此外，我们开发了一种有效的尖锐特征探索方法，该方法首先从恢复的中间潜在帧中提取尖锐特征我们将所提出的算法公式化为*通讯作者。端到端的可训练框架，并表明它对国家的最先进的方法表现良好。1. 介绍盲视频超分辨率（SR）旨在从具有未知模糊核的低分辨率（LR）序列中估计它是视觉和图形社区中的一个基本问题，并且随着高清晰度设备在我们的日常生活中的广泛使用，在过去十年中已经收到了积极的研究努力由于HR序列通常被未知模糊污染，因此从低分辨率序列恢复HR视频是相当具有挑战性的。由于盲视频SR是不适定问题，因此常规方法通常开发各种手工先验以使该问题适定并以变分方法估计潜在HR图像[9，1，5，33，23，27]。尽管这些算法取得了不错的结果，但通常需要求解复杂的能量函数或涉及复杂的匹配过程，并且性能受到手工先验的限制。此外，这些算法中的大多数通常假设模糊核是已知的或预定义的（例如，双三次核）并且在恢复中不对模糊核进行建模，这不能有效地捕获固有的(b)双三(c)国际会议中心[10]4812视频SR的特性[23]。受第一个用于单图像SR的端到端可训练网络[7]的启发，已经提出了许多基于深度卷积神经网络（CNN）的方法[18，8，11，46，22，20]。这些方法在单幅图像SR中取得了不错的效果，但由于没有考虑时间信息，因此不能容易地应用于视频SR问题为了克服这个问题，大多数现有的算法专注于开发有效的运动场和对齐估计方法。例如，基于光流[37]、可变形对准网络[38，40]和空间对准网络[24，4，43]的子像素运动为了更好地恢复潜在帧，已经开发了递归方法和生成对抗网络（GAN）[6，25]。这些方法对视频SR的发展起到了重要的推动作用。然而，它们通常假设模糊核是已知的和固定的（例如，双三次核），其不对未知模糊核进行建模，并且因此在处理盲视频SR问题时导致过平滑的结果（图1（e）-（f））。此外，简单地组合现有的去模糊和视频SR方法不能很好地解决盲SR问题，如图1（g）所示。代替假设已知的模糊核，若干算法明确地估计SR[28，10，48，2]的模糊核这些算法表明，使用图像SR的估计模糊核能够显著改善结果[28，2]。然而，这些算法主要是针对单个图像SR开发的，其不能直接扩展到视频SR，如图1（c）-（d）所示该方法[23，27]同时估计用于图像恢复的潜在运动场和模糊核然而，性能受到手工制作的图像先验的限制。此外，这些手工制作的图像先验通常导致难以解决的复杂优化问题。为了克服上述问题，我们提出了一种有效的视频SR算法，该算法通过深度CNN模型同时估计底层模糊核、运动场和潜在HR视频，使得我们的方法不仅可以避免手工制作的先验，而且可以有效地估计模糊核和运动场，以实现更好的视频恢复。该算法从LR输入视频中显式地估计模糊核，然后基于视频SR的图像形成来开发有效的图像去卷积模型，以生成具有尖锐结构细节的中间潜在帧。为了探索更清晰的结构细节恢复的中间潜像和相邻帧的信息，我们融合的特征提取LR视频的基础上运动场估计和变换的尖锐特征的中间潜像更好的HR视频恢复。通过以端到端的方式训练所提出的算法，它能够生成具有更精细结构细节的更清晰的图像（图1）。据我们所知，这是第一个基于盲视频SR的变分方法开发深度CNN的算法主要贡献概述如下：我们提出了一种有效的盲视频SR算法，该算法通过深度CNN模型同时估计模糊核、运动场和潜像。我们开发了一种有效的图像去卷积方法的基础上形成的视频SR产生中间潜在帧尖锐的结构细节。我们开发了一种尖锐特征探索方法，从恢复的中间潜在帧中挖掘尖锐特征，用于HR视频恢复。我们将所提出的算法制定为端到端的可训练网络，并表明它在基准数据集和现实世界的视频上对最先进的方法都有良好的表现2. 相关工作我们简要地讨论了最相关的这项工作的方法，并把这项工作在适当的背景下。变分法由于视频SR是高度不适定的，因此早期的方法主要集中于在HR图像上开发有效的先验[9，1，5，33因为这些方法通常使用已知的模糊核来逼近真实的模糊核，这将导致过度平滑的结果。几种方法[23，27]同时估计运动场，模糊核和最大后验（MAP）框架中的潜像。在[23]中，Liu和Sun通过贝叶斯框架解决视频SR，其中同时估计运动场、模糊核、潜像和噪声水平。Ma等人。[27]提出了一种有效的期望最大化（EM）框架，以联合解决视频SR和模糊估计。虽然已经取得了可喜的成果，这些算法需要解决复杂的优化问题。此外，性能受到手工制作的先验的限制。深度学习方法。基于深度学习的单图像SR的成功[7，18，8，11，46，22，20]，几种方法[14，21，17，4，24，37，43，16，12，40，38]探索视频SR的时空信息。Huang等人[14]开发一个有效的双向递归卷积网络来模拟长期的上下文信息。一些算法[21，17]首先基于手工制作的先验估计运动场，然后使用深度CNN模型来恢复高质量图像。在[4]中，Caballero et al.开发一种有效的运动补偿方法来探索视频的时空信息。[24]开发时间自适应神经网络和空间对齐网络，以更好地探索时间信息。在[37]中，Tao et al.提出了一个有效的子像素运动补偿层的基础上估计运动场的视频SR。Xue等人[43]演示了光流对视频图像恢复的影响，并提出了一个统一的视频恢复框架来解决一般的视频恢复问题。而不是明确使用光流对准，乔等人。[16]动态····4813Σui→j−I+N}}YK我估计上采样滤波器。在[12]中，Haris et al.通过递归网络扩展深度反投影方法[11]。Wang等人[40]改进了可变形卷积[38]，并开发了一种有效的时间和空间注意力方法来解决视频恢复问题。该算法通过分别在HR帧Ii、光流ui-j和模糊k核K上使用手工制作的图像先验ρ（I i）、（u i-j）和φ（K），可以实现视频SR处理。通过交替地最小化[23]：I= argminSK Ii− Li+在NTIRE19视频恢复中赢得冠军[29]。为了更好地对时间信息进行建模，几种方法开发了用于视频SR的时间组注意力[15]和时间帧内插[42]。为了生成更逼真的图像，已经使用了GAN我我我I+Nj=i-N，j/=i<$SKFui→jIi−Lj<$+ρ（Ii），（三）以解决单个图像[20，31，3]和视频[6，25] S-R问题。这些算法生成体面的结果u*i→j= arg minSKFui→jIi−Lj+（ui→j），（4）视频SR然而，这些算法无论是显式地还是非显式地。明确地假设模糊核是已知的并且不和K*= argminSTK−L+φ（K），对SR的模糊核进行建模，这相应地导致过度平滑的结果。已经证明估计模糊核对于图像SR是有效的，特别是对于细节恢复[28，10，34，2，39，45]。然而，这些算法是针对单图像SR设计的与这些方法不同的是，我们提出了一个统一的框架，基于深度CNN模型来明确地建模模糊内核，并探索视频SR的图像形成来约束深度CNN模型，以便更好地恢复高质量的视频。3. 再谈变分方法我们不是简单地堆叠深度神经网络来解决视频SR，而是通过探索用于HR视频恢复的视频SR的图像形成来为了更好地激励我们的算法，我们首先回顾变分方法[9，23，27]如何解决视频SR，然后介绍所提出的算法。遵循[9，23，27]的定义，视频SR的劣化模型为：其中{Lj}i+N表示具有2N+ 1的LR图像的集合其中，T1i是HR潜像Ii关于. r.t.的矩阵。K[23]。虽然基于上述模型的视频SR算法[23，27]已经在基准数据集和真实世界视频中被证明是有效的，但是它们需要定义手工制作的图像先验ρ（Ii），（ui→j）和φ（K），这通常导致高度非凸目标function（2）. 这使得视频SR问题更加d-很难解决。此外，视频S-R的性能受到手工制作的图像先验的限制。我们进一步注意到，大多数现有的基于深度学习的方法通常采用深度CNN模型来解决视频SR问题。尽管这些方法不需要定义手工制作的先验，但是它们不能捕获视频SR的固有特性，因为模糊核被假设为已知的（例如，双三次[40]，高斯[32]）。由于退化中的模糊内核是复杂的[23]，假设已知的模糊内核通常会导致过度平滑的结果。为了克服这些问题，我们开发了一种有效的深度CNN模型，该模型同时估计视频SR的模糊k核、运动场和潜在帧。该模型不需要人工先验知识，通过对模糊核进行建模，可以捕捉视频SR退化过程的内在特征。因此框架;Ij=i Ni表示第i个HR帧;N J表示im-可以生成更清晰的超分辨率视频结构细节（图1（i））。S和K表示下采样操作s和模糊核K的矩阵形式; 光流ui-j，并且ui-j表示从Ii到Ij的光流。基于退化模型（1），HR帧Ii、光流Ui-j和模糊核K可以由下式估计：{Lj}j=i-N通过最大后验概率（MAP）[9，23，27]：4. 该算法所提出的方法的概述在图2中示出。在下文中，我们将详细解释每个组件的主要思想。为了简单起见，我们使用三个帧来说明我们的方法。4.1. 光流估计{Ii∠，K ∠，{u∠i→j= argmaxIi，K，{ui→j}= arg maxIi，K，{ui→j}p（I i，K，{ui-j}|{Lj}），p（Ii）p（K）p（ui→j）J变分方法通常解决问题（4）以生成光流，然后使用它将相邻帧扭曲到参考帧，使得更可靠的信息可以用于参考帧恢复。但是，解决-p（L i| I i，K）Yp（{Lj}| I i，K，{ui-j}）ing（4）需要定义手工制作的先验矩阵（ui→j）。在J I（二）我我（五）4814此外，手工先验通常会导致难以解决的复杂优化问题。诸如光学4815我NN SNNNN--{}N- -N图2.所提出方法的概述它以几个相邻的帧作为输入，并对中心帧进行超分辨首先，我们通过Nk估计帧相关的模糊k核K~i，并基于图像解码方法生成中间HR图像（I~i其中，i？同时，我们估计了相邻LR输入之间的光流，得到了包络特征（Lfi−1，wFi+1，w）由将估计的光流应用于从LR输入提取的特征（即，Lfi−1F一期+1）. 然后，我们融合特征Lfi−1，w，Lf，以及fi+1，w为了获得Hf，从I~i中提取尖锐特征（即，Nd（S（I~i），并通过基于Hf的尖锐特征变换来生成T（Hf以及d（（I_i））用于HR帧恢复。最后，将锐化特征变换嵌入到恢复网络I中，对HR进行恢复通过将L i的上采样结果加到I i的输出，可以将Li的上采样结果加到I i的输出。所提出的算法是联合训练的端到端的方式。在主要内容中详细介绍了数学运算。为了简单起见，我们使用三个相邻帧作为示例。取决于潜在HR帧是否准确。此外，使用手工制作的先验φ（K）通常会导致难以解决的复杂优化问题。为了克服这些问题，我们开发了一个(a) LR>内核（b）双三次（c）去模糊&内核图3。中间潜像恢复和模糊核估计的效果。使用估计的模糊核去模糊LR图像生成更清晰的图像（c）。由于深度神经网络可以有效地估计光流，因此我们使用PWC-Net [36]作为所提出的光流估计算法，因为其模型大小较小并且性能良好。在三个相邻帧Li−1、Li和Li+1中，PWC-Net（在图 2 中表示为 No ）用于基于相邻两个输入帧（Li−1，Li）和（Li+1，Li）计算光流u i −1→ i和u i+1 → i，其中用于计算ui−1→i和ui+1 →i的PWC-Net共享相同的参数。基于估计的光流，我们在深特征空间而不是图像空间中执行扭曲操作令Lf、Lf和Lf表示CNN模型k以有效地估计模糊核。给定HR图像Ii和对应的LR图像Li，所提出的网络k将LR图像L1作为输入并输出模糊核。与[23]不同的是，假设模糊核在不同帧之间都是相同为了约束网络k，我们基于（5）开发了一个损失函数：Lk=SK~iIi−Li1，（6）其中K~i表示深度CNN模型的输出的矩阵形式，即，k（L1），并且使用11范数。图2示出了k的网络架构。详细参数包含在补充材料中估计的模糊核在图3（c）中示出，其中估计的模糊核的形状在视觉上接近地面实况核的形状。我们将在第6节中证明模糊核估计的有效性。L，L，Li−1i一期+14.3.隐帧恢复i−1ii+1，其由深度CNNmod.elNe，我们使用双线性插值方法来获得扭曲特征Lf（x + ui−1→i）和Lf（x + ui+1 →i）利用模糊核K〜i，我们可以估计HR帧从输入LR帧L 根据（3）。然而，在这方面，i−1ffi+1i根据[36]（即，图2中的Li+1，w、Li−1，w）。4.2.模糊核估计模糊核估计可以通过求解（5）来实现。然而，模糊核的准确性非常低。求解（3）需要定义图像先验。我们不是专注于设计用于HR帧恢复的复杂图像先验，而是首先恢复具有尖锐结构细节的中间潜在HR帧，然后开发深度CNN模型来探索这些恢复的尖锐结构细节。，L，LL4816∇ ∇∇ǁ∇ ǁ×1˜PF（K）r（×CN×NFNN SSN Nn⊗无无无无无无无NN我我我i−1，w我i+1，wΔ F F F F↑×F F↑PQQ更好的HR帧恢复。为此，我们首先通过下式估计中间潜在HR帧：I=argminSKiIi−Li2+γIi2，（7）其中Ii2用于使问题适定，并且使用L2范数以使其可以被有效地求解，并且=（ h， v） T表示梯度算子，其包括水平算子和垂直算子。注意，（7）是一个最小二乘问题。我们可以基于快速傅里叶变换（FFT）[44，47]通过以下方式获得封闭形式的解：其中N ={N〇，Ne，Nf，Nd，Nγ，Nβ，NI}。4.5.实现细节训练数据集。我们使用REDS数据集[29]训练所提出的算法，其中REDS数据集包含300个视频，每个视频包含100个帧，图像大小为720 × 1280像素。在300个视频中，有236个视频用于培训。类似于盲视频SR设置[23]，我们首先将具有标准偏差的高斯内核应用于原始视频的每一帧，然后根据成像过程以因子s对滤波图像进行下采样以生成LR模糊视频，其中I~i=F−1 γΔ˜我ΔF（K~）F（K~）P你好标准偏差范围为0.4至2。在训练过程中，我们从每个帧中选择前50个连续帧，（iΔi）+γ（八）训练数据集中的视频来训练所提出的算法-M. 我们使用[40]的REDS4数据集作为我们的评估其中r=（K~i）（Lis）;s和表示元素─在每个s个不同的块处进行乘法和平均操作; s表示s倍上采样操作;S =（h）（h）+（v）（v）。图3（c）示出了估计的中间HR图像Ii. 注意，虽然I〜i包含噪声和伪影，但它也可以是噪声和伪影。因此包含了一些清晰的内容，特别是对于结构细节，为后续的图像恢复提供了数据集，其不与训练数据集重叠在此外，我们进一步使用Vid4数据集[23]和SPMCS测试数据集[37]作为我们的测试数据集来评估我们在REDS数据集上训练的模型。我们使用上面提到的相同方法来生成LR视频用于测试。除了在盲SR问题中广泛用于评估s [10，23，26]，我们进一步评估我们的方法使用模糊恢复（图1（i））。~kernels来自[2]，因为它的模糊内核更真实。本为了更好地探索用于最终HR帧恢复的Ii的尖锐结构细节，我们开发了一种基于特征融合模块和[41]的变换操作的尖锐特征探索方法。首先，我们通过以下方式融合来自LR帧的扭曲特征Hf=Nf（C（Lf ，Lf，Lf ）），（9）其中表示级联操作，并且f表示特征融合网络，该特征融合网络包含具有3 × 3像素的滤波器大小的一个卷积层和128个特征通道。然后，我们使用仿射变换[41]通过以下方式生成用于HR视频恢复的特征：T（H）=Nγ（~Ii）Hf+Nβ（~Ii），（10）其中~最后，我们将生成的模糊核应用于上述数据集，并生成用于评估的训练和测试数据集测试数据集中的模糊核和视频不与训练数据集中的模糊核和视频重叠。参数设置和训练细节。我们根据经验设定γ=0。001。批量大小设置为8。每个图像块的大小为64 ×64像素。在训练过程中，我们使用参数β 1 = 0的ADAM优化器[19]。9，β2=0。999，且ε=10−8。光流估计网络0由预训练的模型[36]初始化。我们首先从头开始训练模糊核估计网络Nk，然后联合训练整个网络。学习率被初始化为10-4，除了N。因为他们是预先训练好的。我们用10−6表示No，Ii=d（（Ii））;表示空间到深度变换，其用于确保~Ii具有相同的空间分辨率为Hf;表示逐元素乘法;γ、β和d是特征提取网络。最后，我们开发了具有残差单元[41]的深度CNN模型I，其采用（10）用于HR帧恢复。I、γ、β和d的网络结构如图2所示。4.4.损失函数给定M个视频训练对联系我们，{I m}}M，其中每个视频包含QK.所有的学习率都下降到0。每100个时期后5我们使用双线性上采样操作来产生所述中心帧的所述经上取样结果类似于[41]，当执行（ 10 ）时，我们通过将 Nγ （~Ii ）取为 γ（~Ii）+1来使用残差I。该算法基于PyTorch实现。多个详细的网络参数和实验结果包括在补充材料中源代码和训练模型在作者的网站上公开提供。5. 实验结果ii=1gt，ii=1 m=1在本节中，我们比较了所提出的算法a-帧，我们通过最小化来训练所提出的网络：与最先进的方法相比由于页面限制，我们4817i−N我I+Ngt，iMQL=ΣΣ N（Lmm=1i=1- -- ;L m;. ;Lm）−Im1+Lk，（11）仅显示小部分结果。包含更多结果在补充材料中。4818NN(b)HR贴片(c)双三(d)国际会议中心[10](e)[34]第二届中国国际航空航天博览会表1.在具有未知高斯核的基准数据集上对最先进的视频SR方法进行定量评估方法双三次RCAN [46]SPMC [37]德国[16]TOFlow [43]RBPN [12]EDVR [40]去模糊[30]+EDVR [40][34]第二届中国国际航空航天博览会国际会议中心[10][35]第三十五话我们REDS4 [40]25.1927.1526.6127.1925.9627.1527.5417.9322.6927.3626.2429.180.68980.76670.74850.78190.71710.77520.78980.46870.66010.77230.72740.8372Vid4 [23]21.5323.3623.1723.9122.4923.4523.4115.5819.1623.5222.2324.470.55510.67860.67260.72140.61830.69500.69020.32690.55190.68120.60040.7454SPMCS [37]24.6527.1026.4927.0725.6826.8626.6717.8122.5527.0325.7427.530.67400.78190.75930.79530.72210.78000.77390.45780.66580.77700.71610.8016(a) 地面真实HR图像（f）DUF [16]（g）RBPN [12]（h）去模糊[30]+EDVR[40]（i）我们的图4. REDS数据集上的视频SR结果（×4）[29]。所提出的算法恢复高质量的帧与更清晰的结构。在具有未知高斯k-核的数据集上的评估。我们将所提出的算法与最先进的方法进行比较，包括基于深度CNN 的方法SPMC [37]，DUF [16]，TOFlow [43]，RBPN [12]和ED-1。VR [40]. 由于大多数现有的基于深度学习的视频S-R方法假设模糊核是已知的且固定的双三次核，因此直接与这些方法进行比较可能是不公平的。遵循通常使用的协议（例如，[10]），我们进一步使用我们估计的模糊核来根据去卷积方法[30]生成去模糊帧，并将去模糊结果作为这些方法的输入以实现公平性。此外，我们将所提出的方法与最先进的基于深度CNN的单盲图像SR方法进行了比较，包括IKC [10]，MSPIR [35]和K-GAN [2]与ZSSR方法[34]。我们使用的PSNR和SSIM作为评价指标，以评估合成数据集上的每个恢复图像的质量。每个恢复图像的PSNR和SSIM值是根据[40]的脚本使用RGB通道计算的。表1示出了通过评估方法对具有未知高斯核的所提出的基准数据集的定量评估结果总体而言，我们的方法优于其他算法的一个很大的利润。图4显示了在REDS4数据集[29]上通过评价方法获得的比例因子为4我们注意到，现有技术的视频SR方法[16，12]不能很好地恢复正确的结构细节，如图4（f）-（g）所示，因为它们没有对模糊核进行建模。此外，首先使用去模糊算法- m [30]来生成具有我们估计的模糊核的清晰LR输入，然后通过深度视频SR模型恢复HR视频的方法不会生成清晰帧（图4（h））。这表明，简单地结合去模糊和视频SR方法并不能很好地解决盲视频SR问题。虽然若干方法[10，2]明确地估计模糊核以解决盲SR问题，但是这些方法[10，2]不确定地估计模糊核以解决盲SR问题。s被设计用于单个图像，并且对于视频SR问题不太有效，如图4（d）-（e）所示。由于所提出的算法开发了模糊核估计模块，该模糊核估计模块根据（7）生成具有清晰内容的中间潜在HR图像，因此便于更清晰的结构细节恢复，如图4（i）所示。使用[2]中的模糊核对数据集进行评估。我们使用更逼真的模糊内核进一步评估我们的方法，其中数据集在第4.5节中详细介绍。表2示出了具有模糊核[2]的测试数据集上的评估结果。最先进的视频SR方法-s[38，15，40]不生成高质量视频，因为它们假设降级中的模糊内核是固定的双三次内核。我们注意到，EDVR方法[40]对视频SR问题和视频去模糊问题都有效。然而，[40]解决的视频SR问题假定模糊核是固定的双三次核，而视频去模糊问题不考虑下采样降级。因此，对具有未知模糊核的LR图像进行超分辨的效果较差。此外，首先将去模糊方法应用于LR视频，然后使用非盲视频SR方法的常用基线方法是无效的（参见相比之下，我们的方法产生的结果具有较高的PSNR和SSIM值，表明所提出的方法的有效性。此外，我们通过在e和I中使用3个ResBlocks和20个残差单元来评估具有更大模型的方法。表2表明，虽然在所提出的方法中使用较大的模型会产生更好的结果，但较大的模型通常涉及更多的网络参数，需要更多的计算成本如表7所示。模糊内核的评估不同于使用已知模糊核（例如，固定的Bicubic [40]或高斯核[32]），我们开发了一种模糊估计方法来估计视频SR的检查估计的4819NN×NNi−1，wΣΣ- -- -- -表2.使用来自[2]的模糊核对数据集（4“Our-L” denotese和I.方法双三RCAN [46]SPMC [37]德国[16]RBPN [12]EDVR [40]TGA [15]TDAN [38]去模糊[30]+EDVR [40][34]第二届中国国际航空航天博览会国际会议中心[10][26]第二十六话PSNR25.6827.4627.1827.3227.6228.2627.7027.4819.5526.3527.5227.68 29.3630.20SSIM0.71470.79010.78420.81180.81250.83220.81990.79400.54360.75070.78640.7896 0.84950.8702表3.估计的模糊核的平均核相似性方法KGAN [2]我们的高斯核0.87720.9983模糊内核从[2] 0.72630.9663(a) LR框架（b）KGAN [2] （c）我们的（d）GT图5。由网络在具有未知高斯核的数据集上生成的估计模糊核的可视化表4.模糊核估计对视频SR（×4）的有效性。结果从REDS4测试数据集获得。方法双线性（七）无内核建模L的双线性作为I~Ours关于模糊核估计的效果的另一个问题是，人们可能想知道中间去模糊帧I~是否真的有助于潜在HR帧恢复。为了回答这个问题，我们将解模糊结果替换为常用的双线性上采样结果在我们的算法中的LR输入帧[40]（”表4示出了使用LR输入帧的双线性上采样结果不会产生良好的结果，其中该基线的PSNR值比所提出的基线的PSNR值低0.14dB。此外，我们注意到中间去模糊帧的质量（即，I~iby（7））的PSNR值优于双线性上采样的PSNR值，其中，我我我峰值信噪比24.73 26.65 28.87 29.0429.180.7489 0.82800.8328模糊核，我们使用核相似性[13]作为度量，并在测试数据集上与核估计方法[2]进行比较。表3表明，所提出的方法产生更高的核相似性值比[2]。图5示出了通过以下公式估计的模糊k核的可视化：K. 我们注意到估计的形状模糊核在视觉上类似于地面实况核。因此，定量和定性的结果表明，所提出的算法是能够捕捉到的退化过程。真实的视频我们进一步定性评估所提出的算法对国家的最先进的方法对真实视频。图6显示了[21]中的一个真实示例通过最先进的方法[10，16，12，15，38]恢复的相比之下，我们的算法生成的帧具有更清晰的字符，这表明所提出的算法具有良好的推广性。6. 分析和讨论我们已经表明，使用模糊核估计能够帮助视频SR中的细节恢复。在本节中，中间去模糊帧比双线性上采样的去模糊帧高1.92dB。这进一步表明，使用模糊核估计能够提高超分辨结果的性能。图7中的可视化进一步证明，使用深度CNN模型直接估计HR图像而不对模糊核进行建模不会生成具有更清晰结构细节的图像。相比之下，所提出的方法生成更清晰的图像。尖锐特征探索的有效性。我们开发了一种基于特征融合模块和尖锐特征变换的尖锐特征探索方法来估计HR视频恢复的特征。人们可能想知道使用来自LR帧和中间潜在帧的特征的简单级联是否会生成相同或甚至更好的结果。为了回答这个问题，我们进一步使用与我们的方法相同的实验设置来训练替代方法，其中网络I将通过（8）从去模糊图像中提取的特征和来自LR输入帧的扭曲特征的也就是说，Nl的输入是：我们进一步分析了所提出的算法的效果。模糊核估计的有效性。作为最重要的部分，提出了模糊核估计过程T（Hf）=Nf。CΣNe.S（I~i）Σ;Lffi，wfi+1，w.（十二）提供了模糊核，这因此导致具有清晰内容的中间潜像，用于更好的细节恢复。为了证明这种方法的有效性，我们禁用该步骤中提出的算法公平的比较parisons。对于这种情况，基线方法（无核建模）不涉及模糊核估计和中间潜在HR帧恢复（7）。表4显示了对基准数据集的定量评估。在RED-S4数据集上，我们的方法的平均PSNR比没有模糊核建模的方法高0.31dB，这表明使用模糊核估计产生更好的结果。表5示出了使用（12）不会生成好的视频超分辨率的结果相比，所提出的方法。此外，由于我们仅使用中心帧的去模糊结果（I_i）用于（10）中的HR帧恢复，因此人们可能想知道是否使用所有去模糊帧I_i伍尔德是否提高性能。为了回答这个问题当所有去模糊帧I~i用于HR帧恢复。表5示出了使用所有去模糊帧I~i并而不是提高性能。与基于模型的方法的关系。几种方法，例如，[26，44，45]，展开基于MAP的变分模型;L;L4820××T T{}T(b)双三(c)（d）KGAN[2]+ZSSR[34]（e）DUF[16](a)投入（f）RBPN [12]（g）TDAN [38]（h）TGA [15]（i）我们的图6.结果（×4）在一个真实的视频与未知的模糊。所提出的算法生成的帧具有更清晰的字符。表6.视频SR（4）上的特征扭曲的有效性。结果从REDS4数据集获得[40]。方法图像空间扭曲特征空间扭曲（我们的）PSNR28.9829.18SSIM0.83120.8372表7.模型大小和FLOPS的比较。在720 × 1280像素的图像上对结果进行了测试。方法RCAN [46]RBPN [12]EDVR [40]我们的模型参数（M）15.5912.7720.6320.54 14.08(a)HR贴片(b)双线性(c)I~I（7）FLOPs（G）919.211245.421480.57857.27四百八十五点三四（d）w/o核建模如我(f)我们在深特征空间中执行扭曲操作（即，“Feature spacewarping”) generates the results with higher PSNR andSSIM模型大小和计算复杂性。作为我们的网-工作设计的动机是基于变分模型的方法，而不是简单地堆叠用于视频SR的深度神经网络，它具有相对较少的模型参数和最低的浮点运算（FLOP），如表7所示。所有这些都表明，性能增益图7.模糊核估计在视频SR（四）、使用模糊核估计能够生成具有更清晰的结构细节的结果。表5. 对视频SR（×4）的尖锐特征探索的有效性。结果从REDS4数据集获得[40]。方法（Hf）通过（12）（Hf）w/所有I~i（Hf）w/仅I~i（Ours）PSNR 28.98 29.1329.180.8325 0.83510.8372将深度CNN正则化模型和用于图像SR的图像重建模型转换为深度CNN正则化模型和图像重建模型，其中这两个模型被交替地求解以生成HR图像。与这些方法不同的是，我们开发了一种深度CNN，它将变分模型作为可微模块来解决盲视频SR。变分模型（7）用于生成清晰图像内容，所提出的清晰特征探索模块进一步利用所述清晰图像内容以用于更好的HR帧恢复。我们的网络直接（而不是替代地）估计潜在的HR帧。此外，这些方法是为图像SR而设计的，并且对于盲视频SR任务不太有效，如第5节所示。特征中的扭曲操作与图像空间我们评估了在REDS4测试数据集上的特征空间中的翘曲操作的效果。表6显示我们-不是由于使用大容量模型。7. 总结发言我们提出了一种有效的盲视频SR算法，它通过深度CNN模型同时估计潜在的模糊核、运动场和潜在的HR视频。模糊核估计能够从LR输入视频估计模糊核。与估计的模糊内核，我们开发了一个有效的图像去卷积方法的基础上形成的视频SR生成中间潜在的HR帧尖锐的结构细节。我们提出了一种尖锐的特征探索方法，通过探索中间潜在HR帧和输入帧的特征，以更好地恢复HR视频。我们已经表明，所提出的算法可以以端到端的方式进行训练，并且与最先进的方法相比表现良好。鸣谢。这项工作得到了中国国家重点研发&计划（第2010号）的部分支持。2018AAA0102001）、国家自然科学基金（ Nos.61922043 、 61872421 、61732007 ）、江苏省自然科学基金（ No.BK20180471 ）和中央大学基础研究基金（ No.30920041109）。4821引用[1] Benedicte Bascle，Andrew Blake，and Andrew Zisserman.序列图像的运动去模糊和超分辨率。在ECCV，第573-582页，1996中。一、二[2] Sefi Bell-Kligler、Assaf Shocher和Michal Irani。使用内部增益的盲超分辨率核估计。在NeurIPS，第284-293页，2019年。一二三五六七八[3] Adrian Bulat，Jing Yang，and Georgios Tzimiropoulos.要学习图像超分辨率，首先使用GAN学习如何进行图像降级。参见ECCV，第187-202页，2018年。3[4] 放大图片创作者：Andrew P.作者简介：王泽涵，施文哲，陈文斌，陈文斌.采用时空网络和运动补偿的实时视频超分辨率。在CVPR中，第2848- 2857页，2017年。2[5] Stephen C.马吉德·凯恩Hayat和Ernest E.手臂很结实。固定模式噪声下基于投影的图像配准。IEEE TIP，10（12）：1860-1872，2001. 一、二[6] MengyuChu，YouXie，LauraLeal-Taixe'，andNilsThuer ey.用于视频超分辨率的时间相干 gans （ teco-gan ）。CoRR，abs/1811.09393，2018。二、三[7] Chao Dong ， Chen Change Loy ， Kaiming He ， andXiaoou Tang.使用深度卷积网络的图像超分辨率。IEEETPAMI，38（2）：295-307，2016。2[8] Chao Dong，Chen Change Loy，and Xiaoou Tang.加速超分辨率卷积神经网络。ECCV，第391-407页，2016年。2[9] Sina Farsiu，M. Dirk Robinson，Michael Elad，PeymanMilanfar.快速和强大的多帧超分辨率。IEEE TIP，13（10）：1327-1344，2004. 一、二、三[10] 顾金金、韩南路、左王梦、朝东。基于迭代核校正的盲超分辨率算法。在CVPR中，第1604-1613页，2019年。一二三五六七八[11] Muhammad Haris Gregory Shakhnarovich 和 NorimichiUkita。用于超分辨率的深反投影网络。在CVPR中，第1664-1673页，2018年。二、三[12] Muhammad Haris Gregory Shakhnarovich 和 NorimichiUkita。用于视频超分辨率的递归反投影网络。在CVPR中，第3897-3906页，2019年。一二三六七八[13] 胡哲和杨明轩。学习好的区域去模糊图像。IJCV，115（3）：345-362，2015. 7[14] 炎黄、魏王、梁王。双向-用于多帧超分辨率的循环卷积网络。在NeurIPS，第235-243页，2015中。2[15] 李松江，袁善新，徐佳，矶部隆.Slabaugh，ChunjingXu，Ya-Li Li，Shengjin Wang，and Qi Tian.具有时间组注意的视频超分辨率。在CVPR中，第8005-8014页，2020年。三六七八[16] Younghyun Jo、Seoung Wug Oh、Jaeyeon Kang和SeonJoo Kim。使用动态上采样滤波器的深度视频超分辨率网络，无需显式运动补偿。在CVPR中，第3224-3232页，2018年。一二六七八[17] Armin Kappeler、Se

下载后可阅读完整内容，剩余1页未读，立即下载