稳定的长序列视频超分辨率：基于Lipschitz稳定性的递归VSR网络

56 浏览量更新于2023-10-25 收藏 1.37MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

837稳定的长期重复视频超分辨率Benjamin Naoto Chiche1，2，Arnaud Woiselle1，Joana Frontera-Pons2，3，Jean-LucStarck21Safran Electronics Defense，F-91344 Massy，France2AIM，CEA，CNRS，Univ ersite′P-Saclay，Univ ersite′P aris Cite′，F-91191 Gif-sur-Yv ette，France3DR2I，Institut Polytechnique des SciencesAv ance′ es，F-94200 Ivry-sur-Seine，Francebeneficiary. safrangroup.com，arnaud. safrangroup.comjoana.cea.fr，https://orcid.org/0000-0003-2177-7794摘要与基于滑动窗口的模型相比，递归模型在基于深度学习（DL）的视频超分辨率（VSR）中得到了普及，这是由于其提高的计算效率、时间感受然而，当推断呈现低运动的长视频序列时（即，其中场景的一些部分几乎不移动），循环模型通过循环处理而发散，从而产生高频伪像。据我们所知，没有关于VSR的研究指出这种不稳定性问题，这对于一些现实世界的应用可能是至关重要的。视频监控是一个典型的例子，其中会出现这样的文物，因为相机和场景都保持静态很长一段时间。在这项工作中，我们揭示了现有的递归VSR网络的不稳定性长序列与低运动。我们证明了一个新的长序列数据集准静态视频集，我们已经创建。最后，基于Lipschitz稳定性理论，我们提出了一个新的递归VSR网络的框架，该框架既稳定又具有竞争性在此基础上，我们提出了一种新的递归VSR网络--中递归视频超分辨率（MRVSR）网络。我们的经验表明，其竞争力perfor-曼斯长序列与低运动。1. 介绍视频超分辨率（VSR）是一个扩展了单图像超分辨率（SISR）的逆问题虽然SISR旨在从其低分辨率（LR）版本生成高分辨率（HR）图像，但在VSR中，目标是从HR图像的LR对应部分的序列重建HR图像的序列VSR背后的思想使其与SISR根本不同，即几个LR图像的融合产生HR图像。因此，VSR需要在多个LR帧上累积信息，如(a) GT（b）双三次(c)RLSP（d）MRVSR（Ours）图1.一个国家的最先进的经常性VSR网络（RLSP）和我们提出的网络之间的比较。前者在具有低运动的长序列上产生高频伪影。拟议的网络没有。尽可能大。基于图像序列形成模型、运动知识和迭代算法的经典VSR方法[2，12]可以满足这一要求。然而，这些迭代算法相对较慢，不适合于实际应用。此外，当图像序列形成模型和运动假设过于简化时，它们的性能较差VSR最近受益于DL方法[3，7-深度VSR网络可以有效地从自然视频的训练数据集学习复杂的时空统计数据，并且一旦训练，重建速度更快。存在大致两类深度VSR方法。第一个是基于滑动窗口的模型分组。这些模型[8，9，13，26，29]将一批多个LR帧作为输入以融合它们并重建HR帧。在大多数情况下，该批次包含5到7个LR帧。因此，颞叶感受野-即。用于超分辨帧的LR帧的数量被限制为7。838−相比之下，在[3，7，20]中引入的方法，建立在递归模型上，能够实现更大的时间感受野。在这些网络中，为了超分辨时间步t处的帧，在前一时间步t中计算的隐藏状态和/或输出1被作为输入，除了一批1到3个LR帧。这种递归允许通过大量的帧来传播信息。由于递归方法的输入批次包含较少的LR框架，并且它们的网络结构大多较简单，因此递归方法比基于滑动窗口的方法更快。此外，递归模型的推断比基于滑动窗口的模型的推断呈现更少的冗余计算，因为每个帧仅被处理一次。最后，基于滑动窗口的方法生成独立的输出HR帧，这降低了所产生的HR帧的时间一致性，导致闪烁伪影。对于复发VSR而言并非如此，其中关于先前超分辨帧的信息这些考虑使递归方法从面向实际应用的角度来看更有趣。由于计算和内存的限制，以及消失和爆炸梯度，经常VSR模型通常是在7至12图像序列上训练。然后部署它们以超分辨任何长度的序列。一些应用，如视频监控，将需要超分辨任意长度的序列。然而，递归模型不是在这些长序列上训练的。因此，不能保证它们在长序列上最佳地执行在这项研究中，我们表明，经常性的VSR网络产生高频文物时，推断长视频序列呈现低运动。这样的序列包含几乎不移动的场景部分，例如当相机是准静态的时。超分辨率过程产生高频信息，其在长期重现中积累，产生伪影并导致发散。图1示出了这种现象。据我们所知，这项工作是第一次研究振动时效，提高这种不稳定性是-苏。这种意想不到的行为对于一些现实世界的应用来说可能是至关重要的，比如摄像机和场景都长时间保持静止的视频监控。文章的结构如下。首先，我们回顾了与VSR和递归网络不稳定性相关的研究。然后，基于Lipschitz稳定性理论，我们提出了一个新的循环VSR网络框架，该网络在低运动的长序列上既稳定又竞争。在此基础上，我们提出了一个新的递归VSR网络MRVSR作为该框架的实现. 最后，我们实证分析了现有的递归VSR模型在低运动长序列上的不稳定性，并显示了所提出的网络的稳定性和优越的性能为我们的实验创建了一个新的长序列数据集我们公开了它。2. 相关工作2.1. 递归视频超分辨率[20] 的作者是复发性 VSR 的先驱。他们引入了FRVSR，其中前一个输出帧基于密集光流估计进行扭曲，并在下一个时间步长作为额外输入反馈给超分辨率网络。光流由另一个网络估计，并且这两个网络端到端地联合训练。因此，FRVSR操作帧递归。在 [3] 中引入了一种称为递归潜在空间传播（RLSP）的更新的在该方法中，先前的输出帧和预先估计的基于局部性的隐藏状态被用作下一个时间步长处的额外输入。与框架递归相比，RLSP可以被解释为最大化递归连接的深度和宽度。与FRVSR相比，RLSP基于隐式运动补偿。整体架构在计算上是高效的，这使得RLSP成为目前最快的VSR网络。RSDN [7]是迄今为止的复发性VSR网络，据报道，根据其在Vid4数据集上的性能，其对于相对较短的序列表现最佳，Vid4数据集由34到49帧之间的4个视频组成[12]。它的架构提出了一个经常性的隐藏状态加上一个隐藏状态的适应模块和结构细节分解。输入的LR帧和隐藏状态被分解为结构和细节分量，并被馈送到两个交织分支以重构HR帧的相应分量。2.2. 递归神经网络递归神经网络（RNN）很难训练[18]。首先，它们涉及时间反向传播（BPTT），即。它们在时间中的展开，这在内存方面是昂贵的其次，这些架构存在梯度消失和梯度爆炸的风险。与此相关，RNN在推断长序列时容易发散。[15]的作者表明，在多层和LSTM网络的背景下，如果RNN的Lip- schitz常数小于1，则RNN是稳定的。为了加强这一约束，他们建议将与递归映射相关的矩阵的奇异值裁剪为1。几个作品通过将所有奇异值设置为1 [1，10，14，25，27，30]来解决圆消失和爆炸梯度问题一些研究涉及在卷积神经网络的背景[22]的作者提出了裁剪与卷积层相关联的双块循环矩阵的块矩阵的奇异值。这项工作[16]探索了谱归一化，它依赖于幂迭代来估计卷积层的整形核张量的最大奇异值作者[6，24]建议我们不要-839∈→∈.Y∈|||||||| ·||||∀∈||||从而改变了这种整形，而是提出在幂迭代中直接使用核张量。最后，工作 [21] 提出了稳定秩归一化（SRN），一种算法R：RnRc.递归信息h tRn和输出图像yt在每个时间步长t更新如下：它试图强制执行Lipschitz约束或其较软的版本。在经常性视频去噪的背景下，[23]的作者指出了不稳定性。他们首先提出了联合国-ht=L（ht−1，xt）yt=（ht）其中，x t∈ [0，1]d是在时间t提供的输入图像。（一）可预见的，丰富多彩的和黑色的面具一样的文物在长期的视频降噪。然后，受对抗性示例研究的启发[5]，他们提出了一种诊断工具来检查训练的递归视频处理网络的最后，他们改进了SRN算法，提出了层的稳定秩归一化（SRNL）。虽然SRN重塑了卷积层的内核张量，但SRNL避免了这种重塑，类似于[6，24]。他们将这种方法应用于其递归视频去噪网络的卷积层，并证明了其有效性。作为本节的总结，以下几点总结了现有工作在长期重复振动时效方面的局限性以及我们的贡献：• 现有的循环VSR网络仅在相对短的通用序列上进行评估。它们的性能尚未在长序列上测量我们证明了这些网络在运动幅度较低时对这些序列的表现很差，这是由于它们的递归结构。我们创建了一个新的长和低运动序列的数据集，因为前数据集只包含序列，要么是太短或目前快速场景运动;• 还没有研究视频中的不稳定性和场景运动之间的关系我们发现，当推断长序列呈现低运动时，前循环VSR模型发散;• Lipschitz约束尚未应用于现有的递归VSR网络。事实上，为了拥有一个稳定的递归VSR网络，我们可以首先选择其中一个网络，并直接将Lipschitz约束应用于递归循环中的所有卷积层我们表明，这种策略失败时，超分辨低运动的长序列;• 我们设计了一个递归的VSR框架，该框架在具有低运动的长序列上是稳定的，同时不受全局Lipschitz约束。我们展示了基于此框架的网络的优越性能。3. 方法3.1. 递归视频处理模型递归视频处理模型由递归映射R_nL：R_n×R_d→R_n和输出映射当εL是contrac时，回归模型是Lipschitz稳定的。在H.E. 如果L是L-Lipschitz in h，其中L<1（L中的上标突出了这种Lipschitz连续性）。L是Lipschitz常数。这种稳定性确保了完整的递归系统在运行网络任意次数时是全局稳定的，避免了任何发散。假设RNL由K个卷积层组成，这些卷积层之间具有ReLU非线性。每个卷积层可以由权重矩阵编码，该权重矩阵从层的核张量因为ReLU激活的Lipschitz常数为1，所以L的上限是卷积层的权重矩阵的谱范数的乘积1.提案对于由具有权重矩阵W1，.，WKRn×n与ReLU非线性间隔开，Lipschitz常数L验证了：KL≤||焕光||（二）k=1哪里||. || is the spectral norm.给定这个不等式，可以在硬Lipschitz约束下确保Lipschitz稳定性：约束1. 硬Lipschitz约束k∈[[1，K]，我们施加||焕光||≤1。然而，在Eq.（2）多为过食型L.例如，如果WSL由具有权重矩阵W1和W2的2个卷积层构成，则L=W1W2的唯一情况是当W1的第一右奇异向量和W2的第一左奇异向量对齐时。因此，该约束过于严格。因此，我们约束2. 软Lipschitz约束k[[1，K]，我们设置Wk=α>1，并基于训练数据最小化srank（Wk），其中srank是Sta- ble秩。稳定秩是秩算子的近似，其在矩阵的小扰动下是稳定的。这种软约束在理论上不能保证Lipschitz稳定性，因此经验验证这种不发散性是很重要的。840于特ξLψxtS1n1n1nψ∈联系我们→×→→×不- -为了在卷积神经网络的上下文中实施这些约束，可以在训练阶段期间将层的稳定秩归一化这将该层矩阵的谱范数设置为期望值α，并在训练期间最小化由β控制的矩阵的稳定秩。α和β是算法的超参数。当β=1时，相当于对矩阵进行谱归一化。在训练之后，在测试时间之前需要一个归一化步骤，因此该算法不会在运行时和推理时的模型大小中引入任何开销。3.2. 无约束稳定递归振动时效框架在RLSP、FRVSR和RSDN等方法中，超分辨网络的每个卷积层都在反馈回路中循环。这试图通过将隐藏状态和先前的输出给予超分辨网络的输入来增加递归连接的深度和宽度因此，这些层都包含过去的信息，并有助于反卷积任务。采用Eq.（1），在这些网络中，卷积被简化为恒等映射（随后是像素混洗或转置卷积）。为了具有稳定的递归VSR网络，一种简单的方法是将SRNL直接应用于这些VSR网络之一。然而，这种方法存在一些困难。首先，我们将SRNL应用于RLSP，其中（α，β）=（2. 0，0。1），并根据经验证实SL无法消除长序列上的伪影（图1）。第4d段）。第二，我们做了同样的实验，（α，β）=其中X t=x tt− T≤ t ≤ t+T[0，1]d×（2T+1）是在t时提供给网络的LR图像的输入批次，2T +1表示批次的大小。令RNL由具有权重矩阵W1，...，W KRn× n与ReLU激活间隔。基于硬Lips c hitz常数，k∈[[1，K]，||焕光||≤1。稳定：这种网络的内部循环回路中的所有层都无约束：这样的网络在Lipschitz连续性方面不是全局约束的，因为它的非压缩输入和输出网络可以保持其完整的表达能力。大部分的反卷积任务是由卷积器和卷积器完成的。《汇编》纳入了过去的资料。当网络和网络同时是恒等映射时，网络的无约束性消失，网络成为全局1-Lipschitz网络.这是当在诸如RLSP、FRVSR和RDDN的网络的所有卷积层上施加HL时遇到的情况。3.3. 中等递归视频超分辨率ht−1xt−1xtxt+1ht（1. 0，1。0）执行HL，这导致了一个稳定的净-ConvSRNL转换ReLUs像素混洗工作，但VSR性能较差（详见第5.2）。沿通道尺寸逐元素加法这是因为最终的架构已经被...频道数量3f1s2应变为全局1-Lipschitz，并且一个成功的超分辨函数（其操作上采样和解卷积）不能是1-Lipschitz;因为某些频率需要像Wiener滤波器在最佳线性情况下那样被提升这不是去噪函数的情况，去噪函数在正确执行时可以是1-Lipschitz。考虑到这些问题，我们定义了一个新的递归VSR网络框架，该框架是稳定的，并且对长序列执行竞争：定义1. 一个无约束稳定递归VSR网络由一个输入网络<$：[0，1]d×（2T+1）Rd，一个压缩递归网络<$L：RnRdRn和一个输出网络<$：RnRc定义.特征z t、隐藏状态ht和输出图像y t在每个时间步长t被更新如下：图2.MRVSR架构。 SRNL Conv表示SRNL强制HL下的卷积层。每个卷积层使用步长为1的3 3内核，输出f个特征图（在我们的研究中f = 128），除了最后一个输出s2=16个特征图，其中s是缩放因子。该网络输出YCbCr颜色空间的亮度通道YCb和Cr通道独立地使用双三次插值进行上采样输入LR帧xit−1≤i≤t+1在RGB颜色空间中。此外，我们认为，xt从RGB转换为Y并复制s2= 16次在沟道维度中，其给出剩余连接的x = 0。像素重排以形状张量重新排列元素（C ×s2，H，W）到形状为（C，H×s，W×s）的张量。作为该框架的一个实现，我们设计了一个新的网络创造中间递归视频超分辨率（MRVSR）。它的架构说明了zt=（Xt）ht=L（ht−1，zt）y（三）图二、该网络的第一部分是前馈架构，具有n个卷积层和间隔ReLU激活。第二部分RELU由HL和间隔ReLU下的n个n+1841× × ×≥激活。第三部分具有前馈架构，其中n 个卷积层与ReLU激活交织，然后是像素洗牌层。该部分将当前隐藏状态ht和来自前一时间步的隐藏状态作为输入。这种称为特征转移的机制有助于提高连续输出的两帧之间的时间一致性。通过循环连接来重现过去的信息是比去卷积更简单的任务。这可以通过重新访问传统的、基于非DL的移位加算法[2]来说明。在后者中，通过在HR网格上投影和运动补偿之后对过去的帧进行平均或中值聚合来捕获历史信息。平均或中值聚合是相当简单的计算机操作。因此，n可以小于n+ n。在实践中，可以固定n +n+n以满足对计算成本的某些约束，为n设置一个小值，然后选择n和n。在我们的设置中，我们发现在n +n+n =7的条件下（能够实现快速计算和良好性能），值n = 1在我们的验证集上的其他n值中导致最佳性能（在第2节中描述）。4.2）。4. 实验4.1. 网络为了比较，我们在Pytorch中实现了以下最先进的递归VSR网络[19]：FRVSR 10-128 [20]，RSDN 9-128 [7]和RLSP 7-128 [3]。的每个网络后面的数字分别表示每个卷积层中重复的构建块的数目和滤波器的数目。这些超参数使得训练和测试速度相当快，并且在短序列上具有令人满意的性能。在下文中，为了简单起见，我们省略了这些数字。对于RSDN，我们的实现基于其作者发布的官方代码。另外，我们实现了改进的RLSP，其中所有层都已被SRNL用超参数归一化集合（α，β）=（2. 0，0。1）和（α，β）=（1. 0，1。0）来分别执行软Lipschitz约束和硬Lipschitz约束。我们称这些网络为RLSP-SL和RLSP-HL。我们将这些网络与建议的MRVSR进行比较。我们选择（n，n，n），使得n +n +n =7，原因在第2节中说明。三点三这个数字等于RLSP中卷积层的数量（不包括处理隐藏状态的层），这会产生公平的一致性。在不同集合（n =1，1，3）的MRVSR中，（n =1，1，3）的网络在我们的验证集上表现最好。因此，在SEC。 5我们只报告MRVSR记录的性能与此超参数集。我们使用SRNL，其中（α，β）=（1. 0，1。（0）实施人道主义法。1https://github.com/junpan19/RSDN为了衡量约束递归映射的好处，我们还实现了没有递归和特征移动的MRVSR，这与没有递归的RLSP一致。这可以被视为SISR的扩展，其在每个时间步长处将3个连续LR帧作为输入它的架构是前馈的，具有7个卷积层，具有交错的ReLU激活。我们称这个网络为具有3个输入帧的剩余F_S_huffle网络该网络将作为对照经常性模式的基线。此外，我们还使用7个LR帧的输入批次实现RFS，我们称之为RFS7。这用作代表性的基于滑动窗口的模型以与MRVSR进行比较，因为大多数基于滑动窗口的VSR模型采用5至7个LR帧的批次。4.2. 数据集我们以类似的方式准备训练数据集，在[3]中。从本研究中使用的37个高分辨率Vimeo视频中，在将其降采样为2倍后，我们提取了40，000个大小为I的随机裁剪序列 256 2563、我12个。定界关键帧将从序列中排除。在训练时，我们对这些作物的长度为12的随机子序列进行采样。通过排除第一帧和最后一帧，我们获得长度为10的地面真值（GT）序列。采样序列的第一帧和最后一帧用于在开始时产生x−1，在结束时产生x10还采用了数据增强（随机翻转/换位）。我们还准备了一个验证集的4个序列。它们来自对物体运动没有限制的视频，每个视频的数量在30到50帧之间。我们引入了一个新的测试集的长序列中，相机是准静态和前景物体移动。该数据集将补充现有数据集（Vid 4 [12]，REDS [17]和Vimeo-90 K [28]），这些数据集仅包含短视频或呈现快速场景运动的视频。为了生成这个新的数据集，我们从 vimeo.com 和youtube.com下载视频，并提取4个序列，其中包含准静态场景和移动对象。其中前两个分别是Full HD和HD Ready，另外两个是4K。HD和4K序列分别以2和4的因子进行下采样。这4个序列分别具有以下长度的帧数：379、379、379和172。它们构成了我们称为准静态视频集的测试数据集。我们将序列的长度限制为379，以确保数据集的同质性，但包含第一序列的视频包含更多的帧。因此，我们还准备了第一个序列的更长版本，称为序列1-XL。后者包含8782帧。所有这些序列都可以在https上找到//github.com/bjmch/MRVSR网站。训练集和验证集包含标准的、相对842| |××- -- -- -对运动没有约束的短序列，而测试集包含具有低运动的长序列。它旨在测试在短序列上训练的网络在可能具有低运动周期的现实生活中的长序列上工作的能力。我们提醒读者，在如此长的序列上训练回流网络是不现实的，原因在第2节中解释过。1，因此短序列和长序列之间的泛化间隙不能用训练数据来解决。我们还比较了标准Vid4数据集上的重建性能。从HR空间中的训练序列、验证序列和测试序列中的每一个，通过应用具有σ的高斯模糊并在两个空间维度上对每s=4个像素进行采样来生成对应的LR序列。我们设σ=1。5.除了测试RSDN。在这个网络的情况下，我们使用其官方github存储库中提供的预训练权重。因此，我们调整了该存储库上可用的对应降级的代码，以生成LR序列和σ=1的值。6已使用亚当优化器1500次迭代。学习率从1开始，经过750次和1250次迭代后除以10。5. 结果5.1. 现有经常性网络的业绩图3示出了在准静态视频集的前三个序列上平均的某些网络的每帧PSNR的演变。将RFS3的曲线作为基线并减去其他曲线，并显示结果曲线我们看到，直到相对少量的处理帧，现有的递归网络（RLSP，RSDN和FRVSR）表现最佳，并保持比基线模型更好。但在某个点上，它们的性能下降，变得比基线模型更差，这表明递归在每个新帧上都集成了有害信息这可以被视为分歧。1.54.3. 培训程序和评估我们准备的所有网络都是在Xavier初始化后从头开始训练的[4]，RSDN除外。损失函数是GT帧的YCbCr颜色空间的亮度通道Y中的像素与网络的输出之间的逐像素均方误差。网络使用Adam优化器[11]进行训练，批量大小为4。学习速率从10−4开始，在第200和400个epoch之后除以10。培训RFS3、RFS7和MRVSR1.00.50.00.51.01.52.02.550 100150200帧号250300350600个时期。除了RSDN的其他模型的训练之间的400和600时代，直到收敛，根据训练和验证损失。我们数值评估的基础上，帧PSNR和SSIM的网络。检查伪影存在的定性评估同样重要。我们还通过检查输出序列的时间轮廓来评估时间一致性。此外，可以使用[23]中的诊断工具来可视化递归网络的时空感受野（STRF）。该工具受到对抗示例研究的启发[5]，其工作原理如下：给定一个经过训练的递归视频处理网络，它查找输入序列X =（x−τ，...， x τ），其被优化以最大化输出序列Y =（y-τ+1，.， y τ−1）。为此，y0中的中心像素p的L1范数被最大化。此优化仅影响X中对p有影响的像素。因此，优化的序列X可以被解释为像素p的STRF的可视化。τ通常设置为40，X中的像素值在0和1之间随机初始化，并且X中的图像具有尺寸64 64 3。在我们的实验中，使用梯度下降和图3.在准静态视频集的前三个序列上平均的每帧Y通道上的PSNR的演变。我们对RFS3基线的曲线进行了补充，图表显示了这些差异。选项卡. 1总结了网络在准静态视频集上的性能。它总结了这些方法在序列开始、整个序列和序列结束时的性能。该表与图3所示的曲线一致。基于所报告的性能，在序列开始时，RLSP和RSDN的性能优于基线RFS3。然而，在序列结束时，这些网络和FRVSR已经发散，并且比RFS3表现更差。在RFS3和分别RLSP、FRVSR和RSDN之间的最后50个重构帧上的性能差异是1 .一、五十4.第一章39和4.第一章09在PSNR和 0的情况。0029，0的情况。0790和0。0362在SSIM。他们平均代表了3 .第三章。33 dB的PSNR和0. 0394在SSIM。这每-降水量的减少是由于高频伪影这些伪影出现在几乎不动的物体上。示例人工制品如图1A和1B所示。图4a至图4c示出了第一序列结束附近的帧FRVSRRLSP-SL RSDNRLSP-HLMRVSR RFS3PSNR843−−在训练中，网络学会忘记过去的信息，这与新的信息不一致。新创建的高频内容同时被遗忘，防止在具有足够运动的场景上出现分歧。在准静态视频集的第一个序列中，鸟有规律地移动，这就是为什么伪影没有时间出现在鸟本身上的原因，如图所示。4.第一章5.2. 限制现有的经常性网络表1.准静态视频集Y通道上的平均PSNR / SSIM。测量的度量不包括前3个和后3个GT帧。‘First 50’ means the metrics arecomputed at the be- ginning of the sequences 在前50个重建帧上。‘All’I.E. 在所有重建的帧上。 ‘Last 50’ means the metrics arecomputed at the end of the sequences 在最后50个重建的画面上红色：最好的结果。蓝色：第二好的结果。(a) GT(b) 双三(c) RLSP-HL（d）RFS3（a）RLSP（b）RSDN(c)FRVSR（d）RLSP-SL图4.从现有技术的回流网络和RLSP-SL重建的准静态视频集的第一序列的末尾附近的帧（第376帧）Y通道可视化。网络在分支上产生高频伪影，这是一个准静态对象。每个网络重建的准静态视频集（第376帧）的帧。行为分析：这些现有的递归网络经过训练，可以在非常少的帧（最多10帧）上优化其性能。在这种情况下，网络在输出序列中快速产生大量细节是有益的。这些高频细节随着时间的推移而增强，但它们不会被反馈到网络中超过10次，因此优化过程不会被训练来管理在此周期之后它们的增加当对长序列进行推断时，这些细节在短期网络的训练机制之后很长一段时间内不断积累，这会产生随着时间推移而发散的可见伪影。在强烈运动的情况下，即使是短期的（e）RFS7（f）MRVSR图5.准静态视频集的第一序列的第376帧，通过设计稳定的方法（非循环或在HL下）重建。MRVSR提供最佳质量。图6.序列1-XL上每帧Y通道上的PSNR的演变。我们对RFS3基线的曲线进行了补充，图表显示了这些差异。SL：RLSP-SL面临与现有经常性网络相同的问题在序列开始时优于基线RFS3之后，它发散（图11）。（3）第三章。它会产生高频伪影（图1）。4d），并且其在序列结束时的性能1（2. 09 dB的平均PSNR和0。在最后50次重建中，与RFS3相比，平均SSIM为0284这证明了SL不足以阻止发散。HL：RLSP-HL也获得了整体较差的性能（-1。平均PSNR为13 dB，0278平均SSIM模型前50所有过去50双三30.08 /0.8362 30.05 /0.8356 30.11 /0.8387RFS332.20 /0.8911 32.04 /0.8886 32.07 /0.8911RFS732.38 /0.8945 32.23/0.892132.26/0.8943FRVSR32.15 /0.8947 29.16 /0.8442 27.68 /0.8121RSDN33.46/0.9181 29.82 /0.8788 27.98 /0.8549RLSP33.08/0.9099 31.67 /0.8964 30.57 /0.8882RLSP-SL 32.45 /0.8991 30.62 /0.8708 29.98 /0.8627RLSP-HL 30.98 /0.8618 30.91 /0.8608 30.95 /0.8630MRVSR 32.80 /0.9030 32.62/0.900732.62/0.9026844×与基于所有重构帧的RFS3相比，根据Tab. 1）。它的重建性能在长序列上是稳定的（图1和图2）。3和6），但重建的图像是模糊的（图5c）。这是因为RLSP-HL 被全局约束为 1-Lipschitz 。正如在 SEC 。3.2，它不太适合反卷积任务。5.3. 拟议网络静态视频设置。最后，MRVSR在视觉质量方面提供了最佳的长期重建。一些例子可以观察到图。五、模型RFS3 FRVSR RSDN RLSP MRVSRPSNR26.43 26.6927.92 27.4626.90#参数。（男）0.775.056.181.081.21运行时间（ms）955561112表2. Vid4的Y通道上的平均PSNR、模型大小和运行时间。FRVSR、RLSP和RSDN的PSNR值取自他们的论文。英特尔®是在180 320的LR大小，Intel I9- 10940 X CPU和NVIDIATITAN RTX GPU上测量的。在准静态序列的开始（图3和表2）。1）MRVSR不能匹配 RLSP 和 RSDN ，但性能优于基线 RFS3 和FRVSR。这一表现与Vid4上的结果一致（Tab.2），其中MRVSR比无约束的相似网络RLSP落后0.56dB。这是由于MRVSR上的Lipschitz约束，其构建是为了以较低的短期性能为代价来确保其长期稳定性。当考虑低运动序列的长期性能时，MRVSR给出了最好的结果。图图3、5f和6显示MRVSR不发散，不产生任何伪影。根据Tab。1，MRVSR在测试集上实现了最好的平均性能，基于所有重构帧以及关注最后50个重构帧。由于MRVSR和RFS3采用相同数量的输入帧（即三个），因此不同的是，0的分数。58 dB的平均PSNR和+0。在所有重构帧上计算的平均SSIM表示MRVSR的收缩递归映射带来的益处。此外，考虑到RFS7接收输入，一批7帧，事实上，MRVSR优于RFS7（+0。39 dB的平均PSNR和+0。平均SSIM为0086）表明，由其收缩重现所激活的时间感受野占7帧以上。这在图7中得到了证实，其中MRVSR的时间感受野跨越大约28帧，这比通常的长度（即28帧）大得多。7)时间感受野的滑动窗口为基础的模型。此外，由MRVSR产生的时间剖面比由RFS3和RFS7产生的时间剖面噪声更小且更尖锐。这表明MRVSR的对比递归图还能够增加时间一致性。从视觉上讲，由MRVSR生成的序列比由RFS7和RFS3生成的图8显示了第一个准序列的时间剖面示例，电话：+86-39 - 37-36-35-34-33-32-31-30-29-28-27-26-25-24-23-22-21-20-19-18-17-16-15-14-13-12-11-10 - 9 - 8 - 7 - 6 - 5 - 4 - 3 - 2 - 1 0 1 2 3图7. MRVSR的时空感受野（输入序列X=（x-τ，...，xτ）被优化以最大化输出图像y 0）中的中心像素的L1范数。横轴表示x t的时间指数t。该图形在垂直方向上被拉伸。(a) GT（b）RFS3(c)RFS7（d）MRVSR图8.来自准静态视频集的第一序列的Y通道的时间轮廓。我们取所有图像的第256个水平行，并将它们垂直堆叠。正如人们所期望的，MRVSR与RLSP相比实际上具有相同的计算复杂度（根据Tab. 2）。正如我们在SEC中所说的。2.1，RLSP被认为是迄今为止最快的VSR网络。因此，MRVSR提供了最先进的运行时间和紧凑的模型大小。6. 结论在本文中，我们指出了当面对低速运动的长序列时，递归VSR现有的递归VSR网络在这样的序列上产生高频伪影。为了解决这个问题，我们定义了一个新的框架，递归VSR模型的基础上，Lipschitz稳定性理论。作为该框架的一个实现，我们提出了一个新的递归VSR网络MRVSR.我们通过实验验证了它的稳定性和国家的最先进的性能长序列与低运动。作为实验的一部分，我们引入了一个新的测试数据集，即准静态视频集。845引用[1] Martin Arjovsky，Amar Shah，and Yoonge Bengio.单向进化递归神经网络。国际机器学习，第1120PMLR，2016. 2[2] Sina Farsiu，M Dirk Robinson，Michael Elad和PeymanMilanfar。快速和强大的多帧超分辨率。IEEE图像处理，13（10）：1327一、五[3] 达里奥·弗奥利、古书航、拉杜·穆夫提。通过递归潜在空间传播的高效在ICCV研讨会，2019年。一、二、五[4] 泽维尔·格洛特和约舒亚·本吉奥了解训练深度前馈神经网络的困难。在第十三届人工智能和统计集，第249JMLR Work-shop and Conference Proceedings ，2010.6[5] Ian Goodfellow、Jonathon Shlens和Christian Szegedy。解释和利用对抗性的例子。国际学习表征会议，2015年。三、六[6] Henry Gouk ， Eibe Frank ， Bernhard Pfahringer ， andMichael J Cree.通过强制Lipschitz连续性来正则化神经网络机器学习，110（2）：393二、三[7] 矶部隆、徐佳、谷书航、李松江、王胜金、齐天。具有递归结构-细节网络的视频超分辨率。在欧洲计算机视觉会议上，第645-660页。Springer，2020年。一、二、五[8] Takashi Isobe，Songjiang Li，Xu Jia，Shanxin Yuan，Gregory Slabaugh ， Chunjing Xu ， Ya-Li Li ， ShengjinWang，and Qi Tian.视频超分辨率与时间组注意。在IEEE/CVF计算机视觉和模式识别会议论文集，第8008-8017页，2020年。1[9] Younghyun Jo、Seoung Wug Oh、Jaeyeon Kang和SeonJoo Kim。使用动态上采样滤波器的深度视频超分辨率网络，无需显式运动补偿。在IEEE计算机视觉和模式识别会议论文集，第3224-3232页，2018年。1[10] 我是何塞，穆斯塔法·西斯和弗朗索瓦·弗雷·乌雷。克氏循环单位。《国际机器学习会议》，第2380-2389页。PMLR，2018。2[11] Diederik P. Kingma和Jimmy Ba。Adam：随机最佳化的方法。在Yoshua Bengio和Yann LeCun的编辑，第三届学习表征国际会议，ICLR 2015，美国加利福尼亚州圣地亚哥，2015年5月7日至9日，会议跟踪程序，2015年。6[12] C. Liu和D.太阳一种自适应视频超分辨率的贝叶斯方法。见CVPR 2011，第209-216页，2011年。一、二、五[13] Xiaohong Liu ， Lingshi Kong ， Yang Zhou ， JiyingZhao，and Jun Chen.基于隐式运动估计和补偿新机制的端到端可训练视频超分辨率在IEEE/CVF计算机视觉应用冬季论文集，第2416- 2425页1[14] ZakariaMhammedi ， AndrewHellicar ， AshfaqurRahman，and James Bailey.使用Householder反射的回流神经网络的有效正交参数化国际机器学习会议，第2401- 2409页PMLR，2017年。2[15] 约翰·米勒和莫里茨·哈特稳定的循环模型。2019年国际学习表征会议。2[16] Takeru Miyato，Toshiki Kataoka，Masanori Koyama，and Yuichi Yoshida.生成式对抗网络的谱归一化。在2018年国际学习代表会议上2[17] Seungjun Nah 、 Sungyong Baik 、 Seokil Hong 、Gyeongsik Moon 、 Sanghyun Son 、 Radu Timofte 和Kyoung Mu Lee。Ntire 2019年视频去模糊和超分辨率挑战：数据集和研究。在CVPR研讨会上，2019年6月。5[18] Razvan Pascanu，Tomas Mikolov和Yoshua Bengio。关于训练递归神经网络的困难。国际机器学习会议，第1310PMLR，2013年。2[19] Adam Pasz

下载后可阅读完整内容，剩余1页未读，立即下载