时空网络和运动补偿的实时视频超分辨率

172 浏览量更新于2023-10-16 收藏 1.67MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

4778基于时空网络和运动补偿的实时视频超分辨率Jose Caballero，Christian Ledig，Andrew Aitken，AlejandroAcosta，Johannes Totz，Zehan Wang，Wenzhe ShiTwitter{jcaballero，cledig，aaitken，aacostadiaz，johannes，zehanw，wshi}@ twitter.com摘要卷积神经网络已经实现了实时精确的图像超分辨率。然而，最近试图从视频超分辨率中的时间相关性中获益的尝试在本文中，我们介绍了时空亚像素卷积网络，有效地利用时间冗余，提高重建精度，同时保持实时速度。具体来说，我们讨论了使用早期融合，缓慢融合和3D卷积的多个连续的视频帧的联合处理。我们还提出了一种新的联合运动补偿和视频超分辨率算法，该算法比竞争方法更有效，依赖于端到端可训练的快速多分辨率空间Transformer模块这些贡献提供了更高的准确性和时间上更一致的视频，我们确认定性和定量。相对于单帧模型，时空网络可以在保持相同质量的同时将计算成本降低30%，或者对于类似的计算成本提供0.2dB的增益公开数据集上的结果表明，所提出的算法在准确性和效率方面都超过了当前最先进的性能。1. 介绍图像和视频超分辨率（SR）是信号处理的长期挑战。SR旨在从其低分辨率（LR）版本中恢复高分辨率（HR）图像或视频，并发现从医学成像[38，34]到卫星成像[5]的直接应用，以及促进人脸识别等任务[13]。然而，从LR输入重建HR数据是需要解决附加约束的高度不适定的问题虽然这些约束通常依赖于应用程序，但它们通常依赖于数据冗余.图1：视频SR的拟定设计。运动估计和ESPCN模块是端到端学习的，以获得运动补偿和快速算法。在单个图像SR中，其中仅提供一个LR图像，方法利用局部相关性形式的固有图像冗余，通过施加稀疏性约束[39]或假设其他类型的图像统计（如多尺度补丁重现[12]）来恢复丢失的高频细节。在多图像SR [28]中，假设同一场景的不同观测是可用的，因此共享的显式冗余可以用于约束问题并尝试直接反转降尺度过程。从图像到视频的转换意味着具有高度相关性的自适应数据维度（时间），其也可以被利用来提高准确性以及效率方面的性能。1.1. 相关工作视频SR方法主要作为图像SR技术的适应而出现。核回归方法[35]已被证明适用于使用3D核而不是2D核的视频[36]。字典学习方法将LR图像定义为耦合到HR字典的字典原子的稀疏线性组合，也已从图像[38]调整到视频[4]。另一种方法是基于示例的块递归，其假设单个图像或视频中的块服从多尺度关系，并且因此可以从较粗尺度块推断出给定尺度下的缺失高频4779这是由Glasner et al.[12]用于图像SR，并且后来扩展到视频[32]。当将方法从图像适配到视频时，通常有益的是结合以下先验知识：视频的相同场景的帧可以通过单个图像和运动模式来近似。估计和补偿运动是进一步约束问题并暴露时间相关性的强大机制。因此，很常见的是找到明确地对通过帧的运动进行建模的视频SR方法。自然的选择是通过使用从现成的光流算法获得的位移场补偿帧间运动来预处理输入帧[36]。然而，这需要帧预处理并且通常是昂贵的。或者，运动补偿也可以与SR任务联合执行，如在Liu等人的贝叶斯方法中所做的。[27]通过迭代地估计运动作为其更广泛的降尺度过程建模的一部分。神经网络技术的出现，可以从数据训练到近似复杂的非线性函数，在包括SR在内的许多应用中设定了新的性能标准。 Dong 等人 [6] 提出将卷积神经网络（CNN）架构用于单个图像SR，后来由Kappeler等人扩展。[22]在联合处理多个输入帧的视频 SR网络（VSRnet）中。此外，用基于总变差（TV）的光流算法补偿输入图像的运动显示出改进的准确性。还通过递归双向网络研究了利用神经网络对SR进行关节运动补偿[17]。基于CNN的方法的常见范例是在尝试解决SR问题之前用双三次插值放大LR图像[6，22]。然而，通过插值增加输入图像大小会影响CNN处理的计算负担。Shi等人提出了一种解决方案。利用高效的亚像素卷积网络（ESPCN）[33]，其中通过网络学习直接从LR映射到HR空间的放大操作。该技术将运行时间减少了一个数量级，并且通过利用单个帧模型独立地处理帧来实现实时视频SR基于转置卷积，也提出了类似的提高效率的解决方案[7，20]。1.2. 动机和贡献用于高清晰度（HD）视频SR的现有解决方案在实时执行的同时还不能有效地利用时间延迟。一方面，ES-PCN [33]利用子像素卷积进行非常有效的操作，但其对独立处理帧的视频的天真扩展未能利用帧间冗余，并且没有强制执行时间一致的结果。另一方面，VSRnet [22]可以改善重建通过联合处理多个输入帧来提高质量。然而，预处理LR图像与双三次放大和使用一个低效的运动补偿机制，nism减慢运行时间约为0。016帧/秒，即使视频小于标准清晰度分辨率。空间Transformer网络[19]提供了一种为两个图像之间的空间映射传递参数的方法这些是可区分的网络，可以与针对其他目标的网络无缝组合和联合训练，以提高其性能。例如，空间Transformer网络最初被证明通过将图像变换到相同的参考系上来促进图像分类[19]。最近，人们已经展示了空间变换器如何通过无监督训练对光流特征进行编码[11，1，29，14]，但它们从未被研究用于视频运动补偿。已经出现了用于视图合成的相关方法，假设刚性变换[21]。本文将亚像素卷积的效率与时空网络和运动补偿的性能相结合，得到一种快速准确的视频SR算法。我们研究了早期融合、慢速融合和3D卷积对时间维度的不同处理，这些处理之前已经被建议将分类从图像扩展到视频[23，37]。此外，我们建立了一个运动补偿方案的基础上，空间transformers，这是结合时空模型，导致一个非常有效的解决方案，视频SR与运动补偿，是端到端的可训练。所提出的方法的高级di-agram在图中示出。1.一、本文的主要贡献是：提出了一种基于亚像素卷积和时空网络的实时视频SR方法，提高了准确性和时间一致性。比较早期融合、慢速融合和3D卷积作为用于发现时空相关性的替代架构。提出了一种基于多尺度空间Transformer网络的密集帧间运动补偿方法。结合所提出的运动补偿技术与时空模型，以提供一个有效的，端到端的可训练的运动补偿视频SR算法。2. 方法我们的出发点是实时图像SR方法ES-PCN [33]。我们将分析限制在标准架构选择上，没有进一步研究潜在的有益扩展，如递归[24]、残差连接[15，16]或基于感知损失的····4780∈2[t−R：不0× ××θ=arg min <$I− f（I ; θ）<$。（三）LR××(a)早期融合（b）缓慢融合（c）3D卷积图2：时空模型。输入帧是彩色编码的，以说明它们对不同特征图的贡献，括号表示级联后的卷积。在早期融合（a）中，网络的输入滤波器的时间深度与折叠第一层中的所有时间信息的输入帧的数量相匹配。在慢融合（b）中，第一层合并小于输入帧数的组中的帧。如果每个层中的权重被强制共享它们的值，则虚线上方的特征所需的操作可以被重新用于每个新帧。这种情况等同于使用3D卷积（c），其中时间信息与空间和时间中的卷积合并。函数[20，26，3，8]。在整个论文中，我们假设所有图像处理都是在颜色空间中的y通道上执行的，因此我们将所有图像表示为2D矩阵。2.1. 亚像素卷积SR对于给定的LR图像ILRRH×W，其被假定为低通滤波和按a缩小的结果，因子 rHR 图像 IHR∈RrH×rW ， CNN 超分辨解ISR∈RrH×rW可以表示为获得了ISR[33]。这意味着如果存在比双三次上采样更适合问题的上尺度操作，则网络可以学习它。此外，最重要的是，所有卷积处理都在LR空间中进行，使得这种方法非常有效。2.2. 时空网络时空网络假设输入数据是时空信息的块，使得代替ISR=f.ΣILR; θ.（一）单个输入帧ILR、连续帧考虑了这可以在网络中通过引入时间深度D1的附加维度来表示，这里，θ是模型参数，f（. ）代表地图─从LR到HR的ping功能。卷积网络将该函数建模为由权重和偏置θ l=（W l，b l）的集合定义的L层的级联，每个权重和偏置非线性函数φl，其中l∈[0，L−1]。形式上，The其中输入深度D0表示奇数个连续输入帧。如果我们将时空块的时间半径表示为R=D0−1，则我们将以时间t为中心的输入帧组定义为I LR∈RH×W×D0，以及方程中的问题。（1）成为每一层的输出被写为。Σ.fl IΣLR;θl=φl.Wlfl−1.ILRΣ;θl−1Σ+bl（2）第一章ISR=f[t−R：t+R];θ.（四）.Σ其中f0I LR; θ= I LR。我们假设过滤的形状加权滤波器W1的形状也通过其时间大小dl，它们的张量形状变为dl×nl−1×权重为nl−1n lKLk l，其中n l和k l表示发送层L中的滤波器的数量和大小，其中单帧输入意味着n0= 1。优化模型参数，以最小化给定的一组LR和HR示例图像对的损失，通常为均方误差（MSE）：LR22θ在从LR映射到HR之前，使用双三次上采样预处理ILR 的方法强制滤波器的输出数量为nL−1=1[6，22]。使用子像素卷积允许直接在LR空间中处理ILR，然后使用n个L−1=r2输出滤波器获得HR输出形状为1×r2×H×W的可重排n lk lk l. 我们注意到，可以考虑旨在联合重建多于单个输出帧的解决方案，这至少在计算效率方面具有优势然而，在这项工作中，我们只专注于一个单一的输出帧的重建2.2.1早期融合CNN处理视频的最直接的方法之一是将输入层的时间深度与帧的数量d0=D0相匹配。这将折叠第一层中的所有时间信息，并且剩余操作与单个图像SR网络中的操作相同，意味着dl= l，l≥1。早期的例证我4781我{}电话+1≤××电话+1电话+1×电话+1±2=argminI−It.融合如图所示。2a对于D0= 5，其中时间维度已经被颜色编码，并且输出映射到2D空间被省略。该设计已经被研究用于视频分类和动作识别[23，37]，并且也是VSRnet [22]中提出的架构之一。然而，VSRnet需要双三次上采样，而不是子像素卷积，这使得该框架在计算上的效率相比之下要低得多。2.2.2慢聚变另一种选择是在分层结构中部分合并时间信息，因此随着信息在网络中的进展，时间信息被缓慢地融合。在这种情况下，网络层的时间深度被配置为1≤d1 D0，注意到所使用的数据包含固有的运动模糊和（不）遮挡，即使没有使用这些效果的显式建模，也可能会改善结果。任务是找到将新帧I t+1与参考当前帧I t相关的最佳光流表示。假设流是像素密集的，允许将每个像素移位到新的位置，并且结果像素排列需要插值回到规则网格上。我们使用双线性插值。因为它比最初在[ 19 ]中提出的薄板样条插值有效得多。光流是参数θt，t +1的函数，并且用两个特征映射来表示，其中θt+1=（θt+1x，θt+1y;θt，t +1）对应于x和y维度的位移，因此补偿图像可以表示为I′（x，y）=因此，某些层也具有时间范围，所有的信息已经合并，网络的深度I{It+1（x+t+1x，y+t+1y）}，或更简洁地说工作量减少到1。这种被称为慢融合的架构已经显示出比早期视频融合更好的性能′电话+1=I{I t+1（It+1）}。（五）分类[23]。在图2b中，我们显示了一个慢融合网络，其中D0= 5，融合速率定义为：d l= 2，对于l否则dl= 1，这意味着在每层仅合并两个连续帧或滤波器激活，直到网络注意，早期融合是缓慢融合的特殊情况。2.2.33D卷积慢融合的另一种变体是强制跨时间维度共享层权重假设帧的在线处理，当新帧变得可用时，可以重新使用先前帧的一些层的结果。例如，参见图11中的图表。并且假设底部帧是接收到的最新帧，则所有激活我们采用多尺度设计来表示流动，这在经典方法[10，2]和最近提出的空间变换技术[11，1，9]中已被证明是有效的该设计的示意图如图所示3和流量估计模块在表1中详述。首先，通过早期融合两个输入帧并使用2个步幅卷积向下缩放空间维度来获得流量的4利用亚像素卷积对所估计的流进行放大，并且将结果I′ c应用于变形目标帧产生I′c。然后，通过精细流量估计模块将扭曲图像与粗略流量和原始图像一起处理这使用具有步幅2的单个步幅卷积和最后的2个放大阶段来获得更精细的流图WMF。通过将目标帧与总流进行变形得到最终的运动补偿帧虚线以上的是容易获得的，因为它们′电话+1=I{It+1（πcF电话+1）}。输出激活使用是处理前一帧所必需的这个-架构等同于使用3D卷积，最初被提出作为学习时空特征的有效工具，可以帮助视频动作识别[37]。从3D卷积的角度对该设计的图示如图所示。图2c，其中时间特征和滤波器特征的布置相对于图2c交换。2b.2.3. 空间Transformer运动补偿我们建议使用一个有效的空间Transformer网络来补偿帧之间的运动，tanh表示归一化空间中的像素位移，使得位移1表示从图像的中心到边界的最大位移。为了训练空间Transformer以执行运动补偿，我们优化其参数θm，t +1以最小化变换帧和参考帧之间的MSE。类似于经典的光流方法，我们发现，它通常是有帮助的，以约束流在空间中表现得平滑，因此我们惩罚的Huber损失的流图梯度，即SR网络。它已被证明如何空间变换器可以有效地编码光流来描述运动∗t+1′电话+1θm，t+1<$2+λH（<$x，y<$t+1）。（六）[29，1，14]，因此适合于运动补偿。我们将补偿三个连续帧的块，以将补偿模块与SR网络组合，如图1所示。1，但是为了简单起见，我们首先引入两个帧之间的运动补偿。不-在实践我们近似的Huber亏损ΣH（nx，yn）=n+i=x，y（nxni2+nyni2），其中=0。01.该函数在原点附近具有光滑的L2行为，并且在远离原点的地方具有稀疏性。我我+✓θ4782L××××层粗流细流1Conv k5-n24-s2/ReLU Conv k5-n24-s2 /ReLU2Conv k3-n24-s1/ReLU Conv k3-n24-s1 /ReLU3Conv k5-n24-s2/ReLU Conv k3-n24-s1 /ReLU4Conv k3-n24-s1/ReLU Conv k3-n24-s1 /ReLU5Conv k3-n32-s1/tanh Conv k3-n8-s1 /tanh6子像素放大×4子像素放大×2这可以归因于网络资源分配的特定选择，而不是容量的微不足道的增加。对于层l，重构帧的浮点运算的数量近似为：螺旋卷积HWDl+1nl +1x `（2k2dl−1）nl+2002年，偏压激活.（八）图3：空间Transformer运动补偿。表1：运动补偿Transformer架构。卷积层由内核大小（k）、特征数量（n）和步幅（s）描述空间Transformer模块相对于其他运动补偿机制是有利的，因为它直接与SR网络组合以执行联合运动补偿和视频SR。参照图1，相同的参数θ∆可以用于对外部两个框架相对于中心框架的运动进行建模。空间Transformer和SR模块都是可区分的，因此是端到端可训练的。因此，它们可以被联合优化以最小化组合等式1中的重建的准确性（3）在等式（1）中的运动补偿的保真度的情况下，（6）即在测量具有权重共享的慢融合网络的复杂性时，我们着眼于稳态操作，其中某些层的输出从一帧到下一帧被重用。我们注意到，[22]中对VSRnet变体的分析没有考虑模型复杂性。3.1. 实验装置3.1.1数据我们使用CDVL数据库[18]，其中包含115个未压缩的全高清视频（不包括重复视频），并选择100个视频的子集进行训练。这些视频被降尺度，并且从每个HR-LR视频对中提取30个随机样本以获得3000个训练样本，其中5%根据网络架构，我们将样本称为单帧网络的单个输入-输出帧对，或者称为时空网络的连续LR输入帧和对应的中心HR帧的块。剩下的15个视频用于测试。虽然训练帧的总数很大，但我们预见到，所提出的方法可以从更丰富、更多样化的视频集合中受益。此外，我们提出了一个基准对各种SR方法公开可用的视频，在文献中反复使用，我们称之为Vid 41。3.1.2网络训练和参数所有SR模型都遵循相同的协议进行训练，（θ，θ）=argminIHR−f（I′LR;θ）θ2共享相似的超参数。过滤器大小设置为kl= 3∆tθ，θt−1：t+1 2所有的非线性φl都是经过校正的线性单位，+ <$[β<$I′LR−ILR<$2+λH（λH）]的。除了输出层，它使用线性激活。双-i=±1t+i t2x为oht+Iases被初始化为0，权重使用正交初始值。（七）根据[30]中的建议3. 实验和结果在本节中，我们首先分析视频SR的时空我们限制我们的experi-ents来解决3和4升级的全高清视频分辨率（1080 - 1920），没有压缩。为了确保方法之间的公平比较，网络参数的数量需要具有可比性，以便性能增益所有隐藏层都设置为具有相同数量的fea-真的。视频样本被分解为空间维度33、33的非重叠子样本，这些子样本被随机地分批分组以用于随机优化。我们使用Adam [25]，学习率为10- 4，初始批量为1。每10个epoch，批大小加倍，直到它达到最大大小128。1Vid4由步行，城市，日历和树叶组成，尺寸为720×480或720×576 。序列城市的尺寸为 704×576 ，我们将其裁剪为702×576 ，以进行 ×3 放大。 Vid4 上的结果可从https://twitter.box.com/v/vespcn-vid4下载4783×2层数SFE5S5S5-SW7PSNR37.7837.9237.8337.74GOPs12.2912.6910.658.949PSNR37.8037.9937.9937.90GOPs16.8317.2215.1913.47图4：使用单帧模型（SF）和多帧早期融合模型（E3-7）的CDVL3SR对于网络时间深度为1的层，我们选择nl= 24（图1和图2中的灰色2a至2c），并且为了保持可比较的网络大小，我们选择nl= 24/Dl，l>0的情况。这确保了早期和慢速融合网络中每个隐藏层的特征数量例如，图1所示的网络。2b，其中D0= 5，dl= 2，l ≤ 3，6层中的特征数量对于×rSR的网络，则为6，8，12，24，24，r。3.2. 时空视频SR3.2.1单帧与多帧早期融合首先，我们调查的复杂性和准确性没有运动补偿的输入帧的数量的影响。我们比较单帧模型（SF）与使用3，5和7个输入帧（E3，E5和E7）的早期融合时空模型。图1中绘制了6至11层网络的CDVL数据集上的峰值信噪比（PSNR）结果。4.第一章利用空间-时间相关性提供了相对于帧的独立处理更准确的结果。早期融合带来的复杂性的增加是边际的，因为只有第一层有助于增加操作。虽然时空模型的准确性是相对相似的，我们发现E7略逊一筹。很可能超过5帧的时间依赖性对于网络来说太复杂，无法学习有用的信息，并且充当降低其性能的噪声。还要注意的是，尽管对于单帧网络，网络深度的性能增加在8层之后是最小的，但是这种增加对于时空模型更加一致。3.2.2早期融合vs缓慢融合在这里，我们比较了2.2节中讨论的时间维度的不同处理方法。我们假设网络的输入为5帧，慢融合模型的输入为5帧。表2：时空架构称为时间深度2，如图2所示。使用SF、E5、S5和S5-SW来指代单帧网络和使用早期融合、慢速融合和具有共享权重的慢速融合的5帧输入网络，我们在表2中示出了7层和9层网络的结果如前所述，早期融合网络相对于单帧模型在操作中以3%的边际增加获得更高的准确度，并且如预期的那样，慢速融合架构提供效率优势。慢速融合比早期融合更快，因为它在初始层中使用更少的特征。参考方程式在等式（8）中，慢融合在第一层中使用dl= 2并且nl= 24/Dl，这导致比在早期融合中使用的dl=l，nl= 24更虽然7层网络看到使用慢融合相对于早期融合的准确度的相当大的降低，但是9层网络可以受益于相同的准确度，同时将其复杂度降低约30%。这表明，在浅层网络中，网络资源的最佳使用是利用全部网络容量来联合处理所有时间信息，如早期融合所做的那样，但在更深层的网络中，缓慢融合时间维度是有益的，这与[23]提出的视频分类结果一致此外，权重共享由于网络参数的减少而降低了准确性例如，7层S5-SW网络示出了几乎30%的操作减少，而相对于SF的准确性降低最小。然而，与具有9层的S5-SW相比，使用具有E5的7层显示出更好的性能和更快的时空域中的卷积在[37]中显示出对于视频动作识别很好地工作，但是具有更大的容量和更多的帧被联合处理。我们推测这可能是为什么从这个高层次的视觉任务得出的结论不外推到SR问题的原因。3.3. 运动补偿视频SR在本节中，所提出的帧运动补偿与时间深度D0= 3的早期融合网络相结合。首先，运动补偿模块使用等式（1）独立地训练其中第一项被忽略，并且β=1，λ= 0。01. 这导致网络将4784×××图5：空间Transformer运动补偿。顶部：估计的将原始帧与其连续帧相关的流图。底部：不具有和具有运动补偿（无MC和MC）的三个连续帧的部分。MC的错误映射不太明显(a)原件（b）无MC×3（c）MC×3图6：运动补偿的3SR。联合运动补偿和SR（c）产生比单独时空SR（b）更准确的结构重建。层数6789SF37.71837.78037.81237.800E337.84237.88937.95637.980E3-MC37.92837.96138.01938.060表3：CDVL3 SR的PSNR，使用单帧（SF）和3帧早期融合，无运动补偿和有运动补偿（E3、E3-MC）。通过估计外部帧相对于中间帧的流图来补偿三个连续帧的运动在图1中示出了针对一个帧获得的流图的示例。图5中，我们还示出了运动补偿模块对三个连续帧的影响。早期融合运动补偿SR网络（E3- MC）分别用补偿和SR网络进行初始化，然后联合运行完整模型。与Eq.（7）（β= 0. 01，λ= 0。001）的情况下。CDVL上的3个SR的结果在表3中与单帧（SF）模型和没有运动补偿的早期融合（E3）进行比较E3-MC导致PSNR有时几乎是E3相对于SF的改进的两倍，这是由于网络适应SR输入以最大化时间冗余的事实图6我们展示了这种改进如何反映在更好的结构保存。3.4. 与最新技术我们在表 4 中示出了 SRCNN [6] ， ESPCN [33]，VSRnet [22]和所提出的方法在Vid4上的性能为了证明它在效率和质量方面的优势，我们评估了两种早期的融合模型：5层3帧网络（5L-E3）和9层3帧网络与运动补偿（9 L-E3-MC）。比较的指标是PSNR、结构相似度（SSIM）[40]和电影[31]指数。电影指数被设计为测量与人类感知相关的视频质量的度量，并结合了时间一致性的概念。我们还直接比较了所有基于CNN的方法的每帧操作的数量，用于提升通用1080p帧。SRCNN，ESPCN和VSRnet的重建使用作者提供的模型。SRCNN、ESPCN和VESPCN在Theano和Lasagne上进行了测试，对于VS-Rnet，我们使用了可用的Caffe Matlab代码。我们裁剪空间边界，以及初始和最终帧上的所有recruitc- tions公平比较对VSRnet2。3.4.1进行详细对比视觉差异的示例如图所示7针对运动补偿网络。从特写图像中，我们看到如何更好地恢复原始视频的结构细节，建议VESPCN方法。这反映在表4中，其中它在PSNR和SSIM方面超过任何其他图7还示出了通过25个连续帧由虚线突出显示的行上的时间轮廓，证明了所提出的重建的更好的VESPCN的巨大时间相干性也解释了电影指数的显著降低。3.4.2效率比较表4中的方法的复杂性由网络和输入图像大小决定SRCNN和VSRnet在尝试超解析LR图像之前先对LR图像进行上采样，这大大增加了所需的操作数量2我们使用了我们自己的SSIM实现，并使用视频PSNR而不是[22]中所做的平均单个帧PSNR，因此值可能会稍微偏离原始论文中报告的值。4785××××××规模图像和视频SR拟定VESPCN双三SRCNNESPCNVSRnet5L-E39L-E3-MC3PSNR25.3826.5626.9726.6427.0527.25SSIM0.76130.81870.83640.82380.83880.8447电影（×10−3）5.363.583.223.503.122.86GOps /1080p帧-233.119.921108.73美元 *7.9624.234PSNR23.8224.6825.0624.4325.1225.35SSIM0.65480.71580.73940.73720.74220.7557电影（×10−3）9.316.906.546.826.185.82GOps /1080p帧-233.116.081108.73美元 *4.8514.00表4：Vid4视频的性能*VSRnet不包括运动补偿所需的操作图7：Vid4上3个SR的结果。浅蓝色图显示SRCNN、ESPCN、VSRnet、VESPCN（9 L-E3-MC）和原始图像的结果。紫色图像示出了从原始图像中示出的虚线起的25帧上的对应时间分布。VESPCN在视觉上产生最准确的结果，无论是空间上还是时间上。VSRnet是特别昂贵的，因为它在64和320特征层处理5个输入帧，而子像素卷积大大减少了ESPCN和VESPCN中所需的操作数量。作为参考，ESPCN4在K2 GPU上以每帧29ms的速度运行[33]。时空网络的增强能力允许相对于ESPCN减少VESPCN的网络操作作为一个例子，我们展示了具有5L-E3的VESPCN，它相对于ESPCN减少了约20%的操作次数，同时保持了在所有评估的质量指标中表现相似。在VESPCN中使用 9 L-E3-MC 进行运动补偿的操作，包括在表4结果中，总计3 .第三章。6和2。对于3和4级升频，0GOps，对于需要运动补偿的每个输入帧应用两次。这使得所提出的运动补偿视频SR相对于其他方法非常例如，VSRnet中的运动补偿据说需要每帧55秒，并且是计算瓶颈[22]。这在表4中没有说明，但比具有9 L-E3-MC的VESPCN慢103，后者可以以10−2秒的量级运行种子VSRnet中的光流方法最初显示为在GPU上针对尺寸为512 383的每个帧以29ms运行，但是这仍然比所提出的解决方案慢得多，考虑到对于多于单个帧的HD尺寸需要运动补偿。4. 结论在本文中，我们结合了亚像素卷积的时间融合策略的效率优势，提出实时时空模型的视频SR。所使用的时空模型被示出以促进重建精度和时间一致性的改进或相对于独立的单帧处理降低计算复杂度。所研究的模型扩展了基于空间Transformer网络的运动补偿机制，该机制对于视频SR是有效的和可联合训练的。结合显式运动补偿的方法获得的结果被证明是优越的PSNR和时间consideration相比，单独的时空模型，并优于视频SR的现有技术水平。4786引用[1] A. 艾哈迈迪和我。帕特雷用于运动估计的无监督卷积IEEE国际图像处理会议（ICIP），第1629-1633页[2] T. Brox，N.Papenberg和J.Weickert 基于翘曲理论的高精度光流估计欧洲计算机视觉会议（ECCV），4：25[3] J. Bruna，P. Sprechmann和Y.乐存。具有深度卷积足够统计的超分辨率。 2016 年国际学习表征会议（InternationalConferenceOnLearningRepresentations，ICLR）[4] Q. Dai，S. Yoo，A. Kappeler和A. K.卡萨格洛斯基于字典的多帧视频超分辨率。 IEEE图像处理国际会议（ICIP），第83-87页[5] H. Demirel和G.安巴尔贾法里基于离散小波变换的卫星图像分辨率增强。IEEE Trans-actions on Geoscience andRemote Sensing，49（6）：1997[6] C.东角，澳-地C. Loy，K.他，还有X。唐使用深度卷积网络实现图像超分辨率。IEEE Transactions on PatternAnalysis and Machine Intelligence （ TPAMI ）， 38（2）：295[7] C.东角，澳-地C. Loy和X.唐加速超分辨率卷积神经网络。欧洲计算机视觉会议（ECCV），第391-407页。施普林格国际出版社，2016年。[8] A. Dosovitskiy和T.布洛克斯基于深度网络生成具有感知相似性度量的图像。arXiv预印本arXiv：1602.02644，2016。[9] A.多索维茨基山口Fischery，E.伊尔格角哈兹尔巴斯河谷戈尔科夫，P. van der Smagt，D.Cremers和T.布洛克斯FlowNet：使用卷积网络学习光流。国际计算机视觉会议（ICCV），第2758-2766页[10] G.在后面基于多项式展开的两帧运动估计。斯堪的纳维亚图像分析会议，第363-370页[11] Y. Ganin，D. Kononenko，D. Sungatullina和V.冷天。DeepWarp：用于凝视操作的真实感图像再合成。欧洲计算机视觉会议（ECCV），第311-326页[12] D. Reinner，S. Bagon和M.伊拉尼从单一图像中获得超分辨率。IEEE第12届计算机视觉国际会议（ICCV），第349-356页，2009年[13] B. K. Gunturk ，A. 联合Batur， Y. Altunbasak ， M. H.Hayes和R.M. 默瑟罗人脸识别的特征脸域超分辨率IEEETransactions on Image Processing，12（5）：597[14] A. Handa ， M. Bloesch ， V. Patraucean ， S. Stent ， J.McCor- mac，and A.戴维森gvnn：用于几何计算机视觉的神经网络库。欧洲计算机视觉会议（ECCV）深度几何研讨会，2016年。[15] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。IEEE计算机视觉和模式识别会议，2016。[16] K.他，X。Zhang，S. Ren和J. Sun.深度剩余网络中的身份映射。欧洲计算机视觉会议，第630-645页[17] Y.黄，W. Wang和L.王.用于多帧超分辨率的双向递归卷积网络。神经信息处理系统进展（NIPS），235-243页，2015年[18] 其 . 消费者数字视频库，于 2016 年 8 月访问http://www.cdvl.org/。[19] M.贾德伯格K.西蒙尼扬A.齐瑟曼和K. Kavukcuoglu空间Transformer网络。神经信息处理系统（NIPS）的进展，第2017-2025页[20] J. Johnson，A. Alahi和L.飞飞实时风格转换和超分辨率的感知损失。欧洲计算机视觉会议（ECCV），第694[21] N. Kalantari，T.Wang和R.Ramamoorthi 基于学习的光场相机视图合成ACM Transactions on Graphics（TOG），35（6）：193，2016。[22] A. Kappeler，S.哟Q Dai和A. K. 卡萨格洛斯卷积神经网络视频超分辨率。 IEEETransactions onComputational Imaging，2（2）：109[23] A. Karpathy，G.Toderici、S.Shetty，T.良河，巴西-地Sukthankar和L.飞飞用卷积神经网络进行大规模视频分类。在IEEE计算机视觉和模式识别会议（CVPR），第1725-1732页[24] J. 金，J.K. Lee和K.M. 李你用于图像超分辨率的深度递归IEEE计算机视觉与模式识别（CVPR），2016年。[25] D. Kingma和J. BA. Adam：一种随机优化方法。2015年国际学习表征会议（ International Conference OnLearning Representations，ICLR）[26] C. 莱迪格湖Theis，F.Huszar，J.Caballero，A.艾特肯A.Te-jani，J.Totz，Z.Wang和W.石使用生成对抗网络的照片般逼真的单幅arXiv预印本arXiv：1609.04802，2016。[27] C. Liu，N. England和D.太阳一种自适应视频超分辨率的贝叶斯方法。IEEE计算机视觉和模式识别会议（CVPR），第209- 216页[28] S. C.公园，M。K. Park和M. G.康超分辨率图像重建：技术概述。IEEE信号处理杂志，20（3）：21[29] V. Patraucean，A. Handa和R.西波拉具有可微分存储器的时空视频自动编码器2016 年国际学习表征会议（ICLR）研讨会。[30] A. M.萨克斯<英>来华传教士。McClelland和S.甘古利。深度线性神经网络学习的非线性动力学的精确解。2014年国际学习表征会议（ International Conference OnLearning Representations，ICLR）[31] K. Seshadrinathan，S.成员和A. C.波维克自然视频的运动调谐时空质量评估。 IEEE Transactions on ImageProcessing，19（2）：3354787[32] O. Shahar、A. Faktor和M.伊拉尼从单个视频中获得时空超分辨率在IEEE计算机视觉和模式识别会议中，第3353- 3360页[33] W. Shi，J.卡瓦列罗湾Ferenc，T.Johannes，A.P. 艾特肯R.毕晓普河丹尼尔和Z.王.使用高效的亚像素卷积神经网络实现单图像和视频的实时超分辨率。2016年IEEE计算机视觉和模式识别会议（CVPR），第1874- 1883页[34] W. Shi ， J. Caballero ， C. 莱迪格， X 。 Zhuang ， W.Bai，K. Bha tia，A. M. S. M. De Marvao，T. Dawes、D.O’Regan,D. 鲁克特使用多图谱PatchMatch实现具有全局对应性的心脏图像超分辨率医学图像计算和计算机辅助干预国际会议（MICCAI），第9-16页，2013年[35] H. Takeda，S. Farsiu，和P.米兰法用于图像处理和重建的核回归。IEEE Transactions on Image Processing，16（2）：349[36] H. Takeda，P. Milanfar，M. Protter和M.埃拉德无显式子像素运动估计的超分辨率IEEE Transactions on ImageProcessing，18（9）：1958[37] D. 特兰湖布尔代夫河费格斯湖Torresani和M.帕鲁里用3D卷积网络学习时空特征IEEE计算机视觉和模式识别会议（CVPR），第4489-4497页[38] J. Yang，S.成员，Z。王. 用于图像超分辨率的耦合字典训练IEEE Transactions on

下载后可阅读完整内容，剩余1页未读，立即下载