可变形注意金字塔：快速在线视频超分辨率

182 浏览量更新于2023-10-16 收藏 21.03MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

17350具有可变形注意金字塔的快速在线视频超分辨率0Dario Fuoli 1 Martin Danelljan 1 Radu Timofte 1 , 2 Luc Van Gool 1 , 301 ETH苏黎世计算机视觉实验室，瑞士 2 Würzburg大学CAIDAS，德国 3 KU Leuven，比利时0{ dario.fuoli, martin.danelljan, vangool } @vision.ee.ethz.ch, radu.timofte@uni-wuerzburg.de0摘要0视频超分辨率（VSR）在包括视频流和电视在内的许多应用中具有严格的因果、实时和延迟约束。我们在这些设置下解决了VSR问题，这增加了重要的挑战，因为未来帧的信息是不可用的。重要的是，设计高效而有效的帧对齐和融合模块仍然是核心问题。在这项工作中，我们提出了一种基于可变形注意金字塔（DAP）的循环VSR架构。我们的DAP将循环状态的信息对齐和整合到当前帧的预测中。为了避免传统基于注意力的方法的计算成本，我们只关注有限数量的空间位置，这些位置由DAP动态预测。对所提出的关键创新进行全面的实验和分析表明了我们方法的有效性。与最先进的方法相比，我们显著减少了处理时间和计算复杂性，同时保持了高性能。我们在两个标准基准测试中超过了最先进的方法EDVR-M，速度提升超过3倍。01. 引言0视频超分辨率（VSR）是从低分辨率视频帧中恢复空间高频分量的问题。与单幅图像超分辨率不同，其中方法必须依赖于图像先验知识，VSR可以利用相邻帧和长时程相关性的附加观察结果来重建单帧。因此，有效的帧对齐和融合是VSR中的主要挑战。许多实际应用，包括电视和视频流媒体，依赖于能够在线和实时运行算法的能力，其中最小延迟和高速处理至关重要。然而，在线视频处理中的严格时间约束对于学习的VSR构成了重大挑战，因为高性能与深度神经网络中的计算复杂性强相关。0RRN0RLSP0RSDN EDVR-M0EDVR0PFNL0FRVSR0DUF RBPN0图1：UDM10[33]上的运行时间与性能对比（运行时间以对数尺度表示）。磁盘区域对应于每种方法的参数数量。我们的方法DAP-128在高速（每帧38毫秒）和最小复杂度下实现了高竞争性能。浅灰色突出显示了DAP-128的帕累托优势区域。0（DNN）。与许多其他计算机视觉问题不同，因此在最小化架构复杂性的同时，仔细优化网络性能非常重要。除了快速推理，还需要针对在线VSR问题的量身定制的解决方案。因此，与许多先前的工作[9, 2, 3, 14, 28, 18,12]不同，我们因此解决了设计严格因果VSR方法的问题。这带来了额外的挑战，因为因果性禁止从未来帧中获取信息。为VSR设计有效而高效的对齐和融合方法带来了相当大的挑战。现有方法使用低效的对齐策略，例如在特征空间中昂贵的对齐[28]，详尽的注意力计算[33,18]或无效的基于隐式卷积的对齐[15]，而不特别关注运行时间。大多数方法仅依赖于相邻帧的信息，并忽略了连续帧之间计算重用的潜力。由于缺乏高效的对齐/融合机制，快速方法通常完全避免使用这些模块[6, 13,11]。在这项工作中，我们采用循环VSR架构，因为它具有在线性质和高效性，并解决了有效对齐和融合的上述问题。我们提出了一种VSR方法，灵感来自于17360注意力[29]和transformer[27,5]的最新进展。以注意力和transformer为例，已成功应用于计算机视觉任务。注意力相对于卷积具有优势，因为它允许在早期层中有效匹配和融合全局信息。此外，该操作隐含地用于处理VSR中帧之间的位移。虽然该机制有助于高性能，但其二次复杂度以及详尽的相关计算通常使其不适用于时间关键应用，特别是在视频等高维领域中。为了发挥其潜力，注意力机制需要进行重大调整，以满足快速视频处理的要求。我们通过动态预测要用于注意力的配对来解决上述挑战，从而避免了经典注意力算法中的高计算复杂性。特别地，我们在我们的循环单元的隐藏状态中使用可变形注意力金字塔（DAP）来实现高效的信息融合。DAP通过灵活的偏移预测和具有注意力的判别聚合同时解决了不对齐和融合问题。可变形注意力机制通过动态选择信息特征来实现空间平移特征的稳健融合，并通过动态选择具有信息量的特征来抵消隐藏状态中的误差累积。为了快速偏移预测，我们使用了一个轻量级的卷积网络。然而，浅层卷积网络由于其局部性偏差而具有较小的感受野。这个缺点限制了处理帧之间运动引起的大空间位移的能力。我们通过使用金字塔类型的网络来扩展感受野，该网络由多级编码器组成，后面是基于注意力的迭代偏移细化。根据计算的偏移量，我们的融合模块有效地聚合隐藏状态的信息。在对齐/融合阶段之后，通过残差卷积块执行隐藏状态特征和上采样的组合处理，最终输出高分辨率帧和下一个隐藏状态。我们的实验证明了我们提出的模块对VSR问题的巨大益处。广泛的消融研究清楚地突出了我们的贡献的有效性。与最先进的方法相比，我们显著减少了处理时间和计算复杂度，同时实现了高性能。在标准基准REDS上，我们的PSNR比最先进的方法EDVR-M高出0.06dB，速度提高了3倍以上。02. 相关工作0利用时间维度中的互补信息来提高插值质量的能力，是VSR和单帧超分之间的一个重要区别。0图像超分辨率，其中恢复算法仅依赖于先验信息。[20, 19,7,25]提供了最新的VSR方法概述。文献中提出了两种不同的机制来利用VSR中的额外信息：(1)滑动窗口[28, 33, 18, 12,30]和(2)循环处理[31, 22, 8, 6, 11, 13, 2,3]。滑动窗口从一组固定的相邻帧中提取信息，而循环方法在隐藏状态中随时间累积信息，以便在当前时间步骤中利用。基于窗口的方法：早期方法[16, 26, 1,24]计算光流（OF）以对中心帧进行运动补偿。DUF[15]通过在一组相邻帧上应用3D卷积结合动态上采样滤波器来研究无显式运动补偿的VSR。最近的基于窗口的设计通常在性能上取得更高的性能，但运行时间较长。这种策略的好处是在训练过程中使用大量的并行处理，从而便于探索更大的模型。PFNL[33]采用非局部残差块[29]作为运动估计的替代方法，以逐步融合相邻帧的信息。与其他基于窗口的方法不同，RBPN[8]引入了一个模块，用于在固定的时间窗口内从相邻帧中迭代地聚合信息。EDVR[28]提出了对齐和融合的分离模块。帧在特征空间中通过级联变形卷积进行对齐，并通过应用时间和空间注意力图进行融合。MuCAN[18]利用分层对应聚合策略，在局部邻域上经过详尽搜索后选择一组最相似的补丁来检测帧间对应关系。这些选定的补丁的聚合是通过卷积块完成的。为了解决不对齐问题，TGA[12]将窗口内的相邻帧分成组，根据它们与中心帧的时间距离。融合是通过应用注意力图来完成的。循环方法：方法（1）的时间感受野由于其固定的窗口大小而受限，并且通常依赖于未来帧的可用性，这在推理过程中引入了延迟。方法（2）具有潜在的无限时间感受野，并且通常通过隐藏状态更有效地累积信息并重复使用计算。超分辨率的循环网络可以进一步分为单向[22, 6, 11, 13]和双向方法[9, 2,3]。单向：作为最早的之一，FRVSR[22]以循环方式考虑连续帧之间的运动。先前的高分辨率估计通过光流向当前帧进行变形。之后，RLSP[6]引入了一种在隐藏状态中高效传播隐式信息的方法。ft, ft−1 = Et(xt), Et−1(xt−1)(1)s0t = O(ft, ft−1)(2)vht = F(ht−1, s0t)(3)17370图2：我们提出的方法的示意概述，显示了循环单元中主要模块的交互。0将完全卷积循环网络应用于VSR，将隐藏状态中的信息累积起来，而无需明确的运动补偿。RSDN[11]通过将内容分为结构和细节组件来进一步改进这个概念。此外，它通过检测帧之间的大位移来考虑隐藏状态中的误差累积。0双向：为了利用远距离的时间相关性，考虑从视频中的所有帧中获取信息的聚合策略是有利的，并且可以通过前向和后向传递进行高效利用。虽然这种方法最适合高性能，但它违反了因果性-在线推理所必需的属性。BasicVSR[2]通过在整个视频上进行两次传递，利用轻量级循环单元实现了高性能。它的后继者BasicVSR++[3]通过广泛的双向传播策略进一步提高了性能。不幸的是，这些方法无法在线评估，因为它们违反了因果性。因此，我们设计了一个单向循环网络，以实现快速的在线推理，并通过我们提出的高效动态模块最大限度地从隐藏状态中积累信息。0动态注意力/变换器机制在与对象检测[34]、视频对象分割[23]和增加网络容量[4]等无关领域中也得到了探索。[34]提出了一种变换器网络，通过关注动态预测的位置来检测单个图像中的相关对象特征。相反，我们提出的DAP利用注意力来高效地匹配连续帧之间的位置。此外，我们的DAP利用注意力的区分性特征，更加鲁棒地从隐藏状态中进行聚合/融合，根据其相关性动态地合并多个位置的信息。[23]采用了一种前k个内存匹配方案，以减少其基于注意力的视频对象分割模块的计算开销。DCN[4]使用卷积核的动态集成学习来增加网络容量。我们的DAP在根本上是不同的，它预测并关注多个空间偏移位置，以明确地匹配和融合跨大空间距离的信息。03. 方法03.1. 概述0根据奈奎斯特-香农采样定理，离散信号的频带在频谱中以特定频率fN为带限，称为奈奎斯特频率。VSR算法的任务是从低分辨率视频x∈RT×H×W×C中恢复高于该频率的高频内容，该内容在对其高分辨率对应物y∈RT×rH×rW×C进行子采样后丢失，其中r为缩放因子。为了满足在线VSR的要求，需要一种有效且高效的算法。我们提出了一种循环算法，以解决在线VSR的两个最重要的方面，并强调快速运行时间。即处理帧之间的错位以及隐藏状态ht中的信息的更新/提取。这样的设置允许从过去的帧x0:t-1中高效地进行显著特征的时间聚合。最近在注意力和变换器架构方面取得的进展在各种计算机视觉任务中取得了很大的性能提升。然而，由于VSR中像素密集的处理要求，注意力或变换器类型组件的朴素实现非常低效，由于其二次计算复杂性，禁止了这些操作的应用。为了缓解这个问题，我们设计了一种注意机制，动态预测隐藏状态中一部分相关键值对的子集，省略了对所有可能对的详尽和昂贵的搜索。特别地，循环单元传播像素密集的隐藏状态ht。我们提出的可变形注意机制DAP同时处理隐藏状态融合和错位。DAP使用金字塔类型网络进行动态偏移预测。首先，我们的编码器网络E将帧xt，xt-1分别划分为多级特征图ft，ft-1，表示输入的细到粗的视图，有效地扩大了感受野并丰富了表示能力。0我们的可变形注意力模块 O从粗到细迭代地优化计算得到的偏移量 s t 。0然后，我们的融合模块 F根据最终的偏移量聚合隐藏状态特征。0在融合/对齐阶段之后，我们的主处理单元 N由重复的残差信息多重蒸馏块[10]组成，用于估计高分辨率帧[yt, ht] = N(xt, vht ),t = 0, ..., T(4)f lt = D↓�Cl �f l−1t��,f 0t = C0 (xt) ,l =0, ..., Lf lt−1 = D↓�Cl(f l−1t−1)�,f 0t−1 = C0 (xt−1) ,l =0, ..., L(5)tt−1√dV lt−1(6)17380y t 和下一个隐藏状态 h t 。0我们的方法的高级概述如图2所示，图中显示了循环单元及其主要模块之间的交互。接下来，我们将详细解释我们提出的模块。03.2. 可变形注意力金字塔（DAP）0为了融合隐藏状态 h t − 1 相对于当前时间步 t的累积过去信息，我们采用了一个可变形注意力金字塔。我们的模块在像素密集表示上操作，以满足VSR的低级处理要求。我们设计了DAP以高效稳健地聚合空间上偏移的信息。为了实现这些属性，我们使用一个金字塔类型的处理模块，对从输入帧 x t − 1 和 x t计算得到的编码多层特征进行处理，以有效地扩大感受野。为了避免详尽的相关计算，我们将注意力模块限制在 x t −1中动态预测的偏移位置上的一小组键/值对上，用于与当前帧 x t 进行交叉注意力。首先，计算从 x t − 1 到 x t的偏移量。这些偏移量有两个目的：（1）处理帧之间的不对齐和（2）大幅减少注意力权重计算。根据这些偏移量，通过交叉注意力将信息融合，以在时间步 t进行利用。最终的全分辨率偏移量通过当前帧 x t和隐藏状态 h t − 1之间的交叉注意力实现稳健的像素密集融合。多层编码器在VSR中，捕捉跨越较大距离的偏移是至关重要的，因为相机或物体可能存在快速运动。为了解决这个问题，我们使用多层编码器在多个分辨率上获得特征。较粗层级的特征用于捕捉由于对帧的较大空间视图而产生的较大运动。我们在最后一个和当前输入帧 x t − 1 和 x t 上的层级 l = 0 , ..., L上编码特征。为了进一步丰富每个层级的帧表示，我们将其编码为更高维度的特征 f l t 。通过由4个卷积组成的卷积块C l进行重复卷积，并在块之间进行中间双线性下采样步骤（×2），我们使用操作符 D ↓ （ ∙ ）表示，参见公式5。即使使用小的3×3卷积核，这样的策略也通过重复的下采样操作以指数级增加感受野。我们为输入帧 x t − 1 和 x t 分别使用独立的处理链，设置 L = 3 。0可变形注意力为了显著降低我们的注意力模块的复杂性，我们将对显著特征的搜索限制在特征图中动态选择的位置上，而不是在大邻域甚至整个帧上进行详尽的相关计算。通过将纯交叉注意力应用于当前帧 x t，克服了注意力机制中普遍存在的二次分量，从而使键/值对的数量呈线性依赖。特别地，我们在每个金字塔层级 l上使用优化的、轻量级的、可变形的注意力操作机制处理编码特征 f l t 和 f l t − 1 。我们通过仅计算表示当前帧 x t的查询 Q l t 和在 f t − 1 中采样的动态预测空间位置 s l ∈R H/2 l × W/2 l × 2 k 的键/值对 K l t − 1 / V l t − 1之间的像素密集相关来大大减少计算量。查询和键/值对使用参数 W l Q 、 W l K 和 W l V进行线性嵌入。我们应用带有softmax的缩放点积注意力来聚合来自 V l T t − 1的值。我们通过双线性上采样（×2）来解决金字塔层级 l的特征图和上一层级 l +1 的采样位置 s l +1之间的分辨率不匹配问题，表示为 U ↑ ( ∙ )。相应的方程式在公式6中给出，图3提供了一个示例。请注意金字塔层级索引 l 的逆序，因为处理是从粗到细进行的。0l = L，...，00Q l t = W l Q f l t K l t − 1 =W l K S ( f l t − 1 , U ↑ ( s l +10V l t − 1 = W l V S ( f l t − 1 ,0v l t � Q l t , K l t − 1 , V l t − 1 �= softmax0迭代细化我们提出了一种高效的迭代粗到细的方案，以解决不同分辨率中多级偏移表示的混合、注意力聚合值v l t和来自当前帧xt的特征f l t的融合。在每个金字塔级别中，密集偏移量s l t∈ R H/2 l × W/2 l × 2k通过将残差偏移量添加到上一级偏移量s l +1t中进行迭代细化，其中轻量级卷积块C lS用于此目的。我们的偏移预测网络C lS使用大的7×7卷积核，以确保具有大感受野的密集计算，与我们其他所有模块中使用的较小的3×3卷积核形成对比。0s l t = C l S � f l t , v l t , U ↑ ( s l +1 t ) � + U ↑ ( s l +1 t )0（7）隐藏状态融合最终，顶层偏移量s 0t用于融合显著的隐藏状态特征，以便在�Q0tKhTt−1√d�V ht−117390多级编码器0迭代细化0图3：可变形注意力金字塔（DAP）。首先，我们使用U-Net [21]类型的编码器从x t和xt−1计算多级特征。在每个金字塔级别l中，每个像素计算出k个采样位置s l t ∈ R H/2 l × W/2 l × 2k，作为上一级可变形注意力块中的键/值位置。上一级的特征根据s l t进行交叉注意力融合，然后使用卷积块C lS相对于较低层l + 1计算残差偏移量。偏移量s l t通过迭代细化，直到在l = 0级别获得的位置s 0 t最终用于在隐藏状态ht−1中执行交叉注意力融合。�：通道维度上的连接，⊕：逐元素相加。0时间步t。为此，另一个可变形注意力块vht通过利用计算得到的偏移量s 0t来处理全分辨率的融合。由于在快速VSR中最小化计算工作量至关重要，因此我们的DAP模块在一个较低的d维空间（d=8）中处理帧，因为帧的通道大小是固定的，限制了可用信息的数量。相反，我们主要处理管道中的隐藏状态的通道大小较大，增加了可存储信息的上限，从而提高了性能。因此，隐藏状态的可变形注意力块vht在d维嵌入中执行查询/键匹配，而值则在其本机高维空间中进行嵌入和聚合。我们用DAP-n表示我们的网络，n表示主处理块中的特征大小。0v h t � Q 0 t , K h t − 1 , V h t −1 � = softmax0（8）通过在所有DAP阶段内对张量进行分组采样，实现了运行时间的显著改善，为了清晰起见，这些阶段在符号中被省略。分组的数量根据采样的键/值对的数量k =4进行设置。04. 实验0我们在消融研究中进行了全面的实验，以突出我们的关键创新并将我们最佳的配置1与三个不同的标准基准REDs[19]、UDM10 [33]和Vimeo-90K[32]上的最先进方法进行比较，使用了两种不同的子采样核（双三次和高斯）。我们使用提出的分割方法01 有关代码和其他材料，请参考https://github.com/dariofuoli/DAP。0根据[28]的REDS，以及来自[19]的提供的训练对。我们对Vimeo-90K和UDM10测试集的结果是通过应用高斯低通滤波器，然后沿每个空间维度对每个第4个像素进行重采样获得的。根据文献，我们将高斯滤波器的标准差和核大小分别设置为σ =1.6和13，Vimeo-90K用作两个测试集的训练集。在训练过程中，我们均匀裁剪具有空间尺寸256×256（高分辨率）的序列，并采用随机翻转、旋转和时间反转来增加数据。初始学习率设置为10^-4，并在达到平台后分两步降低到0.5×10^-4，然后是10^-5。为了稳定训练，我们使用梯度裁剪。更具体的细节将在各个子部分中解释。与文献中的最新提议类似，我们的网络使用平滑版本的L1损失进行训练，相比于L2损失，它对超分辨率更不敏感，因为它对异常值的敏感性较小。我们的模型可以端到端地进行训练，不依赖于预训练模块或外部数据。我们使用Adam优化器[17]，并在所有实验中将缩放因子设置为r = 4。04.1. 消融0为了突出我们的主要贡献，我们进行了全面的消融研究，对比了不同配置之间的差异，展示了我们提出的模块的优势，见表1。我们使用REDS进行训练和评估。在训练过程中，我们收集由b =32个样本组成的批次，裁剪大小为T×H×W×C =5×64×64×3。我们提供验证集和测试集的结果，以强调我们消融研究的鲁棒性，但将详细讨论限制在REDSval上。配置1的模块只使用主模块N，没有任何运动处理和融合进行训练。02 PyTorch的torch.nn.SmoothL1Loss()，β = 10^-216428.77/0.790628.59/0.81552✓6428.95/0.792628.69/0.81843✓6429.82/0.819429.50/0.84614✓✓6430.07/0.826429.66/0.85075✓✓✓6430.36/0.834129.97/0.85716✓✓✓12830.77/0.844030.49/0.8676REDS [19]29.97/0.857130.16/0.863530.49/0.867630.72/0.875117400配置偏移金字塔注意力特征 REDS4val [19]（Y） REDS4 [19]（RGB）0表1：REDS的消融研究（PSNR/SSIM）。所有模型在5帧序列的相同设置下进行训练。红色表示最佳，蓝色表示次佳。0为了传播隐藏状态。与所有带有偏移的配置相比，性能大幅下降验证了在VSR中处理运动和不对齐的重要性。它清楚地显示了基于卷积的视频处理网络的缺点，并促进了其他机制的必要性。添加我们的基于注意力的融合模块F而不提供偏移仍然可以通过我们的融合模块获得0.18dB的轻微增益，即使没有偏移。在配置1中添加偏移显著提高了配置3中的性能1.05dB。此外，通过应用简单卷积融合的金字塔细化机制而不是我们提出的可变形注意力，可以获得更大的感受野。因此，配置4将PSNR提高了0.25dB。我们完整的设置与我们提出的所有模块的组合进一步提高了0.29dB的性能（配置5）。此外，将特征维度从64增加到128又增加了0.41dB。因此，我们提出的DAP网络实现了VSR的大幅增益。另外，除了依赖于偏移预测和没有我们提出的注意机制的卷积的配置4的性能较差之外，我们观察到训练过程中的不稳定性，这使我们得出结论，注意机制与偏移预测相结合可以稳定DNN的训练。0配置 −−−−−−→ DAP-64 ←−−−−−− DAP-64 −−−−−−−→ DAP-128 ←−−−−−−−DAP-1280表2：在REDS4测试集上的正向/反向（→/←）评估。我们在两个方向上评估相同的模型。0反向评估现有技术中双向方法的一个核心特点是它们能够离线融合整个视频的所有信息。此外，这种策略还包括按照时间顺序进行反向聚合，这在某些情况下可能具有额外的优势。基于窗口的方法通常从未来帧中聚合信息，具有类似的潜在优势。我们分析了由时间反转引起的相对运动模式对我们的在线设置的影响，因为这种运动甚至可能出现在非反转的视频中，例如物体远离相机或相机向外缩放。因此，我们研究了正向和反向评估之间的差异，即我们在REDS测试集上对序列进行了评估，同时考虑了正向和反向的时间顺序。0在表2中，我们比较了这些视频在正向和反向聚合下的性能差异。令人惊讶的是，这些视频中的反向时间顺序聚合显著提高了性能，即对于DAP-64和DAP-128分别提高了+0.19dB和+0.23dB。经过检查，我们将这种增益归因于这些视频中正向相机运动更为普遍。如果物体朝相机移动，或者反之，按照反向时间顺序，它们首先以更高的分辨率出现，简化了这些物体的超分辨率处理。因此，能够以反向方式处理视频或者访问未来帧，可能会根据内容显著提高VSR的性能，从而使非因果方法相对于在线算法具有额外的优势。04.2. 与现有技术的比较0我们将我们的方法与现有方法在3个不同的具有不同特性的数据集上进行了性能比较，见表3。由于我们解决的是因果VSR问题，我们不与双向方法进行比较。这些方法无法在单次传递中进行评估，这限制了它们在在线处理中的应用。此外，它们由于可以访问视频序列中的所有帧而具有无法比拟的优势。然而，我们仍然报告了参考文献中突出的双向方法[2,3]的结果，供表3参考。REDS是一个具有挑战性的高分辨率（720×1280）数据集，因为大位移和非稳定的相机使得时间聚合变得复杂。另一方面，UDM10（720×1272）包含更稳定的相机运动和连续的运动。Vimeo-90K只包含7帧的短序列，用于小分辨率（256×448）的训练和测试。该数据集发布时考虑了基于窗口的评估，即只期望恢复中心帧，这使得与我们的循环方法进行公平比较变得困难。为了提高可比性，我们将序列在末尾反射3帧，以计算代表中心帧的最后一帧上的度量。然而，我们的方法仍然有一个劣势，因为需要估计每一帧直到序列结束，而不是仅从相邻帧进行聚合。REDS为了与REDS上的现有方法进行比较，我们扩展了我们的训练序列以便学习更长的时间依赖性。我们均匀裁剪Bicubic✓✓✓----26.14/0.729228.47/0.825331.30/0.8687TOFlow [31]✓✗✗----27.98/0.799036.26/0.943834.62/0.9212FRVSR [22]✓✓✗∗137∗7.3---37.09/0.952235.64/0.9319DUF [15]✓✗✗∗974∗1.0--28.63/0.825138.48/0.960536.87/0.9447RBPN [8]✓✓✗∗1507∗0.7--30.09/0.859038.66/0.959637.20/0.9458PFNL [33]✓✗✗∗295∗3.4--29.63/0.850238.74/0.9627-MuCAN [18]✓✗✗2’2080.515’853.27’922.830.88/0.8750--EDVR-M [28]✓✗✗1168.6925.7462.330.53/0.869939.40/0.966337.33/0.9484EDVR [28]✓✗✗3482.94’037.32’017.331.09/0.880039.89/0.968637.81/0.9523TGA [12]✗✗4272.3----37.59/0.9516BasicVSR [2]✗✗✗8212.2754.3376.731.42/0.890939.96/0.969437.53/0.9498IconVSR [2]✗✗✗10010.0904.9451.931.67/0.894840.03/0.969437.84/0.9524BasicVSR++ [3]✗✗✗1109.1837.1418.132.39/0.906940.72/0.972238.21/0.955017410运行 fps FLOPs MACs REDS4[19] UDM10[33] Vimeo-90K[32] 方法 [ms] [1/s] [G] [G] PSNR/SSIM PSNR/SSIMPSNR/SSIM0RSDN [11] � � � 63 15.9 713.2 356.3 - 39.35/0.9653 37.23/0.9471 RRN [13] � � � 28 35.7 387.5 193.6 - 38.96/0.9644 - RLSP[6] � � � 30 33.3 503.7 251.8 - 38.48/0.9606 36.49/0.9403 DAP-128 (我们的方法) � � � 38 26.3 330.0 164.8 30.59/0.870339.50/0.9664 37.29/0.94760表3：与最先进技术的比较。我们在3个标准基准测试上比较运行时间、每秒帧数（fps）、FLOPs、MACs和PSNR/SSIM指标。此外，我们注明了方法是否是单向的，即是否可以在一次传递中生成输出（Unid.），是否可以严格在线评估（Onl.），即不需要未来帧，并且是否可以实时生成视频（720p）（R-T.）。所有PSNR/SSIM结果和运行时间测量标有*的是从各自的论文中报告的。所有其他方法都是在我们使用相同设置在NVIDIARTX2080Ti上进行的性能分析（Run/fps/FLOPs/MACs）。红色表示最佳，蓝色表示第二佳。0长度为T=15的序列，批量大小为b=8，由于内存需求更高。为了避免从随机初始化的参数进行昂贵的训练，我们的模型使用消融研究中配置6的预训练权重进行初始化，并在T=15上进行优化。在更大的序列长度T上进行训练进一步提高了我们在REDs上的性能，PSNR和SSIM分别提高了0.1dB和0.0027。除了大型和慢速模型EDVR和MuCAN，我们在性能上显著超越了所有其他模型，并且速度很快，我们甚至超过了EDVR-M的运行时间缩短超过3倍，并且计算需求大大降低。DAP-128仅用38毫秒处理REDs中复杂的运动。我们的方法能够以最低的计算复杂度在所有方法中实现每秒超过24帧的实时评估。正如前面提到的，Vimeo-90K由于其预定的评估协议而存在限制。尽管如此，DAP-128在Vimeo-90K上的性能与循环最先进方法RSDN和基于窗口的EDVR-M相当，尽管EDVR-M在Vimeo-90K上具有基于窗口的方法的优势。基于窗口的EDVR和TGA预计会有更高的性能，因为它们具有更大的容量和在Vimeo-90K上评估的上述优势。相反，UDM10定义了一种标准的评估策略，更适合于我们的方法。0为了进行真实和公正的比较，我们实现了PSNR的第二佳性能，并且速度很快，EDVR的计算复杂度非常高，超过9倍。由于我们在提出的DAP中采用了高效的聚合策略，我们在性能、运行时间和计算需求方面显著超越了循环方法RSDN。与RRN相比，我们大大提高了性能，增益为+0.54dB，计算复杂度更低，运行时间略有增加。运行时间和计算复杂度我们着手设计一种算法来克服在线VSR的挑战。除了时间信息聚合的限制（只有过去的信息可用），满足严格的时间约束和低计算复杂度对于这个任务至关重要。通过我们提出的DAP和整体高效的网络设计，我们在计算工作量方面实现了最佳性能，并能够移动帕累托前沿。DAP-128是一种高速方法，在Tab.3中的所有其他方法中具有最低的计算需求（330.0GFLOPs/164.8GMACs），它能够以每秒超过26帧的速度进行实时评估，并具有高性能。我们的网络设计超越了EDVR和其他基于窗口的方法所使用的基本算法设计，因为我们的方法在整体上实现了更好的性能，计算复杂度大大降低，因此运行时间更快，例如EDVR-M与DAP-128相比。请注意，EDVR和其他基于窗口的方法的运行时间和计算复杂度是基于我们在NVIDIARTX2080Ti上的相同设置进行的性能分析（Run/fps/FLOPs/MACs）。红色表示最佳，蓝色表示第二佳。17420DAP-128（我们的）EDVR EDVR-M 双三次插值 GT0图4：在REDS上的视觉示例。我们的方法在显著降低计算量的情况下，实现了与EDVR-M和EDVR相竞争的性能。0由于有机会离线并行处理窗口，该方法的运行时间测量不考虑在线评估。因此，在实践中，在线评估很可能导致更高的运行时间和延迟。我们还超越了RSDN等最先进的循环网络设计，实现了显著的加速和超过2倍的计算需求降低。有关性能与运行时间以及复杂性（参数数量）的说明，请参见图1。视觉示例我们在图4中提供了定性评估的视觉示例。我们将我们的方法与基线双三次插值、最先进的方法EDVR、其轻量级版本EDVR-M和所有4个REDS测试序列的真实值（GT）进行了比较。我们的方法根据PSNR/SSIM评估在Tab.3中产生了高质量的帧。然而，所有方法之间存在各自的优势和劣势。第一行的信号的恢复质量比EDVR-M甚至其更重的版本EDVR更高。另一方面，第4行的老虎由EDVR恢复得更详细。如第4.1节所解释的，访问未来帧可能非常有优势。EDVR和大多数其他基于窗口的方法在其窗口中访问未来帧。由于前向相机运动，老虎在未来帧中以更高的分辨率出现在这个特定场景中。05. 结论0我们解决了在线VSR中的两个主要挑战：高效的时间聚合和不对齐。尽管计算复杂度和网络容量之间存在固有的关系，但我们的轻量级设计在在线环境中实现了高性能和快速运行时间，这是通过我们的有效的基于注意力的模块实现的，该模块仅从隐藏状态中融合/对齐信息。与其他用于VSR的基于注意力的解决方案相比，我们提出的DAP通过动态关注隐藏状态中的显著位置，避免了详尽的操作，从而显著减少了与注意力和变换器相关的高计算负担。我们的注意机制实现了高效的像素密集处理，这是超分辨率的关键特性。全面的实验和消融研究加强了我们的贡献，并对我们的方法进行了分析。我们在两个标准基准测试中超越了最先进的方法EDVR-M，速度提高了3倍以上，并且在所有比较方法中具有最低的计算复杂度。0致谢。本工作部分得到了华为技术有限公司项目、ETHZ¨urich基金（OK）和亚历山大∙冯∙洪堡基金会的支持。17430参考文献0[1] Jose Caballero, Christian Ledig, Andrew Aitken, AlejandroAcosta, Johannes Totz, Zehan Wang, and Wenzhe Shi.基于时空网络和运动补偿的实时视频超分辨率.在计算机视觉和模式识别（CVPR）IEEE会议上，2021年7月.0[2] Kelvin CK Chan, Xintao Wang, Ke Yu, Chao Dong, andChen Change Loy. Basicvsr: 视频超分辨率及其关键组件的搜索.arXiv预印本arXiv:2012.02181, 2020年.0[3] Kelvin CK Chan, Shangchen Zhou, Xiangyu Xu, and ChenChange Loy. Basicvsr++: 改进视频超分辨率的传播和对齐.arXiv预印本arXiv:2104.13371, 2021年.0[4] Yinpeng Chen, Xiyang Dai, Mengchen Liu, DongdongChen, Lu Yuan, and Zicheng Liu. 动态卷积：卷积核的注意力.在计算机视觉和模式识别（CVPR）IEEE会议上，2020年6月.0[5] Alexey Dosovitskiy，Lucas Beyer，AlexanderKolesnikov，Dirk Weissenborn，Xiaohua Zhai，ThomasUnterthiner，Mostafa Dehghani，MatthiasMinderer，Georg Heigold，SylvainGelly等。一幅图像相当于16x16个单词：用于大规模图像识别的变压器。arXiv预印本arXiv:2010.11929，2020年。0[6] Dario Fuoli，Shuhang Gu和RaduTimofte.通过循环潜空间传播实现高效视频超分辨率。在ICCV研讨会上，2019年。0[7] Dario Fuoli，Shuhang Gu，Radu Timofte等。Aim2019挑战赛：视频极端超分辨率：方法和结果。在ICCV研讨会上，2019年。0[8] Muhammad Haris，Gregory Shakhnarovich和NorimichiUkita.递归反向投影网络用于视频超分辨率。在计算机视觉和模式识别（CVPR）会议论文集上，2019年6月。0[9] Yan Huang，Wei Wang和LiangWang.用于多帧超分辨率的双向递归卷积网络。在C. Cortes，N.Lawrence，D. Lee，M. Sugiyama和R.Garnett（编辑），神经信息处理系统的进展，第28卷。CurranAssociates，Inc.，2015年。0[10]郑辉，高新波，杨云楚和王秀梅。轻量级图像超分辨率与信息多蒸馏网络。在第27届ACM国际多媒体会议（ACMMM）论文集上，第2024-2032页，2019年。0[11] Takashi Isobe，Xu Jia，Shuhang Gu，SongjiangLi，Shengjin Wang和QiTian.具有循环结构细节网络的视频超分辨率。在AndreaVedaldi，Horst Bischof，Thomas Brox和Jan-MichaelFrahm（编辑），计算机视觉-ECCV2020，第645-660页，2020年。斯普林格国际出版。0[12] Takashi Isobe，Songjiang Li，Xu Jia，ShanxinYuan，Gregory Slabaugh，Chunjing Xu，Ya-Li Li，ShengjinWang和QiTian.具有时间组注意力的视频超分辨率。在计算机视觉和模式识别（CVPR）会议论文集上，2020年6月。0[13] Takashi Isobe，Fang Zhu和Shen

下载后可阅读完整内容，剩余1页未读，立即下载