基于压缩信息的视频超分辨率模型COMISR+源码和训练模型【视频超分辨率】

162 浏览量更新于2023-10-14 收藏 21.7MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

2012345625430COMISR：基于压缩信息的视频超分辨率0Yinxiao Li，Pengchong Jin，Feng Yang，Ce Liu，Ming-Hsuan Yang，Peyman Milanfar{yinxiao，pengchong，fengyang，celiu，minghsuan，milanfar}@google.com Google Inc.0摘要0大多数视频超分辨率方法侧重于从低分辨率视频中恢复高分辨率视频帧，而不考虑压缩。然而，网络或移动设备上的大多数视频都经过压缩，当带宽有限时，压缩可能会很严重。在本文中，我们提出了一种新的基于压缩信息的视频超分辨率模型，以恢复高分辨率内容，而不引入由压缩引起的伪影。所提出的模型包括三个用于视频超分辨率的模块：双向循环变形，保留细节的流估计和拉普拉斯增强。所有这三个模块都用于处理压缩属性，例如输入中的帧内位置和输出帧的平滑性。为了进行全面的性能评估，我们在标准数据集上进行了大量实验，涵盖了许多真实视频用例的各种压缩率。我们展示了我们的方法不仅可以从广泛使用的基准数据集中恢复未压缩帧上的高分辨率内容，而且在基于许多定量指标的超分辨率压缩视频上实现了最先进的性能。我们还通过模拟从YouTube流式传输来评估所提出的方法，以展示其有效性和鲁棒性。源代码和训练模型可在https://github.com/google-research/google-research/tree/master/comisr上获得。01. 引言0超分辨率是计算机视觉中的一个基本研究问题，具有众多应用。它旨在从低分辨率（LR）输入中重建详细的高分辨率（HR）图像。当输入是单个图像时，重建过程通常使用学习的图像先验来恢复给定图像的高分辨率细节，这被称为单图像超分辨率（SISR）[56]。当视频中有大量帧可用时，重建过程使用图像先验和帧间信息生成时间上平滑的高分辨率结果，这被称为视频超分辨率（VSR）。0DUF TecoGan RSDN FRVSR MuCAN EDVR0VSR模型0平均PSNR（分贝）0Vid4 REDS40COMISR0图1.在压缩的Vid4和REDS数据集上的视频超分辨率结果（4×，RGB通道）。这里我们展示了使用最广泛采用的压缩率（CRF 23 [10]）的结果。0构建过程使用图像先验和帧间信息生成时间上平滑的高分辨率结果，这被称为视频超分辨率（VSR）。尽管取得了很大进展，但现有的SISR和VSR方法很少将压缩图像作为输入。我们注意到，在先前的工作中使用的未压缩视频实际上是具有低压缩率的高质量图像序列。因此，这些SR方法在处理严重压缩的图像或视频时往往会生成明显的伪影。然而，网络或移动设备上的大多数视频都是以不同级别的压缩存储和流传输的。例如，H.264编码的广泛使用的压缩率（恒定速率因子（CRF））为23，以在视觉质量和文件大小之间进行权衡。我们注意到，当输入视频被压缩时，最先进的VSR算法表现不佳。处理压缩视频的一个潜在解决方案是在应用最先进的VSR模型之前，首先对图像进行去噪和去除压缩伪影的处理[35，36，58]。乍一看，这是有吸引力的，因为VSR模型接收到的是高质量的帧，类似于直接使用评估数据，如Vid4[32]。然而，我们在第4.3节的实验中表明，这种方法不会改善SR结果，反而会对视觉质量产生负面影响。通过预处理，第一步中的去噪模型很可能会显著不同。25440与VSR训练过程中隐含使用的退化核不同，压缩图像的去噪过程使得VSR模型需要处理更具挑战性的图像。另一个可能的解决方案是在压缩图像上训练现有的最先进的VSR模型。这将迫使VSR模型在训练过程中考虑到压缩伪影。然而，我们在第4.5节中描述的实验证明，仅仅使用压缩帧进行模型训练只会带来有限的改进。事实上，在没有对网络模块的具体改变的情况下，这种训练数据甚至可能对整体性能产生负面影响。为了解决上述问题，我们提出了一种压缩感知（即压缩感知）的超分辨率模型，可以在具有不同压缩水平的真实世界视频上表现良好。具体而言，我们设计了三个模块，以稳健地恢复由视频压缩引起的丢失信息。首先，我们开发了一个双向循环模块，用于减少来自压缩视频帧的随机位置的帧内累积变形误差[46]。其次，我们引入了一个细节感知的光流估计模块，用于从压缩的低分辨率帧中恢复高分辨率光流。最后，我们采用了一个拉普拉斯增强模块，将高频信息添加到被视频编码淡化的变形高分辨率帧中。我们将这个提出的模型称为压缩感知视频超分辨率（COMISR）。通过提出的COMISR模型，我们通过消融研究证明了这些模块的有效性。我们在几个VSR基准数据集上进行了大量实验，包括Vid4 [32]和REDS4[41]，使用不同CRF值的压缩视频。我们展示了COMISR模型在压缩视频（例如CRF23）上取得了显著的性能提升，如图1所示，并且同时在未压缩视频上保持了竞争性能。此外，我们基于最先进的VSR模型和现成的视频去噪器进行了不同组合的评估结果。最后，我们验证了COMISR模型在使用专有编码器压缩的YouTube视频上的鲁棒性。本文的贡献可以总结如下：•我们引入了一种压缩感知模型，用于超分辨率恢复真实世界压缩视频，并取得了最先进的性能。0•我们引入了三个对于视频超分辨率（VSR）来说是新颖的模块，以有效改善压缩帧上的关键组件。0•我们在压缩基准数据集上对最先进的VSR模型进行了大量实验。我们还提出了一种在YouTube转码视频上评估VSR模型的新设置，这是现有评估方法不考虑的真实应用场景。02. 相关工作0在文献中，已经基于变分公式[61]或深度神经网络[1, 56,62]开发了大量超分辨率方法。在本节中，我们讨论与我们的超分辨率工作密切相关的最新深度模型。02.1. 单图像超分辨率0Dong等人[8]提出了基于卷积神经网络的SRCNN模型，用于单图像超分辨率。基于残差学习框架[18]，Kim等人提出了VDSR [24]和DRCN[25]模型，用于更有效的图像超分辨率。为了学习更高效的SR模型，Dong等人在网络末端使用了一个反卷积层，直接学习从低分辨率到高分辨率图像的映射。类似地，Shi等人引入了ESP CN[47]模型，该模型在网络末端使用了一个高效的子像素卷积层。在LatticeNet方法[38]中，通过使用一个格子块，开发了一个轻量级模型，减少了一半的参数量，同时保持了类似的SR性能。为了高效地学习多尺度的SR模型，Lai等人开发了LapSRN模型，该模型逐步恢复高分辨率图像的子带残差。除了依赖更深的模型外，MemNet[48]引入了记忆块来利用长期依赖性进行有效的SR模型。另一方面，SRDenseNet [50]和RDN [68]是基于DenseNet[19]模型的SISR提出的，其中包含密集连接。Haris等人通过利用迭代上采样和下采样层设计了一个深度反投影网络，用于超分辨率。在[14]中，DSRN引入了一个双状态循环网络模型，以减少SISR的内存消耗。MSRN [29]和RFA[33]模型使用不同的块来高效地利用图像特征。最近，注意机制也被用于改善超分辨率图像质量[5, 40, 42,67]。除了深度神经网络模型外，生成对抗网络（GANs）也被用于SISR，包括SRGAN [28]，EnhanceNet[44]，ESRGAN [55]，SPSR [39]和SRFlow[37]。这些方法通常通过使用对抗性损失[12]或归一化流[43]生成视觉上令人愉悦的结果。此外，还开发了几种基于更接近真实世界场景的SISR的模型[13, 20, 57, 59, 65]。02.2. 视频超分辨率0视频超分辨率是一个比SISR更具挑战性的问题，因为需要有效地预测内容和运动。运动信息为从多个低分辨率图像中恢复高分辨率帧提供了额外的线索。WarpSpace-to-depthc… LaplacianWarp… … c3. Proposed Method25450细节感知流估计0拉普拉斯增强模块0HR帧生成器0前向循环模块0模块 t → t + 1 ...0后向循环0模块 t + 1 → t0后向循环0模块 t → t - 10(a) 在训练和推理中都使用的前向循环模型 (b) 仅在训练中使用的后向循环模型0(c) 前向循环模块的详细说明0连接0逐元素相加0图2. COMISR模型的概述。前向和后向循环模块是对称的，并共享权重。在图中，红色矩形表示LR输入帧，绿色虚线矩形表示HR预测帧。0滑动窗口方法。多帧超分辨率方法可以在更多的视觉信息可用时恢复目标帧的更多高分辨率细节。另一方面，这些方法需要考虑帧之间的运动内容，以获得高质量的SR结果。许多模型计算多帧之间的光流以聚合视觉信息。Xue等人[60]引入了一种面向任务的流估计方法，结合视频处理网络进行去噪和超分辨率。Haris等人[16]使用多个反投影特征进行迭代细化，而不是明确对齐帧。最近，可变形卷积网络[4]已经被开发用于解决密集预测任务中的特征错位问题。EDVR [53,54]和TDAN[49]都使用可变形卷积模型来对齐视频帧的特征，以进行视频超分辨率。Haris等人[17]设计了一种模型，利用时间和空间之间的相互信息关系来增加视频帧的空间分辨率，并插值帧以增加帧率。在[63]中，Yi等人提出了一种使用非局部块来融合多帧的时空信息的模型。最近，Li等人[30]提出了一种多对应网络模型，利用帧之间的空间和时间相关性来融合帧内和帧间信息，用于视频SR。0循环模型。循环神经网络已经广泛用于许多视觉任务，如分类[7, 31]，检测[34, 51]和分割[52]。这样的0网络模型可以通过在时间上共享模型权重来处理任意长度的输入。此外，循环模型可以考虑像素之间的长程依赖关系。近年来，已经基于循环神经网络开发了许多VSR模型。FRVSR[45]模型将先前的信息存储在HR帧中，以恢复序列中的当前帧。Fuoli[11]使用循环潜在空间来编码和传播帧之间的时间信息，以进行视频超分辨率。最近，RSDN模型[22]将保持结构的模块纳入循环网络中，在不依赖于运动补偿的情况下实现了从LR帧中恢复细节的最先进性能。0COMISR模型是基于循环公式设计的。类似于最先进的视频SR方法[22,45]，它将前一帧的视觉信息输入到当前帧中。循环模型通常具有较低的内存消耗，并可应用于视频中的许多推理任务。图2显示了COMISR模型的概述。我们开发了三个模块，即双向循环变形、细节感知流估计和拉普拉斯增强模块，以有效地提高压缩视频的超分辨率。给定LR的真实帧，我们使用前向和后向循环模块生成HR帧预测，并根据HR计算内容损失。˜ILRt= Warp(ILRt−1, F LRt−1→t).(1)˜IHR,W arpt= Warp(ˆIHRt−1, F HRt−1→t),(2)˜IHRt= ˜IHRt+ α(˜IHRt− G(˜IHRt, σ = 1.5)),(4)25460在循环模块中，我们预测流并生成LR和HR的变形帧，并使用LR和HR的真实帧对网络进行端到端的训练。03.1. 双向循环模块0视频压缩的一种常见方法是在视频流的不同位置应用不同的算法来压缩和编码帧。通常，编解码器会随机选择几个参考帧，称为内部帧，独立地对其进行压缩而不使用其他帧的信息。然后，它通过利用内部帧的一致性和编码差异来压缩其他帧。因此，内部帧通常需要更多的比特来编码，并且比其他帧具有更少的压缩伪影。由于内部帧的位置事先不知道，为了有效地减少内部帧的位置的累积误差，我们提出了一个双向循环网络来强制LR变形输入和HR预测帧的正向和反向一致性。具体而言，双向循环网络由正向和反向方向的对称模块组成。在正向方向上，我们首先使用LR帧I LR t − 1和ILR t（在第3.2节中描述）估计LR流F LR t − 1 → t和HR流FHR t − 1 →t。然后我们分别在LR和HR流中分别应用不同的操作。在LR流中，我们使用F LR t − 1 → t将先前的LR帧I LR t −1变形到时间t，得到变形的LR帧˜ I LRt，这将在后续阶段使用：0在HR流中，我们使用F HR t − 1 → t将先前的预测帧ˆ I HRt − 1变形到时间t，得到变形的HR帧˜ I HRt，然后通过拉普拉斯增强模块生成准确的HR变形帧：0˜ I HR t = Laplacian ( ˜ I HR,W arp t ) + ˜ I HR,W arp t .(3) 然后，我们对˜ I HRt进行空间到深度操作，缩小其分辨率同时扩展其通道，将其与LR输入I LRt融合，并将连接帧传递给HR帧生成器以预测最终的HR图像ˆ I HR t。我们将ˆ I HR t与真实的HR帧I HRt进行比较以测量损失。类似地，我们在反向方向上应用对称操作以获得变形的LR帧和预测的HR帧。在这种情况下，细节感知流估计模块从时间t到时间t −1生成反向流，并通过将反向流应用于时间t的帧来进行图像变形以估计时间t − 1的帧。03.2. 细节感知流估计0在我们的循环模块中，我们明确地估计相邻帧之间的LR和HR流，并将此信息在正向和反向方向传递。这里我们以正向方向为例进行说明。反向方向的操作类似地应用。我们首先将两个相邻的LR帧I LR t − 1和I LRt连接起来，并通过LR流估计网络将其传递以估计LR流F LRt − 1 → t。我们不直接上采样LR流F LR t − 1 →t，而是在双线性上采样的LR流之上添加了一些额外的反卷积层。因此，在端到端训练过程中学习到了详细的残差图，我们可以更好地保留预测的HR流中的高频细节。03.3. 拉普拉斯增强模块0拉普拉斯残差在许多视觉任务中被广泛使用，包括图像融合、超分辨率和恢复。它在从视频帧中找到细节方面特别有用，因为这些细节在视频压缩过程中可能被平滑掉。在我们的循环VSR模型中，变形的预测HR帧保留了从先前帧中学到的详细纹理信息。这样的细节在上采样网络中很容易丢失，如图2所示。因此，我们将拉普拉斯残差添加到预测的HR帧中以增强细节。使用高斯核模糊G( ∙ , ∙)对图像进行拉普拉斯残差增强，其中σ是宽度：0其中 ˜ I HR t 是预测的HR帧的中间结果， α是残差的加权因子。我们在第4节中进行了更多的消融研究，以证明拉普拉斯残差对于增强图像细节的有效性。通过利用拉普拉斯算子，我们将细节添加回到扭曲的HR帧中。然后进行空间到深度操作，将空间数据块重新排列成深度维度，并与LR输入帧进行连接。我们将其通过HR帧生成器，得到最终的HR预测结果。03.4. 损失函数0在训练过程中，损失是从HR帧和LR帧的两个流计算得出的。对于HR帧的损失，计算最终输出与HR帧之间的L2距离。在第3.1节中，我们描述了用于提高模型质量的双向循环模块。这里，I t 表示真实帧，˜ I t表示生成的帧。对于每个循环步骤，使用预测的HR帧来计算损失。L2损失的组合如下：LHRcontent =12N (||IHRt− ˆIHRt||2 +||IHRt− ˆIHRt||2).LLRwarp =12N (||ILRt− ˜IW arpt−1||2 +||ILRt− ˜IW arpt−1||2).Ltotal = βLHRcontent + γLLRwarp,(7)25470N0向前010向后0(5) 将从 t − 1 到 t的每个扭曲的LR帧与当前LR帧的L2距离进行惩罚，0N0向前010向后0(6) 总损失是HR损失和LR损失的总和，0其中 β 和 γ 是每个损失的权重。04. 实验与分析0在本节中，我们首先介绍了我们的实现细节和评估指标。然后，我们在基准数据集上与最先进的VSR模型进行了比较。此外，我们证明了我们的方法比基于去噪器和VSR模型的基准方法表现更好。我们还在真实世界的压缩YouTube视频上评估了COMISR模型。最后，我们展示了对三个新模块的消融分析和用户研究结果。04.1. 实现细节0数据集。我们使用REDS [41]和Vimeo[60]数据集进行训练。REDS数据集包含200多个用于训练的视频序列，每个序列有100帧，分辨率为1280×720。Vimeo-90K数据集包含约65k个用于训练的视频序列，每个序列有7帧，分辨率为448×256。这两个数据集之间的一个主要区别是REDS数据集包含从手持设备捕获的移动更大的图像。为了训练和评估COMISR模型，首先使用宽度为1.5的高斯核对帧进行平滑处理，并按4倍进行下采样。我们在Vid4[32]和REDS4 [41]数据集（clip# 000, 011, 015,020）上评估COMISR模型。所有测试序列都包含30帧以上。在下面的实验中，使用REDS数据集训练的COMISR模型在REDS4数据集上进行评估，使用了[53]中描述的相同设置。在所有其他实验中，使用Vimeo-90K进行训练COMISR模型。0压缩方法。我们使用H.264编解码器在不同的压缩率下使用最常见的设置（即不同的CRF值）。推荐的CRF值在18到28之间，默认值为23（尽管CRF值范围在0到51之间）。在我们的实验中，我们使用CRF值为15、25和35来评估视频超分辨率在不同压缩率下的效果。为了公平比较，当评估其他方法时，我们使用相同的0退化方法用于在压缩之前生成LR序列。最后，将这些压缩的LR序列输入VSR模型进行推理。0训练过程。对于每个视频帧，我们从小批量中随机裁剪128×128的补丁作为输入。每个小批量包含16个样本。第3节中描述的α、β和γ参数分别设置为1、20和1。模型使用第3.4节中描述的损失函数进行训练。我们使用Adam优化器[26]，其中β1 = 0.9，β2 =0.999。学习率设置为5×10-5。虽然我们的目标是训练用于VSR的COMISR模型，输入为压缩视频，但我们首先将未压缩的图像输入模型，在训练过程的最后20%中，以50%的概率随机添加压缩图像。使用FFmpeg编解码器进行压缩，CRF值在15到25之间随机选择。所有模型都在8个NVidiaTesla V100GPU上进行训练。更多细节可以在项目网站上找到。0评估指标。我们使用PSNR、SSIM和LPIPS[66]对视频超分辨率结果进行定量评估。对于YouTube视频的实验，我们只提供视频SR结果进行评估，因为没有可用的真实帧。04.2. 与现有技术的评估0我们将COMISR模型与FRVSR [45]、DUF [23]、EDVR[53]、TecoGan [3]、MuCAN [30]和RSDN[22]等现有VSR方法进行评估。其中三种评估方法基于循环模型，而其他三种使用时间滑动窗口（5到7帧之间）。在可用的情况下，我们使用原始代码和训练模型，否则实现这些方法。为了公平比较，LR帧的生成方式与已发表的工作描述相同。然后，将这些LR帧进行压缩，并输入超分辨率网络进行性能评估。对于Vid4数据集[32]，PSNR和SSIM指标在Y通道和RGB通道上进行测量，如表1所示。我们提供未压缩视频（原始序列）和不同压缩水平（CRF15、25、35）上的平均性能。我们还报告了在CRF25下的单个序列性能。其他CRF因素的更多结果在补充材料中呈现。总体而言，COMISR方法在中高压缩率的视频上以PSNR为0.5-1.0db的优势超过其他所有方法。同时，在较低压缩的视频中，我们的方法表现良好（第2或第3名）。图3显示了两个序列中评估方法的一些结果。COMISR模型可以从LR帧中恢复更多细节，且压缩伪影更少。定量和视觉结果都表明COMISR方法在压缩视频上实现了最先进的结果。我们还将COMISR模型与REDS4数据集[41]上的最先进方法进行评估。与Vid4数据集不同，该数据集中的序列更长（100帧），帧间移动更大，更具挑战性。表2显示COMISR模型在REDS4数据集上的压缩视频上取得了最佳性能。图4显示了我们的方法能够从人行道上的砖块和建筑物上的窗户等地方恢复更多细节。众所周知，低级结构准确性（例如PSNR或SSIM）与高级 GT FRVSR DUF EDVR TecoGan MuCan RSDN COMISR25480图3. Vid4数据集上的定性评估结果，4×VSR。COMISR模型可以恢复更多的结构细节，如面部和边界，且伪影更少。放大以获得最佳视图。0图4. REDS4数据集上的视频质量定性结果4×VSR。COMISR模型在细节纹理方面的质量要好得多，且伪影更少。图像的亮度已经调整以供查看。放大以获得最佳视图。0结果表明，COMISR方法在压缩视频上实现了最先进的结果。我们还将COMISR模型与REDS4数据集[41]上的最先进方法进行评估。与Vid4数据集不同，该数据集中的序列更长（100帧），帧间移动更大，更具挑战性。表2显示COMISR模型在REDS4数据集上的压缩视频上取得了最佳性能。图4显示了我们的方法能够从人行道上的砖块和建筑物上的窗户等地方恢复更多细节。众所周知，低级结构准确性（例如PSNR或SSIM）与高级0感知质量。换句话说，这种低级结构准确性不能很好地表征感知失真[ 2 ]。我们还使用LPIPS [ 66]进行性能评估。表3显示了在Vid4和REDS4数据集上使用LPIPS指标的评估结果。总体而言，COMISR模型在使用LPIPS指标评估时在两个数据集上表现良好。0我们在项目网站上展示了视频超分辨率结果。虽然在LR帧中无法轻易观察到压缩伪影，但在超分辨率之后，这些伪影会被放大并容易观察到。对于压缩视频，COMISR模型能够有效地从输入视频中恢复更多细节并减少伪影。FRVSR [45]0.05T2.53M21.55 / 0.63119.75 / 0.60625.40 / 0.57523.79 / 0.57224.11 / 0.62524.49 / 0.75126.21 / 0.76425.22 / 0.81526.71 / 0.82025.22 / 0.81526.01 / 0.76624.38 / 0.75324.33 / 0.65522.59 / 0.64022.05 / 0.48220.35 / 0.469DUF [23]0.62T5.82M21.16 / 0.63419.40 / 0.58823.78 / 0.63222.25 / 0.59422.97 / 0.60321.30 / 0.56724.33 / 0.77122.66 / 0.73727.33 / 0.83225.79 / 0.81424.40 / 0.77322.81 / 0.74423.06 / 0.66021.41 / 0.62121.27 / 0.51519.61 / 0.468EDVR [53]0.93T20.6M21.69 / 0.64819.87 / 0.59925.51 / 0.62623.90 / 0.58624.01 / 0.60622.27 / 0.57026.72 / 0.78624.89 / 0.75427.35 / 0.82625.85 / 0.80826.34 / 0.77124.67 / 0.74024.45 / 0.66722.73 / 0.62722.31 / 0.53420.62 / 0.487TecoGan [3]0.14T5.05M21.34 / 0.62419.55 / 0.60125.26 / 0.56123.65 / 0.55923.50 / 0.59221.73 / 0.57325.73 / 0.75624.40 / 0.74325.88 / 0.79424.34 / 0.78825.25 / 0.74123.61 / 0.72823.94 / 0.63922.22 / 0.62421.99 / 0.47920.28 / 0.466MuCAN [30]-21.60 / 0.64319.81 / 0.59725.38 / 0.62023.78 / 0.58123.93 / 0.59922.20 / 0.56426.43 / 0.78224.72 / 0.75027.26 / 0.82225.56 / 0.80125.85 / 0.75324.22 / 0.72524.34 / 0.66122.63 / 0.62322.26 / 0.53120.57 / 0.485RSDN [22]0.13T6.19M21.72 / 0.65019.89 / 0.59925.28 / 0.61523.68 / 0.57523.69 / 0.59121.94 / 0.55425.57 / 0.74723.91 / 0.71127.92 / 0.85126.43 / 0.83526.58 / 0.78124.88 / 0.75024.06 / 0.65022.36 / 0.61021.29 / 0.48319.67 / 0.437COMISR0.06T2.63M22.81 / 0.69520.39 / 0.66725.94 / 0.64024.30 / 0.63324.66 / 0.65622.88 / 0.63826.95 / 0.79925.21 / 0.78827.31 / 0.84025.79 / 0.83526.43 / 0.79124.76 / 0.77824.97 / 0.70123.21 / 0.68622.35 / 0.50920.66 / 0.494FRVSR [45]recur(2)24.25 / 0.63125.65 / 0.68728.17 / 0.77024.79 / 0.69428.55 / 0.83827.61 / 0.78425.72 / 0.69623.22 / 0.579DUF [23]723.46 / 0.62224.02 / 0.68625.76 / 0.77323.54 / 0.68928.63 / 0.82525.61 / 0.77524.19 / 0.69222.17 / 0.588EDVR [53]724.38 / 0.62926.01 / 0.70228.30 / 0.78325.21 / 0.70831.08 / 0.88028.72 / 0.80525.98 / 0.70623.36 / 0.600TecoGan [3]recur(2)24.01 / 0.62425.39 / 0.68227.95 / 0.76824.48 / 0.68627.63 / 0.81526.93 / 0.76825.46 / 0.69022.95 / 0.589MuCAN [30]524.39 / 0.62826.02 / 0.70228.25 / 0.78125.17 / 0.70730.88 / 0.87528.67 / 0.80425.96 / 0.70523.55 / 0.600RSDN [22]recur(2)24.04 / 0.60225.40 / 0.67327.93 / 0.76624.54 / 0.67629.11 / 0.83727.66 / 0.76825.48 / 0.67923.03 / 0.579COMISRrecur(2)24.76 / 0.66026.54 / 0.72229.14 / 0.80525.44 / 0.72429.68 / 0.86828.40 / 0.80926.47 / 0.72823.56 / 0.599methodFRVSRTecoGanDUFEDVRMuCANRSDNCOMISRVid44.1053.2454.0104.3963.9854.2923.689REDS44.1883.6434.2234.0754.0854.4233.384trice25490FLOPs CRF 25 无压缩压缩结果模型 #Param. calendar city foliage walk - CRF15 CRF25 CRF350表1.对压缩后的Vid4视频进行性能评估。每个条目的第一行是Y通道上的PSNR/SSIM，第二行是RGB通道上的PSNR/SSIM。每列的Y通道上的最佳方法以粗体和阴影突出显示。FLOPs基于Vid4 4×VSR进行报告。FRVSR的FLOPs和#Param基于我们的实现。0CRF 25 无压缩压缩结果模型 #Frame clip 000 clip 011 clip 015 clip 020 - CRF15 CRF25 CRF350表2.对压缩后的REDS4数据集进行性能评估。每个条目显示RGB通道上的PSNR/SSIM。每列的最佳方法以粗体和阴影突出显示，recur(2)表示使用2帧的循环网络。0表3. 使用LPIPS [ 66]指标进行性能评估（数值越低越好）。我们的方法在更具挑战性的REDS4数据集上表现良好。0COMISR模型在高度压缩（例如CRF35）的视频上表现不佳。一些失败案例是由于严重压缩导致关键细节丢失，无法超分辨帧。其他失败案例是由于视频中的极大运动引起的。04.3. 在去噪视频上的VSR0如图3和图4所示，COMISR模型从压缩视频中生成具有更少伪影的高质量帧。一个有趣的问题是，如果先对压缩视频进行去噪，最先进的方法是否能够获得更好的结果。因此，我们使用最先进的压缩视频质量方法STDF[6]进行评估。使用第4.2节中描述的设置，我们以CRF25压缩视频帧。然后使用STDF方法去除压缩伪影并生成增强的低分辨率帧作为最先进的VSR方法的输入。表4显示了通过STDF方案去噪的定量结果。0仅VSR 视频去噪 + VSR模型 Y通道 RGB通道 Y通道 RGB通道0EDVR 24.45 / 0.667 22.73 / 0.627 22.56 / 0.581 20.94 / 0.541 TecoGan 23.94 /0.639 22.22 / 0.624 22.25 / 0.541 20.63 / 0.530 MuCan 24.34 / 0.661 22.63 /0.623 22.47 / 0.577 20.87 / 0.538 RSDN 24.06 / 0.650 22.36 / 0.610 22.19 /0.560 20.59 / 0.5200COMISR 24.97 / 0.701 23.21 / 0.686 - -0表4.在使用Vid4数据集之前，对压缩帧应用视频去噪器的消融研究。每个条目显示了Y通道或RGB通道上的PSNR/SSIM结果。COMISR模型在使用STDF [6]去噪器的情况下优于最先进的VSR方法。0使用STDF方案去噪的视频上，COMISR模型与最先进的VSR方法之间的比较。我们注意到，所有评估方法在去噪的低分辨率帧上的性能都下降。这可能是因为单独的去噪步骤与从VSR方法学习到的退化核不兼容。此外，正如第4.5节中讨论的那样，仅使用压缩图像进行模型训练并不能获得良好的VSR性能。这些结果表明，COMISR模型能够从压缩视频中高效地恢复更多细节，并在去噪视频上优于最先进的模型。04.4. 对真实世界压缩视频的评估0大多数网络上的视频都经过压缩，帧可以通过专有方法进行预处理。0%25%50%75%100%25500GT MuCan RSDN TecoGan COMISR0图5. 从YouTube下载的具有360像素分辨率的REDS4视频的4倍超分辨结果。放大以获得最佳视图。0我们使用REDS4测试数据集中的视频进行实验，因为图像分辨率更高。我们首先从原始帧生成非压缩视频，然后将其上传到YouTube。这些视频以不同的分辨率进行编码和压缩以供下载。在我们的设置中，上传的视频分辨率为1280×720像素。在YouTube上可供下载的分辨率有480p、360p、240p和144p。在以下实验中，我们使用YouTube-dl[64]以360p的分辨率下载视频。我们在这些由YouTube的专有方法压缩的视频上评估了三种最先进的方法，包括MuCAN [30]、RSDN [22]和TecoGan[3]。图5显示了评估方法的VSR结果，其中COMISR模型产生了更好的视觉效果并且有更少的伪影。04.5. 消融研究0我们分析了COMISR模型中每个模块的贡献。我们从第3节中描述的循环模块作为基准模型开始。类似于FRVSR[45]，循环模型计算相邻帧之间的光流，将上一帧变形到当前帧，并对帧进行上采样。我们进行了两组消融研究，使用或不使用压缩图像，以展示每个模块的有效性（见第4.1节）。表5显示了消融研究的结果，我们逐步将每个模块添加到基本的循环模型中。对于每个设置，模型在使用和不使用压缩图像的情况下进行训练，然后在原始和压缩帧上进行评估。结果表明，每个模块都有助于在仅使用压缩图像或压缩和非压缩图像的训练过程中实现额外的性能提升。我们注意到，在训练过程中添加一些非压缩图像对于在压缩视频上获得最佳结果是重要的。完整的COMISR模型在所有设置中表现最佳。例如，表5中的第四行，Vid4上的非压缩PSNR下降了0.17 dB。04.6. 用户研究0为了更好地评估生成的高分辨率视频的视觉质量，我们使用Amazon MTurk [21]进行用户研究。0无压缩 Aug Aug CRF15-25 组件无压缩 CRF25 无压缩 CRF250Recur 26.61 / 0.808 23.97 / 0.634 26.53 / 0.815 24.23 / 0.648 Recur + a 27.16 /0.837 24.24 / 0.650 26.64 / 0.818 24.74 / 0.686 Recur + ab 27.45 / 0.844 24.27/ 0.649 27.27 / 0.838 24.92 / 0.696 Recur + abc 27.48 / 0.845 24.31 / 0.65027.31 / 0.840 24.97 / 0.7010表5. COMISR模型在Vid4上三个模块的消融实验：(a)双向循环模块，(b) 细节感知流估计，(c)Laplacian增强模块。每个条目显示Y通道上的PSNR/SSIM值。0在Vid4 [32]和REDS4[41]数据集上进行评估COMISR模型与所有其他方法使用CRF25压缩的视频。在每个实验中，将COMISR模型和其他方法生成的两个视频并排呈现，并询问每个用户“哪个视频看起来更好？”对于Vid4和REDS4数据集，所有测试视频都用于用户研究。对于每个视频对，我们分配给20个不同的评分者。聚合结果如图6所示。0FRVSR DUF TecoGan EDVR MuCAN RSDN0图6.Vid4和Reds4上的用户研究结果。结果显示用户对COMISR优于其他所有比较方法。05. 结论0在这项工作中，我们提出了一种基于压缩信息的视频超分辨率模型，该模型在压缩视频上具有鲁棒性和有效性。在一个高效的循环网络框架内，我们设计了三个模块，以有效地从压缩帧中恢复更多细节。我们对具有各种压缩因子的具有挑战性的视频进行了大量实验。所提出的COMISR模型在压缩视频上在定性和定量上达到了最先进的性能，同时在未压缩视频上表现良好。25510参考文献0[1] Saeed Anwar, Salman Khan, and Nick Barnes.超分辨率的深度研究：一项调查. ACM Computing Surveys,2020. 20[2] Yochai Blau and Tomer Michaeli. 感知-失真权衡. 在CVPR,2018. 60[3] Mengyu Chu, You Xie, Jonas Mayer, Laura Leal-Taixe, andNils Thuere

下载后可阅读完整内容，剩余1页未读，立即下载