基于内容自适应超分辨率的高效视频压缩

23 浏览量更新于2023-10-14 收藏 1.23MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

4521基于内容自适应超分辨率的高效视频压缩Mehrdad Khani，Vibhaalakshmi Sivaraman，MohammadAlizadeh{khani，vibhaa，alizadeh}@ csail.mit.edu摘要视频压缩是互联网视频传输的关键组成部分。最近的研究表明，深度学习技术可以与人类设计的算法相媲美或优于人类设计的算法，但这些方法的计算和功率效率明显低于本文提出了一种新的方法，增强现有的编解码器与一个小的，内容自适应的超分辨率模型，显着提高视频质量。我们的方法SRVC将视频编码成两个比特流：（i）内容流，通过用现有编解码器压缩下采样的低分辨率视频产生，（ii）模型流，其将周期性更新编码到针对视频的短片段定制的轻量级超分辨率神经网络SRVC通过使解压缩的低分辨率视频帧通过（时变）超分辨率模型来解码视频我们的研究结果表明，为了实现相同的PSNR，SRVC在慢速模式下需要H.265的每像素比特数的20%，以及最近基于深度学习的视频压缩方案DVC的每像素比特数的3%。SRVC在NVIDIA V100 GPU上以每秒90帧的速度运行。1. 介绍近年来，视频流量急剧增加。据预测，到2022年，视频将占所有互联网流量的80%以上[6，1]。视频传输占用大量带宽，在疫情爆发的最初几个月等高峰期，Netflix和Youtube被迫限制视频质量以减少开销[2，3]。此外，虽然移动设备目前支持1080p分辨率，但蜂窝网络在世界大部分地区仍然受到低带宽和频繁波动的困扰。因此，有效的视频压缩，以减少带宽消耗，而不损害质量比以往任何时候都更加重要。虽然多年来对视频内容的需求有所增加，但用于压缩和传输视频的技术在很大程度上保持不变。比如说AP-将离散余弦变换（DCT）应用于视频块并计算运动矢量[46，18]，这是几十年前开发的，今天仍在使用。即使是最新的H.265编解码器通过引入可变块大小来改进这些相同的想法[7]。最近改进视频压缩的努力[35，10，38]已经转向深度学习，以捕获视频压缩管道组件之间的复杂关系。这些方法在优于当前编解码器方面取得了适度的成功，但它们的计算效率和功率效率要低得多。我们提出了SRVC，一种新的方法，特别是有用的蜂窝网络和低比特率的情况下，将现有的压缩算法与一个轻量级的，内容自适应的超分辨率（SR）神经网络，显着提高性能，低计算成本。SRVC将输入视频压缩成两个比特流：内容流和模型流，每个比特流具有可以独立于另一个流控制的单独比特率内容流依赖于诸如H.265的标准编解码器来以低比特率传输低分辨率帧。模型流对时变SR神经网络进行编码，解码器使用该时变SR神经网络来提升从内容流导出的经解压缩的帧的质量SRVC使用模型流来动态地使SR网络专门用于视频的短每隔几秒）。这使得可以使用小型SR模型，仅由几个卷积和上采样层组成应用SR来提高低比特率压缩视频例如，AV1 [16]具有一种模式（通常用于低比特率设置），该模式以低分辨率编码帧并在解码器处应用上采样器。虽然AV1依赖于标准双三次[26]或双线性[52]插值进行上采样，但最近的提议表明，学习的SR模型可以显著提高这些技术的质量[33，20]。然而，这些方法依赖于通用SR神经网络[45，53，25]），这些神经网络被设计为在广泛的输入图像中进行泛化这些模型很大（例如，数以百万计的参数），并且即使在高端GPU上通常也只能每秒重建几帧[31]。但在许多用例中，泛化按面值-4522Original H.265 1080p（slow）H.264 1080p（slow）H.265 480p +双三次上采样H.265 480p +通用SRH.265 480p +单镜头自定义。深度视频压缩（DVC）SRVC（我们的）图1：在Xiph [9]数据集中比较Sita Sings the Blues视频的DVC [34]以其最低可用比特率编码，在该示例中需要4.97Mbps特别地，我们经常可以提前访问正在被压缩的视频我们的目标是通过将SR模型专门化（从某种意义上说，过度拟合）到短视频片段，从而大大降低SR模型在此类应用中的复杂性为了使这个想法工作，我们必须确保模型流的开销很低。即使使用我们的小 SR 模型（具有 2.22M 参数），每隔几秒更新整个模型也会消耗高比特率，从而取消降低内容流分辨率所带来的任何压缩益处SRVC通过仔细选择小部分（例如，1%）的参数更新视频的每个片段，使用我们的主要发现是，在视频过程中以这种方式适配的SR神经网络可以提供这样的质量提升，即包括模型流以及压缩视频比将整个比特流分配给内容更有效总之，我们做出以下贡献：• 我们提出了一种新的双流的方法来视频流，结合了随时间变化的SR模型与压缩的低分辨率视频产生的标准编解码器。我们开发了一个坐标下降的方法来更新只有一小部分的模型参数，为每几秒钟的视频段与低开销。• 我们提出了一个轻量级的模型，空间自适应内核，专门为特定内容的SR。我们的模型实时运行，仅需11ms（90fps）以在NVIDIA V100 GPU上生成1080p帧。相比之下，DVC [35]在相同的分辨率下需要100毫秒。• 我们表明，在低比特率制度，以实现相同的PSNR，SRVC只需要20%的比特率为H.265在其缓慢的编码模式1，和3%的DVCSRVC图1显示了在竞争性或更高的结合力下比较SRVC与这些基线方法的视觉示例。我们的数据集和代码可在https：//github.com/AdaptiveVC/SRVC.git2. 相关工作标准编解码器。先前的工作已经广泛地研究了视频编码器/解码器（编解码器），诸如H.264/H.265 [40，42]、VP 8/VP 9 [12，37]和AV 1 [16]。这些编解码器依赖于手工设计的算法，该算法利用视频像素中的时间和空间冗余，但不能适应特定的视频。现有的编解码器在用于离线压缩的慢速模式下使用时特别有效尽管如此，SRVC的像AV1这样的一些编解码器提供了以低分辨率编码和使用双三次插值进行上采样的选项[26]。但是，正如我们在§4中所示，SRVC1据作者4523×个联系我们联系我们编码解码... 01100110内容流原始帧解码帧... 10101001模型流Diff2 Diff1初始化Values2，Values1，Values0，Indices2 Indices1 Indices0模型解码器超分辨率上采样器内容解码器（H.265）内容解码器（H.265）型号编码器内容编码器（H.265）下采样图2：SRVC将视频编码为两个码流。内容流使用现有编解码器对下采样的低分辨率视频进行编码。模型流将定期更新编码到为视频的短片段定制的轻量级超分辨率神经网络在视频质量上与双三次插值相比。超分辨率。最近对单图像SR [53，25]和视频SR [33，20，22，30]的研究已经产生了各种基于CNN的方法，这些方法优于经典的插值方法，如双线性[52]和双三次[26]。加速这些SR模型已经引起了人们的兴趣，特别是由于它们在更高分辨率下的高计算复杂性[54]。我们的设计采用子像素卷积的思想[41]，保持所有层的空间维度与低分辨率输入相同，直到最后一层。融合来自多个视频帧的信息已被证明可以进一步改进单图像SR模型[44]。然而，为了隔离使用内容自适应SR模型的影响，我们专注于单图像SR在这项工作中。学过视频压缩。端到端视频压缩技术[38，34，10，51，50]遵循类似于标准编解码器的压缩流水线，但用基于DNN的替代方案替换一些核心组件，例如，用于运动补偿的流估计器[19]和用于残差压缩的自动编码器[21]。然而，实时运行这些模型具有挑战性。例如，即使[38]中的模型明确设计用于低延迟视频压缩，但它在 NVIDIA Tesla V100上仅解码10 帧每秒（fps）的640 480分辨率[38]。相比之下，H.264和H.265在相同的分辨率下每秒处理几百此外，现有的学习视频压缩方案被设计为泛化而不是针对特定视频。很少有方法提出过拟合[23]和仅更新SR模型的特定层[29]，但还没有达到提出整体解决方案和广泛评估的程度。在这项工作中，我们表明，增强现有的编解码器与内容自适应SR实现更好的质量和压缩比端到端的学习压缩方案。轻量型。用于手机和计算受限设备的轻量级模型已经手动设计[39]并使用神经架构搜索技术[55，49]。模型量化和权重调整[24，32，14，17]有助于减少计算量模型的占用空间，精度损失较小。尽管这些优化的承诺，这些轻量级模型的准确性低于国家的最先进的解决方案。SRVC是这种优化技术的补充，并将受益于它们。3. 方法图2显示了SRVC的压缩流水线的概述。SRVC将视频压缩成两个比特流：1. 内容流：编码器在每个维度上以因子k对输入视频帧进行下采样（例如，k=4）以使用基于区域的下采样来生成低分辨率（LR）帧然后，它使用现成的视频编解码器对LR帧进行编码以生成内容比特流（我们的实现使用H.265 [7]）。解码器使用相同的编解码器对内容流进行解压缩以重构LR帧。由于视频编解码器不是无损的，因此解码器处的LR帧将不完全匹配编码器处的LR帧。2. 模型流：第二比特流对SR模型进行编码，解码器使用该SR模型对每个经解码的LR帧进行上采样。我们将输入视频分割成N个固定长度的片段，每个片段为τ秒长（例如，τ= 5）。对于每个段t0，…Nl，我们在编码期间使SR模型适应该片段中的帧。具体地，编码器训练SR模型以将片段内的LR解压缩帧映射到高分辨率帧。令Θt表示针对段t获得的SR模型参数。模型自适应是顺序的：段t的训练过程将模型参数初始化为Θt-1。模型流编码序列Θt，其中t0，… N 1. 它以完整模型Θ0开始，然后对每个后续模型更新的参数变化进行编码，即，∆t=Θt−Θt−1。解码器每τ秒更新一次参数，使用最后一个模型参数Θt−1来找到Θt=Θt−1+∆t。4524×个×个·×个ΣΣ||模型流向压缩比特流增加开销。为了减少这种开销，我们开发了一个非常适合特定于内容的SR的小模型（§3.1），并设计了一种算法，该算法通过仅训练对每个片段中的SR质量具有最高影响的一小部分模型参数来显著减少模型自适应的开销（§3.2）。3.1. 轻量级SR模型架构现有的SR模型通常使用大而深的神经网络。常规Conv块空间到批次（提取图像块）批次维度自适应卷积块网络（例如，典型的EDSR具有跨越超过64层的43M个参数[31]），使得它们难以在实时视频解码器中使用。此外，将大型DNN模型适配于特定视频内容并将其发送到解码器将导致高开销。图3：SRVC轻量级SR模型架构。损失一个n|Ft|L（Θ）=||Y−X||不我们提出了一个新的轻量级架构，保持这个模型小而浅，但在n|Ft|ij iji=1j =1基于内容的自适应（§4.2）。我们的模型受到经典算法的启发，如双三次上采样[27]，其通常仅使用一个卷积层和一个固定的内核来对整个图像进行上采样它使用这种基本的架构，但取代了固定的内核与空间自适应内核，是定制的输入帧的不同区域我们的模型将每个帧划分为补丁，并使用对补丁进行操作的浅层CNN来为每个补丁生成不同的（空间自适应）内核（图2）。（3）第三章。更正式地，该模型首先将输入帧分割成大小相等的P/P像素块（例如，像素块）。P=5像素）使用普通的空间到批处理操作。对于每个补丁，特定于片块的块（图1B中的自适应卷积块）3）使用双层CNN计算具有3个输入和F个输出通道（27个F参数）的3 × 3卷积核，并将该核（粉红色框）应用于补丁。自适应卷积块的前向传递具有输入块x∈RP×P ×3和输出特征y∈RP×P ×F总结如下：w=f（x），y= σ（w * x）。我们使用两层CNN在我们的架构中对f（）进行建模。最后，我们重新组装特征补丁（batch-to-space），并使用另一个双层CNN计算输出，然后使用像素混洗器（depth-to-space）[41]将内容带到更高的分辨率。所有卷积的内核高度和宽度都为3，除了使用内核大小为5的常规块的第一层。3.2. 模型适配和编码训练算法我们使用SR模型的输出和对应的高分辨率帧（编码器的输入）之间的L2损失形式上，我们定义其中，Ft是第t个片段中的帧的数量，每个片段具有n个像素，并且Y ij和X ij分别表示解码的高分辨率输出帧和原始高分辨率输入帧的第j个帧中的第i个像素的值。在训练过程中，我们在每个维度上随机裁剪样本的一半大小我们使用Adam opti- mizer [28]，学习率为 0.0001 ，第一和第二动量衰减率为 0.9 和0.999。为了降低模型流比特率，我们只更新跨视频片段的模型参数的一小部分。我们的方法是只更新那些对模型精度影响最大的参数。具体地，我们如下更新每个新段的具有最大梯度幅度的模型参数首先，我们在新片段的开头保存模型的副本，并对新片段中的所有帧执行一次迭代训练。然后，我们选择在该迭代中具有最大变化幅度的参数的分数η，并将模型参数重置为开始保存的副本。我们仅对选定的参数应用Adam更新，并丢弃模型其余部分的更新（保持这些参数固定）。对模型流进行编码。为了进一步压缩模型流，我们仅在每次更新时传输对模型参数的更改。我们通过记录索引和模型参数的值的相关联的变化来将模型更新编码到比特流中（图1）。2）的情况。SRVC的模型编码是无损的：编码器和解码器在每次更新期间都更新相同的参数子集。为了更新具有M个float16参数的模型的参数的分数η，我们需要至多（16+log（M））的平均比特率。ηM/τ表示增量和指数每τ秒。例如，模型尺寸M= 2。22百万参数（F =32，参见表2），τ=10秒，并且η=0。01，我们只需要82 Kbits/sec来编码生成1080 p视频所需的模型流。把这个Conv内核空间到批次自适应卷积批到空间正则卷积PixelShuffler x4Conv2DReLUConv2dConv2DReLUConv2d池化Conv2d24525∼×个从数字角度来看，Netflix建议在1080 p分辨率下的带宽为5 Mbits/sec [4]。可以使用有损压缩技术或通过基于场景变化动态地改变η训练1080p分辨率的SR模型，并将更新编码到模型流中，对于我们未优化的实现，每分钟视频的价值大约需要12分钟。然而，考虑到我们的轻量级模型的计算开销很小，我们在五个同时进行的模型训练（编码）过程之间共享了一个V100 GPU，而不会显著减慢任何过程。因此，在V100 GPU上编码的总吞吐量为每分钟内容约2.5分钟的训练我们认为这个持续时间是可行的离线压缩的情况下，视频提供商提供的观看时间提前。我们相信，也存在利用标准技术（例如，在采样帧而不是所有帧上训练）以及进一步的工程化。我们将这些机会的探索留给未来的工作。4. 实验4.1. 设置数据集。像JCT-VC [15]，UVG [36]和MCL-JCV [43]这样的视频数据集，每个视频仅由几百帧（10秒）组成，太短，无法评估SRVC的内容自适应SR。因此，我们在由来自Vimeo的28个可下载视频（短片）和来自Xiph数据集的4个全序列视频组成的自定义数据集上训练和测试SRVC的功效[9]。我们将所有视频修剪为10分钟，并使用基于区域的插值将其从原始4K分辨率和MPEG-4格式调整为RAW格式的1080 p分辨率[47]。我们使用生成的1080p帧作为流水线中的高分辨率源帧我们在H.264/H.265上以不同的质量或恒定速率因子（CRF）重新编码每个视频我们还使用区域插值来将视频下采样到480p，并使用H.265在不同的CRF下对低分辨率（LR）视频进行编码然后训练SRVC中的SR模型以学习从特定CRF处的每个LR视频到其最佳质量的原始1080p视频的映射。基线。我们比较以下方法。前四个仅使用内容流，而接下来的三个同时使用最后一种方法是端到端神经压缩方案。• 1080p H.264/H.265：我们使用ffmpeg和libx 264/libx265编解码器使用慢速预设在不同的CRF处对每个1080 p视频进行重新编码。• 480p H.265 + 双三次上采样：我们使用ffmpeg 和libx265编解码器对1080p原始图像进行下采样。使用区域插值和慢速预设，在不同的CRF上将最终视频转换为LR 480p。这种方法的比特率仅来自其内容流：使用H.265编码的下采样的480p帧。我们使用双三次插值将480p视频上采样回1080p。这将比特率降低与仅以较低分辨率编码隔离。• 480p H.265 +通用SR：代替双三次上采样，我们使用更复杂的基于DNN的超分辨率模型（具有16个残差块的EDSR [ 31 ]）将480p帧上采样到1080p。上采样对于每个帧花费大约50ms（比SRVC差大约5）。我们使用一个预先训练好的检查点，该检查点是在一个通用的图像语料库上训练的[11]。由于我们期望所有的设备能够预取这样的模型，这种方法只有一个内容流在480p编码使用H.265。因此，其每像素位数值与双三次情况相同• 480p H.265 +一次拍摄定制：我们评估了一个版本的SRVC，它使用了一个轻量级的SR模型（§ 3.1），而没有模型自适应过程。为此，我们使用完整的1080p视频训练我们的SR模型一次（一次），并在任何LR内容之前的开始处将其编码在模型流中。该方法的内容流包括480p H.265视频，而模型流包括针对整个视频持续时间定制的单个初始模型。模型的开销在整个视频上被分摊，并且在计算总的每像素比特值时被添加到内容比特率• 480p H.265 + SRVC：我们评估SRVC，它使用与单次定制相同的初始SR模型，但定期适应视频的最近5秒片段。为了训练该模型，我们使用来自视频片段内的每个参考帧的随机裁剪（每个维度中的帧大小的一半）。SRVC的内容流依赖于标准H. 265。另一方面，模型流每5秒更新一次，并且是COM-用我们的梯度引导策略，这只会对每个视频片段中具有最大梯度的那些参数的变化进行编码（§3.2）。为了计算每像素的总比特数，我们将模型流的比特率（如§ 3.2中所述计算）添加我们还将完整发送初始模型的开销添加到模型流• DVC：深度视频压缩[35]的官方检查点[5]，一种基于端到端神经网络的压缩算法。为了评估DVC，我们计算PSNR和SSIM度量，并使用Lu等人的“PSNR和SSIM度量”。s[35]估计器，以在四个不同的比特率-失真折衷操作点（λ∈ {256，512，1024，2048}）。模型和培训程序。我们的模型使用32个输出4526∼图4：在Xiph数据集的三个长视频上，不同方法在视频质量和每像素比特数之间的权衡。具有内容自适应流的SRVC将比特率消耗降低到当前编解码器的16%和DVC等端到端压缩方案的2%。虽然在视频质量上与SRVC相当，但通用SR方法不实时运行。自适应卷积块中的特征通道，导致222万个参数。然而，只有1%的数据被模型流更新，而且每5秒更新一次。我们改变输出特征通道的数量，模型参数更新的分数，以及更新间隔，以了解其对SRVC的性能的影响度量和颜色空间。我们在解码器的输出处（在上采样之后）跨所有帧计算平均峰值信噪比（PSNR）和结构相似性我们报告PSNR的基础上的均方误差在视频中的所有像素（在所有帧），其中像素的误差本身是计算的RGB空间。SSIM被计算为解码帧与其对应的高分辨率原始对应帧之间的平均SSIM。然而，由于在视频的过程中帧质量的变化可能对用户的体验具有显著影响我们使用ffm-peg 在1080 p 和480 p 下计算依赖于H.264/5的所有方法的内容比特率。对于除了视频帧之外还流式传输模型的方法，我们基于模型参数的总数、在每个更新间隔中流式传输的模型参数的分数以及更新的频率来计算模型流比特率（§3.2）。将内容流比特率和模型流比特率组合以计算单个每像素比特度量。请注意，我们的评估中的每像素位数范围比先前工作[35，10]中报告的结果低一个数量级，因为我们的方法是针对低比特率场景设计的，并且我们与H.264/5中的慢模式进行比较，这比“快速”和“中等”模式更有效。我们绘制了不同每像素位数的PSNR和SSIM度量以比较不同的方案。由于SRVC在解码帧被渲染给用户时对解码帧运行推断，因此其SR模型需要实时运行。为了评估其可行性，我们还比较了SRVC的方法BD-PSNR（dB）BD率（%）DVC-10.04 598.76H.264 1080 p（慢速）-1.38 45.5H.265 1080p（慢速）0 0H.265 480 p（慢速）+双立方+0.67-55.81H.265 480 p（慢速）+通用SR +2.61-75.31 SRVC（我们的）+3.41-80.09表1：Xiph数据集上的不同方法相对于H.265 1080 p（慢）的BD-PSNR和BD-Rate4.2. 结果压缩性能。图1示出了对于类似的每像素比特值的不同方案的视觉比较。对于该图中的DVC，我们示出了可用的最低比特率模型的结果，其最终使用4.97Mbps，这显著大于该示例中其他方案为了比较不同方法在宽范围的每像素比特值上提供的压缩，我们分析了图中三个长Xiph [9]视频上通过不同方法实现的PSNR和SSIM。4.第一章选项卡. 图1总结了相同实验的BD速率和BD-PSNR [13]度量。注意，每像素比特度量捕获内容的贡献和使用SR的模型流的那些方法的模型。我们不报告单次定制的比特率失真度量，因为其PSNR几乎与H.265重叠。参见图4，SRVC实现PSNR compara- ble到今天的H.265标准（在慢模式下）与少得多的比特每像素。例如，为了实现30dB的PSNR，SRVC仅需要每像素0.005比特，而H. 265和H.H.264编解码器，即使在最慢的设置下，也需要超过0.03位/像素。在BD-Rate和BD-PSNR术语中（表1），SRVC在相同比特率下相对于预设为1080p的H.265慢速平均实现了3.41dB的改进，或者仅需要20%的比特率来实现相同的PSNR。但是，单次自定义这是因为4527×个∼图5：Vimeo上28个视频的不同方法在视频质量和每像素比特数之间的权衡。为了实现30dB的PSNR，SRVC需要H.264和H.265在其慢速模式下所需的每像素比特数的10%和25%。SRVC值得注意的是，为了实现相同的PSNR，SRVC仅需要DVC [35]（端到端神经压缩方案）所需的每像素位数的3%。SRVC的SSIM与当前的编解码器相当，但对于相同级别的每像素比特，特别是在较高比特率下，比当前的编解码器好0.01-0.02。SRVC也优于通用SR方法（EDSR），分别为0.8dB和4.8%。BD-Rate和BD-PSNR度量。图4表明，对于给定的每像素比特水平，用通用SR模型增强的480p流在其PSNR和SSIM方面表现得与SRVC一样好怎么-图6：使用SRVC的PSNR和SSIM改进的CDF以0.002的每像素比特数跨越所有视频帧。来自SRVC的质量增强不仅限于跟随模型更新的那些帧。通常，典型的SR模型执行推理的速度太慢在单个帧上（在这种情况下大约慢5），使得它们不适合实时视频传输。为了评估可行方案在真实世界视频上的性能，我们评估了每像素比特数与视频质量权衡上28视频公开提供Vimeo.如图5所示，SRVC在针对给定的每像素比特值实现的PSNR上优于所有其他方法特别地，为了实现30dB PSNR，SRVC分别需要H. 265和H. 264所需的每像素比特数的25%和10%。一个关键takeaway从标签。1、数字。在图4和图5中，对于给定的比特率预算，SRVC实现比标准编解码器更好的这表明，在内容的基线比特率之外，分配比特以流式传输SR模型比将更多比特专用于内容更好。我们在图1中更详细地描述了模型和内容比率之间的这种权衡。7 .第一次会议。质量改进的稳健性。为了查看SRVC的改进是否来自于在模型更新后立即产生几个高质量帧，我们在图1中绘制了Meridian视频的所有帧的PSNR和SSIM值的CDF。六、我们比较方案的每像素位值为0.002。由于DVC [35]具有高得多的每像素比特，并且EDSR [31]在该视频上表现不佳，因此我们排除两种方法2。首先，我们注意到两个--2个数字。4、5和6覆盖不同的视频，因此，它们的结果#功能频道（F）8 16 32 64 128峰值信噪比（dB）38.4938.69 三十九点八七 39.89 39.90SSIM 0.9420.944 0.946 0.947 0.949推断时间（ms）7 9 11 17 25Num. 参数0.59M 1.14M 2.22M 4.39M 8.72M表2：SRVC的自适应卷积块中的输出特征通道的数量对NVIDIA V100 GPU上的视频片段的推理时间和质量度量的影响镜头定制和SRVC的性能优于其他方案。此外，这种改进发生在所有帧上，因为没有帧在SRVC下比在事实编解码器下更差。事实上，超过50%的帧在两个版本的SRVC的情况下经历PSNR的2输出特征通道数量的影响。由于SRVC在编码器处对帧进行下采样，然后将模型流式传输到解析解码帧的接收客户端，因此重要的是，SRVC足够快地执行推断以在具有有限处理能力的边缘设备上以视频的帧速率运行。观看者需要至少30fps才能获得良好的质量。因此，单个帧上的推断时间不能长于33ms。其实Meridian [8]视频的帧率是60fps，所以不能直接比较。4528×个∞图7：对于固定模型比特率，内容流的每像素比特变化的影响，反之亦然。增加低分辨率H.265内容流的每像素比特数可以提高PSNR，尤其是在低比特率下。在较高的内容比特率下，通过发送更多的模型参数来增加模型比特率进一步提高了PSNR。运行低等待时间推理甚至更为关键。为了评估SRVC的轻量级模型的实用性二、虽然增加F由于精细细节的更好重建而提高了PSNR和SSIM值，但这是有代价的在F=64和F=128的情况下，17ms和25ms的推断时间分别导致帧速率下降到输入60fps以下。此外，参数的数量增加到接近10M，这是模型周期性流式传输的陡峭数量因此，我们将SRVC的模型设计为使用32个输出特征通道，确保在单个帧上运行推理仅需11 ms。相比之下，EDSR通用SR模型在单个帧上执行推断慢约5。即使是端到端神经视频压缩方法DVC [35]也需要数百毫秒才能推断出1080p的单个帧。模型比特率和内容比特率之间的权衡在SRVC中。SRVC中专用模型和内容流的存在意味着每个流的比特率可以独立于其他流被控制，以实现不同的压缩水平。图7示出了当使用SRVC对Meridian视频进行编码时，针对固定模型比特率改变内容比特率的影响，反之亦然。内容每像素比特数通过改变480p H.265流的质量（CRF）而变化。相比之下，来自模型每像素位数的贡献由在每次更新期间传输的模型参数的分数控制。如所预期的，对于固定量的每像素模型比特（更新1%的模型参数），PSNR随着内容比特率的增加而改善。这是因为随着底层低分辨率H.265帧质量的提高，模型将其解析为1080p对应帧变得更容易。将内容比特率从最低质量水平的CRF 35（具有0.0014比特每像素）增加到CRF 20（具有0.003比特每像素）将PSNR从31dB提高到36dB。然而，增加内容的每像素比特数超过该值会导致PSNR的返回减少（也在图1B中示出）。（五）。以更高的质量更新间隔5 10 15 20∞峰值信噪比（dB）37.25 36.52 36.5736.45 35.32SSIM 0.92 0.91 0.91 0.91 0.91每像素位数0.006 0.003 0.002 0.0015表3：SRVC的模型更新间隔对模型更新所消耗的每像素比特和视频质量中的相关联增益的影响。我们发现，5秒的更新间隔罢工每像素位数和质量之间的良好的权衡。水平，Fig.7表明分配给模型的每像素比特数的适度增加导致PSNR的大幅改善。例如，适配10%的模型参数消耗每像素0.006比特，比适配0.5%的模型参数多6倍的每像素比特，但是导致从36.31dB到37.32dB的1dB的PSNR改善。SRVC更新间隔的影响。SRVC还可以通过改变执行对SR模型的更新的间隔来频繁的更新增加了模型比特率，但确保了更好的重建，因为模型是在与当前帧非常相似的帧上训练的。一个极端的时间间隔是一个更新的时间间隔，对应于一次性定制.选项卡.图3捕获了改变更新间隔对来自Meridian视频的解码帧的平均质量我们发现，5秒的更新间隔PSNR对于更新间隔的适度增加不会显著降低的事实表明在SRVC之上的进一步优化，其仅在剧烈的场景改变之后更新模型。5. 结论在这项工作中，我们提出了SRVC，一种方法，增强现有的视频编解码器与轻量级和内容自适应超分辨率模型。SRVC实现了视频质量与现代编解码器具有更好的compres-锡。我们的设计是利用超分辨率作为视频压缩技术的第一步。未来的工作包括进一步的优化，以确定帕累托边界的模型与内容比特率权衡、检测场景变化和优化更新间隔的更复杂的技术、以及更有效的轻量级超分辨率神经网络架构的设计。6. 致谢我们要感谢我们的匿名评论者和元评论者的宝贵反馈。这项工作得到了NSF资助CNS-1751009、CNS-1955370、CNS-1910676、思科研究中心奖、微软教师奖学金以及 MachineLearningApplications @CSAIL 和MIT.nano NC-SOFT项目的部分支持。4529引用[1] https://www.forbes.com/sites/markbeech/2020/03/25/covid-19-pushes-up-internet-use-70-streaming-more-than-12-first-figures-reveal/？sh=4335cc443104。一个[2] https://abcnews.go.com/Technology/netflix-youtube-throttle-streaming-quality-europe-coronavirus-forces/story？id=69754458。一个[3] https://www.theverge.com/2020/3/20/21188072/amazon-prime-video-reduce-stream-quality-broadband-netflix-youtube-coronavirus.一个[4] https://help.netflix.com/en/node/306网站。五个[5] https://github.com/GuoLusjtu/DVC/tree/master/TestDemo/VideoCodec/model. 五个[6] 《思科年度互联网报告（2018-2023）白皮书》。https://www.cisco.com/c/en/us/solutions/collateral/executive-perspectives/annual-internet-report/white-paper-c11-741490.html. 一个[7] x265 HEVC 编码器 / H.265 视频编解码器。得x265.org/余弦值. 第1、3条[8] Xiph数据集子午线视频。https://media.xiph的网站。org/video/derf/meridian/MERIDIAN_SHR_C_EN-XX_US-NR_51_LTRT_UHD_20160909_OV/。七个[9] Xiph.org视频测试媒体。https://media.xiph的网站。org/video/derf/. 二、五、六[10] Eirikur Agustsson 、 David Minnen 、 Nick Johnston 、Johannes Balle、Sung Jin Hwang和George Toderici。用于端到端优化视频压缩的尺度空间流。在IEEE/CVF计算机视觉和模式识别会议的论文集，第8503-8512页，2020年。一、三、六[11] Eirikur Agustsson和Radu Timofte。Ntire 2017挑战单幅图像超分辨率：数据集和研究。在IEEE计算机视觉和模式识别研讨会会议上，第126-135页五个[12] Jim Bankoski，Paul Wilkins，and Yaowu Xu. vp8的技术概述，一个开源的网络视频编解码器。在2011年IEEE多媒体和博览会国际会议上，第1-6页。IEEE，2011年。二个[13] 吉赛尔·比昂特加德rd曲线之间的平均psnr差异的计算。VCEG-M33，2001年。六个[14] Davis Blalock ， Jose Javier Gonzalez Ortiz ， JonathanFran- kle，and John Guttag.神经网络修剪的状态是什么？arXiv预印本arXiv：2003.03033，2020。三个[15] Frank Bossen等人常用测试条件和软件参考配置。在JCTVC-L1100，第12卷，2013中。五个[16] Yue Chen，Debargha Murherjee，Jingning Han，AdrianGrange ， Yaowu Xu ， Zoe Liu ， Sarah Parker ， ChengChen，Hui Su，Urvang Joshi，et al. av1视频编解码器核心编码工具概述。在2018年图片编码研讨会（PCS）中，第41-45页。IEEE，2018年。一、二[17] 余成，王铎，潘周，张涛。深度神经网络的模型压缩和加速综述。ArXiv，abs/1710.09282，2017。三个4530[18] 盖伊·科特，贝尔纳·埃罗尔，迈克尔·格兰特，和法奥齐·科森蒂尼.H. 263+：低比特率的视频编码。IEEE Transactions on Circuits and Systems for VideoTechnology，8（7）：849一个[19] Alexey Dosovitskiy、Philipp Fischer、Eddy Ilg、PhilipHausser、Caner Hazirbas、Vladimir Golkov、PatrickVan Der Smagt 、 Daniel Cremers 和 Thomas Brox 。Flownet：使用卷积网络学习光流。在IEEE计算机视觉国际会议的论文集，第2758-2766页，2015年。三个[20] Longtao Feng ， Xinfeng Zhang ， Xiang Zhang ，Shanshe Wang，Ronggang Wang，and Siwei Ma.一种基于双网络的高清晰度压缩视频超分辨率在PacificRim Conference on Multimedia，第600Springer，2018. 第1、3条[21] Amirhossein Habibian、Ties van Rozendaal、Jakub MTom-czak和Taco S Cohen。使用率失真自动编码器的视频压缩。在IEEE国际计算机视觉会议集，第7033三个[22] Muhammad Haris Gregory Shakhnarovich 和 NorimichiUkita。用于视频超分辨率的递归反投影网络。在IEEE/CVF计算机视觉和模式识别会议论文集，第3897- 3906页，2019年。三个[23] Gang He，Chang Wu，Lei Li，Jinjia Zhou，XianglinWang，Yunfei Zheng，Bing Yu，and Weiying Xie.一种使用过拟合恢复神经网络的视频在IEEE/CVF计算机视觉和模式识别研讨会会议记录中，第14

下载后可阅读完整内容，剩余1页未读，立即下载