分级质量递归增强视频压缩算法

120 浏览量更新于2023-10-25 收藏 971KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

6628基于学习的分级质量递归增强视频压缩算法任阳杨仁@ vision.ee.ethz.ch费边·门策mentzerf@vision.ee.ethz.chLuc Van Goolvangool@vision.ee.ethz.ch拉杜·蒂莫夫特timofter@vision.ee.ethz.ch瑞士苏黎世摘要本文提出了一种分层学习视频压缩（HLVC）方法，该方法具有三个分层质量层和一个递归增强网络。的帧PSNR（dB）我们的整个框架32（增强）我们的等级质量3130比特率BPP1.00.5在第一层中，通过具有最高质量的图像压缩方法进行压缩。使用这些帧作为参考，我们提出了双向深度压缩（BDDC）网络，以相对较高的质量压缩第二层。然后，第三层帧通过所提出的单运动深度压缩（SMDC）网络以最低质量压缩，该网络采用0层11 2 3 4 5 6 7 8 9 100单个运动图来估计多个帧的运动，从而节省用于运动信息的比特。在我们的深度解码器中，我们开发了加权递归质量增强（WRQE）网络，该网络将压缩帧和比特流作为输入。在WRQE的重流单元中，利用质量特征对记忆和更新信号进行加权，合理利用多帧信息进行增强。在我们的HLVC方法中，分层质量有利于编码效率，因为高质量信息分别促进了编码器和解码器侧的低质量帧的压缩和增强。最后，实验验证了我们的HLVC方法推进了最先进的深度视频压缩方法，并在PSNR和MS-SSIM方面优于x265的“低延迟P（LDP）非常快”模式。项目页面位于 https://github.com/RenYang-home/HLVC。1. 介绍近年来，互联网上的视频流已经变得越来越流行。根据思科预测[10]，视频产生了70%至80%的移动数据流量。高分辨率视频的比例也在迅速增加。为了能够在带宽有限的互联网上更有效地传输高质量的视频，有必要提高视频压缩机的性能图1.分层和率失真性能在我们的HLVC方法的每一层我们使用序列BlowingBubbles中的第一组图像（GOP）作为示例。锡永在过去的几十年中，提出了大量的视频压缩标准，如H.264 [37]，H.265 [28]等。然而，这些传统的编解码器是手工制作的，不能以端到端的方式进行优化。最近的研究在学习图像压缩，例如，[2，3]，显示了深度学习在提高率失真性能方面的巨大潜力。因此不足为奇看到越来越多的人对使用深度神经网络（DNN）压缩视频感兴趣[8，38，9，22，13]。例如，Luet al. [22]提出了使用光学光流进行运动补偿，并应用自动编码器来压缩光流和残差。然后，Habibian等人[13]提出了一种基于自回归先验的3D视频压缩自动编码器。在这些方法中，模型用一个损失函数训练并应用于所有帧。因此，它们无法生成分层质量层，其中高质量帧有利于其他帧的压缩和后处理。本文提出了一种分层学习视频压缩（HLVC）方法，它具有三个层次的质量层和一个递归增强网络。如图1所示，层1、2和3中的帧被压缩，层3帧层26629分别具有最高、中等和最低质量。分层质量的好处有两个方面：首先，提供高质量参考的高质量帧能够提高编码器侧的其它帧的压缩性能;其次，由于相邻帧之间的高度相关性，在解码器侧，可以通过利用高质量帧中的有利信息来增强低质量帧。增强提高了质量与比特率开销，从而提高了率失真率。例如，属于层3的图1中的帧3和8以低质量和比特率压缩。然后，我们的循环增强网络利用更高质量的帧，帧0和5。结果，帧3和8达到与层2中的帧5相当的质量，但是消耗少得多的比特率。因此，我们的HLVC方法实现了有效的视频压缩。在我们的HLVC方法中，我们使用图像压缩方法来压缩第1 层。对于第2层，我们提出了双向深度压缩（BDDC）网络，它使用第1层的压缩帧作为双向参考。然后，由于相邻帧的运动之间的相关性，我们建议通过我们的单运动深度压缩（SMDC）网络压缩第3层。SMDC网络应用单个运动图来估计若干帧之间的运动，以降低用于编码运动图的比特率。最后，我们在[42]的基础上开发了加权递归质量增强（WRQE）网络，其中递归单元通过质量特征进行加权，以合理地应用多帧信息进行递归增强。实验表明，我们的HLVC方法达到了最先进的性能在学习的视频压缩方法，并优于x265的“低延迟P（LDP）非常快”模式。此外，消融研究证明了我们的方法中每个网络的有效性。2. 相关作品深度图像压缩。在过去的几十年中，提出了大量的手工图像压缩标准，如JPEG [33]，JPEG 2000 [27]和BPG [4]。最近，DNN也已成功应用于提高图像压缩的性能[30，31，1，29，2，3，25，24、18、14、17]。Balle等[2，3]提出了用于图像压缩的各种端到端DNN框架，应用因子化先验[2]和超先验[3]密度模型来估计熵。后来，设计了分层先验[25]和上下文自适应[17]熵模型，以进一步提高率失真性能，并且它们优于最先进的传统图像编解码器。此外，图像压缩网络中也采用了回流结构[30，31，14]。深度视频压缩。在传统的图像压缩标准的基础上，MPEG [16]、H.264 [37]和H.265 [28]是标准的。为视频压缩而设计。近年来，深度学习在视频压缩中也引起了更多的关注。提出了许多方法[40，21，11，19，20]来通过DNN替换传统视频编解码器中的组件。例如， Liuet al. [21]在运动补偿的分数插值中使用DNN，[11，19，20]使用DNN来改进环路滤波器。然而，这些方法只能提高某个模块的性能，不能对视频压缩框架中的各个模块进行联合优化。最近，已经提出了几种端到端深度视频压缩方法[8，7，38，9，22，13]。具体而言，Wuet al. [38]提出了通过从参考帧插值来预测帧，并且应用[31]的图像压缩网络来压缩残差。2019年，Luet al. [22]提出了一种深度视频压缩（DVC）方法，该方法利用光流估计时间运动，采用两个自动编码器分别对运动和残差进行压缩。同时，在[9]中，时空能量压缩被添加到损失函数中以提高视频压缩的性能。后来，Habibianet al. [13]提出了率失真自编码器，它使用自回归先验的视频熵编码。在现有的方法中，只有Wuet al. [38]使用历史预测。然而，它们都没有学会以分层质量压缩视频，因此它们不能为其他帧的压缩提供高质量的参考，并且不能在多帧后处理中利用高质量的信息。增强压缩视频。由于有损视频压缩不可避免地导致伪影和质量损失，一些作品专注于提高压缩视频的质量[34，44，43，45，42，35，23]。其中，[34，44，43]是每次输入一帧的单帧方法。然后，Yanget al. [45，42]提出了多帧质量增强方法，其利用帧间相关性。此外，[23]中提出了深度卡尔曼滤波器，以减少压缩伪影。然而，上述方法都是作为传统视频编码标准的后处理模块而设计的.因此，在多帧方法[45，42]中，不能获得准确的帧质量，并且只能用预测误差来估计。在我们的HLVC方法中，每个帧的压缩质量被编码到比特流中，该比特流与压缩帧一起输入到我们的增强网络，使得增强由准确的帧质量指导，并作为整个视频压缩框架中的深度解码器的一个组件。6630图像压缩XC0加权复发性增强细胞X1加权复发性增强细胞X2单个运动深度压迫（SMDC）加权复发性增强细胞X3加权复发性增强细胞X4单个运动深度压迫（SMDC）加权复发性增强细胞双向深度压迫（BDDC）层3加权复发性增强细胞加权经常性第2层质量增强（WRQE）图像压缩加权递归增强细胞层110XCX105XCX54XC3XC2XC1XCx0的我图2.我们的HLVC方法的总体框架，它使用建议的BDDC和SMDC网络压缩具有三个层次质量层的视频，并在深度解码器中采用递归增强网络WRQE3. 所提出的方法3.1. 框架图2显示了我们在第一图像组（GOP）上的HLVC方法的框架，我们的框架对于每个GOP都是相同的。在HLVC中，帧被压缩为三个分级质量层，即层1、2和3，具有递减的质量。第一层。第一层（图2中的红色帧）采用图像压缩方法1进行编码，x C表示压缩帧。类似于传统编解码器中的“I帧”[37，28]，层1中的帧消耗最高的比特率，并且具有最高的压缩质量。因此，它们能够在视频编码和解码期间停止错误传播更重要的是，这些帧提供了高质量的信息，这有利于相邻帧的压缩和增强。第2层。然后，层2的帧（橙色帧在图2中）位于层 1 的两个帧的中间。我们提出了双向深度压缩（BDDC）网络来压缩第2层。我们的BDDC网络将来自第1层的先前和即将到来的压缩帧作为双向参考。我们将第2层压缩为中等质量层，这也为压缩和增强第3层中的低质量帧提供了有益的信息。第3.2节介绍了BDDC网络。层3 剩余的帧属于层3（图2中的黄帧），其以最低质量压缩并且贡献最少的比特率。在最新的深度视频压缩方法中，Wu等[38]和DVC [23]，每个帧需要至少一个运动图1为了压缩第1层中的帧，我们使用BPG [4]和Lee等人。[17]在我们的PSNR和MS-SSIM模型中，分别。用于运动补偿。然而，连续帧之间的运动是相关的，因此为每个帧编码一个运动图导致冗余。因此，我们提出了单运动深度压缩（SMDC）网络，它应用单个运动图来描述多帧之间的运动，因此可以降低比特率。请注意，帧x6到x9的压缩方式与x1到x4相同，因此在图2中省略了它们SMDC网络在3.3节中介绍增强。然后，由于视频帧之间的高度相关性[45]，我们开发了加权重现质量增强（WRQE）网络，其中通过质量特征来加权递归单元，以合理地利用多帧信息。特别地，可以通过利用层1中的高质量信息来显著地提高层3的质量，2.由于不需要存储额外的信息来提高质量，这相当于节省比特率，特别是在低质量帧上。请注意，WRQE是我们的深度解码器的一部分，其输入为压缩帧和编码在比特流中的质量信息。WRQE网络详见第3.4节。3.2. 双向深度压缩（BDDC）用于压缩第2层的BDDC网络如图3所示。在这里，我们也使用第一个GOP作为例子。在BDDC中，我们首先使用运动估计（ME）子网来捕获参考帧和目标帧之间的时间运动。由于层1和层2中的帧之间的间隔较长（例如，图3中的5帧），我们遵循[26]应用金字塔网络来处理大的运动，利用大的接收场。请注意，我们在我们的方法中使用向后扭曲，因此我们估计向后运动。例如，在图3中，XD0XD1XD2XD3XD4XD5XD1066310→55105010XC5XC十个！5XC0降尺度降尺度经纱算术编码UpscalingUpscalingF^五！0运动后处理（MP）比特流X5运动估计[f 5！0;f 5！第10页]qmq^m算术编码量化UpscalingUpscaling运动压缩（MC）F^qrq^r五！10量化经纱XC降尺度降尺度运动估计剩余Cn10压缩（RC）Q5x~50！5XC图3.我们BDDC网络的架构蓝色箭头表示解码器中不包含的程序我们的ME子网的输出是从x5到xC0（表示为f5→0）和从x5到xC（表示为f5→10）。给定估计的运动，自动编码器被用于运动压缩（MC）。由于视频帧之间的相似性，不同帧的运动之间存在相关性。因此，我们提出连接（表示为[·，·，. ]）将双向运动作为编码器E m的输入，编码器Em将输入变换为潜在表示qm。然后，qm被量化为qm，并且qm被馈送到解码器Dm以生成压缩的mo。第在这里，qm通过算术编码被编码为比特[15]。因此，将f5→0和f5→10定义为压缩运动，我们的MC子网可以公式化为：qm=round（Em（[f5→0，f5→10]）），（1）[f∈5→0，f∈5→1 0]=Dm（q∈m）.（二）接下来，使用压缩的运动将参考帧xC、xC扭曲到目标帧运动后处理（MP）子网然后合并变形帧以进行运动补偿。将Wb定义为向后翘曲操作，运动补偿可以公式化为：图4.我们的SMDC网络架构比特流由MC和RC生成，并且还包括压缩质量。为了简单起见，该图省略了比特流。此外，计算压缩质量Q5并将其包含在比特流中，并将其用于我们的深度解码器（在3.4节中）。在本文中，多尺度结构相似性（MS-SSIM）[36]和峰值信噪比Ra-xC=Wb（xC，f∈5→0），xC=Wb（xC，f∈5→10），（3）tio（PSNR）来评估质量。的每一个0→5 010→5 10子网如补充材料2所示。x5=MP（[xCC10→5，f=5→0，f=5→10]），⑷其中，x=5表示补偿帧。最后，通过残差压缩（RC）子网来压缩补偿帧x∈5和剩余帧x∈ 5之间的残差。与MC子网类似，RC中存在编码器（Er）和解码器（Dr）网络使用q*r表示量化的潜在表示，RC子网可以写为：3.3. 单次深压迫（SMDC）在下文中，剩余的帧被所提出的SMDC网络压缩为层3，使用层1和层2中的最近压缩帧作为参考。在我们的SMDC网络中，我们用一个运动映射压缩两个帧。例如，如图2所示，格萨尔 =round（Er（x5-x5）），（5）x1和x2使用单个运动图进行压缩，x3和x4使用xC作为引用。0 5xC=Dr（q<$r） +x<$5，（6）其中xC表示x5的压缩帧。在RC中，图4以x1和x2为例显示了SMDC网络的架构。我们可以从图4中看到，帧x2首先被具有类似ar的DNN压缩使用算术编码将q_r编码为比特，这包括：将层2的比特与编码的Q比特一起发送。2https://arxiv.org/abs/2003.01966.网站上的链接。F^一个！2XC1经纱MEMPMCRC压缩x2压缩x1逆F^0！20：5的价格F^0！1逆F^二！1逆经纱经纱MPX~1RCX1一个！0F^X22XC二！0F^0XC得双曲余切值.663220100我我我我我我我图5.我们的WRQE网络的架构黑色虚线表示来自先前单元格或到后续单元格的信息结构为BDDC，它包含ME、MC、MP和RC四个子帧，并得到压缩帧xC。如上所述，由于多个相邻帧之间的运动的相关性，我们提出使用xC和x2之间的运动来预测x1和xC或xC之间的运动。因此，帧x1可以被压缩为然后，与（3）和（4）相同，参考帧被扭曲并与预测的运动一起被馈送到MP子网中，以生成运动补偿帧x_1。最后，RC子网压缩残差（x1-x1）以获得压缩帧x C。这里，压缩质量Q1和Q2也包括在比特中0 2xC和xC的参考帧，没有比特消耗，流，这些流将在我们的WRQE网络中使用0 2运动映射的作用，从而提高率失真率，表演。在我们的SMDC网络中，我们提出将逆运动应用于运动预测。具体地，运动图可以被定义为f（a，b）= [αa（a，b），αb（a，b）]，其中a和b表示坐标，而αa和αb分别是水平和垂直运动图对于f（a，b），逆运动可以表示为：3.4. 加权递归增强（WRQE）最后，在解码器端，我们使用WRQE进行质量增强。WRQE网络是基于具有时空结构的QG-ConvLSTM方法[42]设计的，该方法使用质量门控单元来利用多帧相关性。该架构如图5所示。.Σfinva+a（a，b），b+b（a，b）= −f（a，b）.（七）与文献[42]不同的是，我们采用了SPA中的剩余块初步的特征提取和重建网络，以及EM-在（7）中，f（a，b）de. 表示（a，b）处的像素移动到新位置a+a（a，b），b+b（a，b），因此−f（a，b）的值应分配给新位置处的finv位置为了简单起见，我们将逆运算定义为Inverse（·），即，finv=Inverse（f）.回想一下，在我们的方法中采用了向后弯曲，因此用于压缩x2的运动是从x2到xC，其定义为f2→0。同样，使用xC和xC作为采用跳过连接来提高增强性能。更重要的是，如[45，42]中所讨论的，一个帧对增强其他帧的重要性取决于其与其他帧相比的相对质量。然而，在[45，42]中，无法获得每个帧的准确质量，解码器相反，由于压缩质量被编码在我们的比特流中，所以我们可以从我们的比特流中访问压缩质量Qi和比特率Bi0 2i+2参考帧，从x1到xC的运动（表示为f<$1→0）和从x1到xC（记为f<$1→2并且我们利用Fi={Qj，Bj}j=i−2作为“质量fea-2”。真的”。我们将Fi输入权重生成器，并获得2权重w =[wM，wS]，它们被输入到质量-对于x1的压缩。请注意，由于原始帧x2在解码侧不可用，在解码中不能重新选择f2→0。因此，压缩运动f∈2→0我我我门控单元[42]连同空间特征S（xC）。如图5所示，权重wi= [wM，wS]为用于预测f1→0和f1→2。Givenf2→0和in-相反的操作，f1→0可以被预测为学会了合理控制Mi忘记以前的记忆并更新当前信息。特别是，在高质量帧，内存Mi预计将成倍增加f1→0=Inverse（0. 5× Inverse（f2→0））。（八）联系我们f=0→2联系我们ˆ具有小的wM以忘记先前的低质量信息，但是更新权重wS被期望为大的，以将其高质量信息添加到存储器中用于增强其它帧。相比之下，预计wM较大，wS较小f0→1i i在类似的情况下，f1→2由下式获得：低质量的框架。此外，由于wM是sigmoid函数的输出，因此wM1成立，因此信息f∈1→2=I nv ers e（0. 5×f→2→0）。（九）联系我们f=0→1来自先前帧的信息在存储器中随着帧距离的增加而减少。这与具有较长距离的帧相关性较低的事实相匹配，因此权重生成器M+第一章O+第一章WM我LSTM¾¾O+wS品质-门控细胞我concat比特流Fi我M…我奥……我M+我O+O我我品质-门控细胞O我¡Mi？1MiS（xC）我WM我我Oi.1wSO我压缩帧M…第一章奥……第一章我质量门控单元[42]S（xC）XC我XD我······6633我125图6.MS-SSIM和PSNR方面的率失真性能对提高质量不太有用因此，在质量门控单元中，具有不同质量的帧以不同的重要性贡献给记忆Mi，使得我们的WRQE最后，我们通过最小化以下损失函数来训练我们的WRQE网络：1ΣN网络合理地利用多帧信息，质量提升LQE=Ni=1D（xi，xD），（13）3.5. 培训战略在训练阶段，我们使用[2]的密度模型来估计（1）和（5）中编码qm和qr的比特率，并将估计的比特率定义为R（·）。我们将遵循[24，22]，以公式表示损失，L=λD+R，（10）其中λ是控制失真D和比特率R之间的权衡的超参数。从（10）可以看出，训练后的模型依赖于超参数λ，即，较大的λ导致较高的质量和较高的比特率。因此，为了在我们的HLVC方法中实现分层压缩质量，不同的λ值被应用于我们的BDDC和SMDC网络，其压缩层2和3中所示。具体来说，给定（10）和估计的比特率，我们将BDDC网络的损失函数设置为LBD=λBD·D（x5，xC）+R（q<$m） +R（q<$r），（11）`x` x失真总比特率我们SMDC网络的损失是.ΣLSM=λSM·D（x1，xC）+D（x2，xC）联系我们总失真+R（q<$m） +R（q<$r1） +R（q<$r2）。（十二）联系我们总比特率在公式12中， qr1和 qr2 分别是x1和x2 在 RC 网络中的表示。在（11）和（12）中，我们使用均方误差（MSE）作为失真，即，D（x，y）=MSE（x，y），当训练我们的HLVC方法用于PSNR时。当优化MS-SSIM时，我们应用D（x，y）= 1−MS-SSIM（x，y）更重要的是，我们在（11）和（12）中设置λBD> λSM，以使我们的方法学习以比层3更高的质量压缩层2，从而实现分层质量。其中N是我们递归网络的步长。由于双向递归结构，较大的N导致较长的解码延迟以及较长的训练时间。因此，我们在训练和推理阶段都将N4. 实验4.1. 设置我们的BDDC和SMDC网络是在Vimeo-90 k [41]数据集上训练的，我们从Xiph [39]和VQEG [32]收集了142个视频来训练我们的WRQE网络。我们在JCT-VC [6]（B类，C类和D类）和UVG [12]数据集上测试HLVC，这些数据集与我们的训练集不重叠。其中，UVG和JCT-VCClass B是高分辨率（1920×1080）数据集 3，JCT-VCClass C和D的分辨率分别为832×480和416×240。为了与[22]进行公平比较，我们遵循[22]在前100帧上测试JCT-VC视频，并在所有帧上测试UVG视频。根据MS-SSIM和PSNR来评估质量。对于MS-SSIM，我们使用λSM= 8，16，32，64训练模型，对于PSNR，使用λSM=256，512，1024，2048训练为了达到分级质量，我们设置λBD= 4×λSM。我们比较HLVC与最新学习的视频压缩方法。其中，Habibianet al. [13]和Chenget al. [9]针对MS-SSIM进行了DVC [22]和Wuet al. [38]针对PSNR进行了优化。此外，我们在比较中包括视频编码标准H.264[37]和H.265 [28]。我们遵循[22]使用x264和x265GOP =10）在所有视频上。结果见本节。请参阅补充材料4了解更多信息，实验结果，包括视觉结果、不同GOP大小、与其他x265配置的比较等。[3]由于熵模型要求每个维度都是16的倍数，因此我们通过剪切底部的8个像素将高度裁剪为10724https://arxiv.org/abs/2003.01966。6634表1.BDBR与H.265的锚（x265粗体表示最佳结果。数据集通过MS-SSIM计算的BDBR（%）通过PSNR计算的BDBR（%）针对PSNR优化用于MS-SSIM针对PSNRWu† DVC[38][22日]HLVC（我们的）程玉[9]第一章哈比边[13个国家]HLVC不带WRQEHLVC（我们的）武则天[38个]DVC[22日]HLVC不带WRQEHLVC（我们的）UVG四十九428. 0511个国家。24-3 .第三章。71-21 94-30 12四十298. 899 .第九条。39-1。37B类--2。74-8。11---35。32-37 44-1 .一、98-2。61-11 75C类--6。88-9。103 .第三章。48--20 87-23 63-二十五8820块447 .第一次会议。83D类--18 51-18 44-23 72--32 94-52。56-十五岁34-1。52-12 57平均--5。02-6。10---27 77-35。94-十三岁03六、43-4。46[13] Wuet al.[38]确实提供了每个视频的结果，因此[38]的BDBR值是通过图6中的平均曲线计算的Cheng et al. [9]是根据作者提供的数据计算的，这些数据是在每个视频的前81帧上进行测试的4.2. 结果率失真曲线。图6展示了JCT-VC和UVG数据集上的率失真曲线。根据MS-SSIM和PSNR来评估质量，并且通过每像素比特（bpp）来计算比特率。如图6（a）和（b）所示，我们的MS-SSIM模型优于所有学习方法，并达到比H.264和H.265更好的性能。特别是，在低比特率的UVG，Habibian等。[13]与H.265相当，DVC [22]的性能比H.265差。在JCT-VC上，DVC [22]仅在低比特率下与H. 265相当相反，我们的HLVC方法的率失真曲线从低到高比特率明显高于H. 265。PSNR曲线如图6（c）和（d）所示。可以看出，我们的PSNR模型达到了更好的效果-性能优于最新的PSNR优化方法DVC [22]和Wu等人。[38]，并且在JCT-VC数据集上也优于H.265。在UVG上，我们在高码率下达到了比H.265更好的性能。比特率降低。此外，我们使用以下锚点评估BjøntegaardDelta比特率（BDBR）[5]：H.265. BDBR计算与锚相比的平均比特率差异，并且较低的BDBR值指示更好的性能。表1示出了通过MS-SSIM和PSNR计算的BDBR，其中负数表示与锚相比比特率降低，因此性能优于H. 265，并且粗体数字是所有学习方法中的最佳结果。在表1中，为了对MS-SSIM与PSNR优化方法DVC [22]和H.265进行公平比较，我们首先报告了MS-SSIM方面的PSNR模型的BDBR。如表1所示，我们的PSNR模型优于MS-SSIM上的H.265，平均BDBR为−6。10%，这也优于DVC（BDBR =-5。02%）。在JCT-VC C类上，我们的PSNR模型甚至明显优于MS-SSIM优化方法Cheng等人。[9]第一章关于MS-SSIM此外，我们的MS-SSIM模型成功地优于所有现有的学习方法MS-SSIM，并减少了35的比特率的H.265。平均94%。更重要的是，我们的 MS- SSIM 模型在质量增强之前的性能（没有WRQE）（BDBR =-27。77%）仍然明显优于所有先前的方法。总之，我们的HLVC方法实现了最先进的MS-SSIM性能之间的学习图7.在我们的方法中，每个组件的消融研究和手工制作的视频压缩方法。表1还示出了通过PSNR计算的BDBR结果。如表1所示，我们的PSNR模型在PSNR方面在所有学习方法中表现最好。特别是，我们在所有测试集上都优于最新的PSNR方法DVC [22]。与H.265相比，我们的PSNR模型将比特率降低了4。平均46%，虽然有7。JCT-VC C类上的83%比特率开销。在我们测试集中的20个视频中，我们的PSNR模型在14个视频上的PSNR优于H.265。此外，如表1所示，我们的无WRQE的PSNR模型仍然优于最新的PSNR方法DVC [22]。总之，我们的HLVC方法在PSNR上优于所有现有的学习方法，并且达到比H.265更好的性能（x265“LDP非常快”）。4.3.消融研究进行消融研究以证明我们的HLVC方法中每个组件的有效性。我们将基线模型定义为我们的方法，没有层次质量（HQ）（使用所有帧使用相同λ训练的模型），没有单一运动（SM）策略（为每帧压缩一个运动图），也没有我们的增强网络WRQE。然后，我们分析基线模型的性能，并依次添加这些组件，即，“基线+HQ”、“ 基线 +HQ+SM” 以及我们的整个框架 “ 基线+HQ+SM+WRQE”。此外，我们还讨论了非层次视频的增强（“基线+WRQE”）。消融结果如图7所示。等级质量。图7显示了6635我们的方法Ourapproachw/o WRQE我们的方法我们的方法不带WRQE比特率32BPPPSNR310.40.2301 2 3 4 5 6 7 8 9 10 11帧1wS我0.50W我我0基线基线+HQ（分级质量）峰值信噪比（dB）333231第1层230第三层29峰值信噪比（dB）35343332层331第1层2280.10.20.30.40.5300.6 BPP00.20.40.60.8BPP（一） Z=512（b）Z=1024图8.不同层上的平均比特率和PSNR”line+HQ“模型的压缩性能明显优于基线模型，表明了应用分级质量来提高压缩性能的有效性。此外，图8显示了高质量的比特率和PSNR的变化。从基线到“基线+HQ”的低质量（层1和层2）和低质量（层3）帧。可以看出，在层1和层2上，采用分级质量增大了比特率和PSNR两者。在第3层，“基线+HQ”实现了比基线更高的PSNR，但即使具有更低的比特率。这是因为“基线+HQ”中的层1和层2为压缩层3提供了高质量的参考。由于视频的大多数帧在层3中，因此应用分层质量提高了压缩性能。单一动作策略。然后，如图7所示，与“基线+HQ”相比，添加SMDC（“基线+HQ+SM”）通过减少用于运动图的比特来进一步提高性能。例如，在“基线+HQ”中，运动信息的平均比特率为0。0175bpp在λ= 256处，并且总比特率为0。0973bpp.使用SMDC，运动消耗的比特减少到0。0134 bpp，也就是23。4%，并且总比特率也降低到0。0969bpp.同时，PSNR从29. 26 dB（“基线+HQ”）至29。47dB（“基线+HQ+SM”），因为更多的比特可以分配在残差编码上。这证明了我们的SMDC网络的成功-完全减少了视频运动的冗余，并有利于压缩性能。经常性增强。从图中可以看出，第七，我们的WRQE网络（行+HQ+SM”。如图9中的示例所示，我们的WRQE网络显著增强了压缩质量，尤其是在低质量帧上，在帧3和9上，PSNR的改善大约为1dB。图9还示出了学习的权重wS和wM。可以看出图9.BasketballPass上WRQE的示例结果。奥里因此，它能够恢复帧3中丢失的信息，并显着提高质量。这些结果验证了我们的WRQE网络的有效性。层次结构对增强的好处。最后，我们展示了我们的WRQE网络在没有层次质量的基线模型上的结果。如图7所示，从基线到“基础”的质量改进线+WRQE”比我们的分级质量方法（我们的HLVC方法的“基线+HQ+SM”）小得多。这是由于在非分层模型中每个帧上的质量相似，因此没有高质量的参考来帮助增强其他帧。这表明，所提出的分层质量结构有利于我们的WRQE网络的增强，如上所述，我们的WRQE网络也成功地学会合理利用分层质量。因此，我们的整个框架实现了国家的最先进的性能在学习的视频压缩方法，并优于H.265（x2655. 结论和今后的工作本文提出了一种具有层次质量和递归增强的学习视频压缩方法。具体来说，我们提出了以递减的质量压缩分层1，2和3中的帧，第一层使用图像压缩方法，第二层和第三层分别使用所提出的BDDC和SMDC网络。我们开发了WRQE网络，输入压缩帧，质量和比特率信息，用于多帧增强。我们的经验-在高质量帧上，我们的WRQE网络学习生成更大的wS和更小的wM，以降低SNR。实验结果验证了HLVC方法的有效性。与其他学习的视频压缩方法相同对于低质量帧，则相反。此外，委员会认为，如图9所示的视觉结果所示，由于低比特率，帧3从严重失真中冲浪，而具有较高质量的帧6与帧13. 然后，在WRQE中，由于帧6的大wS，其大部分信息被更新到帧6。在我们的方法中，我们手动设置帧结构。一未来工作的一个有希望的方向是开发能够学习自动设计预测和历史结构的DNN。致谢。这项工作部分得到了ETH苏黎世基金（OK），亚马逊通过AWS赠款，Nvidia通过GPU赠款的支持。6636引用[1] EirikurAgustsson，FabianMentzer，MichaelTschannen ， Lukas Cavigelli ， Radu Mrs. fte ， LucaBenini，and Luc V Gool. 用于端到端学习可压缩表示的软到硬矢量量化神经信息处理系统进展（NeurIPS），第1141-1151页，2017年[2] Johannes Balle' ，Valero Laparra ，and Eero P Simoncelli.端到端优化的图像压缩。在2017年国际学习表征会议（ICLR）的会议记录中[3] JohannesBal le´ ， D a vidMinnen ， SaurabhSingh ，SungJinHwang，and Nick Johnston. 基于尺度超先验的变分图像在2018年国际学习表征会议（ICLR）的会议记录中[4] Fabrice BellardBPG图像格式。https：//bellard. org/bpg/.[5] 吉赛尔 · 比昂特加德计算 RD 曲线之间的平均PSNRVCEG-M33，2001年。[6] 弗兰克·博森。常见测试条件和软件参考配置。JCTVC-L1100，12，2013年。[7] 陈彤，刘豪杰，沈秋，陶月，曹勋，马占。Deepcoder ：基于深度神经网络的视频压缩。在Proceedings of the IEEE Visual Communications andImage Processing（VCIP）中，第1-4页。IEEE，2017年。[8] 陈志波、何天宇、金鑫、凤舞。学习视频压缩。IEEETransactionsonCircuitsandSystemsforVideoTechnology，2019。[9] 郑学成、孙鹤鸣、Masaru Takeuchi和Jiro Katto。通过时空能量压缩学习图像和视频压缩。在IEEE计算机视觉和模式识别会议中，第10071-10080页[10] Cisco.思科可视网络索引：全球移动数据交通预测更新，2017-2022白皮书https://www.cisco.com/c/en/us/solutions/collateral/service-provider/visual-networking-index-vni/white-paper-c11-738429.html.[11] 戴元英、柳东、凤舞。用于HEVC帧内编码中的后处理的卷积神经网络方法在多媒体建模国际会议（MMM）中，第28Springer，2017.[12] Ultra Video Group.UVG测试序列。得双ultravideo.cs.tut.fi/#testsequences/值.[13] Amirhossein Habibian 、 Ties van Rozendaal 、 Jakub MTom-czak和Taco S Cohen。使用率失真自动编码器的视频压缩。在IEEE国际计算机视觉会议（ICCV）的会议中，2019年。[14] Nick Johnston 、 Damien Vincent 、 David Minnen 、Michele Covell 、 Saurabh Singh 、 Troy Chinen 、 SungJin Hwang、Joel Shor和George Toderici。改进的有损图像压缩与启动和空间自适应比特率的回流网络。在IEEE计算机视觉和模式识别会议（CVPR）中，第4385-4393页[15] 格伦·G·兰登算术编码导论。IBM Journal of Researchand Development，28（2）：135[16] 迪迪埃·勒·加尔MPEG 视频压缩算法。信号处理：Image Communication，4（2）：129-140，1992.[17] Jooyoung Lee ， Seunghyun Cho ， and Seung-KwonBeack.用于端到端优化图像压缩的上下文自适应熵模型。在国际学习代表会议（ICLR），2019年会议记录。[18] 慕丽、左望梦、古书航、赵德斌、张大卫。学习卷积网络用于内容加权图像压缩。在IEEE计算机视觉和模式识别会议（CVPR）的会议记录中，第3214-3223页[19] 李天翼，徐迈，杨仁，陶晓明。用于HEVC中的多帧环内滤波器的基于DenseNet的方法。数据压缩会议（DCC）论文集，第270-279页。IEEE，2019。[20] 李天一，徐迈，朱策，杨仁，王祖林，关振宇。用于HEVC 的多帧环路滤波器的深度学习方法。 IEEETransactions on Image Processing，2019。[21] Jiaying Liu，Sifeng Xia，Wenhan Yang，Mading Li，and Dong Liu.一对一：视频编码中基于分组变分网络的分数内插。IEEE Transactions on Image Processing，28（5）：2140[22] 郭璐，欧阳万里，徐东，张晓云，蔡春雷，高志勇.DVC：端到端深度视频压缩框架。在IEEE计算机视觉和模式识别会议论文集（CVPR）中，

下载后可阅读完整内容，剩余1页未读，立即下载