基于超先验模式预测的深度视频压缩方法的研究

142 浏览量更新于2023-10-26 收藏 1.63MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

5921基于超先验模式预测的从粗到精深度视频编码胡志豪1，郭璐2，郭金阳3，刘珊4，姜伟4，徐东3†1北京航空航天大学2北京理工大学3澳大利亚悉尼大学4美国腾讯摘要先前的深度视频压缩方法仅使用单尺度运动补偿策略，并且很少采用来自诸如H.264/H.265的传输标准的模式预测技术来进行运动和残差压缩两者。在这项工作中，我们首先提出了一个粗到细（C2F）的深度视频压缩框架，以更好的运动补偿，其中我们执行运动估计，压缩和补偿两次，在粗到细的方式。我们的C2F框架可以实现更好的运动补偿结果，而不显着增加比特成本。观察超先验信息（即，均值和方差）包含了不同块的判别统计信息，我们还提出了两种有效的超先验引导模式预测方法。具体地说，我们使用超先验信息作为输入，提出了两种模式预测网络来分别预测最佳块分辨率以获得更好的运动编码，并决定是否从每个块中跳过残差信息以获得更好的残差编码，而不引入额外的比特成本，同时带来微不足道的额外计算成本。综合实验结果表明，我们提出的C2F视频压缩框架配备了新的超先验指导模式预测方法，在HEVC，UVG和MCL-JCV数据集上实现了最先进的性能1. 介绍由于对传输和存储大量视频的需求迅速增长，视频压缩系统在各种实际应用中变得越来越重要虽然传统的方法，如H.264 [43]，H.265 [33]和最近的标准H.266 [32]基于不同的手工制作技术取得了有希望的结果，它们不能通过使用大规模视频数据集进行端到端优化。最近，已经提出了大量的深度视频压缩工作[3，12，15，23]（参见第2 节，以获得更好的压缩效果）。†董旭为通讯作者。更多细节），并且它们中的大多数遵循混合编码框架[32，33，43]，其中运动补偿和残差压缩模块都用于减少时空冗余。因此，在设计新的深度视频编解码器时，两个方面是至关重要的：1）如何生成更准确的运动信息以用于更好的运动补偿，以及2）如何设计更有效的运动压缩和残差压缩方法。最先进的基于学习的视频压缩方法[3，15，23]仅使用单尺度运动估计和补偿策略。考虑到视频中的运动模式可能是复杂的，这些单尺度深度视频编解码器可能无法很好地用于压缩来自具有显著运动模式的复杂场景的视频。由于成功地将粗到细策略应用于各种任务（例如，光流估计[29]和视频超分辨率[41]），在这项工作中，我们首先通过采用两阶段运动补偿策略来更好地生成预测特征，从而提出了一种新的从粗到细的深度视频压缩框架。在粗层次上，给定来自参考帧和当前帧的低分辨率特征，我们执行运动估计以产生低分辨率偏移特征，然后在使用运动压缩模块之后压缩低分辨率偏移特征。在对重建的偏移特征进行上采样之后，我们进一步执行粗级运动补偿以将高分辨率参考特征包装为中间预测特征。基于该中间预测特征和来自当前帧的高分辨率特征，我们执行这些主要操作（即，运动估计、压缩和补偿），以额外地扭曲该中间预测特征，以获得更好的运动补偿。我们的两阶段粗到精的运动补偿策略可以产生更好的预测功能，为后续的残差压缩模块，而不会显着增加的比特成本，从而导致更好的视频压缩性能。为了进一步提高视频压缩性能，我们还提出了两种有效的模式预测方法，用于运动压缩和残差压缩，这是由率失真（RD）优化的成功激发的。5922--传统编解码器[32，33，43]和最近的工作[14]中基于量化的模式预测方法（更多细节请参见第2.1在这项工作中，我们提出训练两个预测网络进行编码模式预测，而不是使用[14具体来说，我们使用判别超先验信息（即，来自超先验网络[27]的平均值和方差值）作为模式预测网络的输入，因为它表示不同补丁的统计特性，并且它不引入任何附加的比特成本。我们提出的模式预测网络可以很容易地用于自适应地选择运动压缩中每个块的最佳分辨率或决定是否跳过残差压缩中每个块的残差信息。我们的贡献总结如下：（1）我们提出了一个简单而强大的C2F深度视频压缩框架，通过以粗到细的方式执行两级运动补偿。（2）我们提出了两种超验前指导的模式预测方法，其中我们使用判别式超验前信息作为输入来学习两个模式预测网络我们的超先验引导模式预测方法不引入任何额外的比特成本，带来可忽略的计算成本，并且可以容易地用于预测最佳编码模式（即，用于运动编码的最佳块分辨率和用于残差压缩的“跳过”/“非跳过”模式）。(3)在HEVC、UVG和MCL-JCV数据集上的综合实验表明，我们的C2F框架配备了新提出的超先验引导模式预测方法，在PSNR方面实现了与H265（HM）[1]相当的视频压缩性能，并且在MS-SSIM方面通常超过最新标准VTM [22. 相关工作2.1. 图像和视频压缩为了减少大量图像/视频数据的传输和存储需求，不同的图像和视频压缩标准，如JPEG [39]，JPEG 2000[35]，H.264 [43]，H.265 [33]和H.266 [32]被提议。由于这些方法依赖于手工制作的技术，如DCT，它们不能与为各种机器视觉任务设计的其他网络进行端到端优化（例如，对象检测）。最近，一些基于学习的图像压缩[4，5，7，9，10，27，28，3613，20-例如，Balle 'et al.[5]提出使用超先验网络来降低熵和节省比特，以获得更好的图像压缩。对于视频压缩，工作FVC [15]执行所有主要操作-在特征空间中进行迭代，以获得更好的运动补偿和残差压缩。然而，现有技术的视频压缩方法[3，15，23]仅使用单尺度运动补偿策略。与这些作品[3，15，23]相比，我们提出了一种新的深度视频压缩框架，其中我们以粗到细的方式执行两次运动虽然编码模式预测技术通常用于传统编码H.264/H.265中，但除了最近的工作RaFC [14]之外，它很少用于深度视频压缩方法中，其中率失真（RD）优化技术用于分辨率自适应运动编码。但是，[14]中有两个首先，遍历整个网络来计算每个编码模式的RD值在计算上是昂贵的，因此它不能支持大量的编码模式（例如，在[14]中仅支持三种编码模式）。第二，需要额外的比特来对预测的编码模式进行编码（即，学习的二进制掩码表示不同块处的编码模式）。与[14]相比，我们提出通过使用判别超先验信息作为输入来学习两个用于编码模式预测的网络。我们的方法不引入任何额外的比特成本，并带来微不足道的计算成本，这可以支持更多类型的编码模式，从而实现更好的压缩性能。2.2. 计算机视觉从粗到精的策略通常用于各种计算机视觉任务，包括光流估计[16，29，34]和超分辨率[41]。利用金字塔结构，光流估计方法[29]采用由粗到精的策略来提取更精确的运动信息。视频超分辨率方法[41]也采用了从粗到精的对齐策略来生成更好的高分辨率帧。然而，在现有的视频压缩方法中，如何使用由粗到细的策略进行视频压缩还没有被探索。与[3，15，23]相比，在这项工作中，我们提出了一种新的从粗到精的视频压缩框架，其中我们的方法旨在解决一个不同的主要挑战，即如何在不显著增加比特成本的情况下改善运动补偿结果3. 方法3.1. 概述给定的输入视频序列X=X1，X2，...，Xt−1，Xt，. ，视频压缩系统旨在以高质量在任何比特率。在这项工作中，我们直接使用现有的图像压缩方法[6]来重建I帧，然后使用重建的前一帧作为压缩当前帧的参考帧的5923−−t1t1−4˜˜4图1.概述我们提出的视频压缩框架。取待压缩的输入帧Xt和参考帧从解码的帧buf fer中提取xt-1，我们首先执行特征提取操作以生成输入特征Ft和参考特征F t。特征Fref.然后利用两级粗精运动补偿模块对参考特征进行粗精运动补偿，t−1<$to fine的方式，并产生预测的特征Ft，其中超先验指导的自适应运动压缩方法，提出了更好的运动压缩。最后，提出了超先验引导的自适应残差压缩模块，以压缩输入特征Ft和预测特征F<$t之间的残差特征R t。在帧重构模块之后，我们产生重构帧然后将其存储在解码的帧b中。我们提出的框架的概述如图所示1，总结如下：特征提取。继以前的工作FVC [15]，我们首先将输入帧Xt和参考帧Xt-1分别变换为输入特征Ft和参考特征Fref。网络结构特征提取模块的结构与FVC [15]中的相同，其由步长为2的卷积层和一些残差块组成粗到精运动补偿。为了产生更精确的运动补偿结果，我们提出了两阶段的粗到精运动补偿模块。在粗略级别，我们首先通过对输入特征Ft和参考特征Fref进行下采样来生成两个低分辨率特征，然后我们执行运动估计、运动压缩和上采样操作以生成重建的粗略级别偏移图，基于此，我们执行运动补偿以扭曲参考特征Fref，并且最终我们生成t−1中间预测特征Ft.基于Ft和in-将特征Ft置于精细运动补偿模块中，在精细运动补偿模块中再次执行运动估计、运动压缩和运动补偿三个主要操作，以生成最终的预测特征不。精细级模块的网络结构为与FVC [15]中的那些相同，除了我们采用新提出的超先验指导的自适应运动压缩模块（更多细节参见第3.3节），其中我们基于超先验信息学习预测网络以确定最佳块分辨率以获得更好的运动编码。超先验指导的自适应残差压缩。双压缩模块（更多细节请参见第3.3节），其中基于超先验信息，我们还学习预测网络来预测再加上重新-构造的残差特征Rt到最终预测特征F<$t，我们生成重构特征F<$ t。帧重建。将重建的特征Ft馈送到由几个残留块和去卷积层组成的帧重建模块[15]中，我们生成重建帧Xt，然后将其存储在解码帧缓冲器中用于处理下一帧。熵编码将来自粗级运动压缩、细级运动压缩和残差压缩模块的编码特征转换成比特流。在训练过程中，我们使用比特率估计网络来预测比特率。更多细节将在第3.4节中讨论。3.2. 粗到精运动补偿为了在运动补偿后产生高质量的特征，我们提出了C2F视频压缩框架，通过以粗到细的方式执行运动补偿，在粗的级别上只有很少的计算和比特成本。如图1所示，我们首先使用粗级运动补偿分支来生成中间预测特征F t，然后将F t作为新的参考特征，执行精细级运动补偿。具体地，如图2所示，在粗级运动补偿分支处，包含步长为2的两个卷积层的下采样操作将以分辨率输入要素Ft最后的预-关于H×t1W到粗特征中，分辨率为所述特征F<$t由剩余特征Rt表示，并且它为1H×1W。根据粗略的特征，我们将通过将被超先验引导的自适应残差压缩-运动估计模块由两个卷积组成Ft运动估计Ot超先验指导的自适应运动压缩O^t运动补偿精细级运动补偿分支输入帧转换ReferenceFram e^ t-1F参考t-1下采样（x4）解码帧缓冲器运动估计Ft运动上采样运动压缩（x4）补偿粗级运动补偿支路粗到精运动补偿Prdic te dF eatureF<$tHyperprior-guided AdaptiveRecon stram e ntr a mentF^tR^t残余压缩Rt帧重构特征提取5924F不Fref/Ftt-1Fina l Pr edi cte dF eatureF<$tConv（64，3，1）下采样（x4）运动转换（64，3，1）Conv（64，3，1）变形卷积Conv（64，3，1）上采样（x4）运动Conv（128，5，2）Compression Deconv（64，5，2）Conv（128，5，2）× 2× 2Mc/Mt不M^c/M^t t128，5，2）Resblocks（128，3）量化/ HAMC级联级联−×不×−t1×××输入要素参考要素Int er mediat ePredicteFeatur eFt/M0M1M2M3(a)基本模式(b)分辨率模式预测跳过模式(c)跳跃模式预测图2.我们提出的由粗到细的框架的网络结构包括三个主要模块（即，运动估计/压缩/补偿模块）。粗略级运动补偿采用参考特征Fref和输入fea。图3. (a)分辨模式预测网络的四种基本模式. (b)分辨率模式预测网络预测超先验引导的自适应运动压缩模块中的每个块的最佳分辨率，以及（c）跳过模式预测网络预测是否跳过来自超先验引导的自适应残差压缩模块中的每个块的残差信息。为了更好地说明，我们假设编码的运动/残差特征的大小为4×4，并且仅将turet1Ft作为输入以生成中间预测特征从一个通道预测模式。Ft ，而精细水平运动补偿将Ft和Ft作为输入以生成最终预测特征Ft。注意我们使用虚线框表示运动压缩模块和上采样操作，以生成具有H W分辨率的重建的粗级偏移图。这里，粗级编码的运动特征Mc将被量化并用于熵编码。最后，我们遵循FVC [15]并使用可变形卷积[11]操作进行特征空间运动补偿，其将重建的偏移图作为输入来控制参考特征图中的采样与[15]一样，我们还将可变形卷积层的输出与参考特征连接起来，并使用两个卷积层，以生成中间预测特征Ft。精细级运动补偿分支类似于粗略级运动补偿分支，除了输入参考特征F_ref被替换为中间参考特征F_ref。压缩性能3.3. Hyperprior引导的自适应运动压缩和残差压缩为了在精细级运动补偿分支处更有效地压缩运动信息，我们提出了超先验引导的自适应运动压缩（HAMC）方法，以基于超先验信息（即，从超先验网络解码的均值和方差值），这可以更好地压缩运动信息，而没有额外的比特和可忽略的额外计算成本。我们的方法旨在为每个目标块确定最佳分区模式，可以通过使用我们的分辨率模式预测网络进行预测。为了更好地说明，下面我们假设编码的运动特征的大小为4个4.具体来说，我们的分辨率模式预测网络由两个分支组成，它们预测最佳模式对于每个2×2子块和整个4×4块，分别为-t−1中间预测特征Ft以及下采样和上采样，移除采样模块为了更有效地在精细级别压缩运动信息，我们提出了一种新的超先验引导的自适应运动压缩方法，以将编码的运动特征Mt自适应地压缩到比特流中，这将在第3.3节中讨论。通过使用粗略级运动补偿分支首先粗略地补偿参考特征Fref，计算和比特成本都很小，我们可以在精细水平运动补偿分支处更准确地产生预测特征Ft，这最终导致更好的视频活泼地如图3（a）有四种基本模式对于每个2 × 2子块（类似地注意，对于目标4 × 4块，我们也有四个基本模式）。然后，来自两个分支的预测模式将被组合以生成用于目标块的大量可能的编码模式。当目标块的预测模式是M0时，我们另外使用在每个预测模式处预测的四个模式。2个子块以产生用于此目标块的经更新译码模式否则，我们直接使用针对该目标块预测的模式在图3（b）中示出了一个示例，由于针对4×4目标块预测的模式是M0，我们均值方差Conv（128，3，1）Resblocks（128，3）Resblocks（128，3）Conv（128，5，2）Conv（128，5，2）Conv（128* 4，3，1）Conv（128 *最大/最大/M1 M2模式组合M0M0M3B2分辨率模式1碳三碳四均值方差Conv（128，3，1）Resblocks（128，3）Conv（128* 2，3，1）Max/Gumbel Softmax000 0011 1001 1运动解码器运动补偿运动编码器一B1C1 C2D5925运动编码器运动解码器348 5比特流448 6MT472 6模式引导的平均池化QACAD模式引导4上采样6百万吨479 72 5478 8分辨率模式B21碳三碳四D 1模式预测均值方差超先验编码器比特流超先验网络超先验解码器ADACQ×××××××××××不·不58144815不好意思一B1C1C2D图4.超先验指导的自适应运动压缩方法的网络结构AC和AD分别表示算术编码和算术解码。整数用于Mt中，为了更好地说明，我们只可视化一个通道。使用来自四个对应的2 × 2子块的四个预测模式[M1，M2;M0，M3]来生成该目标块的最终预测模式。为了预测最佳模式，我们提出了一个模式预测网络，它根据超先验信息（代表每个块的统计信息）自动决定每个块的分辨率。如图3（b）所示，我们将来自超先验解码器的均值和方差值作为模式预测网络的输入，以生成每个模式的置信度得分。最后卷积层的通道号（即，gumbel softmax层之前）是128 4，这表示4种模式的置信度得分（如图所示）。3（a））每22或44块的128个通道在推理阶段，我们直接决定最佳模式的最大置信度的基础上。然而，最大运算是不可微的，因此整个网络不能通过反向传播进行端到端优化为了解决这个问题，在训练过程中，我们采用Gumbelsoft-max策略[17]来决定最佳模式，因为这个Gumbelsoft-max模块是可微的，因此可以实现整个网络的端到端优化。最后，在使用max/Gumbel softmax操作为每个4 4或2 2块和每个通道生成最佳模式之后，我们将来自每个通道4 4或2 2块，以生成此目标块的最佳分辨率模式（见图2）。第3（b）段）。我们提出的HAMC方法的整个网络结构如图4所示。我们取偏移映射Ot（即，精细级运动估计模块的输出）作为运动编码器的输入以生成编码的运动特征Mt。在我们提出的HAMC中，我们根据超先验网络的超先验信息预测最佳分辨率模式。根据预测的分辨率模式，我们可以更有效地将编码后的运动特征转换到比特流中。取子块A（即，左上2×2子块）。4作为一个例子，我们首先执行模式引导的avgpooling操作，以将左上22个子块中的四个值“3，4，4，5”平均池化为仅一个值“4”，然后通过使用算术编码（AC）操作将在算术解码（AD）操作之后，我们执行模式引导的上采样操作以在左上22子块中生成“4”的四个值考虑到我们仅将一个值22个子块），我们的方法使用少得多比特. 对其他三个子块。因此，我们提出的HAMC方法可以自动选择大的块大小的平滑区域与不太重要的运动模式的比特率节省和使用小的块大小的区域周围的运动对象边界的aries实现更准确的运动补偿结果。以这种方式，我们可以有效地减少用于传输编码的运动特征 Mt的比特数，而不会实质上降低重构特征的质量，这导致更好的压缩结果。自适应残差压缩。我们还提出了超先验指导的自适应残差压缩（HARC）方法，以更有效地压缩稀疏残差信息，其中我们使用“跳过”/“非跳过”模式预测网络来预测是否跳过每个块中的残差信息。如图3（c）所示，跳跃模式预测网络仅使用一个分支网络，而不是如HAMC中的两个分支它还将超先验信息作为输入，以预测编码残差特征的每个通道处的每个条目的因此，由不重要的残差信息组成的区域将被预测为3.4. 损失函数与熵编码整个网络通过最小化以下率失真损失进行端到端优化L=H（Mc）+H（Mt）+H（Yt）+λd（Xt，Xt），（1）其中，H（）表示用于对包括量化的编码的粗略级运动特征M_c、量化的编码的精细级运动特征M_t和量化的编码的残差特征Y_t 的特征进行编码的比特数。d（Xt，Xt）表示输入帧Xt和重构帧Xt之间的失真。λ是r型一个参数，控制比特率之间的权衡和扭曲。在训练过程中，我们采用[27]中的比特率估计网络，而不使用耗时的自回归模型来估计用于压缩Mt和Yt的比特。考虑到粗层次运动特征的分辨率相对较小，本文提出了一种基于运动特征的特征提取方法5926HMVTMRaFCRLVCFVCDCVCFVC（再植入）我们的HMVTMRaFCRLVCFVCDCVCFVC（再植入）我们的MS-SSIM（dB）MS-SSIM（dB）不×× ×××UVG数据集3938373635UVG数据集191817161514MCL-JCV数据集3938373635MCL-JCV数据集1918171615340.05 0.10 0.15 0.20BPP130.000.050.100.150.200.250.30零点三五BPP340.05 0.10 0.15 0.200.25BPP140.050.100.150.200.25零点半BPPHEVC B类数据集HEVC B类数据集HEVC C类数据集HEVC C类数据集361835173416153335193418331732163130151432130.05 0.10 0.15 0.20 0.25 0.30BPP0.1 0.2 0.3 0.4BPP29280.050.100.150.200.250.300.35 0.40BPP14130.050.100.150.200.250.300.35零点四BPPHEVC D类数据集3534333231302928HEVC D类数据集20191817161514HEVC Class E数据集403938373635HEVCClass E数据集2120191817160.050.100.150.200.250.300.350.40零点四五BPP0.050.100.150.200.250.300.35 0.40BPP0.04 0.06 0.080.10BPP0.000 0.025 0.050 0.075 0.100 0.125 0.150 0.175 0.200BPP图5.UVG、MCL-JCV、HEVC Class B、Class C、Class D和Class E数据集上的实验结果直接使用[ 4 ]中的简单比特率估计网络来估计M*c的比特。4. 实验4.1. 实验装置训练数据集。根据之前的工作[15，23]，我们在训练阶段使用Vimeo-90 K数据集[45]。该数据集包含89，800个视频序列，每个视频序列由7个连续帧组成，分辨率为488 256。对于数据增强，视频序列在输入网络之前被随机翻转并随机裁剪成256×256块。测试数据集。我们评估了我们在多个数据集上的性能，包括HEVC [33] B类、C类、D类、E类、UVG [26]和MCL-JCV [40]数据集。HEVC标准数据集[33]包含具有各种分辨率的不同类型的视频序列，包括1920 1080（B类），832480（C类）、416240（D类）和1280720（E类）。UVG数据集[26]包含7个具有高帧速率的1080p视频序列，MCL-JCV数据集[40]包含30个1080 p视频序列，这些视频序列广泛用于基于学习的视频编解码器评估。评估指标。PSNR和MS-SSIM [42]用于评估视频质量。PSNR是评价视频序列失真最常用的指标，MS-SSIM是评价主观视觉质量的常用指标评价每像素比特（bpp）用于评估用于压缩运动信息和残差信息的比特实施详情。我们分三个阶段训练模型。在第一阶段，我们使用两个连续的帧，包括一个I帧和一个P帧来训练我们的模型2，000，000步，而不同时采用HAMC和HARC方案。然后，我们在第二阶段将训练视频序列的长度扩展到7帧，另外30万步。最后，我们添加我们新提出的HAMC和HARC方案，并训练我们的完整模型200，000步。初始学习率被设置为5e-5，在第1，900，000步和第2，400，000步时降低80%。我们将第一阶段的批量大小设置为4我们使用基于PyTorch的Adam优化器[18]，支持CUDA。我们使用均方误差作为PSNR结果的失真损失，并通过使用MS-SSIM作为100，000步的失真损失来额外微调PSNR模型当在具有单个2080 TI GPU的机器上训练我们的模型时，第一阶段、第二阶段和最终阶段分别需要大约4.5天、2天和1.3天，并且需要花费15个小时来微调MS-SSIM结果。为了最小化训练序列和测试序列之间的视频长度不匹配的影响，我们另外采用随机VTMHMAgustsson等人RaFCELF-VCDCVCFVC（再植入）我们的VTMHMAgustsson等人RaFCELF-VCDCVCFVC（再植入）*我们VTMHMAgustsson等人RaFCFVCELF-VCDCVCFVC（再植入）我们的VTMHMAgustsson等人RaFCFVCELF-VCDCVCFVC（再植入）*我们HMVTMRaFCRLVCFVCDCVCFVC（再植*我们HMVTMRaFCRLVCFVCDCVCFVC（再植入）*我们HMVTMRaFCRLVCFVCDCVCFVC（再植入）我们的HMVTMRaFCRLVCFVCDCVCFVC（再植*我们HMVTMRaFCFVCDCVCFVC（再植入）我们的HMVTMRaFCFVCDCVCFVC（再植入）*我们PSNRPSNRPSNRMS-SSIM（dB）MS-SSIM（dB）PSNRPSNRPSNRMS-SSIM（dB）MS-SSIM（dB）5927移位和不同的失真权重策略，如[25]中所建议的。4.2. 实验结果为了评估我们所提出的方法的有效性，我们比较我们所提出的方法与最先进的基于学习的方法，包括Agustsson等人。[3]、RaFC [14]、RLVC [47]、FVC[15]、DCVC [19]和ELF-VC [30].基于与我们建议的40.540.039.539.038.538.037.5HEVC Class E数据集FVC（再植入）C2FC2F+HAMCC2F+HAMC+HARC0.04 0.06 0.08 0.10BPP方法，我们进一步提供了在不采用多帧特征融合模块的情况下的FVC [15]的重新实现结果对于常规方法，我们直接使用具有低延迟P配置的标准H.265（HM）[1]和VTM [2]进行比较。与以往使用商业软件FFmpeg生成x265结果的方法不同，HM和VTM是标准版本，可以实现更好的性能，但速度非常慢。为了与标准HM和VTM进行公平比较，我们将所有数据集的GoP大小设置为100，并使用BPG [6]进行I帧压缩。为了最小化累积误差，我们还遵循HM和VTM使用更好的P帧压缩模型来压缩每4帧中的第4帧。当使用MS-SSIM进行性能评估时，我们的模型通过使用MS-SSIM损耗作为失真损耗进行进一步微调，表示为“我们的”。如图5、我们的方法优于所有其他方法基于学习的方法在PSNR方面有很大的优势。当与最近提出的ELF-VC的UVG数据集相比，我们提出的方法实现了0.5dB的改善在0.1bpp。与传统的H.265（HM）方法相比，该方法在大多数数据集上都取得了更好的效果。VTM [2]是最新的视频压缩标准，它执行各种手工设计的模块以实现当前的最佳性能，因此运行非常慢（小于0.001fps）。虽然VTM的性能在PSNR方面优于我们的方法，但我们观察到，在所有高分辨率数据集上，我们的结果在高比特率下接近VTM（即，UVG、MCL-JCV、HEVC B类和E类）。此外，我们的方法运行速度为3.41fps，比VTM快3000倍。我们的方法一般优于所有基线方法的MS-SSIM。此外，当使用H.265（HM）作为锚点方法时，我们在HEVC B类、C类、D类、E类数据集上的平均比特率节省为4.58%。4.3. 消融研究我们提出的方法的烧蚀研究所示在图6中。我们采用FVC（再植入）作为基线方法。当与FVC（re-imp）相比时，我们的粗到细框架C2F在0.08bpp处实现了0.3dB的改进，这表明我们提出的粗到细框架C2F的有效性图6.HEVC E类数据集上的消融研究。（一）FVC（重新实施）：我们重新实施的基线方法FVC [15]。(2)C2F ：我们提出的从粗到精的视频压缩框架。(3)C2F+HAMC：我们提出的C2F框架配备了超先验指导的自适应运动压缩（ HAMC ）方法。（ 4 ）C2F+HAMC+HARC：我们提出的C2F框架配备了HAMC和超先验指导的自适应残差压缩（HARC）方法。用于运动补偿的精细策略。与C2F+HAMC方法相比，新提出的超先验指导自适应运动压缩（HAMC）方法在0.03bpp时性能提高了0.6dB。此外，我们观察到，粗到精的策略在更高的比特率下改善更多，而HAMC在更低的比特率下实现更多的改善。一种可能的解释是，从粗到精的策略旨在提高预测特征的质量，因此使用C2F框架来生成高质量的参考帧更有益，而我们的HAMC方案专注于比特率节省，因此可以在较低的比特率下减少更多的冗余。最后，我们提出的配备HAMC和超先验引导自适应残差压缩（HARC）方法的粗到精框架实现了最佳结果，并且在0.03bpp处比基线FVC（re-imp）高出1.2dB，这证明了我们提出的C2F框架和两种新方法HAMC和HARC的有效性。4.4. 模型分析粗到精运动补偿的可视化。为了验证我们提出的用于运动补偿的从粗到细策略的有效性，我们从HEVC B类数据集的第一视频中获取第5个重构的P帧来可视化运动信息和对应的运动补偿结果。为了实现公平的计算，我们在C2F框架中使用了与FVC（re-imp）相同的精细级运动压缩网络，而没有采用HAMC方法。可以观察到，我们的粗糙级偏移映射（参见图7（c））由粗糙块级运动信息组成，其易于压缩并且仅花费0.003bpp。我们还观察到，精细级偏移图（参见图7（d））可以比粗糙级偏移图捕获更多详细的像素级运动信息，这可以更好地处理更复杂的运动模式。因此，我们提出的两阶段粗到-PSNR5928×(a) 输入图像（c）粗准水平（0.003bpp）(b) FVC（再植入）（0.017bpp）(d) 精细级（0.014bpp）(a) 输入帧（b）重建残差(c) 预测的分辨率模式（d）预测的(e) 地面实况(f) FVC（再吸收）（28.8dB）（g）C2F（30.5dB）（e）运动的平均方差（f）残差的平均方差图7.（a）输入帧，（b）来自使用单尺度运动补偿的基线方法FVC（重新imp）的偏移图，以及（c）来自HEVC B类数据集上的我们的粗到细框架的粗级偏移图和（d）精细级偏移图的可视化我们还通过使用（f）基线方法FVC（re-imp）和（g）我们的C2F框架来提供（e）一个地面实况补丁及其同时给出了相应偏移图压缩的Bpps和相应运动补偿结果的PSNR精细运动补偿框架可以实现更精确的运动补偿结果（参见图7（g））。当与FVC（re-imp）（参见图7（f））相比时，我们的方法的PSNR在相似的比特率成本下提高了1.7dB，这表明我们的由粗到细策略可以显著提高运动补偿性能。此外，当与HEVC Class E数据集上的基线方法FVC（re-imp）相比时，使用我们的C2F框架后的运动补偿结果平均提高了1.14dB，同时成本类似bpps。预测模式的可视化。在图8中，我们以来自HEVC E类数据集的第三视频的第一P帧为例，并可视化重构的偏移和残差图，以及它们对应的预测分辨率和我们还分别从HAMC和HARC的超先验网络中可视化了它们相应的均值和方差值。从图在图8（e）中，我们观察到移动对象边界周围的区域基于这样的判别超先验信息，我们的方法HAMC将在对这样的区域中的运动信息进行编码时使用小的块大小（参见图 11 ）。 8（c））。相反，对于具有小的平均值和/或方差值的背景区域，较大的块尺寸将是优选的在图8（b）中，一些区域包含显著的残差信息（参见图8（f）中的大的均值或方差值）。基于超先验信息，我们的HARC方法在对残差信息进行编码时优选用于这些块的“非跳过”模式（参见图2）。（见第8（d）段）。图8.通过使用我们提出的方法HAMC（c）和HARC（d）对来自HEVC E类数据集的第三视频的第一P帧（输入帧和重构残差在（a）和（b）中示出）的预测模式进行可视化还示出了来自超先验网络的在（b，e，f）中，红色（分别为蓝色）去音符大（分别为。小）在相应位置处的残差/平均值/方差值。在（d）中，白色表示预测的运行速度。我们报告的推理速度，我们提出的框架的基础上的视频分辨率为1920 - 1080的机器上与一个单一的2080 TI GPU。我们提出的C2F+HAMC+HARC方法的运行速度为3.41 fps，而我们的基本C2F框架没有同时采用HAMC和HARC方法的运行速度为3.43 fps，这表明我们提出的超优先级引导模式预测方法带来的额外计算成本可以忽略不计。5. 结论在这项工作中，我们提出了一个新的粗到精（C2F）的视频压缩框架配备了两个新提出的超先验指导模式预测方案HAMC和HARC，这分别用于更准确的运动补偿和压缩运动和残差信息，以更少的比特成本。综合实验表明，我们的方法实现了相当的性能与 H. 265 （ HM ）的 PSNR 和一般优于 VTM 的 MS-SSIM。考虑到模式选择策略被广泛应用于传统的编解码器，如H.265，我们的工作打开了一扇新的大门，为后续的研究人员使用/扩展我们的超先验指导的方法，以确定其他类型的最佳模式，以更好的视频压缩性能。鸣谢本工作得到了国家重点研发项目（编号2018AAA0101900）的支持，部分得到了国家自然科学基金62102024的资助。5929引用[1] HEVC测试模型（HM）。 https：//hevc. 嗨。fraunhofer.de/HM-doc/.访问时间：2022-03-28。二、七[2] VVC测试模型（VTM）。 https：//jvet. 嗨。fraunhofer.de/.访问时间：2022-03-28。二、七[3] Eirikur Agustsson ， David Minnen ， Nick Johnston ，Johannes Ball e'，SungJinHang，andGeo r geToderici. 用于端到端优化视频压缩的尺度空间在IEEE计算机视觉和模式识别会议上，第8503-8512页，2020年。一、二、七[4] JohannesBall e' ， ValeroLaparra ， andEeroPSimoncelli. 端到端优化的图像压缩。国际学习表征会议（ICLR），2017年。二、六[5] JohannesBalle´ ， DavidMinnen ， SaurabhSingh ，SungJinHwang，and Nick Johnston.基于尺度超先验的变分图像压缩。2018年国际学习表征会议（ICLR）。2[6] Fabrice Bellard BPG 图像格式。网址 https ： //bellard.org/bpg，2015. 二、七[7] 陈正浩、古书航、郭鲁、洞虚。利用层内和层间冗余度进行基于学习的无损体图像压缩。IEEE Trans- actionson Image Processing，2022。2[8] Zhenghao Chen，Guo Lu，Zhihao Hu，Shan Liu，WeiJiang，and Dong Xu. LSVC：一个基于学习的立体视频压缩框架。在IEEE/CVF计算机视觉和模式识别会议论文集，第734-743页2[9] 郑学成、孙鹤鸣、Masaru Takeuchi和Jiro Katto。通过时空能量压缩学习图像和视频压缩。在IEEE计算机视觉和模式识别会议集，第10071-10080页，2019年。2[10] 郑学成、孙鹤鸣、Masaru Takeuchi和Jiro Katto。学习使用离散高斯混合似然和注意力模块进行图像压缩在IEEE/CVF计算机视觉和模式识别会议论文集，第7939-7948页2[11] 戴继峰、齐浩志、Y. Xiong，Y.李国东，H.Hu和Y.伟.可变形卷积网络。2017年IEEE计算机视觉国际会议（ICCV），第764-773页，2017年。4[12] Abdelaziz Djelouah，Joaquim Campos，Simone Schaub-Meyer，and Christopher Schroers.用于视频编码的神经帧间压缩在IEEE国际计算机视觉会议论文集，第6421一、二[13] Runsen Feng，Yaojun Wu，Zhizheng Zhang，and ZhiboChen.学会了用特征级残差进行视频压缩。在IEEE/CVF计算机视觉和模式识别研讨会论文集，第120-121页，2020年。2[14] 胡志浩、陈正浩、徐东、郭璐、欧阳万里、古书航。通过分辨率自适应流编码提高深度视频压缩。在欧洲，计算机视觉，第193-209页。Springer，2020年。二、七[15] 胡志豪，郭璐，徐东。FVC：一种新的特征

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

基于超先验模式预测的深度视频压缩方法的研究

基于深度学习的视频图像再压缩方法

基于超分辨率重建的强压缩深度伪造视频检测.docx

基于深度图像先验的图像恢复算法

基于深度图像先验超分辨率算法样本低分辨率处理

基于深度图像先验的图像重构算法

基于单目视觉的深度估计方法

研究内容2：基于学生先验知识与“趣味”度评价的教学模式研究

基 于深度图像先验的图像重构算法

现有水体富营养化预测方法的问题在哪里？为什么你提出的基于深度学习的水体富营养化遥感图像预测方法可以解决这些问题。

超先验变分自编码器原理

训练深度去噪先验去噪作用

基于先验知识的特征融合

基于matlab先验信噪比的维纳滤波算法

深度图像先验超分辨率算法训练代码

如何在深度学习中引入先验知识

基 于深度图像先验的图像重构算法流程

训练深度去噪先验(DDP)

单目深度估计 有什么高精度的方法

深度图像先验算法代码

最新资源

基于深度图像先验的图像重构算法

基于深度图像先验的图像重构算法流程

单目深度估计有什么高精度的方法