跨时间步长的像素值冗余提高神经视频编解码器效率

15 浏览量更新于2023-10-15 收藏 1.26MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

15355一阶冗余：跨时间步长的像素值的相似性。1通过利用分层冗余增强神经视频编解码器RezaPourreza，HoangLe，AmirSaid，GuillaumeSautie` re，AukeWiggersQualcomm AI Research{pourreza，hoanle，asaid，gsautie，auke} @ qti.qualcomm.org摘要在视频压缩中，通过经由运动和残差补偿重新使用来自先前解码的帧的像素来提高编码效率。我们在视频帧中定义了两个层次的层次冗余：1）一阶：像素空间中的冗余，即，相邻帧之间的像素值的相似性，这是使用运动和残差补偿有效捕获的，2）二阶：由于平滑运动，Frame− 1Frame��流量��→ − 1��框架 + 1流量：100+ 1 →100自然视频虽然大多数现有的神经视频编码文献解决了一阶冗余，但我们通过预测器解决了在神经视频编解码器中捕获二阶冗余的问题。我们介绍了通用的运动和残差预测，学习从以前解码的数据外推。这些预测器是轻量级的，并且可以与大多数神经视频编解码器一起使用，以提高它们的率失真性能。此外，虽然RGB是神经视频编码文献中的主要颜色空间，但我们介绍了神经视频编解码器的一般修改，以包含YUV 420颜色空间并报告YUV 420结果。我们的实验表明，使用我们的预测器与一个众所周知的神经视频编解码器导致38%和34%的比特率节省RGB和YUV420色彩空间上测量的UVG数据集。1. 介绍预计到2022年，视频流量将占所有互联网流量的82%以上[6]。随着视频分辨率和帧率需求多年来稳步增长，迫切需要开发能够以低比特成本传输视频数据的算法AVC [34]和HEVC [27]等标准视频编解码器正是为此目的而创建的。编解码器的目标是在传输消息所花费的比特数和原始数据及其重建之间的失真之间进行权衡。在视频设置中，标准编解码器通过使用先前的Qualcomm AI Research是Qualcomm Technologies，Inc.预印。正在进行中。图1：视频中的一阶和二阶冗余，这里显示的是（后向）光流。在像素空间中，帧与帧之间存在一阶冗余，光流图与光流图之间存在二阶冗余。作为上下文传输信息。例如，为了对当前帧进行预测，可以使用先前发送的帧。代替发送当前帧，可以发送先前重构与当前帧之间的运动。这允许使用运动补偿对当前帧进行初始预测传输运动通常具有比传输帧更低的比特成本，因为属于同一对象的像素的运动类似地，可以发送附加校正或残差如果残差是稀疏的，则发送残差的成本将比单独发送帧低得多标准的编解码器将这个想法更进一步，并进行运动矢量预测。由于视频中的平滑对象运动，运动矢量通常在时间步长上是相似的，因此可以基于先前的运动进行初始预测。这意味着编解码器只需要传输对该预测的校正，通常以低比特成本。为了区分这两种方法，我们区分视频中的两种类型的冗余。一阶冗余是像素域中的冗余。帧间编解码器使用运动补偿和残差编码来利用这一点。二阶冗余是由于视频中的平滑运动而导致的流和残差图中的冗余，其可以通过使运动矢量预测来利用二阶冗余：时间步长上光流的相似性。15356ppxp qL“EprβLpzq`Lpx，xqs.RDRD选项。这些被示意性地示出为图1中的运动。1.一、大多数现代神经视频编解码器使用两步过程仅利用一阶冗余[2，11，13，17]：流模型传输运动信息（光流），而残差模型传输残差图。也有利用二阶冗余例如，ELF-VC [23]预测了流量，而Liu et al. [16]在潜在空间中使用流和残差预测。在这项工作中，我们利用二阶冗余通过像素空间流和残差预测。我们设计了通用模型，预测流量和残差使用的历史可用的帧缓冲区。与潜在空间中的预测相比，这导致易于解释的预测，使得将预测器与许多现有的神经编解码器相结合成为可能，并提供显着的性能改进。此外，我们提供了多个输入颜色空间的评估。大多数关于神经视频编解码器的文献只提供了RGB颜色空间的解决方案和评估然而，标准编解码器被设计为与YUV 420输入一起操作。YUV420是一种颜色格式，它对YUV颜色空间的色度通道进行子采样，更接近人类感知图像的方式，并在压缩应用中节省带宽。为了衡量学习视频压缩与标准编解码器相比的进展，我们在RGB和YUV420输入格式上训练我们的编解码器。我们证明了神经编解码器可以在这两个领域中脱颖而出，并且只需要轻微的架构修改来处理不同的颜色空间之间的输入分辨率总之，本文的贡献是：1. 为了对神经编解码器进行分类，我们定义了视频中的分层冗余框架，并观察到大多数神经编解码器仅解决第一种类型的冗余。2. 为了利用二阶冗余，我们引入了通用的流和残差预测器，可以与现有的帧间编解码器配对，并提供强大的性能改进。3. 我们表明，简单的修改使编解码器能够在YUV420输入上运行，并报告RGB和YUV420性能。2. 相关工作2.1. 学习压缩这项工作的重点是所谓的学习编解码器，这意味着每个组件都是一个学习模型。基于神经网络的编解码器已成功应用于许多领域的数据压缩，包括图像[3，28，30]和视频[2，9，11，13，17，23]域。在这些系统中，神经编码器获取数据x并产生量化的潜在变量z，神经解码器在给定这个潜在值的情况下产生重建x神经先验或上下文模型用于学习潜在变量p z的分布。利用这种先验知识和熵编码算法，香农的源代码编码理论告诉我们，潜在的z可以使用'logppzq位进行有损压缩。神经编解码器通常被训练以最小化由两项组成的率失真损失：（一）速率项对应于传输量化的潜在变量z所需的比特数，并且失真项对应于重构之间的距离。和地面实况X。神经编解码器比手工编解码器有几个优点。首先，当他们学会从示例数据中识别冗余时，他们已经表现出了很强的专业化领域[9]甚至单个数据点[25，31，32]的能力。例如，如果编解码器仅用于编码动画内容，它可以很容易地微调到这个领域。其次，神经编解码器受益于通用神经硬件的进步，其中大多数视频编解码器需要专用硬件才能在设备上实时运行第三，它们已经证明能够产生理想的纹理，与用户研究中的传统编解码器相比，提高了感知质量[18，19，38]。2.2. 神经视频压缩在视频设置中，神经编解码器设计受到手工编解码器技术的启发。早期的作品使用帧内插[35]或联合预测帧的整个块[9]，最近的神经视频编解码器使用运动补偿和残差编码来利用帧之间的相似性。让神经网络学习端到端执行这些步骤，如[17]所介绍的，已经在低延迟[2，11，13，23，24]和流设置[14，22]中节省了大量比特率由于连续帧通常包含连续运动，因此运动信息和残差两者在给定先前帧的情况下是可预测的最近的神经视频编解码器利用了这一事实，例如，通过添加预测流[23]或预测运动和残留延迟的组件[16]。在这项工作中，我们使用简单的预测流量和残差。通过仅结合过去两个时间步的上下文，并避免状态性和周期性分量，我们避免了由于聚合误差而导致的不稳定性。不像ELF-VC [23]，我们的编解码器在网络中的任何地方都不需要标准化层，这使得编解码器更容易部署到硬件[1，21]。与Liu [16]不同，我们在像素空间中进行预测。这使得预测易于解释，并使我们的预测与不同的基础模型相结合。53573ˆp不p ppf不不不p2不22.3. YUV420色彩空间大多数神经视频编解码器都经过训练，以最大化RGB颜色空间中的PSNR或MS-SSIM然而，当根据人类观察者的视觉质量很重要时，其他颜色空间可能更适合。已知YUV颜色空间中的距离比欧几里得RGB空间中的距离更接近于人类感知[29]。大多数标准编解码器都被设计为在YUV420输入域中最大化这是YUV的二次采样，其中色度分量以4进行二次采样以降低比特率并满足带宽约束。为�� 图2：执行基本帧间编解码器架构HW输入，此二次采样产生一个HW亮度通道，和两个高亮度低色度通道。运动补偿和残差编码。W表示尺度空间扭曲。存在一些支持YUV420颜色格式[7，24]的学习视频编解码器，或者已经被训练以优化YUV域中的度量[23]。然而，到目前为止，还没有学习的视频编解码器在YUV 420域中显示出具有竞争力的PSNR或MS-SSIM。3. 方法3.1. 基本编解码器在这项工作中，我们引入流和残差预测捕捉二阶冗余的低延迟神经视频编码设置。虽然引入的预测器可以潜在地添加到任何神经视频编解码器中，但由于简单高效的网络设计和直接的训练时间表，我们在这里建立了众所周知的视频编解码器尺度空间流（SSF）[2]图2中所示的SSF的框图，其中 ft表示尺度空间流，Warp表示尺度空间扭曲。图4（a）示出了两个连续的视频帧，并且相关联的光流和残差图分别在图4（b）和（c）中示出。当然，第一时间步的流量和残差取决于前一帧，为了简洁起见，这里省略了从这些图中可以看出，光流图和残差比视频帧详细得多，使得它们更此外，由于该视频中的平滑运动，opti-�� 图3：我们的帧间模型的架构。W+表示一个尺度空间扭曲，然后求和。1. 流量预测：顾名思义，我们使用已解码帧x和x的历史以及先前的流来预测当前时间步长fp的流。校准流程和残差图在整个ppt′ 1pt′ 2两个时间步长3.2. 预测因子在这里，我们在SSF之上构建了一个神经视频编解码器，其中我们保持帧内编解码器以及帧间编解码器中的流块和剩余块不变。我们添加ft′ 1，如下：pt这里，Flow-Pred是一个轻量级网络，它使用提供的输入直接预测fp预测流fp然后用于生成当前帧xp的预测。这个操作只在反式上进行流和残差预测器到基本帧间编解码器，图3所示在那边。pp（3）帧间编码经由如下的四步过程完成：1）流预测，2）流压缩，3）残差预测，4）残差压缩。这四个步骤解释如下：xt2. 流量压缩：在该步骤中，预测流量fp使用所测量的Δfl_ w_f_t进行校正，��−1Flow-AE电子秤W-��Res-AE��−1��−2��መ��−1Δ��መ��መ��W+W流量-AERes-Pred��−1��−1-Δ��ΔΔΔRes-AEW流量预测流预测流程单元流动阻滞残留阻滞残差预测残余块+++45358ppp ppf不wppx “Warpppx，fq（6）t'1tp不p不pX不ptpRWppp不pxptp通过Flow-AE传输：p∆ft不这里，Flow-AE是一个与SSF中的网络相同的超先验网络。运动补偿帧xw为使用校正后的流量ft生成：不3. 残差预测：我们基于运动补偿后的帧xw和xw以及先前解码的帧不xt′ 1 pt′ 1w w（七）rt在这里，Res-Pred是一个轻量级网络，它使用提供的输入直接预测rp 考虑到rt“x t ′ x w，基本原理是Res-Pred应该能够不预测r通过观察xxw. 接下来，rp是不适用于Wt′ 1rwpt'1t（8）第一次见面4. 残差压缩：在这一步中，预测的残差-使用Δ残差Δ r校正了ual r p 即通过Res-AE传输：：中文（简体）rt在这里，Res-AE是一个超先验网络，与一个在SSF。最后，生成解码帧x不如下所示（十）以下几点值得强调：• 所有使用的流都是尺度空间流，所有的扭曲操作都是尺度空间扭曲[2]。• Flow-Pred和Res-Pred均具有沙漏结构。Flow-AE和Res-AE的解码器分别以Flow-Pred和Res-Pred的瓶颈特征为条件。• 我们总是将序列中的第一帧编码为帧内帧，将后续帧编码为帧间帧。F或第一帧间x1，注意xt'2，pft'1，和X图4：视频（a）、流（b）和残差（c）、流预测和增量流（d，e）以及残差预测和增量残差（f，g）的图示。Netflix El Fuente中的Tango视频截图*[36]图4（d）和（f）分别显示了预测流量和图4（e）和（g）显示了相关的三角洲流量和三角洲残差。如这里可以看到的，预测的流量和残差图非常接近于实际图，留下了少得多的相关的Δ流量和Δ残差。3.3. RGB和YUV420架构Wt′ 1 没有可用的。它们的设置如下：xpt<$2（十一）大多数关于神经视频编解码器的文献都提供了解决方案RGB色彩空间。由于R，G和B通道共享相同的分辨率，因此使用RGB视频是非常重要的。ft“1• 为了在第2步中构造总流，我们选择对预测流进行扭曲，我们观察到这比加法操作带来更好的性能。也使用了其他方案，例如通过Flow-AE输出缩放和移位[23]。（b）第（1（c）第（1）款残留��量（d）其他事项预测流量（e）三角洲流量Δφ��（f）第（1）款剩余剩余电（g）Δ残差��Δ（一）联系我们：：45359因为网络可以方便地在网络输入和输出中连接它们然而，标准编解码器被设计为使用YUV420输入，主要是因为与人类视觉相似。由于YUV420色彩空间中的色度通道在二次采样空间中，因此一些色度通道在二次采样空间中。*Netflix制作的视频，CCBY-NC-ND 4.0许可证：https://media.xiph.org/video/derf/ElFuente/Netflix_Tango_Copyright.txt45360瓶颈tconv，t4，5×5，↑2tconv，t2，5×5，↑2conv，c4，5×5，↓2conv，c2，5×5，↓2tconv，t1，5×5，↑2 D1E1conv，c1，5×5，↓2RGB输出RGB输入ˆ亮度输出色度输出模块c1t2 c2t3 c3t4 c4图像-AE128 128 128 192(a)E2D2Flow-Pred163264128conv，c3，5×5，↓2tconv，t3，5×5，↑2Res-Pred163264128表1：网络架构详细信息。对于所有组件，T1取决于输出通道的数量。（b）第（1）款（c）第（1）款图5：a）RGB色彩空间的网络架构，b）YUV 420输入头，c）YUV 420输出头。c*和t*分别指示卷积层和转置卷积层中的滤波器的数量需要对网络体系结构进行修改以适应YUV420视频。图5（a）显示了我们在RGB颜色空间的预测器和网络自动编码器中使用的输入由编码器输入头E1解析并通过编码器主干E2。解码器由主干D2和解码器输出头D1组成。在瓶颈处，预测器简单地将编码器输出直接传递到解码器。传输信息的组件将在将潜在内容传递给解码器之前对其进行解码。为了使编解码器与容纳YUV 420输入/输出，我们更新输入/输出头E1/D1在网络的所有组件，如图5（b）/（c）。E1和D1分别处理亮度（Y）和色度（U和V）通道，只有亮度通道是向下或向上采样的。最后，对于YUV420编解码器，分别对亮度和色度通道应用扭曲这确保了扭曲总是在最高可用空间分辨率上执行4. 实验4.1. 网络架构我们的编解码器中的所有组件都遵循图5所示的架构。convo中的过滤器数量Module Parameters KMAC/pixel图像-AE9.414 M 30.4% 198.2 30.6%流量-AE10.038 M 32.4% 210.2 32.4%Res-AE10.028M 32.5% 207.8 32.0%流量预测0.748 M 2.4% 16.2 2.5%Res-Pred0.748M 2.4% 16.2 2.5%图像-AE9.496 M 30.4% 208.0 30.5%流量-AE10.124 M 32.4% 225.7 33.0%Res-AE10.111 M 32.3% 217.6 31.9%流量预测0.751 M 2.4% 16.3 2.4%Res-Pred0.750M 2.4% 15.3 2.2%表2：RGB（上图）和YUV420（下图）编解码器的每个像素的参数和MAC。常规和转置卷积层由c1，...，C4和T1，...，T4，分别。更多详情见表1。在主要的自动编码器中-我们在表2中报告了我们的编解码器的计算复杂度，其中我们显示了每个模块的参数数量和乘法和累加操作（MAC）的数量。MAC计数通过输入像素的数量进行归一化，以实现跨输入模态和分辨率的比较我们还显示了相应的百分比，以将这些数字放在上下文中。我们强调，对于每个I帧，仅使用Image-AE，并且该模型不用于P帧。例如，对于长度为10的序列，RGB编解码器的MAC总数为1 - 198。第210页。2207年。8`十六岁两英尺十六英寸。每像素1q KMAC使用MAC作为计算复杂性的代理，我们观察到接收方预测器产生的计算成本很小，仅占整个模型的2.5%。另外，对于每个P帧，两个预测器都比P帧自编码器少产生12个MAC。虽然由于子采样色度分量，YUV 420输入具有比RGB输入更少的维度，但YUV420编解码器使用单独的层来处理亮度和色度通道的事实导致比RGB编解码器更高的参数计数和conv，c1，5×5，↓2conv，c1，3×3，↓1E1concatconv，c1，1×1，↓1tconv，t1，5×5，↑2tconv，t1，3×3，↑1分D1dconv，2*t1，1×1，↓1色度输入明度输入RGBYUV420流量-AE128128128192Res-AE12812812819245361RGB神经编解码器（RGB）RGBYUV420标准编解码器（YUV）ˆˆˆˆˆ4.2. 数据集训练是在Vimeo90K数据集上进行的[37]，这是一组89，800个RGB分辨率为256448的视频序列。我们对三种常见的视频压缩基准数据集进行评估：UVG[20]、MCL-JCV [33]和HEVC的B类（公共测试条件）[5]，所有这些都可以在原始YUV 420格式中获得。UVG包含7个全高清（即，1920 1080）视频，帧速率高达120 fps。MCL-JCV包含30个30 fps的全高清视频。HEVC Class B包含5个不同帧率的全高清视频。4.3. 培训（一）（b）第（1）款标准编解码器YUV失真YUV失真标准编解码器RGB失真神经编解码器RGB失真我们训练批量大小为8的编解码器，其中每个序列有4个大小为256 256的帧，产生一个I帧和三个P帧。我们在MSE和MS-SSIM上优化了编解码器。具体来说，我们最初在MSE上训练所有模型进行1，000，000次梯度更新，然后在MS-SSIM上训练MS-SSIM模型进行额外的200，000次梯度更新，最后对所有模型进行100，000次梯度更新的微调。训练是在256 256个学习率为10“4的补丁上完成的，微调是在256 384个学习率为10”5的补丁上完成的，使用亚当优化器。对于RGB编解码器训练，Video 90 k用于原生RGB色彩空间，MSE和MS-SSIM都是AV。在R、G和B频道上播放。对于YUV 420编解码器训练，使用ffmpeg将Video90 k转换为YUV 420，并且我们通过因子6来加权亮度分量的MSE和MS-SSIM，并且图6：YUV420（a）和RGB（b）的评估过程。色彩空间转换是使用ffmpeg来完成的。4.5. 结果我们在UVG、MCL-JCV和HEVC-B数据集上测量率失真性能。我们使用PSNR和MS-SSIM作为失真度量，并以每个像素的比特数来度量比特率。我们将我们的RGB和YUV420编解码器与称为HM的HEVC参考实现进行比较。16.25 [10]以及HEVC和AVC的ffmpeg实现我们总是使用图片组大小“无限”，即使一些神经基线使用不同的HM用于低延迟P配置，ffmpeg用于所有默认参数，但禁用B帧。所用HM和ffm请参见附录6.2peg命令。我们比较我们的RGB编解码器与repre-18色度分量由一个因素8，符合评估-用于标准编解码器的评估过程[26]。4.4. 评价我们评估所有型号的率失真率。RGB中的PSNR度量对所有颜色通道同等地加权。对于YUV420输入，亮度通道通过因子6加权，并且两个色度通道通过因子6加权。包括DVC的语义神经视频编码方法[17]，SSF [2] 、 M-LVC [15] 、 FVC [13] 、 ELF-VC [23] 、RDAE [9]，[12][13][14][15][16][17] RGB和YUV420率失真的结果显示在图7和8，分别。这里，SSF-YUV是SSF的重新实现，具有所需的YUV 420修改。188.这与该指标的使用方式一致，标准编解码器[26]。由于没有共同商定的UVG HEVC-B MCL-JCV平均值-38.01%-26.51%-16.48%测量YUV 420输入的MS-SSIM的方法，我们只需遵循与PSNR相同的过程，重新加权用于亮度和色度分量的MS-SSIM。由于评估数据集以原始YUV420格式提供，因此它们用于表3：RGB PSNR相对于SSF基础模型的BD速率节省。越低越好。UVG HEVC-B MCL-JCVYUV420编解码器评估，见图6（a）。然而，eval-YUV420神经编解码器（YUV）YUV420YUV420标准编解码器（YUV）RGBYUV420在RGB中评估需要从YUV420转换为RGBY-28.34%-28.50%-21.85%使用ffmpeg，如图6（b）所示。U-47.32%-44.38%-34.63%4536288大多数标准编解码器都设计用于YUV420输入域。为了能够与标准编解码器进行公平的比较，我们始终为它们提供YUV 420输入，并始终在YUV 420色彩空间中操作它们。YUV420输出被转换到目标色彩空间（如果需要），如图6（a）和（b）所示，分别与我们的YUV420和RGB编解码器进行比较。V-55.68%-43.72%-36.51%平均值-34.13%-32.39%-25.28%表4：相对于SSF-YUV模型，YUV 420 PSNR的BD速率节省。对于平均结果，亮度和色度BD率分别加权6和1越低越好。45363[23]第二十三话SFF [2]M-LVC[15]AVC（FFMPEG-x264）AVC（FFMPEG-x264）`不不ăpUVG41HEVC-B37MCL-JCV4240363940353838373436353433320.0 0.1 0.2 0.3 0.4 0.50.6速率（每像素位数）UVG0.990.980.970.960.950.0 0.1 0.2 0.3 0.40.5速率（每像素比特数）HEVC-B0.990.980.970.960.950.0 0.1 0.2 0.3 0.4 0.5速率（每像素位数）MCL-JCV0.990.980.970.960.940.940.950.930.0 0.1 0.2 0.3 0.4 0.50.6速率（位/像素）0.930.0 0.1 0.2 0.3 0.40.5速率（位/像素）0.940.0 0.1 0.2 0.3 0.4 0.5速率（位/像素）图7：UVG、HEVC Class-B和MCL-JCV数据集的RGB率失真曲线。在RGB颜色空间中，我们在PSNR和MS-SSIM方面优于几乎所有的比较方法，除了最近的C2F [12]。在YUV 420颜色空间中，经典的编解码器在YUV PSNR上占主导地位，但我们的编解码器在所有数据集上都获得了更好的MS-SSIM。许多现代神经编解码器使用运动补偿和残差编码，我们强调我们的方法通常也适用于这些编解码器。这里，我们将我们的方法应用于SSF架构，因此测量了相对于表3和表4中的（重新实现的）SSF和SSF-YUV基线的性能改进。我们看到性能改进是实质性的，在UVG数据集上超过30%。因此，虽然我们没有在RGB颜色空间中生成最先进的结果，但我们的方法有可能被添加到更强的基础方法中并改进最先进的方法。4.6. 消融为了分离我们的方法的每个组件的效果我们逐步添加流预测器、残差预测器以及预测器和自动编码器的瓶颈之间的连接（条件）。相应的Bjontegaard-Delta[4]（BD）速率增益如表5所示每次添加都会导致强大的BD速率增益，并且流量预测器对高帧率UVG数据集的组件UVGHEVC-BMCL-JCV基础模型百分之零点零百分之零点零百分之零点零+流量预测器-29.60%-9.24%-9.88%+res预测器-33.73%-20.37%-10.34%+条件-38.01%-26.51%-16.48%表5：RGB PSNR相对于SSF基础模型的BD速率节省越低越好。此外，我们分别测量流和剩余比特流的比特率节省，以证明Flow-AE和Res-AE都受益于我们的为了测量每个分量的BD速率，我们使用输出PSNR作为失真，并使用每个分量的各个比特流大小图9中示出了UVG、HEVC B类和MCL-JCV数据集的BD速率增益与PSNR的关系。这里，可以观察到，预测器在所有PSNR值上对流和残余比特流两者都提供显著的速率节省为了完整起见，我们列出了两种在早期实验中不适用的训练技术，因此被使用辅助损失对由流量和残差预测产生的重建进行训练，xp和xr并不比仅使用重建上定义的失真损失xt更好。[23]中的时间损失调制导致1%的速率节省，因此我们省略了它为了简单起见。[23]第二十三话AVC（FFMPEG-x264）[23]第二届中国国际航空航天博览会[15]第13话：我的世界，我的世界。AVC（FFMPEG-x264）HEVC（FFMPEG-x265）我们[12]第十二届全国政协委员AVC（FFMPEG-x264）HEVC（FFMPEG-x265）我们RGB MS-SSIM[12]第十三届全国政协副主席[13]AVC（FFMPEG-x264）HEVC（FFMPEG-x265）我们RGB PSNR（dB）[17]第十三话33[17]第十七话：36[13]第十三话C2F[12]32C2F[12]C2F[12]HEVC（FFMPEG-x265）HEVC（HM）31HEVC（FFMPEG-x265）HEVC（HM）34HEVC（FFMPEG-x265）HEVC（HM）我们我们我们303245364AVC（FFMPEG-x264）HEVC（FFMPEG-x265）SSF-YUV我们AVC（FFMPEG-x264）HEVC（FFMPEG-x265）SSF-YUV我们UVG44HEVC-B4140MCL-JCV443942 42384037403638 38353436 3633340.00 0.05 0.10 0.150.20速率（每像素位数）UVG320.000.05 0.10 0.15 0.20 0.25 0.30 0.35 0.40速率（每像素比特数）HEVC-B340.00 0.05 0.10 0.15 0.20 0.25速率（每像素位数）MCL-JCV0.9950.9900.9850.9800.990.980.970.9950.9900.9850.9800.9750.9750.960.9700.9700.00 0.05 0.10 0.150.20速率（位/像素）0.950.000.050.100.150.200.250.300.35零点四速率（位/像素）0.9650.00 0.05 0.10 0.15 0.20 0.25速率（位/像素）图8：UVG、HEVC Class-B和MCL-JCV数据集的YUV 420率失真曲线。UVG数据集102030405034 36 38 40峰值信噪比（dB）HEVC-B数据集020406032 34 3638峰值信噪比（dB）MCL-JCV数据集0102030405034 36 38 40峰值信噪比（dB）图9：流和残余比特流的BD速率节省与RGB PSNR以及SSF基线的总和越低越好。5. 结论在这项工作中，我们证明了接收端信息的改进使用大大提高了神经视频编解码器的率失真性能。通过让解码器根据先前传输的信息预测当前时间步长的流和残差，我们的编解码器只需要传输一个校正，从而在该过程中节省比特。这导致Bjontegaard-Delta速率节省高达30%，相比于普通视频基准数据集上的尺度空间流基线。所需的架构修改很简单，只需要轻量级组件，也适用于其他神经视频编解码器。此外，我们在RGB和YUV420输入域只有轻微的架构修改，并显示在这两个设置相比，神经和标准基线强大的性能。由于标准编解码器被设计为优化YUV 420 PSNR，因此我们的编解码器在低比特率机制中在该指标上没有优于HM，但在YUV 420 MS-SSIM上大大优于HM编解码器。烧蚀表明，流量和残留预测有助于最终的性能。影响陈述学习的编解码器可能会导致训练数据中存在的偏差。尽管如此，我们相信，通过降低带宽和存储空间需求，以及提高视频应用（如视频会议）的视觉质量，提高视频编码效率对世界产生了净AVC（FFMPEG-x264）HEVC（FFMPEG-x265）SSF-YUV我们AVC（FFMPEG-x264）HEVC（FFMPEG-x265）SSF-YUV我们AVC（FFMPEG-x264）HEVC（FFMPEG-x265）SSF-YUV我们AVC（FFMPEG-x264）HEVC（FFMPEG-x265）SSF-YUV我们流量-AE残留-AE总计流量-AE残留-AE总计流量-AE残留-AE总计YUV MS-SSIM2016年10月25日，中国（YUV PSNR（dB））2016年10月25日，中国（）2016年10月25日，中国（）45365引用[1] 低功耗计算机视觉：提高人工智能的效率（第1版）.Chapman and Hall/CRC，2022。[2] Eirikur Agustsson ， David Minnen ， Nick Johnston ，JohannesBalle，Sung Jin Hwang，and George Toderici.用于端到端优化视频压缩的尺度空间流。在2020年IEEE计算机视觉和模式识别会议上[3] EirikurAgustsson ， MichaelTschannen ， FabianMentzer，Radu Timofte和Luc Van Gool。用于极端学习图像压缩的生成对抗网络。在2019年IEEE计算机视觉和模式识别会议上[4] 吉赛尔·比约恩特加德平均PSNR差在rd曲线之间。2001年[5] Frank Bossen 等人常见测试条件和软件参考配置。JCTVC-L1100，12（7），2013年。[6] Cisco. 报告：大部分互联网流量来自哪里？2017年。[7] 希尔米·E Ankitesh K. Egilmez Singh，Ammed Coban，Marta Karczewicz ， Yinhao Zhu ， Yang Yang ， AmirSaid，and Taco S.科恩用于子采样颜色空间中基于深度学习的端到端图像/视频编码的变换网络架构。IEEEOpen Journal of Signal Processing，2：441[8] AdamGolin' ski，RezaPourreza，YangYang，GuillaumeSauti e`re和TacoS。科恩视频压缩反馈递归自动ACCV，2020年。[9] Amirhossein Habibian ， Ties van Rozendaal ， Jakub MTom-czak和Taco S Cohen。使用率失真自动编码器的视频压缩。IEEEInternational Conference on Computer Vision，2019。[10] 嗯HEVC官方测试模型。 https://hevc.hhi。fraunhofer.dewww.example.com，2021，2021.[11] 胡志豪，郭璐，郭金阳，刘山，姜伟，董旭。具有超先验引导模式预测的从粗到精的深度视频编码在IEEE/CVF计算机视觉和模式识别会议论文集，第5921-5930页[12] 胡志豪，郭璐，郭金阳，刘山，姜伟，董旭。具有超先验引导模式预测的从粗到精的深度视频编码在IEEE计算机视觉和模式识别会议论文集，2022年。[13] 胡志豪，郭璐，徐东。FVC：一个新的框架在特征空间中进行深度视频压缩。在IEEE/CVF计算机视觉和模式识别会议上，第1502-1511页，2021年[14] The'oLadune，PierrickPhilippe，WassimHamidouche，LuZhang，andOl i vierD'e'forge. 用于灵活学习视频压缩的条件编码ICLR神经压缩研讨会，2021年。[15] 林建平，刘东，李厚强，凤舞。M-lvc：用于学习视频压缩的多帧预测。IEEE计算机视觉与模式识别会议论文集，2020年。[16] Chao Liu，Heming Sun，Jiro Katto，Xiaoyang Zeng，and Yibo粉丝学习使用残差预测和环路滤波器进行视频压缩八月2021年。[17] 郭璐，欧阳万里，徐东，张晓云，春雷Cai，and Zhiyong Gao.Dvc：一个端到端的深度视频压缩框架。在IEEE计算机视觉和模式识别会议集，2019年。[18] Fabian Mentzer， Eirikur Agustsson ， Johannes Balle' ， DavidMinnen，Nick Johnston，and George Toderici.使用gans进行细节合成和传播的神经视频压缩arXiv预印本arXiv：2107.12038，2021。[19] Fabian Mentzer，George Toderici，Michael Tschannen，and艾瑞克·阿古斯松高保真生成图像压缩。神经信息处理系统，2020。[20] Alexandre Mercat，Marko Viitanen和Jarno Vanne。UVG数据集：50/120 fps 4k序列，用于视频编解码器分析和开发。第11届ACM多媒体系统会议集，MMSys'20，第297-302页，美国纽约州纽约市，2020年计算机协会。[21] Markus Nagel ， Marios Fournarakis ， Rana Ali Amjad ，Yely-Sei Bondarenko ， MartvanBaalen ， and TijmenBlankevoort.神经网络量化白皮书，2021年。[22] Reza Pourreza和Taco S Cohen。扩展神经p-框架用于B帧编码的编解码器。IEEE计算机视觉国际会议，2021年。[23] Oren Rippel，Alexander G Anderson，Kedar Tatwawadi，San-杰·奈尔克雷格·莱特尔和卢博米尔·布尔德夫ELF-VC：高效的学习可调速率视频编码。神经信息处理系统，2021年。[24] 安基特什K辛格，希尔米E埃吉尔梅兹，RezaPourreza，作者声明：Dr. Coban，Marta Karczewicz，and Taco SCohen一种基于深度学习的YUV色彩空间端到端视频编码架构。Apr. 2021年。[25] Yannic k Str ümpler， Janis Postels ， RenYang， LucV anGool，和费德里科·汤巴里用于图像压缩的隐式神经表示。arXiv预印本arXiv：2112.04267，2021。[26] Jacob Stro？ m，Kenneth Andersson，Rickard Sjo？ ber g，Andre wSegall ， Frank Bossen ， Gary Sullivan ， Jens-RainerOhm，and Alexis Tourapis.使用客观指标评估视频编码效率实验的工作实践（草案4 ）。输入文件JVET-T2016-v2，ITU-T SG 16 WP 3和ISO/IEC JTC 1/SC 29的联合视频探索小组（JVET），2016年10月2020年。[27] 加里·J·沙利文 Jens-Rainer Ohm，韩宇进，托马斯·韦根。高效率视频编码（h

下载后可阅读完整内容，剩余1页未读，立即下载