基于学习的视频压缩的研究和里程碑

20 浏览量更新于2023-12-09 收藏 13.13MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Trinh Man Hoang, M.E a , Jinjia Zhou, PhD a , b , ∗ a Graduate School of Science and Engineering, Hosei University, Tokyo 1848584, Japan b JST, PRESTO, Tokyo, Japan 0认知机器人1（2021）145-1580ScienceDirect提供的内容列表0认知机器人0期刊主页：http://www.k eaipublishing.com/en/journals/cognitive-robotics/0最近基于学习的视频压缩趋势：一项调查0a r t i c l e i n f o0关键词：视频压缩，深度学习，基于学习的压缩0a b s t r a c t0最近视频内容和视频分辨率的增加推动了对视频压缩技术的更多探索。与此同时，基于学习的视频压缩由于其内容适应性和可并行计算而在过去几年中受到了很多关注。尽管引入了一些有希望的报告，但还没有突破性的工作能够进一步走出研究领域。在这项工作中，我们提供了关于基于学习的视频压缩研究及其里程碑的最新概述。特别是，报告了最近关于用于传统编解码器适应的基于学习的模块和基于学习的端到端视频压缩的研究思路以及它们的优缺点。根据回顾，与当前的视频压缩标准如HEVC或VVC相比，集成方法实现了3%到12%的BD率降低，而端到端方法在感知质量和结构相似性方面取得了优于表现的结果。此外，根据当前的障碍提供了未来的研究建议。我们得出结论，为了长期的利益，计算复杂性是需要解决的主要问题，特别是在解码器端。而速率相关和生成设计有望提供更低复杂度的高效基于学习的编解码器。0介绍0随着视频内容的增加，如今，70%的互联网流量用于基于视频的应用，包括实时直播，低延迟的在线通信和视频点播平台。同时，视频分辨率和保真度也取得了巨大的进步（例如4k，8k，千兆像素，高动态范围，位深度），使得当前的情况更加严峻。因此，许多努力都投入到了改进视频压缩算法上，其任务是在保持人类视觉系统可接受的视觉质量的同时减小视频大小。通过尺寸缩减的好处，视频编解码器已被广泛应用于视频点播平台，如视频流媒体平台（YouTube，Twitch），在线会议系统（Zoom，Skype）或在线诊断系统等。现有的传统视频压缩方法以其手工制作的特征而闻名。例如，在带宽较窄的情况下，典型的基于块的视频压缩标准，如H.264/AVC，H.265/HEVC和即将推出的H.266/VVC通过分配大的量化参数和编码单元大小参与这些特征。最近，神经网络（基于学习的），特别是卷积神经网络（CNN）的发展引起了压缩领域研究人员的关注。与传统的基于块的手工制作编码不同，因为基于学习的方法可以提取和利用数据的特征，它们可以通过避免块类型的特征获得更好的视觉质量。从早期开始，图像压缩，这是视频压缩的基础，首先应用了基于学习的方法0�通讯作者。电子邮件地址：trinhman.hoang.3f@stu.hosei.ac.jp（T.M. Hoang），zhou@hosei.ac.jp（J.Zhou）。0https://doi.org/10.1016/j.cogr.2021.08.003 2021年8月25日在线发表 2667-2413/© 2021 The Authors. Publishing Services by Elsevier B.V. on behalf of KeAiCommunications Co. Ltd. 本是一篇CC BY-NC-ND许可下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）146 0T.M. Hoang and J. Zhou 认知机器人学 1 (2021) 145–1580方法。随着基于学习的图像压缩的非凡性能与传统方法相比，学习型视频压缩在过去几年中得到了广泛的研究，并取得了显著的里程碑。因此，为了深入了解当前的情况、趋势方向和学习型视频压缩的未来发展，本文提出了使用神经网络进行视频压缩的全面回顾。有许多方法可以将基于学习的方法应用于视频压缩。从早期开始，它们可以是传统编解码器的集成或替代模块，然后它们进一步成为外部协作或引导模块。这些模块已经展示了令人印象深刻的压缩性能，并且仍在不断改进。与此同时，从研究人员可以在压缩中克服不可微分的量化过程的观点来看，基于学习的端到端压缩方法受到了很多的关注。在基于学习的端到端压缩中，所有组件都是可学习的，并且与解决全局目标函数相关联，压缩中的目标函数通常是表示速率（比特数）和失真（质量）相关性。与通常基于局部最优的传统编解码器不同，全局目标函数有助于学习型端到端编解码器找到全局优化点，这在理论上揭示了进一步性能改进和按需压缩能力的巨大潜力。因此，在本文中，我们将我们的调查分为两种主要方法：0•传统的基于学习的合作方法。这种方法包含了传统方法和基于学习的方法的联合处理，其中主要组件通常是传统编解码器。基于学习的方法可以作为内部模块（帧内预测、帧间预测、循环滤波）、外部增强模块（后处理）或引导（基于超分辨率、基于分层）来使传统编解码器受益。•基于学习的端到端压缩方法。这种方法只包含全局目标函数的可学习组件。然而，它们的框架非常灵活，可以进一步分为两个主要子方法，预测视频编码和生成视频编码。预测视频编码通常设计为反映基于预测和残差计算的传统压缩设计。而生成视频编码可以被视为可变自动编码器（VAE）技术的延伸。0本文的其余部分结构如下。在第2节中，我们简要总结了基于学习的压缩通过图像压缩方案，因为它可以被视为视频压缩的基础。第3节涵盖了传统的基于学习的合作方法，包括在帧内预测、帧间预测、循环滤波、后处理和引导模块上的学习实现。第4节提供了基于学习的端到端压缩方法的回顾，包括预测视频编码、生成视频编码以及最近的趋势方向。我们还在每节结束时对它们的优缺点进行了简要比较。最后，第5节总结了当前的情况，指出了潜在的未来研究方向并总结了本文。0压缩系统概述0图像压缩是信号处理的原始技术，也是视频压缩设计的基础。同时，视频压缩很可能是图像压缩的扩展版本，具有额外的时间关系。因此，在本节中，我们介绍传统和基于学习的图像压缩的简要回顾，以便为您提供压缩系统设计的一些背景知识。基本上，传统变换图像压缩管道包括一些基本模块，即变换、预测、量化和熵编码。变换是为了将图像像素值转换为紧凑且相关性较小的系数而提出的。变换函数，如傅里叶变换[17]，哈达玛变换[18]，或常用的离散余弦变换（DCT）[19]，可以将图像能量压缩到低频域，因此，比直接使用图像像素值具有更好的压缩性能。接下来，预测和量化技术旨在减少图像中的空间和视觉冗余。在图像压缩中，预测旨在提供相邻块之间转换分量的残差，而视频压缩通过考虑来自参考帧的块来扩展它。然后，量化通过剪枝系数向量中不太重要的信息来移除最不显著的信息。已经介绍了一些改进量化的方法，如矢量量化[20]和栅格编码量化[21]，但大多数现有的图像编解码器将量化结果舍入为整数形式以节省每个值的位大小。之后，相关系数通过熵编码进行压缩。熵编码将处理向量中的统计冗余，例如霍夫曼编码[22]，算术编码[23]，基于内容的自适应二进制算术编码（CABAC）[24]。例如，最常见的图像标准JPEG[25]使用DCT来变换每个8×8的分割图像块。然后，应用差分脉冲编码调制（DPCM）[26]来找到DC分量和其相邻DCT块之间的预测残差。将量化矩阵和舍入函数应用于预测残差。然后，通过算术熵编码对量化系数进行无损压缩并发送到信道。大多数现有的基于块的图像和视频编解码器，如JPEG、JPEG2000[27]、BPG[28]用于图像压缩和AVC/H.264、HEVC/H.265或即将推出的VVC/H.266用于视频压缩，都是基于块的，每个块也是顺序相关的。这些属性是块伪影的原因，并且阻止编解码器在并行计算平台上运行。此外，每个模块通常都是独立设计和优化的，这也限制了压缩性能，因为存在局部优化。与此同时，由于并行计算的GPU发展的好处，神经网络在许多领域取得了巨大的进步。特别是，卷积神经网络及其扩展设计已经证明可以很好地学习图像的空间特征，可以服务于许多图像和视频处理任务。T.M. Hoang and J. Zhou Cognitive Robotics 1 (2021) 145–158 147 0然而，将CNN模型添加到压缩框架中并不是微不足道的。训练CNN需要损失函数对CNN可训练参数的可微性。然而，有损压缩框架的量化模块几乎在所有地方产生零梯度，这会终止CNN训练过程中的参数更新。早期的学习型图像压缩工作让传统编解码器在学习型重建图像与原始图像之间的预测残差上进行量化。然后，自动编码器网络的瓶颈层的无损潜在部分和量化残差被用于解码器上重建图像。受CNN-based超分辨率的成功启发，[40-42]通过首先将原始图像降采样到较小比例，然后将其输入到传统编解码器来进一步改进框架。后处理模型被添加到传统编解码器的输出上以满足信息的丢失。然而，由于图像经过了两个有损模块的处理，残差的质量变得极差，而没有任何特定的训练过程。指出主要信息不应丢失，并且图像可以被划分为不同的方面，近年来，分层图像压缩取得了杰出的成就。在分层图像压缩中，图像通常被分离或转换为两个组成部分：最具信息量的部分和重建辅助信息。最具信息量的部分通常是密集而紧凑的，并且将以无损压缩以保留重要信息。同时，重建辅助信息和残差可以根据比特率要求进行有损压缩。重建辅助信息从颜色掩码[47]，语义信息[43,46,48,49]到注意力掩码[50-53]各不相同。最常见的重建辅助信息是语义掩码，它在性能上优于传统图像编解码器如JPEG或BPG。这种方法仍然引起研究人员的关注，最近[46]已经证明一些重建辅助信息不需要发送到可以节省大量比特率的通道上。根据BD率降低[54]，表示在相同的重建质量下传输比特减少的比率，上述方法在压缩比方面取得了显着的成果。然而，它们的缺点显而易见，基于学习的模型的额外计算加上与传统编解码器的顺序处理导致编码器和解码器两侧的负担非常沉重。更糟糕的是，由于它依赖于不可训练的传统编解码器，学习型模块通常会陷入失真质量的局部最优化。针对这些问题，研究人员最近更加关注端到端的学习型图像压缩。给定输入图像x及其分布px，编码器与变换器E和量化器Q，离散量化码y和重建x随后生成如下:0�y = Q ( E ( x , θ e )) (1)0�x = IE ( Q ( E ( x , θ e )) , θ ie ) (2)0其中IE是解码器上的反向变换，� e，� ie分别表示E和IE的参数。端到端压缩将失真D和压缩比特率R都纳入损失函数中，如下所示：0L = R ( �y ) + λD ( x , �x ) (3)0其中D可以是任何失真函数（MSE [55]，SSIM [56]，MS-SSIM[1]，感知函数[15]等），�是表示速率失真权衡的超参数，R可以被制定为来自估计熵模型的交叉熵。自Ball´e等人[15,57]引入了可学习的分析和合成变换网络GDN以及均匀噪声量化后，对基于学习的端到端图像压缩的关注迅速增加。Ball´e等人[58]应用了可变速率学习压缩的递归模型或[59]增强了非线性。其他先进的CNN架构[36,51,60-64]也提高了变换能力。同时，可微分量化受到了很多关注，Cai和Zhang[16]提出了软到细的标量矢量量化，或者[65]提出了一个学习量化参数的模型。尽管如此，由于其便利性和高效性，[15]的均匀噪声适应仍然是最近作品中最常用的训练量化器。之后，量化的潜在部分通过熵编码进一步压缩，这需要一个熵模型来估计概率分布，一些里程碑包括[66,67]的超先验，[63,68-71]的预测模型，或者[59,72,73]的学习参数模型。特别是，基于超先验的熵估计器在最近的作品中得到了很多改进和适应。读者也可以参考[77]，以获取有关基于学习的端到端图像压缩的更多详细信息和研究进展。在这项工作中，我们简要介绍它，以提供学习型视频压缩的基线知识。0传统学习协作0与图像压缩类似，学习型视频压缩的研究也始于传统编解码器和基于学习的模块之间的协作。在本节中，我们简要介绍了将基于学习的技术应用于传统编解码器主要组件，如帧内预测、帧间预测、循环滤波以及编解码器的附加可学习引导模块的进展。即使循环滤波和后处理模块根据其在编解码器中的位置不同，它们的任务也非常相似，因此我们在同一子节中对它们进行了综合介绍。0集成深度工具0帧内预测0与图像类似，视频帧块与相邻样本在空间上是相关的。因此，基于当前块，可以预测下一个相邻块，并且只发送预测的残差（错误）。现有的传统编解码器提供148 0T.M. Hoang和J. Zhou认知机器人学1（2021）145-1580图1. a.1.基于学习的基本块内预测及其带有鉴别器的整个预测帧的GAN-based调整a.2.;b.1.基于学习的帧间预测与单向和双向方法;b.2.基于学习的分数像素预测的基本概念;c.1.基于学习的循环滤波的基本概念;c.2.后处理处理传统编解码器之外的解压缩帧;d.1.视频编码中基本的超分辨率适应及其基于层的扩展d.2.0根据应用于周围样本的定向函数，存在几种帧内预测模式。在实践中，选择在R-D优化方面具有最佳预测的预定义模式。因此，我们期望更好的预测将导致更好的编码性能。因此，一些CNN模型已被应用作为传统编解码器的块预测器[78-80]（见图1. a.1），其他神经网络模型如GAN [81,82]（见图1.a.2）或RNN[83-85]也已按照相同的直觉实现，即更好的预测质量将减少残差误差。主要区别来自输入数据，大多数作品利用当前块和相邻块，其他作品使用不同的输入方向的整个帧[83,85]，其他标准模式的预测结果也被视为网络的输入[80,86]。与HM[87]软件相比，最近基于CNN的[80]，基于RNN的[85]和基于GAN的[82]模型在HEVC编解码器上的Y通道上的BD率[54]分别为3.4％，2.65％和1.2％，在报告的极高复杂性的情况下进行了折衷。同时，整个帧还用于预测最佳标准模式[88-90]。通过根据模型的输出直接选择预测模式，可以节省超过60％的锚编解码器的帧内编码时间，而BD率略微增加[90]。0帧间预测0时间信息是区分视频和图像的关键因素。在典型的混合视频压缩中，时间信息被定义为对当前帧的参考编码帧的运动估计。参考块可以来自过去（前向/单向预测）或过去和未来（双向预测）。在典型的传统编解码器中，选择产生较少残差的最佳运动矢量（MV）。MV的精度可以通过利用更高保真度和更精细的运动补偿进一步提高，例如，分数像素插值，基于离散余弦变换的插值滤波器（DCTIF）[91]。学习型帧间预测的早期研究方向是使用CNN捕获参考块特征。然后使用这些特征增强预测块，从而减少残差误差（见图1.b.1）。由于参考块的外观，增强使用了时间和空间特征[92–94]，相对于HM随机访问配置，可以减少Y通道上高达2.9%的BD率[94]。对于HEVC特定适应，CNN已经用于分数像素插值[95–98]（见图1.b.2），然而，它们的泛化能力非常依赖，即FRCNN[95]需要120个模型用于4个常见的量化参数（QP）。同时，[99–102]提出使用CNN生成一个虚拟参考帧，该帧更接近于来自编码帧的当前帧。此外，[103,104]使用CNN在子像素上推断帧间预测块的非线性方法，而不是使用传统的简单平均值。0循环滤波和后处理0循环滤波（ILF）与样本自适应偏移（SAO）模块[105–110]被引入视频编码标准，以减少传统编解码器的基于块的处理方式引起的块伪影。ILF和SAO149 0T.M. Hoang和J. Zhou的《认知机器人学》1 (2021) 145–1580表1展示了传统学习型合作方法的BD率降低结果（%），并与它们的锚点进行了比较。0模块发布参考。BD率(%)锚点帧内预测 2019 [80] -3.4 HM 16.9 AI 2019 [85]-2.65 HM 16.15 AI 2021 [81] -1.2 HM 16.15 AI 帧间预测 2018 [104] -3HM 16.15 RA 2019 [98] -1.2 HM 16.7 RA 2020 [94] -2.9 HM 16.6 RA循环滤波 2021 [121] -5.06 VTM 9.3 RA 2021 [124] -4.03 VTM 6.0 AI后处理 2019 [133] -9.76 HM 16.0 LDP 2019 [140] -6.16 HM 20.0 LDP2020 [130] -6.7 VTM 7.0 RA 指导 2020 [153] -6.2 HM 16.20 RA 2021[149] -12.6 VTM 4.01 RA0因此，提高了预测帧的质量，从而导致较小的残差误差和比特率。由于这个过程可以被视为一个增强问题，许多CNN模型已被转移到这个任务。早期的工作大多依赖于空间信息[111–116]，后来，通过使用参考帧[117–120]，时间信息进入输入。大多数工作是传统模块的替代品（见图1.c.1），其他可以添加在ILF和SAO之间或之后。最近的基于CNN的ILF/SAO可以实现高达12.6%[119]和5.06%[121]的BD率降低，与HM和VTM[122]随机访问配置相比。与其他基于学习的模块类似，基于CNN的ILF/SAO非常依赖于压缩配置，因此需要大量内存来存储大量的模型权重，并极大地增加编码复杂性。后来的工作[123]尝试在训练阶段结合所有QP，只使用一个模型，并报告了性能的边际损失，或者[124]使用QP-注意模块来检测不同的压缩噪声级别。由于ILF和SAO集成在编码器和解码器内部，现有的压缩视频无法从新技术中受益。因此，一些后处理方法已被提出，仅在解码器端执行（见图1.c.2）。最初，几项使用不同基于CNN的模型[125–131]的工作使用监督学习来基于空间信息进行增强。接下来，一些先验条件，这些条件是伪影的原因，已从发送比特流中提取并输入到CNN[132–134]。然后，多帧增强方法使用更高质量的帧来增强较低质量的帧[135–138]。由于复杂的网络架构，性能仍在提高，最近与HM编解码器相比，多帧方法的PSNR增加了0.96dB[56]，达到了139[139]。与此同时，一些工作尝试在保持有限数量的参数的同时利用更多的信息[139–141]。0基于学习的传统编解码器指导0传统编解码器通常以统一的方式压缩视频。为了自适应地指定压缩过程，学习型方法已经在预处理中实施/与后处理相结合。在非常低比特率压缩中，超分辨率是常见的方法[142–146]。通常，在预处理或集成位置上的下采样模型将输入帧压缩成简化和信息量较大的缩放版本。然后，在传统编解码器输出紧凑重建帧后，上采样和恢复模型将满足下采样损失（见图1.d.1）。更多的时间信息可以利用运动补偿[147,148]或缩放顺序[149–152]来增强恢复。后来，基于GAN的方法[153–155]也被实现到主机编解码器中，位置类似于超分辨率方法，但是解决的是感知质量而不是帧失真。对于基于感兴趣区域（ROI）的压缩，注意力掩码[156,157]，语义掩码[158–160]，前景/背景掩码[161,162]可以与下采样帧分离或嵌入压缩，即基于分层的压缩（见图1.d.2）。这些先验用于减少帧的不重要部分或在多帧增强阶段找到更好的MV。0讨论0总的来说，在传统编解码器中应用基于学习的模块是可行的。表1显示了定量结果，表2简要介绍了这种传统学习合作方法的一些显著最近作品的提案。我们可以看到，大多数基本的传统模块任务都可以由基于学习的模型来处理，如内部预测，间预测，In-loop过滤，甚至是现有压缩视频的后处理。学习型模块可以通过自适应的预处理，集成和后相关处理进一步提高传统编解码器的需求灵活性。可替换的能力和需求灵活性允许研究人员将它们转移到最新的视频编码标准，即H.266/VVC，AVS3[163]。然而，学习型模块的压缩性能伴随着复杂性和存储内存增加的巨大折衷。例如，[100]虚拟帧插值可以实现4.6%的BD率降低，同时增加35%和0T.M. Hoang和J. Zhou认知机器人1（2021）145–1580表2传统学习合作方法的最近作品研究思路。0模块发布参考。方法。2019年内部预测[80]使用多尺度CNN增强锚点的内部预测结果2019年[85]使用垂直和水平RNN提取邻近特征进行预测2021年[81]使用基于GAN的技术从邻近块生成预测块。2021年[104]使用CNN对子像素进行推断间预测块2019年[98]基于学习的分数插值2020年[94]生成虚拟参考帧作为当前帧的最近邻2021年[121]使用特定的多密度CNN增强预测帧2021年[124]通过利用QP注意力模块只使用一个训练权重集来执行In-loop过滤后处理2019年[133]利用块信息进行增强2019年[140]在利用更多信息时减少网络复杂性2020年[130]具体MFRNet架构的监督学习指导2020年[153]基于GAN和超分辨率的自适应视频位深度减少2021年[149]基于超分辨率的编码与锚点的QP相关04276%的HM编解码器的编码和解码时间。这几乎是没有学习型模块成为任何即将到来的视频压缩标准（如VVC或AVS3）的主要部分的主要原因。由于更多的先验信息已输入到网络中，视频分辨率提高，复杂性问题变得更加严重[164]。一些作品通过设计轻量级网络[140,165–168]来解决复杂性问题，其他作品通过自适应在线训练方式[169,170]或仅使用一个通用训练模型[171,172]来减少存储。然而，没有一个作品能够实现真实世界应用所需的复杂性或不降低性能，因此这个方向需要更多的研究。0端到端学习的视频压缩0尽管基于学习的模块可以提高传统编解码器的性能，但它们也继承了传统模块设计中的局部优化问题。最近，由于可微分量化函数的发展，基于学习的端到端（ETE）视频编码受到了很多研究的关注。与传统视频编解码器类似，基于学习的ETE编解码器使用基于学习的ETE图像压缩方法来压缩帧内内容（见第2节）。最大的不同来自于帧间处理方法。目前，有两种原始方法来推断帧间关系：预测性视频编码和生成性视频编码。在本节中，我们介绍了每种方法的关键思想、其优缺点以及当前状态。还介绍了有关趋势研究方向和其他方面改进的更多讨论。预测性视频编码受传统预测性设计的启发，这种方法的一般框架是一个模拟器，它完全用基于学习的模型替换了传统设计的模块，但大部分处理的是整个视频帧，而不是分割块。与传统编解码器类似，关键思想是压缩预测帧和当前帧之间的残差误差。具体而言，虽然帧内内容利用了基于学习的ETE图像压缩，但帧间预测的运动估计被基于学习的光流估计所取代，运动补偿变成了变形函数，而基于学习的帧合成模型将执行重建任务。然后，估计的光流和残差误差被压缩并发送到解码器。特别是，通过可微分量化方法的结合，所有模块被连接在一起，以执行全局优化训练过程以获得R-D损失（见方程（3））。使用变形函数W，给定解压缩的光流 � f 和残差 �r，解码时间t的帧的重建形式如下：0� x t = W ( � x t−1 , � f t ) + � r t (4)0这种方法中最知名的框架最近是DVC[173]（见图2），它是第一个成功用基于学习的模型替换所有传统模块的框架。基于其框架，还引入了更多的改进。[185–187]增加了参考帧的数量，[188,189]在特征级别上执行了运动和残差预测，[92,190]预先定义了解码顺序以执行分层质量编码。然后，还实现了更多的传统编码思想，从MV差异压缩[185]，块级处理[191]，到循环内插值[192]。此外，序列模型被广泛用于利用长期记忆[190]或反馈循环方法[187,191]进行当前帧预测。后来，研究人员更加关注网络架构设计，以适应压缩方案，而不是简单的模型转移[176,193,194]。最近最受关注的工作是尺度空间流估计[176]，它通过考虑残差误差而不是在受监督的预训练权重下流像素值的准确性，成功地为压缩任务生成了更好的MV，使用不同的高斯模糊滤波器。使用固定分辨率的尺度空间体积X =[x,x � G( � 0 ),x � G(2 � 0 ),...,x � G(2 M − 1 � 0 )]，其中x � G( � )表示x与高斯核�的卷积，X的每个3通道字段被定义为g: = (g x ,g y ,g z )，预测过程如下：0� x = 尺度 - 空间 - 变形 ( x , g ) s . t0� x [ x , y ] = X [ x + gx [ x , y ] , y + gy [ x , y ] , gz [ x , y ]] (5)151 0T.M. Hoang和J. Zhou认知机器人1 (2021) 145–1580图2. DVC [173]端到端预测编码框架。m，r分别表示运动流和估计残差，以及它们对应的量化比特流 �m b, �r b和它们的重建版本 �m , �r0图3. a. 基本的生成式视频编码框架。b. 用于随机变量w的自适应生成式视频编码[195]。0通过检查他们的视觉结果[176]，很明显，该框架选择了大运动区域的高高斯模糊尺度，而不是试图预测不可预测的流。因此，残差误差直观上比使用不正确预测的帧小。0生成式视频编码0与预测方法不同，框架的主要任务是生成最佳预测帧并具有最低的残差误差，生成式视频编码框架的原始任务是学习概率分布py的参数。图3.a显示了仅具有时间自回归变换的视频编码的纯版本。通过随机变量的进一步扩展，生成式视频编码框架的一般重构形式如下：0� x t = h μ ( � x t−1 , w t ) + h σ ( � x t−1 , w t ) ⊙ g v ( v t , w t ) (6)0其中hμ和h�是将�xt−1和子潜变量wt转换为均值和方差参数的函数。函数gv(vt)将接收到的潜变量[wt,vt]转换为噪声变量，表示相对于hμ(�xt−1,wt)的预测输出的残差。值得一提的是，即使生成式编码也适应了预测过程，但学习信息显然与原始预测编码不同。152 0T.M. Hoang和J. Zhou认知机器人学1（2021）145–1580由于py是未知的，可学习的qy被用作py的估计。因此，速率项R现在成为py和qy的交叉熵：0� = � [ − �� ( � ) ] (7)0其中E是熵编码函数[22–24]。qy可以通过变分自动编码器网络的参数来学习0[196–198]直接来自训练帧，自回归是固定[195,198]或动态数量的先验信息的常见推断方式[196,197]。继承自图像压缩，视频压缩中的潜在分布py通常也被预定义为服从高斯分布[199]，具有可学习的均值和标准差。然后自适应地预测这些参数，并成为变分自动编码器的先验信息。许多最近的研究都在努力通过更复杂的设计[74,200]、上下文自适应设计[71]或通过序列学习技术[201,202]包括时间信息来改进这个模块。Guo等人[195]最近探索了超先验对随机变量的影响，这可以影响预测编码方法的残差误差率，结果表明这种复杂组合方法具有非常有希望的潜力。通过用W替换等于6中的hμ，进行了生成式流预测编码。这是可行的，因为这两个函数都是可学习的，并且输出一个预测结果。此外，w也被用作超先验，以进一步改进残差v熵模型的学习先验（见图3.b）。与此同时，基于GAN的训练也广泛用于极低比特率压缩的感知质量，而不是定量失真。0讨论0传统学习框架通常在均方误差（MSE）或峰值信噪比（PSNR）上表现强劲，因为其传统基准，而基于学习的ETE框架在结构相似性上超过了传统基线，因为它们通过完全的空间信息处理来避免块伪影。两种ETE方法的早期作品[141,173,196]在SSIM [56]或MS-SSIM[205]评估指标上取得了与H.265/HEVC默认设置相当甚至更好的性能。当更多的先验信息被输入到框架中时，SSIM/MS-SSIM之间的差距变得更加明显[185,201]，特别是在平滑和中等运动序列上[206]。在PSNR评估指标上的比较中，最近的研究[190,195,197,201]在几个常见测试集上使用低延迟P配置的快速预设与H.265/HEVC相比取得了相当可比甚至略微提高的结果。除了用于定量失真的PSNR和用于结构相似性的SSIM之外，LPIPS [210]，FID[211]和KID[212]通常用于评估基于GAN的框架的感知质量。从视觉上看，具有高感知质量的基于GAN的结果[203,204]在极低比特率下即使在PSNR和MSSIM上得分较低，质量也更好。到目前为止，端到端的学习型视频压缩方法在MS-SSIM、感知质量甚至低比特率H.265/HEVC编解码器的PSNR上都超过了传统编解码器。然而，目前还没有工作能够在高比特率压缩方面充分击败传统编解码器，尤其是即将推出的H.266/VVC。尽管VVC需要更多的计算资源，但从设计的角度来看，只有它的编码器承担了这一负担，这对于现代的服务器-客户端应用是合适的。与此同时，学习型ETE压缩需要强大的硬件，即GPU，来处理编解码器两侧的压缩。随着最近更多的先验信息被利用，问题变得更加严重，需要更复杂的网络设计。因此，研究人员现在应该从最终用户的角度来研究轻量级网络架构和不平衡框架。一些研究已经在探讨这个问题，主要是使用模型压缩方法[213]。0摘要，结论和未来说明0本文概述了基于学习的视频压缩研究的更新方法。根据本文早期的调查，传统的基于学习的模块已成功实施，并且可以改善大多数现有传统编解码器的压缩率，包括H.264/AVC，H.265/HEVC和H.266/VVC。而基于学习的端到端方法在PSNR上实现了可比的失真效率，同时在MS-SSIM和感知质量方面表现优于H.265/HEVC在某些特定设置下。然而，目前没有基于学习的端到端方法能够达到VVC性能的失真评估指标，甚至在高比特率压缩下也无法达到HEVC的性能。根据我们的调查，基于学习的视频压缩的优势主要有四个方面。首先，由于基于学习的模型对大量训练数据具有内容自适应性，因此易于在特定任务上超越手工设计的模块。其次，与传统编解码器的不同之处在于，基于学习的模型通常在空间和时间域中探索大的感受野，因此提供更准确的预测或潜在分布。这种方式还有助于编解码器避免阻塞伪影，并在时间探索方面变得更加灵活。第三，直接可链接的能力使基于学习的模块能够执行全局优化，这是进一步改善速率失真权衡和特定人类视觉任务的潜在因素。最后，基于学习的方法的灵活性使其能够快速继承最新技术，扩展设计并轻松转移知识。在压缩比性能的权衡中，当前基于学习的视频压缩方法面临许多需要进一步调查的障碍：0• 复杂性和内存需求。与传统方法相比，基于学习的方法的主要局限之一是计算和内存需求的巨大负担。当前的基于学习的模型需要太多的计算资源153 0T.M. Hoang和J. Zhou认知机器人1（2021）145–1580来实现压缩性能的微小提升[100,164]。最近的研究尝试通过利用更多的先验知识来增加压缩性能，这使情况变得更糟[185,195,201]。与保持解码器复杂性在CPU处理上轻的传统编解码器不同，基于学习的方法通常为编码器和解码器引入更多的计算负担，这需要强大的硬件，即终端用户侧的GPU[77]。同时，由于压缩方案的多样性，存储所有训练权重所需的内存也是一个大问题。目前，一些研究通过设计轻量级网络[140,165,166,168]与在线训练方案[169,170]合作或使用模型压缩方法来解决这个问题[167]。为了节省内存，一个模型是最常见的研究方向[123,124,172]。然而，没有任何工作能够在压缩性能和解码器复杂性方面击败即将到来的VVC编解码器，特别是在CPU处理方面。随着视频分辨率（4K，8K）的快速增加和各种视频需求应用的出现，基于学习的设计需要更灵活和轻量级的设计，特别是在解码器端。•速率相关模型设计。当前基于学习的作品的最常见框架设计直观地假设了预测帧的失真和速率之间的线性相关性。因此，网络被设计为产生更好质量的预测帧，希望能够减少剩余的压缩率。事实上，最近的研究已经证明，定量相关的小剩余误差并不会线性地导致小熵压缩比特流[176,193,194]。通过考虑网络设计和训练策略中的熵压缩算法，有可能设计出一个仅需要产生一个对剩余友好的预测帧而不是非常准确的预测帧的轻量级预测网络。•基于学习的模型的生成设计。到目前为止，生成方法在许多计算机视觉任务上已经证明了其性能。其优势在压缩领域变得更加明显，学习到的分布可以节省大量的发送信息。特别是在视频方案中，生成模型可以利用时间信息的自回归处理来获得最近更准确的学习概率分布[195,201]。通过从[195]的发现中得知，生成设计可以应用于任何关于剩余误差的随机变量，生成模型现在正等待被应用到即将到来的研究中。0总之，基于学习的视频压缩在过去几年中取得了显着的改进。学习型模块已被广泛嵌入传统编解码器中，以进一步改善其预测性能或增强其结果。同时，基于学习的端到端视频压缩已经得到了许多研究，并且在失真度量上可以获得与传统编解码器相媲美的压缩性能，或者在感知或结构质量上更好。然而，由于它们在计算上的巨大负担，特别是在解码器端，迄今为止还没有出现在工业应用中。因此，复杂性降低是最关键的研究方向之一，还有速率相关的设计方向和生成设计，这些都是为了找到更有效的低成本框架进行R-D优化。0竞争利益声明0作者声明，他没有已知的竞争性财务利益或个人关系，可能会影响本文报道的工作。0参考文献0[1] D.J. Brady , M.E. Gehm , R.A. Stack , D.L. Marks , D.S. Kittle , D.R. Golish , E. Vera , S.D. Feller , 多尺度千兆像素摄影，Nature 486 (7403) (2012) 386–389 .0[2] S.B. Kang , M. Uyttendaele , S. Winder , R. Szeliski , 高动态范围视频，ACM Trans. Graph. (TOG) 22 (3) (2003) 319–325 . [3] M. Winken , D. Marpe , H. Schwarz , T. Wiegand ,比特深度可扩展视频编码，in: Proceedings of the IEEE International Conference on Image Processing, Vol. 1, IEEE, 2007, pp. I–5 .0[4] C. H. Steve Chen, Youtube, https://www.youtube.com , 2005, 2021年6月24日访问. [5] E. S. Justin Kan, Twitch, https://www.twitch.tv, [Online; accessed 24June-2021] (2021). [6] Z. V.C. Eric Yuan, Zoom, https://zoom.us, [Online; accessed 24-June2021] (2021). [7] S. T. M. Priit Kasesalu, J. Tallinn, Skype, https://www.skype.com/en/, [Online; accessed 24-June-2021](2021). [8] Mission Health, https://missionhealth.org/mission-telemedicine/, [Online; accessed 24-June-2021] (2021). [9] Apollo

下载后可阅读完整内容，剩余1页未读，立即下载