基于率失真自编码器的深度视频压缩

154 浏览量更新于2023-10-13 收藏 1.25MB PDF 举报

代码模型

sender

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1编码器q（$|x）AAC代码模型$（|$）（）senderx接收器代码模型$（|$）（）基于率失真自编码器的放大图片作者：Amirhossein Habibian，Ties van Rozendaal，Jakub M.塔可·托姆恰克Cohen Qualcomm AI Research*，荷兰{habibian，ties，jtomczak，tacos}@ qti.qualcomm.com摘要在本文中，我们提出了一个深度生成模型的有损视频压缩。我们采用了一个模型，该模型由具有离散潜在空间的3D自动编码器组成，用于熵编码的自回归先验均为au-$*联合训练toencoder和prior以最小化速率。失真损失，这与变分自动编码器中使用的ELBO密切相关。尽管它很简单，我们发现我们的方法优于最先进的学习视频压缩网络的基础上运动补偿或插值。我们系统地评估各种设计选择，例如使用基于帧或时空*$x&自编码器和自回归先验的类型此外，我们提出了三个扩展的基本方法，证明了经典的approaches压缩的好处。首先，我们引入语义压缩，其中模型被训练为将更多的比特分配给感兴趣的对象。其次，我们研究了自适应压缩，其中模型适应于具有有限可变性的域，例如.从自动驾驶汽车拍摄的视频，以在该域上实现卓越的压缩。最后，我们介绍了多模态压缩，在那里我们演示了我们的模型在联合压缩非标准成像传感器（如四相机）捕获的多种模态中的有效性。我们相信，这开辟了新的视频压缩应用，这是不可行的经典编解码器。1. 介绍近年来，生成式建模取得了巨大的进展。虽然这项工作的大部分是由潜在的未来应用，如基于模型的强化学习，数据压缩是一个非常自然的应用程序，已收到相对较少的关注。特别是基于深度学习的视频压缩最近才开始探索[11，33，40]。这是值得注意的，因为改进的视频压缩将*Qualcomm AI Research是Qualcomm Technologies，Inc.的一项计划。图1：所提出的压缩推理流水线的概述。编码器将帧序列X编码成量化的潜变量序列z。一种编码模型p（zt|z<（t）用于使用自适应算术编码（AAC）将z变换成比特流b。在接收端，比特流被用于重构z，然后z被有损地解码为pixex。有很大的经济影响：估计很快，80%的互联网流量将以视频的形式出现[12]。在本文中，我们提出了一个简单而有效的和理论上接地的视频压缩方法，可以作为在这个新生领域的未来工作的基础。我们的模型由来自深度生成建模文献的现成组件组成，即自编码器（AE）和自回归模型（ARM）。尽管其简单性，该模型优于所有的方法，直接比较是可能的，包括实质上更复杂的方法。在理论方面，我们证明了我们的方法以及最先进的图像压缩方法[28]可以被解释为具有离散潜在空间和确定性编码器的VAE [25，31]。VAE框架特别适合于有损压缩的问题，因为它提供了一种用于权衡速率和失真的自然机制，如通过两个VAE损失项[3]所测量的。然而，正如我们将在这篇论文中所论证的，使用随机编码器7033解码器p（x|$）AAC0110010110017034（近似后验），因为添加到编码中的任何噪声都会导致比特率增加，而不会导致失真的改善[18]。在实验方面，我们进行了广泛的评估，评估的几个架构的选择，如使用2D或3D autencoders，和自回归先验的类型我们的最佳模型使用具有3D卷积的ResNet[17]自动编码器，以及时间调节的门控PixelCNN [37]作为先验。我们对现有的学习视频压缩方法，我们的方法进行我们还发现，我们的方法优于国家的最先进的传统编解码器时，这些都是使用受限的设置，因为它是在以前的工作，但更多的工作仍然要做之前，可以声称，这些学习视频压缩方法抑制传统的编解码器在最佳设置。此外，我们介绍了我们的方法，突出使用学习的视频编解码器的好处的几个扩展。在语义压缩中，我们通过学习将更多的比特分配给感兴趣的类别中的对象来弥合语义视频理解和压缩之间的差距，即人在训练过程中，我们对速率和失真损失进行加权，以确保通过现成的对象检测或分割网络（如MaskR-CNN[16]）提取的感兴趣区域的高质量重建。我们还演示了自适应压缩，其中模型在部署之前或之后在特定域上进行训练我们表明，自动驾驶汽车的镜头的自适应压缩可以导致在率和失真方面的大幅改善。对于经典编解码器，针对给定域的微调通常是不可行的。最后，我们表明，我们的方法是非常有效的联合压缩的多种形式，存在于视频从深度，立体，或多视图相机。通过利用多模式视频中存在的显著冗余，我们的模型比HEVC/H.265和AVC/H.264的性能高出4倍。本文的主要贡献是：i）我们提出了一种简单而有效的视频压缩方法，可以作为未来工作的基础。ii）我们从理论上阐明了率失真自编码器和VAE之间的关系。iii）我们引入语义压缩来弥合语义视频理解和压缩之间的差距。iv）我们引入自适应压缩以使压缩模型适应于感兴趣的域v）我们引入多模态压缩来联合压缩多个模态，这些模态存在于使用深度视频压缩网络的视频中。本文的其余部分组织如下。在下一节中，我们将讨论学习图像和视频压缩的相关工作。然后，在第3节中，我们讨论了学习压缩的理论框架，使用率-失真自动编码器，以及与可变自动编码器的关系。在第四节中，我们详细讨论了我们的方法，包括数据预处理和自动编码和先验架构。我们在第5节中给出了实验结果，将我们的方法与经典和学习的视频编解码器进行了比较，评估了语义压缩，自适应压缩和多模式压缩。第六部分是全文的结论。2. 相关工作学习图像压缩深度神经网络是图像压缩的最新技术，优于所有传统压缩算法，如BPG和JPEG 2000。他们经常使用全卷积[28]或递归网络[4，22，36]将输入图像嵌入到低维表示中。图像表示通过软标量量化[2]、随机二值化[36]或通过添加均匀噪声[5]来量化，以近似不可微量化操作。离散图像表示可以通过在[10，28]期间或训练[5，6，26]之后最小化熵来进一步压缩。这些模型通常经过训练，以最小化原始图像和解压缩图像之间的均方误差，或者使用更多的感知度量，如MS-SSIM [32]或对抗性损失[34]。与我们最接近的是[28]中提出的用于图像压缩的率失真自动编码器。我们通过以下方式将这项工作扩展到视频压缩：i）使用2D卷积[37]提出门控条件自回归先验，可选地，递归神经网络用于随时间的更好熵估计，ii）通过使用3D卷积编码/解码多帧，iii）通过去除空间重要性图[26]和不相交熵估计来简化模型和训练，而不会对压缩性能造成任何损失。视频压缩与图像压缩有许多相似之处，但视频数据的大尺寸和非常高的冗余度产生了新的挑战[15，30，33，40]。之一第一种基于深度学习的方法提出用 RNN 调节的PixelCNN对视频自回归进行建模[23]。虽然功能强大且灵活，但该模型对较大视频的扩展相当差，并且只能用于无损压缩。因此，我们采用这种方法对比视频本身小得多的潜在代码进行无损压缩。在[11]中提出了该方法的扩展，其中像素块以自回归方式建模，并且潜在空间如[36]中那样被二进制化。这种方法的适用性相当有限，因为它仍然不是非常可扩展的，并且在块之间的边界中引入伪像，特别是对于低比特率。在[40]中描述的方法通过首先编码关键帧来压缩视频，然后在高分辨率中对它们进行插值。7035牺牲的方式。当帧间压缩仅限于几个（最多12个）帧时，结果与AVC/H.264相当。然而，此方法需要额外组件来处置预测帧的上下文。在我们的方法中，我们的目标是通过3D卷积来学习这些交互。文献[15]提出了一种视频的随机变分压缩方法。该模型包含用于每个帧和帧间依赖性的单独潜在变量，并使用[6]中提出的先验。相比之下，我们使用一个更简单的模型与一个单一的潜在空间，并使用确定性而不是随机编码器。最近，通过考虑流压缩和残差压缩来解决视频压缩问题[27，33]。用于流和残差建模的附加组件通常允许改善失真，然而，对于低比特率，所提出的方法在基准数据集上仍然被HEVC/H. 265尽管如此，我们相信这些想法是有希望的，可能能够进一步改进本文提出的结果3. 率失真自动编码器有损压缩的一般方法是学习潜在变量模型，其中潜在变量捕获要传输的重要信息，并且可以从其近似地重构原始输入。我们首先定义数据x和离散潜在变量z的联合模型，pθ（x，z）= pθ（z）pθ（x|z）（1）下一节我们将讨论pθ（z）的具体形式(the 先验/编码模型）和pθ（x|z）（可能性/de-这两个字，都是用“深网”来定义的。工作，但现在我们将其视为一般参数--log p（x|z）位到x [13]。在q上求平均值，得到VAE损失的第一项（等式10）。2）的情况。我们注意到，在有损压缩中，我们实际上并不使用p（x）对x进行编码|z），这将允许无损重建。相反，我们只发送z，因此将第一个损失项称为失真。界限的第二项（KL）与对来自编码器q（z）的潜伏期z进行编码的成本有关|x）使用从先验p（z）导出的最优码。这样的代码将使用约-logp（z）位来编码z。对编码器q（z）求平均|x），我们发现平均编码成本等于q和p之间的交叉熵：Eq （ z|x ） [-logp （z ） ]=CE[q （z ）]|x ）|p（z）]。（3）交叉熵经由以下关系式与KL相关：KL[q|p] = CE[q|p]-H[q]，其中H[q]是编码器q的熵。因此，KL测量编码成本，除了存在H[q]位的折扣：来自编码器的随机性是免费的。事实证明，确实有一种被称为比特回退编码的方案，使得可以传输zq（z|x）并得到H[q]比特，但这种方案在实际中难以实现，只能用于无损压缩[18]。由于我们不能使用比特回编码有损压缩，交叉熵提供了一个更合适的损失比KL。此外，当使用离散潜伏期时，熵H[q]总是非负的，因此我们可以将其添加到等式1的rhs。2，并得到一个有效的边界。我们由此得到率失真损失L（x）= Eq（z|x）[-log p（x|z）-β log p（z）]，⑷以太化分布R由于似然logpθ（x）=logpθ（z）pθ（x|z）dz其中β是速率失真折衷参数。由于交叉熵损失不包括折扣是棘手的，一个优化变分边界[8，38]，-logp（x）Eq[-logp（x|z）]+KL[q（z）]|x）|p（z）]，（2）其中q（z|x）是新引入的近似后验。在VAE [25，31]中，使用神经网络来参数化 q （ z ）和 |x ）和 p（x|z），其因此可以被认为是自动编码器的编码器和解码器部分。VAE通常被解释为正则化的自动编码器，其中损失的第一项测量重构误差，并且KL项充当正则化器[25]。但是变分界在压缩/最小描述长度方面也有一个有趣的解释根据这种解释，第一项的rhs的方程。2测量给定样本情况下编码xzq（z|X）。更具体地说，可以导出x对于编码器熵，存在使编码器更确定性的压力。实际上，对于固定的p（z）和p（x|z），q（z）的最优解|x）是确定性（“一热”）分布，其将其所有质量放在最小化- log p（x）的状态z上|z）-β logp（z）。出于这个原因，我们在这项工作中只考虑确定性当使用确定性编码器时，速率失真损失（等式10）可以被估计为：4）等价于变分界（Eq.2），因为（假设离散z），我们有H[q] = 0因此KL[q|p] = CE[q|p]。最后，我们注意到，限制自己的deterministic- tic编码器不降低最好的可实现的可能性，假设一个足够灵活的类的先验和似然-胡德。实际上，给定任何固定的确定性编码器q，我们仍然可以通过设置p（z）= x p（x）q（z|x）和p（x|z）/p（x）q（z|x），其中从解码器分布p（x|z），它大致指定p（x）是真实的数据分布。7036模型代码模型代码G1Gt$&Gt$1模型代码&（zt#（z t|zt& 1）z$编码器q（$|x）代码模型$（|$）（）解码器p（x|$）zt#2zt#$ZTZTZTx$x&(a) 无条件(b) 框架调节（c）GRU调节+× T× 3×/×0+×T×=×/⁄s×0⁄ s+×T×3×/×0图2：训练率失真自动编码器。率在自回归编码模型下，损失是预期编码成本的度量，而失真损失表示重构误差。4. 方法在上一节中，我们已经概述了使用率失真自动编码器的一般压缩框架。在这里，我们将描述我们用于编码器、代码模型和解码器的特定模型，以及用于-mat、预处理和损失函数的数据。4.1. 预处理我们的模型处理形状为T<$C<$H<$W的视频块x，其中T= 8表示帧数，C表示通道数（对于RGB，通常C= 3），H，W是裁剪的高度和宽度，我们在所有实验中将其固定为160像素RGB值为未缩放，即，它们总是位于{0，1，. ..， 255}。4.2. Autoencoder编码器将视频块x作为输入，并产生离散的潜在代码z。如果输入具有形状T<$C<$H<$W，则潜在代码将具有形状T<$K<$H/s<$W/s，其中K=32是潜在空间中的通道数，s= 8是编码器的总空间步幅（因此潜在空间具有空间大小H/s=W/s=160/8= 20）。我们在时间维度中不使用stride。编码器和解码器基于[28]提出的架构，而[28]又基于[35]中提出的编码器和解码器都是具有残差连接[17]，批量范数[21]和ReLU非线性的完全卷积模型在编码器的前两个卷积层中，该模型使用滤波器大小5和步幅2。剩余的层是5个残差块，每个块有两个卷积层，滤波器大小为3，128通道，batchnorm和ReLU非线性。最后一层是滤波器大小为3、步幅为2和32个输出通道的卷积。解码器与此相反，并且使用转置卷积而不是卷积。关于该架构的更多细节可以在补充材料中找到我们将评估此自动编码器的两个版本：一个具有分别应用于每个帧的2D卷积，以及图3：先验时间条件化的建议。一个是3D时空卷积要将2D模型应用于视频序列，我们只需在运行2DAE之前将时间轴折叠到批处理轴中。编码器网络首先输出连续的潜在变量z，然后对其进行量化。量化器使用由L个中心组成的学习的码本，C={c1，. ..，cL}，其中cl2R. 在for-通过，我们计算zj=argmini|zj-ci|（此处j=（t，c，h，w）是四维多索引）。作为概率分布，这对应于独热q（zj|x），其将所有质量放在计算值zj 上。由于argmin不可微，我们使用梯度在反向传递中的softmax，如[7，28]。我们发现这种方法在训练过程中是稳定和有效的。在解码器侧，我们将z，j，2 {1，. ......、 L}乘以相应的码本值czj，以获得原始连续表示zj的近似。结果向量然后由解码器处理以产生重构在标准的VAE中，可以使用x= 0作为高斯似然p（x）的平均值|z），对应于L2损失：-l〇 gp（x）|z）/kx-xk2+co nst. 而是使用MS-SSIM丢失（在第 4.4），其中-响应于玻尔兹曼分布的未归一化似然，lnp（x|z）=ms-slim（x，x∈ N）-lnC，其中lnC是被视为常数的对数配分函数，因为它更好地反映了人类对相似性的主观判断。4.3. 自回归先验代替使用Dlog2L比特（对于每个变量具有L个状态的D维潜在空间）来简单地存储/传输潜在变量z，我们使用先验p（z）结合自适应算术编码来编码潜在变量.对于 p （ z ），我们在单独的潜在帧上使用门控PixelCNN [37]，可选地以过去的潜在帧为条件，在图3中，我们说明了本文中考虑的三个先验。在最简单的例子中，我们独立地对每个帧进行建模，即p（z）=tp（zt），其中Q潜在帧zt被自回归地建模为p（zt）=ip（zt，i|zt，

下载后可阅读完整内容，剩余1页未读，立即下载