分裂分层变分压缩：实现高性能图像压缩

89 浏览量更新于2023-10-25 收藏 610KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

386分裂分层变分压缩Tom Ryder，*张晨<$、康宁<$、张世峰<$华为诺亚{chenzhang10，kang.ning2，zhangshifeng4}@ huawei.com摘要变分自动编码器（VAE）在图像数据压缩方面取得了巨大的成功这一成功，使比特回编码框架成为可能，在许多基准测试中产生了有竞争力的压缩性能。然而，尽管如此，VAE架构目前受到编码实用性和压缩比的组合的限制。也就是说，不仅最先进的方法（如归一化流）通常表现出超出性能，而且编码中所需的初始位使得单个和并行图像压缩具有挑战性。为了解决这个问题，我们引入了分裂分层变分压缩（SHVC）。SHVC引入了两个新特性。首先，我们提出了一个有效的自回归先验，自回归子像素卷积，它允许每像素自回归和全因子概率模型之间的泛化其次，我们定义了我们的编码框架，自回归初始位，灵活地支持并行编码，并避免-第一次-许多常见的实用性与位回编码。在我们的实验中，我们证明了SHVC能够在全分辨率无损图像压缩任务中实现最先进的压缩性能，模型参数比竞争VAE方法少100倍1. 介绍以IP流量衡量的数据量目前正呈指数级同比增长[9]。在对高分辨率媒体内容需求的推动下，估计80%的数据是以图像和视频的形式存在的[9]。数据服务提供商，如云和流媒体平台，因此看到与传输和存储相关的成本变得非常昂贵。例如，在新型冠状病毒疫情期间，对流媒体服务的需求增加迫使主要提供商将视频内容的最大分辨率因此，这些挑战重新提出了开发高性能数据压缩编解码器的需求*共同第一作者。Tom Ryder的工作是在华为技术研发英国工作期间进行的。这个问题的一个解决方案是使用能够进行离散密度估计的基于似然的生成模型的方法的开发 [3，6，13，14，18，22，24，35，36，42，43]。这种方法通过学习数据分布的深度概率模型来操作，该模型与熵编码器相结合可以用于压缩数据。在这里，根据香农的信源编码定理[ 21 ]，最小所需平均码长由数据分布的预期负对数似然从这一系列生成模型中，出现了三种主要的数据压缩模式：归一化流[3，14，42，43]，变分自编码器[18，24，36]和自回归模型[15，31，37] 1。事实上，这些方法中的每一种都可以被认为是在推理速度和压缩性能的帕累托边界上的遍历。具有广泛的普遍性，自回归模型通常是最强大但最慢的;变分自编码器通常是最弱但最快的;而归一化流（取决于变量）介于两者之间。在本文中，我们考虑使用VAE进行数据压缩，并专注于扩展有效边界;获得比流行的VAE更快的解决方案，以实现最先进的压缩比。然而，VAE的使用带来了两个突出的挑战。首先，我们应该在不牺牲时间复杂度的情况下实现有竞争力的编码比。例如，最佳迭代目前需要两种成分之一来提高性能：构建潜变量的深层结构[8]或使用自回归先验[11，29]。后一种想法在有损压缩社区的编解码器中特别流行[25]，它提出了一种模型，可以灵活地学习局部（通过自回归）和全局（通过分层潜在表示）数据模态（例如，低频信息）。虽然这些方法，如 MS-PixelCNN [29]和PixelVAE [11]，在实现更有效的权衡方面已经取得了一些进展，但即使是中等大小的图像的生成也仍然需要几分钟[22]。其次，应该存在一种有效地执行单图像压缩的实用方法。然后，单图像压缩允许并行编码，这是高度并行的。1最近，基于分数的生成模型已适用于数据压缩[16]，但目前的方法需要在推理时间的操作不切实际的数量387O令人向往然而，将VAE转换为无损编解码器目前是使用位回编码框架（主要是位回ANS）实现的，这需要大量的初始位[12，36，39]（见第3.1节）。虽然这在大型图像数据集上是微不足道的比特数（我们可以分摊此成本），但它使比特回位成为单图像压缩的不切实际的方法。此外，即使是大型数据集也经常被编码，使得图像相互关联。因此，访问序列中间的单个图像将需要额外地解压缩比特流中的所有先前图像为此，我们提出了两个新颖的用于基于VAE的压缩，旨在解决这些挑战。首先，我们的自回归子像素卷积，引入了一个简单的自回归因子分解-与标准化流中使用的变换[ 3，42，43 ]没有什么不同-旨在提供完全因子分解概率分布和不切从修改后的空间到深度卷积算子构建，我们在沿着通道维度执行计算效率高的自回归之前，先对数据变量进行下采样。然后，我们的自回归算子被许多对数据维度不变的网络评估所覆盖，每个自回归都是在输入张量的下采样版本上进行的更广泛地说，我们认为这个框架是许多流行的自回归模型的概括。“context”我们的第二个贡献，自回归初始位，提出了一个通用的框架，以避免位回ANS的不切实际性，允许非常并行化的编码。这种技术与我们的自回归模型高度兼容，将数据变量划分为两个部分，使得第二个部分在给定第一个部分的情况下与潜在变量有条件无关通过这种方式，我们说明了如何使用条件独立分区的熵编码来提供和移除位回退ANS所需的初始位我们证明，这种方法减少了接近20倍的每图像的基础上的位开销最后，我们结合上述贡献，提出我们的编解码器，分裂分层变分压缩（SHVC）。SHVC假定一个层次VAE的一般形式的自回归先验，允许并行编码。使用我们的框架，我们优于所有其他基于VAE的压缩方法，具有更少的潜在变量和相当数量的神经网络评估。我们通过训练一个小模型进一步说明了我们架构的有效性，该模型能够优于类似的VAE方法Bit-Swap [18]2. 相关工作使用VAE的压缩可以分为[18，36]和没有随机后验采样的压缩（后者使用一个符号的离散分布，假设概率为1）。同时获得理论上更高的压缩比，采用随机后验的方法，如HiLLoC [36]和Bit-Swap [18]，必须使用位返回参数的导数进行熵编码[12]。这些方法在比特回退ANS（bb-ANS）的保护伞下需要访问初始比特流。虽然可以在大型数据集上分摊初始比特流的成本，但目前已证明单次和并行数据压缩具有挑战性（参见第3.1节）。在HiLLoC[36]中，作者提出使用传统的编解码器来压缩和发送数据集的部分，然后将其用作初始比特流的基础。虽然这部分地解决了一些编码挑战，但它需要实现次优的传统技术，并且仍然不允许对单个图像进行实际编码。相比之下，我们的方法避免了所有这些挑战，需要更少的潜在变量，额外的位成本可以忽略不计。类似地，诸如利用确定性后验的L3 C [22]的方法也可以通过使用算术（或自适应算术）编码（AC）来避免与bb-ANS相关联的挑战[40]。密切相关的RC方法 [24]– which can be loosely thought of as a VAE – uses a lossycompressed image as a de facto latent variable to conditionthe 然而，这些技术在压缩比上付出了代价，因为它们必须显式地对数据和潜变量的联合分布进行编码（见3.2节）。由于这项工作侧重于基于VAE的编解码器，我们请读者参考[3，14，42，43]和其中的参考文献，以使用替代的深度生成模型进行压缩。自回归模型是将完全因子分解模型的独立性假设扩展到高维多变量密度的流行方法它们作为独立模型[31，38]或VAE应用程序[11，25，29]都很受欢迎。在其计算成本最高的形式中，如 Pix-elCNN++ （及其变体）[31]，它们会逐像素自动回归，然后按光栅扫描顺序编码虽然广泛的学术兴趣，（n2）的时间复杂性，使他们禁止在数据压缩中的应用。针对这个问题提出的一个解决方案是用自回归密度来参数化VAE的先验。这里，概率估计通过将分层潜在表示与解码的自回归上下文相结合来进行。用辅助潜在特征补充自回归分量允许因果关系限制，从而降低时间复杂度，而不会大大降低性能。这些限制包括通道自回归[26];独立的基于块的模型[29];“棋盘”上下文[ 41 ];以及小型神经网络[ 11 ]等。事实上，这些限制可能具有双重目的：将强大的自回归模型与VAE相结合可能会加速后塌陷（见第5.3节）[5，11，20，28]。像这些技术一样，我们的方法将VAE与受限自回归模型相结合我们的方法可以被认为与[26]和[41]最相似。像前者一样，我们执行通道自回归，但在我们的自回归算子对数据张量进行下采样之后这样做因此，我们的因果关系更紧密地重新-388|-−→−→ ∞|i=12我接收器D ecode 1： with （1： | ）C ++ 代码（ | ）Decode with（）Decode with（）初始比特发送者C ++ 表示（ | ）C ++ 表示（ | 1：）删除初始位图1.左：如第3.1节中所讨论的bb-ANS编码框架。右：第4.2节中提出的ArIB编码框架。在这里，我们将bb-ANS编码器嵌套在基于块的自回归结构中，该结构消除了对初始位的需要”[41]这句话的意思是然而，与[41]的作者相反，他们使用二进制掩码来执行他们的因果关系，我们使用子像素卷积来这样做。这沉淀了更大程度的并行性，并提供了有效恢复许多因果依赖方案的灵活性，例如PixelCNN++。3. 背景假设访问大小为n的数据集，{x，x，. ，x}，熵编码需要数据符号的显式概率。然而，在VAE中，模型被分解为先验和可能性，因此不允许直接编码数据。为了解决这个问题，几位作者提出了bb-ANS的编码变体[18，35，36]。这个过程概述如下，不失一般性，我们描述了一个模型与一个单一的潜在变量。在压缩过程中，一用q（z）从一些辅助初始比特解码z|x）; encodes从一些棘手的1 2 Nx与p（x|用p（z）对z进行编码以获得完整的pdata（x）是我们想要压缩的数据。为了实现这一点，我们引入了一个离散概率分布p（x），结合熵编码，比特流。在解压缩阶段，用p（z）从比特流中解码z;用p（x z）解码x;用编码z并因此返回初始比特（因此比特回编码）。需要一个长度为10n-logp（x）位的代码来表示。q（z|x）p（x）应该与pdata（x）非常相似。在这种情况下，在n的极限中的平均码长由Ep数据[log2p（x）]H（x）给出，其中H（x）是数据的熵。这里，压缩方案被认为是香农信源编码定理下的最佳方案3.1. VAE的位回ANS如第1节所述，变分自编码器（VAE）是一种常用的估计p（x）的方法，它定义了现有bb-ANS编解码器中常见的第一解码步骤需要访问初始比特流。当与AC相比时，该要求导致若干缺点首先，虽然在解压缩之后返回初始位，但是相同的位被占用并且不容易预先读取。其次，尽管我们可以通过链接压缩数据来分摊整个大型数据集的初始位的成本，但访问任何给定数据点都需要对所有数据点进行后验解压缩潜在变量模型，数据与原始数据序列中的目标因此，单个图像的压缩承载了相当大的开销p（x）=p（x，z）dz=p（x|z）p（z）dz，（1）其中p（z）是潜在变量z的先验分布。由于p（x）通常是难以处理的，VAE引入了近似的后验q（z x），其被优化以最大化边缘证据的下限，即证据下限（ELBO）。logp（x）≥L=Eq<$−logq（z|x）+logp（x|z）p（z）n，（2）其中（2）中期望的低方差估计是通过蒙特卡洛积分和重新参数化技巧[17]。电子代码+1 ：2 （1： 2）| 1：）用（）编码C ++ 表示（ | ）解码（ | ）用（）编码E ncode 1： with （ 1： | ）C ++ 代码（ | 1：）D编码+1 ：2 （1： 2）| 1：）理想情况下，这种技术在Fg中可视化1左。389并且通过扩展，并行编码实现也是如此3.2. 确定性与随机后验抽样在基于VAE的无损压缩中，与比特回退编码相关联的不切实际性不是唯一的选择。事实上，使用“确定性”后验采样[ 22 ]的方法可以避免用于AC的bb-ANS。这种方法在有损方法的无损编解码器中几乎无处不在[2，7，25，26]，其中可并行化的低延迟编解码器特别优选（例如，流媒体）。我们注意到，当使用确定性后验采样时，与Eq.（2）平凡地取消为零，使得目标解析为最大似然估计。390≤∼≤C.1210864201 2 3 4 5图2.平均BPD节省相对于潜在变量的数量（L= 1，...，5）用于三种VAE无损压缩模型。基线是L=1的确定性后验，其中BPD 节省为零。结果显示为 CIFAR10 、 ImageNet32 和ImageNet64训练联合分布（参见例如[2]）。在获得显著的实际编码优势的同时，在牺牲随机后验的同时，也牺牲了使发送潜变量的成本最小化的能力。以抵消描述了其在使用弱和强自回归模型的密度估计中的应用。然后，我们描述了如何利用这种自回归结构，以避免许多与bb-ANS相关的挑战，而不牺牲随机后验的性能。最后，我们描述了如何将这些贡献结合起来，形成我们的SHVC编解码器。4.1. 自回归子像素卷积空间到深度和深度到空间变换是图像分析中的流行操作，从生成建模[3，14]到超分辨率[33]。它们通过将空间维度折叠成通道维度（反之亦然）来定义相邻操作，以实现高效的上采样和下采样转换。与学习操作不同，它们大大降低了计算复杂性，通过将计算（和数据）无损地移动到通道中来实现更大的并行性事实上，这些操作已经成为寻求实时执行的论文中的重要组成部分（例如，[10、19、30、33]）。具体来说，给定一个C通道张量，H高度和W宽度，我们定义空间到深度和深度到空间的变换f和f−1，使得这种限制，模型将重复下采样（RDS），f：RC×H×WRCk2×H×W，（3）每个层之间的潜在表示可用的符号数。虽然这限制了后验表现力，但几乎没有实验证据支持这在实践中有多重要。此外，具有随机后验的模型需要很大的L才能表现出色（其中L是潜在变量的数量），这会妨碍运行时间。为此，我们用Fg显示一个简单实验的结果2旨在进一步研究这种差异在这里，我们在CIFAR10，ImageNet32和ImageNet64上训练了三个VAE：两个具有随机后验（一个具有RDS，一个不具有RDS）和一个确定性后验（具有RDS）。每个模型中的架构都是相同的（下采样操作除外），并且我们以每维位数（BPD）量化压缩性能。更多的实验细节可以在附录中找到。 Here we observe that, even with L 3, bothstochastic posteriors outperform by 5%.这种差异随着L的增加而这个结果是重要的后果：目前最好的方法，以避免bb-ANS的不切实际的（即。使用确定性后验）具有5%BPD惩罚。对于具有随机后验的单图像压缩，所需的初始比特通常会比这大得多同样，除非扩展到深层的潜变量层次，否则RDS似乎是一个计算效率高的选择，不会限制性能。4. 方法我们的方法假定一个层次VAE，我们参数化先验使用自回归因子分解。我们首先定义一个无损下采样卷积算子，−→k kf−1：RC×H×W−→Rk2×Hk×Wk，（4）其中k是比例因子。如[33]中所述，这些操作可以使用子像素卷积有效地执行，子像素卷积被称为像素解混洗和像素混洗。特别地，它们的空间到深度的变换，像素解混洗，使用k步长去卷积来执行，其中第n个元素的Ck2k×k滤波器有一个非零元素，K（n）=1，如果h=n/kmodk，w=nmodk，（5）h，w0else其中h、w是空间维度上的索引该操作的结果在图中可视化3中心。在结果张量上定义通道自回归将在原始张量中的每个通道上顺序地创建棋盘自回归然而，如PixelCNN++[31]中所确定的，在原始张量中共享相同空间位置的相邻通道中的子像素具有高相关性，因此不需要复杂的模型来描述依赖性结构。因此，PixelCNN++的作者使用由单个网络评估预测的线性模型，以解码的上下文为条件，来定义跨通道的联合分布。通过这种方式，它们混淆了对单独RGB网络评估的需求。（我们注意到，在我们的设置中，上下文是指当前或先前分层潜在变量中的先前解码的像素。从现在起，我们所说的弱自回归，然后类似于[31]定义，根据随机决定论（RDS）BPD节省\%3915 6 7 89 10 111213 14 15161 2 341 2 3 45 6 7 89 10 11123 14 1516565656565656565656125612561212 112212561256112266656125612561256× ×CY.（i）µ=α+βc，h，wc，h，wc，h，w·图3.左：一个3 4 4输入RGB图像。中心：使用k=2的（5）的卷积算子下采样的图像x。右：使用（8）的卷积算子下采样的图像x，其中k=2。则由Y.p（x0：C，h，w|D）= p（x0，h，w|D）p200万美元。Σ=p g（x; k）iC，h，w|D×c=1其中D是解码的上下文，p是通过在离散化区间上积分概率密度函数（pdf）获得的某个参数概率质量函数（pmf），平均值为（i+1）C−1×pj=iC+1i=0时g（x;k）j，h，w|g（x;k）

下载后可阅读完整内容，剩余1页未读，立即下载