实用全分辨率学习无损图像压缩法

11 浏览量更新于2023-10-19 收藏 1.02MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

D（1E（11D（3p（z）（2）|fz（1Qz（2Q中文Q英（3E（2E（1实用全分辨率学习无损图像压缩法比安·门策·埃里库尔·阿古斯特松拉杜·蒂莫夫特Luc Van Goolmentzerf@vision.ee.ethz.chaeirikur@vision.ee.ethz.chmichaelt@nari.ee.ethz.chtimofter@vision.ee.ethz.chvangool@vision.ee.ethz.ch瑞士苏黎世摘要我们提出了第一个实用的学习无损图像压缩系统，L3C，并表明它优于流行的工程编解码器，PNG，WebP和JPEG 2000。在我们的方法的核心是一个完全并行化的hierarchi- cal概率模型的自适应熵编码，优化端到端的压缩任务。与最近的自回归离散概率模型（如PixelCNN）相比，我们的方法i）与学习的辅助表示联合建模图像分布，而不是专门建模RGB空间中的图像分布，ii）仅需要三次向前传递来预测所有像素概率，而不是每个像素一次。因此，与最快的PixelCNN变体（Multiscale- PixelCNN）相比，L3 C在采样时获得了超过两个数量级的加速。此外，我们发现学习辅助表示是至关重要的，并且显著优于预定义的辅助表示，例如RGB金字塔。1. 介绍由于基于似然的离散生成模型学习像素上的概率分布，因此理论上它们可以用于无损图像压缩[40]。然而，最近关于使用深度神经网络学习压缩的工作仅关注有损压缩[4，41，42，34，1，3，44]。事实上，关于离散生成模型的文献[46，45，35，32，20]在很大程度上忽略了作为无损压缩系统的应用，无论是比特率还是运行时间都不能与PNG [31]，WebP [47]，JPEG 2000 [38]和FLIF [39]等经典编解码器进行比较。这并不令人惊讶，因为使用基于似然性的离散生成模型的（无损）熵编码相当于与模型的采样复杂度基本相同的解码复杂度，这使得许多最近的最先进的自回归模型（诸如PixelCNN [46] 、 PixelCNN++ [35] 和多尺度 PixelCNN[32]）不切实际，需要几分钟或更长的时间。f（3）图1：L3C架构概述。特征提取器E（s）计算量化的（通过Q）辅助分层特征表示z（1），. . .，z（S），其与图像x，p（x，z（1），. . . .，z（S））使用非自回归预测器D（s）来建模。特征f（s）总结了尺度s的信息，并用于预测下一尺度的p这些模型的复杂性主要是由采样（并由此解码）操作的顺序性质引起的，其中需要以光栅扫描顺序为图像的每个单个（子）像素计算前向传递。在本文中，我们将解决这些挑战，并开发一个完全并行化的学习无损压缩系统，性能优于流行的经典系统PNG，WebP和JPEG 2000。我们的系统（见图1的概述）是基于完全并行学习的特征提取器和预测器的体系结构，这些特征提取器和预测器被联合训练用于压缩任务。我们的代码可在网上1.特征提取器的作用是建立辅助的分层特征表示，其帮助预测器对图像和辅助的小时的GPU上生成中等大小的图像，typi-cally256×256 px（见表2）。计算的COM-1https://github.com/fab-jul/L3C-PyTorch10629p（x|f（1））f（1）p（z（1）|（f（2））D（2D（1f（210630特色自己。我们的实验表明，学习的特征表示是至关重要的，和启发式（预定义）的选择，如多尺度RGB金字塔导致次优性能。更详细地说，为了对图像x进行编码，我们通过S特征提取器E（s）和预测器D（s）对其进行馈送。然后，我们在一次向前传递中并行地获得x和辅助特征z（s）的概率分布p然后，这些预测与自适应算术编码器一起使用，以获得x和辅助特征的压缩比特流（第二节）。3.1提供了算术编码的介绍）。然而，算术解码器现在需要p以能够解码比特流。从辅助特征的最小尺度z（S）开始，我们假设其是均匀先验的，D（S）获得对第n尺度z（S-1）的辅助特征的分布的预测，并且因此可以从比特流中解码它们。预测和解码交替进行，直到算术解码器获得图像x。步骤如图所示。附录中的A4。在实践中，我们只需要为我们的模型使用S=3个特征提取器和预测器，因此当解码时，我们只需要结合自适应算术编码来执行三个并行（在像素上）正向传递我们的模型的并行性质使其能够比自回归模型更快地进行解码，而学习使我们能够获得与最先进的工程无损编解码器竞争的压缩率。总之，我们的贡献如下：• 我们提出了一个完全并行的分层概率模型，学习产生辅助特征表示的特征提取器来帮助预测任务，以及对所有变量的联合分布进行建模的预测因子（3）第三章。• 我们表明，熵编码的基础上，我们的非自回归概率模型优化离散对数似然可以获得压缩率优于-WebP、JPEG 2000和PNG，后者大幅下降。我们只是稍微优于最先进的FLIF，而在概念上要简单得多（第二节）。5.1）。• 与此同时，我们的模型在运行时复杂性方面是实用的，并且比基于PixelCNN的方法快几个数量级特别是，我们的模型是5。31·10比PixelCNN++快4倍[35]和5. 06·10比高度速度优化的MS-PixelCNN快2倍[32]（第二节）5.2）。2. 相关工作基于可能生成模型如前压缩获得最先进性能的一组突出模型是自回归PixelRNN/PixelCNN 的变体 [46 ， 45] 。 PixelRNN 和PixelCNN将图像分布的像素组织为一个序列，并分别使用RNN和具有掩码卷积的CNN根据（所有）先前像素有条件地预测每个像素的分布。这些模型需要网络评估的数量等于预测的子像素的数量 x el s2（3·W·H）。Pix elCNN++[35]以各种方式对此进行了改进，包括对每个像素的联合分布进行建模，从而消除了对前向通道并减少到W·H前向通道。MS-PixelCNN [32]通过减少像素块之间的依赖关系并与浅PixelCNN并行处理来并行PixelCNN，需要O（logWH）向前传递。[20]为PixelCNN配备辅助变量（图像的灰度版本或RGB金字塔）以鼓励高级特征的建模，从而提高整体建模性能。[7，29]提出了类似于PixelCNN/PixelRNN的自回归模型，但它们还依赖于注意力机制来增加感受野。工程编解码器众所周知的PNG[31]分为两个阶段：首先，图像被可逆地转换为一个更可压缩的表示，使用一个简单的自回归滤波器，根据周围的像素更新像素，然后使用deflate算法压缩[11]。WebP[47]使用更多涉及的变换，包括使用完整的图像片段来编码新像素和自定义熵编码方案。JPEG 2000[38]包括无损模式，其中在编码步骤之前对瓦片进行可逆变换，而不是不可逆地去除频率。目前最先进的（非学习）算法是FLIF[39]。它依赖于强大的预处理和基于CABAC [33]的复杂熵编码方法（称为MANIAC），该方法在编码期间为每个通道生成动态决策树作为有损压缩中的上下文模型在有损压缩中，上下文模型已经被研究为有效地对所获得的图像表示进行有损编码的一种方式经典方法在[24，26，27，50，48]中进行了讨论。最近学习的方法包括[22，25，28]，其中学习潜伏期上的浅自回归模型。[5]提出了一个有点类似L3 C的模型：他们的自动编码器与我们的第一个尺度相似，超编码器/解码器与我们的第二个尺度相似。然而，由于它们是针对有损图像压缩进行训练的，因此它们的自动编码器直接预测RGB像素此外，预测z（1）的不确定性σ，而不是逻辑的混合最后，不是学习z（2）的概率分布，而是使条目独立同分布。一个uni，基本上，所有基于概率的离散类，动态模型可以与算术编码器一起使用，用于无损2RGB“像素”具有3个“子像素”，每个通道中一个。10631变量非参数密度模型，而在我们的模型中，可以递归地训练和应用更多的阶段。压缩的连续似然模型连续似然模型的目标，如VAE [19]和RealNVP [12]，其中p（x′）是连续分布，自适应算术编码与i.i.d. 在我们刚刚描述的背景下，在本文中，我们感兴趣的是对自然图像的像素进行有损编码，已知这些像素是高度相关的，因此不是独立同相的。根本设xi是图像x的子像素xel2，并且p∈img（x）是所有子像素的联合分布我们可以考虑这个因素-与其离散对应物密切相关特别是通过设置x′=x+u，其中x是离散图像，化规划Q（x）=tp（xt|Xt−1，的。. . ，x1）。现在，为了编码x，u是均匀量化噪声，p（x′）的连续似然是离散q（x）=Eu[p（x′）][40]的似然的下界。然而，部署这种模型进行压缩存在两个挑战。首先，离散似然q（x）需要可用（这涉及非平凡的积分步骤）。此外，（自适应）算术编码的存储器复杂性取决于q的因子分解的变量的域的大小（参见第二节）。3.1关于（自适应）算术编码）。由于域在x中的像素数量上呈指数增长，除非q是可因子分解的，否则将其与自适应算术编码一起使用是不可行的。3. 方法3.1. 无损压缩我们可以将子像素Xt视为我们的符号流，使用 p {t} （ x t ）对第 t 个符号 / 子像素 x el 进行编码|xt−1，. . . ，x1）。注意，这对应于在编码期间改变前一段落的p（j），并且通常被称为自适应算术编码（AAC）[49]。对于AAC，接收器还需要知道每个步骤的不同操作，即，它们必须是先验已知的，或者因子分解必须是因果的（如上所述），使得接收机可以从已经解码的符号中计算它们。Cross-Entropy实际上，精确的p通常是未知的，而是由模型p估计的。因此，我们使用次优长度log1/p（x）来代替使用长度log 1/p（x）来编码符号x。然后H（p<$，p）=Ej<$p< $ [−logp（j）]Σ一般来说，在无损压缩中，给定一些对称流，它们是独立绘制的，并且是相同的。=−j∈X（j）（1）分散的（i.i.d.）从集合X={1，. . . 、|X|}根据概率质量函数p 我们的目标是把这个流编码成一个最小长度的比特流，使用接收机可以从比特流。理想地，编码器最小化每个符号的期望比特j∈Xp<$（j）<$（j），其中<$（j）是编码符号j的长度（即，更有可能的符号应该获得更短的代码）。信息理论提供（例如， [9]）对于任何可能的码，界 L<$≥H （ p<$），其中 H（p<$）=Ej<$p<$[−logp<$（j）]是香农entro p y[36]。算术编码一种几乎达到下界H（p<0）（对于足够长的符号流）的策略是算术编码[49]。3它通过在每个步骤中细分[0，1）（编码一个符号）将整个流编码成单个数字a′∈[0，1），如下所示：interval[0，1））。我们将区间[a，b]分为|X|部分是每个符号的预期（次优）比特，称为交叉熵[9]。因此，给定某个p，我们可以最小化通过最小化等式（1），利用根据p分布的符号对符号流进行编码。（一）. 这自然也适用于非i.i.d.在前一段中描述的情况下，通过对每个符号xt使用d_if ff_i（xt）和p（xt），并最小化tH（p∈（xt），p（xt））.以下部分描述了如何使用自然图像的pimg的分层因果因式分解来有效地进行学习无损图像压缩（L3C）。3.2. 架构该架构的高级概述如图所示 1，图。图2示出了一个标度s的详细描述。与PixelCNN和Pixel等自回归模型RNN对图像的Q分布进行自回归分解其中，第j段的长度是p<$（j）/（b-a）。然后我们在子像素xt上，作为p（x）=不t=1 p（xt|xt−1，. . . ，x1），我们选取与当前符号相对应的间隔，即，我们将a，b更新为该区间的边界我们递归地进行，直到没有符号留下。最后，我们发送a′，它是舍入到最小位数s. t的aa′≥a.接收a′连同编码符号的数量的知识和p′唯一地指定流并允许接收器解码。3.为了说明的简单性，我们使用（自适应）算术编码，但是任何自适应熵实现编码器都可以与我们的方法一起使用。联合建模所有子像素，并引入一个学习的高，辅助特征表示z（1），. . . ，z（S）来简化建模任务。我们将z（s）的维数固定为C×H′×W′，其中通道数C是超参数（在我们报道的模型中C = 5），给定H × W维图像，H′=H/2s，W′=W/2s. 44考虑到z（s）是量化的，这方便地上限了可以包含在每个z（s）内的信息，然而，可以探索其他维度。10632ReLU在pCUV'qjf（s）S2F5s1f 1s1f1s1f 1（s）inQ++UAf（s）p（z（s−1）|f（s））+E（s）C（s+1）在z（s）f（s+1）D（s）4Cf（s−1）p图2：单个规模的体系结构细节。对于s=1，E（1）是归一化为[-1，1]的RGB图像x。所有垂直黑线都是卷积，其具有Cf= 64个滤波器，除非下面另有说明。卷积是步幅1，3×3滤波器，除非上面另有说明（使用sSfF =步幅s，滤波器f）。我们将来自预测器D（s+1）的特征f（s +1）添加到那些D（s）的第一层（尺度之间的跳跃连接）。灰色块是残留块，在右侧显示一次。C是z（s）的通道数，C（s−1）是最终通道数，参见第2节。三点四分。特殊块用红色表示：U是像素重排上采样[37]。A是第二节中描述的“atrous卷积”层。3.2.我们使用热图来可视化z（s），参见第二节。A.4.具体来说，我们对图像x的联合分布进行并且特征表示z（s）为p（x，z（1），. . . ，z（S））=YSp（x|z（1），. . . ，z（S））p（z（s）|z（s+1），. . . ，z（S））s=1其中p（z（S））是均匀分布。特征表示可以手工设计或学习。具体来说，一方面，我们考虑z（s）=B2s（x）的RGB金字塔，其中B2s是具有子采样因子2s的双三次（空间）子采样算子。另一方面，我们考虑学习表示z（s）=F（s）（x）使用特征extrac。并行，速率为1、2和4，然后将得到的特征图连接到3Cf维特征图。3.3. 量化我们使用[25]中提出的标量量化方法量化的 E（s）的输出：给定水平L={1，. . . ，<$L}<$R，我们使用最近邻分配来将每个条目z′∈z（s）表示为z=Q（z′）：=arg minj<$z′−<$j<$，（2）但使用可微分的<$Lexp（−σ<$z′− σ<$）torF（s）. 我们使用图中所示的分层模型。1使用组合物F（s）=Q<$E（s）<$··<$E（1），其中E（s）Q（z）=j=1中国（3）l=1exp（−σq<$z′−<$l <$）是特征提取器块，并且Q是标量可微分量化函数（参见3.3）。图1中的D（s）是预测器块，并且我们将E（s）和D（s）参数化为卷积神经网络。设z（0）=x，对所有s ∈ {0，. . . ，S}为p（z（s）|z（s+1），. . . ，z（S））=p（z（s））|f（s+1）），使用预测器特征 f （ s ） =D （ s ）（ f （ s+1 ）， z（s））。5注意f（s+1）总结了z（S）的信息。 . . ，z（s+1）.该预测器基于超分辨率architec-来自EDSR [23]的结果，其动机是我们的预测任务与超分辨率有些相关，因为两者都是涉及空间上采样的密集预测任务。我们镜像预测器以获得特征提取器，然后计算向后传递的梯度，其中σq是a与量化的“软度”相关的超参数为了简单起见，我们将L固定为[-1，1]中的L=25个均匀间隔的值。3.4. 混合模型为了便于记法，令z（0）=xa gain。我们对条件分布p（z（s））进行建模|z（s+1），. . . ，z（S））使用离散化逻辑混合模型的推广，K分量在[ 35 ]中提出，因为它允许有效的训练：预测每个（子）像素的logit的替代方案具有需要更多存储器的缺点，导致稀疏梯度（我们仅获得对应于地面真值的logit的梯度），并且不对p域中的相邻值应该具有类似概率进行建模。设c表示信道，u、v表示空间位置。为[23]不使用BatchNorm [16]。灵感来自所有尺度，我们假设z（s）的条目独立空间金字塔池D（s）的结尾：在A中，我们使用三个无环卷积，acrossu，v，g iv enf（s+1）. F或RGB（s=0），我们定义Y+π，μ，σCEE106335最终预测器只看到z（S），即，设f（S+1）=0。p（x|f（1））=p（x1uv，x2uv，x3uv|f（1））、（4）u，v10634pCUV1UV2紫外线3紫外线γ紫外线我CUVKKKS我们在RGB通道上使用弱自回归为了通过混合来定义联合概率分布pm（为了更短的符号，去掉索引uv通道和K个混合物，以及每个混合物的λα，λβ，λγ，因此需要C （0）=3·3·K+3·K通道。F或s>0，C （s）=3·C·K，因为不需要λ。Withp（x1，x2，x3|F（一））=pm（x1|F（一））·pm（x2|F（一），x1）·参数，我们可以得到p（z（s））|f（s+1）），其RGB和C×H′ × W ′ × L的尺寸分别为3× H × W ×256和0× H ′ ×W ′×L。pm（x3|f（1），x2，x1）.（五）我们将pm定义为逻辑分布pl（定义在等式中）的混合（10））。为此，我们获得混合权重6（图中用立方体可视化）①的人。我们强调，与[35]相反，我们的模型不是自动退出超过像素，即，z（s）被建模为inde-k k kk在u上悬垂，vg iv enf（s+1）（也适用于z（0）=x）。πcuv、均值µcuv、方差σcuv以及系数λcuv从f（1）（见下文），并得到3.5. 损失pm（x1UVΣ|f(1))=πkKΣpl（x1UVK1UV1uv）我们现在准备定义损失，这是[35]中介绍的离散逻辑混合损失的一般化。从SEC召回3.1我们的目标是建立pm（x2uv |f（1），x1uv）=KΣpm（x3uv |f（1），x1uv，x2uv）=KK2紫外线K3紫外线pl（x2uv|克pl（x3uv|克2uv）3UV），x 和表示 z （ s ）的真实联合分布，即， p∈（x ， z（1），. . . ，z（s））尽可能精确地使用我们的模型p（x，z（1），. . . ，z（s））。因此，z（s）=F（s）（x）使用学习的特征提取器块E（s）来定义，并且（六）其中我们使用对前一个xcuv的条件依赖性”[15]“以”“以”“2.2]，p（x，z（1），. . . ，z（s））是离散化（条件）逻辑混合模型与通过f（s）定义的参数的乘积，这些参数又使用学习的预测器块D（s）来计算。如第3.1、预期的cod-K1UVK1UVK2紫外线K2紫外线kαuv x1uv通过编码x，z（1），. . . ，z（s）w. r. t. 我们的模型p（x，z（1），. . . ，z（s））是交叉项pyH（p∈，p）。K3紫外线K3紫外线Kβ紫外线x1uv+λkx2紫外线。（七）因此，We直接最小化H（p∈，p）w。r. t. 特征提取器块E（s）和预测器块E（s）的参数注意，方程中通道上的自回归（5）只有用于将平均值µ更新为µm。对于其他标度（s >0），公式仅发生变化D（s）over samples. 具体来说，给定N个训练样本x1，. . . ..因为我们根本不使用自动退出，即，µ˜CUV=µcuv 为第i个样本的作用。我们尽量减少都是c uv 不需要对先前通道进行调节，L（E（1），. . . 、E（S）、D（1）、. . . 、D（S））和Eqs.（4）-（6）简化为YΣN=−log..（1）（S）p xi，F，.. . 、Fp（z（s）|f（s+1））=c，u，vpm（z（s）|f（s+1））（8）我我i=1ΣN（s）Σ（s+1）k k k.（一）=−（S）Σpm（zcuv|F）=πcuv pl（xcuv|µcuv，σcuv）。（九）日志p xi|Fi，. . .，Fiki=1Y.（s）（s+1）（S）pF|F，. . . 、F对于所有尺度，单个物流pl给出为：.ΣN .我我我s=1pl（z|µ，σ）=sigmoid（（z+b/2−µ）/σ）−=−logp（xi|F（1），. . . 、F（S）），σ|µ˜ππ，σ，σµ˜=µµ˜=µ+λµ˜=µ+λ·10635ppΣsigmoid（（z-b/2-µ）/σ）。（十）我我i=1S+logp（F（s）|F（s+1），. . . ，F（S））。（十一）这里，b是量化网格的仓宽度（对于s=0，b=1，否则b=1/12）。对于s=0出现的边缘情况z=0和 z=255如[35，Sec. 2.1]。F或所有尺度，我们得到p（z （ s−1））的参数 |f（s））从f（s）与1×1的卷积，有C （s−1）输出通道（见图1）。2）的情况。对于RGB，此最终特征图必须包含3个RGB中每一个的三个参数π、µ、σ6注意，与[35]相反，我们不共享通道间的混合权重πk。这使得Eq更容易边缘化。（五）、我我我s=1注意，损失分解为不同表示的交叉熵之和。还要注意，这种损失对应于数据的负对数似然w.r.t.我们的模型通常是在生成建模文献中采用的观点（参见，例如，[46]）。我们强调，与生成模型文献相反，我们学习表示，将梯度传播到两个E（s）10636[bpsp]方法Open ImagesDIV2KRAISE-1k我们L3c2.6043.0972.747了解到RGB共享2.918+12%3.657+18%3.170+15%基线RGB2.819+8。百分之二3.457+12%3.042+11%PNG3.779+45%4.527+46%3.924+43%非学习JPEG 20002.778+6。占7%3.331+7。百分之五2.940+7。0%的百分比方法WebP2.666+2。百分之三3.234+4。百分之四2.826+2。百分之九FLIF2.473−5。百分之一3.046- 1。占7%2.602−5。百分之三表1：我们的方法（L3C）和学习的基线（RGB共享和RGB）相对于先前（非学习）方法的压缩性能，以每子像素位（bpsp）为单位。如果L3C优于其他方法，则用绿色强调与我们的方法相比的百分比差异，否则用红色强调。和D（ s ），因为我们损失的每个分量都取决于D（s+1），。 . . ，D（S），并在E（s），. . . ，E（1）由于不同的iQ. 因此，我们的网络可以自主学习在以下两者之间进行权衡：a）使特征提取器E（s）的输出z（s）更容易为预测器D（s+1 ）估计，b）将足够的信息放入z （ s）中，以供预测器D（s）预测z（s-1）。3.6. 与MS PixelCNN的当我们的方法中的辅助特征z（s）被限制为非学习的RGB金字塔时（参见第二节中的基线）。4），这有点类似于MS-PixelCNN [32]。特别是，[32]将这样一个金字塔与升级网络相结合，这些网络在我们的体系结构中扮演着与预测器相同的角色。然而，至关重要的是，他们依赖于将这些预测器与浅PixelCNN相结合，并放大一个di-一次拉伸（W×H→2W×H→2W×2H）。虽然他们的复杂度从PixelCNN [46]所需的O（WH）向前传递降低到O（logWH），但他们的方法实际上仍然比我们慢两个数量级（参见秒5.2）。此外，我们强调这些相似性仅适用于我们的RGB基线模型，而我们的最佳模型是使用与预测器联合训练的学习特征提取器获得的。4. 实验我们将我们的主模型（L3C）与两个学习到的基线进行比较：对于RGB共享基线（见图A2）我们使用双三次子采样作为特征提取器，即， z（s）=B2s（x），并且仅训练一个预测器D（1）。在测试期间，我们使用B获得多个z（s），并应用单个预测-D（1）每个RGB基线（见图1）A3）也使用双三次子采样，但是，我们训练S=3个预测器D（s），每个尺度一个，以捕获不同的分布与RGB基线的唯一区别是学习了表示z（s）。我们训练所有这些模型，直到它们在70万次迭代时收敛。我们在从Open Images Train数据集中随机选择的213487张图像上训练我们的模型[21]。我们缩小规模的图像，以768像素的较长的一面，以消除潜在的文物从以前的压缩，丢弃的图像，其中重新缩放不会导致至少1。25倍的降尺度。此外，在[5]之后，我们丢弃高饱和度/非摄影图像，即，图像平均值S >0。9或V >0。8在HSV颜色空间中。我们对来自Open Images Test的500张随机选择的图像和来自常用超分辨率数据集的100张图像进行了DIV2K[2]，两者都像训练集一样进行预处理。最后，我们在RAISE-1 k [10]上进行评估，这是一个包含1000张图像的“真实世界图像数据集”：为了展示我们的网络如何推广到任意大小的图像，我们随机调整这些图像的大小。长边是500-2000像素。为了与PixelCNN文献进行比较，我们广告-在ImageNet32和ImageNet64数据集[8]上训练L3C，每个数据集包含1 281 151个训练图像，50 000张验证图像，32×3264×64像素。训练我们使用RMSProp优化器[15]，批量大小为30，最小化Eq.（11）直接（无正则化）。我们在128 × 128随机作物上训练，并应用随机水平翻转。我们从学习率λ=1·10−4开始，每5个 epoch降低0.75在ImageNet 32/64上，我们将批量大小增加到120，并且由于较小的图像，每个时期衰减λ我们发现，添加Batch- Norm [17]略微降低性能。此外，用单个卷积替换堆叠的无环卷积A，也会通过停止不同的RGB比例。对于我们的主要型号，L3 C，我们广告-学习S=3个特征提取器E（s）。7注意，7我们选择S=3是因为增加S的代价是训练速度变慢对于大小10637H×W，最后一个瓶颈有5×H/8×W/8个维度，每个维度量化为L =25个值。用统一的先验编码这相当于总比特率的2.4%对于RGB共享基线，我们应用D（1）4次，因为只有一个编码器被训练。10638方法32 ×32像素320 ×320pxBS=1L3C（Ours）PixelCNN++[35]0.0168秒47.4秒0.0291秒80分钟=30L3C（Ours）PixelCNN++0.000624秒11.3秒0.0213秒18分钟BS[46]第四十六话[32]第三十二话120秒†1.17秒†18小时12分钟表2：与PixelCNN文献相比，我们的方法（L3C）的采样时间。前两行中的结果采用批量（BS）1获得，其他时间采用BS=30获得，因为这是[32]中报告的结果[编辑]：我们通过代码发布获得的时间PixelCNN++[35]，在我们用于评估L3C的同一GPU（ Titan X Pascal ） . [†] ：在 [32] 中报告的时间，在 NvidiaQuadro M4000 GPU上获得（没有可用代码）。[编辑]：为了正确看待这些数字，我们将我们的运行时间与其他方法在320×320作物上的线性插值梯度传播通过我们的损失的目标，我们得到明显更差的性能-事实上，优化器没有设法显著地拉低任何学习的表示z（s）的交叉熵。我们发现，Q的σq的选择对列车有影响-[25 ]第25话：我是你的朋友Q_q类似于identity_y，我们发现这是一个很好的起点，但发现让σ_q稍微平滑一点是有益的（这会为编码器产生更好的梯度我们使用σq=2。此外，我们探索了改变C（z（s）的通道数）和l个值L的数量的影响，并且发现增加L而不是增加C更有益，即，具有更精细的量化网格对于训练是有益的其他编解码器我们使用各自的官方实现与FLIF和WebP的无损模式进行比较[39，47]，对于PNG，我们使用Pillow的实现[30]，对于JPEG 2000的无损模式，我们使用Kakadu实现[18]。参见第2关于这些编解码器的描述。5. 结果5.1. 压缩表1显示了我们的方法（L3C）和学习的基线与其他编解码器的比较，在我们的测试集上，每子像素位数（bpsp）8我们所有的方法都优于广泛使用的PNG，在所有数据集上至少大43% 我们的性能也优于WebP和JPEG2000-其中一个较小的利润高达7。百分之五我们注意到，FLIF仍然略优于我们的模型，但提醒读者，FLIF涉及许多手工设计的高度专业化的技术（见第2节）。相比之下，我们使用一个简单的卷积前馈神经网络架构。的8我们遵循基于似然性的生成建模文献来测量bpsp;每像素X位（bpp）=X/3bpsp，另见脚注2。表3：比较我们的方法（L3C）与（L3C）的ImageNet32的32 ×32图像上的每子像素位数（bpsp）。基于PixelCNN的方法和经典方法。在所有数据集上，具有S=3个已学习预测因子的RGB基线优于RGB共享基线，这表明为每个尺度学习预测因子的重要性。使用我们的主模型（L3C），我们还学习了特征提取器，我们的表现优于两个基线：输出在任何地方都至少大12%，这表明了学习表示的好处。5.2. 与PixelCNN的虽然基于PixelCNN的方法不是为无损图像压缩而设计的，但它们会学习像素上的概率分布，并针对相同的对数似然目标进行优化。由于它们原则上可以在压缩算法中使用，因此我们在这里进行比较。采样运行时表2显示了与三种基于PixelCNN的方法的速度比较（参见第关于这些办法的详细情况，请参看第2段）。我们比较了从模型中采样所花费的时间，以便能够与PixelCNN进行比较。L3C的实际解码时间见第2.1节。五点三。虽然PixelCNN [46]和MS-PixelCNN [32]的运行时间取自[32]中的表，但我们可以通过假设PixelCNN++不比PixelCNN慢来与L3 C进行比较，以获得保守的估计9，并通过比较，MS-PixelCNN报告了比PixelCNN快105倍的速度。当比较320×320的作物时，我们因此观察到与原始PixelCNN相比的巨大加速：>1个。批量（BS）1和>5时为63 · 10 5 ×。31·104×，适用于BS 30。我们看到，在320×320作物上，L3C至少五、06·10比MS-PixelCNN快2倍，是最快的PixelCNN-类型的方法。此外，表2表明，基于PixelCNN的方法对于高分辨率图像的无损压缩是不实用的。我们要强调的是，由于PixelCNN和MS-PixelCNN的代码不可用和硬件不同，因此不可能对它们进行完全公平的即使我们可以使用相同的硬件，框架/框架版本的差异（PyTorch与Tensorflow）不能9PixelCNN++实际上比PixelCNN快3倍左右，因为它直接对关节进行了建模，参见第二节。二、[bpsp]ImageNet32了解到L3C（我们的）4.76C[46]第四十六话3.83C[32]第三十二话3.95CPNG6.42JPEG 20006.35WebP5.28FLIF5.0810639被解释。这是Sec。A.3有关批量影响的注释比特成本为了将表2中报告的运行时放入透视图中，我们还评估了ImageNet 32上的比特成本，PixelCNN和MS-PixelCNN在表3中进行了训练。我们观察到我们的输出为20。比MS-PixelCNN大6%，比24. 比原始PixelCNN大4%，但比所有经典方法都小。然而，如上所示，这种比特成本的增加是与速度的巨大订单进行交易的我们在ImageNet64上得到了类似的结果，见第二节。A.2.5.3. 编码/解码时间为了使用L3 C（以及输出概率分布的其他方法）对图像进行编码/解码，需要使用熵编码器的通道。我们实现了一个相对简单的流水线来使用L3C对图像进行编码和解码，我们在第A.1节的补充材料中对此进行了描述。结果见表4和A1。正如在A.1节中提到的，我们没有优化我们的代码以提高速度，但仍然获得了实际的运行时。我们还注意到，要使用其他基于似然的方法进行无损压缩，需要类似的步骤。虽然我们的编码时间是在相同的顺序为经典的方法，我们的解码器是慢于其他approaches。这可以归因于更优化的代码和将复杂性卸载到编码器-而在我们的方法中，解码基本上反映了然而，结合编码和解码时间，我们要么更快（FLIF），要么有更好的比特率（PNG，WebP，JPEG 2000）。5.4. 采样表示我们强调，我们研究的是图像压缩，而不是图像生成。尽管如此，我们的方法产生的模型中，x和z（s）可以采样。因此，我们在图中对模型的部分表示进行采样时，将输出可视化。 3 ：左上角显示了 OpenImages测试集中的图像，当我们存储所有比例时（丢失）。当我们存储z（1），z（2），z（3）but而不是x时，从p（x|f（1）），我们只需要39。2%的总位没有明显的分级视觉质量。对z（1）和x进行采样会导致一些模糊，同时将存储位的数量减少到编解码编码[s]解码[s] [bpsp] GPU CPUL3C（我们的）0.2420.3742.646CCPNG0的情况。213六、09·10−53 .第三章。850CJPEG 2000 1 .一、48·10−2二、26·10−4二、831CWebP0的情况。1577 .第一次会议。12·10−2二、728CFLIF1 .一、720的情况。133二、544C表4：在512×512作物以及bpsp和所需设备上与经典方法相比的编码和解码时间。106404.061 bpsp储存：0，1，2，3 1.211 bpsp储存：1，2，30.375 bpsp储存：2，3 0.121 bpsp储存：3图3：生成表示而不是存储它们的效果，给定Open Images测试集中512×512图像的不同z（s）在每个生成的图像下面，我们显示了所需的bitcost以及存储的比例。9 .第九条。占全部bitcost的21%。最后，只存储z（3）（包含来自L和2的64 × 64 × 5个值）。85%），并且对z （2）、z （1）和x进行采样产生显著的伪影。然而，原始图像仍然可以识别，显示了我们的网络能够学习捕获全局图像结构的分层表示。6. 结论我们提出并评估了一个完全并行的分层概率模型与辅助特征表示。我们的L3C模型在所有数据集上的性能都优于PNG，JPEG 2000和WebP。此外，它显著优于依赖于预定义的启发式特征表示的RGB共享和RGB基线，这表明学习表示是至关重要的。此外，我们观察到，使用基于PixelCNN的方法来有损压缩全分辨率图像比L3C长两到五个数量级。为了进一步改进L3 C，未来的工作可能会研究跨像素的弱自回归形式和/或模型网络对当前图像的动态适应。此外，探索特定领域的应用将是有趣的，例如，用于医学图像数据。致谢作者感谢Sergi Caelles的富有洞察力的讨论和反馈。这项工作得到了ETH General Fund（OK）和Nvidia通过硬件赠款的部分支持10641引用[1] E. Agustsson，F.Mentzer，M.查嫩湖卡维杰利河蒂姆-奥夫特湖Benini和L.诉好极了用于端到端学习可压缩表示的软到硬矢量在NIPS，2017年。1[2] E. Agustsson和R. Timofte NTIRE 2017单图像超分辨率挑战赛：数据集和研究。在CVPR研讨会，2017。6[3] E. Agustsson，M. Tschannen，F. 门策河 Timofte和L.范古尔用于极端学习图像压缩的生成对抗网络。arXiv预印本arXiv：1804.02958，2018。1[4] J. 球，V。Laparra和E. P. 是蒙塞利。端到端优化图像压缩。ICLR，2016. 1[5] J. Ball e'，D. Minnen，S. 辛格，S。 J. H wang和N. 约翰·斯通。基于尺度超先验的变分图像压缩ICLR，2018

下载后可阅读完整内容，剩余1页未读，立即下载