198量化分级VAE有损图像压缩段志豪* 卢明<$马占<$朱凤青**美国印第安纳州西拉斐特普渡大学†中国江苏省南京市南京大学duan90@purdue.edu,luming@smail.nju.edu.cn,mazhan@nju.edu.cn,zhu0@purdue.edu*摘要最近的工作表明,变分自动编码器(VAE)和率失真理论之间有很强的理论联系。受此启发,我们考虑有损图像压缩的问题,从一般建模的角度从ResNetVAE(最初设计用于数据(图像)分布建模)开始,我们CelebA(64x64)ImageNet(64x64)COCO贴片(256x256)0.010 bpp0.082 bpp0.133 bpp0.303 bpp0.433 bpp 0.570 bpp 2.140 bpp0.012 bpp0.037 bpp0.065 bpp0.108 bpp0.168 bpp 0.233 bpp 2.145 bpp0.007 bpp0.023 bpp0.034 bpp0.112 bpp0.162 bpp 0.219 bpp 2.430 bpp使用量化感知的后验和先验来重新设计其潜变量模型,从而实现图像压缩的简单量化和熵编码。随着改进的神经网络块,我们提出了一个强大而有效的有损图像编码器,优于自然图像(有损)压缩的传统方法。我们的模型以粗到细的方式压缩图像,并支持并行编码和解码,从而在GPU上快速执行。代码可在线获取。1. 介绍数据(在我们的上下文中,图像)压缩和生成建模是两个基本相关的任务。直观地说,压缩的本质是找到数据中的所有“模式”,并将更少的位分配给更频繁的模式。为了确切地知道每个模式发生的频率,需要一个良好的数据分布概率模型,这与(基于可能性的)生成建模的目标相一致。压缩和生成建模之间的这种联系在理论上和实验上都已经很好地建立起来,用于无损设置。事实上,许多现代图像生成模型也是性能最好的无损图像编码器[43,56]。对于有损压缩设置,可以绘制类似的连接。特别是,一类流行的图像生成模型,变分自编码器(VAE)[19],已被证明具有率失真(R-D)理论解释[2,54]。在指定失真度量的情况下,VAE通过最小化上界来学习*Z博士。马云的部分资金来自微软亚洲研究院。图1:我们的QRes-VAE(用于量化ResNetVAE)图像编码器学习特征的层次结构,并以粗到细的方式编码/解码图像。放大后看得更清楚模型在每个数据集上单独训练。它们的信息R-D函数[54],显示出应用于有损图像压缩的巨大潜力。然而,现有的性能最佳的VAE [45,11]采用连续的潜在变量,其不能直接编码成比特,因此不能用于实际的图像压缩。虽然已经开发了几种方法来将VAE变成实际的编码器,通过通信样本[14]和训练后量化[53],与现有的有损图像编码器相比,两者都没有达到令人满意的R-D性能。尽管缺乏实用的编码算法,但VAE在有损压缩中的潜力也在图像编码界得到了认可。虽然从变换编码的角度独立开发,但许多最先进的有损图像编码器类似于简单的VAE,其中潜变量是一阶马尔可夫[6]。鉴于这种简单的VAE在生成图像建模中被证明是次优的[39],我们假设更强大的VAE架构,例如,分层VAE也将实现更好的有损压缩性能。出于这一点,我们采用分层VAE architeces,tures最初是为生成图像建模,eling有损压缩设计的。我们重新设计了潜在变量模型,以允许简单的量化和实用的熵编码,以类似于现有的学习有损图像编码器[6,30]的方式。首先,我们从一个普通的家庭开始,199··--联系我们等级VAE的一个实例,ResNet VAE[20],并介绍修改,包括1)均匀后验,2)高斯卷积与均匀先验,和3)修订的网络架构。我们的新模型,QRes-VAE(量化ResNet VAE),实现了更好的R-D性能的自然图像压缩比现有的国家的最先进的编码器。此外,我们的模型压缩图像在一个粗略的,推理(编码)采样(解码)ZpZ(·)Fine(图)1)由于其分层架构,同时避免了(空间)自回归图像编码器所经历的缓慢的顺序编码/解码[30]。我们的贡献总结如下。我们建议使用一个量化感知的潜变量模型,qZ|X(·)pX|Z(·)X(a) VAE(b) 2-[20]第二十话现代分层VAE,使实际的图像编码可行。我们提出了一个强大而有效的有损图像编码器,它优于以前手工制作和学习的方法。我们的方法缩小了图像压缩和生成之间的差距,同时为设计更好的图像压缩系统提供了图2:VAE的概率模型,其中X表示数据,Z表示潜在变量。在这项工作中,我们使用12层ResNet VAE进行图像压缩。除了Z