统一多元高斯混合神经图像压缩

12 浏览量更新于2023-10-25 收藏 1.31MB PDF 举报

图像压缩

压缩性能

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

17612×统一多元高斯混合神经图像压缩朱晓苏1宋敬宽1* 高连丽1冯铮2沈恒涛11电子科技大学未来媒体研究中心2南方科技大学outlook.com@jingkuan.song gmail.com，shenhengtao@hotmail.com摘要用先验和超先验对潜变量建模是变分图像压缩中的一个基本问题。形式上，如果先验和超先验精确地描述潜在变量，则速率和失真之间的权衡处理得很好。目前的实践仅采用单变量先验，并单独处理每个变量然而，我们发现，当以向量化视角观察潜在变量时，存在相互关联和内部关联这些发现揭示了视觉冗余，以提高率失真性能和并行处理能力，以加快压缩。这鼓励我们提出一种新的矢量化先验。具体地说，提出了一种多元高斯混合模型，并对均值和协方差进行了估计。然后，利用一种新的概率矢量量化方法有效地逼近均值，剩余的协方差进一步归纳为统一的混合，并在不涉及上下文模型的情况下通过级联估计来求解Furthermore, codebooks involved in quantization areextended to multi- codebooks for complexity reduction,which formulates an efﬁcient compression procedure.在基准数据集上的大量实验表明，该模型具有更好的率失真性能和令人印象深刻的3。18的压缩速度，使我们能够在实践中执行实时，高质量的变分图像压缩。我们的源代码可在 www.example.com 公开获得https://github.com/xiaosu-zhu/McQuic。1. 介绍作为图像处理中的一项关键技术，有损图像压缩已经被研究了很长一段时间[17，20，30，38]。其目标是实现高感知重建性能、极高的压缩率和高效的处理流水线。经典有损图像压缩标准，例如，[33]，[39]，*通讯作者。(a) y1（b）y2=.y1−y1↓图1. UMAP [24]使用来自24张柯达图像的玩具2级32码字模型对128 -d潜在向量进行投影。左：从分析变换中提取的潜在向量是相关的，可以用多元高斯混合描述。右：下一级在几乎所有的图像处理软件中，然而，数字时代多媒体内容的爆炸式增长仍然迫切需要找到一种有效的压缩器来解决存储成本问题。Distinct from the above traditional codecs, learnableneural image compression is proposed by exploiting advan-tages of deep neural networks.它采用神经网络作为非线性变换从图像中提取二值并恢复它们，而基本的研究问题是处理率和失真之间的权衡[7]。最近的研究提出了变分图像压缩，并将上述权衡安排为联合优化的拉格朗日乘子[3，4，9，25，26]。他们引入单变量先验和超先验来描述潜变量，在控制率方面取得突破.我们总结了这项任务的进展2（a）至2（c）。为了在变分图像压缩中设计有效的压缩器，需要精确描述量化潜变量的适当先验[4，9，26]。图1（a）展示了按通道分组的潜变量的观察。这种矢量化的视角揭示了潜在的相关性，帮助我们找到先验。请注意，潜在向量来自图像的特定区域，代表该区域17613KK×U|QzhaAz轴|z^HS∑L-1∑1Q ; CLQ ;C2yL2002年py^∑kwkNμk， a2kKpy<$P<$∑ΦNU|Qyy~|y^Q; C 1kKy ygagsga gsxx|^x(a) 因式分解先验[3]。xx|^x(b) Hyperprior [4，26，29].xx|^x(c) 离散高斯模型[9]。xx(d) 矢量化先验。图2.不同方法的操作图我们将先验推广为统一的多变量高斯混合。矢量可以概括为互相关和内相关。互相关性来自图像具有空间冗余的事实[29]，即。从视觉上相似的区域或片提取的矢量被闭合在一起。同时，相似的区域在细节上仍然存在差异，导致了图像的内部相关性。协方差两个性质指导我们找到一个向量化的先验，它可以通过均值和协方差来描述两个相关性。以前的作品采用的单变量先验可能不足以描述上述观察结果，因为它们单独处理每个标量值，并且缺乏对向量的整体视图。换句话说，采用向量化先验主要具有两个影响。首先，它将潜伏期视为沿着通道而不是标量的向量，有助于总结内部和内部相关性。其次，矢量化处理具有加速压缩过程的潜力。因此，在本文中，我们提出了一种新的矢量化前变图像压缩。具体而言，提出了一种统一的多变量高斯混合来描述潜伏期。然后，设计了一种具有级联估计的概率矢量量化，以在不涉及上下文模型的情况下有效地估计多码本被进一步结合到量化中以降低复杂度并实现灵活的速率控制。整个过程如图所示2（d），我们的贡献概述如下：1. 我们提出了一种新的矢量化的角度为可变的图像压缩。与以前的作品不同，我们考虑了潜在向量之间的相关性，并制定了统一的多元高斯混合。我们进一步提出了一个概率矢量量化与级联估计估计的均值和协方差。2. 多码本结构被进一步结合到量化中，以降低复杂度并实现灵活的速率控制。整体框架能够在矢量化先验的帮助下执行有效和高效的压缩3.在基准数据集上的大量实验揭示了向量化先验的影响。与最先进的方法相比，我们的方法实现了更好的率失真性能与令人印象深刻的3。18加速压缩延迟。这些结果揭示了提供实用变量的可能性基于矢量化先验的图像压缩算法。2. 相关作品本文主要研究变分图像压缩。形式上，该方法利用自动编码器来处理潜伏期以便压缩图像。研究集中在处理率和失真之间的权衡。具体地说，通过舍入到最接近的整数[3]或原型[25]来量化潜在体，以便执行熵编码，e.G.距离编码器Balle等[3]提出一个熵模型，并训练网络端到端（图1）。第2（a）段）。随后，Hy- perprior模型[4]通过超先验预测进行变分推理图图2（b）和2（c）给出了两种主流类型的超先验。第一个[4，26]是在移位和缩放的高斯分布下，而第二个[9]将分布推广到高斯混合。它们都可以采用辅助上下文模型[9，26，29，32]进行精确估计，并进一步降低压缩率。除了标量量化，他们采用的矢量量化（VQ）是适应我们提出的矢量化先验。用于图像压缩的VQ的研究早在20世纪80年代就有了很长的历史[2，15，27]。将VQ集成到深度网络中的核心问题是解决量化中涉及的不可微arg max运算。Agustsson等人[1]将arg max放宽为Softmax，并提出软到硬的端到端量化。Van den Oord等[36]和Esseret al. [13]而是利用直通估计器并直接将量化的潜伏期传递给解码器。类似的方法也适用于许多其他任务[5，14，34]。3. 该方法在本节中，我们首先给出了我们所提出的方法的概述和整体演示。给定任意图像x，变分图像压缩采用分析变换ga以产生潜在变量y=ga（x），其将被量化y=q（y）。合成变换gs从y k恢复xk=gs（yk）。 x和x′之间的距离由感知度量d（x，x′）测量。同时，压缩后的y_n的大小由一个熵模型p_y_n 控制. 因此，在速率之间进行权衡U|QyGay~|y^GszU|Qz轴|z^haAhspy^<$Nμ，a2U|QyGay~|y^GsC，yPP+12K17614↓↑DR−J联系我们··∈Σ−B⊆联系我们×⊆⎨.Σ↓·↓·↑⊆⎩⎪↑分析变换ga↓O1↓y11O22002年输入图像XB1C1B2C2综合变换y11202不D1不D1重建~x级联分布估计argmaxBQDCbyɸ∼YH、W、NH、W、NN K K N码本C [K × N]成对P2距离采样点积y输入量化b二进制(a)（b）第（1）款图3.（a）所提出的网络利用具有概率矢量量化（Q）和逆（D）的级联估计来对矢量化先验进行建模。“，“表示下采样和上采样块。(b)所提出的概率矢量量化构造由φ参数化的分类分布以采样b并量化y。扭曲：min=Ex[ [1999年第2号法律公告]（1）ga，gsmin=Ex[d（x，x）]（2）ga，g s3.1. 统一多元高斯混合3.1.1矢量化先验使用y1的直觉是按通道对其进行分组：Y=y1RN，1Jh A w A其中j是潜在特征图中的空间位置。为了简单起见，我们重新排列是最基本的优化目标。为了实现端到端训练，上述压缩值由近似。框架. 我们把整体框架图。第3（a）段。作为N维向量。这种安排有助于确定pY（y）作为N维多变量高斯的混合：K具体来说，分析和合成变换与[9]类似，其中涉及残差和注意力块。然后，为了隐变量的提取和传递，级联估计采用了一系列的下采样或上采样pY（y）=ΦkN（μk，μk），k=1其中Φ是分类的（K，φ）。（五）块之后分别是概率矢量量化Q或去量化D。看看一个水平的问答，它接受潜在的问答Rhl×wl×N，N个通道，hA w A大小，然后用码本CA产生相同形状的中间潜伏态yARK×N。对应二进制码bA0，1hl×wl×log2K被传输到解码器侧，并且残差yAyA被传递到下一级。DA做对称的事情。它通过C Al恢复yA。然后，yA和上一级yA+1相加得到yA。因此，编码和解码的核心流水线被定义为以下递归函数：好吧yA，bA=QA.yA;C A，这里，μk和μk是第k个高斯分量的均值和协方差矩阵。Φ表示由K-分类分布参数化的混合物，对数概率φ给定的向量化先验是基于我们从y总结的两种相关性。图1（a）通过UMAP投影显示了这些，其中y直接从脊椎提取。首先，y之间的相互关联显示相似或视觉冗余，即。如果所提取的潜在向量的原始视觉图案相似，则所提取的潜在向量接近这有助于将ys聚类为几个不同的高斯分量，其中聚类质心等效于均值μk。其次，聚集在同一分量中的向量不相同，⎧⎪⎩yA+1=yA−yA，1≤l≤L，yA=DA.bA;C A，（四）因为它们仍然有细微的差别。为了进一步量化Y中的向量，需要估计μ和Σ的向量量化yA=yA+.yA+1，1≤l L，其中（）、（）表示下采样和上采样。解释这些方程需要我们给出定义之前的矢量化（Sec.3.1.1），执行量化和估计的方式（第 3.1.1 节）。 3.1.2 ）和级联估计的先验泛化3.1.3）。3.1.2概率矢量量化我们提出了一种可学习的概率矢量量化，它对上述分布进行了近似，如图所示。3（b）款。具体地，它维护码本CRK×N由K个码字组成。输入y通过向其分配特定码字来量化，该码字为（三）17615{}（y|y;C）=φ（φ），2{·}KKK·······pYl|Y1+ 1。y|y =ΦN。μ，yμ（11）K表示为以下离散条件分布：pY|YKy=CkKk=1（六）其中φk=−y−Ck<$2，1≤k≤ K。相应地，Y是质心y的集合。pa分类分布，Y|Y 制定-thy被分配给具有概率k（φ）k的k个码字。f是Softmax函数，φ是y和码字之间的负欧几里德距离特征功能。为了获得y，我们对上述分布进行采样：y<$Q（y;C）=pY|Y（y |y; C）（7）这导致C的K个码字之一。直觉上，如果y接近Ck，则选择Ck的概率将很高。从p Y中抽取样本后，|Y，B是直接通过所挑选的码字的索引获得，所述码字将被编码成二进制流以进行传输。在解码侧，由于码本C是Q和D之间的共享参数，因此D检索由Cb挑选的相同码字以恢复y。上述量化定义了一个概率模型。通过最小化Eq.（2），C中的码字被导出为近似-图4.多码本结构。y被分成M个组，并利用子码本分别对它们进行每个子码本将单独的分布参数化为模型y（m）。用神经网络预测图1（b）告诉我们一个技巧，假设每个水平上的残差也是高斯混合的，帮助我们扩展方程。（5）并完成统一多元高斯混合的定义：A A+1AA A+1K Kk=1并通过以下方式对压缩信号y进行pY1的高斯分量的平均估计值：pY轴|Yl+1 .yA| y˜A+1=公司简介.C A，yA+1.（十二）Ck：E{y ∈ Y|Φk=1}= μk（8）其自动执行码字和装置之间的对准与常用的k-均值算法相比，该算法不是直接确定性地选取最近的码字，而是随机选取码字。它对pY（y）的一部分进行建模并聚集到码本中。此外，引入的随机性可以帮助网络在训练期间避免局部最优。3.1.3级联估计值得注意的是，上面提出的量化不能根据先前的推导来估计协方差矩阵k注意到：k=1我们应该强调，“y A + 1“，“y A + 1“在这里不是严格的协方差矩阵，但用于估计协方差。 y的恢复从yL 开始，并根据等式（1）逐级产生y A。（四）、3.2. 使用多码本我们可以通过在每个级别上保持码本CA来如果它们都具有码本大小K，则码本大小将为L K N，并且任何向量的输出b具有log2K的最大位长度。不幸的是，K不允许非常大，否则网络负担不起。考虑到模型复杂度和压缩能力之间的权衡，我们进一步利用多个k=E{（Yk-μk）（Yk-μk）}，（九）代码本来推广我们的方法。如图图4示出了，yA沿着通道被切成M个组。每个片段y（A，m）是其中Y k={y ∈ Y |Φk= 1}。通过设计残差连接来解决这个问题，因为：由单独的子码本C（A，m）量化，其总大小仍然是L KMN/M=L K N。引入的多码本结构具有多方面的意义，条约。首先，由于每个部分y（A，m）具有以下选择：E{y − y |Φk= 1}= E {Y k− Ck}E {Y k− μk}。（十）yMCMCIMMyy2C22Ny1N/MC11NN/M17616K个码字，码本C（A）的所有可能组合的集合是子码本的笛卡尔积这就是为什么Eqs。提出了（3）和（4）。我们把前一级C（A）=C（A，1）×C（A，2）×· · ·×C（A，M）（13）这使得最大比特长度变为Mlog2K=（一）证明放在补充材料中。log2KM，码本M的大小非常小·17617Σ···OK2K. 其次，对于多码本，我们可以推广Eq. （11）是几个单独的多变量高斯混合的组合。M= 1给出原始等式。（11），而M=N退化为单变量先验。L、K、M是我们控制速率的超参数。在实践中，在相同比特长度下，与M= 1量化相比，引入多码本将不会3.3. 压缩在推理时，编码和解码如下组成：在编码器侧，潜在项被量化，并且二进制项通过贪婪分配被推出：b（A，m）=argmax−<$y（A，m）−C（A，m）<$，（14）y（A，m）=C（A，m），（15）№NLMK超级bpp1234512832691216[8192，2048，512]0的情况。12740的情况。38230的情况。50980的情况。76461 .一、0195192表1.模型规格针对不同的利率。根据经验，我们为小型模型设置N=128，而为大型模型设置N=192所有型号的L= 3和K=[8192，2048，512]均达到预期结果，且型号尺寸经济实惠M在2至16之间变化以控制bpp。最后一列是bpp的理论上限与超先验模型的关系。所提出的方法有很强的关系超先验模型。Minnen等人[26日]和Chenget al.[9]也将量化的潜伏期建模为高斯-b（l，m）变量如果我们设置M = N，那么我们的先验退化为算法的时间复杂度为O（K·N/M）。在一个单一的载体上。 b（A，m）基于估计的出现频率被压缩。对于解码r，y（A，m）的恢复仅涉及（1）根据等式（1）的查找。（14）。最后但并非最不重要的是，这些操作是高度机密的，GPU友好，使我们能够在实际开发中执行高效的编码和解码。4. 讨论在这一节中，我们处理了一些关于模型设计的问题，并比较我们提出的方法与其他作品。训练该模型以端到端的方式进行训练。然而，为了实现这一点，我们的量化（Sec. 3.1.2）采用随机计算图进行采样，优化困难。幸运的是，有很多研究来处理它。在我们的实验中，Gumbel重新参数化与直通估计[18]具有最佳性能。总体优化公式如下：L=D=d（x，xθ），θ←θ−ηΘL，（16）其中，Θ是网络中所有可训练参数的集合，η是学习率。这种优化可以通过任何基于梯度的优化器来完成。控制压缩二进制文件的大小。上述目标仅涉及失真而不涉及速率。原因是基于我们如何控制压缩的二进制文件的大小，这是由b决定的。如前所述，导出了b对于所有水平和所有组，为1Mlog2K hA wA。与以往的工作不同，这个上界是多更小的（将在第二节中显示）（五）。我们从中受益，通过改变L、M、K或调整潜在特征图大小hA、wA来控制比特率。随着训练的进行，编码二进制数的速率将逐渐接近理论上界，而没有明确的目标来控制它。K而我们的方法将其扩展到N维多维混合，17618单变量版本主要区别在于：首先，我们的矢量化先验提供了丰富的统计量μ和μ来描述潜在的和总结视觉冗余。其次，通过概率矢量量化和级联估计，自动估计出边信息μ和λ在实际上，它们足以在不涉及上下文模型的情况下执行解码，以加快压缩速度与其他基于VQ的生成模型的关系。有一些工作是利用矢量量化来压缩或生成图像的，例如，[1]，VQ-VAE（-2）[31，36]和VQ-GAN [13]。一般来说，它们采用k均值风格量化器，其将最接近的码字分配给潜伏，如我们在第2节中所讨论第3.1.2条。为了进行端到端训练，码本通过两阶段E-M风格的估计器或直通估计器更新。然而，我们的方法包含了潜在的协方差，而他们的方法无法处理。此外，我们的框架一般化量化的多码本结构，而不是一个全局码本。所提出的多码本结构与乘积量化[19]、组卷积[22]和多头注意力[37]具有类似的思想。它们被广泛应用于视觉/语言任务，以低成本进行丰富的特征学习5. 实验我们进行了大量的实验来评估我们提出的方法的有效性和效率。具体来说，我们首先展示了与其他方法的R-D性能比较。然后，我们测量编码器和解码器延迟以证明网络效率。其他分析，如进一步给出了烧蚀研究和可视化。5.1. 设置训练数据集。训练数据集是 ImageNet[11] 与CLIC[10]专业训练集组合的选定子集具体来说，我们从IM中过滤图像-17619→×××××38363432300的情况。10.30507090的情况。10.3050709柯达0的情况。10.3050709速率（bpp）CLIC0的情况。10.3050709图5.柯达（左2）和CLIC有效集（右2）上的R-D曲线* ：当使用MS-SSIM指标时，型号针对MS-SSIM进行了优化方法EncoAbs延迟德尔雷尔（毫秒）解码器绝对相对值Balle三十661 .一、09×三十五541 .一、21×明嫩'18W/O→三十二892656 66五十九131 .一、17×94 58×二、11×三十六24一七九九年47四十401 .一、24×61岁36×1 .一、38×程'20→2697年。5894 11九十六。04×3 .第三章。35×一八三五年8088岁0462. 60×3 .第三章。00×我们28岁091 .一、00×29岁321 .一、00×表2.图像大小为768×512时的编码和解码延迟比较。对于他们的模型，我们测试了上下文无关（前两行）和上下文启用（第3行和第6行）模型。““表示串行上下文模型[ 26 ]，而““表示并行[ 16 ]。我们的型号是105。我们的是最快的型号，最高可达79。32和3。18的速度比两种上下文使能模型的整体压缩，分别。我们的模型甚至比上下文无关模型更快，因为它们需要多个通道来编码和解码潜伏期。ageNet拥有超过100万个像素，并从中随机抽取7415张图像。将包含585幅图像的整个CLIC训练集合并（总共8，000幅图像型号规格我们要测试的方法是通过改变码本大小针对不同速率的模型№15这些选择通过调整N、M、K和L，置于Tab中。1.一、为了训练模型，我们采用LAMB优化器[40]。训练图像被随机裁剪，512512，分8批。初始学习率设置为2 10−3，最后用余弦学习速率调度器退火到2 10 −6，持续1000个epoch。所有实验均使用单个NVIDIA V100GPU进行。该模型使用PyTorch实现[28]。5.2. 率失真性能为了显示率失真性能，观察率失真（R-D）点并绘制R-D曲线。具体-JPEG [39]JPEG-2000 [33]BPG（HEVC-intra）VVC VTM 14.2-intra [8]*Balle"SHVQ（NeurIPS*Minnen*Minnen*Cheng '20（CVPR'20）[ 9]*Lee*Qian我们的（MSE）* 我们的（MS-25382536202034151532103010峰值信噪比（dB）MS-SSIM（dB）峰值信噪比（dB）MS-SSIM（dB）17620−--而对于失真，我们采用两个感知度量：PSNR和MS-SSIM（通过10 log 10（1个值）转换为分贝）。测试涉及两个图像集：Ko- dak [21]（24张图像）和CLIC专业版有效集（41张图像）。比较的方法包括一些著名的传统标准：JPEG [39]，JPEG 2000[33]，BPG [6]，即将推出的新标准：VVC VTM14.2 [8]和6个深度图像压缩模型：SHVQ[1]、Ball e"18[ 4 ]、Min- nen“18 [ 26 ]、Lee”19 [ 23 ]、Qian“21[ 29 ]和Cheng”20 [ 9 ]。R-D点是从公共基准或他们的论文3中获得的。对于Minnen'18，报告了上下文无关和上下文相关的结果。由于两个数据集有一些图像，我们采用刀切重建和估计策略，通过误差条在图上报告平均值和标准误差[12]。补充材料中提供了更多的比较柯达和CLIC的结果如图所示。5，分别。对于柯达，我们的性能优于最先进的，而对于CLIC，我们的模型与最好的深度方法具有几乎相同的性能。具体而言，由于我们采用与Cheng'20相同的主干，因此影响R-D性能的关键组件是我们提出的量化器和cased估计器。从结果中，我们确认我们的组件不会妨碍性能，并显示出与最先进技术相同甚至更好的压缩能力。此外，我们实现了国家的最先进的性能，没有上下文模型的参与。这不仅表明矢量化先验的有效性，而且还消除了减慢压缩的瓶颈，这将在下一节中揭示。此外，随着利率的增加，我们的模型具有稳定的性能。这表明引入的多码本能够通过增加M来缩放到大模型，以提供具有可负担的码本大小的令人满意的性能。5.3. 编码和解码延迟评估编码和解码延迟可以揭示模型的效率，这在实际开发中非常重要。到通常为了测量速率，计算每像素比特数（BPP）2。3https://github.com/tensorflow/compression。如果不是2他们使用各种方法来控制它，导致各种bpp。具体而言，使用相应的失真度量来训练模型。17621.Σ−→××→→×O·Oy1y1B1比特分配图6.3级模型的可视化y是提取的潜伏期，y是量化的潜伏期。通过计算y_y_x，去除了视觉冗余。b是对应的二进制（挑选的码字的索引）。最后一列中更亮的像素意味着更多的比特分配。试验采用Balle"18、Minnen'18（“w/o“、““、““）和Cheng'20（““、““）机翼模型。具体来说，“w/o“表示不涉及上下文模型，而“，“是串行[ 32 ]和并行[ 16 ]上下文模型变体。我们要测试的型号是1005。为了精确地测量延迟，我们从Kodak提供了一批尺寸为768512的图像，并分别跟踪编码器和解码器的CUDA事件。测量是基于他们的公共模型或重新实现4.作为Tab。2表明，我们的网络是所有其他模型中最快的方法。特别是，与利用上下文的模型相比，我们的模型达到了79。32比系列赛快3. 18快于平行的整体压缩，分别。该效率差距来自我们引入的不需要上下文模型的级联估计。此外，我们的模型甚至比无xt-free模型i. e. 球e" 只有我们的人（KN/M）至100%，（1）去重，并且在GPU中高度并行运行。同时，我们的编码器和解码器只需要一个前向传递，但它们需要两个或更多。在Secs的摘要中。5.2和5.3，我们的模型实现了更好的R-D性能，具有令人印象深刻的压缩延迟，使我们能够使用我们的矢量化先验进行实际的图像压缩。5.4. 消融研究为了研究所提出的方法的影响，我们进行了消融研究并报告了BD率w.r.t.原始模型（越低越好）和延迟（Tab.3）：级联估计的影响。水平L反映了在估计中涉及多少参数，例如，L= 1不执行级联估计（[16]的4个测试延迟比他们的报告稍慢。变体bd率延迟编码解码无级联8. 百分之八十七二十七岁1328岁292-水平二、百分之三十三二十七岁6228岁774级单码本-0。百分之六十四二十四岁百分之四十28岁93三十27余弦量化器 4.第一章百分之六十四[13]-量化器十六岁百分之二十28岁0929岁32[1]-量化器11个国家。百分之四十八我们-表3.6种变体的消融研究，其中BD率w.r.t.原始模型（越低越好），并报告延迟前三行改变级别L，第5~ 7行修改了量化器而L= 4与原始L= 3模型（“4 -水平”）相比将增加额外的残差Tab的前三行 3给出了三个变量L = 1，2，4的结果。随着水平的增加，BD率不断下降。“2-levels”比“w/ocascaded”好得多，而“4-levels”与原始模型相比几乎没有改进。前者表明引入级联估计实际上具有积极的效果，而后者告诉我们设置L = 3就足够了，否则模型将很大，可能难以训练。表的第2列显示不同型号之间的延迟引入更多水平不会显著减慢模型速度，这表明级联估计对于真实场景应用而言计算量不大。y2y2B2比特分配y3y3B3比特分配y2−y2y1−y1图像17622多码本结构的影响我们使用一个全局共享码本作为变体的“一码本”来研究多码本结构的影响。结果在选项卡的第3行。3显示了使用全局码本时的显著性能下降。它证明了多-17623≈原始我们的（MSE），bpp：0。1259我们的（MS-SSIM），bpp：0的情况。1277峰值信噪比2597dB，MS-SSIM：11。82dB峰值信噪比：23。41dB，MS-SSIM：13。52dBVVC，bpp：0。1350BPG，bpp：0。1383JPEG-2000，bpp：0。1319峰值信噪比2593dB，MS-SSIM：10。12dB峰值信噪比2542dB，MS-SSIM：9. 76DB峰值信噪比：23。61dB，MS-SSIM：7. 67DB图7.不同编解码器的“kodim24.png“可视化右侧的放大视图显示了差异。码本对精确分布进行建模，因为它们针对不同的级别或组采用不同的参数。量化的影响。量化性能以两种方式受到影响：a）使用不同的相似性度量，例如：余弦相似性（（6），b）使用确定性量化器，即，如[13]或[1]（Tab的最后三行。3示出了三个量化器的差异我们发现这可能会导致性能下降。当训练“[ 13 ]-quantizer”或“[ 1 ]- quantizer”时大多数矢量被量化为几个码字，并且一些码从不被分配。我们认为这使得两种变体与我们的性能存在差距。5.5. 可视化我们选择柯达的图像来显示压缩质量。比较的编解码器是JPEG-2000、BPG和VVC。所有方法都设置为bpp0。13，压缩比约为185：1。如图7所示，左上角来自Kodak数据集的“kodim24.png“是参考图像。从放大的角度来看，我们可以发现同时，它也达到了最高的MS-SSIM在所有方法中最小的bpp。我们的MSE优化模型提供了更高的PSNR，但略有模糊。它实现了与VVC相当的性能，但bpp仍然很小。更多的感性措施和图像比较放在补充材料。我们还给出了y1，y2在一个训练了N=128，M=1，L=2，K=32的玩具模型上的二维投影可视化，如图所示。1.一、具体而言，潜向量来自24张柯达图像，并由UMAP [24]投影到2-d它们由码字着色，即，两如果这些点被分配给相同的码字，则它们具有相同的颜色可视化满足我们的矢量化先验。潜伏期可以通过这些码字进行聚类（左），而残差处于类似的分布下（右）。因此，我们可以将所有潜在项引入统一的向量化先验。6. 结论和未来工作在本文中，我们提出了一种新的矢量化前变分图像压缩。我们证明了潜在向量是相关的，并且可以被诱导为统一的多变量高斯混合。为了进行估计，提出了级联估计与概率矢量量化有效地近似均值和协方差。此外，多码本被并入到上述组件中以给出有效的压缩过程。大量的实验证实了我们提出的方法的有效性和效率未来的工作将集中在可变速率控制与我们提出的矢量化前。限制和更广泛的影响。这项工作为神经图像压缩引入了一个新的视角，这可能会激励研究人员提出有价值的未来工作。高性能、低延迟模型也可有益于现实生活中的数字图像存储或在线多媒体内容。然而，我们的工作的主要限制是额外的网络参数和计算资源的要求。负面影响涉及模型的脆弱性。我们可能会在对立的例子下给出无法控制的图像。与此同时，似乎没有道德问题或偏见，因为网络是在没有监督的情况下训练的。然而，训练数据集确实在具有偏差或敏感图像的干扰模型中。因此，应检查数据以避免潜在问题。鸣谢。本工作得到了国家自然科学基金（批准号：62020106008 ，编号 62122018 ，编号 61772116 号61872064），四川科学科技项目（批准号：2019JDTD0005）。17624引用[1] EirikurAgustsson，FabianMentzer，MichaelTschannen ， Lukas Cavigelli ， Radu Pastefte ， LucaBenini，and Luc Van Gool.用于端到端学习可压缩表示的软到硬矢量量化。在NeurIPS，第1141- 1151页，2017年。二五六七八[2] R Aravind和Allen Gersho。基于有限记忆矢量量化的图像压缩。光学工程，26（7）：267570，1987. 2[3] JohannesBal le´、ValeroLaparra和EeroP. 西蒙切利端到端优化的图像压缩。在ICLR，2017。一、二[4] JohannesBalle´ ， DavidMinnen ， SaurabhSingh ，SungJinHwang，and Nick Johnston.基于尺度超先验的变分图像压缩。在ICLR，2018年。一、二、六[5] 包航波、李东、朴松浩、魏福如。BEit：BERT图像变换器的预训练。在ICLR，2022年。2[6] FabriceBellardBpg 图像格式。 https ： //bellard.org/bpg/，2014年。1、6[7] 托比 · 伯格。率失真理论 Wiley Encyclopedia ofTelecommunications，2003. 1[8] Benjamin Bross，Ye-Kui Wang，Yan Ye，Shan Liu，Jianle Chen，Gary J. Sullivan，and Jens-Rainer Ohm. 概述了通用视频编码（VVC）标准及其应用。IEEE传输电路系统视频技术，31（10）：3736-3764，2021. 1、6[9] 郑学成、孙鹤鸣、Masaru Takeuchi和Jiro Katto。学习使用离散高斯混合似然和注意力模块进行图像压缩在CVPR中，第7936-7945页，2020年。一二三五六[10] 学习图像压缩的工作坊和挑战。http://compression.cc/，2018年。5[11] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。CVPR，第248-255页，2009。5[12] 布拉德利·埃夫隆和查尔斯·斯坦。刀切方差估计。统计年鉴，第586-596页，1981年。6[13] PatrickEsse r，RobinRombach，andB joürnOmme r. 用于高分辨率图像合成的驯服变压器。在CVPR中，第12873-12883页，2021年。二、五、七、八[14] Lianli Gao，Sushua Zhu，Jingkuan Song，Zhou Zhao，and Heng Tao Shen.超越产品量化：用于图像检索的深度渐进量化。在IJCAI，第723-729页，2019年。2[15] 作者声明：Paul R.鲍彻和西摩·史林。采用自适应矢量量化的图像压缩。IEEE Trans. Commun. ，34（2）：180-187，1986. 2[16] 何黛兰，郑耀燕，孙宝成，王艳，秦宏伟。用于有效学习图像压缩的黑板上下文模型。在CVPR中，第14771-14780页，2021年。六、七[17] Abir Jaafar Hussain，Ali Al-Fayadh和Naeem Radi。图像压缩技术：无损和有损算法综述。神经计算，300：44-69，2018。1[18] Eric Jang ， Shixiang Gu ， and Ben Poole. 使用 gumbel-softmax进行分类重新参数化。在ICLR，2017。5[19] 她的妻子，马提斯·杜兹，还有科迪莉亚·施密德。最近邻搜索的产品量化 IEEE Trans.模式分析马赫内特尔，33（1）：117-128，2011. 5[20] J. 蒋图像压缩与神经网络-一个调查。信号处理。图像通信，14（9）：737-760，1999. 1[21] 柯达无损真彩色图像套件。http://r0k.us/graphics/kodak/，1999年。6[22] Alex Krizhevsky、Ilya Sutskever和Geoffrey E.辛顿使用深度卷积神经网络进行Imagenet分类。在NeurIPS，第1106-1114页，2012中。5[23] Jooyoung Lee，Seunghyun Cho，and Seung-Kwon Beack.用于端到端优化图像压缩的上下文自适应熵模型。2019年，在ICLR。6[24] Leland McInnes ， John Healy ， and James Melville.Umap：用于降维的均匀流形近似和投影。arXiv预印本arXiv：1802.03426，2018。 1、8[25] FabianMentzer，EirikurAgustsson，MichaelTschannen，Radu Timofte，and Luc Van Gool.深度图像压缩的条件概率模型。在CVPR中，第4394一、二[26] D a vidMinnen，JohannesBal le´，andGeo r geToderici. 联合自回归和分层先验的学习图像压缩。在NeurIPS，第10794-10803页，2018年。一、二、五、六[27] 纳赛尔·M纳斯拉巴迪和冯玉书。使用位址向量量化之影像压缩。 IEEE Trans. Commun. , 38(12):2166–2173,1990. 2[28] Adam Paszke ， Sam Gross ， Francisco Massa ， AdamLerer ， James Bradbury ， Gregory Chanan ， TrevorKilleen ， Zem- ing Lin ， Natalia Gimelshein ， LucaAntiga，Alban Desmai-son，AndreasKopf ，Ed w ardZ.杨，扎卡里·德·维托，马丁·雷森，阿利汗·特贾尼，萨桑克·奇拉姆库尔蒂，伯努瓦·施泰纳，卢芳，白俊杰和苏米特·钦塔拉。Pytorch：命令式的高性能深度学习库。在NeurIPS，第8024-8035页，2019年。6[29] 钱亦琛、谭志宇、孙秀玉、林明、李东阳、孙振红、李浩、容瑾。学习全局参考的精确

下载后可阅读完整内容，剩余1页未读，立即下载