基于自动编码器的可变速率图像压缩模型的研究

60 浏览量更新于2023-10-12 收藏 1.71MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

3146基于条件自动编码器的Yoojin Choi，Mostafa El-Khamy，Jungwon LeeSoC研发，三星半导体公司，San Diego，CA 92121，美国{yoojin.c，mostafa. e，jungwon2.lee}@ samsung.com摘要在本文中，我们提出了一种新的可变速率学习图像压缩框架与条件自动编码器。以前的基于学习的图像压缩方法大多需要针对不同的压缩率训练单独的网络，以便它们可以产生不同质量的压缩图像。相比之下，我们只训练和部署了一个使用条件自动编码器实现的可变速率图像压缩网络我们提供两个速率控制参数，即，拉格朗日乘子和量化仓大小，它们作为网络的条件变量给出。通过改变拉格朗日乘数来执行对目标的粗略速率自适应，而速率可以通过调整在量化编码表示中使用的仓大小来进一步微调。实验结果表明，该方案比传统的变速率图像压缩编码器（如JPEG2000和BPG）提供了更好的率失真折衷。我们的模型还显示出与最先进的学习图像压缩模型相当的性能，有时甚至更好，这些模型部署了针对不同速率训练的多个网络。1. 介绍图像压缩是对数字图像进行数据压缩以降低其存储和/或传输要求的应用变换编码[8]已经成功地产生了实用和有效的图像压缩算法，如JPEG [27]和JPEG 2000[18]。变换将输入转换为变换域中的潜在表示，其中有损压缩（其通常是量化和无损源编码的例如，JPEG利用离散余弦变换（DCT）将图像转换成稀疏频域表示。JPEG2000用增强的离散小波变换代替DCT深度学习现在在各种计算机视觉任务中导致许多性能突破[13]。随着深度学习的这一革命性进展，学习图像压缩也引起了人们的极大兴趣[1，3，4，9，图1：我们的可变速率图像压缩模型。我们提供两个旋钮来改变速率。首先，我们采用一个连续的自动编码器，条件上的拉格朗日乘数λ，适应率，并优化率失真拉格朗日为各种λ值在一个条件模型。第二，我们训练模型的量化箱大小的混合值，所以我们可以通过改变比例来改变率。14-16、19、23、24]。特别地，利用深度神经网络设计的非线性变换编码已经进步到优于由领域专家精心设计和优化的经典图像压缩编解码器，例如，BPG[5]，它是高效视频编解码器（HEVC）标准[22]的静止图像版本-我们注意到，最近，只有少数基于学习的图像压缩方案在峰值信噪比（PSNR）上达到了最先进的BPG编解码器的性能，PSNR是基于均方误差（MSE）的指标[14，16]。非线性变换编码和自动编码器的相似性已经在[3，23]中建立并用于图像压缩-编码器将图像（一组像素）变换为较低维度空间中的潜在表示，并且解码器执行将潜在表示转换回图像的近似逆变换。在给定失真水平的情况下，期望变换产生具有最小熵的潜在表示，因为熵是无损熵源编码可实现的最小速率实际上Δ量化仓大小Δ（混合箱尺寸培训）有条件的普遍编码器量化熵编码条件熵模型100101011101.. .自动编码器，以熵为条件拉格朗日乘子译码条件解码器输入图像重建3147Ground truth Ours BPG（4：4：4）JPEG 2000 JPEG每像素位数（BPP）0.16970.16970.17020.1775峰值信噪比（dB）32.233231.940430.314027.3389MS-SSIM0.96020.95390.93690.8669图2：我们的模型和经典图像压缩算法（BPG，JPEG 2000和JPEG）的PSNR和MS-SSIM比较我们通过改变拉格朗日乘子λ和量化仓大小λ来调整速率以匹配BPG的速率。在这个例子中，我们观察到0。3dB PSNR增益，优于最先进的BPG编解码器。感知测量MS-SSIM也有所改善。视觉上，我们的方法提供了更好的质量与较少的文物比经典的图像压缩编解码器。然而，计算和优化潜在表示的精确熵通常不是简单的因此，通过最小化由自动编码器以目标质量提供的潜在表示的熵估计来优化速率-失真（R-D）权衡为了提高压缩效率，最近的方法集中在开发精确的熵估计模型[1，4，14-给定提供潜在表示的准确熵估计的模型，先前的基于自动编码器的图像压缩框架通过使用拉格朗日乘子的方法最小化R-D对的加权和来优化其网络在拉格朗日量中引入的拉格朗日乘数λ（参见（2））被视为超参数，以训练网络以在压缩图像的速率和质量之间进行期望的权衡这意味着需要训练和部署单独的网络以进行速率适配。一种方法是在改变拉格朗日乘数的同时重新训练网络。然而，当我们在R-D曲线的宽范围内以精细的分辨率操作并且每个网络的大小很大时，这是不切实际的。在本文中，我们建议训练和部署只有一个可变速率的图像压缩网络，能够进行速率自适应。特别是，我们提出了一个条件自动编码器，条件拉格朗日乘数，即，该网络将拉格朗日乘子作为输入，并产生其速率取决于输入值的潜在表示。此外，我们建议使用混合量化bin大小来训练网络，这允许我们通过调整应用于潜在表示的量化的bin大小来调整速率。通过改变条件模型中的拉格朗日乘子来实现对目标的粗速率自适应，而细速率自适应通过调整量化箱大小来完成。我们说明了我们的可变速率IM-图1中的年龄压缩模型。条件自动编码器已用于条件生成[21，26]，其中它们的条件变量通常是标签，属性或目标输出的部分观察然而，我们的条件自动编码器采用超参数，即，最优化问题的拉格朗日乘子作为其条件变量。我们基本上使用一个条件网络解决多个目标，而不是使用单独的非条件网络（每个网络针对一个目标进行优化）单独解决它们，这是我们所知的新方法。我们还注意到，在[9，24]中提出了使用递归神经网络（RNN）的可变速率模型。然而，基于RNN的模型需要渐进式编码和解码，这取决于目标图像质量。在某些应用和平台中，不希望增加迭代次数以获得更高质量的图像我们的可变速率模型不同于基于RNN的模型。我们的模型基于不需要多次迭代的条件自动编码器，而质量由其条件变量控制，即，拉格朗日乘数和量化仓大小。我们的方法还显示出优于[9，24]中基于RNN的模型的性能我们在柯达图像数据集[12]上评估了可变速率图像压缩模型的性能，包括客观图像质量指标PSNR和通过多尺度结构相似性（MS-SSIM）[28]测量的感知得分实验结果表明，我们的可变速率模型在PSNR和MS-SSIM指标上都优于BPG;图2中示出了来自Kodak数据集的示例。此外，我们的模型显示了与最先进的学习图像压缩模型[14，16]相比可比较的，有时更好的R-D权衡，这些模型通过部署多个训练的网络来执行BPG不同的目标率。3148加性均匀噪声2φ2. 初步我们考虑一个典型的自动编码器结构，它由编码器fφ（x）和解码器g θ（z）组成，其中x是输入图像，z=round（f φ（x））是从输入x编码的量化潜在表示，量化仓大小为φ;我们让round（x）= round（x/x），其中round表示按元素舍入到最接近的整数。现在，我们固定= 1。无损熵源编码，例如，算术编码[7，第13.3节]，用于生成一个从量化表示z压缩比特流m。设Ep（x）[A（x）] =A（x）p（x）dx，其中p（x）是概率，能力密度函数确定性量化。假设我们对量化的潜在变量z进行熵源编码，并获得其熵率。速率R和平方L2失真D（即，MSE损失）由下式给出Σ24张柯达图像的平均PSNR（dB）403836343230280.0 0.5 1.0 1.5 2.0每像素位数（BPP）图3：在我们对24张柯达图像的实验中，用通用量化训练的网络比用加性均匀噪声训练的网络提供了更高的PSNR。网络训练的反向传播。注1. 据我们所知，我们是第一个在训练图像压缩网络的框架中采用单向量化的在[6]中，使用Rφ=−Pφ（z）log2Pφ（z），z（一）用于深度神经网络的有效权重压缩，这与我们这里的用法不同。我们观察到从Dφ，θ=Ep（x）[<$x-gθ（round<$（fφ（x）<$2]，其中，p（x）是所有自然图像的概率密度函数，Pφ（z）是z从编码器fφ（x）和轮的k导出的k的概率质量函数，其满足Pφ（z）= p（x）δ（z−roundφ（fφ（x）dx，其中δ表示我们的实验表明，我们的松弛与普遍量化提供了一些增益超过传统的方法，增加独立的均匀噪声（见图3）。可微R-D成本函数。在具有泛量子化的松弛下，类似于（1），速率和狄拉克δ函数利用拉格朗日方法乘法器，R-D优化问题由下式给出：失真可以表示如下：Rφ=Ep（x）pφ（z|x）[−log 2pφ（z）]，min{Dφ，θ +λRφ}，（2）D=E[x-g（z）<$2]，（4）φ，θφ，θp（x）pφ（z|x）θ2对于λ >0;拉格朗日量中的标量因子λ称为拉格朗日乘子。拉格朗日乘数是选择特定R-D折衷点的因子（例如，参见[17]）。广义量子化的弛豫。由于Pφ（z）和圆的影响，（1）中提供的速率和失真对于网络参数φ是不可微的，因此它∫其中p φ（z）=p（x）p（z|x）dx.随机量子-模型使z具有连续密度pφ（z），是Pφ（z）的一个连续松弛，但pφ（z）通常难以计算。因此，我们进一步采用pφ（z）到一个易处理的密度qθ（z）的逼近，该密度q θ（z）关于z和θ是可分解的。那么，由此可见通过梯度下降来优化（2）并不简单。在[3]中提出了对量化误差进行Rφ=Ep（x）pφ（z|x）[−log2q θ（z）] − KL（p φ（z）||q θ（z））（五）作为加性均匀随机噪声来放松（2）的优化。同样的技术在[4，14，16]中被采用。在本文中，我们建议使用泛量化[29，30]来放松问题（见注释2）。泛量子化使fφ（x）的每个元素抖动其中一个共同的均匀随机变量如下：z= roundφ（f φ（x）+u）− u，u =[U，U，. . . ，U]，⑶其中抖动向量u由支持度为[−k/2，k/2]的单个均匀随机变量U的重复组成。我们现在只修正了1。在每个维度中，通用量化在分布上与添加有效地相同均匀噪声独立于源，尽管由通用量化引起的噪声是跨维度相关的注意，通用量化被近似为（梯度1的）单位斜率的线性函数，峰值信噪比（dB）3149φ2≤Ep（x）pφ（z|x）[−log2 qθ（z）]，Rφ，θ，其中KL表示Kullback-Leibler（KL）散度（例如，见[7，p。当pφ（z）=qθ（z）时，≤中的等式成立。在我们的实现中qθ（z）的选择被推迟到第4节（见（12）根据（2）和（4），用Rφ的上界逼近在（5）中，R-D优化问题简化为minEp（x）p（z|x）[<$x−g θ（z）<$2−λ log2 q θ（z）]，（6）φ，θ对于λ >0.针对不同的λ值优化网络，可以在质量和速率之间进行权衡。备注2. （6）中的目标函数具有与自动编码变分贝叶斯[11]相同的形式，假定后p φ（z）|x是均匀的。这种关系在以前的著作中已经建立，详细的讨论可以在3150Jφ2软加卷积全连通全连通独热编码图4：条件卷积，以La- grange乘数λ为条件，产生不同的输出de-为了实现条件自动编码器，我们开发了条件卷积，条件是拉格朗日乘数λ，如图4所示。令Xi是通道i的2维（2-D）输入特征图，并且Yj是通道j的2-D输出特征图。设W i ，j是输入通道i和输出通道j的2-D卷积核。我们的条件卷积产生ΣYj=sj（λ）Xi<$Wi，j+bj（λ），（8）我其中，n表示2-D卷积。逐通道缩放因子和加性偏置项取决于λ，sj（λ）=softplus（uTonehotΛ（λ）），在输入拉格朗日乘数λ上待定。Jbj（λ）=vTonehotΛ（λ），（九）在[3，4]中找到。我们在本节中的贡献是部署通用量化（见（3）），以保证量化误差是均匀的且与源分布无关，而不是人为地添加均匀噪声，从p φ（z）生成z的随机样本|x）在（6）的MonteCarlo估计中。3. 可变速率图像压缩为了适应压缩图像的质量和速率，我们基本上需要针对拉格朗日乘子λ的变化值来优化（6）中的R-D拉格朗日函数。也就是说，必须训练多个网络或重新训练网络，同时改变拉格朗日乘子λ。训练和部署多个网络是不切实际的，特别是当我们想要以精细的分辨率覆盖广泛的R-D曲线，并且每个网络都很大时在本节中，我们开发了一个可变速率模型，该模型可以部署一次，并且可以根据用户的要求以不同的速率产生不同质量的压缩3.1. 条件自动编码器为了避免训练和部署多个网络，我们建议训练一个条件自动编码器，条件是拉格朗日乘子λ。该网络将λ与输入图像一起作为条件输入参数，并根据λ的条件值产生具有变化速率和失真的压缩图像。为此，将（4）和（5）中的速率和失真项改变为：R φ，θ（λ）= Ep（x）pφ（z|x，λ）[−log 2 q θ（z|λ）]，其中uj和vj是长度的全连接层权重向量，|Λ|对于输出通道j; T表示转置，softplus（x）= log（1 + ex），并且onehotΛ（λ）是1。λ在Λ上的热编码。第三条提出的条件卷积类似于条件PixelCNN [26]提出的条件卷积。在[26]中，条件变量通常是目标输出的标签、属性或部分观测值，而我们的条件变量是拉格朗日乘数，它是在压缩问题中权衡质量与速率的超参数。在[26]中提出了一种门卷积结构，但我们开发了一种更简单的结构，因此调节的额外计算成本是微不足道的。3.2. 混合箱大小的培训在前一小节中，我们建立了一个以拉格朗日乘子λ为条件的变速率条件自编码器模型，但由于λ是从一个预定的有限集合Λ中选取的，因此只能得到R-D曲线上的有限个离散点。1为了将覆盖范围扩展到R-D曲线的整个连续范围，我们开发了一个- other（连续）旋钮来控制速率，即，量化箱大小。回想一下，在先前的R-D公式（1）中，我们固定了量化仓大小= 1，即，我们简单地使用round进行量化。在实际推理中，我们可以改变bin大小来适应速率-bin大小越大，速率越低。然而，性能自然地受到训练和推理中的不匹配的bin大小的影响。为了使经过训练的网络对于不同的bin大小是鲁棒的和准确的，我们Dφ，θ（λ）=Ep（x）p（z|x，λ）[<$x−gθ（z，λ）<$2]，建议用混合箱大小训练（或微调）它在训练中，我们在（3）中为各种噪声绘制一个均匀的噪声其中Λ是拉格朗日乘子值的预定义有限集合，然后我们最小化以下组合目标函数：Σ噪声水平，即，对于随机的随机数。范围内的混合分布和范围内的混合分布是设计选择。在我们的实验中，我们选择k = 2b，其中b是一致的minφ，θλ∈Λ（D φ，θ（λ）+ λR φ，θ（λ））。（七）[1]调节部分可以修改为取连续的λ值，但在我们的试验中没有产生好的结果。3151∆= 0。 5，λ ∈ Λ∆= 0。 7，λ ∈ Λ∆= 1。 0，λ ∈ Λ∆= 1。 5，λ ∈ Λ∆= 2。 0，λ ∈ Λ24张柯达图像的平均PSNR（dB）40383634323028260.0 0.5 1.0 1.5 2.0每像素位数（BPP）24张柯达图像的平均PSNR（dB）40383634323028260.0 0.5 1.0 1.5 2.0每像素位数（BPP）24张柯达图像的平均PSNR（dB）3836343230280.0 0.5 1.0 1.5 2.0每像素位数（BPP）(a) 变量∈ [0. 5，2]对于固定λ∈Λ（b）对于固定λ∈Λ（c）改变训练中λ∈Λ的混合范围图5：在（a，b）中，我们展示了如何通过改变拉格朗日乘子λ和量化仓大小λ来调整可变速率模型中的速率。在（a）中，我们在[0]内改变5，2]对于（15）中的每个固定λ∈Λ。在（b）中，我们改变Λ中的λ，同时固定某些选定值的λ在（c）中，我们比较了当模型针对不同范围的混合bin大小进行训练时的PSNR从[-1，1]中提取，因此我们可以覆盖[0]。5、2]。b的范围越大，我们优化网络的范围越广，R-D曲线，但性能也会下降。在图5（c）中，我们比较了用不同范围的混合bin大小训练的网络获得的R-D曲线;我们使用固定λ= 10−2。5.只为这个实验训练网络。我们发现，混合箱大小在<$∈ [0. 5，2]产生最好的性能，虽然覆盖率是有限的。这不是一个问题，因为我们可以通过改变我们的条件模型中的输入拉格朗日乘数来覆盖大规模的速率自适应（参见图5（a，b））。总之，我们解决了以下优化：Σλ和λ的国家，产生更好的性能。2压缩。在选择λ∈Λ之后，我们对λ进行独热编码，并在所有条件卷积层中使用它来编码输入的潜在表示然后，我们每-在具有所选择的量化仓大小的编码表示上形成规则的确定性量化。量化的潜在表示然后最终被编码成具有熵编码的压缩比特流，例如，算术编码我们还需要存储在编码中使用的条件变量λ和λ的值。减压我们解码压缩的比特流。我们还从压缩的比特流中检索编码中使用的λ和λ我们恢复了量化的潜在代表-minφ，θλ∈ΛEp（θ）[Dφ，θ（λ，θ）+λRφ，θ（λ，θ）]，（10）通过将解码的整数值与量化仓大小相乘，从解码的整数值中提取量化仓大小。恢复的潜在代表-其中，p（k）是针对k的预定义的混合密度，并且R φ，θ（λ，λ）= Ep（x）pφ（z|x，λ，λ）[−log 2 q θ（z|λ，λ）]，然后将信号馈送到解码器以重构图像。在编码中使用的λ的值再次用于所有解卷积层中，用于条件生成。D（λ，λ）=E[x−g（z，λ）<$2]。（十一）φ，θp（x）pφ（z|x，λ，θ24. 精细概率模型备注4. 在训练中，我们既不计算λ∈Λ上的求和，也不计算（10）中p（λ）上的期望。相反，我们从Λ中随机均匀地选择λ，并从每个图像的p（λ）中抽取λ，以计算其单独的R-D成本，然后我们使用每个批次的平均R-D成本作为损失用于梯度下降，这使得训练可扩展。3.3. 推理速率自适应。当我们减小拉格朗日乘数λ和/或量化仓大小λ时，速率增加。在图5（a，b）中，我们展示了当我们改变λ和λ时，速率是如何变化的。在（a）中，我们在[0]内改变5，2]对于来自（15）的每个固定λ∈Λ 在（b）中，我们改变Λ中的λ，同时固定某些选定值的λ。给定用户通过改变λ来实现离散速率自适应，而精细连续速率自适应可以通过针对固定的λ来调整λ来执行。当R-D曲线以目标速率重叠时（例如，见0 。图 5 （ a）中的5BPP），我们选择组合-峰值信噪比（dB）峰值信噪比（dB）峰值信噪比（dB）λ=1 0−1。 5，n∈[0. 5、2]λ=1 0−2。 0，则n∈[0.5、2]λ=1 0−2。 5，n∈[0. 5、2]λ=10−3。 0，则n∈[0.λ=1 0−2。 5，=1λ=1 0−2。 5，λ∈[2−1，21] λ =1 0−2. 5，<$∈[2−2，22]λ=1 0−2。5，31522在本节中，我们将讨论如何改进上一节中的基线模型以提高性能。模型细化与第3节中的速率自适应方案正交。从（11）中，我们引入一个依赖于x和z的次级潜在变量W，Rφ，θ（λ，λ）=Ep（x）pφ（z|x，λ，λ）pφ（W|z，x，λ，λ）[−log2（q θ（W|λ，λ）q θ（z|W，λ，λ））]，Dφ，θ（λ，λ）=Ep（x）pφ（z|x，λ，λ）pφ（W|z，x，λ，λ）[x−g θ（z，W，λ）<$2]。对于压缩，我们从x编码z，然后我们进一步从z，x编码W。编码表示z、W是基于q θ（W）的熵编码|λ，λ），q θ（z|W，λ，λ）。对于解压缩，给定q θ（W|λ，λ），我们解码W，然后使用W来计算q θ（z|W，λ，λ），并解码2在实践中，可以制作一组预先选择的λ和λ的组合，类似于JPEG或BPG中的质量因子集。3153我θθ我θΔ��（��|��、Δ）��（��|��，Δ）��（��|��，Δ）��Δ��（��|��，Δ）( , , )编码解码图6：我们改进的可变速率图像压缩模型的图形表示z.通过引入q θ（W）的自回归模型，进一步改进了该模型|λ，λ）和q θ（z|W，λ，λ）如下：Y学习图像压缩（CLIC）的研讨会和挑战3。对于CLIC训练数据集，我们在随机位置提取了256×256个补丁，而没有重新调整大小。我们使用Adam优化器[10]并训练了一个50个epoch的模型，其中每个epoch由40k个批次组成并且批量大小被设置为8。学习率最初设置为10−4，我们分别在20和40个epoch时将学习率降低到10−5和10−6我们预先训练了一个条件模型，可以是条件-关于Λ中拉格朗日乘子的5个对于固定箱大小，其中Λ={10−1. 5，10- 2。0，10- 2。5，10- 3。0，10- 3。5}。（十五）在预训练中，我们使用MSE损失。然后，我们重新训练混合bin大小的模型;量化bin大小q θ（W|λ，λ）=q θ（z|W，λ，λ）=qθ（wi|w

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

基于自动编码器的可变速率图像压缩模型的研究

一种新的图像压缩编码算法研究

基于哈夫曼编码的图像压缩技术研究

图像压缩编码的研究现状和发展

CAN FD可变速率硬件

基于FPGA的扩频编码器

数学上的解码器编码器

什么是吸附速率常数理论模型？结合河流-地下水系统的水体污染模型应该采用什么吸附速率常数理论模型？吸附速率常数和吸附等温线参数求解的步骤是什么？

为何turbo编解码实验中编码速率为1/3

如何用python实现基于压缩感知的三维图像重建

图像转脉冲spike_encoder

压缩力学模型中需要设计哪些压缩条件

可变速率CANFD的BRS位宽计算

有限速率化学反应模型是什么

LoRa编码效率对数据速率的影响

FLUENT有限速率模型存在的问题

stm32 ssi编码器

多速率自适应信号处理.pdf

大模型、VAE 模型和 Lora 模型是什么

图像的传输速率计算公式

最新资源