基于频率分解网络的无损图像压缩

68 浏览量更新于2023-10-25 收藏 12.76MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

60330LC-FDNet：基于频率分解网络的学习无损图像压缩0Hochang Rhee 1，Yeong Il Jang 1，Seyun Kim 2，Nam Ik Cho 101. 电子与通信工程系，首尔国立大学，首尔，韩国 2.高斯实验室有限公司0hochang,jyicu@ispl.snu.ac.kr, seyun.kim@gausslabs.ai, nicho@snu.ac.kr0摘要0最近基于学习的无损图像压缩方法将图像编码为子图像单元，并且达到了与传统非学习算法相当的性能。然而，这些方法没有考虑高频区域的性能下降，对低频和高频区域给予了同等的考虑。在本文中，我们提出了一种新的无损图像压缩方法，通过粗到细的方式对低频和高频区域进行分离和处理。我们首先压缩低频分量，然后使用它们作为编码剩余高频区域的附加输入。在这种情况下，低频分量作为强先验，可以改善高频区域的估计。此外，我们设计的频率分解过程可以适应颜色通道、空间位置和图像特征。因此，我们的方法得出了图像特定的低/高频分量的最佳比例。实验证明，所提出的方法在基准高分辨率数据集上实现了最先进的性能。01. 引言0随着对高质量图像的需求增加，图像压缩的重要性也相应增加。在深度神经网络（DNN）的发展推动下，计算机视觉和图像处理取得了显著进展，包括有损[3, 4, 8, 10-17, 21,23-25, 27, 28, 30, 32-34, 40, 44-48, 53, 54]和无损图像压缩[3, 9, 18, 19, 29, 31, 35, 38,39, 41, 42,49]。虽然有损压缩通常更受青睐，但对于许多应用来说，无损压缩也是必需的。无损压缩尤其适用于医学图像、科学图像、技术绘图和艺术照片。虽然诸如JPEG2000（无损模式）[37]等方法采用离散小波变换（DWT）的变换编码，但大多数标准/非标准无损压缩方法[2, 5, 7,51]使用预测编码。标准预测编码方案使用闭环预测，其中当前像素是通过先前编码的样本进行估计和压缩的。从这个意义上说，早期的基于学习的无损压缩算法[29, 31, 35, 38, 41,49]将DNN设计为自回归模型。它们依赖于DNN在给定先前样本的条件下估计像素的概率分布的强大能力。例如，PixelRNN[49]，PixelCNN[35]和PixelCNN++[41]按顺序压缩每个像素，其中概率分布是在所有先前像素的条件下预测的。然而，这些方法需要为整个像素数量进行神经网络计算，导致推理时间不切实际。为了实现实用性，最近的研究[29, 31,38]将编码处理单元从单个像素改为整个图像或子图像。这些方法根据先前编码的子图像推导出子图像的概率分布，或者根据有损压缩图像推导出整个图像的概率分布。它们显示了减少和实用的计算。0低频0高频0LFC0HFC0AFD当前子图像0之前的子图像0图1.我们的LC-FDNet由自适应频率分解（AFD）、低频压缩器（LFC）和高频压缩器（HFC）组成。当前子图像通过AFD被分割为低频/高频区域。LFC首先压缩低频区域，然后HFC使用低频作为强先验压缩高频区域。0（DWT）, 大多数标准/非标准无损压缩方法[2, 5, 7,51]使用预测编码。标准预测编码方案使用闭环预测，其中当前像素是通过先前编码的样本进行估计和压缩的。从这个意义上说，早期的基于学习的无损压缩算法[29, 31, 35, 38,41,49]将DNN设计为自回归模型。它们依赖于DNN在给定先前样本的条件下估计像素的概率分布的强大能力。例如，PixelRNN[49]，PixelCNN[35]和PixelCNN++[41]按顺序压缩每个像素，其中概率分布是在所有先前像素的条件下预测的。然而，这些方法需要为整个像素数量进行神经网络计算，导致推理时间不切实际。为了实现实用性，最近的研究[29,31,38]将编码处理单元从单个像素改为整个图像或子图像。这些方法根据先前编码的子图像推导出子图像的概率分布，或者根据有损压缩图像推导出整个图像的概率分布。它们显示了减少和实用的计算。The overall procedure of our method is illustrated inFig. 2. Given the input image x ∈ RH×W ×3, we ﬁrst con-vert the RGB image into a YUV format through a reversiblecolor transform [36]. Then we split the image in a channel-wise and spatial-wise manner. Speciﬁcally, we divide theinput image into 12 subimages xc,s ∈ RH2 ×60340与逐像素编码方法相比，我们的方法在时间上具有更高的效率。然而，这些方法同样地考虑了低频和高频区域，给不同特征的区域提供相同的编码策略。一般来说，在像素值快速变化的高频区域，如边缘或纹理附近，很难获得最佳性能。我们应对这一挑战，并提出了频率分解网络无损压缩（LC-FDNet），如图1所示，它由自适应频率分解（AFD）、低频压缩器（LFC）和高频压缩器（HFC）组成。我们还基于我们独特的分解方案将图像分解为子图像，其中第一个子图像由传统无损压缩器进行压缩。然后，其余子图像按顺序通过图1进行压缩。使用先前编码的子图像和当前子图像作为输入，AFD将输入子图像分解为低频和高频区域，压缩器（LFC和HFC）以不同的方式对低频和高频区域进行编码。由于低频区域通常具有良好的预测性能，我们首先压缩低频分量。另一方面，高频区域通常表现出相对较大的预测误差，因此我们使用额外的先验信息对其进行单独编码，这些先验信息是编码的低频像素。也就是说，我们将低频分量作为压缩高频区域的附加输入。对于图像特定的频率分解，AFD生成误差方差图和误差方差阈值。误差方差图可以理解为网络产生的预测误差的大小。通过使用误差方差阈值对误差方差图进行阈值处理，我们可以将像素分类为低频和高频像素。由于误差方差因通道、空间位置和图像特征而异，我们设计了自适应于这些因素的阈值。这使得频率分解过程成为图像特定的过程，其中根据图像属性派生出不同的阈值。实验证明，所提出的方法在基准高分辨率数据集上以合理的推理时间实现了最先进的性能。总结起来，主要贡献如下：0•我们提出了一种无损图像压缩框架，以粗到细的方式进行压缩，利用低频分量提高高频区域的性能。0•我们设计了自适应于通道、空间位置和图像特征的频率分解过程。因此，编码变得图像特定，提高了压缩性能。0•我们的方法在基准高分辨率数据集上以合理的推理时间实现了最先进的性能。02. 相关工作0逐像素无损压缩基于学习的无损压缩方法通常采用自回归模型。早期的方法在像素单位上进行编码，其中每个像素基于先前编码的像素进行压缩。例如，PixelRNN [ 49 ] 和 PixelCNN [ 35 ]将像素建模为条件分布的乘积 p ( x ) = �0i p ( x i | x 1 , ..., x i − 1 ) ，其中 x i是一个单独的像素。PixelCNN++ [ 41 ]被提出作为上述工作的进一步发展，并在更快的时间内实现了性能提升。他们将像素建模为离散化的逻辑混合似然，使用下采样来捕捉多个分辨率下的结构，并引入了额外的快捷连接。尽管有这些因素，PixelCNN++仍然保持了自回归模型的固有限制，即对于每个像素都需要网络计算，需要不切实际的推理时间。0子图像无损压缩为了在合理的时间内进行无损压缩，最近的研究在整个图像或子图像的单位上进行编码。每种方法都有其将图像转换为子图像的独特策略。MS-PixelCNN [ 38 ]首先提出了一种使用分层编码方案的并行化PixelCNN。具体而言，输入图像根据空间位置被明确地分为四个子图像，并且子图像的分布取决于先前编码的子图像。然而，他们在建模子图像之间的依赖关系时仍需要不切实际的时间。L3C[ 29 ]提出了一个实用的压缩框架，利用了分层概率模型。子图像由神经网络隐式建模，并且每个子图像都依赖于前一尺度的子图像。在这里，初始子图像被假设为均匀分布。RC [ 31 ]可以被看作是将图像分为两部分的方法：有损压缩图像和其残差。残差的概率分布是基于有损压缩建模的。03. 方法03.1. 概述02×1，其中cAfter the reversible color transformation, the input im-age is divided into subimages depending on the color chan-nel and the spatial location. Fig. 2 shows how we catego-rize the pixels into four groups (a, b, c, d) depending on thespatial location. Pixels in the odd row and odd column arecategorized as a, odd row and even column as b, and so on.We compress 12 subimages in total, where the compres-sion of each subimage is conditioned on the previously en-coded subimages. To be speciﬁc, for the compression of the60350a b a b0c d c d0a b a b0c d c d0a a0a a0a a0a a0a a0a a0b b0b b0b b0b b0b b0b b0c c0c c0c c0d d 输入图像（YUV）0子图像0分割压缩d d0连接0d d0d d0比特流0JPEG-XL0a a0a a0比特流比特流0连接...0Y U V0� ��,�0� �,� � �,�0LC-FDNet �,� LC-FDNet �,�0图2.我们压缩方案的框架。根据空间位置，每个像素被分组为a、b、c、d之一。输入图像被分割为子图像，这些子图像按顺序进行压缩。子图像xYUV,a最初使用传统的压缩算法进行编码。其余的子图像通过深度网络进行压缩，这些网络接收先前编码的子图像作为输入，并压缩当前的子图像。虚线箭头表示当前正在压缩相应的子图像。压缩后的子图像然后用作编码下一个子图像的附加输入。0表示通道索引（c∈{Y，U，V}）和空间位置索引（s∈{a，b，c，d}）。首先使用传统的压缩算法对子图像x Y UV,a={xY,a，x U,a，xV,a}进行压缩。然后，使用我们的LC-FDNet逐个压缩剩余的子图像，其中先前编码的子图像被用作输入。将要压缩的子图像的顺序将在第3.3节中解释。03.2. 可逆颜色变换0一般来说，RGB图像的颜色通道之间存在显著的相关性。大多数标准图像/视频压缩方法采用YUV转换来去相关化颜色通道并提高压缩效率。在无损压缩的情况下，YUV转换本身必须是无损的，即YUV逆转换回RGB应该是整数算术的无损的。在本文中，我们采用了[36]中提出的可逆颜色变换，因为它很好地近似了传统的YUV变换。注意，Y通道用8位表示，UV通道用9位表示。03.3. 框架02×1，我们将已编码的N-1个子图像连接起来并将其用作输入，我们02×(N-1)。为了简单起见，我们忽略了子图像索引N的表示。在这种情况下，子图像的顺序对于压缩效率至关重要。随着输入和第N个子图像之间的相关性增加，压缩性能得到改善。例如，当以x Y,a为条件而不是x V,b时，编码子图像xY,d要容易得多。0我们设计子图像的顺序考虑以下两个因素：1）颜色通道和2）空间位置。在颜色通道方面，我们将顺序安排为Y→U→V。这是一个直接的选择，因为Y通道包含比U和V更重要的特征。在空间位置方面，我们设计网络按照a→d→b→c的顺序进行。我们认为这是一个比MS-PixelCNN[38]更好的设计选择，因为它们按照a→b→c→d的顺序进行。比较a→d和a→b，我们可以看到d在水平和垂直方向上都充分利用了a的信息。相反，基于a获取b在水平轴方面可能更有益处，但在垂直分量上利用不足。总之，我们按照xY,a→x U,a→x V,a→x Y,d→x U,d→...→xV,c的顺序进行子图像的压缩。0对于初始子图像 x Y UV,a的压缩，我们采用传统的无损压缩算法，类似于 RC[31]。之前的研究 [29, 33]将初始先验设定为均匀分布或单位高斯分布。尽管DNNs在估计条件概率分布方面表现得非常好，但是当给出弱先验时，其效果有限。在这种情况下，传统算法反而表现出竞争性能，因此我们使用它们来压缩初始子图像 x YUV,a。具体来说，我们采用了JPEG-XL[2]，它在传统压缩算法中具有最先进的性能。ො𝑦𝐿𝑦𝑟𝐿𝑞𝐿𝜎𝑦𝑚𝐿𝑥𝑖𝑛Q−≤ 𝜏𝑦Entropy Coder×Entropy Coder𝑥𝑖𝑛ො𝑦𝐻Q−𝑟𝐻𝑞𝐻𝜏𝑦𝑝𝐿𝑝𝐻𝑚𝐻 = 1 − 𝑚𝐿Error Variance Map The error variance map σy∈RH2 ×Lev = ∥σy − |y − ˆyL|∥1.(1)miL =60360低频压缩器0高频压缩器0自适应频率分解0图3. LC-FDNet的架构。在该图中，我们考虑压缩 y = x Y,d，给定 x in = x Y UV,a 的情况。AFD部分首先接收 x in，并使用误差方差图 σ y和误差方差阈值 τ y 将每个像素确定为低频区域或高频区域。然后，LFC对子图像 y的低频区域进行编码。HFC接收编码的低频区域作为额外输入，并压缩剩余的高频区域。解码过程在补充材料中提供。03.4. 架构0在本节中，我们介绍了LC-FDNet的架构，如图3所示，显示了图1的细节。目标是在给定输入 x in的情况下压缩第N个子图像 y，其中 x in是前N-1个已编码子图像的串联。请注意，每个子图像都需要使用LC-FDNet，总共有9个LC-FDNet（因为3个子图像由JPEG-XL编码）。这些网络不共享参数，因为每个网络都是特定于每个子图像的。在本文中，符号 L 和 H分别表示低频和高频。我们首先解释 AFD 和 LFC部分中的符号。02 × 1 是对 y的网络预测，更好的预测会产生更紧凑的压缩。给定预测，计算残差为 r L = ˆ y L -y，即实际子图像与预测之间的差异。由于得到的残差不是整数形式，我们对残差进行量化（舍入）。它表示为 qL，然后传递给熵编码器。0概率分布 p L 是量化残差 q L的估计概率分布。我们直接将概率分布估计为概率质量函数（pmf）。因此，p L的维度为 H。02 × C，其中 C 对于 Y 通道为511，对于 U、V通道为1021。在得到 p L 之前应用 softmax操作，以使概率总和为1。02 × 1 表示预测误差的估计0由网络生成的幅度。我们设计误差方差图遵循预测误差的幅度，通过以下损失函数进行：0在这里，地图中的每个值都可以解释为相应像素处的预测误差方差。较大的值意味着网络在该点可能会产生较大的预测误差，这意味着该像素属于高频区域。相反，平滑区域，即低频区域，会产生较低的误差方差值。0误差方差阈值通过获取误差方差图，我们对每个像素应用简单的阈值分类，将像素分为低频或高频区域。然而，阈值应根据通道、空间位置和图像特性进行调整。例如，与U和V通道相比，Y通道的误差方差通常较大。因此，在Y通道中阈值应该更大。因此，我们不使用固定阈值，而是让网络为每个子图像推导出特定的误差方差阈值τ y ∈R。请注意，对于单个输入图像，推导出9个阈值。有了σy和τ y，我们获得低频掩码如下：0� 1 if σ i y ≤ τ y 0 else , (2)0其中i表示像素索引。mL用作低频区域中被考虑的分量的指示器。0量化残差q L，对应的概率分布p L和低频掩码m L被传递60370对熵编码器进行压缩。我们仅压缩低频分量，即对应于m i L=1的像素。可以假设属于低频区域的像素即使给出额外信息，特别是在HFC中进行压缩时，其性能改善也很小。相反，当这些分量作为额外输入时，压缩效率的提升是显著的。在LFC中压缩低频区域后，HFC对剩余的高频区域进行编码。除了输入x之外，HFC还额外接收当前编码子图像的低频分量y ⊙ m L。从输入中，HFC生成以下两个输出：1）ˆyH：y的预测，2）p H：量化残差qH的概率分布。由于低频分量对高频分量具有很强的先验知识，HFC可以进行更精确的预测。此外，概率分布的方差减小，从而提高了压缩效率。HFC的流水线与LFC类似。量化残差q H，对应的概率分布p H和高频掩码m H = 1 - mL被馈送到熵编码器。请注意，HFC可以忽略对低频分量的估计，只关注高频分量。03.5. 损失函数0LC-FDNet使用以下三种损失进行训练：1）定义为方程1的误差方差损失，2）重建损失，和3）比特率损失。重建损失我们定义为真实子图像和预测子图像之间的L1损失：0L rec = m L ∙ ∥ y - ˆy L ∥ 1 + m H ∙ ∥ y - ˆy H ∥ 1 . (3)0请注意，我们将相应的频率掩码乘以LFC和HFC的预测误差。这样只有低频分量才会对LFC的重建损失产生贡献，HFC也是如此。这使得LFC/HFC分别用于低频/高频区域。尽管在其他研究中经常忽略重建损失，但我们发现采用这种损失可以实现稳定的训练和性能提升。0比特率损失用于最小化量化残差的真实概率分布(p q L, p qH)与估计概率分布(p L, pH)之间的交叉熵。形式上，它定义为：0L br = m L ∙∥− log p L (q L) ∥ 1 + m H ∙∥− log p H (q H) ∥ 1 . (4)0概率分布p L和p H被训练用于对应的量化残差(q L和0通过交叉熵损失对qH进行训练。这相当于每个符号的期望比特数，因此我们可以直接最小化编码成本。为了限制每个频率分量的贡献，就像重建损失一样，我们将频率掩码乘以相应的概率分布。总之，我们使用以下损失训练我们的网络：0L = L rec + λ br L br + λ ev L ev (5)0其中λ ev和λ br是平衡超参数。在我们的实验中，我们将λev和λ br都设置为1。04. 实验04.1. 实验设置0实现细节网络架构的详细信息请参见补充材料。对于量化，我们使用round函数即q =round(r)。除了整数之外，导数为零，无法用于基于梯度的优化。因此，我们在反向传播中将round函数近似为简单的STE [ 6 ]即q = r，因为[ 10]已经表明不同的量化近似方法对压缩性能影响不大。在推导Eq. 2时引入了同样的问题。在反向传播中，这被近似为m L= sigmoid(- (σ y - τy))。对于我们的熵编码器，我们使用的是“torchac”，这是由L3C [ 29]的作者开发的用于PyTorch的快速算术编码库。0数据集我们在三个基准数据集CLIC.m，CLIC.p和DIV2K上验证了我们的方法。CLIC移动（CLIC.m）和CLIC专业（CLIC.p）是作为“学习图像压缩研讨会和挑战”的一部分发布的数据集[52]。CLIC.m包含61个评估图像，这些图像是使用手机拍摄的。CLIC.p包含41个评估图像，这些图像是由数码单反相机拍摄的。CLIC数据集中的大多数图像都是2K分辨率，但其中一些图像的分辨率较低，如512×384。DIV2K [ 1]是一个超分辨率数据集，包含2K分辨率的高质量图像，其中提供了100张图像用于评估。0训练我们使用Flickr2k [ 26]数据集进行网络训练，该数据集提供了2,000张高质量图像。在训练过程中，我们随机从输入图像中提取大小为128×128的补丁。训练使用Adam优化器 [ 20]，批量大小为24，训练3,000个epochs。学习率初始设置为1×10-3，并在每1,000个epochs时衰减0.1倍。在GeForce GTX 1080 Ti上进行训练时，训练时间为36小时。0PNG [7]11.79 +70.9%11.79 +50.0%12.69 +55.9%JPEG-LS [51]7.59 +10.0%8.46+7.6%8.97 +10.2%JPEG2000 [37]8.13 +17.8%8.79 +11.8%9.36 +15.0%WebP [50]8.19 +17.8%8.70 +11.8%9.33 +15.0%BPG [5]8.52 +23.5%9.24 +17.6%9.84 +20.9%LCIC [19]7.88 +14.2%9.02 +14.8%9.35 +14.9%FLIF [43]7.44+7.8%8.16+3.8%8.73+7.2%JPEG-XL [2]7.20∗ +4.3%8.19+4.2%8.49+4.3%L3C [29]7.92 +14.8%8.82 +12.2%9.27 +13.9%RC [31]7.62 +10.4%8.79 +11.8%9.24 +13.5%Near-Lossless [3]7.53+9.1%7.98∗ +1.5%8.43∗ +3.6%bppadbcY-0.950.810.79U-0.580.450.44V-0.570.440.4360380表1.我们的方法与其他非学习和基于学习的编解码器在高分辨率基准数据集上的比较。我们以每像素比特数（bpp）来衡量性能。最佳性能以粗体显示，次佳性能以�表示。与我们的方法的差异以绿色突出显示。0方法 CLIC.m CLIC.p DIV2K0我们的 6.90 7.86 8.140以下是高分辨率基准数据集上的传统无损图像编解码器：PNG [ 7 ]，JPEG-LS [ 51 ]，JPEG2000 [ 37 ]，WebP [ 50]，BPG [ 5 ]，LCIC [ 19 ]，FLIF [ 43 ]和JPEG-XL [ 2]。至于学习方法，我们考虑了L3C [ 29 ]，RC [ 31]和Near-Lossless [ 3 ]。L3C和RC是使用OpenImages数据集 [ 22]进行训练的，该数据集包含30万张图像。Near-Lossless是使用DIV2K数据集进行训练的。我们使用每像素比特数（bpp）作为评估指标，其中较低的bpp表示更好的压缩性能。04.2. 压缩结果0表1给出了所描述的评估集的比较结果。可以看出，我们的方法在性能上优于工程化和基于学习的编解码器。在DIV2K的情况下，我们的方法相比Near-Lossless获得了3.6%的增益。在CLIC.m的情况下，FLIF和JPEG-XL等非学习编解码器优于现有的基于学习的方法。因此，可以解释为基于学习的方法难以推广到CLIC.m。然而，我们的方法实现了最先进的性能，并比JPEG-XL提高了4.3%。最后，在CLIC.p中，我们的方法展现出最佳性能，相比Near-Lossless获得了1.5%的增益。在表2中，我们报告了每个子图像（即每个通道和空间位置）的压缩结果。从空间位置的角度来看，压缩效率按照a→d→b→c的顺序提高。这是因为随着以上顺序的进行，提供的信息越多。从通道的角度来看，Y→UV的顺序呈现出更好的压缩效果。这是由于颜色变换减小了UV通道的方差。此外，V通道相比U通道稍微有所改善，因为在编码V时我们使用了额外的输入U。0表2. DIV2K数据集每个子图像的压缩结果。子图像x YUV,a的压缩性能是JPEG-XL的结果。0总计 2.68 2.10 1.70 1.6604.3. 推理时间0我们在GeForce GTX 1080Ti上测量了对于一个512×512图像进行编码所需的推理时间。对于我们的方法，解码时间与编码时间相同。首先，使用JPEG-XL对初始子图像进行压缩需要199毫秒。实现量化残差、概率分布和频率掩码的前向传递需要33毫秒。最后，使用torcha的算术编码需要611毫秒。总体而言，我们的方法需要841毫秒。请注意，其中72%的时间用于算术编码，如果将来开发出更好的适用于PyTorch的熵编码器，这个时间可以缩短。04.4. 自适应频率分解分析0我们定量和定性地证明了误差方差阈值对通道、空间位置和图像特征的自适应性。我们首先通过表3展示了误差方差阈值对通道和空间位置的自适应性。通常情况下，阈值值按照d→b→c和Y→UV的顺序减小。这与压缩效率的顺序一致。如果子图像更可预测，方差图中的整体值 tend todecrease。在这种情况下，误差变量0.260.349.059.33τydbcY3.572.842.72U2.682.242.21V2.662.302.2402468101202468101260390图4.从上到下分别是输入图像、误差方差图、低频掩码和误差方差阈值的可视化。这些元素是针对Y通道和d位置的情况进行可视化的。我们选择了DIV2K数据集中具有最小和最大τ y 的样本。为了可视化，将误差方差图放大了5倍。0表3.每个子图像的误差方差阈值。由于阈值是针对每个图像特定的，我们对DIV2K数据集中的所有图像的阈值进行了平均。0阈值也应该减小以平衡低频和高频的比例。接下来，我们展示了误差方差阈值对图像特征的自适应性。图4显示了从LFC生成的输出。前两个样本包含大部分平滑的背景和一个单一的物体。这些样本产生了0.26和0.34的较小阈值。相比之下，后两个样本比前面的样本更复杂，引入了许多高频成分。这些样本产生了9.05和9.33的较大阈值。我们解释了误差方差阈值与图像中包含的高频成分数量成正比的关系。我们还定量验证了上述结论。我们发现，具有许多高频成分的图像往往在误差方差图中引入较大的值。此外，这些图像导致压缩率较低。因此，对于DIV2K中的样本，我们绘制了误差方差。00 2 4 6 8 10 12 14 误差方差图的均值0误差方差阈值00 0.5 1 1.5 bpp0误差方差阈值0图5.图像特征与误差方差阈值之间的关系图，使用DIV2K的样本，Y通道和d的空间位置。0根据误差方差图的均值和bpp，绘制了误差方差阈值和两个组件之间的图表。可以观察到误差方差阈值和两个组件之间存在正相关关系。总之，误差方差阈值对图像特征是自适应的，其中阈值随着更多的高频分量的存在而增加。04.5. 消融研究0进行了几个消融实验来分析LC-FDNet的每个组成部分。我们通过逐个排除组件来在表4中展示每个组件的贡献。对DIV2K数据集上的比较网络进行评估。在计算压缩性能时，我们排除JPEG-XL（2.68 bpp）的部分。C2F3.801.665.4660400表4.在DIV2K数据集上对我们方法进行的消融研究。C2F表示粗到细网络。 �表示使用了相应的元素。0C2F 自适应τ 0� 5.78 +5.8%0� � 5.61 +2.7%0� � 5.57 +2.0%0� � � 5.460粗到细首先，我们展示了粗到细处理的效果。我们设计了一个比较网络，将低频和高频分量一起压缩，使得高频分量不受低频分量的影响。因此，网络只输出子图像的预测和概率分布。我们使两个网络的参数数量相匹配，以证明性能增益不是来自网络大小的差异。结果（表4的第一行）显示，通过粗到细处理，我们可以获得5.8%的性能增益。因此，我们可以得出结论，低频分量对于估计高频分量起到了很强的先验作用。0自适应误差方差阈值我们表明，将误差方差阈值自适应于图像特征可以提高性能。具体而言，我们为每个子图像训练一个具有固定τ的网络。由于我们的框架对τ的值敏感，我们应该仔细设置阈值以进行公平比较。因此，我们使用从我们的完整模型派生的DIV2K验证集的平均τy作为我们的固定τ。表的第二行显示，使用固定τ时性能下降了2.7%。0损失掩蔽我们验证了在公式3和公式4中乘以相应频率掩蔽的有效贡献。在这里，我们训练了一个没有频率掩蔽乘法的网络。换句话说，LFC和HFC共享相同的目标，不是频率特定的。在这种情况下，观察到了2.0%的性能下降，如第三行所示，表明将频率特定的角色分配给LFC和HFC具有积极影响。04.6. 频率分量分析0我们在表5中分别展示了低频和高频区域的性能增益，以进一步分析我们的系统。我们首先将我们的完整模型（C2F）与没有粗到细处理的模型（w/oC2F）进行比较，如消融研究中所示。与没有粗到细处理的网络相比，低频分量的性能增益为3.4%，而高频分量的增加为11.4%。这意味着高频分量从粗到细处理中获得了显著的好处。0表5.低频和高频区域的性能增益。F2C表示网络按照从精细到粗糙的方式进行处理。0方法低频高频总计0无C2F 3.93 +3.4％ 1.85 +11.4％ 5.78 +5.8％0F2C 3.78 -0.5％ 1.84 +10.8％ 5.62 +2.9％0正如预期的那样，低频分量确实作为高频分量估计的强条件。0我们训练了一个额外的网络，按照细到粗的方式进行处理（F2C）。也就是说，我们首先压缩高频分量，并利用它们来编码低频分量。从表5中我们可以看到，在低频区域中性能提升了0.5％，这是微小的。相反，在高频分量中有一个明显的性能下降，下降了10.8％。总体而言，按照细到粗的方式进行处理会导致总体性能下降2.9％。尽管低频分量占据了图像的很大一部分，但其增益太小，无法对整体增益产生足够的贡献。因此，我们得出结论，粗到细的设计选择确实是有利的。05. 结论0我们提出了LC-FDNet，这是一个无损图像压缩框架，将图像分解为低频和高频区域，以粗到细的方式进行处理。我们通过首先压缩低频分量并将其用作编码剩余高频分量的强先验来解决高频区域的性能下降问题。此外，我们设计了频率分解方法，使其能够适应颜色通道、空间位置和图像特征，以得到图像特定的低/高频分量的最佳比例。实验证明，我们的方法在高分辨率数据集上实现了最先进的性能。我们的代码可在 https://github.com/myideaisgood/LC-FDNet上找到。0致谢本工作部分得到了韩国国家研究基金会（NRF）的支持，该基金会由韩国政府（MSIT）资助（2021R1A2C2007220），部分得到了韩国政府（MSIT）资助的信息与通信技术规划与评估研究所（IITP）资助[NO.2021-0-01343，首尔国立大学人工智能研究生院项目]，以及首尔国立大学2022年的BK21 FOUR计划的支持。[1] Eirikur Agustsson and Radu Timofte. Ntire 2017 challengeon single image super-resolution: Dataset and study. In Pro-ceedings of the IEEE conference on computer vision and pat-tern recognition workshops, pages 126–135, 2017. 5[2] Jyrki Alakuijala, Ruud van Asseldonk, Sami Boukortt, Mar-tin Bruse, Iulia-Maria Coms,a, Moritz Firsching, Thomas Fis-chbacher, Evgenii Kliuchnikov, Sebastian Gomez, RobertObryk, et al.Jpeg xl next-generation image compressionarchitecture and coding tools. In Applications of Digital Im-age Processing XLII, volume 11137, page 111370K. Inter-national Society for Optics and Photonics, 2019. 1, 3, 6[3] Yuanchao Bai, Xianming Liu, Wangmeng Zuo, YaoweiWang, and Xiangyang Ji. Learning scalable ly=-constrainednear-lossless image compression via joint lossy image andresidual compression. In Proceedings of the IEEE/CVF Con-ference on Computer Vision and Pattern Recognition, pages11946–11955, 2021. 1, 6[4] Johannes Ball´e, Valero Laparra, and Eero P Simoncelli.End-to-end optimized image compression.arXiv preprintarXiv:1611.01704, 2016. 1[5] Bellard. Bpg image format. https://bellard.org/bpg. 1, 6[6] Yoshua Bengio, Nicholas L´eonard, and Aaron Courville.Estimating or propagating gradients through stochasticneurons for conditional computation.arXiv preprintarXiv:1308.3432, 2013. 5[7] Thomas Boutell and T Lane. Png (portable network graph-ics) speciﬁcation version 1.0.Network Working Group,pages 1–102, 1997. 1, 660410参考文献0[8] Benoit Brummer和Christophe De Vleeschouwer.具有先验分布竞争的端到端优化图像压缩。在IEEE/CVF计算机视觉和模式识别会议论文集中，第1890–1894页，2021. 10[9] Sheng Cao, Chao-Yuan Wu和Philipp Kr¨ahenb¨uhl.通过超分辨率实现无损图像压缩。arXiv预印本arXiv:2004.02872，2020. 10[10] Zhengxue Cheng, Heming Sun, Masaru Takeuchi和JiroKatto.通过时空能量压缩学习图像和视频压缩。在IEEE/CVF计算机视觉和模式识别会议论文集中，第10071–10080页，2019. 1 , 50[11] Zhengxue Cheng, Heming Sun, Masaru Takeuchi和JiroKatto.通过离散高斯混合似然和注意力模块学习图像压缩。在IEEE/CVF计算机视觉和模式识别会议论文集中，第7939–7948页，2020. 10[12] Yoojin Choi, Mostafa El-Khamy和Jungwon Lee.具有条件自编码器的可变速率深度图像压缩。在IEEE/CVF国际计算机视觉会议论文集中，第3146–3154页，2019. 10[13] Ze Cui, Jing Wang, Shangyin Gao, Tiansheng Guo, YihuiFeng和Bo Bai.具有连续速率自适应的非对称增益深度图像压缩。在IEEE/CVF计算机视觉和模式识别会议论文集中，第10532–10541页，2021. 10[14] Xin Deng, Wenzhe Yang, Ren Yang, Mai Xu, Enpeng Liu,Qianhan Feng和Radu Timofte.用于高效立体

下载后可阅读完整内容，剩余1页未读，立即下载