基于全局和局部分层先验的学习图像压缩技术

15 浏览量更新于2023-10-26 收藏 1.56MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

5992基于全局和局部分层先验的学习图像压缩金俊赫1*Byeongho Heo2Jong-Seok Lee11延世大学综合技术学院2NAVER AI Lab{junhyuk.kim，jong-seok.lee}@ yonsei.ac.krbh. navercorp.com摘要最近，学习的图像压缩方法已经超过了传统的手工制作的，包括BPG。这种成功的关键之一是学习熵模型，估计量化的潜在表示的概率分布。与其他视觉任务一样，最近学习的熵模型基于卷积神经网络（CNN）。然而，由于其局部连接性的性质，CNN在建模长距离依赖性方面具有限制，这可能是图像压缩中的一个重要瓶颈，其中减少空间冗余是输入图像(a) CNN方法局部内容无关比特流(b) 举报人（我们的）全局内容相关关键点。为了克服这个问题，我们提出了一种新的熵模型，称为信息Transformer（Informer），利用全球和本地信息的内容相关的方式使用的注意力机制。我们的实验表明， Informer 提高我们的源代码可在https://github.com/naver-ai/informer获得。1. 介绍每年拍摄的照片超过一万亿张，而且数量还在增加[12]，这导致对提高压缩效率的需求不断增加最近，深度学习的进步导致了学习图像压缩的重大进展[7，8，16，26，32，36，40，43通常，学习的图像压缩遵循由变换和熵编码组成的变换编码框架[22]（见图1的顶部）。在这个框架内，首先将图像变换为量化的潜在表示，其能够实现比原始图像更有效的压缩。然后，通过标准熵编码算法（例如，算术编码[42]）。熵模型，即，熵编码算法需要关于量化的潜在表示的先验概率模型深*在NAVER AI Lab实习时完成的工作图1.所提出方法的概述。我们的Informer是一个学习的熵模型，使用注意力机制以内容相关的方式捕获全局依赖关系[46]。神经网络用于该框架中的变换和熵模型[7，8，16，32，36，40，43]，其中两者都以端到端的方式学习，以充分利用深度神经网络的强大能力[25]。由于码流长度依赖于熵模型，因此设计一个准确的熵模型对于提高压缩效率是非常重要的，这也是本文的重点。熵模型的目标是估计量化潜在表示的元素上的联合概率分布一个简单的方法是假设元素之间完全独立[7]。然而，这种方法产生有限的压缩效率，因为假设在大多数实际情况下不成立[8]。因此，如何对剩余的依赖关系进行建模一直是学习图像压缩中的重要问题[8，32，36，40]。提取被称为“超先验”或“分层先验”的附加特征是流行的这种方法有助于学习准确的熵模型，使学习的图像压缩方法优于手工制作的图像代码，如BPG [10]。然而，尽管取得了重大进展，但由于CNN的性质，基于CNN的熵模型在捕获依赖性方面仍然存在局限性首先，现有的熵模型没有充分利用全局信息，这是由于熵模型转型熵编码5993××⌊⌉· ⌊·⌉·CNN的局部感受野。这个问题在建模长期依赖关系时可能是关键的。例如，在图1的情况下，由于局部感受野，基于CNN的方法不能完全捕获在整个图像上重复出现其次，由于卷积运算的内容无关性，先前熵模型的感受野不能排除附近具有不同内容的元素[38]。换句话说，无论两个元素的内容多么不同，如果它们位于附近，它们都在同一个感受野在图1中，虽然红色窗口和砖块的内容完全不同，但在捕获依赖关系的过程中，两者都被同时使用。为了克服这些限制，我们提出了一种新的熵模型，称为信息Transformer（Informer），它使用Transformer的注意力机制以内容相关的方式捕获全局和局部依赖性[46]（图1）。与卷积运算相比，注意力机制已知在以内容相关方式对长距离依赖性进行建模方面是有效的[38]。基于联合自回归和分层先验[36]，这是最新熵模型[16，40]的基础，我们引入了两个新的超先验，即，全局超先验和局部超先验。为了对量化潜在表示的全局依赖性进行建模，我们的Informer首先通过使用交叉注意机制[4，14，34]提取由关注图像此外，我们的Informer通过使用11个卷积层来提取针对局部信息的局部超先验。我们的局部超先验避免了我们的全局超先验只利用局部信息，从而使我们的In-former能够有效地考虑全局和局部信息与基线熵模型[36]相比，Informer提高了流行的Kodak [ 31 ]和Tecnick [ 2 ]数据集上学习图像压缩方法的此外，Informer在捕获全局依赖性方面比最近提出的全局参考模型[40]实现了更好的性能; Informer不仅具有更高的全球参考模型的问题我们的主要控制-2. 相关工作学习非线性变换。学习图像压缩成功的关键之一是深度神经网络有效地对适合图像压缩的非线性变换进行建模，而传统的图像编解码器大多假设线性变换，这是由于手工工程非线性变换对于高维数据（如图像）的困难[5]。由于Balle 'et al.[6]提出了对非线性变换建模有效的广义分裂归一化（GDN）层，具有GDN层的CNN已广泛用于后来的方法[7，8，28，32，36]。最近，已经提出了一些学习的非线性变换，其使用具有小内核的深度残差网络（即，3）[15]，注意力模块[16]，可逆神经网络[50]和注意力多尺度反投影模块[21]。注意力机制。注意力机制[46]是在深度神经网络中处理全局信息的最成功的方法之一。它通过trans-former架构在语言领域中展示了显着的性能[46]。一些研究[29，48，49]试图利用计算机视觉领域中注意机制的强大性能。最近，Vision Transformer [19]在图像分类任务上实现了最先进的准确性。已经进行了许多研究，以在不同的视觉任务中使用和改进 VisionTransformer，例如目标检测[13，24，33]、语义分割[33，52]和图像质量评估[17]。由于Transformer具有很强的能力来建模长距离依赖性，而不管它们在像素域中的距离如何[41]，这是现有的学习熵模型所不具备的，因此我们提出了一种新的基于Transformer的学习熵模型。3. 联合全局和局部超先验3.1. 学习图像压缩给定输入图像x，大多数学习的图像压缩模型[8，16，36]旨在联合最小化比特流的预期长度（即，速率）和解码图像相对于x：Expx − lo g2py（ fa （ x ）） +λ·Expxd （ x ， fs （ fa（x）））。可以将这些情况总结如下：拉吉亚提x`distancetdistance（x1）• 我们提出了联合全球和本地hyperpriors，ef-使用注意力机制有效地对量化潜在表示的元素之间的两种• 我们证明，我们的联合全球和本地超先验的Informer提高率失真性能的λ是控制权衡的拉格朗日乘数，补间率和失真。fa（）和fs（）表示关于i v el y编码r、解码r和解码r。是量化的潜在表示，即， y=fa（x）.px是训练图像的分布，并且 py是学习的entropy模型。当熵编码在学习的熵模型下进行时，最小速率是量化的潜在表示的实际概率分布与学习的熵模型之间的交叉熵。因此，在本发明中，5994··ΣΣy我我22我联系我们#（（你知道，��联系我们中文（））s&你看，，联系我们#中文（简体）（%但是，，联系我们第一百一十二章中文（简（（%%，，&，(a) 超先验[8](b) 上下文和超先验[36](c) (b)+全球参考[40](d) 举报人（我们的）图2.使用不同熵模型的学习图像压缩方法的操作图。白色的块是数据张量，蓝色的块代表学习的模型，灰色的圆圈表示量化操作。交叉熵用于速率项。畸变项中的d（，）通常由传统的图像畸变度量定义，例如均方误差（MSE）或多尺度结构相似性（MS-SSIM）。为了实现基于梯度的端到端训练，已经进行了研究来处理不可微的量化运算[1，7，43]。最广泛使用的方法是使用加性均匀噪声来近似量化[7]，我们在本文中采用了这种方法。3.2. 学习熵模型熵模型试图估计量化的潜在表示的元素上的联合概率分布。注意，方程中的速率项当学习到的entropy模型完美地匹配实际概率分布时，最小化（1）对y的分布进行建模的简单方法是假设所有元素在统计上是独立的，并且学习固定熵模型，即，完全分解模型[7，43]。尽管它很简单，但这种方法并没有对y中剩余的依赖关系进行建模，因此无法实现最佳性能[8]。为了解决这一限制，高级方法[8，32，36]提出了条件熵模型，其中假设元素遵循条件独立的参数概率模型，并且通过利用剩余的依赖性来调整分布参数。它们可以分为两个方向：1）使用什么参数模型[8，16，18，36]和2）如何建立依赖模型。cies [8，32，36，40].前一个方向包括零均值高斯[8]，高斯[36]，高斯混合[16]和非对称高斯[18]。其中，我们采用了广泛使用的一种，即，高斯[36]。具体来说，我们使用高斯分布与单位均匀分布卷积，遵循以前的工作[8，36]：p（y）=Y.N.µ，σ2U.−1，1（y），（2）我Balle等[8]通过提取额外编码的边信息来捕获局部依赖性，这被称为超先验。该方法的操作图在图2a中解释。超先验模型（ha和hs）提取并利用超先验z，预测分布参数σ。由于附加信息被编码，因此等式（1）中的速率项（1）如下所示：Expx −log2py（y）−log2pz（z），（3）其中，学习的熵模型pz是使用非参数完全分解熵模型[7]设计的对局部依赖性建模的另一种方法是利用先前解码的相邻元素（即，上下文先验[32，36]）。虽然超先验需要额外的比特，但上下文先验是无比特的。自Minnenet al. [36] Leeet al.[32]证明了这两种先验是互补的，它们通常在文献[16，18，21]中联合使用（图2b）。上下文模型c和超先验模型ha和hs的输出一起用于预测分布参数μ和σ。虽然上述方法侧重于对局部依赖性进行建模，但Qianet al.[40]提出一个全球参考模型，捕捉长期依赖关系。这利用最相关的先前解码的元素来估计当前元素的分布参数如图2c所示，Qianet al.[40]使用与联合上下文和超先验模型[36]相结合的全局参考模型r举报动机虽然利用全局依赖性是一个创新方向，但全局引用模型[40]并没有充分利用全局信息，因为只使用了先前解码的元素中的单个元素。为了提高全局信息的利用率，我们从潜在表示y的所有元素中引入全局超先验zxerg，如图所示。2d.此外，全局参考模型[40]具有计算复杂度增加平方的问题。其中μi和σi是每个元素y的高斯分布，关于ively。本研究的主要重点是后一个方向，也就是说，对依赖关系进行精确建模。现有的方法以两种不同的方式对局部依赖进行建模。第一、对于给定的图像大小，这是因为在其类似自注意的机制中，在所有错误解码的元素中搜索与当前元素最相似的元素，并且对所有元素重复该过程。为了避免这样的问题，在我们的全球卫生组织中，5995··∈×∈×∈∈∈2NLg2116C⌊·⌉perprior建模，我们利用了一个交叉注意力机制与一个固定数量的查询，而不管图像的大小。3.3. 超先验分解如图 2d，扩展上下文和超先验[36]，我们的熵模型Informer将超先验分解为两个新的超先验：全局超先验zg和局部超先验zl。图 3展示了我们的hyperprior的高水平概述，与传统方法[8，36]相比。在前一种方法中的超先验z降低了潜在表示y的空间分辨率，同时保留了通道的数量。由于CNN中的局部化操作，它使用仅包含空间相邻元素的有限局部信息。(a) 先前方法联系我们(b) 举报人（我们的），另一方面，我们的全局hyperpriorz？g由没有空间信息的向量组成，并且不限于局部区域。因此，它可以在建模依赖关系时处理整个图像区域。具体而言，通过使用注意力机制[46]，以内容相关的方式对全局依赖性进行此外，局部超先验z空间模型对每个空间位置中的通道间依赖性进行建模，以补充z空间中空间分量的缺乏。它保持了潜在表示y的空间分辨率，同时减少了通道的数量。总之，所提出的两种类型的超级先验通过有效地彼此互补而并行地捕获潜在表示y的依赖性为了提取和利用超先验，我们建立了全局超先验模型（即，Global Hyper Encodergaand图3.一个典型的hyperprior和拟议hyperprior的示意图与基于空间维度缩减的超先验相比[8，36]，我们的Informer通过注意力机制和专门用于空间信息的局部超先验z模型来利用全局超先验z模型为了简单起见，省略了ha、la和ga之后的量化操作。多个头关注块MHA（q，k，v）、MLP块MLP1（）和最后一个MLP层MLP2（），我们的全局超编码器的公式如下：u′=MHA（u，y，y），z =MLP（MLP（u′）），（5）其中，对于单纯性，省略了归一化层[3]。是的。 MHA（q，k，v）模型是全局依赖的。MLP1（·）全局超解码器和局部超先验模型(i.e.、本地超级编码器l和本地超解码器1）。和MLP（·）eextractz∈RN×C为了进一步模拟信道间依赖性。在量子化歌剧之后所有可训练模型（图中的蓝色块2d）使用Eq.（1）通过延长利率期限，以考虑我们的先验zl和zg：Expx−log2py（y）−log2pzl（zl）−log2pzg（zg），其中，使用非参数完全因子分解熵模型[7]来设计学习的熵模型pzl和pzg3.4. hyperpriors模型全局超先验。给定输入潜在表示y RH×W×C，其中H、W和C分别是通道的高度、宽度和数量，图中的全局Hy- per编码器中说明了提取全局Hy-per编码器的过程。4.第一章我们定义固定大小的全局令牌uRN×C作为全局超编码器的多头注意层的查询。N是一个预定义的参数，在我们的最终模型中固定为8请注意，全局to-kens是可学习的参数，与其他网络参数一样，通过端到端训练确定。与tion，得到了全局h_yperpriorz_（？）全局超解码器是一个线性层，它接收全局超先验z_g作为输入，生成全局超解码器的超解码器_g∈RN×2C。局部超先验。为了对每个空间位置处的通道间依赖性进行建模，我们通过堆叠具有泄漏ReLU激活的11个卷积层来设计局部超先验模型[35]，如图3的右侧部分所示。4.第一章从输入y，局部超编码器提取局部超先验z∈RH×W× -是的本地超解码器利用z<$l，得到其输出<$l∈RH×W×2C.3.5. 分布参数如图在图2d中，我们还采用上下文模型c，其使用预先解码的元素y_

下载后可阅读完整内容，剩余1页未读，立即下载