基于DCT域的深度学习JPEG再压缩方法及其优势

14 浏览量更新于2023-10-26 收藏 953KB PDF 举报

JPEG压缩

深度学习

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

5862实用的DCT域Lina Guo12*，Xinjie Shi1*，Dailan He1*，Yuanyuan Wang1，Rui Ma1，Hongwei Qin1，YanWang13†商汤科技1、国防科技大学2、清华大学3{guolina1，shixinjie，hedailan，wangyuanyuan，marui，qinhongwei，wangyan1}@sensetime.comguolina19@nudt.edu.cn，wangyan@air.tsinghua.edu.cn摘要JPEG是一种流行的图像压缩方法，广泛用于个人，数据中心，云存储和网络文件系统。然而，图像压缩的最新进展主要集中在未压缩的图像，而忽略了数以万亿计的已经存在的JPEG图像。为了充分压缩这些JPEG图像并在需要时将其恢复为JPEG格式，我们提出了一种基于深度学习的JPEG再压缩方法，该方法在DCT域上操作，并提出了一种多级交叉通道熵模型来压缩信息量最大的Y分量。实验结果表明，与传统的JPEG重压缩方法Lepton、JPEG XL和CMIX相比，该方法具有更好的压缩性能。据我们所知，这是第一个学习的压缩方法，损失的转码JPEG图像，年龄更多的存储节省比特流。1. 介绍JPEG [44]是一种流行的图像压缩算法，每天有数十亿人使用，JPEG图像在数据中心，云存储和网络文件系统中广泛传播。根据一项调查，在运行Dropbox等网络文件系统时，JPEG图像约占存储字节的35%[21]。然而，由于JPEG算法的局限性，这些图像大多没有得到充分的压缩实际上，JPEG算法已经开发了很多年，因此它已经被其他最近的图像压缩方法所超越，例如JPEG 2000 [34]，BPG [10]，VVC/H.266的帧内编码[31]和基于深度学习的方法[8，9，29]。然而，这些后续的图像压缩-*同等贡献。†通讯作者。这项工作是在Lina Guo，Xinjie Shi和Rui Ma在SenseTime Research实习时完成的。传统的JPEG压缩方法致力于处理PNG等无损格式的原始图像，而忽略了进一步压缩数万亿张现有JPEG图像的需要。考虑到存储服务的重压缩需求，JPEG图像的进一步压缩有多种方法，如：Lepton [21]，JPEG XL [6，7]和CMIX [1]。然而，它们依赖于手工制作的功能和独立优化的模块，限制了压缩效率。随着保存和上传JPEG图像的移动设备的快速增长，这些存储系统已经变得庞大，并且现有的JPEG再压缩算法预计不会是服务提供商所面临的存储挑战的最佳和通用解决方案。本文提出了一种高效的JPEG图像无损补偿神经网络，它以量化的DCT [5]系数作为输入，并存储在JPEG文件中。据我们所在我们的方法中，YCbCr 4：2：0格式的JPEG被认为是，因为它的流行。如图1所示，我们首先构建YCbCr 4：2：0格式的颜色空间熵模型，该模型提取边信息z，以构建三个分量的一致性分布。然后，我们进一步利用Y，Cb和Cr分量的相关性顺序（即。Cb组分以Cr为条件，Y组分以Cb和Cr两者为条件此外，由于Y分量比Cb和Cr分量信息量大得多，我们提出了一种用于Y分量的多级跨通道（MLCC）熵增强模型，以减少估计数据分布与真实数据分布之间的不匹配。最后，我们的主要贡献包括：• 我们提出了一个端到端的无损压缩模型的图像已编码的JPEG格式。据我们所知，这是研究基于学习的JPEG再压缩的第一种方法，它进一步有利于广泛采用的基于58634××强大的数据驱动技术。• 实验结果表明，我们提出的JPEG补偿方法达到了最先进的性能，优于Lepton，JPEG XL和CMIX。此外，我们的模型具有合理的运行速度，是一个有前途的候选人，实际的JPEG再压缩。2. 相关工作2.1. JPEG算法JPEG算法首先将图像从RGB源转换到YCbCr颜色空间（一个亮度分量（Y）和两个色度分量（Cb 和Cr））。然后，考虑到人类视觉系统对存储在亮度分量中的亮度细节远比存储在两个色度分量中的颜色细节敏感，因此假设亮度分量比色度分量更重要大多数JPEG图像采用YCbCr 4：2：0格式，其中Y保持相同的分辨率，而Cb和Cr分量被二次采样为其原始分辨率的1然后将每个分量分成8个像素块，每个像素块用离散余弦变换（DCT）变换成大小相同的频率系数矩阵（DCT系数）。随后，这三个分量由两个量化表量化：Y分量使用一个量化表，而Cb和Cr分量共享另一个量化表。最后，所有DCT系数都通过无损霍夫曼编码压缩[23]。重要的是，为了部署霍夫曼编码，二维DCT系数必须转换为一维数组。这里采用锯齿形扫描，将相似的频率分组在一起，以获得更好的性能。2.2. JPEG再压缩方法Horn等提出的轻子 [21]，该算法在JPEG有损压缩后，存储量减少了22%，主要研究了熵模型和符号表示的优化。Lep-ton使用更有效的算术编码而不是使用Huffman编码[45]。此外，Lepton的表示方法结合了一元、符号和绝对值，比纯一元、二进制补码等固定长度的编码方法有更好的性能。轻子还通过从交流分量预测直流分量并存储残差来处理直流分量JPEG XL[6，7]是一种支持无损和有损压缩的通用压缩方法。对于现有的JPEG图像，也支持将其无损转码为JPEG XL。JPEG XL实现更好的压缩比通过将8 × 8DCT扩展到可变大小DCT，其允许块大小为8、16或32中的一个。此外，JPEG XL使用非对称数字系统[15]代替霍夫曼编码。代替使用固定量化矩阵在全局上，JEPG XL中的量化矩阵可以局部缩放以更好地适应不同区域中的复杂性。与JPEG中原始的DC系数预测模式相比，JPEGXL支持8种模式，并将选择产生最小误差的模式。CMIX[1]是一个通用的无损数据压缩程序，旨在以高CPU/内存使用率为代价优化压缩率。它在几个压缩基准测试中取得了最先进的CMIX使用一组独立的模型来预测输入流中每个比特的概率使用上下文混合算法将模型预测上下文混合器的输出使用称为二次符号估计（SSE）的算法进行细化。CMIX可以无损压缩所有数据文件，包括JPEG图像。2.3. 端到端图像压缩学习有损压缩。由于Balle 'et al. [8]提出了一种基于变分自动编码器[43]（VAE）架构的端到端学习图像压缩方法，后续基于深度学习的方法继续探索和改进类似架构（例如，[9、12、13、18、19、22、27、29、36、46、47]）。这些方法最初关注如何处理非差分量化和速率估计，以实现端到端训练[8，36]。然后，为了建立更精确的熵模型以进一步降低交叉熵（对应于比特率），一些方法[9，22]致力于将超先验模型引入VAE架构。最近的方法研究上下文模型以获得更准确的熵估计，例如。添加逐像素[29]或逐通道自回归[30]模块。这些技术大大提高了学习图像压缩的性能。实际上，上面提到的所有学习方法都优于JPEG。最新方法的性能[18，47]甚至超过了最新标准VVC/H.266的帧内编码[31]。然而，它们专注于压缩以无损格式（如PNG）存储的图像，作为JPEG的替代品，而不是重新压缩现有的JPEG图像。学会了无损压缩。我们的研究更多地涉及到学习无损图像压缩。理论上，任何概率模型都可以与熵编码器一起使用，以将数据压缩成紧凑的比特流。比特率下限由根据Shannon的里程碑式论文[ 37 ]的概率模型给出概率模型越精确，比特率将越低代表性的学习无损图像压缩方法包括基于似然的生成模型（例如，PixelCNN[32] 、 PixelRNN[42] 、 MS-PixelCNN[35]）、比特回退方法（例如，BB-ANS [39]，Bit-Swap [25]，Hilloc [40]）和基于流的模型（例如，IDF[20]、IDF++ [41]、iVPF [49]）。为了降低计算复杂度，提出了一种可并行化的分层概率模型，5864z00...63 6363 63˜˜˜˜˜˜×××64图1. 提出的JPEG无损再压缩方法的总体架构AE和AD分别代表算术编码和算术解码蓝线和绿线分别表示编码和解码的数据流，橙色线是共享的。L3C [28]，这是第一个实用的全分辨率学习无损图像压缩方法。这种分层概率建模思想后来由SReC [11]和多尺度渐进统计模型[48]改进。尽管如此，与学习过的有损图像压缩一样，这些学习过的无损压缩方法仍然只考虑以PNG格式存储的图像，而忽略了大量已经存在的JPEG图像。在我们的研究中，我们发现这些方法不能直接用于JPEG图像的有损压缩，这是我们在这项工作中所关注的。最后，我们使用基于这些概率分布的算术编码[45]来将分量系数有损压缩到紧凑的比特流中。3.2. DCT系数重排3. 方法3.1. 框架所提出的模型的总体框架如图1所示。由于在我们的方法中使用DCT域来设计一个有效的熵模型，我们首先重新排列每个8×8块的DCT系数，以便更好地学习。输入：1路16×1664通道2×2之字形排列0011118888输出：64通道2 × 2（Sec. 3.2）。由于JPEG通常采用YCbCr4：2：0格式，我们应用系数融合模型（CFM），详见第2节。3.3对准来自不同颜色分量的DCT系数的形状。在形状对齐之后，DCT系数被发送到超编码器，并且将产生超先验z，其作为边信息保存在比特流随后，在超先验z经过超解码器和在第2节中详述的系数先验分割模型（CPSM）之后，将获得三个颜色分量的编码先验。三点三除了共享的超先验z，我们通过显式地建模颜色分量和DCT系数之间的重叠来进一步减少统计冗余。在SEC中详细说明。3.3，我们估计了以z为条件的Cr分布，以z和Cr为条件的Cb分布，以及以z，Cr和Cb为条件的Y分布。根据人类的感知，Y分量比Cb和Cr分量包含更多的我们提出了一种多级交叉通道（MLCC）熵增强模型，以更好地预测Y分布，这在第2节中描述。三点五图2.以16 × 16图像为例进行DCT系数重排.4个8.8DCT块通过频率和锯齿形扫描重新排列JPEG编码器将像素转换为88块变换为相同大小的DCT系数矩阵，并且矩阵中的每个系数代表一个频率。该矩阵的左上角是DC分量，而其余63个系数是AC分量。如图2、首先采用与[17]相同的方法对DCT系数进行重新排列，使得所有块中相同的频率被提取在一起形成空间维，不同的频率形成通道维。此操作将Y、Cb、Cr分量转换为64个通道，其中1个为原始空间大小。交流分量中的很多系数在量化后会趋于零。因此，我们在原始DCT矩阵中通过Z字形扫描来重新排列信道维度，使零值尽可能接近以利用结构信息。CRCR因子化熵Cr先验AEAD向上YCRCBCB超编码器zZ轴QAEZ轴AD超解码器Cb先验熵参数AEAD起来CBYYCRY先验熵参数hyperyMLCCAEAD交叉色熵模型0...63 6300112263 63ConcatCFMCPSM0123456701234567891011121314158910111213141516171819202122231617181920212223242526272829303124252627282930313233343536373739323334353637373940414243444546474041424344454647484950515253545548495051525354555657585960616263565758596061626301234567012345678910111213141589101112131415161718192021222316171819202122232425262728293031242526272829303132333435363737393233343536373739404142434445464740414243444546474849505152535455484950515253545556575859606162635657585960616263011225865|˜˜我的宝贝2我的宝贝22˜˜˜˜4××先前组件超Y（图1）计算条件分布YBR. 然而，这种PMF类似于CrIORp|z，c，c（y z，c b，c r）而Cb分量对大多数人来说不够强大形成性Y成分。在接下来的部分中，我们提出了一种更合适的上下文建模方法，以进一步减少Y分量中的冗余。(a) CFMCr先验Cb先验(b) CPSMY先验(c) 熵参数Npcr|z（cr|z）= p（cri|z）i=0时Ri+12（一）图3. CFM、CPSM和Entropy Pa的详细架构rameters网络。p（cri|z）=cri−1Lap lac e（cr′|µcri，bcri）dcr′3.3. 交叉色熵模型交叉颜色相关性可以隐式地（通过共享超先验）和显式地（通过enNpcb|z，cr（c b|z，cr）=p（c bi|（z，c，r）i=0时bi+1熵参数网络）。在[9]中提出的超先验网络可以被看作是一种有效的熵模型，其生成超先验z为p（c bi|z（r，c）=cbi−1Lap lac e（c b′|µcbi，bcbi）dcb′（二）边信息，然后产生以z为条件的高斯分布的尺度参数。这种方法在他们后来的工作中得到了改进[29]，其中hyperprior与基于上下文的预测相结合。在我们的方法中使用与[29]相同的超网络来从融合的颜色分量中提取超先验，其用作边信息并隐式地对交叉颜色相关性进行然而，由于空间分辨率不同，这种VAE类模型无法直接支持YCbCr类似于[16]，我们分别将系数融合模型（CFM）和系数先验分裂模型（CPSM）添加到超级编码器和超级解码器。CFM的架构如图3a所示，通过该架构，三个颜色分量被重新成形并融合。如图3b所示，CPSM用于分割三个颜色分量的先验，产生Y先验、Cb先验和Cr先验。DCT系数的每个元素被建模为具有其自身尺度b和位置μ参数的单拉普拉斯分布。我们将Cr先验分解为bcr和µcr，以获得Cr分量的拉普拉斯参数。bcr和µcr的尺寸与Cr分量相同。如公式中所示。在公式（1）中，以因子分解的方式计算给定z的Cr的概率。随后，Cr分量作为Cb分量的上下文被馈送到熵参数网络（图3c），并且与Cb先验融合。该模型的输出分为bcb和µcb。因此，Cb分量的概率质量函数（PMF）将以Cr分量和超先验z两者为条件，并且在等式（1）中示出。（二）、Cb和Cr分量被上采样3三步-2转置卷积和级联作为Y分量的上下文。他们一起吃，Y优先于熵参数网络，我们可以得到3.4. 矩阵上下文模型上下文建模是一种基于已解码的相邻符号来预测未知符号的精确概率分布的有效技术先前的基于学习的编解码器采用空间自回归上下文模型，其需要顺序地解码每个符号。虽然这些方法是有效的，但由于缺乏并行化而导致计算效率低，因此它们对于现实世界的部署是不实用的[24，29]。然后，在[30]中探索了信道条件（CC）上下文模型，该模型将符号张量沿信道维度拆分为许多相等大小的切片，并且每个切片可以在所有已经解码的切片上进行随后，Heet al. [19]提出了一种新的空间并行上下文模型，该模型采用两遍解码方法，将符号张量按照棋盘格模式分解为两组，然后将一组作为另一组的上下文来构建条件分布。同时，在学习无损图像压缩中，一种与空间并行上下文模型相似的层次概率建模思想得到了广泛的分层模型[11，28，48]将输入图像下采样为不同的低分辨率表示，输入图像的概率分布是多个尺度下条件分布的乘积。本文提出了一种新的可并行化的矩阵上下文模型来增强Y分量的熵估计如图4所示，我们首先使用空间到深度操作，作用（即，PixelShuffle [38]的逆操作）以将Y分量转换为Y′（64 4个通道，其中1是原始空间大小）。然后我们沿通道对Y′进行尺寸分成4个相等大小的切片（即，矩阵中的4行YCBCRConcat转换转换128×5×5/2 ↓128×3×3/1PReLUPReLUConcatConv 192×1×1PReLUPReLUPRPReLUPReLUPReLUTConv TConv TConv 128×3×3/1 128×3×3/1128×5×5/2 ↑分裂Conv 384×1×1Conv 128×3×3/1PReLUConcatConv 214×1×1/1ReLUConv 172×1×1/1ReLUConv 128×1×1/158661212331143241232413143241231 243141 32241223341 3214423 14 2343412123414 32 4123 14 234341 11 11 11 11 11 11 11 11 11 12 22 23 33 34 44 42 22 24 44 42 22 23 33 34 44 43 33 32 22 24 44 42 22 23 33 33 33 34 44 41 11 11 11 11 11 12 22 23 33 32 22 24 44 43 33 34 44 42 22 23 33 34 44 44 444 443 33 3434344332 22 22 22 232323222 21 11 11 11 11 11 111r（11列拆分111111（一）11112···（一）11 1卢恩（一）22r（22列拆分22221（二）2222···（二）（二）列拆分3 33 31（三）33332···3r（333（三）（三）列拆分44444 44 4···4r（444中国1中国2中国n43221J|˜˜JK······{z，c，c}brJBp.c㈠|C（i）n=Yp。y（i）|C（i）RJK2i=1每排有64个通道，其中y（i）是在ro wi，m处的列j中的系数k12nJ1SSSΣj−1˜2222空深比单行拆分11（h，w，64）4444图4.我们的并行上下文建模方法的矩阵表示。实线箭头表示数据操作，虚线箭头表示条件关系。浅灰色和浅蓝色虚线箭头与图中的外通道和内通道对齐5所示。表示，Y′=r（1）Sr（2）Sr（3）Sr（4）），其中每个Laplace参数由C（i）导出，根据以所有先前解码的行为条件对行进行建模因此，条件分布py|z，cb，cr（yz，c b，cr）可以计算为：py|z，c，c（y|（zb，c b，cr）（一）（四）秒三点五MJjj jk jk=11（五）（一）=py|z，cb，cr（r4，r，r得双曲余切值.|（zb，cb，cr）BR.（一）（i）jk+2（三）Y.ΣPYJK |CJ=Lap lac e（y′|µy（i），by（i））d y′=pr（i）|r（i−1），···，r（1），z，c，cy（i）−1jk jk冗余因此，每一行都被进一步分区，一般利用这种信道相关性，即，r（i）=c（i）c（i）···c（i），其中n是在r owi处的拆分列的数量。设R（i）=r（i−1），···，r（1），z，c b，cr表示r（i）的上下文和先验（具体地，R（1）=），我们可以进一步因式分解Eq。（3）基于列j中的系数的数目，i=1，2，3，4，j=1，2，，n，并且k=1，2，.，m，j。根据SEC中的重排。 3.2，64在我们的矩阵上下文模型中，每行的信道表示不同的频率，其中较高的频率被更积极地量化并且包含较少的信息。因此，我们颠倒每行中的通道顺序，p.r（i）|R（i）=Yp.c㈠|c㈠，···，c（i），R（i）（四）表示r（i）中的最高频率的AC系数）。此外，我们还设计了柱j=1jj−11平衡这种信息不对称。具体其中c（i）是ro wi处的列j，n是列数cally，我们设列数n=9，在行Ji，且i=1，2，3，4。每列（c（i），j=1，2，···，9）被设置为28，8，7，6，5，设C（i）=，c（i），···，c（i），R（i），表示矩阵的最小值121234341212343444441223333344n1J 是公式化矩阵Xt（即，e. c㈠在图4中，333358673.5. 多层次交叉通道熵模型4、3、2和1。并且在ro wi处的列j的先验（具体地，y，C（i）=. R（i）1）和列中的系数有条件地一个名为多层交叉的深度神经网络独立性和参数估计的单Laplace模型，因此，我们可以进一步分解Eq。（4）基于Eq.（五）、通道（MLCC）旨在实现我们的矩阵控制，文本熵模型来估计拉普拉斯参数（位置5868- -4××˜、j−1通过内部通道模型进行解码，它们将被整合-用h′和所有预解码的rw表示，然后ΣΣParamConvC1×3×3/1ReLUConv C2×3×3/1ReLUConv C3×3×3/1BR1内通道r（4）图5.详细的数据流应用多级交叉通道（MLCC）模型。设n，m分别代表输入张量和下一个待建模切片的通道数，C1，C2和C3由C1=nd，C2=n2d，C3= 2m，d=（n2m）//3决定. 蓝线和绿线分别表示编码和解码的数据流，橙色线是共享的。（b）在Eq.其中，我们将矩阵上下文模型解释为跨通道自回归模型：沿行的自回归被视为外通道（图5中的顶部）。 5）生成每个r_o_w的先验（即， p ri（i）inFig. 5），沿着每行中的列的自回归被建模为内部通道（图5中的左5）为每列生成MLCC利用矩阵上下文和超（第2节）3.3）学习更强大的PMF，以获得最丰富的Y分量。如图5所示，我们首先采用空间到深度的方法将hypery重新排列为h′作为外通道的先验（h′具有644个通道，1个空间大小为hyper y）。同时，Y分量通过空间到深度重新成形，然后分成4行（第3.4），第一行r（1）被预测为con-r（1）。只在h上写。然而，不像[30]，我们的方法将为当前ro wr（i）生成先验pri（i）而不是熵参数。接下来，当前行及其自己的p ri（i）被发送到内部通道。在内部通道模型中，行被划分为n列（在我们的方法中，我们将n设置为9然后第一列是com-使用单个拉普拉斯熵模型，再次由外通道模型处理以生成针对n个xtr_w_r（i+1）的先验p_r_i（i +1）。重复此操作，直到Y分量中的所有行都已编码或解码。使用这种MLCC模型，由于条件关系，解码将比编码慢。在解码阶段，这些列和行必须被顺序解码然而，同一列中的所有系数都可以并行处理，确保整体顺序复杂度是恒定的（与输入图像大小无关），即4n（我们假设列数n=9）。这保证了我们的方法可以用于高分辨率JPEG图像的再压缩。3.6.损失函数期望的码长算术编码[45]可以实现，使用我们学习的分布作为其概率模型，由交叉熵给出：R= Ez<$$>p<$z<$$>[−lo g2pz<$ （ z<$） ]+ Ecr<$p<$cr|z−log2pcr|z（cr|z）和规模条件只对pri（i），而entrop y+E剩余列的模型（例如，（一）有条件的cbpcb|z，cr−lo g2pcb|zh，cr（c|z，c）j+Eyp-lo g2py|z，c，c（y|（zb，c b，cr）以及先前列中的所有解码系数y|zh，cb，crb R（六）r（i列拆分c㈠1c㈠c㈠Concat2...n1Concatc㈠n第一AEAEAEADc㈠ADc㈠2...c㈠n1AD1c㈠nr（i内通道级联ParamParamParam5869Y空间到深度你们行拆分r（1Concatr（2...r（3 Concatr（4空间-至深度H'中r（1中文r（2）.r（3中文你们Y外通道像素-随机播级联内通道内通道熵模型估计我们的模型经过训练，以最小化交叉熵，从而最小化位长度。（例如，c（i），···，c（i））. 在当前行中的所有列其中p是DCT系数的真实分布，p是es。超YParamParamParam5870×4. 实验4.1. 设置数据集。训练数据集包括从ImageNet [14]验证集中选择的最大的8000张图像，其中每张图像包含超过一百万个像素。类似于[8，9，19]，每个图像都受到均匀噪声的干扰并被下采样。我们评估我们的模型在四个数据集上：Kodak[26]数据集（包含24张图像）、从DIV2K[4]中选择的100张图像、CLIC[3]专业测试数据集（包含250张图像）和CLIC移动数据集（包含178张图像）。由于我们的方法完全在DCT域处理图像，在输入模型之前，我们使用torchjpeg.codec. quantizatquality[2]来提取具有给定JPEG质量级别的量化DCT系数，这保证了结果与使用从图像库（如Pillow）生成的JPEG图像相同如果没有指定，我们将训练数据集的质量级别固定为75实作详细数据。培训期间从训练数据中随机裁剪像素块，然后提取量化的DCT系数。我们的模型在PyTorch中实现[33]，我们采用Adam op-蒂米泽河批量大小为16，学习率为1 0−4。为了稳定性和训练，我们应用梯度裁剪2000个纪元的模型。所有的速度测试结果都是在单个Nvidia GeForce GTX 1060 6 GB（GPU）上获得的，用于学习方法，英特尔（R）至强（R）CPU E5-2620v4@2.10GHz（CPU）用于非学习方法。4.2. 性能有代表性的学习无损图像压缩方法设计的PNG图像，包括IDF [20]和多尺度模型[48]。这些方法都是针对RGB4：4：4格式设计的，因此我们通过对Cb和Cr分量进行上采样，将JPEG 4：2：0输入数据转换为RGB 4：4：4格式。这种上采样操作提高了分辨率，并可能导致不公平的比较。因此，我们还进行了实验，JPEG 4：4：4源格式，并将其转换为RGB 4：4：4作为模型输入。通过对这些模型稍加修改，这些方法也可以直接处理JPEG4：2：0格式，我们在附录中给出了这类实验的结果。如Tab.所示。2、无论是JPEG 4：2：0还是JPEG 4：4：4格式，我们的模型都大大优于IDF和多尺度模型。此外，我们评估了我们的模型，L3C [28]，IDF [20]和多尺度的神经[48]在图。7，这表明我们的模型更快。BPP（柯达）3.53.02.52.01.51.00.5与其他JPEG压缩方法的性能比较。我们将所提出的模型与其他最先进的JPEG补偿方法进行比较，在第二节中提到的四个测试数据集上进行。4.1.我们采用具有9个非均匀通道切片的最佳模型，其中通道的数量被分割为[28，8，7，6，5，4，3，2，1]。如Tab.所示1，当质量等级设置为75时，我们的方法在所有评估数据集上都达到了最低的比特率，并获得了约30%的压缩节省。我们的方法比CMIX快得多，但比JPEG XL和Lepton慢。然而，值得注意的是，我们的算术编码器的实现是幼稚的，我们的模型还没有优化，以达到最快的速度。35 45 55 65 75 85 95质量（QP）图6.重新压缩不同质量级别（QP）的JPEG图像时柯达数据集上的每像素位数（BPP）比较在QP 95中，我们使用QP 95训练的模型。在其他方面，我们使用QP 75训练的模型。2.52.01.51.00.5在不同质量水平上的表现。我们测试我们的模型在柯达与7个不同的JPEG质量水平（即。0.0我们的L3C多尺度IDF质量=35，45，55，65，75，85，95）。结果是预-在Fig.六、它表明我们的方法仍然优于-这表明我们为质量=75训练的模型可以很好地推广到不同的质量水平，除了像95这样的非常高的质量。更详细的结果在附录中给出。与其他学习的无损压缩方法的性能比较。我们将我们的方法与rep-图7.花费在神经网络上的时间与代表性的学习无损压缩方法相比。这些模型在柯达上以JPEG 4：4：4和QP 75进行评估。4.3. 消融研究我们在Kodak上测试了一系列质量级别为75的模型，以研究交叉色熵模型的效果JPEGLeptonJPEG XLCMIX我们每像素位数编码解码时间5871˜˜˜˜˜˜˜˜˜BPP和节省（%）时间（s）方法柯达DIV2KCLIC.mobileCLIC.pro编码解码[44]第四十四话1.3691.2851.0990.922--轻子[21]1.102（19.50%）1.017（20.86%）0.863（21.47%）0.701（23. 百分之九十七）0.2390.127JPEG XL [6，7]1.173（16.70%）1.072（16.58%）0.908（17.38%）0.744（19.30%）0.1790.125CMIX [1]1.054（23.01%）0.931（27.55%）0.804（26.84%）0.648（29.72%）152.9154.5我们0.965（29.51%）0.892（30.58%）0.772（29.75%）0.624（32.32%）1.1311.023表1.不同数据集的性能比较编码和解码时间在Kodak上用QP 75进行了源格式方法输入格式BPP多尺度[48]RGB 4：4：44.398JPEG 4：2：0以色列国防军[20]我们RGB 4：4：4DCT 4：2：06.9640.965多尺度[48]RGB 4：4：44.604JPEG 4：4：4以色列国防军[20]我们RGB 4：4：4DCT 4：4：47.0591.122表2.与学习的无损压缩方法的性能比较。方法参数BPP储蓄我们32.3M0.96529.51%跨色案例136.9M0.98328.20%跨色案例231.5M0.97328.93%跨色案例388.0M0.96829.29%仅外通道22.5M1.02724.98%仅内部通道9.1M1.01226.08%列到行13.0M0.988百分之二十七点八三均匀8片30.0M0.98627.98%非均匀8层31.5M0.96629.44%表3.消融研究。多级跨通道熵增强模型和非均匀通道切片。交叉色熵模型的有效性。为了验证我们的交叉颜色熵模型的有效性，我们比较了三个模型。交叉颜色情况1：Y、Cb和Cr分量完全独立于彼此建模，即存在三个辅助信息zY、zCb、zCr，且Y（具有MLCC）、Cb及Cr分量分别取决于zY、zCb、zCr。交叉颜色情况2：超先验z由Y、Cb和Cr分量共享，并且这三个颜色分量以共享的z为条件，除了Y分量的熵模型由MLCC增强之外。这里，z提供隐式交叉颜色相关性，而不使用显式建模。交叉颜色情况3：三个颜色分量彼此完全独立地被建模我们在附录中给出了详细的架构。作为5872如Tab所示3、情况1和情况2的比特节省率低于我们提出的模型，而情况2优于情况1，表明隐式和显式交叉颜色相关建模都有助于比特节省。虽然在情况3中网络容量和参数数最大，但其性能仍略差于我们的模型，证明了我们的交叉色熵模型的有效性。MLCC模型的有效性。为了验证MLCC的有效性，我们用三种不同的模型替换MLCC，而保持模型的其他部分不变。只有外部通道丢弃MLCC中的内部通道模块，这意味着没有列拆分操作。只有内通道没有空间到深度和行分割操作，其在MLCC中只有内通道模块。列到行是我们的行到列MLCC的变体，其采用先列分裂然后行分裂。关于这些模型的细节在附录中给出。显示在选项卡中。3、以上三种MLCC的替换都恶化了压缩节省，验证了MLCC的有效性。非均匀切片的有效性。我们比较了两种模型，以验证MLCC中的非均匀列切片是更有效的JPEG再压缩。统一的8个切片将行均匀地分成8列，而非统一的8个切片将行分别分成大小为[36，7，6，5，4，3，2，1]的8列。如表中所示3、非均匀8层模型与均匀8层模型列数相同，但压缩比约为1。高出5%。5. 结论本文提出了一种新的多级交叉通道熵模型，用于现有JPEG图像的无损重压缩，在Ko- dak、DIV 2K、CLIC.mobile和CLIC.pro上达到了最先进的性能，并具有合理的运行速度。我们还表明，使用质量级别75训练的方法可以很好地推广到其他质量级别，除了非常高的质量，如95。据我们所知，这是第一个学习的方法，目标是无损再压缩的JPEG图像。对于未来的工作，我们将探索非常高的质量水平的普遍性5873引用[1] Cmix。https://www.byronknoll.com/cmix的网站。HTML. 一、二、八[2] torchjpeg.codec. https://queuecumber.gitlab 的网站。io/torchjpeg/api/torchjpeg.codec.html。7[3] 学习图像压缩的工作坊和挑战。https://www.compression.cc/challenge/网站。7[4] Eirikur Agustsson和Radu Timofte。Ntire 2017单图像超分辨率挑战：数据集和研究。在IEEE计算机视觉和模式识别研讨会会议上，第126-135页7[5] Nasir Ahmed，T Natarajan，and Kamisetty R Rao.离散余弦变换。IEEE Transactions on Computers，100（1）：90-93，1974. 1[6] Jyrki Alakuijala 、 Sami Boukortt 、 Touradj Ebrahimi 、Evgenii Kliuchnikov 、 Jon Sneyers 、 Evgeniy Upenik 、Lode Vande-venne、Luca Versari和Jan Wassenberg。jpegxl图像压缩基准测试。在Optics，Photonics and Digi- talTechnologies for Imaging Applications VI 中，第 11353卷，第113530 X页。国际光学与光子学会，2020年。一、二、八[7] Jyrki Alakuijala，Ruud van Asseldonk，Sami Boukortt，Martin Bruse，Iulia-Maria Coms， a，Moritz Firsching，Thomas Fischbacher ， Evgenii Kliuchnikov ， SebastianGomez ， Robert Obryk ， et al. Jpeg xl next-generationimage compression architecture and coding tools.在数字图像处理的应用XLII中，第11137卷，第111370K页。国际光学与光子学学会，2019年。一、二、八[8] JohannesBall e' ， ValeroLaparra ， andEeroPSimoncelli. 端到端优化的图像压缩。在Int. Conf. 关于学习-ing表示，2017年。一、二、七[9] JohannesBalle´ ， DavidMinnen ， SaurabhSingh ，SungJinHwang，and Nick Johnston.变分图像压缩与尺度超先验。在2018年国际学习代表会议上。一、二、四、七[10] FabriceBellardBpg 图像格式。 https ： //bellard.org/bpg。1[11] 曹胜，吴朝元，菲利普. 通过超分辨率实现无损图像压缩。arXiv预印本arXiv：2004.02872，2020。三、四[12] 陈彤、刘豪杰、马占、沈秋、曹勋、王尧。通过非局部注意力优化和改进的上下文模型进行端到端学习图像压缩。IEEE Transactions on Image Processing，30：31792[13] 郑学成、孙鹤鸣、Masaru Takeuchi和Jiro Katto。学习使用离散高斯混合似然和注意力模块进行图像压缩IEEE/CVF计算机视觉和模式识别会议（CVPR），2020年6月。2[14] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。2009年IEEE计算机视觉和模式识别会议，第248-

下载后可阅读完整内容，剩余1页未读，立即下载