ELIC：基于非均匀分组空间信道的自适应学习图像压缩模型设计与优化

84 浏览量更新于2023-10-25 收藏 3.32MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

5718ELIC：基于非均匀分组空间信道上下文自适应编码的何黛兰1*，杨子明1*，彭伟坤1，马锐1，秦宏伟1，王艳12†商汤科技1、清华大学2{贺代兰，杨子明，彭伟坤，丸井，秦宏伟，王燕1} @sensetime.comwangyan@air.tsinghua.edu.cn摘要最近，学习的图像压缩技术已经取得了显着的性能，甚至超过了最好的手动设计有损图像编码器。它们有望被大规模采用。从实用性的角度出发，从压缩性能和运行速度两个方面对学习图像压缩的体系结构设计进行深入的研究是必要的。在这篇文章中，我们首先提出了不均匀的通道条件自适应编码，在学习图像压缩的能量压缩的观察动机。将提出的非均匀分组模型与现有的上下文模型相结合，得到了一种空间通道上下文自适应模型，在不影响运行速度的情况下提高了编码性能。然后，我们研究了主变换的结构，并提出了一个有效的模型，ELIC，以实现最先进的速度和压缩能力。该模型不仅具有良好的性能，而且还支持极快的预览解码和渐进解码，这使得基于学习的图像压缩应用前景更加广阔。1. 介绍在过去的几年中，基于深度学习的有损图像压缩发展迅速[4，5，15，20，22，24，29，39，40，49，50]。它们在提高率失真性能方面取得了显着进展，通常MS-SSIM [47]比JPEG [26]和BPG [8]等传统图像格式要好得多，这表明主观质量更好。一些最近的作品[18-这些结果是-*同等贡献。†通讯作者。这项工作是在杨子明、彭伟坤和马锐在商汤科技研究院实习时完成的图1.柯达上的速率-速度比较。左边的更好。如所学习的，图像压缩已被证明是下一代图像压缩技术的强有力的候选者。在不久的将来，很有可能在工业应用中部署这一系列图像压缩模型。然而，为了使这些方法实用，我们必须仔细评估运行速度，特别是学习图像压缩的解码速度。学习图像压缩中最重要的技术之一是联合后向和前向自适应熵建模[15，20，22，29，39，40，48它通过引入额外的潜在变量作为先验，有助于将编码符号的边缘概率模型转换为联合模型[5，39，40]，从而减少冗余和降低比特率。然而，沿空间维的后向自适应模型显著地破坏了并行性，这不可避免地减慢了解码。为了解决这个问题，Heet al. [24]提出采用棋盘卷积作为串行自回归上下文模型的并行替代Minnen等人[40]提出采用沿着信道维度的上下文模型而不是串行解码的空间模型，这也改善了并行性。然而，为了利用该信道条件模型实现非平凡比特节省，符号被划分为5719−ΣΣ·⌈·⌋⌈⌋<我<我10组并逐步编码，这仍然减慢了整体推断。将这两种模型结合起来研究并行的多维上下文自适应编码，以获得更好的编码能力是有希望的[24]，这是我们工作的动机之一。在本文中，我们研究了一个不均匀的分组方案，以加快信道条件的方法，并进一步将其与一个并行的空间上下文模型，以提高RD性能，同时保持快速的运行速度。越来越复杂的变换网络也减慢了推理速度。由于传统的图像压缩是一种非线性变换编码[3，21]，因此提高编码性能的另一个途径是主变换的发展。先前的作品将更大的网络[15，20，22，32]，注意力模块[15，22，33，35]或可逆结构[37，50]引入到主要分析和合成网络中。这些笨重的结构显著地改善了RD性能，但损害了速度。我们注意到，使用相对强大和快速的自适应熵估计（即，上面提到的具有超先验和上下文模型的自适应编码方法），我们可以重新平衡主变换和熵估计之间的计算，以获得低等待时间压缩模型。这进一步推动了上下文建模技术的发展。学习图像压缩技术日趋成熟并得到广泛应用，但其效率不足仍然是一个关键问题。在本文中，我们从以下角度对该领域做出贡献：• 我们引入信息压缩性质作为一种归纳偏差，以促进昂贵的信道条件后向自适应熵模型。将其与空间上下文模型相结合，提出了一种多维熵估计模型--空间信道上下文模型（SCCTX），该模型能够快速有效地降低比特率。• 在SCCTX模型的基础上，进一步提出了ELIC模型.该模型采用堆叠的残差块作为非线性变换，而不是GDN层[4].它超越了VVC的PSNR和MS- SSIM，实现了最先进的性能方面，ING编码性能和运行速度（图1和表2）。• 我们提出了一种有效的方法来生成预览图像的压缩表示。据我们所知，这是第一个文献解决学习图像压缩的非常快速的预览问题2. 相关作品2.1. 学习有损图像压缩（RDO）方法。给定输入图像x和一对神经分析器ga和神经合成器gs，该基于学习的RDO被公式化为：L=R（y）+λD（x，gs（y））（1）其中，y=ga（x）表示要保存的离散编码符号，并且是量化运算符。利用速率控制超参数λ来平衡估计的比特率R和图像重建失真D，我们可以训练一组神经网络g a、g s以获得各种图像编码/解码模型对，从而产生速率-失真曲线。Balle等[4]提出采用均匀噪声估计器和参数熵模型来逼近概率质量函数Py_（？）特鲁皮E[logpy（y）]可以作为等式中的R（y）项进行监督1以可微的方式与基于梯度的优化.后来，熵模型被进一步扩展为条件高斯形式[5，39]：pyˆ|z（y|z）=N（µ，σ2）<$U（−0. 5，0。5）（y）（2）其中熵参数Θ =（μ，〇2）是根据额外计算或存储的先验计算的。Balle等 [5]采用hyperpriorz_（？）利用超分析器Ha从未量化的符号Y计算Za。它可以被看作是边信息引入到神经编码器，作为前向自适应方法。为了无痛地提高编码效率，提出了几种训练，推理和编码时间优化方法[23，52，54]。它们可以在不减慢解码的情况下提高RD性能，并且可以与各种编码架构一起使用。2.2. 后向自适应熵模型后向自适应编码也被引入到学习图像压缩中，包括空间上下文模型[22，24，29，39]和通道条件模型[40]。将当前解码符号与已经解码的符号相关联，这种方法进一步节省比特。空间上下文模型指的是在第i个位置处的每个符号向量y_i的y∈< i={y∈1，. -是的-是的，yi−1}（3）Φsp，i=gsp（y∈103和图9。图1显示了RD-延迟关系各种方法。从图中可以看出，我们的ELIC模型达到了最先进的帕累托最优性能。我们还在图9中绘制了所有经过测试的学习图像压缩方法，这些方法可以在100微秒内解码Ko- dak图像，CLIC-P偶数（10切片）-12.42 73.59+空间[P]-14.11 85.44不均匀-11.5431.88+空间[P]-14.5146.06+空间[S]-15.51>103表明了ELIC的优越性。为了完整性，我们在补充材料中提供了更多的RD曲线和在柯达和其他数据集上测试的结果。2https://github.com/InterDigitalInc/CompressAI/blob/v1.1.8/results/kodak/vtm.json由CompressAI [7]VVC-0.00-表3.不同分组方案的性能。由于CLIC Professional中的图像分辨率各不相同，我们报告了在其最大的2048×1890图像上重复测试的延迟。桨编码器Tot.YEnc。YDec.ZEnc。ZDec.参数ELIC（我们的）[P]-7.8842.4449.1631.1638.331.181.5910.10ELIC-sm（我们的）[P]-1.0722.6427.8012.5517.371.071.419.02[40]第四十话-1.1160.7665.7510.6015.411.361.5448.80[P][24][P]3.8945.4353.0136.8444.200.931.157.66[24]第24届中国国际汽车工业展览会[P]20.0018.8424.5211.6317.321.471.465.74Balle' 2018 [5]-40.8513.0717.2411.9016.141.171.10-高2021 [20][S]-10.94///////Guo2021 [22][S]-7.02190.41>103154.08431.683.671.61>103Xie2021 [50][S]-0.5461.20>10357.96162.181.281.34>103Cheng2020 [15][S]3.3541.42>10336.9947.350.961.12>1032018年[39][S]14.9218.14>10312.7517.341.691.60>103VVC（YUV 444）[2]-0.00-------BPG [8]-27.21-------5725×模型层BD速率延迟PWRB×3PWRB×3表4.不同非线性层的比较，在柯达上评估。标记为LatencyEnc./ Dec.表示主要分析/综合的推断时间。RBn表示n个剩余瓶颈块的堆栈[25]（图7中的右侧）。PWRB是逐点残差块，它去除了3×3卷积。sional.利用所提出的不均匀分组，自适应熵估计的延迟减少了一半。将空间上下文模型引入到偶数和非偶数模型中都获得了RD提升，其中非偶数+空间[P]运行速度仍然比10片偶数分组模型快。残余块与GDN（表4）。在用剩余的瓶颈块替换所有GDN/IGDN层之后，RD性能在Ball e'2018[5]和Min-nen 2018 [39]基线上都有所改善，而推理延迟仍然与GDN版本相当。当堆叠更多RB块作为非线性变换时，BD速率甚至降低更多，这证明了可扩展性。我们还尝试堆叠GDN层，但训练变得非常不稳定，最终失败。由于剩余瓶颈模块具有比GDN更大的感受野，因此我们还评估了它的逐点版本（PWRB）以计算出更大感受野的影响它仍然提高了两个基线上的BD率请注意，具有较大感受野的残差块在没有空间冗余的模型上改善更多（Balle' 2018），这意味着具有较大感受野的非线性变换也有助于消除空间冗余。6.3. 定性结果完全重建。我们提出了高分辨率图像编码的ELIC和以前的方法在档案材料，以显示重建性能。缩略图预览。请参见图10，其中我们展示了从缩略图合成器生成的柯达图像的缩略图预览由于缩略图预览图像是低分辨率的设计，相对较低的反射质量（PSNR = 23。02dB）不会对主观感觉造成损害，因为主要的语义信息仍然存在，伪影被抑制图10.快速解码缩略图预览图像。对于每一对图像，左边的是下采样的地面实况，右边的是相应的缩略图预览。(a)k=1（b）k=2（c）k=3(d)k=4（e）k=5（f）地面实况图11.渐进解码。从前k个组重建每个图像。当k=5时，图像被完全解码。通过图像下采样。thumbnail synthesizer的推理大约需要3微秒，比调用ELIC的全合成器快 12倍以上渐进解码是信道条件模型的扩展应用[40]。最后给出了 ELIC 的渐进译码结果。不同于 Min- nenet al.[40]，在第k步，我们直接填充未解码的通道组块yk（k+1），. -是的-是的，y∈（5）与0，然后将它们馈送到合成器。因此，避免了预测未解码符号的额外参见图11。对于开始的16个通道，结构信息可以已经被重构。以下通道组进一步提供色度和高频信息。由于渐进解码通常被采用用于预览时，我们使用缩略图合成器来快速重建部分解码（k≤4）的图像。7. 讨论和结论与建议的SCCTX和残差变换网络，我们得到了国家的最先进的模型ELIC，更好地平衡压缩能力和运行速度。最后，我们提出训练一个缩略图网络进行预览解码，这也提高了实用性.今后，我们将进一步研究信息压缩现象，以改进体系结构.注意，VVC主要针对YUV 4：2：0色彩空间而不是YUV 4：4：4设计，因为前者更好地反映了人类感知的灵敏度根据现有文献[10，18，38，43]，我们还将深入研究具有客观和主观图像质量的桨编码器号决定2018年秋季GDN8.2312.2717.302018年秋季2018年秋季RB×15.684.5912.4518.1517.5122.842018年秋季Minnen2018Minnen2018Minnen2018RB×3GDNRB×1-2.94-5.04-6.34-11.1423.0012.7512.9018.1027.9117.3417.4422.78明仁2018BPGRB×3--13.560.0023.01-28.21-5726引用[1] 学习图像压缩研讨会与挑战。http://www.compression.cc，2020年。6[2] 多功能视频编码参考软件版本 12.1 （ vtm-12.1）。https：//vcgit.嗨。弗劳恩霍夫。de/jvet/VVCSoftware_VTM/-/tags/VTM-12.1，2021. 1、7[3] JohannesBalle'， PhilipAChou， DavidMinnen，SaurabhSingh，Nick Johnston，Eirikur Agustsson，SungJin Hwang 和 George Toderici。非线性变换编码 IEEEJournal of Selected Topics in Signal Processing ， 15（2）：3392[4] JohannesBall e' ， ValeroLaparra ， andEeroPSimoncelli. 端到端优化的图像压缩。在Int. Conf. 关于学习- ing表示，2017年。一、二[5] JohannesBalle´ ， DavidMinnen ， SaurabhSingh ，SungJinHwang，and Nick Johnston.基于尺度超先验的变分图像压缩。InInt. Conf. on Learning Representations，2018. 一二三五六七八[6] J. 球球。有损图象压缩的有效非线性变换2018年图片编码研讨会（PCS），第248-252页，2018年6月。5[7] JeanBe'gaint，FabienRacape'，SimonFeltman，andAkshayPushparaja.Compressai：一个用于端到端压缩研究的 pytorch 库和评估平台。 arXiv预印本 arXiv ：2011.03029，2020。7[8] FabriceBellardBpg 图像格式。 https ： //bellard.org/bpg，2015. 1、7[9] 吉赛尔·比昂特加德rd曲线之间的平均psnr差异的计算。VCEG-M33，2001年。6[10] 约柴·布劳和托莫·麦克利。重新思考有损压缩：率失真感知权衡。在国际机器学习会议上，第675PMLR，2019年。8[11] 陈彤、刘豪杰、马占、沈秋、曹勋、王尧。通过非局部注意力优化和改进的上下文模型进行端到端学习图像压缩。IEEE Transactions on Image Processing，30：3179-3191，2021。5[12] 陈彤，刘豪杰，沈秋，陶月，曹勋，马占。Deepcoder：基于深度神经网络的视频压缩。在2017年IEEE视觉通信和图像处理（VCIP）中，第1-4页IEEE，2017年。5[13] 郑学成、孙鹤鸣、Masaru Takeuchi和Jiro Katto。基于深度卷积自动编码器的有损图像压缩。2018年图片编码研讨会（PCS），第253-257页。IEEE，2018年。5[14] 郑学成、孙鹤鸣、Masaru Takeuchi和Jiro Katto。图像压缩的深度残差学习。在CVPR研讨会，第0页，2019年。5[15] 郑学成、孙鹤鸣、Masaru Takeuchi和Jiro Katto。学习使用离散高斯混合似然和注意力模块进行图像压缩IEEE/CVF计算机视觉和模式识别会议（CVPR），2020年6月。一、二、三、五、六、七[16] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库在IEEE计算机视觉和模式识别会议上，第248-255页。IEEE，2009年。6[17] Qiang Duan，Xue Li，Qingshan Yin，Luolo Feng，JingZhao，Yijin Teng，Xiaohui Duan，Yanhan Zhao，MingGao ， Jianhua Wang ， et al. A study on the generalizednormalization transformation activation function in deeplearning based image compression.在第六届信息和通信技术国际大会的会议记录中，第351- 359359.施普林格，2022年。5[18] Hilmi E Egilmez，Ankitesh K Singh，Ammed Coban，Marta Karczewicz ， Yinhao Zhu ， Yang Yang ， AmirSaid，and Taco S Cohen.用于子采样颜色空间中基于深度学习的端到端图像/视频编码的变换网络架构。IEEEOpen Journal of Signal Processing，2：441-452，2021。1、8[19] Haisheng Fu，Feng Liang，Jianping Lin，Bing Li，Mo-hammad Akbari，Jie Liang，Guohe Zhang，Dong Liu，Chengjie Tu，and Jingning Han.学习了使用离散化高斯-拉普拉斯-逻辑混合模型和级联残差模块进行图像压缩。arXiv预印本arXiv：2107.06463，2021。1[20] 葛高、裴佑、潘荣、韩顺元、张媛媛、戴玉超、李浩在。通过注意力多尺度反投影和频率分解的神经图像压缩。在IEEE/CVF国际计算机视觉会议集，第14677-14686页，2021年。一、二、五、七[21] V. K.戈亚尔变换编码的理论基础。IEEE信号处理杂志，18（5）：9-21，2001年9月。二、三[22] Zongyu Guo，Zhizheng Zhang，Runsen Feng，and ZhiboChen. 学习图像压缩的因果上下文预测。 IEEETransactionsonCircuitsandSystemsforVideoTechnology，2021。一、二、三、四、五、六、七[23] Zongyu Guo，Zhizheng Zhang，Runsen Feng，and ZhiboChen.先软后硬：重新思考神经图像压缩中的量化。国际机器学习会议，第3920-3929页。PMLR，2021年。2[24] 何黛兰，郑耀燕，孙宝成，王艳，秦宏伟。用于有效学习图像压缩的黑板上下文模型。在IEEE/CVF计算机视觉和模式识别会议论文集，第14771-14780页，2021年。一二三四六七[25] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页，2016中。五、八[26] 国际电联。信息技术.连续色调静止图像的数字压缩和编码.要求和指南。CCITT，建议，1992年。1、7[27] Ogun Kirmemis和A Murat Tekalp。收缩作为激活学习图像压缩。在2020年IEEE国际图像处理会议（ICIP）上，第1301IEEE，2020年。5[28] 伊士曼柯达。柯达无损真彩色图像套件（pho- tocd0992）。http://r0k.us/graphics/kodak，1993年。65727[29] Jooyoung Lee，Seunghyun Cho，and Munchurl Kim.提出了一种改进的熵最小化图像压缩与质量增强的端到端联合学习算法arXiv预印本arXiv：1912.12817，2019。一、二、五、六[30] Chuming Li，Xin Yuan，Chen Lin，Minghao Guo，WeiWu，Junjie Yan，and Wanli Ouyang. Am-lfs：用于损失函数搜索的Automl。在IEEE/CVF国际计算机视觉会议论文集，第8410-8419页，2019年。5[31] Mu Li ， Kode Ma ， Jane You ， David Zhang ， andWangmeng Zuo.用于图像压缩的高效和有效的基于上下文的卷积IEEE Transactions on Image

下载后可阅读完整内容，剩余1页未读，立即下载