13269一种用于端到端图像压缩的空域RNN编码器林超毅,姚家宝,陈方东,王莉海康威视研究院中国杭州{林超义,姚家宝,陈方栋,王丽}@ hikvision.com摘要最近,深度学习已经被探索为图像压缩的一个有前途的方向。去除图像的空间冗余是图像压缩的关键,大多数基于学习的方法都集中在去除相邻像素之间的直观地说,在相邻像素之外探索更大的像素范围有利于去除冗余.在本文中,我们提出了一种快速而有效的方法,通过结合一种新的空间递归神经网络的端到端的图像压缩。基于块的LSTM用于去除相邻像素和块之间的冗余此外,该方法是一个潜在的高效系统,可以在单个块上并行实验结果表明,该模型在PSNR和MS-SSIM指标上均优于传统图像压缩标准和基于学习的图像 压 缩 模 型 它 比 高 效 视 频 编 码 ( HEVC ) 节 省 了26.73%的比特,HEVC是目前官方最先进的视频编解码器。1. 介绍图像压缩是减少通信量和节省数据存储量的重要技术.大多数传统的有损图像压缩标准,如JPEG [25],WebP [4]和更好的便携式图形(BPG)图1.基于块的方法的有效性。在蓝色区域,相邻像素和相邻块的相关性都很大。在红色区域,由于不同块的纹理相似,相邻块之间的相关性大于相邻像素之间的相关性。输入图像。自动编码器中的神经网络近似非线性函数,它可以将像素映射到比传统图像压缩标准使用的线性变换更可压缩的潜在空间。基于学习的图像压缩模型的另一个优点是,通过改变损失函数,它们可以很容易地针对特定度量进行优化,例如SSIM [26]和MS-SSIM [27最近,一些基于学习的图像压缩模型在PSNR满足方面已经超过了最先进的传统图像压缩标准BPG[5]基于变换编码[9]框架。在该框架中,预测变换模块用于将图像像素映射成量化的潜在表示,然后通过熵编码压缩潜在表示。最近,深度神经网络(DNN)在各个领域显示出了巨大的优势。随着深度学习的进展,基于学习的图像压缩模型也引起了人们的极大兴趣[14,8,19,17,3,18,10,1,11]。自动编码器通常应用于图像压缩中,编码器将输入图像转换为潜在表示,解码器将量化的潜在表示逆变换为repeatc。ric [28,13,18,7].这些工作集中在通过CNN去除相邻像素之间的冗余信息。然而,在最新开发的图像/视频压缩标准中,诸如通用视频编码(VVC)[6],基于块的处理是优选的。通过使用基于块的处理,可以通过基于块的预测变换去除相邻像素和块的冗余信息[15]。图1说明了基于块的方法的有效性。在蓝线标记的区域中可以发现相邻像素和块的高相关性。在这种情况下,基于像素的方法和基于块的方法都是有效的。然而,在红色区域中,像素13270啊啊啊基于的方法几乎不能捕获冗余,因为相邻像素的相关性低。采用基于块的方法,可以在相邻块之间找到相似的纹理,从而有效地去除空间冗余。这表明基于块的方法可以进一步提高压缩性能。然而,在基于学习的图像压缩模型中,这方面的研究却很少.受最新压缩标准的启发,我们提出了一种用于有损图像压缩模型的空间RNN架构。空间RNN架构通过基于块的LSTM充分利用相邻块中存在的空间相关性,这可以进一步去除空间冗余信息。此外,在我们的模型中采用了自适应量化,网络将学习根据其内容自动为潜在映射分配比特。同时,在兼顾性能和效率的前提下,采用两个超先验网络代替上下文模型。实验结果表明,该图像压缩模型的性能优于传统压缩标准BPG和其他基于深度学习的图像压缩模型。此外,该方法还具有并行计算的潜力,具有很高的计算效率.2. 相关工作许多标准的编解码器已经被开发用于有损图像压缩。最广泛使用的有损压缩标准是JPEG。更复杂的标准,如WebP和BPG,被开发为比JPEG更便携和更有效的压缩。据我们所知,BPG在现有的有损图像压缩标准中具有最高的压缩性能。近年来,神经网络在图像压缩中的应用引起了广泛的关注.用于图像压缩的神经网络架构通常基于自动编码器框架。在此框架中,开发了基于递归神经网络(RNN)[5,24,28]和卷积神经网络(CNN)[1,17,2,22,10Toderici等人[5]提出了用于可变速率图像压缩框架的RNN架构,该框架以渐进方式压缩32x32图像在[24]中,提出了一种使用RNN、残差缩放和门控回流单元(GRU)的变体来压缩全分辨率图像的通用架构。Weber等人[28]利用基于RNN架构进行图像压缩和分类。与文献[5,24]不同的是,文献[5,24]只关注去除每个块内的冗余信息,我们在基于块的LSTM递归网络中探索了相邻块之间的冗余。熵模型能近似离散潜表征的分布,显著提高了图像因此,最近的方法熵模型在提高压缩性能中的应用越来越受到人们的关注。Balle等[3]建议使用hyperprior来有效地捕获潜在表示中的空间依赖性。他们将潜在表征的分布建模为具有标准差σ的零均值高斯分布。引入尺度超先验,通过在潜在表示上堆叠另一个自动编码器来估计σMinnen等人[18]进一步利用超先验来估计学习的潜在表示的平均值和标准偏差,以帮助从潜在表示中去除空间依赖性。此外,他们的模型中采用了上下文模型,以实现更高的压缩率,这是第一个学习为基础的模型,优于BPG的PSNR度量。Lee等[13]还表示了具有上下文模型和用于超先验熵模型的参数模型的有损图像压缩。在上述工作中,仅使用一个超先验网络来估计熵参数μ和σ。然而,在所提出的模型中,我们发现使用两个联合超先验网络来分别估计熵参数可以进一步提高压缩性能。此外,上下文模型虽然可以提高性能,但在解码过程中耗时因此,上下文模型不包括在所提出的模型,以实现较低的计算复杂度。3. 该方法3.1. 总体框架整体框架如图2所示,其中编码器E、解码器D、量化网络Qz和超先验1 1 2 2网状物E得双曲余切值.、E得双曲余切值.是神经网络。的该方法结合了分析与综合变换、自适应量化和熵模型。分析变换生成原始图像的潜在表示,而合成变换将量化的潜在表示映射回重建图像。首先,分析变换E将一个图像x的块映射到潜在表示z。正是在这个模块中,大多数空间冗余被删除。量化网络Q z自适应地生成量化步长s,然后量化步长s以形成量化的潜在量化步长z=Q(z;s)。为了获得更高的压缩性能,在我们的熵模型中,将潜伏期建模为高斯分布,并使用两个超先验网络分别估计分布的熵参数均值m和方差v编码器然后使用估计的熵参数来压缩和传输量化的潜在表示z。 值得注意的是,量化步长s,量化超先验h_n1和h_n2也作为边信息被发送上解码器侧,首先恢复量化步长s以解码h超先验h_i和h_i2。利用这两种先验估计熵参数,然后对熵参数进行估计。匹配熵参数用于恢复quan,13271编码器b我1AE量化网络QzSX分析变换 zz超级编码器1H1h1超解码器1MH2hvD超编码器22QQQHyper解码器2zh1zh2AEAEAEbibib我342比特流超先验模型熵参数N(m,v)解码器b我1Sb我4ADSADMbi,h1Hyper解码器123AD熵参数N(m,v)xh2Hyper解码器2v合成变换我i−m我我z图2.所提出的方法的网络架构Qz表示量化网络,Q表示量化操作。z表示x的全精度潜在表示,s表示Q的量化步长,z是z/s的整数精度值。AEˆ ˆ和AD分别表示算术编码器和算术解码器。 h1和h2表示的量化潜在表示高斯概率密度模型N,d的平均值m和方差值v表示逐像素减法。齐兹兹河最后,合成变换将潜在映射到有一些子块Xt+1采取先前重建图像xxx。子块χtn(0