没有合适的资源?快使用搜索试试~ 我知道了~
Ground TruthOurs [MSE] (0.354bpp, 28.45)Cheng (0.381bpp, 27.97)VTM 12.0 (0.326bpp, 27.39)146770通过注意力多尺度反投影和频率分解的神经图像压缩0Ge Gao 1 , Pei You 1 , Rong Pan 1 , Shunyuan Han 1 , Yuanyuan Zhang 1 , Yuchao Dai 2 , Hojae Lee 101 中国西安三星研究院,中国西安西北工业大学01 { ge1.gao, pei.you, rong.pan, shuny.han, yuan2.zhang, hojae72.lee } @samsung.com02 daiyuchao@nwpu.edu.cn0摘要0近年来,神经图像压缩成为计算机视觉中一个快速发展的课题,现在的最新方法在压缩性能上表现出优于传统方法的优势。尽管取得了很大的进展,但当前的方法在保留细节方面仍存在局限性,特别是在低压缩率下。我们在解决这个问题上做出了三个贡献。首先,我们开发了一种新颖的反投影方法,具有注意力和多尺度特征融合,以增强表示能力。我们的反投影方法通过在注意力和判别的方式下在高级和低级属性之间建立反馈连接来重新校准当前估计。其次,我们提出将输入图像分解并分别处理不同的频率分量,其导出的潜在表示使用新颖的双重注意力模块重新组合,以便明确操纵感兴趣区域内的细节。第三,我们提出了一种新颖的训练方案来减少潜在舍入残差。实验结果表明,以PSNR为度量,我们的模型在Kodak和CLIC2020专业验证数据集上的BD率分别比最先进的方法降低了9.88%和10.32%,比最新的编码标准Versatile VideoCoding(VVC)分别降低了4.12%和4.32%。当针对MS-SSIM进行优化时,我们的方法还能产生更加视觉上愉悦的图像。对现有方法的显著改进表明了我们的方法在保留和修复空间信息以提高压缩质量方面的有效性。01. 引言0近年来,随着现代设备产生的高分辨率图像数量的大幅增加,对图像压缩的需求急剧增加。基于深度神经网络(DNNs),神经图像压缩以其出色的能力重新激活了这个领域。0图1.不同方法重建的kodim05.png的比较。为了方便可视化,图像被裁剪。请注意,我们的方法在黄色管区域中大部分抑制了倾斜的阴影伪影。0以数据和度量驱动的方式学习,而不是传统的手工制作方法[17]。神经图像压缩通常使用自动编码器来将压缩和重构过程建模为一个统一的任务,并共同优化速率失真权衡。这些方法通过编码器将输入图像映射到更紧凑的潜在中间表示,然后通过解码器将量化的潜在表示逆向转换生成重构图像。许多研究集中于优化网络架构,例如GDN [6],残差块[34,23],RNN [35, 22,36],以减少比特率并减轻质量降低。同时,一些其他工作集中于减少潜在表示的熵,以获得更少的编码比特。在这方面,早期的工作[8,34]将逐元素熵模型合并到每个元素独立编码。后来的进展将分层超先验网络[7]和自回归组件[20,25]引入VAE框架,通过利用先验信息来明确估计潜在表示的熵。目前,最先进的方法的速率失真性能已经超过了统治压缩的方法。146780例如BPG [9]和VVC[33]等编解码器在PSNR和MS-SSIM方面都受到限制。然而,现有方案在从紧凑表示中忠实恢复原始图像方面仍然有限。低压缩率下的重建往往过度平滑并包含不良伪影。自动编码器的一个主要问题是,虽然它擅长提取上下文化的非线性信息以实现有效的去相关,但由于卷积层的下采样本质上是非单射的,会导致高频细节的丢失,因此在保持空间图像细节方面表现不佳。当前实现的另一个局限是输入图像通常以其RGB格式进行压缩,其中易丢失的高频细节与大尺度变化混合在一起。无法区分不同频率特征使得网络更难以保留或推断出细粒度细节以实现最佳重建。在本文中,为了实现低级和高级图像属性之间的相互促进,我们用一种新颖的注意力多尺度反投影(AMBP)模块替换了标准的前向上下采样层。我们的AMBP模块高效地聚合了网络的较高层到较低层的中间特征,一方面允许它获得语义丰富的特征,另一方面可以外推出细粒度的空间细节。同时保留两者的期望属性使得网络在决定应该保留哪些信息以获得更好的速率失真权衡方面具有更大的灵活性。为了提取更丰富的视觉表示,我们利用通道注意力和软注意力机制以加权平均的方式整合输入特征图。此外,我们提出通过频率分解提取和处理输入图像的独特频率分量。通过这种方式,网络可以通过利用携带不同频率特征的各种信息来获得进一步的表示效率。我们的方法采用双分支编码器并行压缩单独的层组件,然后使用新颖的双重注意力模块将它们的派生潜在表示重新组合。此外,为了减少潜在表示的量化残差,我们通过添加潜在表示的舍入损失修改了混合训练方案[26],这迫使网络专注于减少量化误差同时优化最终重建。本文的主要贡献如下:0•一种新颖的反投影方法,能够通过跨阶段的多尺度上下文聚合产生具有丰富细节的上下文化输出。0• 一种有效的方案,将图像分解为不同的频率分量,分别处理它们。0通过双重注意力模块将结果重新组合以产生潜在表示。0• 一种微调策略,用于减少由于将潜在表示舍入而引起的错误,以促进重建。02. 相关工作02.1. 传统图像压缩0传统的压缩标准,如JPEG [37],JPEG2000 [30],BPG[9]和VVC[33],是手工调整的流水线,依赖于手动调优,这需要丰富的专业知识并且非常耗时。这些方案将输入图像转换为压缩系数,对最不相关的位进行量化修剪,并将量化系数熵编码为比特流文件。此外,还开发了一些混合技术[18,16],它们将学习到的图像恢复方法应用于由传统编解码器重建的图像中以去除不良伪影。然而,这种混合方法仍然存在阻塞效应,并且无法通过自动化过程进行联合优化,这阻碍了更复杂架构的发展。02.2. 神经图像压缩0网络架构设计。神经图像压缩在过去几年取得了一些重大突破。自Toderici等人[35]首次尝试利用卷积LSTM进行图像压缩以来,人们在神经图像压缩中引入了定制模块,取得了相当大的改进。Ball´e等人[6]提出了一种非线性归一化技术,称为广义除法归一化(GDN),它在去相关自然图像数据方面具有令人印象深刻的能力。Zhang等人[42]利用残差连接的表达能力,提出了一种非局部注意力块,以捕捉潜在元素之间的全局依赖关系。一些工作[39,22]采用循环结构来消除神经图像部分之间的空间冗余,其中每个先前部分作为当前部分的参考。最近的努力[4,31,32,24,27,29,28]在缩小人类感知偏好与主导失真度量之间的巨大差距方面也取得了显著进展,有助于网络重构更具感知性的图像。量化。提取的潜在通常通过量化离散化以支持无损熵编码。许多研究采用加性均匀噪声[8]来模拟量化效果,而其他研究则采用直通梯度传播恒等函数的梯度或开发软量化技术[2,23],例如可学习聚类z^Qy^AMBPAMBPAMBPAMBPp( | )y^ z^AMBPAMBPAMBPAMBPxbxdylfyhfy↓↓↓↓↓↓↓↓RRbRRSRRaAMBPYtHt+1C↓C↑C↑↑HtH^tetYt+1et+1H^t+1RRbRRSRRaAMBPC↓C↑↓↓C146790双重注意力0编码器0超先验0注意力0注意力0分解0解码器0注意力0注意力0编码器0Figure 2.提出方法的网络架构。Q表示量化操作。ˆy和ˆz分别表示量化的潜在和量化的辅助信息。注意力融合块Ra中的黑色和红色箭头分别表示由通道注意力模块S学习的注意力权重W和(1-W),�表示逐元素乘法。C↑和C↓分别表示通过步进卷积和亚像素卷积(激活=LeakyReLU,核大小=3x3)实现的下采样和上采样。R表示由两个3x3、ReLU激活的卷积层和跳跃连接组成的残差块。0并且最近邻分配,以减少舍入残差。同时,如何正确预测量化残差是一个积极研究的课题。例如,Dumas等人[12]提出了一个模型,为潜在特征图的每个特征图优化量化步长,而Minnen等人[26]则将潜在舍入残差与超先验和已解码的潜在切片相关联,以实现更准确的预测。0熵模型。熵编码占用更多比特来编码出现概率较小的元素。许多工作集中于获得潜在表示的更准确的熵估计。Toderci等人的开创性工作[35]和Ball´e等人的工作[8]开发了一个完全分解的熵模型,用于预测潜在的概率分布,并使用算术编码独立地对每个元素进行编码。Ball´e等人在这个设计上进行了扩展,引入了超先验来有效地学习潜在码的像素级依赖关系,其中分布用标准差为 σ的各向同性高斯来近似。类似于Lee等人[20],Minnen等人[25]通过估计学习潜在分布的均值和标准差,并结合自回归上下文模型,明确地将每个元素条件化为先前解码的元素,进一步减少相邻像素之间的空间冗余。后续研究[10,21]通过使用更复杂的分布和其他类型的相关性来增强上下文模型。0然而,大多数现有的神经图像压缩方法未能努力保留低频和高频特征0层特征的计算向前传递或考虑频率纠缠问题,这将在第3.3节进一步讨论。03. 方法03.1. 总体框架0问题形式化。神经图像压缩的目标是在特定速率约束下实现恢复图像的最小失真。给定输入图像 x,编码器 E消除其中的空间冗余并生成潜在中间码y。然后使用量化函数 Q 对潜在码 y 进行量化,得到离散码ˆ y,从中生成重建图像 ˆ x。完整的过程可以形式化为:0y = E ( x ; φ )0ˆ x = D (ˆ y ; θ ) , (1)0其中 φ 和 θ 表示编码器 E 和解码器 D的可训练参数。速率项 R 表示编码 ˆ y所需的比特数,为了更准确地估计潜在码的熵,我们使用熵模型 P (ˆ y ) 对其真实分布 p ˆ y进行参数化,该熵模型使用高斯混合似然和自回归上下文模型。在这里,R 可以被形式化为 p ˆ y 和 P (ˆ y )的交叉熵,当两个分布匹配时,交叉熵最小:0R = E ˆ y � p ˆ y [ − log P (ˆ y )] . (2)initial LR mapHtup-pledowmple Rbre-sampled LR mapYtupdated LR mapH^tinitial HR mapHt+1re-sampled HR mapYt+1updated HR mapH^t+1upple Ra(4)146800压缩和量化会引起失真 d ( x, ˆ x),通常用PSNR或MS-SSIM来衡量。将 E、D和 P (ˆ y )形式化为神经网络,可以通过最小化速率失真权衡 L来共同优化它们:L = λ ∙ d ( x, ˆ x ) + R,(3)0其中 λ控制着权衡。网络架构。如图2所示,我们设计的编码器部分包括一个分解模块、一个双分支编码器和一个双注意力模块。我们提出使用双分支编码器分别提取输入图像的低频和高频层组件,并对它们进行分别压缩。两个相同的分支包括四个AMBP ↓模块,负责在其中的两个空间注意力块[10]之间进行下采样。我们采用了[13]中的稠密连接,即当前的AMBP模块处理所有先前模块的连接输出。频率层的下采样潜在码然后被重新缩放和组合,通过双注意力模块形成完整的潜在表示y。我们网络的超先验模型和上下文模型与[10]中的设计相同。单分支解码器是编码器分支的镜像反射,由四个AMBP↑模块进行上采样,并在其中的两个空间注意力块之间。解码器将量化的潜在码 ˆ y 上采样以生成重建图像 ˆ x。03.2.注意力多尺度反投影0反投影首先在DBPN[13]中提出,用于图像超分辨率。反投影技术迭代地利用反馈残差来改善高分辨率(HR)图像,基于这样的假设:投影的、下采样的超分辨率图像应尽可能接近原始的低分辨率(LR)图像。我们采用并扩展了这一技术来解决图像压缩问题,并构建了我们的构建模块AMBP。具体而言,我们用AMBP↓和AMBP↑分别替换标准的卷积和反卷积(或子像素卷积)层。自动编码器的卷积层在重复下采样操作后,将精细的空间细节换成了丰富的语义信息,使得它在忠实图像重建方面不太可靠。为了解决这个问题,AMBP以可训练的方式在各个阶段聚合多尺度特征。也就是说,当前阶段的特征通过后续计算中的互补信息(空间精确或上下文丰富)进行整合。反过来,精细化的特征图在下一个阶段产生更高质量的特征,从而实现了在整个计算过程中逐步改进中间特征。多样化的上下文也增强了0具有更大灵活性的网络,可以选择保留的重要信息部分。0C↑0C↓0C↑0图3.使用从解码器中采样的特征图进行反投影过程的示意图,用于重建kodim21.png。更新的HR图ˆHt+1比初始的HR图Ht+1具有更好的定义细节。这里,C↑和C↓分别表示下采样和上采样。0以上采样为例(图3),我们的AMBP↑模块通过应用反向映射来改善从Ht上采样得到的HR图Ht+1的分辨率。由于密集连接,Ht包含来自前面层的多尺度信息。尽管具有相同的分辨率,重新采样的特征图Yt包含了Ht之前不可用的细节。然后,使用融合模块Rb将这些细节集成到Ht中,产生一个更新的LR图ˆHt,再次通过C↑上采样得到重新采样的HR图Yt+1。为了便于尺度内特征融合,我们利用注意力融合模块Ra聚合Ht+1和Yt+1,并将前者更新为包含更精细细节的ˆHt+1。该过程可以写成:0Yt = C↓(Ht+1) = C↓(C↑(Ht)) ˆHt =Rb(Ht, Yt)0Yt+1 = C↑(ˆHt) ˆHt+1 =Ra(Ht+1, Yt+1).0具体而言,特征融合基于残差计算,而不是加法或连接。如图2所示,残差融合模块Rb根据它们的残差et = Ht -Yt自适应地聚合Ht和Yt。直观地,et表示一个源中独特的信息,而在另一个源中缺失。我们进一步为(Ht+1,Yt+1)对引入了注意力融合模块Ra。与Rb中的残差块R一样,我们通过通道注意力[15]来增强Ra的建模能力,而不是使用残差块R处理残差。与[11]类似,我们使用软融合方案自适应地聚合et+1携带的信息,通过重新加权W来重新加权各个输入。Rb(Ht, Yt) = R(Yt + R(et))where R denotes residual blocks, W denotes the attentionmap, S denotes channel attention, and ⊗ denotes element-wise multiplication.The benefits of our proposed AMBP module are three-fold.First, it further optimizes the original feature mapHt+1 and facilitates both in-scale and cross-scale featurefusion without necessarily relying on iterations. Second,the proposed soft content selection scheme enables moreadaptive feature fusion by implicitly balancing the weighingof the source inputs before aggregation. Third, the featurefusion based on residuals allows the network to focusonly on distinctive information, making the gradient updatebetter guided and more efficient, so incorporating anotherresidual-based fusion operation could further stabilize andaccelerate the training procedure.Average Pool,3x3Average Pool,5x5Average Pool,7x7Conv, LeakyReluConv, SigmoidWc(1 −)WcWs(1 −)Ws146810和(1 -W),其中W是归一化的注意力图。通过这种方式,网络在不明确学习两组权重的情况下,微妙地在两个输入之间执行重要性加权。反投影过程的公式化如下:0Ra(Ht+1, Yt+1) = R(W � Ht+1 + (1 - W) � Yt+1),03.3. 频率分解0频率分解模块。大多数自然图像包含丰富的频率属性,然而这些属性相互交织在一起,因此很难提取。因此,我们认为通过将图像分解为几个具有不同频率属性的层组件,即基础层和细节层[18,40],可以获得更大的适应性。通过操作分解的信号,可以从分别操作层组件并重新组合它们以得到最终结果中获得改进的灵活性。此外,根据奈奎斯特-香农采样定理指出的,由于下采样而丢失的高频分量现在可以由网络明确地操作,从而在细节层传递过程中更好地保留预期区域内的细节。如图4所示,通过使用不同的核大小进行平均池化来获取不同尺度上的低频分量。通过从输入图像x中减去相应的低频分量来获得高频分量。为了产生基础层xb,我们将连接的低频分量传递给一个残差块R。以类似的方式获得包含高频信息的细节层xd。由于原始图像x也包含丰富的信息,因此将其与xb和xd连接起来,然后由双分支编码器分别处理。双分支编码器逐渐下采样0连接0R0连接0x0连接0R0连接0xb0x d0图4.频率分解模块,红色和蓝色箭头分别表示低频和高频分量。R表示残差块。0将各个层的组件分别转换为它们的潜变量表示y lf和y hf。0空间注意力0GAP0GMP0连接0连接0通道注意力0GAP0FC0FC0R0y0y lf0y hf0F0Fs0F c0图5.双重注意力模块。FC表示全连接层。黑色和红色箭头分别表示通过相应的注意力权重W和(1-W)对特征图进行乘法。GAP和GMP分别表示全局平均池化和全局最大池化。R表示残差块。0双重注意力。通过使用双重注意力模块(如图5所示),将潜变量y lf和yhf聚合在一起,以促进沿两个维度的信息共享。将各个频率层的潜变量沿通道维度连接起来,产生特征图F,然后通过残差块进行转换,并传递给通道和空间注意力模块。为了减少计算量,空间注意力模块独立地对F沿通道维度应用全局平均池化和全局最大池化,并将结果连接起来形成特征图Fs∈ RH×W×2,从中提取空间注意力图Ws ∈RH×W×1。使用SE块[15]生成通道注意力特征图Wc ∈R1×1×C。我们还采用了软选择技巧来改进表示。低频潜变量y lf经过Wc和Ws的重新缩放,而高频潜变量y hf经过(1 -Wc)和(1 -Ws)的重新缩放。然后将重新加权的潜变量相加,得到最终的潜变量表示y。03.4.混合训练方案0根据[26]的工作,我们采用噪声松弛来近似量化,以共同优化网络0.10.20.30..50.60.70.828303234360.10.20.30..50.60.70.8101214161820220.00.10.20.30.50.60.7262830323436380.00.10.20.30.50.60.77.510.012.515.017.520.022.525.0146820bpp0PSNR0我们的[MSE]VVC-intra(VTM 12.0)Cheng [MSE](CVPR20)Lee [MSE](ICLR19) Balle[MSE](ICLR18)BPG(4:4:4)0bpp0MS-SSIM0我们的[MS-SSIM] VVC-intra(VTM12.0) Cheng[MS-SSIM](CVPR20) Lee[MS-SSIM](ICLR19) Balle[MS-SSIM](ICLR18)BPG(4:4:4)0图6.在Kodak数据集上的性能评估。我们的方法在现有的基于学习的方法和VVC-intra [33]方面具有改进的编码性能。0bpp0PSNR0我们的[MSE]VVC-intra(VTM 12.0)Cheng [MSE](CVPR20)Lee [MSE](ICLR19)BPG(4:4:4)0bpp0MS-SSIM0我们的[MS-SSIM] VVC-intra(VTM12.0) Cheng[MS-SSIM](CVPR20) Lee[MS-SSIM](ICLR19)BPG(4:4:4)0图7.在CLIC专业验证数据集[1]上的速率失真性能比较。我们的方法优于现有的基于学习的方法和VVC-intra [33]。0工作,然后使用舍入表示和附加的舍入损失项dr =MSE(y,˜y)对解码器D进行微调,其中˜y表示由解码器端的第一个AMBP↑模块细化的潜在变量。我们注意到,即使没有进一步调整,通过解码原始而不是量化的潜在变量可以显着提高重建质量,因此我们将此约束项纳入损失函数中,该约束项强制网络专注于减少潜在变量舍入残差,同时优化最终重建图像的质量。微调的损失函数Lf为:Lf =d(x,ˆx)+β∙dr,(6)0其中β控制舍入损失项的权重。4.实验结果04.1.实现和训练细节0我们使用来自DIV2K [3],Flickr2K[3]和CLIC训练数据集[1]的大小为256x256的裁剪图像来训练提出的网络,不进行数据增强。权重0为了减少模型复杂性,编码器的两个相同分支的权重是共享的。我们使用Adam算法来共同优化网络,共进行1.5M步,每个小批量大小为4。初始学习率设置为1×10-4,并在最后300k步中每5k步减半。之后,我们对负责重建的子模块(即解码器)进行了为Eq.(6)描述的目标的微调,进行了500k步,其中初始学习率设置为5×10-5,并在每100k步中减半。网络分别针对MSE和MS-SSIM进行优化。当针对MSE进行优化时,λ的值属于集合{0.0015,0.0032,0.004,0.0075,0.015,0.03,0.05},四个低速率网络的通道数设置为128,三个高速率网络的通道数设置为192。当针对MS-SSIM进行优化时,λ的值属于集合{3,4.5,12,32,45,120},其中四个低速率网络的通道数设置为128,两个高速率网络的通道数设置为192。失真d定义为d =1-MS-SSIM(x,ˆx)。系数β对于MSE优化模型和MS-SSIM优化模型分别设置为1和0.01。146830图8.使用不同方法重建的kodim21.png的比较。使用我们针对MS-SSIM进行优化的模型,云的细节得到了很好的保留,并且使用我们针对MSE进行优化的图像达到了与VVC-intra和参考网络[10]相当的视觉质量。04.2.性能比较0我们首先通过在常用的KodakPhotoCD数据集[19]上获取平均速率失真性能(以PSNR和MS-SSIM为指标)来评估我们的网络,该数据集包含24张高质量图像。速率失真(RD)曲线如图6所示,其中速率以每像素比特(bpp)来衡量。请注意,根据以前的工作[10,21],将MS-SSIM转换为分贝,以便更容易区分性能差异。从结果可以看出,我们的模型在所有测量速率上始终优于最先进的基于深度学习的方法和先进的压缩标准VVC-intra(VTM12.0)。我们进一步测量了我们的模型的BD率减少,BD率定义为给定质量度量下两个模型之间的平均比特率节省。关于PSNR,我们的方法在Kodak数据集上相对于当前最先进的模型[10]和VVC-intra分别降低了9.88%和4.12%的BD率。此外,我们还评估了我们的方法在两个高分辨率数据集上的有效性,即CLIC专业验证集[1]和Tecnick数据集[5]。如图7所示,我们的方法在PSNR和MS-SSIM方面的编码性能优于以前的方法和VVC-intra。关于PSNR,我们的模型相对于当前最先进的模型[10]和VVC-intra在CLIC专业验证数据集上分别降低了10.32%和4.32%的BD率。0请参考补充材料,了解有关Tecnick数据集上PSNR的RD曲线比较。我们提出的方法也具有良好的视觉质量。图1和图8显示了通过各种压缩方法对kodim05.png和kodim21.png进行的重建图像。如图1的放大部分所示,我们的方法更好地恢复了颜色和边缘,并且其他方法重建图像中黄色管区域的倾斜、阴影状伪影在我们的方法中被大部分抑制。此外,如图8所示,我们的MS-SSIM优化模型很好地保留了云的纹理,而我们的MSE优化模型的重建质量与VVC-intra和参考图像压缩网络[10]相当。我们还定量评估了我们的MSE优化模型的LPIPS[41],并验证了我们的方法在所有三个测试数据集上都获得了比VVC-intra更好的LPIPS分数。有关LPIPS的RD曲线图和更多重建图像的视觉比较,请参考补充材料。04.3. 复杂度分析0如表1所示,我们的模型的参数数量是参考模型[10]的2.27倍。在相同的硬件配置下,我们的编码时间和解码时间分别约为参考模型的2.57倍和1.64倍。编码器端的延迟增加更大,这是因为在实际中,实际上是依次执行编码器的分支。Ours25.4M104.2443.12Ref [10]11.2M40.5226.281.21%DBPN [13]1.17%DBPN [13]1.98%146840编码器的分支按顺序执行,而不是并行执行。0表1.我们的模型与参考模型[10]在Kodak数据集上进行低比特图像压缩的参数数量、平均编码时间和解码时间。0参数数量 编码时间(秒) 解码时间(秒)04.4. 消融研究0我们进行了消融实验,以分析我们模型的每个组成部分的贡献。我们在Kodak数据集上消融设计选择,并测量了BD率的平均增加。从消融结果可以总结如下:AMBP。如表2所示,在丢弃AMBPs后,模型的性能下降最大。用一组通道注意力权重替换软选择会导致BD率增加1.21%。复杂度分析显示,我们的模型的参数数量比参考模型[10]多得多,因此我们还用3次迭代的DBPN模块[13]替换了AMBPs,以使参数数量可比。我们观察到消融AMBPs ↓和AMBPs ↑后,BD率分别增加了1.17%和1.98%,进一步验证了我们对反投影方法进行的架构修改是有效的。0表2. 通过测量BD率的平均增加来进行AMBPs的消融分析。0AMBPs ↓ AMBPs ↑ 软选择 BD率 ↑0频率分解。表3表明,用原始图像替换基础层xb和细节层xd会使BD率增加2.08%,这验证了分解和分别处理输入图像的不同频率分量对于提高编码效率是有益的。我们进一步消融了频率分解模块的具体设计选择,包括连接原始图像和添加残差块,并根据增加的BD率验证了它们的有效性。为了消融双注意力模块,我们将其替换为四个卷积层的堆叠,并获得了2.37%的BD率增加。舍入损失。我们表明,从完整模型中删除混合训练的舍入损失会导致编码效率下降。排除了我们提出的0表3. 频率分解设计选择的剖析分析.这里,Concat表示将原始图像连接到低频和高频分量上,ResBlock表示分解模块中的残差块R.0基础/细节 连接 残差块 双重注意力 BD-rate ↑0原始图像 � � � 2.08% � � � � 0.09% � � � � 0.15% � � � � 2.37%0微调过程中的舍入损失将BD-rate提高了3.52%.我们通过从原始潜变量中采样具有最大差异的前四个特征图,并绘制像素级绝对误差来可视化舍入损失的效果.如图9所示,添加了舍入损失的精炼特征图比没有添加的特征图偏差小得多.0图9.在微调过程中具有(上行)和不具有(下行)舍入损失的潜变量残差图的可视化(λ = 0.004).引入潜变量舍入损失可以有效减少残差,而不修改网络架构.05. 结论0在本文中,我们提出了一种使用新型AMBP模块和频率分解的神经图像压缩方案.我们将迭代投影操作重新定义为多尺度特征融合模块,并结合软内容选择进行通道注意力.我们还提出了一种新颖的频率分解方法,使网络能够专注于输入图像的不同频率分量,其中它们的派生潜变量通过高效的双重注意力模块进行自适应重新缩放和集成.此外,我们采用了一种新颖的训练方案,利用上采样结果来减少由于舍入潜变量而引起的残差.实验结果表明,我们的方法优于现有的神经压缩框架和下一代压缩标准VVC-intra.0致谢0YuchaoDai部分受到中国国家自然科学基金(61871325)和中国国家重点研发计划(2018AAA0102803)的支持.我们要感谢匿名审稿人和领域主席们提供的有用反馈.https://www.compression.cc/, 2020. 6, 7[21] Jooyoung Lee, Seunghyun Cho, and Munchurl Kim.Anend-to-end joint learning scheme of image compression andquality enhancement with improved entropy minimization.In arXiv preprint arXiv:1912.12817, 2019. 3, 7[23] Fabian Mentzer, Eirikur Agustsson, Michael Tschannen,Radu Timofte, and Luc Van Gool. Conditional probabilitymodels for deep image compression.In Proceedings ofthe IEEE/CVF Conference on Computer Vision and PatternRecognition, pages 4394–4402, 2018. 1, 2[25] David Minnen, Johannes Ball´e, and George Toderici. Jointautoregressive and hierarchical priors for learned imagecompression. In Advances in Neural Information ProcessingSystems, pages 10794–10803, 2018. 1, 3146850参考文献0[1] 学习图像压缩的研讨会和挑战.0[2] Eirikur Agustsson, Fabian Mentzer, Michael Tschannen,Lukas Cavigelli, Radu Timofte, Luca Benini, and Luc VanGool. 用于端到端学习可压缩表示的软到硬向量量化.在神经信息处理系统进展中, 2017. 20[3] Eirikur Agustsson and Radu Timofte. Ntire 2017challenge on single image super-resolution: Dataset andstudy. 在IEEE/CVF计算机视觉和模式识别(CVPR)研讨会上,2017. 60[4] Eirikur Agustsson, Michael Tschannen, Fabian Mentzer,Radu Timofte, and Luc Van Gool.极端学习图像压缩的生成对抗网络.在IEEE/CVF国际计算机视觉会议上, 2019. 20[5] Nicola Asuni and Andrea Giachetti. Testimages:用于测试视觉设备和基本图像处理算法的大规模存档. 在STAG上,2014. 70[6] Johannes Ball´e, Valero Laparra, and Eero P Simoncelli.使用广义归一化变换对图像进行密度建模. 在国际学习表示会议上,2016. 1 , 20[7] Johannes Ball´e, David Minnen, Saurabh Singh, Sung JinHwang, and Nick Johnston. 具有尺度超先验的变分图像压缩.在国际学习表示会议上, 2018. 1 , 30[8] Johannes Ball ´e , Valero Laparra, and Eero Simoncelli.端到端优化的图像压缩。在国际学习表示会议上,2017年。 1 ,2 , 30[9] Fabrice Bellard.Bpg图像格式。https://bellard.org/bpg。2014年。 20[10] Zhengxue Cheng, Heming Sun, Masaru Takeuchi, andJiro Katto.使用离散高斯混合似然和注意模块的学习图像压缩。在IEEE/CVF计算机视觉和模式识别会议论文集中,页7939–7948,2020年。 3 ,4 , 7 , 80[11] Yimian Dai, Fabian Gieseke, Stefan Oehmcke, Yiquan Wu,and Kobus Barnard.注意力特征融合。在IEEE/CVF冬季计算机视觉应用会议论文集中,页3560–3569,2021年。40[12] Thierry Dumas, Aline Roumy, and Christine Guillemot.基于自动编码器的图像压缩:学习是否可以独立于量化?在2018年IEEE国际声学、语音和信号处理会议(ICASSP)中,页1188–1192。IEEE,2018年。 30[13] Muhammad Haris, Gregory Shakhnarovich, andNorimichi Ukita.深度反投影网络用于超分辨率。在IEEE/CVF计算机视觉和模式识别会议论文集中,页1664–1673,2018年。 4 , 80[14] Leonhard Helminger, Abdelaziz Djelouah, Markus Gross,and Christopher Schroers. 带有0归一化流。在arXiv预印本arXiv:2008.10486中,2020年。0[15] Jie Hu, Li Shen, and Gang Sun.挤压和激励网络。在IEEE/CVF计算机视觉和模式识别会议论文集中,页7132–7141,2018年。 4 , 50[16] Yueyu Hu, Haichuan Ma, Dong Liu, and Jiaying Liu.用神经网络的集成学习去除压缩伪影。在2020年IEEE/CVF计算机视觉和模式识别(CVPR)研讨会中,6月。 20[17] Yueyu Hu, Wenhan Yang, Zhan Ma, and Jiaying Liu.学习端到端有损图像压缩:一个基准。IEEE模式分析与机器智能交易,2021年。 10[18] Soo Ye Kim, Jihyong Oh, and Munchurl Kim.深度SR-ITM:联合学习超分辨率和反色调映射用于4K UHDHDR应用。在IEEE/CVF国际计算机视觉会议论文集中,页3116–3125,2019年。 2 , 50[19] Eastman Kodak.Kodak无损真彩色图像套件。http://r0k.us/graphics/kodak。1993年。 70[20] Jooyoung Lee, Seunghyun Cho, and Seung-Kwon Beack.上下文自适应熵模型用于端到端优化的图像压缩。在国际学习表示会议上,2018年。 1 , 30[22] Chaoyi Lin, Jiabao Yao, Fangdong Chen, and Li Wang.用于端到端图像压缩的空间RNN编解码器。在国际计算机视觉和模式识别会议上,2020年。 1 , 20[24] Fabian Mentzer, George Toderici, Michael Ts
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- IPQ4019 QSDK开源代码资源包发布
- 高频组电赛必备:掌握数字频率合成模块要点
- ThinkPHP开发的仿微博系统功能解析
- 掌握Objective-C并发编程:NSOperation与NSOperationQueue精讲
- Navicat160 Premium 安装教程与说明
- SpringBoot+Vue开发的休闲娱乐票务代理平台
- 数据库课程设计:实现与优化方法探讨
- 电赛高频模块攻略:掌握移相网络的关键技术
- PHP简易简历系统教程与源码分享
- Java聊天室程序设计:实现用户互动与服务器监控
- Bootstrap后台管理页面模板(纯前端实现)
- 校园订餐系统项目源码解析:深入Spring框架核心原理
- 探索Spring核心原理的JavaWeb校园管理系统源码
- ios苹果APP从开发到上架的完整流程指南
- 深入理解Spring核心原理与源码解析
- 掌握Python函数与模块使用技巧
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功