细节决定成败：窗口注意力在图像压缩中的应用

113 浏览量更新于2023-10-25 收藏 13.95MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

174920细节决定成败：基于窗口注意力的图像压缩0邹仁杰 1 宋春峰 1 张兆祥 1,2 , �01中国科学院自动化研究所模式识别国家重点实验室（NLPR）和中国科学院大学（UCAS） 2香港智能科学与技术研究所人工智能与机器人中心0{zourenjie2020, chunfeng.song, zhaoxiang.zhang}@ia.ac.cn0摘要0学习型图像压缩方法在速率失真性能上表现优于传统图像压缩标准。大多数现有的学习型图像压缩模型基于卷积神经网络（CNN）。尽管有很大的贡献，基于CNN的模型的一个主要缺点是其结构不适用于捕捉局部冗余，特别是非重复纹理，这严重影响了重建质量。因此，如何充分利用全局结构和局部纹理成为基于学习的图像压缩的核心问题。受到最近视觉变换器（ViT）和Swin变换器的进展的启发，我们发现将局部感知注意机制与全局相关特征学习相结合可以满足图像压缩的期望。在本文中，我们首先广泛研究了多种类型的注意机制对局部特征学习的影响，然后引入了一种更直观但有效的基于窗口的局部注意块。所提出的基于窗口的注意机制非常灵活，可以作为一种即插即用的组件来增强CNN和变换器模型。此外，我们提出了一种新颖的对称变换器（STF）框架，其中包含绝对变换器块在下采样编码器和上采样解码器中。广泛的实验评估表明，所提出的方法是有效的，并且优于现有的最先进方法。代码公开可用于https://github.com/Googolxx/STF。01. 引言0图像压缩是图像处理领域中的一个基础性和长期存在的研究课题。随着视觉应用的不断增加，有损图像压缩是0*通讯作者0原始图像0[0.264bpp/28.96/0.945] [0.255bpp/28.79/0.942]0[0.247bpp/26.60/0.961] [0.232bpp/26.71/0.959] [0.240bpp/26.48/0.958]0[0.261bpp/28.74/0.942]0MSEMS-SSIM0CNN-att (我们的) STF-att (我们的) Minnen2020 (SOTA CNN)0图1. 不同方法的图像重建比较，包括CNN +窗口注意力（CNN-att）、对称变换器 +窗口注意力（STF-att）和先前的SOTACNN模型（MBT）。上方显示了针对MSE进行优化的结果，而下方则针对MS-SSIM进行优化。显然，所提出的基于窗口的注意力对于监督学习都是有效的，特别是在STF模型中，表明所提出的基于窗口的注意力模型可以在高对比度区域内分配更多的比特，并获得更好的视觉质量。指标为[bpp ↓ /PNSR ↑ /MS-SSIM ↑]。0在有限的硬件资源中高效存储图像和视频的重要技术。包括JPEG [44]、JPEG2000 [40]、BPG [8]和VVC[9]在内的经典有损图像压缩标准遵循相似的编码方案：变换、量化和熵编码。然而，这些图像压缩标准严重依赖于手工制定的规则，这意味着它们不被期望成为图像压缩的终极解决方案。174930近年来，基于变分自动编码器（VAE）[24]的学习型图像压缩在信噪比（PSNR）和多尺度结构相似性指数测量（MS-SSIM）[46]等指标上取得了比传统有损图像压缩方法更好的速率失真性能[41]，显示出了实际压缩应用的巨大潜力。在这里，我们将简要介绍VAE-based方法的一般流程[5]。对于编码，VAE-based图像压缩方法使用线性和非线性参数分析变换将图像映射到潜在编码空间。在量化之后，熵估计模块预测潜变量的分布，然后无损的基于上下文的自适应二进制算术编码（CABAC）[30]或范围编码器[31]将潜变量压缩成比特流。同时，超先验[6]、自回归[34]先验和高斯混合模型（GMM）[15]使熵估计模块能够更精确地预测潜变量的分布，并实现更好的速率失真（RD）性能。对于解码，无损的CABAC或范围编码器解压缩比特流，然后通过线性和非线性参数合成变换将解压缩的潜变量映射到重建图像。此外，还有一些工作[21,27,48]设计了后处理网络以获得更好的重建质量。通过组合上述顺序单元，这些模型可以进行端到端的训练。尽管取得了巨大的进展，但上述基于CNN的模型的一个核心问题是原始卷积层设计用于高级全局特征提取，而不是低级局部细节恢复。如图1右侧所示，即使是SOTACNN模型仍受到弱局部细节学习能力的影响，这不可避免地限制了进一步的性能提升。0受到注意机制在自然语言处理（NLP）和计算机视觉任务（如图像分类和语义分割）中的成功启发，许多研究人员将非局部注意机制应用于指导潜在特征的自适应处理，这可以帮助压缩算法将更多的比特分配给具有挑战性的区域（例如边缘、纹理），以获得更好的RD性能。然而，这种非局部注意力仍然没有改变CNN结构的固有全局感知特性。最近的研究[13, 18, 29,42]表明，Transformer[43]可以成功应用于具有与卷积神经网络（CNN）相比具有竞争力甚至更好性能的视觉任务。这些基于注意力的网络，如Vision Transformer[18]和SwinTransformer[29]，利用注意机制的优势来捕捉全局依赖关系。然而，我们直观地发现，在图像压缩中，全局语义信息的效果不如其他计算机视觉任务那样有效。相反，空间相邻元素之间具有更强的相关性。0在上述讨论的基础上，本文探索了0从两个方面解决细节丢失问题，即研究局部感知注意机制和引入一种新颖的基于Transformer的框架。首先，我们全面研究了如何将神经网络与注意机制相结合，设计局部感知的有损图像压缩架构。通过在全局注意力机制和局部注意力机制上进行一系列比较实验，我们验证了我们之前的猜想，即局部注意力更适合局部纹理重建。随后，我们提出了一种灵活的注意力模块，结合神经网络来捕捉空间相邻元素之间的相关性，即窗口注意力。如图1所示，所提出的注意力模块可以作为增强CNN和Transformer模型的即插即用组件。其次，尽管基于Transformer的模型在各种计算机视觉任务中取得了巨大成功，但在图像压缩中仍然存在着很大的挑战，例如没有上采样单元，固定的注意力模型。为此，我们提出了一种新颖的对称Transformer（STF）框架，其中包含了下采样编码器和上采样解码器中的绝对Transformer块，这可能是设计上采样Transformer的首次探索，特别是针对图像压缩任务。广泛的实验结果表明，我们的方法在关键指标上优于最先进的图像压缩方法。本文的主要贡献总结如下：0•我们广泛研究了局部感知注意机制，并发现将神经网络学习到的全局结构与注意力单元挖掘到的局部纹理相结合是0•我们提出了一种灵活的基于窗口的注意力模块，用于捕捉空间相邻元素之间的相关性，可以作为增强CNN或Trans0•我们设计了一种新颖的对称Transformer（STF）框架，其中包含了下采样编码器和上采样解码器中的绝对Transformer块。0•广泛的实验评估表明，所提出的方法是有效的，并且优于SOTA图像压缩方法。02. 相关工作0学习图像压缩。最近，基于CNN的学习图像压缩模型[5, 6,15-17, 19, 27, 32, 34,35]展示了快速发展的趋势并取得了重大突破。对于基于VAE的架构，[5]首次提出了一种端到端优化的图像压缩模型。[6]基于[5]引入了超先验来有效捕捉潜在表示中的空间依赖关系。受概率生成模型中自回归先验的成功启发，[34]进一步增强了y = E(x; ϕ)ˆy = Q(y)ˆx = D(ˆy; θ)(1)(3)174940通过添加自回归组件，[6]在熵模型中增加了一个自回归组件。除此之外，[15]通过使用残差块增强了网络架构，并使用高斯混合模型（GMM）替代了大多数使用的单高斯模型（SGM）添加了一个简化的注意模块。尽管基于GMM的熵模型在RD性能方面表现更好，但采用的概率分布函数（PDF）和累积分布函数（CDF）必须为编码和解码中的每个单独元素动态生成，从而引入了很多冗余并使其耗时。相比之下，基于SGM的熵模型可以为熵编码建立固定的PDF和CDF表，计算开销较小。为了最小化自回归上下文模型中的串行处理步骤，[35]提出了一种通道级自回归熵模型。一些方法[2，33]使用生成对抗网络（GAN）直接学习图像的分布并防止压缩伪影。对于基于GAN的架构，图像压缩是一种速率失真感知的权衡任务。注意机制。注意机制模仿生物观察的内部过程，将更多的注意资源投入到关键区域以获取更多细节并抑制其他无用信息。非局部注意机制[45]在各种视觉任务中被证明是有益的。对于学习的图像压缩，[28]应用非局部注意力生成隐式重要性掩码，以指导潜在特征的自适应处理，而[15]通过删除非局部块简化了注意机制。基于Transformer的模型。受到Transformer架构在自然语言处理中的成功启发，有许多工作探索了Transformer在计算机视觉任务中的潜力。[18]使用Transformer架构进行图像分类。[13]在检测中实现了基于Transformer的模型。[14]提出了一种用于图像处理任务的通用预训练方法。[29]提出了一种使用平移窗口计算的分层Transformer，并在图像分类、语义分割和目标检测中实现了SOTA性能。然而，据我们所知，目前还没有与图像压缩相关的Transformer工作。在本文中，我们探索如何设计基于Transformer的架构来实现可比的RD性能。神经网络中的归一化。广义除法归一化（GDN）[4]是学习图像压缩中的一个里程碑。GDN在高斯化自然图像的局部联合统计方面非常高效。我们通过将GDN替换为批归一化[22]、层归一化[3]和通道归一化[33]进行了一些比较实验。我们发现，在CNN中替换GDN会导致RD性能大幅下降。0然而，我们还发现GDN在深度Transformer架构中是不稳定的。此外，GDN与Transformer块中的注意机制不兼容。03. 方法03.1. 表述0由于我们的方法是建立在超先验架构[6，34]和通道级自回归熵模型[35]之上的，为了更好地理解，我们将简要介绍基本流程。编码器E将给定的图像x映射到潜变量y。量化Q后，ˆy是潜变量y的离散表示。然后，ˆy通过解码器D映射回重建图像ˆx。主要过程的公式化如下：0其中ϕ和θ是编码器E和解码器D的可训练参数。量化Q不可避免地引入潜变量的剪切误差（误差= y − Q ( y )），从而导致重建图像的失真。根据之前的工作[35]，在训练阶段，我们还通过四舍五入和添加预测的量化误差来修改量化误差。我们将每个元素ˆyi建模为具有其标准差σi和均值µi的单高斯分布，通过引入辅助信息ˆzi来建模ˆyi的分布pˆyi| ˆzi，该分布是基于SGM的熵模型：0p ˆ y i | ˆ z i (ˆ y i | ˆ z i) = N(µ i, σ 2 i) (2)0图像压缩模型的损失函数为：0L = R + λ ∙ D0= E x � p x [− log2 p ˆ y | ˆ z (ˆ y | ˆ z) − log2p ˆ0+ λ ∙ E x � p x [ d(x, ˆx)]0其中λ控制速率和失真之间的权衡，R是潜变量ˆy和ˆz的比特率，d(x, ˆx)是原始图像x和重构图像ˆx之间的失真。03.2. 基于窗口的注意力0大多数先前的方法[15, 28,49]将注意力机制应用于基于全局感受野生成注意力掩码。注意力机制在许多计算机视觉任务中也被成功应用，例如图像分类、语义分割和目标检测。然而，直观上，在图像压缩中，全局语义信息不如在这些计算机视觉任务中实用。1×1𝑋𝑍𝑌Y ki =1(5)Zki = WzY ki + Xki(6)Original ImageWAMNLAMLatentsAllocated bitsDetailsw/o attentionbits in complex regions (high contrast) and fewer bits insimple regions (low contrast). In addition, the WAM re-constructed image has sharper texture details. NLAM withglobal receptive field often leads to evenly allocation of bitson different regions, which is not consistent with the expec-tation in [28].174950局部窗口0特征图0�:1 × 1 �:1 × 1 �:1 × 10注意力计算单元0图2. 窗口注意力的示意图。注意力掩码在局部窗口中计算。0非重叠窗口中的注意力。我们注意到，基于空间相邻元素生成注意力掩码可以提高RD性能，同时减少计算成本。为了有效建模和关注空间相邻元素，我们提出了基于窗口的注意力。如图2所示，特征图以非重叠方式划分为M×M的窗口。我们分别在每个窗口中计算注意力图，X k i和X kj是第k个窗口中的第i个和第j个元素，计算如下：0C(X k)0� j f(X k i, X k j)g(X k j) (4)0其中f(X k i , X k j) = eθ(X k i)Tϕ(X k j)，0C(X k) = �0� j f ( X k i , X kj )，0g(X k j) = WgX k j0这里，θ(X k i) = WθX，ϕ(X k i) =WϕX，其中Wθ和Wϕ是跨通道变换。f(∙)是嵌入的高斯函数。C k(X)是一个归一化因子。对于给定的i和k，10C k (X)f(X k i, X kj)是在第k个窗口中沿着j维度的softmax计算。这种注意力机制需要残差连接，输出如下：0其中W z是用于计算Y ki位置嵌入的权重矩阵，如公式4所示。窗口注意力模块。Liu等人[28]提出了非局部注意力模块（NLAM），由非局部块和常规卷积层级联组成。我们用窗口块替换了非局部块，以便关注对比度高的区域。图4（b）显示了我们的窗口注意力模块（WAM）。我们在图3中可视化了WAM、NLAM和无注意力模块中熵最高的通道。从第三列可以明显观察到，WAM可以在复杂区域（高对比度）分配更多的比特，在简单区域（低对比度）分配较少的比特。此外，WAM重构的图像具有更清晰的纹理细节。具有全局感受野的NLAM通常会在不同区域上均匀分配比特，这与[28]中的期望不一致。0图3.对于熵最大的通道，WAM、NLAM和无注意力模块的可视化。可以看到，我们的WAM关注高对比度区域（帆船）并在这些区域分配更多的比特，而在低对比度区域（天空和云）分配较少的比特。相反，无注意力模块和NLAM中的比特均匀分配。03.3.基于CNN的架构0如图4所示，我们基于[35]建立了基于CNN的架构。我们分别通过插入提出的WAM来增强编码器和解码器。WAM能够更合理地在不同区域上分配比特，并且内部计算开销可忽略不计。它简单而且可以显著提高RD性能。03.4.基于Transformer的架构0受到Transformer架构在计算机视觉中的成功[18,29]以及我们之前的实验结果的启发，即局部注意力有助于合理分配比特并提高RD性能，我们进一步提出了一种新颖的Transformer架构用于学习图像压缩，如图5所示。重新思考Transformer。由于我们的目标是验证将自注意层和MLP结合起来是否能够达到与原始基于CNN的架构相当的性能，我们设计了一种新颖的对称Transformer（STF）框架，在编码器和解码器中没有卷积层。设计学习图像压缩的Transformer模型的困难如下：0•以前的工作大多基于CNN来消除空间冗余并捕捉空间结构。直接将图像分割成补丁可能导致每个补丁内的空间冗余。��To address above concerns, we choose a small patch sizeto avoid the space redundancy within each patch. We usethe LN for normalization, which is most common used inTransformer. GELU is adopted as the nonlinear activationfunction in our Transformer architecture. Inspired by [29],we compute the attention map within local windows. Theadvantage of our Transformer architecture is that it couldfocus on spatially neighboring patches while gradually ex-panding the receptive field, with acceptable computationalcomplexity.Transformer-based Encoder. We split the raw image x ∈R3×H×W into patches with patch size N. A linear embed-ding layer is applied on the raw patches to generate a featuremap fpRC× HN × WN with C channels. The feature map174960ConvNx5x5/2↓0WAM0ConvNx5x5/2↓0ConvNx5x5/2↓0ConvMx5x5/2↓0WAM0ConvNx5x5/2↓0WAM0ConvNx5x5/2↓0ConvNx5x5/2↓0ConvMx5x5/2↓0WAM0编码器0解码器0原始图像0重建0(a)我们基于CNN的模型架构0通道自回归熵模型0AE0AD0Q0（, ）0RB01×1卷积0Sigmoid0窗口块0RB0RB0RB0RB0RB0(b) 窗口注意力模块0图4.(a)我们提出的基于CNN的模型架构。我们采用[35]的架构，以便进行后续比较。IGDN是逆GDN。(b)RB是由1×1和3×3卷积层组成的残差块。0•GDN是图像压缩中最常用的归一化和非线性激活函数。然而，在深度Transformer架构中，GDN是不稳定的。此外，我们发现GDN和Transformer中的注意机制是不兼容的。0•根据我们之前的分析和实验结果，计算大范围的注意力图不是最优的。0N被重塑为一个序列fs∈RP2×C，其中P=HWN2是补丁的数量。然后，序列fs将被输入到Transformer块和补丁合并层中。根据[29]中的结构，前者计算窗口中的注意力掩码以进行前馈。同时，后者降低特征的分辨率并加倍特征的通道数。基于Transformer的解码器。我们设计了一个对称的解码器，由多个Transformer块、补丁分割层和一个解嵌入层组成。补丁分割层上采样特征的分辨率并减半0特征的分辨率并加倍特征的通道数。解嵌入层将特征映射到重建图像ˆx。熵模型。为了更有效地预测潜在的概率分布，我们使用基于SGM的通道自回归熵模型[35]。04.实验04.1.实验设置0训练。我们在Compres-sAI平台[7]中实现了我们提出的基于CNN的架构和基于Transformer的架构。对于训练，我们随机选择了300k张来自OpenImages数据集[26]的图像，并随机裁剪它们的尺寸为256×256。所有模型都使用Adam优化器[23]进行了180万步的训练，批量大小为16。初始学习率设置为1×10-4，进行120k次迭代，然后降低到3×10-5，再进行30k次迭代，最后降低到1×10-5，进行30k次迭代。我们的模型使用两个质量指标（MSE和MS-SSIM）进行优化。按照[7]中的相同设置，当模型针对MSE进行优化时，lambda值λ属于{0.0018, 0.0035, 0.0067, 0.0130, 0.025,0.0483}。当模型针对MS-SSIM进行优化时，lambda值λ属于{2.4, 4.58, 8.73, 16.64, 31.73,60.50}。对于我们基于CNN的模型，潜在特征和超潜在特征的通道数分别设置为320和192。对于我们基于Transformer的模型，补丁大小为2，窗口大小为4，通道数C为48。通常，我们的模型在不同的λ下具有相同的超参数。评估。我们通过计算常用的Kodak图像集[25]和CLIC专业验证数据集[1]上的平均RD性能（PSNR和MS-SSIM）来评估我们的基于CNN的模型和STF模型。（𝜇, 𝜎）𝑦ො𝑦ො𝑦Image𝑟ത𝑦Spatially Auto-regressive (AR) context model is effec-tive and follow-up studies often use it to enhance the RDperformance. However, the AR model sequentially encodesand decodes each spatial symbol, which significantly slowsdown the codec efficiency on GPUs and TPUs.GMM-based entopy model has the same defect. Although it canmore precisely estimate PDFs and CDFs of latents, generat-ing CDFs and PDFs dynamically would sacrifice the codingefficiency, while SGM-based entopy model has fixed PDFsand CDFs tables. Therefore, we use channel-conditional(CC) models [35] as the auto-regressive context modelalong the channel dimension for better parallel processing,and adopt the SGM-based entopy model for more efficientcoding efficiency.In Table 1, we evaluate the inference latency of our meth-ods and those time-consuming models [15,34] on the Kodak174970线性嵌入0补丁合并0图像0到0补丁0变压器0块0变压器0块0补丁合并0变压器0块0补丁合并0变压器0块0× 2 × 2 × 6 × 20通道自回归熵模型0AD0Q0去嵌入0补丁分割0变压器0块0变压器0块0补丁分割0变压器0块0补丁分割0变压器0块0补丁0到0编码器0解码器0LN0LN0（a）STF架构（b）Transformer块0× 2 × 2 × 6 × 20LN0LN0原始图像0重建0图5。（a）我们提出的基于Transformer的模型的架构。补丁合并层和补丁分割层由线性层和LN层组成。（b）W-MSA[29]是基于窗口的多头自注意力，SW-MSA [29]是基于平移的窗口自注意力。0我们将我们的方法与有影响力的学习压缩方法进行比较，包括无上下文超先验模型（Ball´e2018）[6]，自回归超先验模型（Min-nen2018）[34]和具有GMM和简化注意力的自回归超先验模型（Cheng2020）[15]。请参阅附录，了解涵盖广泛的传统和基于ANN的压缩方法的RD曲线。04.2.与SOTA方法的比较0RD性能。图6显示了在Kodak数据集上的比较结果。当以MSE为训练目标，以PSNR为衡量标准时，我们基于CNN的模型和STF模型的性能非常接近，并且能够超过其他学习压缩方法。相反，当以MS-SSIM为训练目标和衡量标准时，我们基于CNN的模型和STF模型只有轻微的改进。正如[6]中所提到的，MS-SSIM会减弱高对比度区域的误差，并增强低对比度区域的误差。但事实并非如此，它经常将更多的细节分配给低对比度区域（如草地和头发），并从高对比度区域（如文字和显著物体）中去除细节。注意机制更加关注高对比度区域，因此在这些区域分配更多的比特。这种矛盾可能导致我们的基于注意力的模型在针对MS-SSIM进行优化时只有不明显的改进。如图7所示，CLIC专业验证数据集上的比较结果表明了相同的结论。这显示了我们基于CNN的模型和STF模型的鲁棒性。视觉质量。图8显示了我们的方法和压缩标准JEPG、BPG和VVC（VTM9.1）对重建图像（kodim07.png）的示例。我们的重建图像保留了更多的细节，与压缩标准相比，近似0方法 Enc (s) Dec (s) PSNR ↑ bpp ↓0Cheng2020 [15] 8.49 14.49 35.12 0.595 Minnen2018[34] 16.19 21.16 35.09 0.640 我们的CNN 0.12 0.12 35.910.650 我们的STF 0.15 0.15 35.82 0.6510表1. 使用GPU（TITAN V）在Kodak数据集上与Minnen2018[34]和Cheng2020[15]的平均编码和解码时间的比较。注意，Cheng2020的结果基于CompressAI[7]中的轻量级实现（不包括注意力模块和高斯混合似然）。0当针对MS-SSIM进行优化时，我们基于CNN的模型和STF模型在视觉质量方面都取得了显著的改进。04.3. 编解码效率分析0.20.40.60.81.0283032343638Our STFOur CNNCheng2020Minnen2018Ball�20180.20.40.60.81.0121416182022Our STFOur CNNCheng2020Minnen2018Ball�20180.10.20.30.40.50.60.73032343638Our STFOur CNNCheng20200.10.20.30.40.50.60.7141618202224Our STFOur CNNCheng2020174980bpp0PSNR0bpp0MS-SSIM0图6. 在包含24张高质量图像的Kodak数据集上进行RD性能评估。0bpp0PSNR0bpp0MS-SSIM0图7. 在包含41张高分辨率和高质量图像的CLIC专业验证数据集上进行RD性能评估。0方法 λ PSNR ↑ bpp ↓0基线 0.0035 30.32 0.198 基线 + NLAM 0.0035 30.420.202 基线 + WAM 0.0035 30.58 0.1990基线 0.0130 33.87 0.454 基线 + NLAM 0.0130 33.950.467 基线 + WAM 0.0130 34.10 0.4480表2.对比实验。基线是Minnen2020（SOTA基于CNN的模型）[35]。0数据集。04.4. 评估窗口注意力的影响0为了证明我们关注空间相邻元素可以实现更好的RD性能的结论，我们通过去除WAM或使用NLAM进行对比实验，如表2所示。图9中的消融研究显示了提出的基于窗口的注意力是有效的，并且可以增强当前SOTA基于CNN的模型[35]。04.5. 讨论0更高效的窗口注意力设计。我们基于CNN的架构仍有改进的空间。0因为基于窗口的注意力不足以捕捉结构信息。此外，我们的实验结果表明，GDN和注意力机制不兼容。我们猜测GDN更像是一个非线性激活函数，而不是一个归一化块。我们的后续实验表明，直接使用卷积层生成注意力掩码也可以达到可比较的RD性能。Transformer的兼容归一化。在我们基于Transformer的架构中，我们默认使用层归一化（LN）。缺点是LN会重新调整网络中线性滤波器的响应，以使其在所有空间位置上保持在合理的操作范围内，并具有相同的重新调整因子，这可能会破坏元素的高斯分布。在计算注意力图时，LN是必要的以重新调整响应范围。这似乎是矛盾的，但意味着基于Transformer的架构在学习图像压缩方面具有更大的潜力。此外，我们期待将Transformer和卷积块结合起来，到目前为止，我们的结果表明它们是互补的。人类感知。学习的图像压缩模型直接优化PSNR或MS-SSIM等指标，并实现了高RD性能。然而，一些研究[11, 12,36-39]既不提出PSNR也不提出MS-SSIM。[0.127bpp/28.89/0.980][0.120bpp/30.11/0.979]JPEG[0.170bpp/21.79/0.790]BPG[0.167bpp/30.73/0.965][0.158bpp/32.10/0.973][0.153bpp/32.78/0.978][0.146bpp/32.68/0.977]JPEGBPGVVC0.20.40.60.8bpp3032343638PSNR174990原始图像我们的CNN（MS-SSIM）0我们的STF（MS-SSIM）0VVC（VTM9.1）0我们的CNN（MSE）0我们的STF（MSE）0我们的CNN（MS-SSIM）我们的CNN（MSE）我们的STF（MS-SSIM）0我们的STF（MSE）0原始图像0图8. 从Kodak数据集中重建图像（kodim07.png）的可视化. 指标为[bpp ↓ /PNSR ↑ /MS-SSIM ↑].0我们的CNNMinnen20200图9. 基于窗口注意力的消融研究.我们的模型基于Minnen2020与WAM.Minnen2020的RD点来自[35]，其模型在由200万张网络图像组成的数据集上进行了500万步的训练.0与人类感知相吻合.我们发现，针对MSE进行优化的模型会导致图像模糊，而针对MS-SSIM进行优化的模型会在高对比度区域（例如文本和显著对象）中去除细节，如图1所示.[39]提出了一种新的度量标准，该度量标准是根据特定于图像压缩的感知相似性数据进行学习的.在[11]中，受到感知质量的数学定义的启发，[12]研究了速率-失真-感知的权衡.为了更公正的评估，感知质量度量对于实际应用至关重要.0应用（例如LPIPS [47]，FID [20]，KID [10]）.05. 结论0在本文中，我们广泛研究了局部感知注意机制，并发现将神经网络学习到的全局结构与注意力单元挖掘到的局部纹理相结合是至关重要的.我们提出了一种灵活的基于窗口的注意力模块，用于捕捉空间相邻元素之间的相关性，它可以作为增强CNN或Transformer模型的即插即用组件.此外，我们提出了一种新颖的对称Transformer（STF）框架，其在下采样编码器和上采样解码器中都使用了绝对Transformer块.大量的实验结果表明，所提出的方法是有效的，并且超过了最先进的（SOTA）RD性能.在未来，我们将深入探索影响图像压缩中局部细节重建的其他因素，例如卷积核塑形和归一化模式.0致谢0本工作得到了新一代人工智能重大项目（No.2018AAA0100400）和中国国家自然科学基金（No.61836014，No.U21B2042，No.62006231，No.62072457）的部分支持.邹对范力的评论表示非常感谢，这些评论极大地改善了本文.175000参考文献0[1] 学习图像压缩的研讨会和挑战赛，2020.https://www.compression.cc/. 50[2] Eirikur Agustsson, Michael Tschannen, Fabian Mentzer,Radu Timofte和Luc Van Gool.用于极端学习图像压缩的生成对抗网络. 在CVPR 2019中. 30[3] Jimmy Lei Ba，Jamie Ryan Kiros和Geoffrey E Hinton.层归一化. arXiv预印本arXiv:1607.06450，2016. 30[4] Johannes Ball´e, Valero Laparra, and Eero P Simoncelli.使用广义归一化变换对图像进行密度建模. 在ICLR 2016中. 30[5] Johannes Ball´e，Valero Laparra和Eero P Simoncelli.端到端优化的图像压缩. 在ICLR 2017中. 20[6] Johannes Ball´e，David Minnen，Saurabh Singh，SungJin Hwang和Nick Johnston.具有尺度超先验的变分图像压缩。在ICLR，2018年。2，3，60[7] Jean B´egaint，Fabien Racap´e，Simon Feltman和AkshayPushparaja.Compressai：用于端到端压缩研究的PyTorch库和评估平台。arXiv预印本arXiv:2011.03029，2020年。5，60[8] Fabrice Bellard.Bpg图像格式，2014年。https://bellard.org/bpg/。10[9] Bross Benjamin，Chen Jianle，Liu Shan和Wang Ye-Kui.通用视频编码。在JVET，2020年。10[10] Mikołaj Bi´nkowski，Danica J Sutherland，MichaelArbel和Arthur Gretton. 解密MMD GANs。在ICLR，2018年。80[11] Yochai Blau和Tomer Michaeli.感知-失真权衡。在CVPR，2018年。7，80[12] Yochai Blau和Tomer Michaeli.重新思考有损压缩：速率-失真-感知权衡。在ICML，2019年。7，80[13] Nicolas Carion，Francisco Massa，GabrielSynnaeve，Nicolas Usunier，Alexander Kirillov和SergeyZagoruyko.基于Transformer的端到端目标检测。在ECCV，2020年。2，30[14] Hanting Chen，Yunhe Wang，Tianyu Guo，ChangXu，Yiping Deng，Zhenhua Liu，Siwei Ma，ChunjingXu和Wen Gao.预训练的图像处理Transformer。在CVPR，2021年。30[15] Zhengxue Cheng，Heming Sun，Masaru Takeuchi和JiroKatto.学习的图像压缩与离散高斯混合似然和注意力模块。在CVPR，2020年。2，3，60[16] Yoojin Choi，Mostafa El-Khamy和Jungwon Lee.具有条件自编码器的可变速率深度图像压缩。在ICCV，2019年。20[17] Ze Cui，Jing Wang，Shangyin Gao，Tiansheng Guo，YihuiFeng和Bo Bai.具有连续速率自适应的非对称增益深度图像压缩。在CVPR，2021年。20[18] Alexey Dosovitskiy，Lucas Beyer，AlexanderKolesnikov，Dirk Weissenborn，Xiaohua Zhai，ThomasUnterthiner，Mostafa Dehghani，Matthias Minderer，GeorgHeigold，SylvainGelly等。一张图像相当于16x16个单词：用于大规模图像识别的Transformer。在ICLR，2020年。2，3，40[19] Dailan He，Y

下载后可阅读完整内容，剩余1页未读，立即下载