没有合适的资源?快使用搜索试试~ 我知道了~
17379图像数据集学习图像压缩的神经数据相关变换王文涵杨跃宇胡佳颖刘*王璇北京大学摘要学习图像压缩由于其出色的建模能力而取得了巨大的成功,但很少进一步考虑每个输入图像的率失真优化(RDO)。为了在学习的编解码器中探索这种潜力,我们首次尝试构建一个神经数据相关的变换,并引入一个连续的在线模式决策机制,以共同优化每个图像的编码效率。具体来说,除了图像内容流之外,我们还采用了额外的模型流来生成变换系数(一)一次转型,人人受益-对全球分布建模的灵活性较低例如JPEG、Hyper-prior(b)第(1)款一个群集的一次转换- 离散模式决策- 手工制作的设计事先例如VVC,包围学习(c)第(1)款一个输入一个变换- 连续模式判决- 从数据中学到- 局部流形模型更紧凑的变换解码器侧的变换参数。模型流的存在使我们的模型能够学习更抽象的神经语法,这有助于更复杂地聚类图像的潜在表示。在变换阶段之外,我们还采用基于神经语法的后处理,用于需要更高质量重建的场景,而不管额外的解码开销。此外,模型流的参与进一步使得可以以在线方式优化表示和解码器两者,即,测试时的RDO。它相当于连续的在线模式决策,如传统编解码器中的编码模式,以提高基于单个输入图像的编码效率。实验结果表明,所提出的神经语法设计和连续在线模式决策机制是有效的,证明了该方法在编码效率上的优越性。我们的 项 目 可 在 : https : wang.github.io/Neural-Syntax-Website/.1. 介绍图像压缩是人类社会进入数字信息时代以来最基本的技术之一。在当前大数据应用不断满足需求的情况下,*通讯作者。本课题得到了国家重点研究发展计划项目(项目编号:2018AAA0102702)、国家自然科学基金项目(项目编号:62172020)的部分支持,以及出版业科学技术与标准重点实验室(智能出版媒体技术重点实验室)和媒体融合生产国家重点实验室的研究成果技术和系统。图1.三种转型范式。(a)以往的端到端训练图像压缩方法都采用单一的变换(b)常规图像编解码器中使用的特定于解码器的变换(c)提出的数据相关转换。在我们的方法中,基于输入样本生成变换。通过在局部流形上建模分布,我们得到了一个更紧凑的变换,使解码器更强大和灵活。增加的视觉体验需求 ,例如 8K流媒体和虚拟现实(VR)等高分辨率视觉应用。本集团不断努力以有限的硬件资源获取可储存、显示及分析的高效压缩及高质量图像╱视频。近几十年来,已经开发了一系列编解码器以联合优化具有比特率约束(速率)的重建质量(即失真),这形成了有损压缩的核心问题:率失真优化(RDO)。它完美地描述了人类对大量图像/视频需求的关键方面:最大化重建质量导致保留图像信号的关键视觉信息;而最小化比特率有利于有效的传输和存储。主流的图像压缩标准和系统,例如基于HEVC [30]的JPEG [31]和BPG [14],采用RDO的变换/混合编码框架的路线。该框架由级联变换、量化和熵编码组成。这些组件的精心设计导致更高的编码效率。在这些努力中,有两个重要的方向。研究的一个分支集中在设计更强大的转换,例如离散余弦函数的改进型[3,29,33图像数据集17380变换(DCT)[9,14]和理论上最优的线性Karhunen-Loe`ve eT变换(KL T)[34]。虽然获得了更多的另一个分支的作品支付注意到充分捕捉输入样本的属性。这些方法引入语法元素以将图像信号投影到特定子空间中,例如基于不同方向的帧内预测,其中可以自然地获得更紧凑的表示,并且相关处理可以是更依赖于数据的。然而,语法和相应的子空间是手动预定义的,例如帧内预测的方向模式,这导致有限的性能增益并且为未来的改进留下较少的空间。随着深度学习的快速发展,端到端优化图像压缩方法的优势得到了证明。在这些方法中,整个神经编解码器[5,6](包括编码器和解码器)完全从大量高质量图像中学习。通过在大规模训练集上优化率失真代价,编码器提供了灵活而强大的非线性神经变换。然而,现有的端到端优化压缩方法很少注意模型的自适应性,以处理不同的上下文或分布的图像。训练仅导致训练集上的平均低R-D成本。 对于给定的输入样本,编解码器可能不能很好地捕捉输入的概率特性,并且不能在推理阶段提供最佳变换。 传统编解码器的一些见解带来了新的灵感。首先,变换可以完全依赖于数据[15,20,28],而不是使用固定的权重。其次,语法可能非常有用,可以通过隐式子空间划分来简化编码系数的分布。为了解决上述问题,并受到传统编解码器的有用见解的启发,我们首次尝试为学习图像压缩构建一个神经数据依赖变换。我们的新模型的目标是生成- ate变换参数的输入样本的信息的基础上动态。为此,除了图像内容流之外,我们的模型还引入了神经语法作为模型流,以在解码器侧生成变换参数。神经语法描述了图像/特征的粗糙上下文,因此可以使编码系数的分布更加紧凑。我们还将神经语法引入到后处理网络中,其目标是在计算和时间预算足够时进一步提高重建质量。借助神经语法,我们的模型可以在线优化,以实现更好的R-D性能,给定输入样本。与传统的编码器遍历并选择最佳编码模式类似,我们引入了一种连续在线模式决策机制,对输入样本进行模式流编码优化,进一步提高编码效率。实验证明了该方法的优越性。更多的消融研究和分析显示了每个设计模块的有效性以及我们的动机和解释的合理性。我们的贡献总结如下,• 我们首次尝试为学习的图像压缩构建一个神经数据依赖的变换。该变换使解码器具有更高的功率和灵活性,从而提供卓越的R-D性能。• 我们提出了一种新的联合范例,以优化内容和模型流同时,在端到端的图像压缩框架的神经语法的帮助下。• 神经语法的编码系数通过连续的在线模式决策在输入样本上进行在线优化,以进一步提高编码效率。2. 相关工作2.1. 混合图像压缩传统的图像压缩方案遵循混合/变换编码范例。JPEG[31]利用离散余弦变换(DCT)使变换后的系数紧凑以降低比特率,并解相关以实现有效的熵编码。高级混合编解码器,例如HEVC [30]和VVC [9],添加更多类型的变换,例如离散正弦变换(DST)[3,22],以处理不同类型的残 差 信 号 。 具 体 地 , 在 VVC 中 引 入 了 多 变 换 选 择(MTS)以选择具有最佳率失真性能的最期望的变换。像KLT这样的数据驱动变换也被用于图像压缩[34],其中多个KLT候选者从多尺度补丁的不同集群中训练。受先前图像编码方法中信号相关变换选择思想的启发,我们的模型采用端到端学习神经网络来生成数据相关变换,以实现更有效的图像压缩。与现有的混合编解码器不同,我们的模型中的所有组件,包括神经变换,都是以端到端的方式训练的,并且离散变换选择被扩展为更灵活的连续模式决策过程。这两个特性使得我们的方法具有更紧凑的表示形式和更好的R-D性能。2.2. 深度图像压缩近年来,随着深度学习技术的兴起,端到端图像越来越受到人们的关注17381z^cgs(|zs)EDEDEC··|·压缩Balle等人首先利用卷积神经网络(CNN)建立了一个用于x有损图像压缩的压缩自动编码器[5,6],并启发了许多有经验的图像压缩方法[10,25,26]。在一种新的广义离散归一化(GDN)的帮助下,卷积分析和合成变换学习有效地减少图像信号的冗余。除了变换之外,许多研究致力于基于学习的概率模型,即超先验[7],2D上下文x模型[21,24]和3D上下文模型[12]。此外,高斯混合模型(GMM)和基于注意模块的zbz^(a) 传统的E2E编码框架BSBC(b) 混合编码框架z^sz^c,z^s bc,bs(c) 建议的E2E编码框架^^变换[13]已被证明可以进一步提高图像压缩性能。尽管学习图像压缩变换和熵模型的演变,现有的方法仍然采用数据无关的编码和解码变换。一旦训练完成,所有输入图像的变换参数都是固定的。这种变换在处理多样化的图像信号时面临挑战。Wang等人 [32]使用集成学习从模型池中选择模型来压缩图像,并实现了改进的性能。在这项工作中,我们探索在学习的图像压缩框架中采用数据相关变换。除了从手工制作的池中选择所需的转换之外,我们的方法还以端到端的方式为每个输入动态生成转换。此外,我们还将离散模式决策推广到连续模式决策,使其更易于在线优化,并提供更好的R-D性能。3. 神经数据相关变换3.1. 公式化和动机在本节中,我们制定了几种编码方案。通过统一的公式,所提出的模型与现有的端到端学习图像压缩和混合编码框架相结合,以清晰地揭示我们的动机。我们的公式的核心思想在图中说明。二、传统的学习压缩框架。大多数端到端学习的图像压缩方法都遵循变换编码范式。如图在图2(a)中,通过将变换ga(·)应用于输入图像x,随后进行量化Q(·),来表示离散潜在表示z(·),如下所示,z=ga ( x ) , z≠Q ( z ) .(1)图1中的量化步骤。 为了简洁起见,省略了2。然后,由具有预定义的先验概率分布或高级熵模型(例如,超先验或上下文模型)的熵编码器(EC)对z进行熵编码比特流b是通过熵编码产生的,并且它是有损的。图2.图像压缩的关键思想和相关公式(a)先前学习的图像压缩。(b)混合编码框架。(c)我们的双流学习图像压缩与数据相关的变换。 红线表示语法/神经语法流。 gs(zs)表示过程gs由zs参数化。由对称熵解码器(ED)无解码。该过程表示如下,b=EC(z),z=ED(b).(二)然后,将解码的z_i馈送到合成变换g_s(),i。e. -神经解码器R1,以如下获得最终重构输出X1x∈ S=gs(z∈ S).(三)请注意,这种压缩框架在公式化方面与JPEG基本相似,因此它不可避免地继承了JPEG的局限性。尽管现有方法通过大规模数据的能力和学习的非线性变换的强大建模能力实现了显著提高的性能[4],但它们的灵活性和自适应性可能是值得怀疑的,因为变换难以捕获输入样本的特定属性。高级混合编码框架。除了反式编码方案之外,现代编码标准(例如HEVC或VVC)采用组合反式编码和预测编码的混合编码方案。该编码方案自然地引入语法元素,例如帧内预测模式、分区图和变换模式。这种元素由编码器通过分析图像信号并基于R-D性能选择最佳候选来形成。为了简单起见,这样的分析被表示为总体预处理函数gpre(),其如下分别在整个比特流中产生残差分量(在预测之后)和语法分量,{z∈s,zR}=gpre(x),(4)其中,zRs是合成元素的待输入编码表示,zR是待变换的内容信息(通常是残差)。变换gt(·)(如DCT)Gazs^zXzRGtECgprez^sg(|z)Ssz^cz^R^EDgagg (| zˆs)gitECGaGsGa17382·····aggRS·将量化Q()应用于zR以进行能量压缩、去相关和熵减少,如下所述,zc=gt(zR),z∈c=Q(zc).(五)以端到端的方式进行优化。此外,建议的框架不同于现有的学习为基础的在以下三个方面。• 编码:分析转换不仅生成为了提供均匀的制剂,g预 (·)和gt(·)可以是内容表示以及神经语法表示如下,合并为抽象集成分析函数gA(·)。g a(·)的输入是未压缩的图像,输出是{zs,zc}。因此,我们有一个,{z∈s,z∈c}=ga(x).(六)之后,z_c和z_s两者依次被如下进行中间编码、发送bs=EC(zs),zs=ED(bs),(7)bc=ED(zc),zc=ED(bc),(8)其中bc和bs分别表示内容信息和语法信息的比特流为了重建解码图像,z_c被发送到逆变换git(),如逆DCT(IDCT),以重建空间域表示z_R。该过程可以表示为,z<$R=gi t(z<$c).(九){z∈s,z∈c}=ga(x),(12)其中z_s和z_c分别表示内容信息和语法 解开的神经语法类似于混合编码中的语法元素。引入的(神经)语法能够捕获图像/表示的抽象上下文信息,这有助于将编码表示投影到变换系数更紧凑的子空间中。熵模型:我们的熵模型不同于现有的,其中两个潜在的表示,即。e. zs和zc分别编码。我们把它们压缩成两股,bc=EC(z<$c),bs=EC(z<$s),(13)其中,b_c和b_s分别是z_c和z_s的压缩比特流比特流的分离使得能够对编码过程进行更细粒度的控制。例如,我们可以在线优化语法流的基础上的R-D每-对称于g的聚合成分表示为预 (·),输入样本的采样率对称地,熵对这两个流应用解码,Gagg()被应用于重建图像信号。在该步骤中,语法zs和重建的残差zR被聚集,其中zs用作gag()中的参数的一部分以控制zR的条件来重建图像。我们将该过程表示如下:zc=ED(bc),zs=ED(bs).(十四)我们利用炒作先验和上下文模型的帮助来编码和解码z_s和z_c,为了简单起见,在这里省略。x=g(z|z)。(十)• 数据相关解码:建议的解码功能-这是数据依赖的。对于不同的输入图像x,我们将解码器变换作为一个整体,整体合成函数gs()由语法信息控制,以首先解码,然后将z_c映射到重构信号中,如x=gs(zc|zs)。(十一)混合图像编码的发展自然导致数据相关变换。然而,混合图像编码和端到端图像学习压缩的优点从未得到满足。因此,构建具有神经数据依赖变换的学习压缩方法是非常值得期待的。提出的双流学习压缩框架。受混合编码发展的启发,我们的目标是设计一个具有端到端学习数据相关变换的图像压缩框架,如图所示。第2段(c)分段。与端到端学习框架类似,我们的流水线由作为编码器的分析变换、熵编解码器和作为解码器的合成变换组成。变换形式(模)都是可微的,因此它们可以是17383···获得不同的神经语法z,以生成用于输入样本的更特殊的解码变换。我们将合成变换表示为由z*s参数化的gs(·),x=gs(zc|zs)。(十五)最后,我们可以基于率失真折衷以端到端的方式优化整个流水线,表示为,L=D(x,x) +λ(R(zc) +R(zs) +R(zh)),(16)其中D(,)是失真度量,R(,)测量比特率。 zh代表zs和zc的优先级。 λ是在速率和失真之间进行权衡的超参数。3.2. 网络设计3.2.1整体结构整体网络结构如图所示。第3(a)段。我们采用端到端的图像压缩框架,17384(b)发电机的结构概率流概率模型算术编码算术解码(a) 整体网络结构(c)权重生成器的结构图3.提出了基于神经数据相关变换的双流图像压缩框架的流水线和详细的网络结构。超先验[7]和上下文模型[21,24]作为我们的基线。在基线之外,我们在神经语法/模型流的帮助下引入了一个数据相关的变换,其中相关的流流在图中由红线表示。第3(a)段。具体来说,编码器网络从输入图像生成潜在表示。潜在表示在信道维度上被分割以形成内容流和模型流,即,神经语法内容流对应于等式(1)中的z∈c(12)中所描述的方法被量化,并且利用来自上下文模型和超先验的组合的估计概率进行熵编码。结合起来,估计的概率-利用融合信息从经由上下文模型已经编码的符号和传输的超先验两者来推断一致性。我们遵循现有的工作[7,16,21,24],用高斯分布对似然进行建模,其中概率模型生成高斯分布的均值和尺度,以计算累积密度函数和相似度。在算术编码器的编码和解码过程中直接使用似然性。对于分裂后的另一个分支,神经语法生成器从模型流中提取一个紧凑的、离散的、一维的表示向量,对应于等式中的z=s。 (十二)、神经语法是用基于超先验的概率模型进行entrop y编码的由于神经句法不包含空间信息,因此不应用上下文模型。解码后的语法信息被馈送到权重生成器网络中,该权重生成器网络预测解码器的最后一个卷积层的内核参数。该层将解码的特征图映射到重构图像。3.2.2神经元/模型流我们设计了一个语法生成器网络来利用多尺度冗余来更好地提取语法信息,图4.基于数据相关变换的解码器。转换参数(即最后一层的卷积核)以输入图像为条件。示于图3(b)款。我们设计了一个多尺度的网络结构来提取神经语法z。每个尺度的特征图全局平均池化操作。之后,将池化的特征连接在一起。在特征金字塔上应用池化机制,不仅充分利用了多尺度冗余,而且得到了尺度不变的神经句法。因此,它能够压缩可变分辨率图像。在熵瓶颈中对隐向量进行量化和熵编码,条件是与图像的隐表示相同的超先验。在此基础上,利用一个多层全连接网络来映射神经语法表示到解码器网络中的最终层的核心参数。这些动态生成的参数提高了网络在推理阶段的建模灵活性,以适应多样化的输入图像。所提出的神经语法有利于数据相关的变换,解码每个图像与不同的卷积核参数。解码器由五个转置卷积层组成,中间是逆GDN,如图所示。4.第一章除了最后一层之外的所有层的参数都在训练过程之后被固定最后一次谈话-分裂上下文模型AE AD PM AE ADPM AE AD权重生成器发电机FC全局平均池下午AE AD模型流权重生成器Conv内容流解码器解码器编码器超解码器超编码器FCConv ↑Conv ↓IGDNLReLUConv ↑ReLUFCLReLUIGDNFCConv ↑Conv ↓IGDNReLU重塑Conv ↑IGDN17385(a)Kodak(b)CLIC(c)消融研究图5.Kodak和CLIC专业验证集上的R-D曲线0.555 bpp0.582 bpp0.586 bpp0.549 bpp0.531 bpp原始BPGICLR 2019VTM 4:4:4我们我们的+图6.与BPG [14]、ICLR 2019 [21]和VTM 4:4:4 [11]相比的目视结果该补丁是从Kodak中的Kodim 14裁剪的[19]。函数层只包含核参数,没有偏置权重。这些参数在解码时从权重生成器即时生成。由于解码器的参数是动态生成的,因此它们高度依赖于输入图像,并且可以完全捕获输入图像的特定属性。因此,该模型3.2.3基于神经网络的后处理我们还设计了一个后处理模块的情况下,需要更高质量的重建。由于所提出的解码器的参数数目是有限的,它不能充分利用比特流保留的信息。为此,我们增加了一个复杂度更高的后处理模块,以进一步增强原始重建。我们采用最先进的超分辨率方法HAN [27]作为我们的骨干,但删除了上采样器,并用我们动态生成的权重替换最终卷积层。实验结果表明,通过后处理,重建质量可以进一步提高了相当大的幅度,并优于最先进的输入图像上的R-D折衷损失函数。该过程相当于传统混合编码框架中的模式决策过程,从离散候选中选择最佳模式。我们的解码器的在线优化更加灵活,它从无限集合中连续选择最好的一个。在[23]中已经提出为每个输入图像在线微调基于神经网络的编码器。这种方法基于固定解码器搜索图像的更好表示,并且已被证明可以实现更好的性能。然而,由于解码器侧上的任何额外更新应被编码并通过信道传输的限制,这些方法只能在解码器被固定时调整编码器参数。因此,微调的自由度有限。借助于我们提出的双流压缩框架,所提出的方法通过操纵比特流中的神经语法来解决这一限制。在我们的框架中,解码器参数的一部分由编码表示,可以在推理阶段进行优化。优化公式如下,像VVC这样的编解码器。θˆ =argmin{D(g(g(x;θ))|F(x;θ);θ),x)3.3. 连续模式决策a为θa一个syn同步信号如上所述,比特流的分割自然带来了在推理阶段在线微调模型/神经语法流的可能性。更具体地,解码变换可以基于+λR(ga(x;θa))},其中x表示待编码图像,并且我们固定不依赖于输入的解码器参数θs和语法生成器参数θsyn我们优化17386↓××××××× ××编码器参数θa与R-D折衷损失函数,以同时搜索最优内容流和神经语法流。应当注意,除了θs之外,解码器还包括生成的参数fsyn(x;θsyn),表1. Kodak [19]和CLIC Professional验证数据集[1]上的BD率结果()。 我们将BPG [14]设置为计算中的锚点。 最好的结果显示其中fsyn(·)是抽象语法生成器。 涉及-用粗体表示,第二好的用下划线表示。解码器参数的部分的部分提供了更多的可扩展性,易于优化,并导致更显著的性能改进。4. 实验结果4.1. 执行1) 网络实施。具体来说,我们在现有的基于端到端学习的图像压缩方法的基础上实现了神经语法模型[21,24],其中采用了上下文模型和超先验。网络的详细结构和超参数见补充材料。请注意,大多数卷积层的通道宽度设置为N,瓶颈宽度也是如此。瓶颈潜在表示的前M个通道被提取为语法信息。剩余的(N-M)个通道对应于内容特征图。对于在不同比特率范围下训练的模型,超参数略有变化。较低比特率范围的模型构造为N=192和M=16。对于更高范围的比特率,N=384,M=32,以提供足够的信息容量。我们的后处理网络基于HAN [27]。具体来说,我们使用4个残差组用于较低比特率模型,6个残差组用于较高比特率模型。我们删除了上采样器,并使用解码的神经语法来生成最终卷积层的权重,这与我们的解码器类似。补充材料中还提供了我们的后处理网络的详细信息。2) 培训详情。我们使用DIV2K [2]图像集作为我们的训练数据集。该数据集由800幅平均分辨率为2K的自然图像组成。为了使模型适应不同分辨率的图像,我们将图像的分辨率降低到一半作为训练数据的增强。在训练过程中,我们从每张图像中随机裁剪256 256个补丁,并形成一批8个补丁。我们的培训程序包括两个阶段:1)训练压缩网络(包括编码器、基于神经语法的解码器和熵模型)和2)训练基于神经语法的后处理。我们在第二阶段固定压缩网络的权重。在第一阶段,我们使用Adam优化器训练模型5,000个epoch[18]。 The learning rate is initialized to be 1 10−4and turned down to its half after 4,000, 4,500 and 4,750epochs. 我们的模型是通过速率优化的-失真权衡损失函数,定义在等式(十六)、均方误差(MSE)被用作失真测量。我们用λ在{8 × 10−4,1}中训练模型。5× 10−3,2. 5×柯达CLIC[24]第二十四话-4.9%-6.2%ICLR 2019 [21]-5.7%-10.6%VTM 4:2:0 2020[11]-9.7%-14.3%VTM 4:4:4 2020[11]-20.7%-26.5%2020年CVPR [13]-18.3%-22.6%TPAMI 2021 [17]-13.8%-19.5%我们-14.5%-25.3%我们的+-20.1%-29.7%10-3,810-3,1.510−2, 210−2。在第二阶段,我们训练了额外的后处理网络1500个epoch。我们仍然采用Adam优化器,并将学习率设置为110−4,在1200和1350个epoch后分别降低到其一半和四分之一。损失函数是MSE,因为比特率不会改变。我们的方法适用于连续模式决策。对于每幅图像,基于预先训练的网络权重,我们还使用学习率为110−5的Adam优化器对编码器进行100次迭代。We observe adecrease in R-D loss during finetuning, corre- sponding tothe improvement in compression performance.3) 评价方案。我们在柯达图像集[19]和CLIC验证数据集[ 1 ]中的专业子集上评估了我们的方法。柯达图像集由24幅图像组成,所有图像的分辨率为768 512。CLIC验证数据集的评价揭示了所提出的方法在更高分辨率的图像上的性能,即平均1803 - 1175。性能是衡量的比特率和失真。我们提出的比特率每像素(bpp)和失真的峰值信噪比(PSNR)。图示了R-D曲线和BD率[8],以比较不同的方法和设置。4.2. 定量比较我们将我们的方法与现有的端到端学习图像压缩方法进行了比较,这些方法针对MSE [7,13,17,21,24]1和传统的基于变换的编解码器进行了优化,即JPEG [31]、BPG [14]和VVC [9]。特别是对于VVC,我们在评估中使用参考软件VTM 8.0 [11],色度格式为4:2:0和4:4:4。柯达和CLIC专业验证集的总体结果如图所示。5(a)和(b)段。我们还比较了锚定在BPG上的这些方法的BD率,如表1所示。‘Ours+’表1表示我们的方法,1对于NeurIPS 2018,我们根据平均值评估已发布的模型和缩放超先验但没有自回归上下文模型。17387基 于 神 经 语 法 的 后 处 理 。 在 此 , 我 们 对 “Ours” 和“Ours+”使用连续模式决策(即在线微调策略)。没有连续模式决定的结果如图所示。第5(c)段。如示于图5(a)和(b),我们面向MSE的模型没有后处理已经可以超过最近的端到端学习图像压缩方法,如[17]以及先进的传统编解码器,如VTM 4:2:0和BPG。在CLIC上,与最先进的基于学习的方法[13]相比,我们甚至可以在相同的失真水平下节省更多的比特率,尽管我们不使用基于注意力的变换和高斯混合模型进行熵估计。一旦我们通过应用后处理来增加模型的复杂性,我们的方法就可以超越[13]甚至VTM 4:4:4。具体而言,与BPG相比,我们的模型在柯达上节省约20.1%的BD费率,在CLIC上节省约29. 7%。与最先进的编解码器VTM相比,我们的方法在Ko- dak上仅略微下降0.6%。而在CLIC上,我们可以将BD率性能提高约3%,证明了我们的方法的有效性。4.3. 定性比较我们还比较了我们的方法与其他编解码器的视觉质量。结果示于图六、由于量化,图像信号中的高频分量在BPG和VTM 4:4:4重建结果中丢失。它们还遭受阻塞伪影。与基线模型[21]相比,我们的方法保留了更多的细节。特别是,图中的垂直边缘。6的图像在经过基线模型压缩后模糊程度更严重,而我们的方法能够更好地重建图像的边缘。补充材料中提供了更多的视觉效果。4.4. 消融研究1) Neural-Syntax的有效性。为了验证我们提出的神经语法的有效性,我们将提出的方法与没有神经语法的基线模型进行了比较,即柯达上基于上下文模型的端到端学习压缩框架[21]。请注意,在此实验中,基于在线微调的连续模式决策机制未启用以进行公平比较。结果如图所示。5(c),凡我们的─Line Finetune和ICLR2019进行了比较。如图所示,我们的模型超过基线的幅度很大,对应于BD率的9.17%。实验结果表明了所提出的神经句法机制的有效性。2) 连续模式决策的有效性。我们提议将编码器与神经语法控制的解码器层一起微调,以实现连续模式决策。在这个实验中,我们在编码时在线微调每个图像的编码器参数。这样的微调使得编码器和解码器更好地适应表2.我们提出的方法、基线方法[21]和最先进方法[13]之间的复杂性和性能比较BD费率固定在我们的基线上,即,ICLR 2019 [21].方法#参数KBD率(↓)odakCLICICLR 2019 [21]百分百0% 0%2020年CVPR[13]百分之一百七十五-12.8%-12.4%我们百分之一百零一-9.5%-16.5%我们的+百分之一百二十五-15.5%-21.7%输入图像内容。我们比较了柯达的建议模型的R-D性能时,切换连续模式决策和关闭。比较如图所示。5( c ) , 对 应 于 Ours ( + ) w/o online finetune 和 Ours(+)w/ online finetune设置。在连续模式决策下,该模型能够进一步降低BD率,平均降低2.35%。应该注意的是,没有在线微调,我们的神经语法已经可以实现相当大的性能增益。因此,连续模式决策带来的额外性能改善是重要的。3) 神经元语法和后处理的复杂性分析。在前面的章节中,我们已经展示了神经语法和后处理的有效性。在这里,我们进一步展示了我们的模型(包括“我们的”和“我们的+”),基线模型[ 21 ]和最先进的基于学习的方法[ 13 ] 2之间的复杂性比较在表2中,我们可以发现我们的神经语法是相当轻的,只增加了1%的参数数量。与[13]相比,我们使用更少的参数来实现CLIC的更好性能。在应用基于神经语法的后处理之后,尽管我们的参数仍然较少,但我们可以在Kodak和CLIC上胜过[13MS-SSIM导向模型的结果可以在我们的补充材料中找到,在那里我们提供了更多的视觉比较和消融研究。5. 结论在本文中,我们探讨了端到端学习图像压缩中的数据相关变换。我们提出了端到端训练的神经语法,以提供更多的灵活性,在压缩不同的图像。神经语法机制还能够在推理时进行连续模式决策,从而在压缩每个图像时进一步提高R-D性能。实验结果证明了神经句法机制的有效性和优越的R-D性能。2为了使比较公平,这里我们使用https://github.com/LiuLei95/PyTorch-Learned-Image-Compression-with-GMM-and-Attention中的pytorch实现来调整平台。17388引用[1] 2020 年 学 习 图 像 压 缩 的 研 讨 会 和 挑 战 。http://www.compression.cc网站。 7[2] Eirikur Agustsson和Radu Timofte。NTIRE 2017挑战单幅图像超分辨率:数据集和研究。在proc IEEE/CVF计算机视觉和模式识别研讨会,2017年。7[3] Saxena Ankur和Felix C.费尔南德斯用于图像/视频编码中的帧内预测的基于DCT/DST的变换编码IEEE Trans.on Image Processing, 22 ( 10 ) : 3974 -3981,2013。一、二[4] JohannesBal le' , PhilipAChou , Da vidMinnen ,SaurabhSingh,Nick Johnston,Eirikur Agustsson,SungJin Hwang 和George Toderici。非线性变换编码IEEEJournal on Selected Topics in Signal Processing,15 :339- 353,2021。 3[5] JohannesBall e',ValeroLaparra,andEeroPSimoncelli. 使用广义归一化变换的图像密度建模。2016年国际学习表征会议论文集。二、三[6] Johannes Balle' ,Valero Laparra ,and Eero P Simoncelli.端到端优化的图像压缩。在Proc.国际会议上学习表示,2017年。 二、三[7] JohannesBal le´ , D a vidMinnen , SaurabhSingh ,SungJinHwang,and Nick Johnston. 基于尺度超先验的变分图像 在proc 2018年国际学习表征会议。三、五、七[8] 吉 赛 尔 · 比 昂 特 加 德 计 算 RD 曲 线 之 间 的 平 均PSNRVCEG-M33,2001年。7[9] 本杰明·布罗斯,陈建乐,刘珊多功能视频编码。JVET-K1001,2018年。二、七[10] 蔡建瑞和张磊。使用迭代非均匀量化的深度图像压缩。IEEEInternationalConferenceonImageProcessing,2018。3[11] 陈健乐,Yan Ye和Seung Hwan Kim。通用视频编码(草案8)。JVET-Q2002-v3,2020年。六、七[12] 陈彤、刘豪杰、马占、沈秋、曹勋、王尧。通过非局部注意力优化和改进的上下文建模进行端到端学习图像压缩。IEEE Trans. 图像处理,30:3179 -3191,2021。3[13] 郑学成、孙鹤鸣、Masaru Takeuchi和Jiro Katto。学习了用离散高斯混合似然和注意力模块进行图像压缩。IEEE/CVF计算机视觉和模式识别会议,2020年。三、七、八[14] 贝 拉 德 · 法 布 里 斯BPG 图 像 格 式 ( http ://bellard.org/bpg/)。访问时间:2021-09。2018. 一、二、六、七[15] 顾周业,林伟思,李步成,刘乔通。基于二维奇异值分解的低复杂度视频编码。IEEE图像处理学报,21(2):674-687,2012。2[16] 胡跃宇,杨文汉,刘嘉颖。用于学习图像压缩的粗到细超先验建模。AAAI人工智能会议,2020年。5[17] 胡跃宇,杨文汉,马占,刘嘉颖学习端到端有损图像压缩:一个基准。IEEE Trans. 模式分析和机器智能,2021年。七、八[18] Diederik P Kingma和Jimmy Ba。Adam:随机最佳化的方法。arXiv预印本:1412.6980,2014年。7[19] 伊士曼柯达。柯达无损真彩色图像套件(pho-tocd0992 ) 。 [ 在 线 ] 。 http://r0k.us/graphics/kodak/ 。 2013年。六、七[20] 蓝翠玲、徐季正、曾文俊、石光明、凤舞。用于视频编 码 的 可 变 块 大 小 信 号 相 关 IEEE Trans. on CircuitSystem for Video Technology,28(8):1920-1933,2018。2[21] Jooyoung Lee , Seunghyun Cho , and Seung-KwonBeack.端到端优化图像压缩的上下文自适应熵模型。2019年国际学习代表会议论文集。三五六七八[22] Sung-Chang Lim,Dae-Yeon Kim,and Yung-Lyul Lee.基于残差信号相关性的交替变换.在Congress on Imageand Signal Processing, 第 1 卷 , 第 389-394 页 , 2008年。2[23] Guo Lu , Chunlei Cai , Xiaoyun Zhang , Li Chen ,Wanli Ouyang,Dong Xu,and Zhiyong Gao.内容自适应和错误传播感知的深度视频压缩。 在proc 2020年欧洲计算机视觉会议6[24] D a vidMinnen,JohannesBal le',andGeo r geDToderici. 联合自回归和分层先验的学习图像压缩。神经信息处理系统进展,2018年。三、五、七[25] David Minnen、George Toderici、Michele Covell、TroyChi- nen、Nick Johnston、Joel Shor、Sung Jin Hwang、Damien Vincent和Saurabh Singh。使用平铺深度网络的空 间 自 适 应 图 像 压 缩在 procIEEE InternationalConference on Image Processing,2017。3[26] David Minnen、George Toderici、Saurabh Singh、SungJin Hwang和Michele Covell。学习图像压缩的图像相关局部IEEEInternationalConferenceonImageProcessing,2018。3[27] Ben Niu,Weilei Wen,Wenqi Ren,Xiangde Zhang,Lianping Yang , Shuzhen Wang , Kaihao Zhang ,Xiaoxun Cao,and Haifeng Shen.通过整体注意力网络实现单图像超分辨率。在2020年欧洲计算机视觉会议上。六、七[28] Saurabh Puri,Se' bastien Lasserre和Patrick Le Callet。混合 视 频 编 码 中 基 于 学 习 的 块 变 换 。 在 proc IEEEInternational Conference on Acoustics(IEEE国际声学会议)语音和信号处理,2016年。2[29] 马吉德·拉巴尼和拉詹·
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- IEEE 14总线系统Simulink模型开发指南与案例研究
- STLinkV2.J16.S4固件更新与应用指南
- Java并发处理的实用示例分析
- Linux下简化部署与日志查看的Shell脚本工具
- Maven增量编译技术详解及应用示例
- MyEclipse 2021.5.24a最新版本发布
- Indore探索前端代码库使用指南与开发环境搭建
- 电子技术基础数字部分PPT课件第六版康华光
- MySQL 8.0.25版本可视化安装包详细介绍
- 易语言实现主流搜索引擎快速集成
- 使用asyncio-sse包装器实现服务器事件推送简易指南
- Java高级开发工程师面试要点总结
- R语言项目ClearningData-Proj1的数据处理
- VFP成本费用计算系统源码及论文全面解析
- Qt5与C++打造书籍管理系统教程
- React 应用入门:开发、测试及生产部署教程
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功