基于空间自适应特征变换的深度图像压缩网络

103 浏览量更新于2023-10-13 收藏 2.13MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

2380基于空间自适应特征变换韩国首尔国立大学ECE{micmic123，jin0.choi，bhhan} @ snu.ac.kr摘要我们提出了一种基于空间特征变换（SFT）的通用深度图像压缩网络[45]，它将源图像和相应的质量图作为输入，并以可变速率产生压缩图像。我们的模型涵盖了广泛的压缩率使用一个单一的模型，这是由任意像素的质量映射控制。此外，所提出的框架允许我们执行任务感知图像压缩的各种任务，例如，分类，通过有效地估计特定于我们的编码网络的目标任务的优化质量图。这甚至可以使用预先训练的网络，而无需为单个任务学习单独的模型。我们的al-m实现了出色的率失真权衡比较的方法的基础上，分别为几个不同的目标速率进行优化的多个模型。在相同的压缩水平下，所提出的方法成功地提高了图像分类和文本区域质量保持的性能，通过任务感知的质量图估计，而无需额外的模型训练。代码源图像质量图（一）（b）第（1）款（c）第（1）款可在项目网站1。1. 介绍图像压缩已经被积极地研究了几十年，并且最近随着用于捕获和共享图像的移动设备的爆炸性使用而变得更加关键。有损图像压缩在这种趋势中是特别有用的技术基于深度学习的技术[5，6，11，18，23-许多基于学习的方法采用自动编码器网络对非线性变换进行编码并优化率失真权衡[13]。它们已经成为下一代图像压缩的新候选者1https://github.com/micmic123/QmapCompression图1.拟议的框架。(a)我们的压缩模型将质量图与图像一起作为输入。图像的压缩以质量图为条件，质量图指示逐像素的重要性。(b)通过非均匀质量图在测试时进行任务感知压缩。可以手动创建质量图或使用预训练的任务模型的输出（例如：例如，在一个实施例中，对象检测结果）。(c)可以在编码阶段通过最小化质量图的速率-任务损失来估计来自预训练模型的任务感知质量图，而无需微调模型。与传统的手工设计的编解码器相比，它们的高性能和适用性使其成为标准。学习有损图像压缩方法中的率失真优化通过最小化基于原始图像和对应输出图像之间的压缩比和失真的组合损失函数来实现对于目标函数，大多数现有算法依赖于图像空间上的均匀压缩比。然而，图像中的所有像素并不同等重要，并且在空间上-质量地图指导压缩模型压缩模型任务模型2381图2.使用我们的模型与各种质量的地图压缩结果所有图像均由同一模型获得除了均匀质量图（第2列和第6列）之外，质量图通过优化速率-任务损失来推断。每个质量图中的数字表示对应重构图像的每像素比特数（bpp）/PSNR（dB）/MS-SSIM/分类结果。两个不同的均匀映射的结果表明，我们的模型适应在很宽的比特率范围。其余的结果表明，我们的模型可以调整到所需的任务，而无需额外的模型训练。例如，具有分类感知质量图（第5列）的一个仅在具有类似bpp的所有重构图像中成功分类，同时具有最差的PSNR和MS-SSIM。定性地，它保持了鸟类识别的判别区域的质量，例如。例如，在一个实施例中，一只眼睛，牺牲了其他区域的质量通过识别感兴趣区域（ROI）的自适应图像压缩对于更好的性能是期望的另一方面，现有模型通常针对单个目标压缩率进行优化，并且它们到多个速率的扩展不是直接的。本文介绍了一种可变速率的图像压缩网络的基础上的重要性地图与空间自适应连续值。具体而言，我们优化了与率失真权衡有关的目标函数，其中图像失真受到2D实值质量图的约束，该图定义了用于计算均方误差（MSE）的逐像素权重。所提出的方法采用空间自适应仿射变换模块，该模块执行逐像素特征变换，并导致由质量图引导的压缩图像。请注意，我们的模型使我们能够以任意压缩率压缩图像，并获得具有由质量图给出的空间变化质量的压缩图像。除了图像压缩的灵活性，我们还提出了一种技术，自动生成任务感知的质量地图的backpropagation没有重新训练的模型和构建压缩图像优化的目标任务。与现有的基于可变速率和ROI的自适应图像压缩技术[2，3，9，11，12，18，27，43，46]，建议的框架更加灵活-简单的和可推广的。可变速率模型[11，12，46]显示出与单速率对比器相当的性能然而，Yanget al. [46]使用自动编码器仅处理几个离散压缩级别。Choi等人[11]和Cuiet al. [12]已经提出了连续可变速率模型，但是不适当地选择量化仓大小导致速率失真性能的劣化[11]。更重要的是，所有这些方法都没有考虑图像压缩的显式空间重要性基于递归神经网络（RNN）[18]的可变速率方法评估源图像中单个块的失真，以计算加权失真。然而，它使每个补丁的质量大致均匀，并通过引入动态比特分配的后处理来实现空间自适应性。Minnen等人[32]允许粗略的（每片）质量变化，但是与最近的方法相比，其编码速度慢且质量低。另一方面，存在基于ROI的压缩方法，其反映了给定的逐像素重要性[2，3，9，27]，但它们也限于采用二进制掩模并以预定义的离散水平压缩图像。图1示出了所提出的用于训练和推断的框架。我们的方法的主要贡献总结如下：2382我们提出了一种可变速率的图像压缩算法，rithm条件下的实值质量地图，它引导一个有效的比特分配在输入图像内的像素。我们设计了一个有效的网络架构的基础上，空间自适应的特征变换，它采取的优势，空间信息作为一个优先级，我们的条件下的图像压缩。我们的模型甚至优于固定速率模型的压缩性能在一个实际的比特率范围。我们介绍了一种方法来估计特定任务的质量地图的图像压缩在测试时。推断的质量图是有效的，以获取和有效的，以实现良好的性能，在目标任务。本文的其余部分组织如下。第2节回顾了深度图像压缩的相关文献，第3节详细介绍了所提出的方法。我们在第4节中展示了实验结果和分析。2. 相关工作本节首先讨论基于深度神经网络的基本图像压缩技术，并介绍两种自适应模型，包括可变速率压缩和ROI引导压缩。然后，我们描述了空间自适应仿射变换技术，这是密切相关的主要组成部分，在我们的算法。2.1. 深度图像压缩深度图像压缩模型学习最小化一对源图像和重构图像之间的失真，同时最大化速率和失真之间的权衡由拉格朗日乘数λ[13]控制，但大多数现有工作[1，4-已经提出了各种方法来改善速率失真折衷。例如，[5，23，28，31，32，37]在训练期间基于上下文结合了学习表示的熵预测，并且[24，25，28]在内部采用重要性图用于潜在表示的动态比特分配。一些方法引入了用于超先验的附加模型，其为条件熵模型提供边信息[6，23，30]。2.2. 可变速率压缩存在少数图像压缩方法来使用单个模型支持可变速率[11，12，18，43，46]。早期的方法[18，43]采用RNN，其中迭代次数用于控制目标速率。然而，在这方面，它们的编码和解码处理时间随着图像质量的提高而增加，这使得这些方法不实用。最近的作品[11，12，46]采用多个拉格朗日乘子值λ来定义损失函数，并允许训练模型使用取决于λ的具体来说，[46]提出了一种基于自动编码器的图像压缩网络，该网络支持多个离散级别的压缩率。Choi等人[11]在多个离散级别中选择量化仓大小以近似实值速率。然而，确定离散水平和箱大小并不简单，这使得输出图像的质量次优。另一方面，Cuiet al. [12]通过在预先训练的离散可变速率模型中对学习的参数进行插值来连续地调制压缩速率。所有这些上述方法通常采用以拉格朗日乘子为条件的信道仿射变换，并且显示出与独立训练的单速率模型相当的准确性。2.3. 基于ROI的压缩用于图像压缩的基于ROI的模型将二进制掩码作为额外的输入，以在ROI中保持更高的重建质量，同时忽略或折扣其他区域[2，3，9，27]。Agustsson等人[2]使用生成对抗网络（GAN）使用语义标签映射来合成重要区域，以实现极低的比特率。另一种基于GAN的方法[27]直接最小化重要区域的MSE，同时使用整个图像的特征匹配损失间接减少剩余部分的失真。Cai等人[9]提出了一种基于MS-SSIM作为失真度量的类似方法，其中他们训练模型以监督方式预测ROIAkutsu等人[3]采用以具有特定目标失真值的ROI掩模为条件的加权MS-SSIM。值得注意的是，据我们所知，所有现有的基于ROI的模型都限于使用二进制掩码。2.4. 空间自适应仿射变换自适应特征变换应用具有从外部信息动态生成的仿射参数的变换。在已经提出用于风格转移的自适应实例归一化[16]之后，[20，33，45]将该思想扩展到具有用于超分辨率、语义图像合成和去噪的逐元素区分的空间变化仿射不像[20，33]，空间特征变换（SFT）[45]调制网络的中间特征图而不进行归一化。所有这些工作都依赖于外部输入时，产生的空间变化的参数。另一方面，我们的方法采用的原始输入的网络，除了外部信息的SFT。···2383熵模型∈∈∈→解码器条件网络熵解码质量地图源编码器图像熵编码量化器条件网络比特流图3.我们模型的高级架构。为了在质量图上执行有效的压缩，我们将条件网络引入压缩模型。3. 质量图指导的图像压缩本节介绍了我们的主要思想的可变速率图像压缩，通过空间自适应特征变换引导的逐像素的质量地图。3.1. 概述该算法是基于ROI和可变速率图像压缩方法的广义和综合版本。对于源图像x=[xi]i=1：N，我们的模型采用质量图m=[mi]i=1：N（mi[0，1]）作为其边信息以反映x的空间重要性。质量图m定义压缩之后的逐像素质量水平。在标准的图像压缩方法，我们的模型由三个主要组成部分，编码器，量化器和解码器。编码器将以m为条件的x变换为潜在表示y，然后通过量化器r将其量化为y（）。由于量化值的舍入操作是不可微分的，因此在训练期间将其放宽为可微分的替代加性均匀噪声[5]。在量化之后，熵编码，e.例如，在一个实施例中，算术编码[38]对y（t）执行，并将其作为无损比特流。对于重建，解码器生成器-图4.空间特征变换（SFT）层[45]和我们实现的残差块的图示，其与[33]相关。SFT层采用先前层的中间特征和先验条件以产生逐元素缩放和移位参数γ和β。结果，对特征执行逐元素仿射变换。固定值确定了速率R和失真D之间的折衷。另一方面，我们的模型通过最小化R + ΛTD来实现可变速率压缩，其中Λ=[λi]i=1：NRN是由质量图 m 改变的拉格朗日乘数的非矢量而不是常数标量，而矢量化失真D RN测量每个像素的失真。Λ中的每个元素λ i由对应的m i通过预定义且单调递增的函数T确定：[0，1]R+，i. 例如，λ i=T（m i）。换句话说，质量等级mi越高，对应像素xi的失真项的权重λi越高。该框架导致对由m引导的空间比特分配的显式控制。速率R的估计需要学习以m为条件的熵模型P，其输出given表示的似然性，并且用近似熵替换R通过选择平方误差作为失真度量，所提出的空间自适应可变速率图像压缩模型的训练损失由下式给出：从y^计算重建图像x’。图3描绘了所提出的实施例的高级概念。模型我们的方法中的独特组件是L=−logP（y）|m）+我（xi我-x′i）2N.（一）地区网络，旨在有效利用质量地图。我们将在3.4节中详细讨论我们模型的体系结构。3.2. 率失真损耗有损图像压缩的目标是同时最小化比特流的长度和x与x’之间的失真。该目标提出了最小化R+λD的优化问题，其中a的拉格朗日乘子λ注意，空间上均匀的质量图利用单个标量λ来正则化标准率失真优化。3.3. 空间自适应特征变换我们的网络的特征在于空间特征转换（SFT）模块[45]，其中条件网络使用外部先验生成其适当的输入。我们设计了专门的SFT模块对图像进行压缩，有效地反映了图像的质量，侦察图像条件特征SFT层ConvReLUSFTLReLUConvSFTLReLUConvConvConvNΣλ2384××›→Ⓢ········图5.所提出的模型的网络架构我们将SFT层插入到卷积自动编码器中，并利用几个条件网络从输入图像和质量图中生成先验条件特征。编码器ga、超编码器ha和解码器gs中的每一个分别具有其自己的条件网络ga，c、ha，c和gs，c。注意，h_s指示超解码器。我们使用33个用于条件网络和SFT模块中的卷积层的内核，以及5个5、其他人。我们在我们的网络中采用了简化版本的广义分裂归一化（GDN）和逆GDN（IGDN）[17]。EC和ED分别表示熵编码和熵解码。可压缩的表示。图4展示了我们的SFT模块的修改后的结构。注意，SFT模块学习根据外部条件Ψ生成用于中间特征图f的逐元素仿射参数（γ，β）的集合;SFT层学习映射函数ζ：Ψ（γ，β）。在图层内，要素变换由下式给出SFT（f，f）=γf+β，（2）哪里表示逐元素乘法。在SFT [45]的早期工作中，所有SFT层共享一个条件网络，并且仅使用外部信息，即。例如，在我们的例子中，我是外部先验。在我们的算法中，图像压缩组件，如编码器和解码器，采用自己的条件网络，它采取的组件的输入，除了外部先验，并产生合适的空间重要性条件Ψ的SFT模块。此外，我们将分层SFT层与条件特征的渐进下采样（或上采样）相此外，我们使用卷积将条件特征变换为适当的大小，而不是简单的方法，如平均池化[20]和最近邻下采样[33]。这些调整提高了我们模型的容量，并导致性能增益。3.4. 网络架构和管道图5展示了从平均尺度（MS）超先验模型导出的所提出的架构[30]。在[30]中介绍的模型的几种变体中，我们选择了没有上下文模型的非自回归版本用于我们的熵模型P。在基线网络之上，我们的方法结合了具有用于三个组件一一编码器、解码器和超编码器中的每一个的多个SFT模块的条件网络，其中SFT模块被给予由匹配条件网络产生的Ψ我们在下面介绍了我们的网络设计用于图像压缩的详细过程。我们首先使用编码器 ga（，）和条件网络ga ， c（，）对图像x进行编码，给定质量图m，并生成潜在表示y，其由下式给出：y=ga（x，Ψ1），其中Ψ1=ga，c（x，m）。（三）在y中捕获空间自适应质量信息。超编码器ha（，）从潜在表示y生成图像特定的边信息z，其中另一个条件网络ha，c（，）被应用于（y，m），并且产生如下的条件变量hA，c（，）：z=ha（y，Ψ2），其中Ψ2=ha，c（y，m）。（四）=Concat.=↓2为↑2为=平均值池化质量地图↓2↓2↓2↓2↓2↓2,，输入图像Q��ECQ比特F��EC比特（，）EDED��重建图像��’↑2↑2↑2↑2,Conv-3Conv-48Conv-256LReLUConv-128LReLUConv-64SFTGDNGDNSFTConv-48 ↑2Conv-96 ↓2GDNSFTGDNConv-96 ↑2SFTConv-64 ↓2LReLUConv-64x1x1SFTGDNConv-192 ↓2GDNConv-192 ↑2SFTSFTConv-192 ↓2GDNSFTConv-64 ↑2LReLUConv-64x1x1GDNConv-192 ↑2Conv-192 ↓2SFT ResblkSFT ResblkSFT ResblkSFT ResblkConv-192高斯熵模型SFTLReLUConv-384Conv-192 ↓2SFTConv-48LReLUConv-48 ↑2LReLUConv-288 ↑2LReLUConv-96 ↑2LReLULReLUConv-192 ↑2Conv-192 ↓2因子熵模型SFT ResblkSFT Resblk2385我们Choi等人[11] M S +Context [30] M S[30]Lee等人[23]BPG（4：4：4）[8]Balle等人[6]优化时间 0.65s@1 优化时间 0.65s@5 优化时间 0.37s@1 优化时间0.37s@5Grad-CAM@1Grad-CAM@5Uniform@1Uniform@5峰值信噪比（dB）·····L·L381.03836360.83434323028260.0 0.2 0.4 0.6 0.8 1.0每像素位数（BPP）0.60.40.20.0 0.2 0.4 0.6 0.8 1.0每像素位数（BPP）323028260.0 0.2 0.4 0.6 0.8 1.0每像素位数（BPP）(a)(b)（c）第（1）款图6. (a)PNSR与Kodak数据集上基线方法的比较。没有上下文模型的平均尺度（MS）超先验模型[30]是我们的对应单速率模型。(b)使用推断质量图和均匀质量图对ImageNet数据集进行分类准确性比较。灰色线指示原始图像的精度当我们用随机初始化的质量图优化速率分类损失三次和五次时，平均运行时间分别为0.37和0.65秒我们通过改变交叉熵损失的权重来获得优化质量图的速率-准确度曲线作为优化的替代方案，我们采用没有地面实况标签的Grad-CAM [40(c)消融研究结果。W/O卷积缩放（CS）是指用平均池化来替换卷积层，以缩放条件网络中的中间特征。在在W/O源调节（SC）的情况下，所有的调节网络仅采用外部输入，即。例如，Ψ1=ga，c（m），Ψ2=ha，c（m），以及Ψ 3 =gs，c（w）。最后，对于W/O SFT，我们消除了所有的SFT层，并将条件特征馈送到前面的卷积层。注意，z捕获量化潜在表示y=Q（y）中的空间依赖性，并对y的概率进行建模。然后，量化的边信息z（=Q（z）被发送到h型解码器hs（），以生成高斯熵模型的参数（μ，σ），其近似y（）的分布。为了重建图像，解码器gs（，）对y（，）和条件网络gs，c（，）的输出进行操作，条件网络gs，c（，）由下式给出可以通过为任务（6）选择适当的预先训练的分类器来获取分类特定质量图以提高特定语义区域的质量我们强调，在测试时的这种额外的优化鼓励候选质量图提高目标任务方面的性能，并且通常使用均匀的质量图来获得体面的重建质量是足够的。此外，作为一个实际估计m*，可以使用任务模型的显着图或使用x′=gs（y，Ψ3），其中Ψ3=gs，c（y= 0，w）.（五）模型的中间特征或输出，e.G.国王面具尽管如此，我们优化的高质量地图注意，将调整大小（上采样）网络应用于z（）以获得质量图m的surrogate，因为m在解码器侧可能不可用，但z（）维持空间重要性信息。3.5. 任务感知图像压缩所提出的算法提供了任务感知的图像压缩能力，这可以通过在编码时使用预训练的任务模型来估计特定于任务的质量图来完成给定一个任务损失函数任务，最佳任务-具体质量图m * 由以下目标给出m*=argminP（y|m）+λLtas k，（6）其中λ是用于速率-任务权衡控制的拉格朗日乘数由于m的每个元素都在[0，1]中，因此通过标准的反向传播简单地实现了优化。预训练任务模型可以是用于任意任务的任何网络，甚至包括第三方任务。比如说，更高的速率任务性能比竞争的替代品。请注意，我们的框架通过仅在编码时改变m来处理任意任务，这与需要特定于任务的训练的其他任务感知方法不同[10]。补充文件有更多的讨论。4. 实验现在，我们提出我们的压缩模型的实验结果有关我们的结果（包括训练质量图、模型复杂度、定性结果和实验细节）的更多讨论和说明，请参阅补充文档。4.1. 训练和评价数据集和数据处理 COCO [26]数据集，通过随机裁剪256×256图像进行数据增强，无需调整大小。我们评估我们W/O卷积缩放无SFTW/O源调节W/O CS和SC峰值信噪比（dB）精度M2386·ROI掩模均匀图7.在我们的模型中使用ROI掩码的文本保留压缩示例在左列中，采用突出显示文本区域的ROI掩模（红框）黄色注释表示bpp、PSNR（dB）和MS-SSIM的三元组。柯达数据集上的率失真性能[22]。对于分类感知压缩，我们使用ImageNet [39]构建了一个测试集，选择102个类别，每个类别随机抽取5个图像。我们采用ICDAR2015 [19]数据集来获得文本保留压缩结果。实现细节我们的实现依赖于Pytorch [35]和开源压缩库[7]。对于熵编码器，我们采用由[7]提供的范围不对称Nu- meral系统[14]。我们训练我们的模型针对批量大小为8的2M迭代进行训练我们-使用Adam [21]优化器，其中学习率最初设置为10-4，并在140万次迭代后降至10- 5根据我们的经验，阈值为1的梯度裁剪[34]导致稳定的训练从质量图产生Λ的函数T（）被定义为T（x）= 0。001e4. 382x;该选择大约导致[0. 一，一。0]上。4.2. 率失真性能我们首先通过喂养多个统一质量的地图，不考虑空间自适应性来评估我们的可变速率模型的性能。为了进行比较，我们选择了最近的基于学习的图像压缩模型[6，11，23，30]和经典的最先进的编解码器BPG[8]。PSNR被用作评估度量，因为所有这些模型都针对MSE进行了优化该实验在Kodak数据集上进行。图6（a）说明了与基线方法相比，我们的模型具有更高的质量。不像其他可变速率技术[11，46]，其实现稍微差或在熵模型的等效架构下，与单速率计数器相比具有类似的性能，我们的模型优于相应的单速率模型MS[30]。我们的模型甚至比Lee等人的模型更好或更有竞争力。[23]和MS +Context [30]，它们采用耗时的自回归上下文模型。注意，单速率方法需要训练多个独立的模型以覆盖宽范围的速率，例如。例如，在一个实施例中，图6（a）中的6个M S模型我们的算法还优于最近的可变速率方法[11]，具有自回归上下文模型。我们强调，我们的模型不包括上下文模型，并有可能进一步提高性能。4.3. 任务感知压缩分类图6（b）比较了分类准确度与质量图的三个选项，包括通过速率-任务优化推断的图、Grad-CAM [40]和统一质量图。我们采用预训练的VGG 16 [41]来优化速率任务优化的交叉熵损失选择每个图像中具有最高预测分数的类来估计Grad-CAM而不是地面实况标签，因为场景更实用。为了验证泛化性能，我们使用预训练的ResNet18 [15]来获得分类精度。我们的任务感知质量地图优化在测试时显着提高分类准确性，同时产生不到第二个计算成本与TitanXp GPU。Grad-CAM还优于均匀质量图，这证明了在没有地面实况标签的情况下任务感知压缩的可行性文本保留图7演示了使用手动给定文本ROI掩码的文本保留压缩结果。结果表明，我们的模型成功地反映了ROI信息，并保留了文本区域，即使在苛刻的压缩率。4.4. 定性分析与其他方法的比较图8示出了我们的结果，其具有与来自柯达数据集的图像上的MS Hyperprior模型[30]和BPG [8]相比较的均匀质量图。我们的方法重建复杂的纹理比别人更好，同时实现最佳的PSNR和MS-SSIM分数在较低或相同的比特率。质量图与位分配图9示出了来自Kodak数据集的图像上的不同质量图的重建和位分配结果。比特分配图由每个元素处的所有信道上的平均负对数似然给出。2387源图像质量图01量化y的比特分配04图8.我们的模型，MS Hyperprior模型[30]和BPG [8]之间的比较。裁剪图像中的黄色注释指示整个图像的bpp/PSNR（dB）/MS-SSIM。0.0959/26.19/0.92370.2183/27.72/0.94910.4027/31.88/0.97470.6796/34.36/0.98451.0308/37.18/0.9899图9.我们的空间自适应压缩结果均匀和非均匀的质量地图与相应的比特分配地图。质量图中的黄色数字表示bpp/PSNR（dB）/MS-SSIM。重建图像是放大的最佳视图4.5. 消融研究图6（c）显示了消融研究的结果，以验证每个模块对率失真性能的贡献;所提出的采用SFT层和细化模块的方法提高了可变速率图像压缩的质量。最重要的是，将我们的模型与W/O源调节情况进行比较，另外对网络的原始输入进行调节，如网络建议的框架使我们能够执行空间自适应图像压缩的compres-锡永使用一个单一的模型给出一个真正的价值像素的质量地图的压缩率除了灵活性之外，我们的模型还有一个额外的好处，即在测试时自动估计特定于任务的质量图，而我们设计了一个高效的网络架构，基于空间-以及外部数据，e.例如，在一个实施例中，x和m代表g素八，贡献用于条件图像的自适应特征变换com-压力实验结果表明，本文提出的算法是有效的。对表演有明显的影响。这是因为我们的模型的自适应性通过根据给定相同质量图的原始图像生成不同的条件特征来增强。5. 结论我们提出了一种基于端到端可训练深度神经网络的RITHM即使与以固定速率独立训练的多个模型相比也实现了出色的性能，并且对计算机视觉中的各种任务具有广泛的适用性。致谢本研究得到了三星高等技术研究所和韩国政府（MSIT）资助的国家研究基金会（NRF）生物医学技术开发计划（第1101号）的2021M3A9E4080782）。2388引用[1] EirikurAgustsson，FabianMentzer，MichaelTschannen ， Lukas Cavigelli ， Radu Timofte ， LucaBenini，and Luc J Van Gool.用于端到端学习可压缩表示的软到硬矢量量化。NeurIPS，2017。3[2] EirikurAgustsson ， MichaelTschannen ， FabianMentzer，Radu Timofte，and Luc Van Gool.用于极端学习图像压缩的生成对抗网络。在ICCV，第221-231页，2019年。二、三[3] Hiroaki Akutsu和Takahiro Naruko。端到端学习的roi图像压缩。在CVPRW，第0页，2019年。二、三[4] Sharon Ayzik和Shai Avidan使用解码器侧信息的深度图像压缩。参见ECCV，第699Springer，2020年。3[5] JohannesBall e' ， ValeroLaparra ， andEeroPSimoncelli. 端到端优化的图像压缩。在ICLR，2017。一、三、四[6] JohannesBalle´ ， DavidMinnen ， SaurabhSingh ，SungJinHwang，and Nick Johnston.基于尺度超先验的变分图像压缩。在ICLR，2018年。一、三、七[7] JeanBe'gaint，FabienRacape'，SimonFeltman，andAkshayPushparaja.CompressAI：用于端到端压缩研究的 PyTorch 库和评估平台。 arXiv 预印本 arXiv ：2011.03029，2020。7[8] Fabrice Bellard BPG图像格式，2014年。一、七、八[9] Chunlei Cai ， Li Chen ， Xiaoyun Zhang ， and ZhiyongGao.端到端优化的roi图像压缩。TIP，29：3442二、三[10] 崔振英和韩宝亨。JPEG图像压缩的任务感知量化网络在ECCV中，第309- 309324. Springer，2020年。6[11] Yoojin Choi，Mostafa El-Khamy，and Jungwon Lee.使用条件自动编码器的可变速率深度图像压缩在ICCV，第3146-3154页，2019年。一、二、三、七[12] Ze Cui，Jing Wang，Bo Bai，Tiansheng Guo，and YihuiFeng.G-VAE：连续可变速率深度图像压缩框架。arXiv预印本arXiv：2003.02012，2020。二、三[13] 李·D·戴维森率失真理论与应用。Proceedings of theIEEE，60（7）：800-808，1972. 第1、3条[14] 杰瑞克·杜达不对称数字系统：结合霍夫曼编码的速度和算术编码的压缩率的熵编码。arXiv预印本arXiv：1311.2540，2013。7[15] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。CVPR，第770-778页，2016年。7[16] Xun Huang和Serge Belongie。实时任意样式传输，具有自适应实例规范化。在ICCV，第1501-1510页，2017年。3[17] 尼克·约翰斯顿，埃拉德·埃班，阿里尔·戈登和约翰内斯·鲍尔。计算效率高的神经图像压缩。arXiv预印本arXiv：1912.08771，2019。5[18] Nick Johnston ， Damien Vincent ， David Minnen ，Michele Covell，Saurabh Singh，Troy Chinen，Sung JinHwang，JoelShor和George Toderici。改进的有损图像压缩与启动和空间自适应比特率的递归网络。在CVPR中，第4385-4393页，2018年。一、二、三[19] Dimosthenis Karatzas，Lluis Gomez-Bigorda，AnguelosNicolaou，Suman Ghosh，Andrew Bagdanov，MasakazuIwa- mura ， Jiri Matas ， Lukas Neumann ， VijayRamaseshan Chan- drasekhar，Shijian Lu，et al. ICDAR2015年关于稳健阅读的竞赛。见ICDAR，第1156-1160页。IEEE，2015年。7[20] Yoonsik Kim ， Jae Woong Soh ， Gu Yong Park ， andNam Ik Cho. 通过自适应实例归一化将学习从合成噪声降噪转移到真实噪声在CVPR，第3482三、五[21] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。2015年，国际会议。7[22] 伊士曼柯达。柯达无损真彩色图像套件（Pho- toCDPCD 0992）。7[23] Jooyoung Lee，Seunghyun Cho，and Seung-Kwon Beack.用于端到端优化图像压缩的上下文自适应熵模型。在ICLR，2018年。一、三、七[24] 慕丽、左望梦、古书航、尤简、张大卫。学习内容加权深度图像压缩。TPAMI，2020年。第1、3条[25] 慕丽、左望梦、古书航、赵德斌、张大卫。学习卷积网络用于内容加权图像压缩。在CVPR中，第3214-3223页，2018年。第1、3条[26] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。Microsoft COCO：上下文中的公用对象。参见ECCV，第740-755页。Springer，2014.6[27] JonasLo¨hdefink，AndreasBa¨r，NicoMSchmidt，FabianH u¨ge r，PeterSchlicht，andTimFingscheidt.将学习的图像压缩集中在IEEE智能车辆研讨会（IV）中，第1641-1648页。IEEE，2020年。二、三[28] FabianMentzer，EirikurAgustsson，MichaelTschannen，Radu Timofte，and Luc Van Gool.深度图像压缩的条件概率模型。在CVPR中，第4394第1、3条[29] FabianMentzer ， GeorgeDToderici ， MichaelTschannen，and Eirikur Agustsson.高保真生成图像压缩。NeurIPS，33，2020。第1、3条[30] D a vidMinnen，JohannesBal le'，andGeo r geDToderici. 联合自回归和分层先验的学习图像压缩。NeurIPS，31：10771-10780，2018. 一、三、五、六、七、八[31] 大卫·明嫩和索拉布·辛格用于学习图像压缩的逐层自回归熵模型在ICIP中，第3339-3343页IEEE，2020年。第1、3条[32] David Minnen、George Toderici、Michele Covell、TroyChi- nen、Nick Johnston、Joel Shor、Sung Jin Hwang、Damien Vincent和Saurabh Singh。使用平铺深度网络的空间自适应图像压缩。ICIP，第2796- 2800页。IEEE，2017年。二、三[33] Taesung Park ， Ming-Yu Liu ， Ting-Chun Wang ， Jun-Yan Zhu.具有空间自适应归一化的语义图像合成。在2389CVPR中，第2337-2346页，2019年。三、四、五2390[34] Razvan Pascanu，Tomas Mikolov和Yoshua Bengio。关于训练递归神经网络的困难在ICML，第1310-1318页中PMLR，2013年。7[35] Adam Paszke ， Sam Gross ， Francisco Massa ， AdamLerer ， James Bradbury ， Gregory Chanan ， TrevorKilleen ， Zem- ing Lin ， Natalia Gimelshein ， LucaAntiga，et al. Pytorch：命令式的高性能深度学习库。NeurIPS，32：8026-8037，2019。7[36] William B Pennebaker和Joan L Mitchell。JPEG：静止图像数据压缩标准. Springer Science Business Media，1992.1[37] Oren Rippel和Lubomir Bourdev。实时自适应图像压缩。ICML，第2922PMLR，2017年。3[38] 乔玛·里萨宁和格伦·兰登。通用建模和编码。IEEETrans. Inf. Theory，27（1）：12-23，1981. 4[39] OlgaRussakovsky ， Jia Deng ， Hao Su ， JonathanKrause ， San- jeev Satheesh ， Sean Ma ， ZhihengHuang ， Andrej Karpathy ， Aditya Khosla ， MichaelBernstein，et al.图像网大规模视觉识别挑战。IJCV，115（3）：211-252，2015. 7[40] Ramprasaath R Selvaraju，Michael Cogswell，AbhishekDas，Ramakrishna Vedantam，Devi Parikh，and DhruvBatra.Grad-CAM：通过基于梯度的本地化从深度网络中进行可视化解释。见ICCV，第618-626页，2017年。六、七[41] Karen Simonyan和Andrew Zisserman用于大规模图像识别的非常深的卷积网络2015年，国际会议。7[42] Athanassios Skodras，Charilaos Christopoulos和TouradjEbrahimi。JPEG 2000静止图像压缩标准。IEEE信号处理杂志，18（5）：36-58，2001。1[43] George Toderici、Damien Vincent、Nick Johnston、SungJin Hwang、David Minnen、Joel Shor和Michele Covell。基于递归神经网络的全分辨率图像压缩在CVPR中，第5306-5314页，2017年。一、二、三[44] Michael Tschannen、Eirikur Agustsson和Mario Lucic。用于分布保持有损压缩的深度生成模型。NeurIP

下载后可阅读完整内容，剩余1页未读，立即下载