没有合适的资源?快使用搜索试试~ 我知道了~
6638AC使用有损压缩学习更好的无损压缩Fabian Mentzer苏黎世联邦理工学院mentzerf@vision.ee.ethz.ch摘要Luc Van Gool苏黎世vangool@vision.ee.ethz.chMichael Tschannen谷歌研究,大脑团队tschannen@google.com我们利用BPG强大的有损图像压缩算法来构建一个无损图像压缩系统.具体地,原始图像首先被分解成用BPG压缩后获得的有损重建和相应的残差。然后,我们使用基于卷积神经网络的概率模型对残差的分布进行建模,该模型以BPG重建为条件,并将其与熵相编码以对残差进行有损编码。最后,使用BPG和学习的残差编码器产生的比特流的级联来存储所得到的压缩系统在学习的无损全分辨率图像压缩中实现了最先进的性能,优于以前学习的方法以及PNG,WebP和JPEG 2000。1. 介绍对在移动设备上连续生成的不断增长的数据量的有效存储的需求图像的JPEG [51]和视频的H.264 [53]等算法每天被数十亿人使用。在深度神经网络在图像分类中取得突破性成果之后[27],以及基于深度学习的方法的随后兴起,学习有损图像压缩已成为研究的活跃领域(例如,[6,45,46,37,2,4,30,28,48])。在有损压缩中,目标是在重构中给定某个允许的失真D的情况下实现小比特率R,即优化了率失真折衷R+λD。相反,在无损压缩中,不允许失真,我们的目标是通过传输尽可能少的比特来完美地重建输入。为此,数据的概率模型可以与熵编码技术一起使用,以经由比特流编码和传输数据。Shannon的里程碑式论文[ 40 ]中给出了这一想法的理论基础图1.所提出的学习无损压缩方法概述。为了对输入图像x进行编码,我们将其馈送到Q分类器(QC)CNN中以获得适当的量化参数Q,该参数用于使用BPG压缩x所得到的有损重构xl被馈送到残差压缩器(RC)CNN中,其预测残差的概率分布p(r|xl),有条件地在xl上。 算术编码器(AC)对残差进行编码,给定p(r),|xl)。在灰色中,我们可视化如何从双流重建x。学习的组分以紫色示出。由于使用数据分布的不精确模型而引起的开销。一个漂亮的结果是,最大化参数概率模型的似然性等同于最小化当使用该模型用于熵编码器的无损压缩时获得的比特率(参见,例如,[29])。通过似然最大化来学习参数概率模型已经在生成建模文献中得到了很大程度的研究(例如,[50,49,39,34,25])。最近的工作已经将这些结果与学习的无损压缩[29,18,47,24]联系起来。尽管最近学习的有损图像压缩方法在各种数据集上实现了最先进的结果,但通过非学习的基于H.265的BPG [43,7]获得的结果仍然具有很强的竞争力,而不需要复杂的硬件加速器(如GPU)来运行。虽然BPG在PSNR [30]和视觉质量[4]方面优于基于学习的方法,但它仍然特别擅长高PSNR有损重建。在本文中,我们提出了一个学习的无损压缩系统,通过利用有损BPG的力量,作为XLQCRCXLRC−+p(r|x l)RRACBPGXXp(r|xl)AC6639示于图1.一、具体地,我们将输入图像x分解成由BPG产生的有损重建xl和相应的残差r。然后我们学习概率模型p(r|xl),条件是有损重构xl。 这个概率模型是完全卷积的,并且可以使用单个前向通道(for-wardpass)来评估我们将其与算术编码器相结合,对残差进行有损压缩,并将图像作为BPG和残差压缩器产生的位串的级联进行存储或传输。另外,我们使用一种计算成本低廉的技术-nique从生成建模文献,调整的“确定性”(温度)的p(r|xl),以及辅助浅层分类器来预测BPG的量化参数,以便在每个图像的基础上优化我们的压缩器。 这些组成部分一起导致了一个国家的最先进的全分辨率学习无损压缩系统。我们所有的代码和数据集都可以在github上找到。1与无损压缩的最新工作相比,我们不需要计算和存储任何边信息(与L3C相反[29]),并且我们的CNN足够轻量级,可以在高分辨率自然图像上进行训练和评估(与[18,24]相反,据我们所知,它尚未扩展到全分辨率图像)。综上所述,我们的主要贡献包括:• 我们以一种新颖的方式利用经典的最先进的有损压缩算法BPG的功能来构建概念上简单的学习无损图像压缩系统。• 我们的系统在每个图像的基础上进行了优化,具有轻量级的后训练步骤,在那里我们获得了较低的比特率概率分布通过调整我们的概率模型的预测的置信度。• 我们的系统在学习无损全分辨率图像压缩L3C [29]方面优于最先进的技术,以及经典的工程算法WebP、JPEG200、PNG。此外,与L3C相比,我们在Open Images上的表现也优于FLIF,这是我们的方法(以及L3C)训练的领域。2. 相关工作学习无损压缩可以说是最密切相关的本文,Mentzer等人。[29]建立一个计算成本低的分层生成模型(称为L3C),以实现对全分辨率图像的实际压缩。汤森等人[47]和Kingmaet al. [24]利用受最近使用(连续)基于流的模型(例如,[35,23]),Hooge-1https://github.com/fab-jul/RC-PyTorchBoom等[18]提出了离散流(IDFs),定义了离散数据的可逆变换。与L3 C相比,后者的工作重点是较小的数 据 集 , 如 MNIST , CIFAR-10 , ImageNet 32 和ImageNet 64,在那里他们实现了最先进的结果。基于似然的生成式建模作为在第1节中提到的,当与熵编码算法一起使用时,实际上每个生成模型都可以用于无损压缩。因此,虽然以下生成方法不采用压缩 视 角 , 但 它 们 仍 然 是 相 关 的 。 最 先 进 的 基 于PixelCNN [50]的模型依赖于RGB空间中的自回归来有效地对条件分布进行建模。原始的PixelCNN [50]和PixelRNN [49]在给定所有先前像素的情况下(以光栅扫描顺序)对像素的概率分布进行建模。 要使用这些模型进行无损压缩,需要O(H·W)向前传球,其中H和W分别是图像的高度和宽度各种速度在[39]中提出了优化和可用于更快训练的概率模型。开发了不同的其他并行化技术,包括[34]中的那些,根据图像的子采样版本有条件地对图像分布进行建模,以及[25]中的那些,根据RGB金字塔和灰度图像进行建模。类似的技术也被使用[9,31]。工程无损压缩算法广泛的PNG [33]应用简单的自回归滤波器来去除RGB表示的冗余(例如,用与其左邻居的差异替换像素),然后使用DEFLATE [11]算法进行压缩。相比之下,WebP [52]使用更大的窗口来转换图像(启用逐块条件压缩),并依赖于自定义熵编码器进行压缩。主要用于有损压缩,JPEG 2000 [41]也有无损模式,其中使用从RGB到压缩空间的可逆映射FLIF[42]的核心是一种称为“元自适应近零整数算术编码”(MANIAC)的熵编码方法,其基于例如在以下H.264[53]。在CABAC中,用于压缩符号的上下文模型是基于局部上下文从有限集合中选择的[36]。MANIAC中的在有损压缩的上下文中的去噪方法与我们的方法相关,因为它们旨在对有损压缩过程中丢失的信息进行预测在这种情况下,目标是在给定有损重建的情况下产生更清晰和/或更视觉上令人愉悦的图像,JPEG。Dong等人[12]提出了第一个基于CNN的方法,使用受超分辨率网络启发的网络[44]延伸6640这使用残差结构,并且[8]依赖于分层跳过连接和多尺度损失。[13]探索了伪影去除上下文中的生成模型,该模型建议使用GAN [14]来获得更直观的−6 −5 −4 −3 −2 −10123456令人满意的结果3. 背景3.1. 无损压缩我们在这里给出了无损压缩基础的非常简要的概述,并参考信息论文献了解详细信息[40,10]。 在无损压缩中,我们考虑符号流x1,. . . .,XN,其中每个Xi是来自相同有限集合X的元素。该流通过独立于相同的分布p {\displaystylep}绘制每个符号x {i}来获得,即, Xi是I.I.D.。 根据p。我们感兴趣的是将符号流编码成比特流,这样我们就可以通过解码来恢复精确的符号在该设置中,p的熵等于编码每个xi所需的期望比特数:H(p)=bits(xi)=Exip[−lo g2p(xi)]。一般来说,然而,确切的p是未知的,我们考虑的是我们有一个近似模型p的设置。然后,预期比特率将等于P_i和P_i之间的交叉熵,通过:H(p,p)=Exip[−lo g2p(xi)]。(1)直觉,模型p用于从实际的p比特编码i,我们需要更多的比特来编码实际上根据p比特分布的数据。熵编码给定如上所述的符号流xi和概率分布p(不一定是p),我们可以使用熵编码对流进行编码。直观地说,我们想建立一个表,将X中的每个元素映射到一个位序列,这样如果p(xi)很高,则xi 最佳的是输出log2p(xi)比特用于符号xi,这是熵编码算法实现的例子包括霍夫曼编码[19]和算术编码[54]。通常,我们可以针对流中的每个符号使用不同的分布Pi,只要Pi也可用于解码。自适应熵编码算法通过允许这种变化的分布作为编码符号的函数来工作。在本文中,我们使用自适应算术编码[54]。3.2. 基于CNN的如前一节所述,对于无损压缩,我们所需要的只是一个模型p,因为我们可以使用熵编码来编码和解码给定p的任何输入损失。图2.在Open Images上使用BPG和QC预测的Q获得的残差值的边缘像素分布直方图。特别地,我们可以使用CNN来参数化p。为此,一种通用的方法是引入在编码和解码时都可用的(结构化的)边信息z,并且对自然图像x(i)的概率分布进行在z上有条件地,使用CNN来参数化p(x|z)。2假设编码器和解码器都可以访问对于z和p,我们可以如下对x(i)进行有损编码:我们首先使用CNN来产生p(x|z)。然后,我们采用熵编码器(在前一节中描述),其中p(x|z)以将x(i)编码为比特流。为了解码,我们再次将z馈送到CNN,获得p(x|z),以及使用熵解码器从比特流中解码x(i)。文献中的方法之间的一个关键区别是p(x)的因子分解|z)。在最初的PixelCNN论文[49]中,图像x被建模为pix-els序列,z对应于所有先前的像素。编码和解码都是自回归完成的。 在以色列国防军[18]中,x使用可逆函数映射到z,然后使用固定的先验p(z)对z进行编码,即, p(x|z)这里是z的决定性函数。在基于比特回退范例[47,24]的方法中,在编码时,通过从附加可用信息(例如,先前编码图像)。在L3C [29]中,z对应于利用分层模型提取的特征,所述特征也使用分层预测的分布保存到比特流。3.3. BPGBPG是一种基于HEVC视频编码标准[43]的有损图像压缩方法,本质上是在单个图像上应用HEVC。为了激励我们使用BPG,我们展示了由BPG在Open Images上获得的残差的边缘像素分布的直方图(我们的测试集,见图2中的第5.1节)。注意,虽然残差的可能范围是{-255,. - 是的- 是的 ,255},我们观察到,对于大多数图像,残差中的几乎每个点都在限制集合{-6,. . .,6},其指示BPG的高PSNR性质。此外,图A1(在(见附录)提出了一个比较的BPG国家的最先进的学习图像压缩方法,显示BPG仍然是非常有竞争力的PSNR。BPG遵循JPEG中有一个色度格式参数,使色彩空间子采样,我们通过设置为4:4:4禁用。 唯一剩下的参数设置2我们写p(x)来表示整个概率质量函数,p(x(i))表示在x(i)处估计的p(x)。6641CUVCUVCUVγ紫外线CUVLLL是量化参数Q,其中Q∈ {1,. . .,51}。更小的Q导致更少的量化并且因此导致更好的质量(即,与JPEG的质量因子不同,意味着更好的重建质量)。我们学习一个分类器来预测Q,如4.4节所述。4. 该方法我们在图中概述了我们的方法1.一、为了对图像x进行编码,我们首先从Q-分类器(QC)网络获得量化参数Q(第4.4节)。然后,我们用BPG压缩x,以获得有损重建xl,我们在三个RGB通道上使用(弱)自回归来定义通道上的联合分布,通过逻辑混合pm:p(r1,r2,r3|xl)=pm(r1|xl)·pm(r2|xl,r1)·pm(r3|xl,r2,r1),(3)其中我们去除了下标UV以简化符号。对于混合pm,我们使用K=5个逻辑分布pL的混合。我们的分布由RC网络的输出定义,它产生混合权重π k,平均值为µ k,方差σ k,以及混合系数我们将其保存到比特流中。 给定xl,残差COM-KCUV. 仅使用加压(RC)网络(第4.1节)预测残差r = x − x l的概率质量函数,即,p(r|xl)= RC(xl)。使用μ和的线性组合更新均值,先前通道的目标r,由系数λ缩放。因此,我们可以得到:我们对p(r|xl)作为逻辑分布的离散混合物,K1UVK1UVK2紫外线K2紫外线kαuv r1紫外线(第4.2节)。 给定p(r|x l)和r,我们压缩rK3紫外线K3紫外线Kβ紫外线r1uv+λkr2紫外线(四)对比特流使用自适应算术编码算法(see第3.1节)。因此,比特流B由对应于xl和r的代码的级联组成。去-通过这些参数,我们可以定义ΣK从B编码x,我们首先使用BPG解码器获得xl,然后我们再次获得p(r|xl)= RC(xl),并且pm(rcuv |xl,rprev)=k=1KCUVpL(rcuv|克KCUV ),(5)使用p(r)从比特流中顺序解码r|x l)。最后,我们可以重建x=xl+r。在3.2节的形式中,我们有x=r,z=xl。请注意,无论RC在预测真实情况方面r的分布,我们总是可以进行无损压缩。即使RC预测,例如,均匀分布-在这种情况下,我们只需要许多位来存储r。4.1. 渣油压缩机我们使用受ResNet [15]和U-Net [38]启发的CNN,如图所示。3.第三章。我们首先提取初始特征图f,其中Cf=128个通道,然后我们使用步幅-2卷积来缩小,并通过16个残差块进行馈送。代替ResNet中的BatchNorm[20]层,我们的残余块包含由[5]提出的GDN层。其次,我们使用转置卷积将分辨率提升回输入图像。由此产生的特征与f连接在一起,并卷积以收缩把2·Cf通道返回到Cf,就像在U-Net中一样。最后,网络分成四个尾部,预测不同的参数,混合模型的参数,π,μ,σ,λ,如下所述4.2. Logistic混合模型我们使用离散的物流混合物来模拟残差的概率质量函数p(r| [29,39]类似。我们在这里严格遵循[29]的公式:让c表示RGB通道,u,v表示空间位置。其中,r_prev表示索引小于c(参见Eq. 3),用于获得如上所示的μe,pL是logistic分布:e−(r−µ)/σpL(r|µ,σ)= σ(1 + e−(r−µ)/σ)2。我们通过其CDF在离散r处评估pL,如[39,29]所示,评估pL(r)= CDF(r +1/2)− CDF(r −1/2)。(六)4.3. 损失如在第3.1节中所激发的,我们感兴趣的是最小化残差p(r)的真实分布与我们的模型p(r)之间的交叉熵:交叉熵y越小,p越接近p(r),并且交叉熵y编码器将使用更少的比特来编码r。我们考虑具有N个训练图像x(1),. -是的-是的 ,x(N)。对每一个人来说-age,我们计算有损重建x(i)以及对应的残差r(i)=x(i)-x(i)。虽然真实分布p(r)是未知的,但我们可以考虑从样本中获得的经验ΣNL(RC)=− logp(r(i))|x(i))。λµ˜=µµ˜+λ=µµ˜=µ+λπ,σ6642(七)i=1这种损失在样本上分解,使我们能够在小批量上将其注意,最小化Eq.7是我们定义p(r|xl)=Yu,vp(r1uv,r2uv,r3uv|xl)。(二)这与最大化p的可能性相同,这是基于可能性的生成建模文献中采用6643σπp(r|xl)λCUVCC左丘夫CUVccuv残余块µXL尾巴图3.剩余压缩机(RC)的结构。在左侧,我们显示了残差块和尾部网络的放大图。给定xl,图像x的有损重建,网络预测残差的概率分布p(r|xl)。该分布是通过μ、σ、π、λ参数化的物流的混合。4.4. Q分类器预期自然图像的随机集合包含变化的“复杂度”的图像,其中复杂度可能意味着大量的高频结构和/或噪声。虽然实际上所有有损压缩方法都具有像BPG的Q这样的参数因此,在我们的方法中,针对所有图像固定Q实际上,在我们的流水线中,我们在分配给BPG的位和分配给编码残差的位之间进行权衡。这种权衡可以通过Q来控制:例如,如果图像包含更容易被4.5. τ优化受生成建模文献中采用的温度缩放的启发(例如,[22]),我们用一个简单的技巧进一步优化预测分布p:直觉上,如果RC预测的μcuv接近目标rcuv,我们可以在等式中得到交叉熵。通过选择更小的σ来使预测的逻辑“更确定”,从而使σ 7这将概率质量移向rcuv。然而,有一个突破点,我们使它“太确定”(即,概率质量过于紧密地集中在µcuv周围),交叉熵再次增加。虽然RC已经被训练以学习良好的σ,但是预测仅基于xl。当我们另外可以访问目标rcuv时,我们可以通过用因子τk重新缩放预测的σk来提高编码期间的最终比特率,因子τ k是为每个混合k和每个通道c选择的。这得到更优的σk=τk·σk。Ob viously,τ也RC网络建模时,使用较高的Q值是有益的,CUVc cuv使得BPG不会浪费编码这些分量的比特。我们观察到,对于固定图像和训练RC,存在单个最优Q。为了有效地获得一个好的Q,我们训练了一个简单的分类器网络,Q-Classifier(QC),然后使用Q=QC(x)用BPG压缩x。对于架构,我们使用了一个轻量级的ResNet启发的网络,具有8个resid-type。需要知道解码,因此我们必须转换-通过比特流传输。然而,由于我们只学习每个通道和每个混合(而不是每个空间位置)的τ,这会导致C·K=3·5浮点数=60字节的完全可以忽略的开销。对于给定的图像x(i),我们通过最小化以下等式来找到τ k:在Eq. 7、在这张照片上,我们优化Σ用于QC的块,并训练它来预测Q={11,. . .,17},给定图像X(Q是使用minτc,u,vlogpτ(r(i))|x(i)),(8)打开图像验证集)。与ResNet相比,我们-不使用归一化层(以确保预测与输入大小无关)。此外,通过平均合并每个最终Cf=256,通道的Cf×H′×W′维特征映射。的所得的Cf维向量被馈送到全连接层,以获得|Q|类,然后用softmax进行规范化。详情见补充材料第A.1虽然QC的输入是全分辨率图像,但网络是浅的,并且多次下采样,使其成为计算量很小的组件。其中pτ等于使用σ τ k从RCbut预测的p。为了优化方程。8,我们使用随机梯度下降,具有非常高的学习率9E−2和动量0。9,它在10-20次迭代中收敛,这取决于图像。我们注意到,这在计算上也很便宜。首先,我们只需要通过RC进行一次前向传递,以获得μ,σ,λ,π,然后在τ优化的每一步中,我们只需要计算τk·σk和随后的等式。8.其次,优化只有15个以上的参数。最后,由于对于实际的H×W维图像,H·W,我们可以在等式中求和4×空间上的8个pτ的子采样版本。++尾巴尾+尾巴残余块尾巴ConvGDNReLUConvGDNReLU转换ReLUConvConvLeakyReLU转化率→3·KConv步幅2ConvConv转置ConcatConvReLU6644LL[bpsp]Open ImagesCLIC.mobileCLIC.proDIV2KRC(我们的)2.7902.5382.9333.079L3c2.991+ 7。百分之二2.639+ 4。0%的百分比2.944 + 0。百分之四3.094+ 0。百分之五PNG4.005+44%3.896+54%3.997+36%4.235+38%JPEG 20003.055+9。百分之五2.721+ 7。百分之二三千两。百分之三3.127+1。占6%WebP3.047+ 9。百分之二2.774+ 9。百分之三三千零六加二。百分之五3.176+3。百分之二FLIF2.867+2。百分之八2.492−1。百分之八2.784−5。百分之一2.911−5。百分之五表1.与学习的L3C [29]以及经典工程方法PNG,JPEG 2000,WebP和FLIF相比,所提出的方法(RC)的压缩性能。我们用百分比来表示我们的方法的差异,用绿色表示我们实现了更好的bpsp,否则用红色表示。5. 实验5.1. 数据集像L3C [29]一样,我们在Open Images数据集[26]中训练30万张图像这些图像以JPEG格式提供,这对于我们正在考虑的无损压缩任务来说并不理想,但我们不知道类似的大规模无损训练数据集。预-在训练RC网络时它不可用。因此,我们用从{12,13,14}中选择的随机Q压缩训练图像,为每个图像获得一对(x,xl)Q分类器给定一个训练好的RC网络,我们随机选择10%的训练集,对每个Q∈ Q压缩每个选定的图像x一次,得到每个Q∈ Q。 然后,我们对每个对(x,x(Q ))评估RC,以在JPEG伪像上的过度拟合,我们缩小每列火车的规模-求最优Q′L它给出了最小比特率′使用从[0. 6,0。8]通过由Pillow li提供的Lanczos滤波器[32]。为了公平比较,L3C基线结果也通过在完全相同的数据集上训练获得。评估我们在四个数据集上评估我们的模型:OpenImages是来自Open Images验证集的500个图像的子集,像训练数据一样进行预处理。CLIC.mobile和CLIC.pro是最近的图像压缩论文中常用的两个新数据集,作为“学习图像压缩研讨会和挑战”(CLIC)[ 1 ]的一部分发布CLIC.mobile包含61张用手机拍摄的图像,而CLIC.pro包含41张由专业人士修饰的数码单反相机图像。最后,我们对来自DIV2K[3]的100张图像进行了评估,DIV2K是一个具有高质量图像的超分辨率数据集。我们在第A.3节中给出了这些数据集的例子。对于一小部分非常高分辨率的图像(注意,所考虑的测试集包含分辨率变化很大的图像),我们遵循L3C从图像x中提取4个不重叠的作物xc,使得组合xc产生x。然后我们将作物单独压缩。然而,我们评估了完整图像上的非学习基线,以避免有利于我们的方法的偏差。5.2. 培训程序剩余压缩机我们批量训练50个epoch从训练中随机抽取16个128×128作物,形象得到的对(x,x(Q))的列表形成QC的训练集。对于训练,我们使用softmax归一化logits和one-hot编码的基础事实Q'之间的标准交叉熵损失。我们训练了11个时期在32批随机128×128作物上,使用亚当优化器[21]。我们将初始LR设置为Adam-default1E−4,并在5和10个历元后衰减0倍。二十五5.3. 架构和培训消融如第5.2节所述,我们在训练期间选择随机Q我们探索了将Q固定为一个值(尝试Q∈ {12,13,14}),发现这会损害泛化性能。这可以通过以下事实来解释:如果我们具有随机Q,则RC在训练期间看到更多变化的残差统计裁剪尺寸的影响使用128×128的裁剪来训练在全分辨率图像上评估的模型似乎也是如此约束为了探索裁剪大小的影响,我们训练了不同的模型,每个模型在每次迭代中都看到相同数量的像素,但在批量大小与作物大小我们对每个模型进行了60万次迭代训练,然后在Open Images验证集上进行评估(使用固定的Q=14进行训练和测试)。结果如下表所示,表明较小的作物和较大的批量是有益的。批量大小裁剪大小打开图像上的BPSP设置,使用RMSProp优化器[16]。 我们从一个初始学习率(LR)为5E−5,我们衰减ev-e。16128×1282.854每100000次迭代乘以0。75. 从我们的Q-4256×2562.864分类器是在训练好的RC网络的输出上训练的,1512×5122.8776645GDN我们发现GDN层对于良好的性能至关重要。我们还探索了实例规范化和条件实例规范化层,在后一种情况下以BPG的比特率为条件,希望这将允许网络区分不同的操作模式。然而,我们发现实例归一化对用于训练的分辨率更敏感,这导致整体比特率更差。6. 结果和讨论6.1. bpsp中的压缩性能我们遵循以前的工作,评估每像素的位数(每个RGB像素有3个子像素),简称bpsp,有时称为每维位数。在表1中,我们展示了我们的方法在所描述的测试集上的性能。在我们训练的领域Open Images上,我们的表现超过了所有方法,包括FLIF。请注意,虽然L3C是在相同的数据集上训练的,但它并没有优于FLIF。在其他数据集上,我们始终优于L3C和非学习方法PNG,WebP和JPEG 2000。这些结果表明,我们的简单方法,使用一个强大的有损压缩器来压缩高层次的图像内容,并利用互补的学习概率模型来模拟低层次的变化,无损残差压缩是非常有效的。尽管我们只在Open Images上训练,但我们的方法可以推广到自然图像的各个领域:移动电话图 片 ( CLIC.mobile ) 、 专 业 摄 影 师 修 饰 的 图 像(CLIC.pro)以及具有各种复杂结构的高质量图像(DIV2K)。在图4中,我们显示了使用我们的方法,FLIF和PNG压缩时,Open Images的500个图像中的每一个的bpsp。对于我们的方法,我们还显示了用于存储每个图像的xl 的这一比例平均为42%,接近图中的高bpsp端。这个图显示了一组随机的自然图像所覆盖的bpsp的广泛范围,并激发了我们的Q分类器。我们还可以看到,虽然我们的方法的平均性能往往优于FLIF,但FLIF对于一些高bpsp图像更好,其中FLIF和我们的方法的bpsp接近PNG。6.2. 运行时我们使用NVidia Titan XP对512×512图像的RC和L3C的解码速度进行了比较。对于我们的组件:BPG:163ms; RC : 166 ms; 算 术 编 码 : 89.1ms; 即 , 总 共418ms,而L3CQC和τ-优化仅用于编码。我们在上面讨论过,这两个组件都是计算上便宜的。在实际运行时间方面:QC:6.48ms;τ-优化:35.2ms。6.3. Q分类器和τ优化在表2中,我们展示了使用Q分类器和τ优化的好处我们显示了Open Images验证集(顶部)和DIV2K(底部)的bpsp结果,以及预测Q的百分比,相对于使用固定Q = 14的基线(QC训练集的平均值,见第5.2节),偏离最佳Q′±1(表示为 最后一列显示通过RC的所需向前传递次数。654321百分百百分之五十0%的百分比←−图像索引−→500我们首先注意到,即使QC只在Open Images上训练(参见第5.2节),我们也可以在Open Images和DIV2K上获得类似的行为。此外,我们看到,使用QC明显优于对所有图像使用固定Q,并且与使用最佳Q′(0. 18%用于开放图像,0的情况。DIV2K为26%)。这可以通过以下事实来解释:对于94,QC设法预测Q在Q ′的± 1以内。8%的90.第90章. 2%的DIV2K图像。此外,bpsp的小幅度增加换来了计算Q′所需的7次前向传递减少到1次。从这个意义上说,使用QC类似于图像压缩算法中常见的图4.上图:bpsp在Open Images验证集的500张图像上的分布图像排序的bpsp实现使用我们的方法。我们展示了PNG和FLIF,以及仅存储有损重建(“x l only”)所需的bpsp底部:由我们的方法使用的用于存储xl的总位的分数。图像的顺序与顶部面板上的顺序相同。τ-优化表2显示在QC之上使用τ-优化降低了两个测试集上的比特率。讨论虽然两个组件的增益都很小,但它们的计算复杂度也很低(见第6.2节)。因此,我们发现这是相当令人印象深刻的,我们仅xlFLIFPNGBPG分数/总计英国石油6646输入/输出x有损重构xl残差r=x − xl来自我们预测的p(r)的两个样本|xl)图5.可视化学习到的分布p(r|xl)从中取样。我们将样本与地面真实目标残差r进行比较。我们还展示了我们有损压缩的图像x以及从BPG获得的有损重建xl为了更容易可视化,残差图像中等于0的像素被设置为白色,而不是灰色。 由于高频噪音,最好在屏幕上观看。报告收益。我们相信,在训练后根据实例调整大量参数的方向是图像压缩的一个非常有前途的方向一个富有成效的方向可能是使用专用架构,并包括端到端的调优步骤,如Meta学习。6.4. 可视化学习到的p(r|x l)虽然上一节的bpsp结果验证了我们模型的压缩性能,但研究RC预测的分布是很有趣的。请注意,我们预测每个像素的混合分布,这很难直接可视化。相反,我们从预测数据集设置bpsp±1 to Q′#forward OpenOptimal Q′2.789100%| Q|= 7图像固定Q=142.801 82.6% 1我们的QC 2.79494.8%1我们的QC +τ2.790 1DIV2K最佳Q′3.080100%| Q|= 7固定Q=143.096 73.0% 1我们的QC 3.088 90.2% 1我们的QC +τ3.079 1表2.在Open Images和DIV2K上,我们比较了使用最佳Q′编码图像与使用最佳Q ′编码图像的情况。固定Q= 14,使用由Q分类器预测的Q对于每个数据集,最后一行显示了应用τ优化获得的额外增益。第四列显示了预测Q值±1的百分比远离最优Q′,最后一列对应于Q优化所需的向前传递次数分布我们期望样本在视觉上类似于地面真实残差r=x−xl。取样结果见图10。5、我们在哪里sualize两个图像从CLIC.pro与他们的有损重建,如BPG获得。我们还显示了地面真实残差r。然后,我们展示了从概率分布p(r)获得的两个样本|xl)由我们的RC网络预测-工作 对于顶部图像,r在{-9,. . .,9},对于bot-汤姆,它在{-5,. . .,4}(cf.图2),并且我们将r重新归一化到RGB范围{0,. . .,255}用于可视化,但是为了减少眼睛疲劳,我们替换了最频繁的值(128,即,灰色),白色。我们可以清楚地看到,我们的方法i)学会了对这些图像固有的被BPG丢弃的噪声模式进行建模,ii)学会了正确地预测零残差,其中BPG设法完美地重建,以及iii)学会了预测与地面实况中的结构类似的结构。7. 结论在本文中,我们展示了如何利用BPG在全分辨率学习无损图像压缩中实现最先进的结果我们的方法始终优于L3C,PNG,WebP和JPEG 2000,并且在OpenImages数据集的图像上也优于手工制作的最先进的FLIF。未来的工作应该研究依赖于输入的优化,这也被FLIF使用,我们在这里开始通过优化残差的概率模型的规模(τ-优化)来探索。类似的方法也可以应用于有损图像和视频压缩方法的潜在6647引用[1] 学习图像压缩的工作坊和挑战https://www.compression.cc/challenge/网站。6[2] EirikurAgustsson,FabianMentzer,MichaelTschannen , Lukas Cavigelli , Radu Pastefte , LucaBenini,and Luc Van Gool.用于端到端学习可压缩表示的软到硬矢量量化。在NIPS,2017年。1[3] Eirikur Agustsson和Radu Timofte。NTIRE 2017对单图像超分辨率的挑战:数据集和研究。在CVPR研讨会,2017。6[4] EirikurAgustsson , MichaelTschannen , FabianMentzer,Radu Timofte,and Luc Van Gool.用于极端学习图像压缩的生成对抗网络。在ICCV,2019年。1[5] JohannesBall e',ValeroLaparra,andEeroPSimoncel l i. 使用广义 归一化变换的 图像密度建 模。arXiv预印本arXiv:1511.06281,2015年。4[6] JohannesBall e' , ValeroLaparra , andEeroPSimoncelli. 端到端优化图像压缩。ICLR,2016. 1[7] Fabrice Bellard BPG 图 像 格 式 。 网 址 : http ://bellard.org/bpg/1[8] Lukas Cavigelli , Pascal Hager , and Luca Benini. Cas-cnn:用于图像压缩伪影抑制的深度卷积神经网络在IJCNN,第752-759页,2017年。3[9] Xi Chen , Nikhil Mishra , Mostafa Rohaninejad , andPieter Abbeel. PixelSNAIL:一种改进的自回归生成模型.在ICML,2018。2[10] Thomas M Cover和Joy A Thomas 信息理论的要素。JohnWiley Sons,2012. 3[11] 彼得·多伊奇。DEFLATE压缩数据格式规范版本1.3。技术报告,1996年。2[12] Chao Dong , Yubin Deng , Chen Change Loy , andXiaoou Tang. 通过 深度卷积 网络减少 压缩伪 影。在ICCV,第576-584页,2015年。2[13] 莱昂纳多·加尔泰里,洛伦佐·塞代纳里,马可·贝尔蒂尼,阿尔-贝托·德尔宾博.深度生成对抗压缩伪影去除。在ICCV,第4826-4835页,2017年。3[14] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。在NIPS,2014。3[15] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。CVPR,第770-778页,2016年。四、十一[16] 杰弗里·辛顿,尼蒂什·斯里瓦斯塔瓦,凯文·斯沃斯基.机器学习的神经网络Lecture 6a小批量梯度下降概述。6[17] 杰弗里·辛顿和德鲁·范坎普通过最小化权值的描述长度来保持神经网络的简单性。在COLT,1993年。2[18] Hoogeboom,Jorn WT Peters,Rianne van den Berg,andMax Welling.离散流和无损耗压缩。在NIPS,2019。一、二、三[19] 大卫·霍夫曼。一种构造最小冗余码的方法。Proc.IRE,40(9):1098-1101,1952。3[20] Sergey Ioffe和Christian Szegedy。批次归一化:通过减少内部协变量偏移来加速深度网络训练。ICML ,2015。4[21] Diederik P Kingma和Jimmy Ba。Adam:随机最佳化的方法。2015年,国际会议。6[22] Durk P Kingma和Prafulla Dhariwal。Glow:具有可逆1x1卷积的生成流。NeurIPS,2018。5[23] Durk P Kingma,Tim Salimans,Rafal Jozefowicz,XiChen,Ilya Sutskever,and Max Welling.用逆自回归流改进变分干扰。在NIPS,2016年。2[24] Friso H Kingma,Pieter Abbeel,and Jonathan Ho. 比特交换:递归比特回退编码,用于具有历史潜在变量的无损压缩在ICML,2019。一、二、三[25] Alexander Kolesnikov和Christoph H Lampert。具有辅助变量的PixelCNN模型用于自然图像建模ICM
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功