没有合适的资源?快使用搜索试试~ 我知道了~
1用于极端学习图像压缩的生成对抗网络Eirikur Agustsson * Michael Tschannen法比安·门策拉杜·蒂莫夫特Luc Van Goolaeirikur@vision.ee.ethz.chmi. gmail.commentzerf@vision.ee.ethz.chtimofter@vision.ee.ethz.chvangool@vision.ee.ethz.ch瑞士苏黎世摘要我们提出了一个基于GAN的学习图像压缩系统,以极低的比特率运行我们提出的框架结合了一个编码器,解码器/生成器和一个多尺度编码器,我们共同训练一个生成的学习压缩目标。该模型合成了它无法存储的细节,在以前的方法失败并显示出强烈的伪影的比特率下获得视觉上令人愉快的结果。此外,如果原始图像的语义标签图是可用的,我们的方法可以完全合成解码图像中的不重要的区域,如街道和树木从标签图,按比例减少存储成本。一项用户研究证实,对于低比特率,我们的方法优于最先进的方法,即使它们使用的比特数超过两倍。1. 介绍基于深度神经网络(DNN)的图像压缩系统,简称深度压缩系统,近年来已成为一个活跃的研究领域。这些系统(例如:[39,5,34,6,30])通常与现代工程编解码器(如WebP [46],JPEG 2000 [38]甚至BPG [7](最先进的工程编解码器)竞争除了在自然图像上实现有竞争力的压缩率外,它们还可以很容易地适应特定的目标域,如立体或医学图像,并保证直接从压缩表示进行有效的处理和索引[42]。然而,深度压缩系统通常针对传统的失真度量进行优化,例如峰值信噪比(PSNR)或多尺度结构相似性(MS-SSIM)[45]。对于非常低的比特率(低于0.1比特/像素(bpp)),其中保留完整的图像内容变得不可能,这些失真度量失去意义,因为它们有利于局部(高熵)结构的逐像素保 留 , 而 不 是 保 留 纹 理 和 全 局 结 构 ( 参 见 [8] 和Sec.4.3)。为了进一步推进深度图像压缩,*前三位作者贡献相同。我们的原创 1567字节[B] JP2K 3138B+100%更大BPG 3573B+120% JPEG 13959B+790% WebP 9437B+502%我们的1567亿BPG3573亿+128%图1.将我们的结果与其他编解码器获得的结果进行视觉比较请注意,即使使用超过两倍的字节数,我们的方法在视觉上也优于所有其他编解码器。开发PSNR和MS-SSIM之外的新训练目标非常重要实现这一目标的一个有前途的候选人是对抗性损失[13],最近显示它可以捕获全局语义信息和局部纹理,产生强大的生成器,从语义标签映射中生成视觉上吸引人的高分辨率图像[20,44]。在本文中,我们提出了一个原则性的GAN全分辨率图像压缩框架,并使用它来实现221222极限图像压缩系统,目标比特率低于0.1bpp。此外,在以前的工作相比,我们提供了第一个彻底的用户研究这样一个框架的背景下,全分辨率图像压缩。在我们的框架中,我们考虑两种操作模式(对应于无条件和有条件GAN [13,32]),即• 生成式压缩(GC),在生成不同尺度的结构(例如树叶或建筑物正面的窗户)的同时保留整体图像内容,以及• 选择性生成压缩(SC),从语义标签图完全生成图像的部分,同时保留具有高度细节的用户定义区域。我们强调GC不需要语义标签映射(无论是用于训练还是部署)。GC的一个典型用例是带宽受限的场景,其中人们希望尽可能地保留完整图像,同时对于没有足够的位可用于存储原始像素的区域,返回到合成内容而不是块状/模糊的斑点。SC可以应用于视频呼叫场景,其中想要完全保留视频流中的人,但是视觉上令人愉悦的合成背景服务于该目的以及真实背景。在GC操作模式中,图像被变换成比特流并且使用算术编码来编码SC需要原始图像的语义/实例标签映射,其可以使用现成的语义/实例分割网络来获得,例如,PSPNet[49]和Mask R-CNN [17],并存储为矢量图形。就编码成本而言,这相当于小的图像维度无关的开销然而,压缩图像的大小与从语义标签图生成的区域成比例地减小,通常导致存储成本的显著总体降低。对于GC,一项全面的用户研究表明,我们的压缩系统在视觉上产生的结果比BPG [7](当前最先进的工程压缩算法)和最近提出的基于自动编码器的深度压缩(AEDC)系统[30]更具吸引力。特别是,当BPG使用的比特数分别比我们的模型在Kodak [24]和RAISE 1K[11]数据集上产生的比特数多95%和124%时,我们训练用于压缩一般自然图像的GC模型比BPG更受欢迎。当将目标域限制为Cityscapes数据集的街景图像时,我们的GC模型的重建优于BPG,即使后者使用了高达181%的比特。据我们所知,这些是第一个结果表明,在用户研究中,深度压缩方法在柯达数据集上的性能优于BPG,而且是大幅提升。在SC操作模式中,我们的系统无缝地将保留的图像内容与合成的内容相结合,即使对于跨越多个对象边界的区域,同时忠实地保留图像语义。通过部分生成图像内容,我们实现了超过50%的比特率降低,而不会显着降低图像质量。综上所述,我们的主要贡献如下。• 我们提供了一个原则性的GAN全分辨率图像压缩框架,并使用它来建立一个极端的图像压缩系统。• 我们是第一个在全分辨率图像压缩的背景下彻底探索这种框架的人• 我们根据用户研究在视觉质量方面设定了新的最先进水平,并大幅节省了比特率。2. 相关工作深度图像压缩最近已经成为一个活跃的研究领域。用于此任务的最流行的DNN架构是迄今为止的自动编码器[39,5,1,27,42,31,6]和递归神经网络(RNN)[40,41]。这些DNN将输入图像变换成比特流,比特流继而使用诸如霍夫曼编码或算术编码的熵编码方法被无损压缩。为了降低编码速率,许多深度压缩系统依赖于上下文模型来捕获比特流的分布[5、41、27、34、30]。测量原始图像和解压缩图像之间失真的常见损失函数是均方误差(MSE)[39,5,1,27,6,42],或感知指标,如MS-SSIM [41,34,6,30]。一些作者依赖于先进的技术,包括多尺度分解[34],渐进式编码/解码策略[40,41]和广义分裂归一化(GDN)层[5,4]。生成对抗网络(GANs)[13]已经成为一种流行的技术,用于以无监督的方式学习生成尽管存在稳定性问题[35,2,3,29],但它们被证明能够生成比以前的方法,并扩展到1024×1024像素的分辨率[47,22]的一些数据集。另一个方向,显示出巨大进展的是条件GAN [13,32],在各种数据集上获得了令人印象深刻的图像到图像转换结果[20,44,50,28](例如,地图到卫星图像),分辨率高达1024 × 2048 px [44]。[34]的工作培训和评估一个深压缩-针对经典MS-SSIM [45]度量优化的系统。此外,他们用对抗性训练方案补充了他们的方法,以减少压缩伪影。然而,由于没有消融研究显示其效果,因此无法评估其对抗方案的获益。相反,我们提供了一个彻底的研究,223EQwGD与针对MSE和MS-SSIM等经典损耗进行优化相比,我们的GAN公式具有更大的优势此外,他们的方法是非常不同的:首先,他们的GAN损失是非标准的,对真/假图像对进行操作,分类编码器E、解码器G和有限量化器q。编码器E将图像映射到潜在特征图w,其值然后被量化为L个级别C={c1,. . . ,cL} ∈ R,以获得可被编码为比特流的表示w_i=q(E(x))。解码器然后尝试恢复图像概率差异的解释通过形成重建X,=G(w). 为了能够分布(如[13,33])。其次,他们的训练使用var-平衡训练的各种技巧,例如基于梯度幅度重新加权损失,以及基于人工定义的损失阈值来交替发生器和振荡器的Santurkar等人[36]使用GAN框架来学习缩略图图像的生成模型,然后将其用作缩略图图像压缩的解码器其他作品使用对抗训练来去除压缩伪影(用于工程编解码器)[12]和单图像超分辨率[26]。最后,与我们的SC模式相关,基于图像内容的显著性在空间上分配比特率在工程压缩算法的上下文中具有很长的[37、15、16]。3. 背景生成对抗网络:给定一个数据集X,GANs可以通过生成器G(z)学习近似其(未知)分布px,该生成器试图将样本z从固定的先验分布pz映射到数据分布px。生成器G通过搜索(使用SGD)最小-最大目标最小GLGAN的鞍点而与CXD并行地训练,其中LGAN:= maxE[f(D(x))]+E[g(D(G(z)],(1)D其中G和D是DNN,f和g是标量函数。Nowozin等人[33]这表明,对于适当的选择,求解minGLGAN允许最小化G(z)和px的分布之间的一般f -发散。 我们在本文中采用最小二乘GAN [29],其中f(y)=(y − 1)2和g(y)= y2(对应于Pearsonχ2发散)。条件生成对抗网络:对于条件GANs(cGANs)[13,32],每个数据点x与附加信息s相关联,其中(x,s)具有未知的联合分布px,s。 我们现在假设, s是给定的,我们希望使用GAN来模拟条件分布px|S.在这种情况下,生成器G(z,s)和RQD(z,s)都可以访问边信息s,从而导致发散L cGAN:= max E[f(D(x,s))]+ E[g(D(G(z,s),s))]。D通过不可微的q反向传播,可以使用如[30]中的q的可微松弛编码w_n所需的平均比特数由entropyH(w_n)来测量,其可以用先验[1]或条件概率模型[30]来建模 的要优化的重构质量和比特率之间的所谓的E[d(x,x≠0)]+βH(w≠ 0).(二)其中d是度量x与x的感知相似度的损失。作为entropyH(w)的可微分估计器,权重β控制模型的比特率。然而,由于维数dim(w)和级别数L是有限的,因此熵由(例如,参见,[10])H(w∈ L)≤dim(w∈ L)l0 g2(L).(三)因此,设置β=0并通过界限(3)控制最大比特率也是有效的(即,通过E)的架构调整L和/或dim(w)。虽然潜在地导致次优比特率,但这避免了将熵明确地建模为损失项。4. GANs用于极端图像压缩4.1. 生成压缩x图2.我们的GC网络架构。所提出的用于极端图像压缩的GAN框架可以被视为(条件)GAN和学习压缩的组合,如在第一节中所介绍的。参见图2以获得架构的概述。使用编码器E和量化 器 q , 我 们 将 图 像 x 编 码 为 压 缩 表 示 w=q ( E(x))。该表示可选地与从固定的先验pv中提取的噪声v级联,以形成潜在向量z。然后,解码器/生成器G尝试生成与图像分布px一致的图像x=G(z),同时还在一定程度上恢复特定的编码图像x使用z=[w,v],这可以通过我们的鞍点目标来表示,用于(无条件)生成压缩,最小最大E[f(D(x))]+E[g(D(G(z))]深度图像压缩:为了压缩图像x∈ X,我们遵循[1,30]的公式,其中学习E、G和D+λE[d(x,G(z))]+βH(w),(4)224其中λ >0平衡失真项与GAN损失和熵项。14.2. 选择性生成压缩+对于GC和GC(D),E,G,由于(4)的最后两项不依赖于但是,它们并不直接影响其优化这意味着,计算器仍然计算与(1)中相同的f-散度LGAN,因此我们可以将(4)写为在整个图像上在生成和保存之间进行权衡,而我们还考虑了不同的设置,选择性生成压缩(SC)。在这里,网络在应该生成什么和应该保存什么方面受到指导。网络概述minE、GLGAN+λE[d(x,G(z))]+βH(w).(五)结构如图所示。9在附录E。为了简单起见,我们考虑二进制设置,其中我们我们注意到,方程(5)具有与正常GAN完全不同的动力学,因为潜在空间z包含存储关于真实图像x的信息的w。对H(w())的比特率限制是一个关键因素。如果我们都包含任意数量的比特(使用β=0和L,dim(w(x)足够大),E和G可以学习从G(z)=G(q(E(x)近乎无损地恢复x,使得失真项将消失。在这种情况下,px和pG(z)之间的散度也将消失,并且GAN损失将减小。不会有 效果的 另一方面,如果H (w)→0(使用β=∞或di m(w)=0),则w成为确定性的。在该设置中,z是随机的并且独立于x(通过v分量),并且目标简化为标准GAN加上失真项,其然后充当正则化器。通过限制W的进入,E和G将永远不能使d完全为零。在这种情况下,E,G需要构建与w相同空间维度的单通道二进制热图m。零的区域对应于应该被完全合成的区域,一的区域应该被保留。然而,由于我们的任务是压缩,我们约束完全合成的区域具有与原始图像x相同的语义。我们假设语义s是单独存储的,并在将它们馈送到生成器之前通过特征提取器F馈送它们G.为了用语义指导网络,我们屏蔽(逐像素)失真d,使得它仅在要保留的区域此外,我们将压缩表示在应该被合成的区域 假设热图m也被存储,则我们仅对与预留区域相对应的wm的条目进行编码,从而大大降低了存储它所需的比特率。在比特率上,其中w?在平均上比平衡GAN目标LGAN 而失真项由于s和m的存储成本,因此这种方法可能导致λE[d(x,G(z))],这使得G(z)一方面看起来例如,如果有一棵树,E无法存储精确的纹理(并使d变小),G可以合成它的大小以满足LGAN,而不是显示模糊的绿色斑点。因此,失真项使GAN训练并且倾向于防止模式崩溃(因为模式崩溃将导致非常大的失真值)。我们将此设置称为生成压缩(GC)。至于第二节中描述的GAN3,我们可以很容易地将GC扩展到条件情况。 我们考虑这样一种设置,其中图像x的附加信息s是场景的语义标签图,但有一个转折:我们只在训练过程中将s提供给EXD,而不是将s提供给E,G和D。我们将此设置称为“GC(D +)“。 我们强调,在GC和GC(D+)中,用训练模型编码或解码图像不需要语义(因为E,G不依赖于s)。最后,我们注意到Eq。类似于经典的率失真理论,其中H(W_n)是率/熵项。考虑到GAN损失和MSE损失之间的相互作用,我们观察到MSE损失稳定了训练,因为它惩罚了GAN的崩溃。1 在这个公式中,我们需要对真实图像进行编码,以从pw中 采样 。然而,这并不是一个限制,因为我们的目标是压缩真实图像,而不是生成全新的图像。比特率节省。我们考虑两种不同的训练模式:随机实例(RI),其随机选择语义标签图中的25%的实例并保留这些实例;以及随机盒(RB),其随机均匀地挑选图像位置并保留随机尺寸的盒。虽然RI模式适用于大多数用例,但RB可以为生成器创建更多的chal-challening情况,因为它需要将保留的框无缝集成到生成的内容中。4.3. PSNR和MS SSIM作为质量指标我们的模型的目标是真实的重建纹理,有时甚至更抽象的图像内容是合成的大小。诸如PSNR和MS-SSIM的常见失真测量最近[8]在数学上证明了这一事实,表明存在基本的感知失真权衡,即,在有损重构任务的情况下,低失真与高感知质量不一致。直观地说,测量合成和真实纹理块之间的PSNR本质上量化了纹理的方差,而不是合成纹理的感知质量。通过将我们的GC模型产生的重建与图11中的MSE基线和BPG获得的重建进行比较,这变得显而易见。3.第三章。虽然我们的重建显然看起来很逼真,但它们具有4.2dB22516·16MSE大于BPG。因此,我们依靠在全面的用户研究中收集的人类意见来评估我们的GC模型。5. 实验5.1. 架构、损耗和超参数我们的编码器E和生成器G的架构基于[44]中提出的全局生成器网络,而全局生成器网络又基于[21]的架构我们在附录E中提供了详细信息。对于熵项βH(w()),我们采用第2节中描述的简化方法。3,其中我们设置β=0,使用L=5个中心C={−2,1,0,1,2},并通过上限H(w)≤di m(w)lo g2(L)控制比特率。例如,对于GC,C= 2个瓶颈通道,我们得到0。0181bpp. 2我们注意到这是一个上界; H(w)的实际entro p y通常是smalle r,因为学习的分布既不是均匀的,也不是独立同分布的,这将是要求约束保持相等。我们使用一个算术编码器将w的通道编码成一个比特流,分别存储每个通道的频率(类似于[1])。在我们的实验中,这导致8。与上限相比,比特率降低了8%。我们离开上下文模型的探索,以潜在地进一步降低比特率,用于未来的工作。对于失真项d,我们采用λ=10的MSE。此外,我们采用了[44]中提出的具有相同权重的特征匹配和VGG感知损失,LFM和LVGG,这提高了图像从语义标签映射合成。这些损失可以看作是d(x,x≠ 0)的一部分。然而,我们在SC中不屏蔽它们,因为它们也有助于在这种操作模式下稳定GAN(如[44])。我们参考附录B了解培训详情。5.2. 评价数据集:我们使用Open Images数据集[25]中的188k图像训练GC模型(没有语义标签映射)来压缩各种自然图像,并在广泛使用的Kodak图像压缩数据集[24]以及RAISE 1K数据集[11]中随机选择的20张图像上对其进行评估。为了研究在训练时具有一定约束的应用领域和语义信息的好处,我们还使用Cityscapes数据集上的语义标签映射训练GC模型[9],使用从验证集中随机选择的20张图像进行评估。为了评估所提出的SC方法(需要语义标签图进行训练和部署),我们再次依赖Cityscapes数据集。城市景观是2H(wH)/WH≤WH·C·lo g2(L)/W H=0. 0181bpp,其中W,H我们的0.03521.8dBBPG0.03926.0dBMSE基线0.03524.0dB图3.由具有C=4个瓶颈通道的GC网络产生的图像的可视化示例以及BPG的相应结果,以及具有相同架构(C=4)但仅针对MSE(MSE bl.)训练的基线模型,城市风景我们以bpp为单位示出比特率,以dB为单位示出PSNR。我们的GC网络的重建比BPG和MSE BL更清晰,纹理更逼真尽管后两者具有更高的PSNR。特别是即使它是在Cityscapes数据集上训练的,也会产生模糊的重建,这表明单独的特定领域训练不足以在低比特率下获得清晰先前用于生成图像的图像使用GAN形成语义标签图[20,50]。基线:我们将我们的方法与基于HEVC的图像压缩算法BPG [7](4:2:2色度格式)和来自[30]的AEDC网络进行了比较。BPG是当前最先进的工程图像压缩编解码器,并且在PSNR方面优于其他最近的编解码器,例如JPEG2000和WebP。[6])。 我们完全按照[30]中的过程在Cityscapes上训练MS-SSIM的AEDC网络(瓶颈深度C=4),除了我们使用早期停止来防止过度拟合(请注意,Cityscapes比[30]中使用的ImageNet数据集如此获得的模型具有0.07bpp的比特率,并且在验证集上在相同bpp处获得比BPG稍好的MS-SSIM为了研究GAN项在我们的总损失中的影响,我们训练了一个仅具有MSE损失的基线模型(具有与GC相同的架构和相同的训练参数,参见第二节)。附录中的B用户研究:鉴于PSNR或MS-SSIM等经典失真度量不适合我们在这里研究的任务(第4.3节),我们通过Amazon MechanicalTurk(AMT)上的用户研究,与BPG和AEDC(用于Cityscapes)进行比较,定量评估GC模型的感知质量。3我们考虑两个C = 4的GC模型,8个瓶颈通道在OpenImages上训练,三个C=2,4,8的GC(D +)模型在Cityscapes和BPG上训练。是图像的尺寸,16是图像的下采样因子。特征图,见附录E。3https://www.mturk.com/226以0. 045比0。12bpp. 通过将由所选GC模型为所有测试图像产生的重建与由竞争基线模型并排产生的相应重建相结合(以随机顺序呈现重建)来组成样本。原始图像与重建一起示出,并且成对比较与来自相应测试集的附加未压缩图像与该图像的明显JPEG压缩版本的要求20个随机选择的唯一用户在问卷中指出他们对每对重建的偏好,导致Kodak的每对方法总共480个评级,以及RAISE1K和Cityscapes的400个评级对于每对方法,我们报告平均偏好得分以及每个用户平均偏好百分比的标准误差(SE)。只有在所有探测比较中正确识别原始图像的用户才被考虑用于平均偏好百分比计算。为了便于将来的作品比较,我们将发布用户研究中使用的所有图像。SC模型的语义质量:PSNR的问题 和第2节中描述的MS-SSIM。4.3对于SC模型变得更加严重,因为图像内容的大部分是从语义标签映射生成的。在图像翻译工作[20,44]之后,我们因此测量了我们的SC模型的能力,以保留合成区域中的图像语义,并合理地将它们与保留的区域混合-实际上训练了目标SC模型。具体来说,我们使用PSPNet [48]并计算为解压缩验证图像获得的标签映射与地面真实标签映射之间的平均交集(IoU)。作为参考,我们还报告了不使用语义标签映射进行训练和/或部署的基线的此度量。6. 结果6.1. 生成压缩图5显示了在Kodak和RAISE1K数据集上,我们的GC模型与BPG在不同速率下获得的平均偏好百分比此外,我们报告了GC模型与Cityscapes上的BPG和AEDC相比的平均偏好百分比用于将我们的方法与来自Kodak、RAISE 1K和Cityscapes数据集的图像的BPG进行并排比较的示例验证图像可以在图2中找到1、4和3。此外,我们对所有方法和基线进行了广泛的视觉比较,见附录F。即使BPG生成的图像比我们的柯达和RAISE1K模型生成的图像多使用95%和124%的位,我们C=4我们的0。0341 bppBPG 0. 102bpp图4.GC网络生成的RAISE1k图像的可视化示例,C=4,与BPG相比。分别值得注意的是,即使训练集和测试集之间存在分布偏移,也可以实现这一点(回想一下,这些GC模型是在Open Images数据集上训练的)。从Cityscapes的结果中可以明显看出领域特异性和语义标签图(用于训练)的好处:我们C = 2的GC模型比BPG更受欢迎,即使后者使用了181%以上的位。对于C=4,Cityscapes上的增益与GC在RAISE1K上获得的增益相当。对于所有三个数据集,BPG需要比我们的GC模型(C=8)多21%到49%的位。讨论:GC模型产生的图像比BPG具有更精细的细节,BPG受到平滑补丁和块伪影的影响特别是,GC模型可以很好地重建自然物体(如树木、水和天空)的纹理,但在涉及人类的场景中最具挑战性AEDC和MSE基线都产生模糊图像。我们看到,我们的模型的增益在极端比特率下是最大的,其中BPG在三个数据集上对于C = 2,4模型需要95对于C=8,增益较小,但仍然很大(BPG需要多21这是预期的,因为随着比特率的增加,经典压缩度量(PSNR/MS-SSIM)变得更有意义,并且我们的系统不采用当前最先进系统的全部复杂性:我们在附录A的表1中概述了最近学到的相关压缩方法及其与GC方法和BPG的差异,其中我们看到BPG是227pp)66b8(0.0C=GC我们百分百在柯达上更喜欢我们的GCmIoU与BPP我们的GC,C=4(0.033bpp),50%百分之七十五百分之五十首选GCC=4百分之四十百分之二十五BPG增加95%,GCC=4仍然优选[bpp]仍p]百分之三十0.020.0330.0420.065零点零八(GCC=4)0.10.020.066(GCC=8)0.08 0.1百分之二十百分百RAISE1K百分之七十五百分之十百分之五十百分之二十五0的情况。000. 040. 080120160200.020.033(GCC=4)0.065 0.0750.0980.130.020.0660.08(GCC=8)0.0980.120.13图7. 平均IoU作为我们的GC和SC网络以及MSE基线的Cityscapes验证集我们百分百百分之七十五百分之五十百分之二十五0.018(GCC=2)0.040 0.0590.069AEDC城市景观0.130.020.036(GCC=4)0.059 0.0690.079零点零九AEDC0.13显示两种SC模式:RI(inst.),RB(方框)。D+注释模型,其中实例语义标签映射被馈送到模型(仅在训练期间);EDG+表示语义标签映射用于训练和部署。pix2pixHD基线[44]从头开始训练50个epoch,使用与我们的方法相同的下采样1024×512px训练图像。这是在极端比特率下视觉上令人愉悦压缩的重要进步图5.在Kodak、RAISE1K和Cityscapes上评估GC模型的用户研究结果。每个图对应于我们的一个模型。该模型的比特率在x轴上用黑色菱形突出显示粗灰线显示了在该比特率(bpp)下更喜欢我们的模型而不是BPG的用户百分比蓝色箭头从我们的模型指向最高比特率的BPG操作点,超过50%的用户更喜欢我们的操作点,可视化BPG在该点上使用了多少比特 对于Kodak和RAISE1K,我们使用在Open Images上训练的GC模型,没有任何语义标签映射。对于Cityscapes,我们使用GC(D+)(仅在训练期间使用D的语义标签映射),并且我们还与AEDC基线(MS-SSIM优化)进行了比较。U(Open Images)U(Cityscapes)WGAN-GP(Cityscapes)图6. 对代码进行均匀采样(U,左),并使用WGAN-GP生成它们(右)。在视觉上仍能与当前最先进的技术相媲美。根据用户研究,我们实现了显著的比特率节省我们的GC,C=4首选GCC=4BPG增加124%,以及GCC=4仍然优选[bpp]不p][英国DRREEFE不良新闻=8秒CGC和ger,lar%G49BPrred普雷C=8GC)BPP66(0.08,C=GCurOLp][英国DFerre升前STIC=2GC和ger,lar%181BPGC=2rredGC普雷费)BPP18(0.02,C=GCurOLLp][英国DFerre预stilC=4GC和R、arge123%GBPrred普雷C=4GC)BPP36(0.04,C=GCurO我们的(GC、D+)我们的(SC,inst.,EDG+ )我们的(SC、box、EDG+)MSE基线BPGAEDCpix2pixHD基线[英国石油公司rred普雷费C=8GC和ger,larG21%被推迟的BP=8前GCC228对压缩表示进行采样:在图6中,我们通过对w的( 离 散 ) 潜 在 空 间 进 行 采 样 , 探 索 了 GC 模 型(C=4)学习的表示。 当我们统一采样,并使用GC模型解码成图像时,我们得到了一个“图像补丁汤”,它反映了模型训练的领域(例如,城市景观上的街道标志和建筑物斑块)。 注意,我们不应该期望这些输出看起来像正常图像,因为没有任何东西迫使编码器输出在离散潜在空间上均匀分布。然而,给定w的低维度(对于512×1024像素的城市景观图像为32×64×4),尝试了解真实的分布会很有趣为此,我们执行一个在Cityscapes的watchextron上进行简单的实验和训练改进的Wasserstein GAN(WGAN-GP)[14],使用默认参数和ResNet架构(仅调整-将 架 构 设 置 为 输 出 32×64×4 张 量 , 而 不 是64×64×3RGB图像)。通过从WGAN-GP生成器中为我们的GC模型提供样本,我们很容易获得-tain是一个强大的生成模型,可以从头开始生成清晰的1024×512px图像。我们认为这可能是构建高分辨率生成模型的一个有希望的方向。图在附录20统一的和学习的代码样本。后者比我们的GC网络产生更嘈杂的229路(0. 146 bpp,-55%)汽车(0. 227bpp,-15%)全合成。(0。035bpp,-89%)人(0. 219 bpp,-33%)建筑(0。199bpp,-39%)无合成器。(0。326bpp,-0%)图8.使用我们的SC网络合成不同的类,C=8。在每个图像中,除了没有合成,我们还合成了植物,天空,人行道,自我车辆,墙壁等类别。左下角的热图以灰色显示合成的部分我们展示了每个图像的bpp以及由于选择性生成而相对节省的成本。6.2. 选择生成压缩图图7显示了Cityscapes验证集上的平均IoU,作为C=2、4、8的SC网络的bpp的函数,以及基线获得的值此外,我们绘制了GC的平均IoU,其中语义标签映射被馈送到MSE(D+)和MSE基线。图8我们提出了示例城市景观验证im-由在C=8的RI模式中训练的SC网络产生的年龄,其中保留不同的语义类在Cityscapes上训练的SC网络的更多视觉结果可以在附录F.7中找到,包括RB操作模式获得的结果以及通过PSPNet [49]从输入图像中估计的语义标签映射获得的结果。讨论:语义保存能力的定量评估(图)。7)揭示了SC网络比pix2pixHD更好地保留语义,表明SC网络忠实地从标签映射生成纹理,并且合理地将生成的与保留的图像内容组合。BPG、AEDC和MSE基线的mIoU显著低于我们的SC和GC模型获得的mIoU,这可以说是由于模糊和块效应。然而,这并不奇怪,因为这些基线方法在训练和预测期间不使用标签图。在SC操作模式下,我们的网络在保留对象实例和跨越对象边界的框时,都能无缝合并保留的和生成的图像内容(参见附录F.7)。此外,与没有合成的相同网络相比,我们的网络导致bpp减少50%或更多,同时当合成具有重复结构的对象(例如树木、街道和天空)时,视觉在某些情况下,视觉质量甚至比BPG的视觉质量更好。相同的比特率。更复杂的合成大小的对象的视觉质量(例如,建筑物,人更糟。然而,这是当前GAN技术的限制,而不是我们的方法。随着GANs的视觉质量进一步提高,SC网络也将如此。值得注意的是,SC网络可以仅从语义标签图生成整个图像。最后是语义标签映射,它需要avg上的0.036bpp。对于缩小的1024×512px Cityscapes图像,与保留图像部分的存储成本相比,开销相对较大这个成本消失了因为语义掩码可以被存储为与图像维度无关的矢量图形。7. 结论我们提出了一个基于GAN的学习生成压缩框架,并首次对全分辨率图像压缩框架进行了深入研究。我们的研究结果表明,对于低比特率,这样的生成压缩(GC)可以提供显着的比特率节省相比,以前的国家的 最 先 进 的 方 法 优 化 的 经 典 目 标 , 如 MS-SSIM 和MSE,在用户研究中的视觉质量方面进行评估。此外,我们表明,限制应用领域的街景图像导致额外的存储节省,并探讨(SC)选择性地结合完全合成的图像内容与保留的语义标签地图时可用。未来工作的有趣方向是开发一种控制GC位空间分配的机制(例如,更好地保存面部;可能使用语义标签图),并且将SC与显著性信息组合以确定要保留哪些区域。致谢:这项工作得到了苏黎世联邦理工学院普通基金和英伟达GPU硬件资助的支持。230引用[1] Eirikur Agustsson , Fabian Mentzer , MichaelTschan-nen,Lukas Cavigelli,Radu Pastefte,LucaBenini,and Luc van Gool.用于端到端学习可压缩表示的软到硬矢量量化。神经信息处理系统的进展,第1141-1151页,2017年。二三五[2] 马丁·阿乔对k y和Le'onBottou。训练生成对抗网络的 两 种 原 则 arXiv 预 印 本 arXiv : 1701.04862 ,2017。2[3] 马丁·阿乔对ky,苏米特·钦塔拉和Le' on Bottou。Wasserstein生成对抗网络在机器学习国际会议的Proceedings,第214-223页,2017年。2[4] 约翰内斯·巴尔莱,瓦莱罗·拉帕拉,埃罗·P·西蒙-切利。感知质量的非线性变换编码的端到端优化。图片编码症状(PCS),2016年。2[5] 约翰内斯·巴尔莱,瓦莱罗·拉帕拉,埃罗·P·西蒙-切利。端到端优化的图像压缩。国际学习表征会议,2017年。一、二[6] JohannesBalle' , Da vidMi nnen , SaurabhSingh ,Sung Jin Hwang,and Nick Johnston.基于尺度超先验的变分在国际会议上学习表示(ICLR),2018年。一、二、五[7] Fabrice Bellard BPG 图 像 格 式 。网 址 : http ://bellard.org/bpg/一、二、五、十二[8] 约柴·布劳和托莫·麦克利。感知与失真的权衡。在IEEE计算机视觉和模式识别会议论文集,第6228-6237页,2018年。1、4[9] Marius Cordts , Mohamed Omran , SebastianRamos , Timo Rehfeld , Markus Enzweiler ,Rodrigo Benenson,Uwe Franke,Stefan Roth,andBernt Schiele.用于语义城市场景理解的cityscapes数据集。在IEEE计算机视觉和模式识别集,第3213二五十二[10] Thomas M Cover和Joy A Thomas 信息论的基本原理。John Wiley Sons,2012. 3[11] Duc-TienDang-Nguyen , CeciliaPasquini ,Valentina Conotter,and Giulia Boato. Raise:一个用于数字图像取证的原始图像数据集。ACMMultimedia Systems Conference , 第 219-224 页 。ACM,2015. 二五十二[12] Leonardo Galteri , Lorenzo Seidenari , MarcoBertini,and Alberto Del Bimbo.深部生成性压迫伪影消除。InProceedings ofIEEE计算机视觉和模式识别会议,第4826-4835页,2017年。3[13] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。神经信息处理系统进展,第2672-2680页,2014年。一、二、三[14] IshaanGulrajani、FarukAhmed、MartinArjovsky 、 Vin-centDumoulin 和 AaronCCourville。改进的瓦瑟斯坦甘斯训练。神经信息处理系统进展,第5767-5777页,2017年七、二十四[15] Chenlei Guo和Liming Zhang。一种新的多分辨率时空显著性检测模型及其在图像和视频压缩中的应用。IEEE Transactions on Image Processing,19(1):185-198,2010. 3[16] Rupesh Gupta 、 Meera Thapar Khanna 和 SantanuChaudhury。视觉显著性指导的视频压缩算法。信号处理:Image Communication,28(9):1006-1022,2013. 3[17] KaimingHe , Geor giaGkioxari , PiotrDolla'r ,andRossGirshick. 面 具 R-CNN 。 IEEEInternationalConference on Computer Vision(ICCV),第2980IEEE,2017年。2[18] Kaiming He,Xiangyu Zhang,Shaoying Ren,andJian Sun. 用于图像识别的深度残差学习。在IEEE计算机视觉和模式识别会议(CVPR)上,2016年6月。12[19] Sergey Ioffe和Christian Szegedy。批次标准化:通过减少内部协变量偏移来加速深度网络训练。国际机器学习会议,第448-456页,2
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Java集合ArrayList实现字符串管理及效果展示
- 实现2D3D相机拾取射线的关键技术
- LiveLy-公寓管理门户:创新体验与技术实现
- 易语言打造的快捷禁止程序运行小工具
- Microgateway核心:实现配置和插件的主端口转发
- 掌握Java基本操作:增删查改入门代码详解
- Apache Tomcat 7.0.109 Windows版下载指南
- Qt实现文件系统浏览器界面设计与功能开发
- ReactJS新手实验:搭建与运行教程
- 探索生成艺术:几个月创意Processing实验
- Django框架下Cisco IOx平台实战开发案例源码解析
- 在Linux环境下配置Java版VTK开发环境
- 29街网上城市公司网站系统v1.0:企业建站全面解决方案
- WordPress CMB2插件的Suggest字段类型使用教程
- TCP协议实现的Java桌面聊天客户端应用
- ANR-WatchDog: 检测Android应用无响应并报告异常
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功