没有合适的资源?快使用搜索试试~ 我知道了~
模糊、噪声和压缩鲁棒生成对抗网络
13579模糊、噪声和压缩鲁棒生成对抗网络Takuhiro Kaneko1原田达也1, 21东京大学2理研房生成(FID:34.9)生成(FID:24.2)(a)训练图像(b)GAN(基线)(c)BNCR-GAN(拟议)图1. 模糊、噪声和压缩鲁棒图像生成的示例。 虽然最近的GAN已经显示出显着的结果,在图像再现中,它们可以忠实地再现训练图像(b),尽管由于模糊、噪声和压缩而退化(a)。为了解决这一限制,我们提出了模糊、噪声和压缩鲁棒GAN(BNCR-GAN),即使在用退化图像(a)训练并且不知道退化参数(例如,模糊核类型、噪声量或质量因子值)。该项目的网页可在https://takuhirok.github.io/BNCR-GAN/上查阅。摘要生成对抗网络(GAN)由于其复制图像的能力而受到了相当大的关注。然而,它们可以忠实地重建训练图像,尽管图像以模糊,噪声和压缩的形式退化,生成类似的退化图像。为了解决这个问题,最近提出的噪声鲁棒GAN(NR-GAN)提供了一个部分的解决方案,通过演示的能力,学习一个干净的图像生成器直接从嘈杂的图像使用两个生成器模型,包括图像和噪声发生器。然而,其应用限于噪声,由于其加性和可逆特性,噪声相对容易分解,并且其应用于不可逆图像退化,以模糊、压缩和所有组合的形式为了解决这些问题,我们提出了模糊,噪声和压缩鲁棒 GAN(BNCR-GAN),它可以直接从退化图像中学习干净的图像生成器,而无需了解退化参数(例如,模糊核类型、噪声量或质量因子值)。 受NR-GAN的启发,BNCR-GAN使用由图像,模糊核,噪声和质量因子生成器组成的多生成器模型。然而,与NR-GAN相反,为了解决不可逆特性,我们引入了掩蔽架构,在降级之前和之后使用旁路以数据驱动的方式调整降级强度值此外,为了抑制由组合引起的不确定性,模糊,噪声和压缩,我们引入了自适应一致性损失,根据退化强度在不可逆退化过程之间施加一致性。我们通过对CIFAR-10的大规模比较研究和对FFHQ的一般性分析,此外,我们证明了BNCR-GAN在图像恢复中的适用性1. 介绍构建生成模型以生成与真实图像无法区分的图像是计算机视觉和机器学习中的一个基本问题。然而,最近在这方面已经取得了重大进展,这是由于深层生成模型的出现。其中,生成对抗网络(GAN)[22]通过对抗训练学习数据分布,由于其高图像再现能力而引起了相当大的关注。然而,一个持续存在的问题是,高容量GAN可以高保真地复制训练图像,即使图像退化,因此它们往往会在其生成的图像中复制各种形式的图像退化。如图1所示,当标准GAN用因模糊、噪声和压缩而退化的图像(即,JPEG)(图1(a)),它产生类似的退化图像(图1(b)),因为标准GAN架构不考虑这种图像退化。这模糊+噪声+压缩13580当在真实世界场景中收集训练图像时是有问题的(例如,网络爬行),因为识别退化图像是费力的。为了解决这个问题,经常进行艰苦的人工预筛选。一种充分探索的解决方案涉及使用图像恢复模型来恢复图像,诸如基于模型的图像恢复方法[12,23,17,57,8,56,16,54,58,18,75,42,88,67,19],在训练GAN之前然而,通过这些方法恢复的图像往往是过度或欠恢复,由于预定义的和真实的先验之间的差距。1为了克服这个缺点,已经开发了各种基于学习的方法。然而,这些方法中的大多数需要用于训练的附加监督,诸如配对监督(例如,对干净和退化的图像)[87,77,74,9,65,21,45,46,28,61,79,93,94,10,25,15,78,20,49,86]或设置级别监督(即,标签指示图像是否降级)[55,52]。2AmbientGAN [4]最近被提出作为一种不同的方法。这通过在生成的图像上模拟图像劣化并学习将真实劣化图像与劣化生成的图像区分开的分类器来提供有希望的解决方案。该公式允许直接从退化图像学习干净图像生成器,而无需任何预处理或配对/集合级监督。然而,它依赖于一个强有力的假设,即退化参数,如模糊核类型,噪声量和品质因数值,是预先已知的。受这些先前研究的启发,我们解决了开发一个模型来学习一个干净的图像生成器的问题,直接从退化图像,而不知道退化参数。特别是,为了将该解决方案应用于真实世界的图像,我们的目标是处理由代表性图像退化模型[87]退化的图像,该模型以与真实图像采集过程相同的顺序处理模糊、噪声和压缩(详见等式1)。基于这一目标,我们专注于模糊,噪声和压缩,并参考上述问题的模糊,噪声和压缩鲁棒图像生成。我们exemplify一个解决方案,使用我们提出的模型,如图1(c)所示。我们的目标是设计一个模型,可以学习生成干净的图像(图1(c)),即使在使用模糊,嘈杂和压缩图像(图1(a))进行训练时。噪声鲁棒GAN(NR-GAN)[30]使用由噪声和图像生成器组成的双生成器模型,通过展示学习直接从噪声图像生成干净图像的能力,然而,NR-GAN假设图像信息在退化之前和之后是无损的,并且利用这一特性将退化图像分解为干净图像和退化分量。因此,它的应用仅限于噪声,噪声具有加性和可逆性。1基于深度图像先验的方法[81,68]可以交替使用;然而,它们需要针对每个单独的图像进行优化。预训练但是,其特性及其以模糊、压缩和所有这些的组合的形式应用于不可逆降解仍然是一个挑战。为了解决这些问题,我们提出了模糊,噪声和压缩鲁棒GAN(BNCR-GAN),它可以直接从模糊,噪声和压缩图像中学习干净的图像生成器。 为了解决这些子问题,我们首先提出了两个变体:模糊鲁棒GAN(BR-GAN)和压缩鲁棒GAN(CR-GAN),它们分别专用于模糊和压缩。沿着NR-GAN的路线,BR-GAN和CR-GAN分别学习模糊核生成器和质量因子生成器,以及干净图像生成器,以学习模糊核/质量因子分布以及图像分布。然而,与NR-GAN相反,为了解决不可逆的模糊/压缩特性,引入了在数据驱动中适应退化强度的掩蔽架构,在图像退化之前和之后使用旁路。这种架构约束对于通过模糊或压缩只进行必要的更改而抑制不必要的更改非常有用。BNCR-GAN 是 集 成 了 BR-GAN 、 NR-GAN 和 CR-GAN的统一模型,其独特的问题是它需要处理由模糊、噪声和压缩的组合引起的不确定性。因此,我们在公司新的损失称为自适应一致性损失,根据退化强度的不可逆退化过程之间的一致性。这种损失有助于防止生成的图像产生意外的伪影,这些伪影可能会在不可逆过程后消失并变得不可识别。由于模糊,噪声和压缩对GAN的影响在以前的研究中没有得到充分的研究,我们首先对CIFAR- 10进行了大规模的比较研究[43],其中我们比较了各种退化设置下的各种模型,其中我们测试了134个条件。此外,在最近对GAN [47]和NR-GAN [30]的大规模研究之后,我们分析了更复杂数据集的一般性,即FFHQ[35]。3最后,我们研究了BNCR-GAN在图像恢复中的适用性,并证明了尽管BNCR-GAN被设计为以无监督的方式进行训练,但它仍然可以与两个监督模型(即,具有集合级监督的CycleGAN [97]和具有预定义图 像 退 化 模 型 的 无 监 督 对 抗 图 像 重 建 ( UNIR )[66])。我们的贡献概述如下。• 我们提出了模糊,噪声和压缩鲁棒的图像生成,其中干净图像的生成是直接从退化图像中学习的,而不需要知道。退化参数的边缘。• 为了解决这些子问题,我们提出了BR-GAN,CR-GAN,它训练模糊核生成器和基于模型的方法[68]提供了另一种解决方案;然而,它们获取干净图像的集合以用于训练预训练模型。2自我监督学习方法[44,2,48]也被提出;然而,它们的应用仅限于去噪。3我们排除了[47,30]中使用的LSUN BEDROOM[91],因为它的图像是用JPEG压缩的,并且地面真实的非退化图像不可用。13581质量因子生成器,分别与干净的图像生成器。特别是,我们设计了掩蔽架构,以调整退化强度使用旁路之前和之后的退化。• 为了处理所有类型的图像退化,我们进一步提出了BNCR-GAN,它将BR-GAN,NR-GAN和CR-GAN作为单一模型。特别是,为了解决由组合引起的不确定性,我们引入了自适应一致性损失。• 我们通过对CIFAR- 10(其中我们测试了134种条件)和一般性的比较研究,为这些新问题提供了基准分数。对FFHQ进行了分析。我们还证明了BNCR-GAN在 图 像 恢 复 中 的 应 用 。 项 目 页 面 可 在 https ://takuhirok上找到。github.io/BNCR-GAN/.2. 相关工作深层生成模型。图像生成是计算机视觉和机器学习中的一个基本问题。最近,深度生成模型,如GAN[22],变分自编码器[38,72],自回归模型[82]和基于流的模型[13,14],已经引起了人们的关注,并取得了可喜的成果。所有模型都有优点和局限性。GAN的一个共同缺点是它们的训练- 不稳定;然而,这已被最近的进展[1,60,51,3,73,24,39,63,64,33,92,6,11,35、36、96、34]。在这里,我们针对GAN,因为它们的设计灵活性允许我们的核心思想,即多发电机模型。关于其他模型[83,71,62,37],图像再现性已得到改善;因此,图像退化的敏感性可能存在问题。将我们的想法应用于它们仍然是未来工作的一个潜在方向。图像恢复。图像恢复,例如去模糊、去噪和去块(或压缩伪影去除)也是基本问题,并且存在大量工作。典型的方法被归类为基于模型的方法[12,23,17,57,8,56,16,54,58,18,75,42,88,67,19]和基于学习的方法[87,77,74,9,65,21、45、46、28、61、79、93、94、10、25、15、78、20、49、86、55、52、44、2、48]。最近,基于学习的方法已经取得了更好的性能;然而,如第1节所述,大多数方法需要额外的监督,例如配对或集合级监督。相反,基于模型的方法(例如,去模糊[18,75,42,88,67]和去块[19])可以在没有这种监督的情况下使用。然而,预定义的和真实的先验之间的差距导致过度或不足的恢复和损害图像保真度。我们通过第7节中的实验证实了这一点。退化鲁棒图像生成。 最近,关于退化鲁棒图像生成的两类研究变得明显,包括解决标签退化的研究[32,31,29,80]和解决图像退化的研究[ 32,31,29,80 ]。降解[4,66,90,50,30]。这项研究属于最后-第三类。如第1节所述,AmbientGAN [4]是该类别中的先驱模型;然而,它受到预先定义降解参数的假设的限制。UNIR [66]将AmbientGAN扩展到了concept设置,但也受到了同样的限制。生成对抗性插补网络[90]和MisGAN [50]在数据插补的背景下解决了类似的问题。然而,他们依赖于另一个强有力的假设,即退化图像和相应的掩模(即,在我们的情况下是模糊核或质量因子)可以在训练期间获得。NR-GAN [30]通过引入可训练噪声发生器弥补了这些为了解决这些缺点,拓宽退 化鲁棒 图像生成 的领域 ,我们 引入了BNCR-GAN,它适用于不可逆的图像退化,而不知道退化参数。3. 符号和问题陈述我们首先定义一些符号和一个问题状态。在下文中,我们使用上标r和g分别表示真实数据和生成数据。设y为退化图像,x为对应的干净图像。 基于 在[87]中,我们考虑了模拟图像获取过程并包括典型图像退化的图像退化模型(即,模糊、噪声和压缩):4y=((xk+n),q),(1)其中k是模糊核(例如,失焦或运动模糊核),n是卷积运算,n是加性相机噪声(例如,读取噪声和散粒噪声),并且JPEG是具有质量因子q∈[0,100]的JPEG压缩算子。我们的目标是学习一个干净的图像生成器,能够产生干净的图像,使pg(x)=pr(x),从部分或完全退化的训练图像。5如第1节中所讨论的,AmbientGAN [4]可以通过在将生成的图像传递给图像处理器之前在生成的图像上模拟图像退化来解决这个问题;然而,它受到对退化模拟模型的需求的限制(即, KR nr(k)r(n),以及qr=pr(q)必须是预定义的)。 NR-GAN [30]消除这是因为pr(n)是可学习的。 但其4在这项研究中,我们专注于等式1;然而,我们的方法可以通过结合可微图像处理(例如,[7])。即使在这种情况下,模糊、噪声和压缩仍然是主要的降级因素。因此,我们认为,我们的研究结果并不局限于一个特定的问题。5为了简单起见,在第4所有图像都是从Pr(y)采样的)。然而,如第7节所验证的,我们的模型可以应用于仅部分退化的图像从Pr(y)采样部分图像,而从Pr(x)采样剩余图像),而不修改模型。[6]请注意,这与可微增广(DiffAug- ment)不同[96,34]。DiffAugment将增强应用于真实图像和生成的图像,以从几个图像xrpr(x)中学习可观察的pr(x),而AmbientGAN仅将图像降级年龄从退化图像yr学习不可观察的pr(x)。13582ZxGxXg可训练布吕格pr(q)qrzxGx未压缩Xg可训练qgg调整伊什蒂格zqGq压缩MQRRyg预定义YGYG预定义可训练yg掩模(a)AmbientGAN(基线)(b)BR-GAN(拟议)(c) AmbientGAN(基线)(d) CR-GAN(拟议)图2. AmbientGAN(基线),BR-GAN(拟议)和CR-GAN(拟议)的比较。 因为所有模型的判别器都是相同的,所以我们只描述生成器。(a)(c)AmbientGAN假设模糊或压缩模拟模型是预定义的。(b)(d)为了消除这个假设,我们在BR-GAN(b)中引入了一个模糊核生成器Gk,在CR-GAN(d)中引入了一个质量因子生成器Gq,并将它们与干净图像生成器G x一起训练。在BR-GAN(b)中,我们引入了一种掩蔽架构,该掩蔽架构调整所生成的内核k g(即,blur)和身份kernelk1(即,非模糊)。 类似地,在CR-GAN(d)中,我们结合了基于掩码m,q调整压缩图像y,g和未压缩图像x,g之 间 的 平 衡 的 掩 码 架 构。注意,每个参数(即, k=g、mk、qg和mq)是可训练的,并且以数据驱动方式确定。应用限于噪声,其中等式1被简化为y=x+n(即,x和n需要相加地分解)。考虑到这一点,首先,我们开发解决方案来解决剩余的两种类型的不可逆退化,即模糊(其中等式1被重写为y=xk)和压缩(其中等式1被重写为y = x k)。替换为y=(x,q))。 随后,我们提供了一个方程1中定义的所有类型退化的解决方案。第4、5和6节提供了每种解决方案。4. 模糊鲁棒GAN:BR-GAN首先,我们提供了一种模糊鲁棒图像生成的解决方案,它从yr=xrkr产生的模糊图像中学习干净图像生成器Gx。如第1节所述,AmbientGAN [4]可以通过引入模糊仿真模型krpr(k)解决此问题(图1)。(第2(a)段)。 然而,需要预先定义pr(k) 到不影响任何更改的身份内核。mk是与k g大小相同且值在范围[0,1]内的矩阵,控制k与kg 之间的平衡(即,blur)和k1(即,非模糊)。kg和mk都是可训练的,以数据驱动的方式优化分布这种架构设计的灵感来自于最近成功的用于调整生成组件的掩模(例如,[84]在保留背景的同时改变前景,[70]在保留身份的同时改变面部表情)。在我们的情况下,掩码有助于抑制不必要的变化(例如,由过模糊/欠模糊引起的伪像),并且仅允许执行必要的改变。5. 压缩鲁棒GAN:CR-GAN关于压缩鲁棒图像生成,其从压缩图像学习干净图像生成器GxRrRy=n(x,q)产生的年龄,我们使用大致相同为 了缓 解这 个问 题 ,并 且 为了 从数 据中 学 习 pr(k),在BR-GAN中,我们用模糊核生成器kg=Gk(zk)(图2(b))替换模糊仿真模型,并使用以下目标函数将其与Gx一起LBR-GAN=Eyrpr(y)[logDy(y)]如第4节所述的策略。在CR-GAN中,我们用质量因子 生 成 器 q g = G q ( z q ) ( 图 2 ( d ) ) 替 换AmbientGAN 的 压 缩 仿 真 模 型 qrpr ( q ) ( 图 2(c)),并使用以下目标函数将其与Gx一起训练。+Ezxp(zx),zkp(zk)[log(1−Dy(Gx(zx)Gk(zk))],(二)LCR-GAN=Eyrpr(y)[logDy(y)]+Ezp(z),zp(z)[log(1−Dy(g(Gx(zx),Gq(zq)],其中Dy是区分真实模糊x xq q(四)从 模 糊 生 成 的 图 像 yg=xg<$kg ( xg=Gx ( zx ) 和kg=Gk(zk))得到图像yr通过最小化LBR-GAN优化了GX和Gn,通过最大化LBR-GAN优化了Dy.在该公式中,调整模糊核kg的强度是具有挑战性的,因为LBR-GAN仅正则化退化图像yg和过模糊或欠模糊的xg。确定了解决方案的条件。因此,我们引入了一个掩蔽架构(图2(b)),使用模糊和非模糊之间的旁路调整kg其中,我们使用可微分JPEG舍入 [76,40],其使用可微分连续函数来近似JPEG中的不可微分舍入操作。类似于等式2执行优化。在典型的设置中,由于Y'CbCr域中的色度子采样和离散余弦变换域中的舍入,JPEG即使在100这可能会产生意想不到的伪影,这些伪影可能会在压缩后消失并变得无法识别。为了解决这个问题,我们引入了一个掩蔽架构(图-kg=mk·kg+(1−mk)·kI,(3)图2(d)),其提供用于产生无损图像的旁路,ZxGxXg可训练pr(k)KRZxGxXg可训练zkGk可训练KINon-blurk非模糊k掩模 调整kg13583其中G被分解成一个blur-k核生成器k∈g=使用如下旁路进行压缩。ggggGk(zk)和掩码生成器mk=Gmk(zk),并且kI是y=mqy+(1−mq)x,(5)K K13584ACxx qqACACRygyg预定义预定义预定义(a) (b)BNCR-GAN(拟议)图3. AmbientGAN(基线)和BNCR-GAN(拟议)的比较。 我们只描述发生器,因为判别-这两种模型的参数相同。(a)AmbientGAN假设模糊、噪声和压缩模拟模型是预定义的。(b)为了减少这种假设,我们引入了模糊核生成器Gk、噪声生成器Gn和质量因子生成器Gq,并对它们进行以及具有自适应一致性损失的干净图像生成器Gx(即,Lblur和Lcomp),其在之前之间施加一致性交交并且在根据模糊和压缩强度进行模糊和压缩之后(即,kg和qg)。其中Gq被分解成质量因子生成器强度。QG =Gq(z)和掩码生成器m=Gmq(z),qqq qqL模糊=Ezp(z),zp(z)[e−µkH(Gk(zk))xg=Gx(zx)是未压缩的图像,yg是com-ACxx k k按下图像产生的yg=g(xg,qg)。进一步r-<$Gx(zx)−Gx(zx)<$Gk(zk)<$2],(7)此外,mq是范围[0,1]内的标量,Y/G之间的平衡(即,压缩)和xg(即,非Lcomp=Ez<$p(z),z<$p(z)[e−µq100−Gq(zq)100压缩)。除了qg之外,mq是从Gq生成的,并且它们的分布通过训练来优化。与BR-GAN(第4节)中的掩蔽架构类似,该掩蔽架构可用于抑制压缩后无法识别的意外伪影,并仅允许执行必要的更改。<$Gx(zx)−<$g(Gx(zx),Gq(zq))<$2],(8)其中H(Gk(zk))是模糊核的熵,µk和µq是尺度参数。L模糊的权重项(即,e−µkH(Gk(zk)随着生成的核Gk(zk)变得更接近恒等式(或非模糊)形成了内核L_comp的权重项(即,e−µq100−Gq(zq)100)在-6. 模糊、噪声和压缩鲁棒GAN:BNCR-GAN基于BR-GAN(第4节)、NR-GAN [30]和CR-随着生成的品质因数Gq(zq)接近,100.也就是说,当模糊和压缩较弱时,LAC衡量一致性。在我们的实现中,仅针对左项Gx(之前的图像)传播梯度。模糊/压缩)在L模糊和L补偿中,而不是在右侧交交GAN(第5节),我们考虑模糊,噪声和压缩鲁棒的图像生成,其直接从表现出所有类型退化的图像中学习干净的图像生成器(等式1)。为了实现这一点,我们用可训练的生成器(即,模糊核生成器Gk、噪声生成器Gn和质量因子生成器Gq)(图3(b)),并使用以下目标函数用干净图像生成器Gx训练它们。LBNCR-GAN=Eyrpr(y)[logDy(y)]+Ezxp(zx),zkp(zk),znp(zn),zqp(zq)[log ( 1−Dy ( g ( Gx ( zx ) <$Gk ( zk ) +Gn(zn),Gq(zq)],(六)类似于等式2中表示的那样执行优化。在这个统一模型中,由于LBNCR-GAN只对最终输出进行正则化,因此处理由组合多个不可逆过程引起的不确定性并且对每个过程不施加正则化。到为了解决这个问题,我们设计了自适应一致性(AC)损失LAC=Lblur+Lcomp,抑制irre-ZxGxXg未压缩KI可训练 非模糊调整伊什蒂格zkGk克鲁格模糊MqggznGnzqGq压缩ngM可训练掩模 调整kgKQ可培训掩模ZxGxXg可训练布吕格KRpr(n)nrpr(q)qrpr(k13585术语(模糊/压缩后的图像),因为右侧术语可以通过对抗性损失进行正则化,而左侧术语在我们的训练设置中无法正则化,其中干净的图像不可用于训练。7. 实验7.1. 比较研究中的实验设置为了推进对模糊、噪声和压缩鲁棒图像生成的研究,我们首先对模糊鲁棒(第7.2节)、压缩鲁棒(第7.3节)和模糊、噪声和压缩鲁棒(第7.4节)图像生成进行了大规模的比较研究。在本节中,我们描述了常见的实验设置,并在第7.2数据集。在这些研究中,我们使用了CIFAR-10 [43],其中包括60k32×32自然图像,分为50k训练图像和10k测试图像,这些图像通常用于检查生成模型的基准性能(它也是在 AmbientGAN [4]和 NR-GAN [30]的 研究 中) 。此外,图像尺寸对于大规模比较研究是合理的。请注意,我们在一个更复杂的数据集上检查了多功能性(第7.5节)。指标. 在NR-GAN研究之后[30],我们使用了交交根据他们的Fre' chet起始距离(FID)[27],13586没有。MODEL(A)(B)(C)(D)(E)(F)(G)没有。 MODEL(A)(H)(I)(J)(K)(L) (M)C精益焦点M OTION(B)/(C)1(D)1(D)3(D)C精益60-80 80-100 60-1001(J)3(J)4 2 4 4 2 41 GAN18.547.9 36.1 43.1 22.4 27.4 34.1 9 GAN18.541.7 27.8 33.3 21.0 24.7 29.02AmbientGAN †- 25.5 23.0 24.2 18.9 20.721.810AmbientGAN †- 43.9 36.6 40.5 20.6 22.824.53P-AmbientGAN18.548.935.741.522.527.534.111P-AmbientGAN35.742.836.542.034.130.236.94BR-GAN17.624.822.923.418.420.221.712CR-GAN18.834.025.426.320.122.724.55BR-GAN不带面罩21.927.625.426.622.522.924.013 CR-GAN w/o mask 34.6 41.0 35.9 38.6 33.9 31.1 34.26BNCR-GAN14BNCR-GAN7 BNCR-GAN w/oL AC20.528.627.227.323.422.124.215 BNCR-GAN w/oL AC 20.5 36.1 30.6 33.4 22.4 24.18去模糊+GAN †- 31.4 24.8 28.0 19.8 22.825.216解块+GAN- 39.9 28.1 33.3 21.4 25.428.5表1. 模糊设置(左)和压缩设置(右)下CIFAR-10上FID ↓的比较。值越小越好。我们报告了三个随机种子的平均得分粗体和粗斜体分别表示最佳和次佳分数符号†表示模型是在有利条件下训练的(即,使用地面实况图像降级训练8)。真实分布和生成分布之间的距离。在对GAN的大规模研究中已经显示了这种措施的灵活性[53,47]。其对图像退化的敏感性也已得到证明[27,30]。在此度量上,优选较小的值。实施. 我们在NR-GAN研究之后实现了GAN [30]。具体来说,我们对Gx和Dy使用ResNet架构[26],并使用非饱和GAN损失[22]和实梯度惩罚正则化[63]对其进行优化。我们对Gx和Gn使用了类似的结构。对于Gk和Gq,我们使用三层多层感知器。受[30]中发现的启发,我们对Gk,Gn和Gq施加了多样性敏感的正则化[89,59]。由于我们的目标是构建适用于各种退化设置而无需特定调谐的生成模型,因此我们检查了所有实验中固定超参数值的性能。7.2. 模糊鲁棒图像生成的评价降级设置。我们测试了三种全模糊设置;在这里,所有图像都被(B)半径为r∈[0. 5,2],(C)运动模糊[5,45],轨迹长度为5,曝光时间T∈ {0. 1、0. 5,1},和(D)(B)或(C),选择率为0.5。此外,我们测试了三个部分模糊在这些设置中,四分之一(E)、二分之一(F)和四分之三(G)的图像被设置(D)模糊,而其余的是干净的图像。作为参考,我们还检查了干净图像的性能(A)。比较模型。为了检查我们的BR-GAN和BNCR-GAN的性能,我们将它们与三种基线GAN进行了比较:标准GAN,它对图像退化不可知,AmbientGAN,具有地面真实退化模拟模型,以及P-AmbientGAN,它学习退化参数(例如,k和q),而不使用生成器。此外,我们对两种模型进行了消融研究,包括BR-GAN w/o面罩和BNCR- GAN w/oLAC。 我们烧蚀了保护层的关键部件-(即,掩蔽结构和自适应一致性损失)。我们还检查了使用去模糊图像(去模糊+GAN)训练的GAN的性能我们使用了基于模型的去模糊方法,因为典型的基于学习的方法不能在我们的环境中训练,没有图像。为了检查上限性能,我们使用了一种非盲去模糊方法[41],该方法使用地面真实内核进行去模糊。结果表1(左)总结了结果。我们的主要发现如下。(i)与基线GAN的比较(编号:1-4,6)。正如预期的那样,由于地面实况模糊信息,AmbientGAN表现出合理的性能。我们发现,BR-GAN,必须估计这些信息,通过培训,取得了竞争力的表现。BNCR-GAN在该任务中不应学习噪声和非压缩P-AmbientGAN表现不佳,因为它不能表示模糊多样性,这包括在所有模糊设置(B-G)中(ii)与去模糊+GAN的比较(编号:4、6、8)。我们发现,在所有模糊设置(B-G)下,BR-GAN优于去模糊+GAN(iii)BR-GAN的消融研究(编号:4、5)。我们证实了掩蔽架构对于在所有设置(A-G)下提高性能是有用的。(iv)对BNCR-GAN的消融研究(编号:6、7)。我们发现,当部分或全部图像干净时(A和E),LAC是有效的,负面影响并不存在于所有设置(7.3. 图像压缩鲁棒性评价降级设置。我们测试了三个完整的压缩设置;在这里,所有图像都以[60,80](H),[80,100](I)和[60,100](J)范围内的质量因子进行压缩。我们还测试了三种部分压缩设置,其中四分之一(K),二分之一(L)和三分之一(L)。四分之一(M)的图像被设置(J)压缩,而剩余的图像是干净的。作为参考,我们还检查了干净图像的性能(A)。比较模型。除了上述模型之外,我们还检查了CR-GAN、CR-GAN w/o mask和Deblock+GAN(使用去块图像训练的GAN)的性能。在Deblock+GAN中,我们使用了基于模型的去块方法[19],原因与第7.2节中提到的相同。8具体而言,地面实况信息与Deflur +GAN中的单个图像相关联,而AmbientGAN中不存在此链接。13587ACAC结果表1(右)列出了结果。我们的主要发现如下。(i)与基线GAN的比较(编号:没有。MODEL(A)(N)(O)(P)(Q)CLEANALL1(N)1(N)3(N)4 2 49-12,14)。CR-GAN和BNCR-GAN实现了最佳或所有压缩设置下的第二好分数(H-M)。当对部分图像(K-M)进行压缩时,AmbientGAN与它们相当,而当对所有图像(H-J)进行压缩时,AmbientGAN的性能大大低于它们(超过9.9)。我们认为这是由于JPEG的有损特性(即使在最佳质量下也会保持有损(第5节)),从而允许Gx创建意外的伪影,这些伪影在应用JPEG后无法消除。相比之下,在CR-GAN中,掩蔽架构提供了对无损图像的旁路这对于压制这种神器,是有帮助的。P-AmbientGAN在所有压缩设置(H-M)中表现不佳(ii)与Deblock+GAN的比较(Nos. 12、14、16)。我们证实了CR-GAN和BNCR-GAN在所有压缩设置(H-M)下都优于去块+GAN(iii)CR-GAN的消融研究(编号:12、13)。在所有设置(A和H-M)中积极的影响。(iv)对BNCR-GAN的消融研究(编号:14、15)。我们发现,LAC在所有设置(A和H-M)下都提高了性能97.4. 模糊、噪声和压缩鲁棒图像生成的评估降级设置。我们测试了一个完整的降级设置(N)其中所有图像通过设置(D)模糊,通过设置(D)噪声化,[7]的设置(由读取和散粒噪声组成,该噪声模拟来自真实噪声数据集的噪声[69]),并通过设置(J)进行压缩。我们还分析了三种部分退化设置,其中四分之一(O),二分之一(P)和四分之三(Q)的图像分别被设置(N)模糊,噪声和压缩。这里,“独立地”意味着每个退化的目标图像(即,模糊、噪声或压缩)独立于其它降级而被随机选择。作为参考,我们还测试了干净的图像(A)。比较模型。除了上述模型外,我们还检查了NR-GAN的性能[30],以阐明其局限性。结果表2总结了结果。我们的主要发现如下。(i)与基线GAN的比较(编号:17、18、22)。与GAN和AmbientGAN相比,BNCR-GAN取得了最好或有竞争力的分数。特别是,我们发现,当退化图像的比率相对较高(N和Q)时,BNCR-GAN的性能大大优于Ambient-GAN(超过7.9)我们认为9我们发现BNCR-GAN在某些情况下优于CR-GAN(例如,设置(H)。我们认为在BNCR- GAN中使用而不是在CR-GAN中使用的Lcomp导致了这种行为。 为了验证这个状态-17甘18.558.0 24.6 34.3 45.518 AmbientGAN†19 BR-GAN17.652.3 22.4 31.6 41.520 NR-GAN 20.0 58.1 26.1 34.6 44.321 CR-GAN 18.8 51.1 26.5 36.8 48.222 BNCR-GAN23 BNCR-GAN w/oLAC20.541.025.3 28.634.6表2. 模糊、噪声和压缩设置下CIFAR-10上FID ↓的比较。评分计算方法和符号同表1。JPEG的有损特性也会影响这些设置的结果。(ii)与单降解鲁棒GAN的比较(编号:19-22)。在所有降级设 置 ( N-Q ) 中 , BNCR-GAN 优 于 BR-GAN 、 NR-GAN和CR-GAN。这些结果证明了单次退化鲁棒GAN在包含以下内容的数据集几种类型的退化。(iii)对BNCR- GAN的消融研究(编号:22、23)。我们证实,LAC有助于在所有设置(A和N-Q)的性能增强摘要通过三项比较研究(第7.2-特别是,我们确认,我们的建议的关键组成部分(即,掩蔽体系结构和自适应一致性损失)有助于实现这样的高性能。在第7.4节中,我们还展示了单次退化鲁棒GAN的局限性以及BNCR-GAN在表现出几种类型退化的数据集中的重要性。进一步分析。作为进一步的分析,我们在[7]的设置中评估了BNCR-GAN对噪声鲁棒图像生成的影响我们发现 , 通 过 BNCR-GAN 获 得 的 FID ( 20.5 ) 与 通 过AmbientGAN(20.0)和NR-GAN(20.3)获得的FID相当,并且优于通过GAN(47.4)和没有LAC的BNCR-GAN(23.0)获得的FID。7.5. 复杂数据集评价实验设置。受最近关于GAN [47]和NR-GAN [30]的大规模研究结果的启发,我们还研究了所提出的模型在更复杂数据集上的性能,即, 128×128版本的FFHQ [35],包括70k张人脸图像,包括60k训练图像和10k测试图像。3为了便于讨论,我们对三个代表性的模型进行了比较。第7.210结果表3列出了结果。我们发现在这个数据集中有类似的趋势:BR-GAN,CR-GAN和BNCR-GAN实现了更好或有竞争力的性能此外,我们检查了CR-GAN与Lcomp的性能,发现压缩AC10在设置(H)中,CR-GAN与LACFID达到29.0,与BNCR-GAN获得的结果(29.9)相比具有竞争力,并且优于不含Lcomp的CR-GAN获得的结果(34.0)。根据图像大小的变化,我们扩大了模糊的大小。我们使用具有半径r ∈ [0]的盘核的离焦模糊。5,4]以及轨迹长度为10且曝光时间T∈ {0. 1、0. 5,1}。13588MODEL(O)(P)(Q)(N)1(N)1(N)3(N)ALL4 2 4表3. FID↓与FFHQ的比较。值越小越好。由于培训时间长,实验只进行了一次.符号与表1相同。实际生成(FID:34.1)生成(FID:25.3)(a) 训练图像(b)GAN(基线)(c)BR-GAN(建议)真实生成(FID:45.5)生成(FID:25.7)(d)训练图像(e)GAN(基线)(f)CR-GAN(拟议)图4. 模糊鲁棒图像生成和压缩鲁棒图像生成的示例(在高分辨率下观看效果最佳)。 上下两行显示了设置的示例(D)(J)分别。我们提供了模糊、噪声和压缩鲁棒图像生成(设置(P))。与AmbientGAN相比,AmbientGAN是在预先的条件下训练的,并且优于其它基线(即,GAN、去模糊+GAN和去块+GAN)。11我们展示了图4中的设置(D和J)和图1中的设置(P)的生成图像的示例。7.6. 应用于图像恢复最近提出的UNIR [66]是AmbientGAN [4]的条件扩展,可以直接从退化图像中学习图像恢复模型,而无需配对或集合级监督。然而,它要求退化模拟模型( 即 , pr ( k ) 、 pr ( n ) 和 pr ( q ) ) , 类 似 于AmbientGAN。一个合理的解决方案是利用BNCR-GAN获得的模糊核、噪声和质量因子生成器,而不是预定义的退化仿真模型。在本节中,我们评估了这种方法(BNCR-GAN+UNIR)。实验设置。我们在第7.4节中使用的相同退化设置(设置(N-Q在评估中,我们认为测试图像在最严重的设置(设置(N))中退化。关于re-UNIR †28.4/0.020422.4 0.0155 - 0.0155 - 0.015521.0/0.013724.80.0146 - 0.0146 - 0.0146BNCR-GAN+UNIR 27.7/0.018421.5 0.0172 - 0.0172 - 0.017220.4/0.015224.8/0.0206CycleGAN 30.2/ 0.022627.1 0.0177 - 0.0177 - 0.017733.7/0.0259不适用/不适用表4. FID↓和LPIPS↓在CIFAR-10图像恢复中的比较结果以FID↓/ LPIPS↓列出。我们报告了在三次训练运行中达到中位数FID的模型的分数。粗体
下载后可阅读完整内容,剩余1页未读,立即下载
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功