没有合适的资源?快使用搜索试试~ 我知道了~
6743×F-Drop匹配:在高频域中具有死区的GANs山口信shinya.yamaguchi.mw邮件hco.ntt.co.jp金井关利NTTsekitoshi.kanai. hco.ntt.co.jp摘要由深度卷积神经网络(GAN)构建的生成对抗网络缺乏准确复制自然图像高频分量为了缓解这个问题,我们引入了两种新的训练技术,称为频率下降(F-Drop)和频率匹配(F-Match)。F-Drop的关键思想是从输入信号中滤除不必要的高频分量StyleGAN2-ADA Ours1 .一、00的情况。80的情况。60的情况。40的情况。20的情况。0放上鉴别器的图像。这种简单的修改防止了鉴别器被高频分量的扰动所混淆。此外,F-Drop使GANs专注于低频域的拟合,其中有自然图像的主要成分。F-Match可最大限度地减少频域中真实图像和伪图像之间的差异,以生成更逼真的图像。F-Match在生成器的目标函数中作为正则化项实现;它在频域中惩罚批平均误差。F-Match帮助发生器适应由F-Drop过滤出的高频域,以适应真实图像。我们通过实验证明,F-Drop和F-Match的组合在多个图像基准上提高了GANs在频域和空间域的生成性能。1. 介绍从深度卷积网络(GAN)[10,11,20,22]构建的生成对抗网络在计算机视觉社区中引起了广泛关注,并且已经在各种应用中得到利用,因为它们可以以高保真度合成不同的图像到目标数据集。GANs的训练被制定为两个神经网络(称为生成器和鉴别器)的竞争游戏;生成器被优化以产生能够欺骗鉴别器的伪图像,并且鉴别器被优化以通过最小-最大优化来区分真实图像和伪图像。理论上,该模型复制训练数据作为最佳结果。然而,最近的研究表明,GAN无法复制图1.频域中鉴别器的灵敏度。灵敏度通过单傅立叶攻击(SFA)[26]来测量,其扰动图像的每个频率分量。作为灵敏度,我们绘制了正常和攻击鉴别器的输出之间的平均差异超过128个图像在AFHQ-Cat数据集(512 512)上的每个像素。低频域中的差异位于每个图的中心附近,并且高频域中的差异位于边缘处。我们的方法在高频分量上对SFA的鲁棒性方面优于基线(StyleGAN 2-ADA)频域中的数据[7,8]。Durall等人[7]和Franket al. [8]已经报道了在高频域中生成的图像的频率特性不同于真实图像的频率特性(我们将这种差异称为频率间隙)。他们还表明,通过评估频率间隙,可以以几乎100%的准确度容易地将所生成的图像检测为假货虽然以前的研究主要集中在CNN中上采样引起的混叠作为频率间隙的原因,但修改上采样不足以纠正频域中的缺陷[8]。在这项研究中,我们探索另一个原因的频率差距,以减少他们。由于空间域和频率域是双重的,因此减小频率间隙可以提高GAN在空间域中的生成性能我们假设频率差距是由鉴别器对高频域扰动的敏感性引起的。在用于图像生成的GAN中,鉴别器通常被实现为基于CNN的二元分类器。如[26,30]中所示,基于CNN的类6744滤波器对频率分量的扰动敏感。此外,Wanget al. [27]已经报道了基于CNN的分类器根据人类难以识别的高频分量来预测标签。因此,我们推测GAN的鉴别器事实上,我们的实验证明了鉴别器在频域中的灵敏度:鉴别器的输出被单次傅立叶攻击显著改变[26],这会干扰图像的每个频率分量(图11)。1,左)。鉴别器的灵敏度防止发生器学习数据,因为发生器被优化为通过扰动高频分量而不是通过复制数据来欺骗为了减轻鉴别器和频率间隙的敏感性,我们提出了两种新的技术,称为频率下降(F-Drop)和频率匹配(F-Match)。F-Drop的主要思想是从鉴别器的输入中滤除高频分量(对于真实图像和生成图像),从而鉴别器集中于低频分量,这是自然图像中的主要分量[29]。我们插入一个低通滤波器,它过滤出的频率成分高于一定的阈值,从图像中,在输入层的歧视。F-Drop,(i)通过使用离散余弦变换(DCT)将RGB图像变换到频域中,(ii)通过逐元素乘法在频域中执行滤波,以及(iii)通过使用逆离散余弦变换(IDCT)将图像变换回RGB空间。由于RGB图像作为输入使用,F-降不需要任何修改,到原来的网络架构。通过应用F-Drop,鉴别器对高频扰动变得鲁棒(图1)。1,右),因此,生成器可以通过学习剩余的较低频率分量来致力于欺骗鉴别器。然而,由于F-Drop简单地变换鉴别器的输入,所以生成器仍然可以自由地合成在训练期间滤除的高频分量因此,为了合成真实的频率分量,我们提出了F-Match,它使频域中的平均误差最小化。F-Match是生成器的目标函数的简单的基于小批量的正则化项;它可以利用任意频率变换(例如,DFT 和 DCT ) 和 损 失 函 数 ( 例 如 , 平 方 和 绝 对 误差)。我们实验发现,F-Match的最佳函数是DCT空间中的均方误差。我们的实验表明,在各种设置中,与传统技术相比,F-Drop和F-Match的组合成功地在频率和空间域合成了更逼真的图像[4,7,8]。我们的贡献总结如下:通过对GANs的鉴别器进行单次傅立叶攻击的实验,证明了GANs的鉴别器对高频分量的扰动很敏感。我们提出了两种简单的GAN技术,称为F-Drop和F-Match,用于减少真实图像和生成图像之间的频率差距。F-Drop从鉴别器的输入图像中过滤掉高频分量,并且F-Match通过向生成器的目标函数添加正则化项来最小化频域中的平均误差。我们确认,我们的方法可以提高各种图像数据集上生成的图像的质量。2. 相关工作2.1. 生成模型GAN或基于CNN的生成模型中的频率间隙已经在最近的论文中进行了研究[7,8]。杜拉尔等al. [7]和Franket al. [8]已经发现在真实图像和通过使用离散傅立叶变换(DFT)和离散余弦变换(DCT)从基于CNN的模型生成的图像之间存在频率间隙。他们还发现,生成的图像被在图像的频率分量上训练的线性分类器检测为假的。这些研究假设CNN中的上采样是频率间隙的原因。特别地,Franket al. [8]已经表明可以通过修改发生器中的上采样(通过使用,例如,二项式上采样)。然而,上采样的修改不足以在频域中生成不可检测的假图像此外,我们根据经验报告,修改可能会降低GAN在空间域中的生成性能(第二节)。H的补充材料);这种退化在任何先前的工作中都没有讨论过。与这些工作相反,我们表明GANs的鉴别器对高频扰动敏感,并且这种敏感性也是频率间隙的原因之一为了缓解频率差距,Durall等人。[7]提出了频谱正则化,其最小化频域中真实图像和生成图像的方位积分之间的二进制交叉熵。虽然谱正则化具有与F-Match类似的形式,但是它最小化每个生成的图像与真实图像的平均值之间的间隙,而F-Match最小化每个小批次上的生成的图像与真实图像的Chen等人[4]已经提出了一种称为SSD的类似技术,其通过在频域中添加分类器来修改分类器,并利用分类器的输出来调制分类器的损耗。···6745∈H−1H−1ΣΣ∼Σ Σ ΣΣGAN SSD不使用频率分类器的梯度来训练GAN,而F-Match直接使用频域中的损失梯度。2.2. CNN对频率分量的灵敏度在CNN模型的对抗性攻击的背景下,Tsuzuku和Sato[26]通过使用他们自己的称为单傅立叶攻击(SFA)的黑盒攻击进行分析,指出了CNN在频域中的敏感性。SFA在每个傅立叶基的方向上扰动图像。[26]如:[27]如:[28]如:[29][30]有3.2.频率变换在 这 里 , 我 们 简 要 地 总 结 了 离 散 余 弦 变 换(DCT)的基础上,用于F-Drop和F-Match。请注意,为简单起见,我们的讨论涉及灰度方形图像X RH×H的变换,但通过在每个通道上执行相同的计算,可以很容易地扩展到彩色图像。二维DCT [1,9]被公式化如下:C(u,v)=2α(u)α(v)Σ ΣX(i,j)c(i,j,u,v),(3)表明自然训练的CNN对高频扰动敏感。此外,Wangetal. [27]已经表明基于CNN的分类器的输出取决于在高频成分上是不可见的哪里Hi=0j =0α(0)= 1/√2,α(t)= 1(对于t/= 0),以及人类然而,他们还表明,从训练中丢弃高频分量不会降低最终测试性能。此外,Xuet al. [29]已经表明,通过阈值从CNN的输入图像中丢弃高频分量有助于减小输入大小并提高性能。总之,前面的结果提供了两个关键的见解:(i)基于CNN的分类器在处理输入图像中的高频分量方面具有缺陷,以及(ii)高频分量对于训练分类器不是必需的。这些见解的基础上的想法F-下降中所描述的节。第5.1条c(i,j,u,v)= cos(2i+1)uπcos(2j+1)vπ.2小时2小时其中(i,j)表示空间像素坐标,(u,v)是频率坐标。这种形式被称为DCT-II。我们为F-Drop和F-Match选择DCT作为默认值,因为与DFT相比,它没有产生高频噪声的不连续边界[25]。 作为从频域回到空间域的变换,我们使用二维逆离散余弦变换(IDCT):H−1H−13. 背景3.1. 生成对抗网络2X( i,j)=Hα(u)α(v)C(u,v)c(i,j,u,v),(4)u=0v =0生成式对抗网络由一个由θ参数化的生成器网络Gθ和一个由φ参数化的鉴别器网络Dφ组成[10]。G θ从随机噪声z p z中生成伪样本xfake=G θ(z),D φ区分观察值x是否来自数据分布pdata。训练鉴别器和生成器的目标函数为LDφ= −ExpdatalogDφ(x)−Ezpzlog(1−Dφ(Gθ(z),(1)其中α(·)和c(·)与等式中相同(三)、4. 基于单次Fourier攻击我们假设GANs的频率间隙是由鉴别器对高频域中的扰动的敏感性引起的为了证实这一假设,我们分析了遭受单次傅立叶攻击(SFA)的GAN [26]。SFA通过在傅立叶基方向上扰动输入图像来攻击分类模型为每个LGθ=−EzpzlogD φ(G θ(z))。(二)在一个实施例中,在扰动的情况下,SFA选择单个频率分量并且根据所选择的分量创建条带噪声通过训练Gθ和Dφ,Dφ学习最大化概率能够为真实示例分配H×H图像的频率坐标(u,v)的扰动δ(u,v)定义如下:最大化Dφ判别失败的概率理论上,当G θ和D φ收敛到最优点时,生成网络G θ隐式地复制p个数据。δ(u,v)=Σ((1 + j)(FH)uΣ(FH)v+(1− j)(FH)H−u(FH)H−v),(五)在本文中,我们主要关注GAN,CNN。有几种变体,如DCGAN [22],WGAN-GP [11]和SNGAN [20]。我们可以将F-Drop和F-Match应用于这些变体中的任何一个,因为它们被设计为鉴别器中的附加掩蔽层或附加正则化项。6746⊗其中,ε是确定每个的大小的超参数其中,FH是傅里叶基的矩阵,并且(FH)i表示FH的第i行。注意,这意味着克罗内克积,j是虚数单位。我们将使用SFA来研究鉴别器在频域中的灵敏度。6747.X.1XFF∈Ⓢu,v.≤··∈ΣiF(xΣiF(x房√假·F-DropF-匹配预测真假计算L匹配:F-Drop的过程非常简单:(i)将输入图像变换到频域中,(ii)丢弃高频分量,以及(iii)将频率分量变换回空间域。F-Drop对鉴别器的输入彩色图像R3×H×W进行如下转换:−1B-1dFxiΣ,1B-1 F. XiΣ!下降(x,γ)=F(F(x)<$M(γ)),(6)Bi=0时房Bi=0时假其中F是频率变换函数,例如DCT,F-1是逆频率变换函数,例如图2. 拟议方法作为初步实验,我们测试了在CelebA数据集[19]上训练的基于ResNet的SNGAN [20](训练的细节见第二节)。6.1)。对于SFA,我们设置M(γ)R3×H×W是用于滤除特定频率分量的掩模矩阵。注意表示元素乘法我们选择DCT为,IDCT为-1。掩码矩阵M(γ)的坐标(c,u,v)中的元素被定义为10/255图1的左侧显示了SFA的结果。随后进行可视化程序[26]。每个像素坐标对应于频率分量。Mc(γ)=1(√u2 + v2 γ√H2+W 2)0(γu2+v2> γuH2+ W2)。(七)用于SFA的像素,每个像素表示绝对差值|D(x)−D(x+δ(u,v))|即,之敏感度也就是说,我们将坐标的高频成分降到γH2+W2更远的地方,即Eu-扰动注意,差异被归一化为[0 ,1]除 以 SNGAN 和 我们 的最 大值 我们 可以 看到SNGAN对高频扰动敏感,如[30]中的结果。这表明,鉴别器容易通过扰动高频域而被愚弄,并且它们在这方面的灵敏度导致频率间隙,因为发生器专注于合成高频扰动而不是真实图像。由于高频组件对于训练CNN不是必需的,如在第2节中所讨论的。2.2,我们将研究从输入图像中过滤掉它们的方法。5. 该方法图2显示了F-Drop和F-Match的概述F-Drop从用于鉴别器的输入图像中滤除高频分量,而F-Match是用于生成器的规则化方法,其惩罚真实图像与生成图像之间的频域中的小批量平均误差。F-Drop和F-Match相互独立,可以轻松地集成到GAN的架构中。5.1. 频率下降首先,我们引入频率下降(F-)的思想。距原点(0,0)的直线距离(即,直流分量)。在掩蔽之后,我们利用剩余的较低频率分量来训练GAN(图2)。2,顶部)。我们可以通过阈值超参数γ来调整截止频率。如Eq.在等式(7)中,信道c共享掩码元素,并且因此,Drop()计算可以通过广播单个信道掩码M(γ)RHXW来实现。 由于Drop()中的所有操作相对于输入数据都是可微的,因此我们可以通过端到端的反向传播梯度下降来训练模型。5.2. 频率匹配频率匹配(F-Match)用于最小化真实图像和生成图像之间的频率间隙其关键思想是匹配真实图像和生成图像的频率特性F-Match通过使用图像的小批量统计来最小化频率间隙,因为从GAN生成的图像与真实图像没有一一对应关系。这种正则化策略通常由[24]和MMD-GAN [18]中的特征匹配等方法使用F-Match的损失函数形式化如下:L匹配=d。X¯real,X¯fakeΣ,(8)Drop)。如第2.2和4,GAN的鉴别器对输入图像的高频分量敏感,但可以在没有高频分量的情况下训练X¯real=1BB−1房i=0时),X¯fake=1BB−1假的),i=0时频率分量F-Drop基于这些见解;它通过以下方式滤除图像中的高频成分其中d()是误差函数,B是每次训练迭代的批量大小,并且xi是第i个真实图像,并且xi是第i个真实图像。使用用户定义的阈值参数γ∈[0,1]进行掩蔽。是GAN生成的第i个图像。d(·)和F(·)x真x假F(x)DCT层DIDCT层M(ц)Xi我房F(x)的方式房BXi我假F(x) 的方式假DCT层6748·F·i=0时Σ−13: −log(1−D(Drop(G(z),γ)φθΣ。dX,F(xSR实数← − LΣ。Σ 1−SRrealf a k e·× ××××- -MSE¯real¯fakefakei=0i=0时Bi=0时房Bi=0时假i=0时房2πH W0∫||可以被设置为任意误差函数(例如,平方误差)和任意频率变换(例如,DCT)。在补充资料中,我们评估了d()和()的各种组合,并表明DCT空间中的均方误差(MSE)是最佳选择。我们使用以下基于MSE的函数:算法1使用F-Drop和F-Match要求:批量大小B、学习率ηθ、ηφ、评论家数量K、超参数γ、λ1:随机初始化参数θ、φ3:对于k= 1至K,do4:{xi}B−1←GetSample(B)实数i=05:{zi}B−1←GenNoise(B)d=1Σ Σ。X(u,v)−X(u,v)n2,(9)6:如果k= 1,则7:{Xi}B−1 ← {Gθ(zi)}B−1HWu v 8:L←d.1ΣB−1F(xi),1ΣB−1F(xi)Σ第九章:LG← −ΣBlogDφ(Drop(xi,γ))+λL匹配其中X(u,v)是X的(u,v)坐标。在行动中最小化,L匹配作为正则化项被添加到10:θθ←θ −我ηθθ LGθ假目标函数定义在等式(二):11:如果结束12:LD←−ΣB−1logDφ(Drop(xi,γ))LGθ=EzpzlogDφ(Gθ(z))+λLmatch,(10)其中λ是平衡超参数。如第2.1中,谱正则化(SR)[7]以与F-匹配类似的形式定义根据[7],H×H正方形图像的SR损失函数定义为:B−1B1ii=0时14:φ φ ηφφDφ15:结束十六: end while(ii)对高频分量的灵敏度(频率灵敏度分析),(iii)现有技术1LSR=B¯i假i=0时)Σ,(11)使用StyleGAN 2-ADA的设置,和(iv)生成的图像的质量。补充材料中包含H/2−1d=BCEA(X¯ ,r),A(X,r),H/2−1r=0其中BCE()是二进制交叉熵函数,并且A(X,r)是方位角积分12JIX(r,θ)dθ,其将2D DFT图像近似为关于极坐标(r,θ)中的径向距离r的1D信号。请注意,SR与F-Match的不同之处在于,它使用单个生成的图像来最小化频率间隙。使用F-Drop和F-Match的最终目标函数为:F-Match的消融研究、F-Drop的超参数灵敏度分析以及频域中的伪检测(伪检测)。6.1. 设置我们使用了六个不同的图像数据集:CIFAR-10和CIFAR-100(3232)[15],TinyImageNet(32 32)[28],STL-10(48 48)[6],CelebA(128128)[19],ImageNet(128 128)[23]。这些数据集已经用于测试GANs的基准[3,11,17,20,31]。我们应用中心裁剪和调整大小的图像LDφ= −ExpdatalogDφ(Drop(x,γ))- Ezpz log(1−Dφ(Drop(Gθ(z),γ),(十二)TinyImageNet,CelebA和ImageNet在训练之前。为了训练,我们将图像归一化到[-1,1]的范围内。LGθ= −EzpzlogD φ(Drop(G θ(z),γ))+λLmatch. ( 十三)在算法1中总结了使用F-Drop和F-Match的总体训练过程。注意,与正常GAN的训练不同,我们预取输入真实图像X1以用于计算F-Match的损失函数(等式2)。8)在线4. GetSample和GenNoise是用于获取批量图像和用于从正态分布生成批量噪声的函数6. 实验我们通过将我们提出的方法(F-Drop和F-Match)与朴素基线和现有方法进行比较来评估它们[4,7,8]。我们在以下方面评估我们的方法:(i)GAN的定量指标(主要评估),匹配φ6749GAN基线作为基线,我们选择了具有ResNet主干架构的频谱归一化GAN(SNGAN)[20]。作为额外的基线,我们测试了二项式[8],它用基于二项式分布的低通滤波器替换了生成器中的双线性上采样滤波器,频谱正则化(SR)[7],它通过使用等式(1)最小化DFT空间中方位角积分的间隙。(11)(见第二节)5.2),以及SSD-GAN [4],其将DFT空间中的频率分类器(使用方位角积分)添加到鉴别器,并利用分类器的输出我们使用Binomial-5内核,遵循Franketal。[8]的一项建议。SR基于作者的公共代码库中的一个,6750×HW××↓↑表1.真实图像和伪图像之间的平均频率间隙CIFAR-10CIFAR-100TinyImageNetSTL-10CelebAImageNetSNGAN6.897.019.834.194.494.83二项[8]7.855.839.964.304.744.55SR [7]6.126.809.773.984.485.70SSD-GAN [4]6.396.809.974.594.474.80F-Drop5.946.369.293.874.605.39F-匹配4.844.877.364.044.464.52F-Drop匹配3.934.166.493.864.434.41图3.平均DCT系数的比较(顶部:CIFAR- 100,底部:CelebA)。可视化方案遵循Frank等人的方案。[8]的一项建议。λ为1。010- 51,2对于SSD-GAN,实现由作者的代码组成,我们使用λ = 0。5,以下[4]。3对于标记的数据 集 ( 即 , CIFAR-10/-100 、 TinyImageNet 和ImageNet),我们使用条件批量归一化生成器和投影判别器[21]。 我们评估了其他代表性的GAN变体,包括深度卷积GAN(DCGAN)[22]和具有梯度惩罚的Wasserstein GAN(WGAN-GP)[11],而不是第二节中的SNGAN。6.2. 我们实现了GANs的体系结构与Lee等人的开源存储库。[16 ]第10段。GAN的培训和评估设置的更多细节将在补充材料中提供。6.2. 主要评价频率间隙首先,我们评估频率间隙的减少。DCT空间中的以下总绝对差被用作频率间隙的度量:频率分量,而右下角的分量代表较高频率分量。图和表显示,与其他方法相比,F-DropMatch显著减少了所有数据集中的频率差距,并复制了更真实的频率特征在少数情况下,F-Drop本身并没有减少间隙。这是因为F-Drop允许发生器合成滤出的高频分量,因此,生成的图像随机包含高频分量另一方面,F-Match本身减少了所有情况下的间隙,因为它直接最小化了频率特性。在图3中,F-Match的结果比F-Drop Match的结果更多地示出了频域的中间范围中的频率间隙。这是因为F-Match的生成器(本身)由于鉴别器对高频域的敏感性而专注于高频分量。这些结果表明,降频匹配是将滤波和直接最小化相结合来减小频率间隙的. 此外,降频匹配优于其他面向频率的方法,即,Binomial、SR和SSD-GAN。这些其他方法的较差性能可能是因为它们没有考虑鉴别器对高频域的敏感性。其他方法的灵敏度在第2节中讨论。6.3在这里,我们讨论了二项式,SR和SSD-GAN不如我们的方法的其他原因。在二项式的情况下,双项上采样抑制发生器中的高频分量,但不显式地正则化模型以学习频率特性。此外,我们发现二项式倾向于降低空间域中的生成性能(参见下面描述的评估)。对于SR和SSD-GAN,性能增益敏感地取决于数据集。该行为反映了具有方位积分的1D近似,其隐含地假设实频率特性在DFT空间中以同心图案分布HW由于SSD-GAN不使用来自free-GAN的梯度,因此SSD-GAN不使用来自free-GAN的梯度。1ΣΣ。X¯real(u,v)−X¯fake(u,v). ,(14)用于更新GAN的quency类,其性能UV 增益可能不稳定。同时,F-Match直接迷你其中X¯(u,v)在等式中定义。 (八)、我们计算了10k个真实图像和生成图像之间的表1列出了通过等式2测量的平均频率间隙(14)。F-Drop Match 列 表 示 同 时 应 用 F-Drop 和 F-Match 的SNGAN的性能频率特性的可视化如图所示。3,其中左上角的像素表示下1https://github.com/cc-hpc-itwm/UpConv/2我们使用PyTorch来实现可微的方位积分,因为作者使用Numpy的实现是不可微的。更详细的讨论见补充材料。3https://github.com/cyq373/SSD-GAN网站以端到端的方式最大化每个频率分量的间隙,并且在各种数据集上稳定地执行。FID/KID/IS其 次 , 我 们 测 量 了 Fr e'chet 起 始 距 离(FID)[12],内核起始距离(KID)[2]和起始分数(IS)[24]。我们计算了这些测量结果,100 k真实和生成的图像为128 128数据集,50 k真实和生成的图像为32 32数据集和STL-10。表2、3和4显示了数据集、方法和GAN变体的每种组合的FID/KID/IS评分。请注意,这意味着越低越好,意味着越高越好。在许多情况下,F-Drop本身和F-Match本身的性能更重要的是,6751表2. 32×32数据集上的性能比较CIFAR-10 CIFAR-100 TinyImageNetFID(↓)KID×10−3(↓)IS(↑)FID(↓)KI D×10−3(↓)IS(↑)FID(↓)KID×10−3(↓)IS(↑)SNGAN14.3±0.739.20±0.578.25±0.1415.2±0.259.76±0.358.91±0.0421.8±3.0112.3±3.436.35±0.28二项式[8] 35.9±0.90 21.9±1.89 6.60±0.15 23.7±0.70 14.3±0.47 8.09±0.08 53.9±4.26 30.8±8.91 5.34±0.29SR [7] 12.2±0.277.73±2.738.43±0.0114.7±0.279.56±0.498.94±0.0523.8±2.0118.9±2.005.96±0.25SSD-GAN [4]13.4±0.13 8.72±0.21 8.32±0.11 14.9±0.88 9.32±0.78 9.01±0.31 21.1±1.51 12.9±1.72 6.50±0.23F-降14.1±0.819.11±0.218.31±0.1815.1±0.159.47±0.298.93±0.0520.4±0.4611.5±1.186.49±0.08F-匹配12.8±0.537.90±0.328.45±0.1214.7±0.669.09±0.899.17±0.2420.9±0.2412.7±0.466.41±0.24F-Drop匹配10.7±0.927.15±0.588.45±0.0613.8±0.348.99±0.499.16±0.0018.9±1.0810.3±0.526.55±0.14表3.较大图像数据集上的性能比较STL-10(48×48)CelebA(128×128)ImageNet(128×128)FID(↓)KID×10−3(↓)IS(↑)FID(↓)KI D×10−3(↓)IS(↑)FID(↓)KID×10−3(↓)IS(↑)SNGAN 34.7±1.2632.0±0.918.68±0.087.98±0.134.45±0.423.02±0.0762.5±1.1663.5±0.8014.1±0.34二项式[8] 34.9±0.4432.4±1.018.66±0.0937.9±6.5722.3±0.952.86±0.0276.6±6.9374.1±6.1511.6±1.14SR [7] 38.1±0.7434.9±0.878.49±0.0211.2±0.745.67±0.872.91±0.0664.0±1.5264.9±2.3513.9±0.49SSD-GAN [4] 35.6±0.2532.2±0.688.77±0.037.88±0.644.20±0.973.05±0.0761.2±0.4961.6±1.6914.3±0.08F-Drop 34.7±0.7531.8±1.098.75±0.076.86±0.473.92±0.643.09±0.0661.0±0.5960.9±1.8614.2±0.21F-匹配34.0±0.7231.1±0.768.79±0.056.78±0.163.73±0.183.08±0.0462.0±1.3362.2±1.3514.4±0.18F降匹配33.8±0.6630.4±0.838.85±0.156.78±0.113.61±0.103.16±0.0560.4±0.7160.5±0.5114.5±0.30表4.GAN变体的性能比较(CIFAR-100)[11]第十一届全国政协委员FID(↓)KID×10−3(↓)IS(↑)FID(↓)KID×10−3(↓)IS(↑)基线27.2 ±1.15 16.2 ±1.69 7.16 ±0.26 25.2 ±0.20 21.2 ±0.337.72 ±0.03F-Drop Match在所有情况下表现最好。二项式在几乎所有情况下都低于基线。与频率间隙的评估类似,SR和SSD-GAN的性能敏感地依赖于数据集,而我们的方法稳定地优于基线。这些结果表明,我们的方法可以灵活地帮助GANs在频率和空间上复制真实图像SNGAN二项式SRSSD-GANF-DropF-MatchF-Drop匹配图4. SFA [26]对CelebACIFAR-100TinyImageNet STL-10CIFAR-100TinyImageNet STL-10图5. SFA [26]对多个数据集的敏感性分析1 .一、00的情况。80的情况。60的情况。40的情况。20的情况。01 .一、00的情况。80的情况。60的情况。40的情况。20的情况。01 .一、00的情况。80的情况。60的情况。40的情况。20的情况。0域6.3. 频率灵敏度分析如图所示4,GANs的鉴别器对高频域中的扰动敏感。我们通过进行SFA分析来评估我们方法的灵敏度。图4根据SFA扰动CelebA上的每个频率分量的结果比较了基线和我们的方法。图5显示了SFA在多个数据集上的结果。我们使用了与Sec中相同的可视化方案。4.第一章我们还在CelebA上测试了Binomial、SR和SSD-GAN(图1B)。4);其他数据集的结果出现在补充材料中,并得出以下相同的结论。F-Drop Match out-执行所有基线。由于鲁棒频率F-Drop Match的鲁棒性域似乎是F-Drop的鲁棒性域和F-Match的鲁棒性域的结合,我们看到F-Drop Match的鲁棒性来自于F-Drop和F-Match的互补结合。更重要的是,在图。4,我们看到Binomial,SR和SSD-GAN对频域的低到中等范围不鲁棒。我们认为这是因为这些方法与F-Drop不同,将包括其高频分量的整个输入图像馈送到判别器中,因此判别器难以聚焦在较低的频域上。这些结果表明,F-Drop Match的鉴别器可以专注于较低的频率,并且生成器通过互补地组合F-Drop和F-Match来间接地调整它们的SNGANF-Drop匹配二项[8]49.8±3.7828.6±2.386.28±0.1825.1±0.4819.8±0.777.65±0.07SR [7]40.8±2.2824.4±3.076.24±0.2740.9±3.6822.7±2.846.28±0.45SSD-GAN [4]34.2±1.5818.6±1.626.53±0.2345.0±1.7630.1±1.966.04±0.32F-Drop25.9±0.4515.8±0.277.15±0.0523.8±0.2819.3±0.527.85±0.01F-匹配26.5±0.7316.3±1.067.23±0.1724.9±0.1420.2±0.217.59±0.11F-Drop匹配25.2±1.1715.4±0.447.45±0.0723.9±0.5318.9±0.797.97±0.026752××表5.GAN 2-ADA(FID)样式的评价FFHQ猫狗野生(256×256)(512×512)StyleGAN2-ADA [13] 4.30 3.55 7.40 3.05F-Drop匹配4.05 3.36 7.21 2.62图6.真实图像和生成图像的可视化(AFHQ-Cat)6.4. StyleGAN 2-ADA的评价在这里,我们显示了在最先进的设置上评估的额外结果。我们选择StyleGAN 2-ADA [13]作为基线,并使用作者提供的实现。4我们在四个高分辨率数据集上评估了模型:FFHQ [14]和AFHQ-Dog/Cat/Wild [5]。F-Drop Match的训练设置与以前的工作[13]共享;我们使用FFHQ的paper 256设置和AFHQ数据集的paper512设置,这些设置在存储库中预设。λ的超参数为1。FFHQ为0 10−7,1。AFHQ数据集为010−8表5总结了FID的结果。我们的方法成功地改善了基线。与第6.3节相同的趋势,图1表明,我们的方法可以防止识别器被输入中的高频分量所欺骗。因此,F-Drop Match甚至可以在具有最先进的GAN变体的高分辨率数据集上工作得很好。6.5. 定性结果最后,我们提供所生成的图像的可视化。图6示出了从&在AFHQ-Cat数据集上训练的StyleGAN 2和F-Drop Match(我们的)模型生成的图像;培训设置与第6.4节共享。随机选择生成的图像。我们再次强调,我们在训练后的评估中没有使用F-Drop的M(γ)。我们可以看到4https://github.com/NVlabs/stylegan2-ada-pytorchStyleGAN 2-ADA和我们的合成了猫脸的粗糙形状同时,我们的在合成更详细的信息(诸如由较高频率分量组成的头发)同时保持关于较低频率分量(诸如面部部分的位置)的信息方面优于StyleGAN 2-ADA。这些结果表明,F-Drop和F-Match使发生器专注于拟合所有频率分量。更重要的是,我们发现F-Drop通过在训练期间过滤高频分量而不产生可见缺陷。其他可视化研究,包括对其他数据集的研究,可在补充材料中找到;它们表现出与这里描述的相同的趋势。7. 结论我们提出了F-Drop和F-Match,用于最小化GAN生成的图像中出现的频率间隙。我们证明了GANs的鉴别器对高频扰动高度敏感,并且敏感性可能导致频率间隙。我们的方法在频域和空间域都改进了GAN,因为F-Drop保护鉴别器免受高频扰动,而F-Match通过使用简单的小批量误差函数直接最小化频率间隙。我们的广泛的实验表明,F-Drop和F-Match的组合优于各种数据集上的基线。未来研究的一个重要方向是将不含超参数的自适应掩蔽引入F-Drop中,以有效地进行滤波并生成逼真的图像。引用[1] Nasir Ahmed,T Natarajan,and Kamisetty R Rao.离散余弦变换。IEEE Transactions on Computers,100(1):90-93,1974. 3[2] 我知道你在想什么。萨瑟兰,迈克尔·阿贝尔,阿瑟·格雷顿。揭秘MMD GANs。在2018年国际学习表征会议6[3] 安德鲁·布洛克杰夫·多纳休凯伦·西蒙尼安用于高保真自然图像合成的大规模GAN训练。在学习代表国际会议上,2019年。5[4] Yuanqi Chen,Ge Li,Cece Jin,Shan Liu,and ThomasLi. Ssd-gan:测量空间和光谱域的真实性,2020年。二五六七[5] Yunjey Choi,Youngjung Uh ,Jaejun Yoo,Jung-WooHa.Stargan v2:多领域的多样化图像合成。在IEEE计算机视觉和模式识别会议论文集,2020年。8[6] Adam Coates,Andrew Ng,and Honglak Lee.无监督特征学习中单层网络的分析第十四届人工智能和统计国际会议论文集,第215-223页。JMLR研讨会和会议记录,2011年。5我们样式GAN 2-ADA房6753[7] Ricard Durall,Margret Keuper,and Janis Keuper.注意你的上卷积:基于CNN的生成式深度神经网络无法再现光谱分布。在IEEE/CVF计算机视觉和模式识别会议上,2020年。一、二、五、六、七[8] JoelFrank,ThorstenEisenhofer,LeaSch¨ nherr,AsjaFis-cher,Dorothea Kolossa,and Thorsten Holz.利用频率分析进行深度虚假图像识别。2020. 一、二、五、六、七[9] 拉斐尔角冈萨雷斯和保罗A温茨。数字图像处理。艾迪森韦斯利酒吧有限公司、高级图书计划阅读,马萨诸塞州,1977年。3[10] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德
下载后可阅读完整内容,剩余1页未读,立即下载
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功