没有合适的资源?快使用搜索试试~ 我知道了~
图像重建与合成中的焦频损失
13919GAN(pix2pix)图像重建与合成中的焦频损失姜黎明1戴波1吴伟2陈陈昌来11南洋理工大学S-Lab2商汤科技{limig002,bo.dai,ccloy} @ ntu.edu.sgwuwenyan@sensetime.com摘要由于生成模型的发展,图像重建与合成技术取得了显著的进展.尽管如此,在真实图像和生成图像之间仍然可能存在差距,特别是在频域中。在这项研究中,我们表明,缩小频域中的差距,可以改善图像重建和合成,SIS质量进一步。我们提出了一种新的焦点频率损失,它允许一个模型自适应地集中在频率分量,很难合成的降权容易的。该目标函数是现有的空间损失的补充,提供了很大的阻抗对重要的频率信息的损失,由于神经网络的固有偏差。我们展示了多功能性和有效性的焦点频率损失,以提高流行的真假真假真赝品真赝品模型,如VAE,pix 2 pix和SPADE,在两个percep-实际质量和定量性能。我们进一步展示了它在StyleGAN2上的潜力。一、二1. 介绍随着生成模型的发展,我们已经看到图像重建和合成方面取得了显着进展[19,34,15,32,56],并且随着各种强大的基于深度学习的方法的出现,这一进展仍在继续[31,43,44,55]。尽管他们取得了巨大的成功,但在某些情况下,人们仍然可以观察到真实图像和生成图像之间的差距这些间隙有时以可辨别的人工制品的形式显现。例如,使用转置卷积的上采样层往往会产生棋盘伪影[42]。在其他一些情况下,只有通过频谱分析才能揭示这些差距。最近的研究[59,72,22]在媒体取证显示了一些显着的周期性模式,在频谱的操纵图像,这可能是一致的,在空间域中的文物在图1中,我们显示了一些真实图像和由用于图像重建和合成的典型生成模型生成的假图像的配对观察到,在两个频率之间的频域间隙是相同的。1GitHub:https://github.com/EndlessSora/focal-frequency-loss。2项目页面:https://www.mmlab-ntu.com/project/ffl/index.html。图1.在图像重建和合成中,典型生成模型的真实图像和生成图像之间的频域差距。Vanilla AE [19]丢失重要频率,导致图像模糊(第1行和第2行)。VAE [34]偏向有限的频谱区域(第3行),丢失高频信息(外部区域和角落)。可以在GAN(pix2pix)[23](第4行)生成的图像的光谱上发现不自然的周期性图案,与可观察到在一些情况下,对GAN生成的图像发生频谱区域移位(行5)。真实和虚假图像可能是这些方法的共同问题,尽管形式略有不同。当应用于重建和合成任务时,频域中观察到的间隙可能会被输入到神经网络的一些固有偏差。傅立叶分析强调了一种称为频谱偏差的现象[48,40,54],这是神经网络对低频函数的学习偏差。因此,生成模型倾向于保留难以合成的频率分量,即,硬频率,并收敛到一个较低的点。F-原则[67]表明,拟合某些free-timeVAE香草AE13920网络中的频率在整个训练中也是不同的因此,模型很难保持重要的频率信息,因为它倾向于生成具有更高优先级的频率。在本文中,我们仔细研究了真实图像和假图像之间的频域差距,并探索通过缩小这一差距来改善重建和合成质量的方法现有方法[34,23,43]通常采用空间域中的像素损失,而空间域损失几乎无法帮助网络找到硬频率并合成它们,因为每个像素对于某个频率具有相同的重要性。相比之下,我们使用标准的离散傅里叶变换(DFT)将真实和生成的样本转换为它们的频率表示。图像被分解成正弦和余弦,表现出- ING周期性的属性。频谱上的每个坐标值取决于空间域中的所有图像像素显式地最小化真实和伪频谱上的坐标值的距离可以帮助网络容易地定位频谱上的困难区域,即,硬频率为了解决这些硬频率,受硬示例挖掘[11,51]和焦点损失[36]的启发,我们提出了一种简单而有效的频率级目标函数,称为焦点频率损失。我们将每个频谱坐标值映射到二维空间中的欧几里德向量,同时考虑空间频率的振幅和相位信息建议的损失函数定义为这些向量的缩放欧氏距离,通过使用动态频谱权重矩阵对容易的频率进行降权直观地,在训练期间,根据每个频率的电流损耗的非均匀分布,动态地更新矩阵然后,该模型将快速聚焦于硬频率,并逐步细化所生成的频率以提高图像质量。这项工作的主要贡献是一种新的焦点频率损失,直接优化生成模型在频域中我们仔细激励如何损失可以建立在一个空间中的图像的频率可以很好地表示和区分,促进优化的频率维度。我们进一步解释了使模型能够专注于硬频率的方式,这可能是质量改进的关键。广泛的实验证明了所提出的损失对代表性基线的有效性[19,34,23,43],并且该损失与现有的空间域损失(如感知损失)是互补的[27]。我们进一步展示 了 焦 点 频 率 损 失 的 潜 力 , 以 改 善 最 先 进 的StyleGAN2 [31]。2. 相关工作图像重建与合成。自动编码器(AE)[19,34]和生成对抗网络(GAN)[15]是用于图像重建和合成的两种流行模型。vanilla AE [19]旨在学习潜在代码同时重建图像。它通常用于降维和特征学习。自变分自动编码器(VAE)发展以来,自动编码器已被广泛用于生成图像[34,33]。它们的应用已经扩展到各种任务,面操作[2,1,25,24]。另一方面,GAN [15,41,46]是广泛应用于人脸生成[29,30,31],图像-图像转换[23,74,7,26],风格转换[37,21],和语义图像合成[60,43,38]。现有的方法通常应用空间域损失函数,感知损失[27],以提高质量,而很少考虑频域中的优化。谱正则化[10]提供了初步尝试。与[27,10]不同,所提出的聚焦频率损失通过降低容易频率的权重来动态地将模型聚焦在硬频率上,并直接通过频域改善图像质量。关于经由频率域的图像重建和合成的一些并行工作包括[4,14,28]。神经网络的频域分析。除了我们在引言中讨论的研究[48,40,54,67]之外,我们还强调了一些通过频域分析神经网络的最新工作使用基于坐标的MLP,采用傅立叶特征[54,49]和位置编码[40,57]来恢复单个图像回归问题中丢失的高频此外,一些研究将频率分析与网络压缩[16,66,68,6,17]和特征约简[35,61]相结合,以加速网络的训练和推理。频域分析的应用领域已经进一步扩展,包括媒体取证[59,72,22,12],超分辨率[13,63]、泛化分析[58,20]、磁共振成像[53]、图像重新缩放[64]等。尽管对各种问题进行了广泛的探索,但是经由频域改进重构和合成质量仍然探索得少得多。硬示例处理。硬样本处理在对象检测和图像分类中被广泛探索以解决类别不平衡问题。一种常见的解决方案是使用称为硬示例挖掘的自举技术[51,11],其中代表性方法是在线硬示例挖掘(OHEM)[51]。在每个示例的当前损失之后对训练示例进行采样,以修改随机梯度下降。鼓励模型学习更难的例子来提高性能。另一种解决方案是焦点损失[36],这是一种缩放的交叉熵损失。比例因子在训练期间降低简单示例的权重,以便模型可以专注于学习困难的示例。建议的焦点频率损失的灵感来自这些技术。3. 聚焦频率损失为了制定我们的方法,我们明确地利用图像的频率表示(第3.1节),便于13921Σ Σ−i2π+(f(x,y)·e×MNMNMN网络来定位硬频率。然后,我们定义频率距离(第3.2节)来量化频域中图像之间的差异最后,我们采用动态频谱加权方案(第3.3节),使模型能够专注于实时硬频率。3.1. 图像的频率表示在本节中,我们重新审视并强调了几个关键的缺点-原始定点停车低通高通带阻离散傅里叶变换的概念我们展示了图像中丢失频率的影响和频率表示定位硬频率的优势。离散傅里叶变换(DFT)是将离散有限信号转换成其组成频率的复值函数,即,复指数波图像3可以被视为仅具有实数的二维离散有限信号。因此,为了将图像转换成其频率表示,我们执行2D离散傅里叶变换:图2.对频谱进行标准限带操作,原点(低频)中心偏移,空间域中的图像分别为这些手动操作可以被视为模拟,以显示缺失频率的影响频谱上的特定空间频率取决于所有图像像素。为了直观的可视化,我们抑制频谱的单个中心点(最低频率)(图2的列2),导致所有图像像素受到影响。为了进一步确定频谱上不同区域的空间频率,我们执行M−1N− 1vyF(u,v)=x=0uxMy=0N),(1)一些其他标准的带限操作,并可视化其在空间域中的物理意义(图2)。低通滤波器(第3列),即,丢失高频,(x,y)表示空间域中的图像像素的坐标;f(x,y)是像素值;(u,v)表示频谱上的空间频率的坐标;F(u,v)是复频率值;e和i分别是欧拉数和虚数单位。根据欧拉eiθ=cosθ+isinθ,(2)等式(1)中的自然指数函数(1)可以写成:e−i2π(ux+vy)=cos2π。 ux+vyΣ−isin2π。 ux+vyΣ。(三)导致模糊和典型的振铃伪像。 高通滤波器(第4栏),即,丢失低频,倾向于保留边缘和边界。有趣的是,简单的带阻滤波器(第5列),即,丢失某些频率,产生可见的常见棋盘伪像(放大查看)。可观察到,频谱上的不同区域的损失对应于图像上的不同伪影可以推断,补偿这些损失可以减少伪影并改善图像重建和合成质量。这里的分析显示了使用图像的频率表示进行分析和分析的价值。定位不同的频率,尤其是硬频率根据等式(1)和方程(3)在应用二维DFT之后,将图像分解成正交正弦和余弦函数,分别构成频率值的虚部和实部。每个正弦或余弦可以被视为(x,y)的二进制函数,其中其角频率由频谱位置(u,v)决定。这些正弦和余弦的混合提供了图像的水平和垂直频率因此,空间频率表现为图像中的2D正弦分量频谱坐标(u,v)也表示空间频率的角度方向(可视化可以在补充材料中找到),并且F(u,v)示出了图像对该频率的“响应”。由于三角函数的周期性,图像的频率表示也具有周期性。注意,在Eq.在等式(1)中,F(u,v)是遍历空间域中的每个图像像素的函数的和,因此3为简单起见,本节中的公式适用于灰度图像,而扩展到彩色图像是直接的,通过以相同的方式分别处理每个通道。3.2. 频率距离为了设计丢失频率的损失函数,我们需要一个距离度量,该距离度量量化频域中真实图像和假图像之间的差异。距离必须是可微的,以支持随机梯度下降。在频域中,数据对象是频谱上的不同空间频率,表现为图像中的不同2D正弦分量为了设计我们的频率距离,我们进一步研究等式(1)中的复值F(u,v)的实部和虚(一).设R(u,v)=a和I(u,v)=b分别是F(u,v)的实部和虚部。F(u,v)可以重写为:F(u,v)= R(u,v)+I(u,v)i = a +bi.(四)根据二维离散傅里叶变换的定义,F(u,v)中有两个关键元素,第一个元素是最小的,第二个频谱图像13922.√.Σ∠||| |2ΣΣ|RFMNRF1 ΣΣ2仅实振幅仅相位仅振幅+相位图3.通过单图像重建验证了频率距离的幅度和相位信息的必要性。“仅振幅/相位”意味着仅应用等式(5)/(6)来计算真实图像和重建图像之间的距离。元素是振幅,其定义为:|=R(u,v)2 + I(u,v)2 = a2 + b2。|=R(u, v)2+ I (u, v)2=a2 + b2.(五)振幅表示能量,即,图像对具有特定频率的2D正弦波的响应有多强。我们通常将振幅显示为频谱的信息可视化(例如,图1和图2)。第二个元素是相位,其被写为:图4. 从频谱位置(u,v)处的两个对应的真实和伪频率值Fr(u,v)和Ff(u,v)映射的r → r和r → f之间的频率距离。使用欧氏距离(紫色线),同时考虑振幅(幅度|和|r → f|)和 相 位 ( 角 度θ r 和θ f ) 信 息。|) and phase (angleθrand θf) information.3.3. 动态谱加权我们在等式中定义的频率距离(8)quantita-F(u,v)= arctanI(u,v)R(u,v)B= arctan。一(六)在频域中有效地比较真实图像和伪图像。然而,直接使用Eq.(8)作为损失函数,在处理硬频率方面没有帮助,因为相位表示2D正弦波从对应的相位的偏移。波与原点值(一个周期的开始频率距离应考虑幅度和相位两者,因为它们捕获图像的不同信息。我们在图3中示出了单图像重建实验。仅仅最小化振幅差返回具有不规则颜色图案的重建图像相反,仅使用相位信息,合成尺寸的图像类似于噪声。一个忠实的重建只能通过考虑幅度和相位。我们的解决方案是将每个频率值映射到二维空间中的Eu-clide向量(即,飞机)。遵循复数的标准定义,实部和虚部分别对应于X轴和y轴。设Fr(u,v)=ar+bri为实像频谱坐标(u,v)处的空间频率值,相应的Ff(u,v)=af+bfi具有类似的意义w. r. t. 这张照片。 We表示r→r和r→f,因为w o表示从Fr(u,v)和F f(u,v)映射的i个向量(参见图4)。 基于振幅和相位的定义,我们注意到矢量幅度r→r和r→f对应于振幅,并且角度θr和θf对应于相位。因此,频率距离对应于r-r和r-f之间的距离,其考虑矢量幅度和角度两者。我们使用(平方)每个频率的权重相同。由于固有的偏差,模型仍然会偏向容易的频率。受硬示例挖掘[11,51]和焦点损失[36]的启发,我们制定了我们的方法,将训练集中在硬频率上。为了实现这一点,我们引入了一个频谱权重矩阵来降低易频率的权重。频谱权重矩阵由训练期间每个频率的当前损耗的非均匀分布动态地确定。每个图像具有其自己的光谱权重矩阵。矩阵的形状与光谱的形状相同。矩阵元素w(u,v),即,在(u,v)处的空间频率的权重被定义为:w(u,v)= |F r(u,v)− F f(u,v)|α,(9)其中α是灵活性的比例因子(在我们的实验中α=1我们进一步将矩阵值归一化到范围[0,1]中,其中权重1对应于当前最多丢失的通过频谱权重矩阵的梯度被锁定,因此它仅用作每个频率的权重通过对频谱权重矩阵和频率距离矩阵执行Hadamard乘积,我们有焦点频率损失(FFL)的完整形式M−1N−1单个频率的欧几里得距离:d(r→r,r→f)=r→r−r→f2=|Fr(u,v)−Ff(u,v)|二、(七)FFL=1w(u,v)FMNru=0v =0(u,v)−Ff(u,v)|二、(十)真实图像和伪图像之间的频率距离可以被写为平均值:M−1N−1d(F,F)=|F(u,v)− F(u,v)|.(八)u=0v =0布里(���ƒ���ƒ(���,���)布里���ƒ布里尔���������(|R|���R|���ƒ|���ƒ���ƒ13923焦点频率损失可以被看作是真实图像和伪图像之间的频率距离它将模型集中在通过降低容易频率的权重来合成硬此外,专注动态更新区域以补充即时13924→ΣΣΣ硬频率,从而逐步细化所生成的图像,并适用于不同的方法。在实践中,将所提出的焦点频率损失应用于模型,我们首先使用2D DFT将真实图像和伪图像都变换成它们的频率表示然后,我们对每个频率执行正交归一化DTD CelebA值F(u,v),即, 将其除以MN,使得2DDFT是酉的,以确保平滑的梯度。最后,我们使用Eq。(10)计算聚焦频率损失。我们注意到,焦点频率损失的确切形式不是关键的。补充材料中提供了关于损失变量的一些研究。4. 实验4.1. 设置基线。我们从vanilla AE [19]的图像重建开始(即,简单的2层MLP)和VAE [34](即,基于CNN)。然后,我们研究了无条件图像合成使用VAE,即从所述高斯噪声生成图像此外,我们还研究了使用基于GAN的方法的条件图像合成具体来说,我们选择了两种典型的图 像 到 图 像 的 翻 译 方 法 , 即 pix2pix [23] 和 SPADE[43]。我们进一步探索了最先进的StyleGAN2上的焦点频率损失(FFL)的潜力[31]。此外,我们将FFL与相关损失进行比较[27,10]。补充材料中提供了实施细节。数据集。我们总共使用了七个数据集。数据集的类型、大小和分辨率各不相同。对于vanilla AE,我们利用可描述纹理数据集(DTD)[8]和CelebA [39]。对于VAE,我们使用具有不同分辨率的CelebA和CelebA-HQ [29]。对于pix2pix,我们使用官方准备的CMP Facades [47]和edges shoes [69]数据集。对于SPADE,我们选择了两个具有挑战性的数据集,即,城市景观[9]和ADE20K [73]。对于StyleGAN2,我们重用CelebA-HQ。有关数据集的详细信息,请参阅补充材料评估指标。为了评估频域差异,我们引入了一个频率级度量,称为对数频率距离(LFD),它是由方程的修改版本定义的。(八)、图5.DTD上的Vanilla AE图像重建结果(64×64)和CelebA(64×64)数据集。表1. PSNR(越高越好)、SSIM(越高越好)、LPIPS(越低越好)、FID(越低越好)和LFD(越低越好)分数用于在有/没有聚焦频率损失(FFL)的情况下训练的vanilla AE图像重建数据集FFLPSNR↑SSIM↑LPIPS↓FID↓LFD↓DTDW/Ow/20.13320.1510.4070.4000.4140.404246.870240.37314.76414.760CelebAW/Ow/20.04421.7030.5680.6420.2370.19997.03583.80114.78514.403添加到LFD和FID。对于VAE,pix2pix和StyleGAN2的合成任务,除了FID之外,我们还应用IS(越高越好)[50对于SPADE(语义图像合成的特定任务方法),除了FID之外,我们还遵循他们的论文[43],使用mIoU(越高越好)和像素精度(精度,越高越好)来实现合成图像的Cityscapes使用DRN-D-105 [70],ADE 20 K使用UperNet 101 [654.2. 结果和分析香草AE. vanilla AE [19]图像重建的结果如图5所示。在DTD上,没有聚焦频率损失(FFL),香草AE基线合成模糊的图像,缺乏足够的纹理细节,只包含一些低频信息。使用FFL,重建的图像变得更清晰,并显示出更多的纹理细节。在CelebA上的结果显示,FFL改善了一系列质量问题,例如,面部模糊(第4列)、识别偏移(第5列)和表情丧失(第6列)。定量评价结果见表1。将拟定的FFL添加到普通AE基线LFD =log1M −1N−1MNu=0v=0|F r(u, v) − F f(u,v)|,+1个,(十一)在大多数情况下,DTD和CelebA数据集w.r. t上的性能提升五个评价指标。我们注意到,CelebA的性能提升更大,这表明其中对数仅用于将值缩放到合理的范围内。LFD越低越好。 注意,LFD是全参考度量(即,需要地面实况图像),因此我们在重建任务中使用它。此外,我们整合了先前工作的评估协议[40,3,43,26]。具体来说,我们对所有任务都采用FID(越低越好)[18]。对于vanilla AE和VAE的重建任务,我们使用PSNR(越高越好),SSIM(越高越好)[62]和LPIPS(越低越好)[71]。带FFL不带FFL房213925FFL对自然图像的有效性。VAE。CelebA上的VAE [34]图像重建和无条件图像合成的结果如图6所示。对于重建,FFL有助于VAE模型更好地保留图像清晰度(第1列)、表情(第2列)和肤色(第3列)。无条件合成结果(列4、5、6)表明,应用FFL后,生成图像的质量得到改善生成的面变得更清晰,并获得更多的纹理细节。更高13926→重构综合CMP立面边缘→鞋图6.CelebA(64×64)数据集上的VAE图像重建和无条件图像合成结果重构综合图 8.CMPFacades( 256×256 ) 和edges→shoes(256×256)数据集上的pix2pix图像到图像转换结果表4.在有/没有焦点频率损失(FFL)的情况下训练的pix 2pix图像到图像转换图7.CelebA-HQ(256×256)数据集上的VAE图像重建和无条件图像合成结果表2.在有/没有聚焦频率损失(FFL)的情况下训练的VAE图像重建的PSNR(越高越好)、SSIM(越高越好)、LPIPS(越低越好)、FID(越低越好)和LFD(越低越好)评分数据集FFLPSNR↑SSIM↑LPIPS↓FID↓LFD↓CelebAW/Ow/19.96122.9540.6060.7230.2170.14369.90049.68914.80414.115CelebA-HQW/Ow/21.31022.2530.6160.6370.3670.34471.08159.47017.26617.049表3.在有/没有焦点频率损失(FFL)的情况下训练的VAE无条件图像合成的FID(越低越好)和IS(越高越好)分数数据集FFLFID↓IS↑CelebAW/Ow/80.11671.0501.8732.010CelebA-HQW/Ow/93.77884.4722.0572.060表2中示出了这些参数。将FFL添加到VAE基线实现了更好的性能。所有的metric。此外,FID和IS在无条件图像合成任务中更好(表3),表明生成的图像更清晰且更逼真。结果表明,焦频损失的有效性,帮助VAE,以改善图像重建和合成质量。pix2pix。对于条件图像合成,pix2pix [23]图像到图像转换(I2I)的结果如图8所示。在CMP Facades上,FFL通过减少不自然的颜色(第1列)或建筑物上的黑色伪影(第2列)来提高pix2pix的图像合成质量。同时,应用FFL后,语义信息与掩码的一致性变得更好。对于边鞋转换,pix2pix基线有时会将彩色棋盘图案引入到白色背面。为了获得更高的分辨率,我们在图7中呈现了CelebA-HQ上的VAE重建和合成结果。通过将FFL添加到VAE基线,重建的图像保留了更多的原始图像信息,口部颜色(第2列)和张开角度(第1列)。此外,头发上的高频细节被明显增强(列1)。对于无条件图像合成,FFL有助于减少伪影并改善合成图像的感知质量。VAE图像重建的定量测试结果地面(第3列,放大查看)。此外,在某些情况下会出现非典型颜色(第4列)。相比之下,用FFL训练的模型产生更少的伪影。pix2pix图像到图像平移的定量评价结果如表4所示。FFL有助于两个数据集的性能提升。pix2pix基线的结果显示了焦点频率损失对于图像到图像平移问题的适应性。黑桃。 我们进一步探索语义图像合成(即,带FFL不带FFL房不带带FFL房带FFL不带房掩模/边缘数据集FFLFID↓IS↑CMP立面W/Ow/128.492123.7731.5711.738边→鞋W/O80.27974.3592.6742.80413927×图9.StyleGAN 2无条件图像合成结果(无截断)和CelebA-HQ(256×256)数据集上的小批量平均光谱(调整为表5.与一系列特定于任务的方法相比,在具有/不具有聚焦频率损失(FFL)的情况下训练的SPADE语义图像合成的mIoU(越高越好)、像素准确度(accu,越方法城市景观ADE20KmIoU↑ accu↑FID↓mIoU↑ accu↑FID↓CRN [5]52.477.1104.722.468.873.3SIMS [45]47.275.549.7N/AN/AN/Apix2pixHD [60]58.381.495.020.369.281.8SPADE [43]62.381.971.838.579.933.9SPADE + FFL64.282.559.542.982.433.7表6. 在 有 /没 有 焦 点 频 率 损 失 ( FFL ) 的 情 况 下 训 练 的StyleGAN 2无条件图像合成的FID(越低越好)和IS(越高越好)分数数据集FFLFID↓IS↑CelebA-HQW/O5.6963.383(256×256)w/4.9723.432图10. SPADE语义图像合成结果Cityscapes ( 512×256 ) 和 ADE20K ( 256×256 ) 数 据集。从语义分割掩模合成真实感图像)。SPADE [43]的结果如图10所示。在Cityscapes的街景中(第1列),SPADE基线扭曲了汽车和道路,丢失了一些重要的细节(例如,道路线)。用FFL训练的模型对这些细节表现出更好的在ADE20K的室外场景(第2列)中,将FFL应用于SPADE可增强其生成建筑物细节的能力。此外,对于ADE20K室内图像(第3列),SPADE基线在某些情况下会产生用所提出的FFL训练的模型合成了更逼真的图像。定量试验结果见表5(用于比较的数值取自[43])。我们将使用/不使用FFL训练的SPADE与一系列开源任务特定的语义图像合成方法[5,45,60]。SIMS[45]在Cityscapes上获得了最好的FID,但分割分数很差,因为它直接从存储库中缝合训练图像块,而没有保持完全一致的位置。在不修改SPADE网络结构的情况下,使用FFL进行训练有助于进一步提高性能,大大优于基准方法,这表明FFL用于语义图像合成的有效性。StyleGAN2. 我们将FFL应用于真实图像的小批量平均谱和通过现有技术的无条件图像合成方法生成的图像,即,风格-GAN 2 [31],旨在缩小频率分布差距并进一步提高质量在没有截短的CelebA-HQ(256 256)[30,31]上的结果示于图9中。尽管StyleGAN 2(w/oFFL)在大多数情况下生成光致变色图像,但仍然可以在背景(列2和4)和面部(列5)上发现一些微小的伪影。应用FFL,这样的伪影减少,进一步改善合成质量。可观察到,小批量平均光谱之间的频域间隙明显地被FFL减轻(第8列)。一些高分辨率的城市景观ADE20K带FFL不带FFL房带FFL掩模不带房13928表7.我们的焦点频率损失(FFL)与相关损失的比较,即感知损失(PL)、频谱正则化(SpReg),以及FFL的另一种变换形式,即,离散余弦变换(DCT),在不同的图像重建和合成任务。VAE重建(CelebA)pix2pix I2I(边缘鞋)结果见补充材料。定量结果见表6。FFL改善了FID和IS,与视觉质量增强一致。StyleGAN2上的结果显示了FFL提高最先进基线性能的潜力。与相关损失的比较。为了完整性和公平性,我们比较了建议的焦点频率损失(FFL)与相关的损失函数,旨在提高图像重建和合成质量。具体来说,我们选择了广泛使用的基于空间的方法,即感知损失(PL)[27],这取决于来自预训练VGG [52]网络的高级特征。我们还研究了基于频率的方法,即谱正则化(SpReg)[10],其基于傅立叶功率谱的方位角积分导出此外,我们还与FFL的另一种变换形式,离散余弦变换(DCT)。比较结果报告于表7中。FFL优于相关方法(即,PL和SpReg)在不同的图像重建和合成任务中应用于我们的基线值得注意的是,FFL和PL是互补的,正如我们之前在SPADE上的实验所示,SPADE也使用PL。即使我们用DCT代替DFT作为FFL的变换形式,结果仍然优于以前的方法。其性能仅略逊于通过具有DFT的FFL获得的性能(即,当量(10))。我们推断FFL的变换形式可以是灵活的。在这个阶段,DFT可能是更好的选择。消融研究。我们在图11中展示了FFL每个关键组件的消融研究,在表8中展示了相应的定量结果。为了直观和简单,我们使用CelebA上的vanilla AE图像重建进行评估。完整的FFL实现了最佳性能。如果我们不使用图像的频率表示(第3.1节),并将模型聚焦在空间域中的硬像素上,合成图像将变得更加模糊。定量结果降低。丢弃相位或振幅信息(第3.2节)会极大地损害度量性能。在视觉上,不使用相位信息(仅振幅),重建的面部的轮廓被保留,但颜色被完全移位。在没有振幅(仅相位)的情况下,模型根本不能重建面部,并且丢失了完整的身份信息这进一步验证了同时考虑振幅和相位信息的必要性。如果不把模型集中在硬频率上-真实基线全FFL,无频率无相 无放大器,无病灶图 11. 消 融 研 究 的 每 个 关 键 组 成 部 分 的 焦 点 频 率 损 失(FFL),即频率表示(freq)、相位和振幅(ampli)信息以及动态频谱加权(焦点)。表8.每个关键部件消融研究的PSNR(越高越好)、SSIM(越高越好)、LPIPS(越低越好)、FID(越低越好)和LFD(越低越好)分数用于局灶频率损失(FFL)。PSNR↑SSIM↑LPIPS↓FID↓LFD↓基线20.0440.5680.23797.03514.785全FFL21.7030.6420.19983.80114.403无频率18.2000.4700.265123.83315.210无相13.2730.3800.407233.17016.344无放大器15.6400.3590.539323.52815.799无病灶20.1630.5740.23494.49714.758通过动态频谱加权(即,直接使用Eq.(8)),结果在视觉上类似于基线,与我们在第3.3节中的讨论一致。度量减小,接近但略好于基线,这可以受益于频率表示。5. 结论所提出的焦点频率损失直接优化频域中的图像重建和合成方法。损失自适应地将模型集中在难以处理以改善质量的频率分量上。损失是补充现有的空间损失不同的基线在类别,网络结构和任务,优于相关的方法。我们进一步显示了焦点频率损失的潜力,以改善StyleGAN2的合成结果。探索其他应用和设计更好的频域优化策略可以是有趣的未来工作。致谢。本研究得到了RIE 2020行业联盟基金-行业合作项目(IAF-ICP)资助计划的支持方法VAE合成(CelebA)PSNR↑SSIM↑LPIPS↓FID↓LFD↓FID↓IS↑FID↓I→S↑基线19.9610.6060.21769.90014.80480.1161.87380.2792.674+ [27]20.9640.6580.14362.79514.57378.8251.78878.9162.722+ SpReg [10]19.9740.6070.21869.11814.79678.0791.89879.3002.700+ FFL(DCT)22.6770.7110.15051.53614.17971.8271.93279.0452.754+ FFL(我们的)22.9540.7230.14349.68914.11571.0502.01074.3592.80413929引用[1] DeepFaceLab.https://github.com/iperov/www.example.com2019-08-20 2[2] DeepFakeshttps://github.com/deepfakes/faceswap/. 2019-08-16. 2[3] 安德鲁·布洛克杰夫·多纳休凯伦·西蒙尼安用于高保真自然图像合成的大规模GAN训练在ICLR,2018年。5[4] 木彩、张红、黄慧娟、耿启川、郜黄。频域图像转换:更逼真,更好地保持身份。arXiv预印本,arXiv:2011.13611,2020。2[5] Qifeng Chen和Vladlen Koltun。用级联细化网络进行摄影图像合成。InICCV,2017. 7[6] Wenlin Chen,James Wilson,Stephen Tyree,Kilian QWein-berger,and Yixin Chen.在频域中压缩卷积神经网络。InKDD,2016. 2[7] Yunjey Choi,Minje Choi,Munyoung Kim,Jung-WooHa,Sunghun Kim,and Jaegul Choo. StarGAN:用于多域图像到图像翻译的统一生成对抗网络在CVPR,2018年。2[8] M. Cimpoi,S.马吉岛Kokkinos,S. Mohamed,和A.维达尔迪 描述野外的纹理。 CVPR,2014。5[9] Marius Cordts , Mohamed Omran , Sebastian Ramos ,Timo Rehfeld,Markus Enzweiler,Rodrigo Benenson,Uwe Franke,Stefan Roth,and Bernt Schiele. Cityscapes数据集用于语义城市场景理解。在CVPR,2016年。5[10] Ricard Durall,Margret Keuper,and Janis Keuper.注意你的上卷积:基于CNN的生成式深度神经网络无法再现光谱分布。在CVPR,2020年。二、五、八[11] Pedro F Felzenszwalb 、 Ross B Girshick 、 DavidMcAllester和Deva Ramanan。使用区分性训练的基于部分的模型进行对象检测。TPAMI,32:1627-1645,2009. 二、四[12] JoelFrank,ThorstenEisenhofer,LeaSch¨ nherr,AsjaFis-cher,Dorothea Kolossa,and Thorsten Holz.利用频率分析进行深度虚假图像识别。在ICML,2020。2[13] 曼纽尔·弗里奇、古书航、拉杜·提莫夫特。用于现实世界超分辨率的频率分离。在ICCVW,2019。2[14] Rinon Gal,Dana Cohen,Amit Bermano和Daniel Cohen-Or。SWAGAN:基于风格的小波驱动生成模型。arXiv预印本,arXiv:2102.06108,2021。2[15] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。NeurIPS,2014。一、二[16] Lionel Gueguen、Alex Sergeev、Ben Kadlec、RosanneLiu和Jason Yosinski。更快的神经网络直接从JPEG。NeurIPS,2018。2[17] Seungwook Han 、 Akash Srivastava 、 Cole Hurwitz 、Prasanna Sattigeri和David D Cox。不是那么大的:产生高-在一个小的计算预算保真度的图像。arXiv预印本,arXiv:2009.04433,2020。2[18] Martin Heusel、Hubert Ramsauer、Thomas Unterthiner、Bernhard Nessler和Sepp Hochreiter。 通过两个时间尺度更新规则训练的GAN收敛到局部纳什均衡。NeurIPS,2017。5[19] Geoffrey E Hinton和Ruslan R Salakhutdinov.用神经网络降低数据的维数。Science,313:504-507,2006. 一、二、五[20] 嘉兴黄,大雁关,敖然肖,陆世坚。RDA:通过傅立叶对抗攻击的鲁棒域自适应。ICCV,2021。2[21] Xun Huang , Ming-Yu Liu , Serge Belongie , and JanKautz. 多 模 态 无 监 督 图 像 到 图 像 翻 译 。 在 ECCV ,2018。2[22] Yihao Huang , Felix Juefei-Xu , Qing Guo , XiaofeiXie,Lei Ma,Weikai Miao,Yang Liu,and GeguangPu.FakeRetouch:通过故意噪声的引导来逃避深度伪造检测。arXiv预印本,arXiv:2009.09213,2020。一、二[23] Phillip Isola,Jun-Yan Zhu,Tinghui Zhou,and Alexei A
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索数据转换实验平台在设备装置中的应用
- 使用git-log-to-tikz.py将Git日志转换为TIKZ图形
- 小栗子源码2.9.3版本发布
- 使用Tinder-Hack-Client实现Tinder API交互
- Android Studio新模板:个性化Material Design导航抽屉
- React API分页模块:数据获取与页面管理
- C语言实现顺序表的动态分配方法
- 光催化分解水产氢固溶体催化剂制备技术揭秘
- VS2013环境下tinyxml库的32位与64位编译指南
- 网易云歌词情感分析系统实现与架构
- React应用展示GitHub用户详细信息及项目分析
- LayUI2.1.6帮助文档API功能详解
- 全栈开发实现的chatgpt应用可打包小程序/H5/App
- C++实现顺序表的动态内存分配技术
- Java制作水果格斗游戏:策略与随机性的结合
- 基于若依框架的后台管理系统开发实例解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功