基于GAN的频域图像转换

39 浏览量更新于2023-10-15 收藏 2.12MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

13930频域图像转换：更逼真，更好的身份保护木才1张红2黄慧娟3耿启川4李逸轩1高煌51威斯康星大学麦迪逊分校2商汤科技集团有限公司三桂公司4北京航空航天大学5清华大学{mucai，sharonli}@cs.wisc.edufykalviny@gmail.comhuanghuijuan@kuaishou.comzhaokefirst@buaa.edu.cngaohuang@tsinghua.edu.cn摘要基于GAN的方法使图像到图像的翻译发生了革命性的变化然而，现有的方法缺乏保持源域的身份的能力。因此，合成图像通常会过度适应参考域，从而失去重要的结构特征并遭受次优视觉质量。为了解决这些挑战，我们提出了一种新的频域图像转换（FDIT）框架，利用频率信息来增强图像生成过程。我们的关键思想是将图像分解为低频和高频分量，其中高频特征捕获与身份类似的对象结构我们的训练，ING目标有利于保存在像素空间和傅立叶频谱空间的频率我们广泛评估了五个大规模数据集和多个任务（包括图像翻译和GAN反演）的FDIT大量的实验和烧蚀表明，FDIT有效地保留了源图像的身份，并产生照片般逼真的图像。FDIT建立了最先进的性能，与之前的最佳方法相比，平均FID分数1. 介绍图像到图像转换[67，9，4，56，53]在计算机视觉中引起了极大的研究关注，其任务是基于源图像和参考图像合成新图像（见图1）。自从引入基于GAN的方法以来，这项任务已经发生了革命性的变化[28，66]。特别是，大量的文献试图将图像表示分解为内容空间和风格空间[11，45，37，26]。为了翻译源图像，将其内容表示与来自参考域的不同样式表示组合。尽管取得了令人兴奋的进展，但现有的解决方案仍存在以下问题：源代码参考SwapAEFDIT图1：闪烁山脉数据集的图像转换结果。从左列到右：我们显示源图像，参考图像，使用自动交换生成的图像-[ 45 ][46][47][48][49] SwapAE过度适应参考图像。FDIT更好地保留了相对于源图像的组成和身份。两大挑战。首先，不存在允许保留身份的显式机制，并且因此，合成图像可能过度适应参考域并且失去原始身份特征。这可以在图1中观察到，其中交换自动编码器[45]13931CS∈ Z∈ XX= 1= 7通过对每个图像应用快速傅立叶变换（FFT）在频域中进行。这额外地确保了原始图像和经转换的图像共享类似的高频频谱。大量的实验表明，FDIT是非常有效的，建立国家的最先进的图像翻译任务的性能下面我们总结了我们的主要成果和贡献：• 我们提出了一种新的基于频率的图像翻译框架，FDIT，它大大提高了图2：将原始图像分解为灰度高频（底部）和低频（顶部）分量的效果的可视化。采用高斯核作为低频滤波器，具有不同的核尺寸k。生成具有更接近参考而不是源图像的身份和结构的图像。例如，在第二行中，树不存在于源图像中，但出现在翻译结果中。其次，生成过程可能丢失重要的细粒度细节，导致次优视觉质量。这对于生成逼真的高分辨率图像可能是禁止的。上述挑战提出了以下重要问题：我们如何能够在更好地保留身份的同时实现照片般逼真的图像翻译？出于这一动机，我们提出了一种新的框架我们的核心思想是将图像分解为低频和高频分量，并在图像平移过程中调节频率的我们的框架受到信号处理的启发并以信号处理为基础[15，5，21]。直观地，低频分量捕获诸如颜色和照明的信息;而高频分量对应于对象的尖锐边缘和重要细节。例如，图2示出了通过采用高斯模糊将原始图像分解成低对比度的结果图像。高频对分器（顶部对.底部）。建筑物标识基于高频分量是可区分的。形式上，FDIT引入了新颖的基于频率的训练目标，其便于在训练期间保存频率信息。频率信息在视觉空间中可以作为身份特征和重要的细节信息反映出来。形式上，我们在像素空间以及傅立叶频谱空间中施加限制。在像素空间中，我们通过应用高斯核（即，低频滤波器）。损耗项将高频分量调节为在源图像和所生成的图像之间相似。此外，FDIT直接调节一致性保持身份的生成，同时增强了图像的混合真实感。在所有考虑的数据集上，FDIT的表现都与普通交换自动编码器（SwapAE）[45]相比，FDIT将FID评分降低了5.6%。• 我们进行了广泛的消融和用户研究，以评估（1）身份保留能力和（2）图像质量，其中FDIT不断超越先前的方法。例如，用户研究显示，在上述两个方面，FDIT的平均偏好为75.40%，而SwapAE的平均偏好为64.39%。我们还进行了消融研究，以了解不同的损失条款和频率监督模块的有效性。• 我们在五个大规模数据集（包括两个新收集的数据集）上广泛地评估了我们的方法。对图像翻译和GAN反演任务的定量和定性评估证明了我们方法1的优越性。2. 背景：图像到图像翻译图像到图像转换的目的是在给定源图像和伴随的参考图像的情况下直接生成合成图像。现有算法通常采用类似于编码器-解码器的神经网络架构。我们表示编码器E（x）、生成器G（z）和图像空间=RH×W×3（RGB颜色通道）。给定图像x，编码器E将其映射到潜在表示z.以前的方法依赖于假设潜在代码可以被组成为两个分量z=（z_c，z_s），其中z_c和z_s分别对应于内容和重构损失使原始输入x和G（E（x））之间的L1范数最小化。为了执行图像转换，生成器从源图像获取内容代码z_source，以及从参考图像获取样式代码z_ref。翻译的1 代码和数据集可从以下网址获得： https://github.com/mu-cai/frequency-domain-image-translation13932C∈ X ∈ X图3：所提出的频域图像转换（FDIT）框架的概述。其核心思想是将图像分解为低频和高频分量，并在图像重建（左）和图像平移（右）期间调节频率一致性。高频信息捕获对象的尖锐边缘和重要细节，其中FDIT训练目标有效地匹配。图像由G（z源，z参考）给出。然而，现有的方法（其中[i，j]表示im-j内的空间位置）不适用于所述方法。C sODS可能受到其特征解纠缠能力的限制，其中Z源可能无法捕获源图像的身份。因此，这样的身份相关特征可能在翻译中不期望地丢失（参见图5），这激发了我们的工作。3. 频域图像变换年龄，并且σ2表示高斯函数的方差。在[21]之后，方差随着高斯核大小成比例地增加。使用卷积在输入X上的高斯核，我们获得低频（模糊）图像XL：xL [i，j]= Σ Σk [m，n]·x [i + m，j + n]。（二）M n我们新的基于频率的图像翻译框架如图3所示。在下文中，我们首先提供概述，然后描述培训目标。我们其中m，n表示2D高斯核的索引，即、m，n∈[−k−1，k−1].培训目标有助于保持频率22在图像转换过程中的信息。具体来说，我们在像素空间（第3.1节）以及傅立叶光谱空间（第3.2节）施加限制。3.1. 像素空间损失高频和低频图像。我们将每个输入x转换为两个图像xLxH，其分别对应于低频和高频图像。注意，XL和XH两者与X处于相同的空间维度中。具体来说，我们采用高斯内核，它过滤高频特征并保留低频信息：为了获得xH，我们首先将彩色图像转换为灰度，然后减去低频信息：xH=rgb2gray（x）-（rgb2gray（x））L，（3）其中RGB2Gray函数将彩色图像转换为灰度级。这去除了与身份和结构无关的颜色和照明信息。所得到的高频图像xH包含尖锐边缘，即原始图像的草图像素空间中的重建损失。我们现已雇用一个−1，i2+j2，e（一）以下重建损失项，其强制执行kσ[ i，j]=22πσσ2，输入和发生器输出之间的相似性13933HF F·×个FF√2+[ImF（I）（a，b）]+ε），×个F- -√F FHH1HHCSCS低频和高频分量：Lrec，pix（E，G）=ExXΣxL−（G（E（x）L1+x−（G（E（x）Σ（四）傅立叶空间中的平移匹配损失。以与等式5类似的精神，我们设计傅立叶频域中的平移匹配损耗：Ltrans，fft（E，G）= ExXΣF R（xsource）− FR（G.zsource，zrefΣ）1Σ，（九）像素空间中的平移匹配损失。除了重建损失之外，我们还使用平移匹配损失：L trans，pix（E，G）= ExXΣxsource −。G（zsource，zref）Σ1Σ，其中R（x）=R（rgb2gray（x））M H。MH是频率掩模，我们在下面提供了对其的详细损失约束所生成的图像的高频分量，以更好地保持身份H C SH（五）频率屏蔽。如图3所示，低-其中z_source和z_ref分别是源图像的内容代码和参考图像的样式代码。直观地说，翻译后的图像应该坚持原图像的身份。我们通过调节高频分量来实现这一点，并强制生成的图像具有与原始源图像相同的高频图像3.2. 傅立叶频率空间损耗从像素空间到傅立叶谱空间的变换除了像素空间的限制，我们介绍了直接在傅立叶域频率掩模是半径为r的圆，而高频掩模是互补区域。频率掩模M_H和M_L可以根据R在整个训练数据集上的分布凭经验估计。对于分辨率为256 256的图像，我们选择半径为21。低频掩模内的能量占频谱中总能量的97.8%。3.3. 整体亏损考虑到所有上述损失，总损失形式化为：空间特别地，我们使用快速傅里叶变换（FFT）并将x从像素空间映射到傅里叶频谱。LFDIT=Lorg+λ1Lrec，pix+λ2Ltrans，pix+λ3L rec， fft+λ 4L trans， fft，（十）中央空间我们将离散傅里叶变换F应用于大小为H×W的真实2D图像I：哪里 Lorg 是任何图像变换的原始损失函数。H−1W −1lation模型为了简单起见，我们使用λ1= λ2= λ3 = λ 4 =λ 4 = λ 5= λ 6 = λ7=λ8。（I）（a，b）=1ΣΣe−2πi·hae−2πi·wb·I（h，w），1在本文中。FHWH Wh=0w=0（六）高斯核函数vs.FFT。高斯核和FFT是对于a=0，. . .，H1，b=0，. . .、W1。为了便于后期处理，我们将从复数域到实数域。此外，我们采用对数来稳定训练：R（I）（a，b）= log（1 +[Re（I）（a，b）]2（七）其中ε=110−8是为了数值稳定性而添加的项;Re和Im分别表示（I）（a，b）傅立叶频谱中的每个点将根据离散空间频率利用来自所有像素的信息，其将表示傅立叶频谱的频率。在全局水平上的频率特征。然后，我们调节频谱中的重构损耗：Lrec，fft（E，G）=ExXΣFR（x）− FR（G（E（x）1Σ。（八）13934×个互补的，用于保存频率信息。一方面，高斯核通过卷积提取频率信息，因此以局部方式表示频率特征。另一方面，快速傅立叶变换利用来自所有像素的信息来获得每个空间频率的FFT值，从而全局地表征频率分布。因此，高斯核和FFT在保留频率信息方面是互补的。我们在第4.2节中对此进行了消融研究，其中两者都有效地增强了图像翻译任务的身份保留能力。高斯核大小当将图2中的图像变换到频谱空间中时，高斯核大小的影响可以在图4中清楚地反映。具体而言，大的核将导致低频带上的严重失真，而小的核将不会保留很多高频信息。在这项工作中，我们选择的核大小k=21的图像分辨率256 256，其可以适当地分离高/低-频率信息，在两个图像空间13935低，k=7高，k=7低，k=21高，k=21低，k=63高，k=63原始×个×个×个和光谱空间分布。我们的实验还表明，FDIT是不敏感的选择k，只要它落入一个温和的范围。空间解纠缠图像1501251007550250-25电话：+86-50 - 88888888传真：+86-50 - 88888888空间频率图4：将图2中的高频和低频图像转换为频率功率谱。核大小k=21的高斯核可以避免高频和低频区域的失真。功率谱表示每个空间频率处的能量分布。4. 实验在本节中，我们将在两种最先进的图像翻译架构上评估我们提出的方法，即交换自动编码器 [45] 、StarGAN v2 [11] 和一个 GAN 反演模型，即，Image2StyleGAN [1].大量的实验结果表明，FDIT不仅更好地保持身份，而且提高了图像质量。数据集。我们在以下五个数据集上评估FDIT： (1)[32]第62话：我的世界(3)LSUN Bedroom [62]，（4）Flickr Mountains（100kself-collected images），（5）Flickr Waterfalls（100kself-collected images）.(6)Flickr Faces HQ（FFHQ）数据集[33]。所有的图像以256 × 256分辨率训练和测试，除了FFHQ，其以512 × 512训练，并以1024 × 1024分辨率微调。为了进行评估，我们使用与训练数据分开的验证集。4.1. Autoencoder自动编码器被广泛用作深度图像翻译任务的骨干[1，26]。我们使用最先进的Swap- ping Autoencoder（SwapAE）[45]，它构建在StyleGAN 2 [34]的主干上。Swap AE还使用PatchGAN [29]中的技术来进一步改善纹理转移性能。我们将我们提出的FDIT培训目标纳入香草SwapAE。FDIT更好地保留了关于源图像的身份。我们对比了图像翻译性能-使用 FDIT 与 vanilla SwapAE 在图 1 和图 5 中。普通SwapAE无法保留源图像的重要身份，并且过度适应参考图像。例如，如图5的行4所示，面部身份在平移之后被完全切换。SwapAE也不能保留源图像中的轮廓和局部尖锐边缘。如图1所示，山脉的轮廓严重扭曲。此外，整体图像组成具有与原始源图像的较大偏移。相比之下，使用我们的方法FDIT，交换的混合图像的身份和结构如图1和图5中所示，整体草图和局部精细细节被很好地保留，而着色、照明、甚至天气从参考图像（图1的顶部行）被很好地转移。最后，我们将FDIT与最先进的图像风格化方法STROTSS [35]和WCT2 [60]进行了比较。图像风格化是一个强大的基线，因为它强调严格遵守源图像。然而，如图5所示，WCT2导致图像生成任务中的差的可转移性。尽管STROTSS和WCT2具有很强的身份保护功能，但它们的灵活性较低，并且生成的图像与源图像高度相似。相比之下，FDIT既可以保存源图像的身份，也可以保持高的传输能力。这进一步证明了FDIT在图像翻译中的优越性。FDIT提高了图像生成质量。我们在表1中示出了FDIT可以在保留图像内容的同时显著提高图像质量。我们采用Fre'chet起始距离（FID）[22]作为图像质量的衡量标准较小的值表示图像质量较好。Im2StyleGAN [1]和StyleGAN2 [1]的详细信息见补充资料。FDIT在所有数据集中实现了最低的FID。平均而言，与当前最先进的方法相比，FDIT可以将FID评分降低5.6%数据集方法教会瀑布FFHQCelebA-HQIm2StyleGAN [1]219.50267.25123.13-StyleGAN2 [1]57.5457.4681.44-交换AE [45]52.3450.9059.8343.47FDIT（我们的）48.2148.7655.9642.02表1：四个不同数据集上的FID评分的比较：LSUN教堂，瀑布，FFHQ和CelebA-HQ。FDIT允许不同域之间的连续插值。我们表明FDIT能够实现图像属性编辑任务，该任务在两组不同的图像之间创建一系列平滑变化的图像[45，48]。我们的方法对目标域执行图像编辑，同时严格遵守源图像的内容。我们还验证了解开的语义潜在向量功率谱13936×个源引用斯特罗茨WCT2交换AE FDIT图5：四个不同数据集的结果，包括Flicker Mountains，Flicker Waterfalls，LSUN Bedroom [62]和CelebA-HQ [32]。交换AE [45]在图像平移后过度适应参考图像相比之下，FDIT（我们的）可以更好地保持源图像的身份与STROTSS [35]和WCT2 [60]相比，FDIT可以合成照片级逼真的图像。放大查看详细信息。主成分分析（PCA）同一性保留结果见补充材料。4.2. 消融研究我们进行了频率do的烧蚀实验在LSUN教堂数据集上的本地和全局水平上的主要监督，并在FID方面将它们与基线Swapping Au- toencoder[45如表所示。2，我们发现局部方式和全局方式都可以提高基线，并且两者的加入可以更好地提高最终的性能。像素和傅立叶空间损失是互补的。为了更好地理解我们的方法，我们隔离像素空间损失和傅立叶光谱空间损失的影响。表2总结了LSUN Church数据集的结果。普通SwapAE相当于没有损失项，其产生52.34的FID分数。使用像素空间频率损失将FID分数降低到49.47。我们的方法是最有效的像素空间和傅立叶空间的损失相结合时，实现FID得分为48.21。我们的消融表明了使用基于频率的训练目标的重要性。表2：对像素空间损失和傅立叶光谱空间损失的影响的烧蚀研究。评估基于LSUN Church数据集。4.3. GAN反演FDIT提高了GAN反演的重建质量。我们评估了FDIT在GAN版本内任务上的功效，该任务将真实图像映射到噪声潜在向量。特别地，Image2StyleGAN[1]用作强基线，其通过对潜在向量的迭代优化来执行真实图像和生成图像之间的重建我们采用相同的架构，但是强加我们的基于频率的重建损失。反演结果如图6所示。在高分辨率（1024 ×1024）图像上，提高损失条款像素空间傅立叶空间✗✓✗✗FID↓52.3449.47✗✓49.62✓ ✓48.2113937↑×个方法指标MSE↓MAE↓PSNR↑Image2StyleGAN0.02260.096919.626FDIT0.02050.086020.466沪公网安备31010502000118号表3：GAN反演性能比较，通过Image2StyleGAN和FDIT（我们的）之间的图像重建质量进行测量。评估指标包括均方误差（MSE）、平均绝对误差（MAE）、峰值信噪比（PSNR）[14]和SSIM [55]。意味着更高的值表示更好的图像质量，反之亦然。在所有场景中。FDIT更好地保留了整体结构、精细细节和颜色分布。我们进一步定量测量性能，将结果总结在表3中。在不同的度量（MSE，MAE，PSNR，SSIM）下，我们的方法FDIT优于Image2StyleGAN。图6：高分辨率图像（1024 1024）上的GAN反演结果。我们比较（a）高分辨率源图像，(b)Image2StyleGAN[1]结果和（c）FDIT（我们的）反转图像。FDIT更好地保持了细节和视觉质量。4.4. StarGAN v2StarGAN v2是另一种最先进的图像转换模型，它可以生成由参考图像或潜在噪声引导的图像混合。与基于自动编码器的网络类似，我们可以使用基于频率的损耗来优化StarGAN v2框架。为了在更严格的条件下验证FDIT，我们基于CelebA-HQ数据集的微笑属性构建了CelebA-HQ-Smile数据集。风格指的是那个人是否微笑，内容指的是身份。从图7中可以得出几个显著的观察结果。第一，FDIT能高度保持性别认同;而普通StarGANv 2模型将根据参考图像改变结果性别（例如，第一和第二行）。其次，FDIT的图像质量更好，其中FID从17.32提高到16.86。第三，我们的模型可以改变微笑属性，同时保持-源参考StarGAN v2 FDIT图7：与vanilla StarGAN v2 [11]相比，FDIT实现了更好的身份保护能力。严格检查其他面部特征。例如，如第三行所示，StarGAN v2不期望地将发型从直的（源）改变为卷曲的（参考），而FDIT保持相同的发型。4.5. 用户研究我们进行了用户研究，以定性测量生成的图像。具体来说，我们采用了两个备选的强制选择设置，其通常用于训练学习感知图像块相似性（LPIPS）[64]并评估风格转移方法。我们为用户提供源图像、参考图像、FDIT生成的图像和基线SOTA模型。每个用户被迫选择两个图像混合体中的哪一个1）更好地保留身份特征，以及2）具有更好的图像质量。我们在5个不同的数据集中收集了2,058个用户偏好。结果总结在表4中。平均而言，75.40%的偏好给予FDIT以保持身份;64.39%的回答表明FDIT产生的图像更逼真。此外，与StarGAN v2相比，57.14%的用户偏好给予FDIT以更好的内容保存; 53.34%的用户偏好表明FDIT产生的图像质量优于Image2StyleGAN。因此，用户研究也验证了FDIT产生更好的保持身份和照片般逼真的图像。5. 相关工作生成对抗网络（GAN）。 GAN [19，20，3，6，63，47]已经彻底改变了许多COM-13938比率（%）指标数据集身份保护图像现实主义LSUN教会63.2757.14LSUN卧室71.4378.57弗里克山脉80.1066.84闪烁瀑布80.6162.24CelebA-HQ57.1453.06平均75.4064.39表4：五个数据集的用户研究结果，显示了FDIT优于交换自动编码器[45]的身份保留和图像质量。计算机视觉任务，如超分辨率[36，52]，着色[27，61]和图像合成[7，42，16]。早期的工作[46，25]直接使用高斯噪声作为生成器的输入。然而，这样的方法在生成照片逼真图像方面具有不令人满意的性能。最近的工作显着提高了图像的真实性，通过分层注入噪声[33，34]的发生器。这些作品采用自适应实例归一化（AdaIN）模块[23]进行图像风格化。图像到图像转换。图像到图像转换[67，51]通过遵循参考图像的风格合成图像，同时保持源图像的内容。一种方法是使用GAN反演，其通过优化方法[1，2，34]将来自像素空间的输入映射到潜在噪声空间然而，已知这些方法由于其迭代优化过程而在计算上缓慢，这使得在移动设备中的部署变得困难[1]。此外，重建图像的质量可能是次优的。另一种方法是利用条件GAN（或自动编码器）将输入图像转换为潜向量[26，10，11，45，44，43]，使图像转换过程比GAN反演快得多。然而，现有的最先进的图像转换模型，如StarGAN v2 [11]和交换自动编码器[45]可能会丢失源图像的重要结构特征。在本文中，我们表明，基于频率的信息可以有效地保持源图像的身份，提高照片的真实感。扭曲的高频部分，他们引入了一个频谱正则化项的损失函数，以减轻这个问题。Czolbe等人[13]提出了使用离散傅立叶变换（DFT）的VAE的基于频率的重构损耗。然而，该方法不结合像素空间频率信息，并且依赖于单独的数据集来获得其自由参数。事实上，没有先前的工作探索使用频域分析的图像到图像的翻译任务。在这项工作中，我们明确地设计了一种新的频域图像翻译框架，并证明了其性能的优越性。神经风格转移。神经风格转移旨在转移低级别风格，同时严格保持源图像中的内容[60，35，24，39，38，40]。通常，纹理由全局图像统计表示，而内容由感知度量控制[60，30，65]。然而，现有的方法只能处理局部颜色变换，难以实现整体风格和语义的变换。更具体地说，他们在跨域图像翻译中挣扎，例如，性别转换[60]。换句话说，尽管具有很强的身份保留能力，但这种方法对于跨域翻译的灵活性较低，并且可以生成与源域高度相似的相比之下，FDIT可以在保持高域转移能力的同时保留源图像的身份。6. 结论在本文中，我们提出了频域图像翻译（FDIT），一种新的图像翻译框架，保留在像素空间和傅立叶频谱空间的频率信息与现有的图像翻译模型不同，FDIT直接使用高频分量来捕获类似于身份的对象结构。在五个大规模数据集和多个任务上的实验结果表明，FDIT有效地保留了源图像的身份，同时产生照片级逼真的图像混合。广泛的用户研究和消融进一步验证了我们方法的有效性，包括定性深度学习中的频域。频域分析广泛用于传统的图像处理[21，12，49，31，18]。频率分析的核心思想是根据像素在空间域的变化速度，将像素从欧氏空间映射到频率空间。一些作品试图在深度学习和频率分析之间建立联系[57，8，58，59，54，41]。Chen等人[8]和Xuet al. [57]表明，通过引入频率变换，神经网络可以更高效和有效。Wang等人[50]发现高频分量在解释神经网络的一般化方面是有用最近，Durallet al. [17]观察到GANs生成的图像严重失真。和数量上。我们希望未来的研究将增加对基于频率的图像翻译任务的方法的关注。7. 确认Mu Cai 和Yixuan Li 由威斯康星校友研究基金会（WARF）资助。Gao Huang部分得到了中国国家重点研发计划（2020AAA0105200）、国家自然科学基金（62022048和61906106）、清华大学国强研究所和北京人工智能研究院的13939引用[1] Rameen Abdal，Yipeng Qin，and Peter Wonka.图像-年龄 2 风格：如何将图像嵌入到潜空间中？IEEEInternational Conference on Computer Vi-sion ，2019。五六七八[2] R. Abdal，Y.Qin，和P.旺卡Image2stylegan++：如何编辑嵌入的图像？IEEE/CVF计算机视觉和模式识别会议论文集，2020年。八个[3] 马丁 ·阿乔对 ky ，苏米特 ·钦塔拉和 Le'onBottou 。Wasserstein生成对抗网络在2017年机器学习国际会议论文集上7[4] Deblina Bhattacharjee ， Seungryong Kim ， GuillaumeVizier，and Mathieu Salzmann. Dunit：基于检测的无监督图像到图像转换。IEEE/CVF计算机视觉和模式识别会议论文集，2020年。一个[5] 奥兰·布里格姆快速傅里叶变换及其应用。普伦蒂斯-霍尔公司1988. 二个[6] 安德鲁·布洛克杰夫·多纳休凯伦·西蒙尼安用于高保真自然图像合成的大规模GAN训练。在学习代表国际会议上，2019年。七个[7] 安德鲁·布洛克杰夫·多纳休凯伦·西蒙尼安用于高保真自然图像合成的大规模gan训练。在2019年国际学习代表会议上。八个[8] Yunpeng Chen，Haoqi Fan，Bing Xu，Zhicheng Yan，Yan-nis Kalantidis，Marcus Rohrbach，Shuicheng Yan，and Jiashi Feng.降低八度音：用倍频程卷积减少卷积神经网络中的空间冗余。IEEEInternational Conference onComputer Vision，2019。八个[9] Ying-Cong Chen，Xiaogang Xu，and Jiaya Jia.域自适应图像到图像转换。 IEEE/CVF计算机视觉和模式识别会议论文集，2020年。一个[10] Yunjey Choi，Minje Choi，Munyoung Kim，Jung-WooHa，Sunghun Kim，and Jaegul Choo. Stargan：用于多域图像到图像翻译的统一生成对抗网络。IEEE/CVF计算机视觉和模式识别会议论文集，2018年。八个[11] Yunjey Choi，Youngjung Uh，Jaejun Yoo，Jung-WooHa.Stargan v2：多领域的多样化图像合成。IEEE/CVF计算机视觉和模式识别会议论文集，2020年。一、五、七、八[12] 詹姆斯 ·W· 库利快速傅立叶变换算法的再发现。Microchimica Acta，93（1）：33-45，1987. 八个[13] 放大图片作者：Steffen Czolbe，Oswin Krause，IngemarJ.法典和克里斯-田·伊格尔。基于watson感知模型的生成神经网络损失函数。在神经信息处理系统的进展，2020年。八个[14] Johannes F De Boer，Barry Cense，B Hyle Park，MarkC Pierce，Guillermo J Tearney，and Brett E Bouma.与时域光学相干层析成像相比，谱域光学相干层析成像的Optics leters，28（21）：2067-2069，2003. 七个[15] Guang Deng和LW Cahill。一种用于噪声降低和边缘检测的自适应高斯滤波器。在IEEE会议记录核科学研讨会和医学成像会议中，第1615-1619页。IEEE，1993年。二个[16] 杰夫·多纳休和凯伦·西蒙尼扬。大规模对抗表示学习。在神经信息处理系统的进展，2019年。八个[17] Ricard Durall，Margret Keuper，and Janis Keuper.注意你的上卷积：基于CNN的生成式深度神经网络无法再现光谱分布。在IEEE/CVF计算机视觉和模式识别会议上，2020年。八个[18] W Morven Gentleman和Gordon Sande 快速傅立叶变换：为了乐趣和利益在1966年11月7日至10日秋季联合计算机会议的会议记录中，第563-578页八个[19] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成对抗网络。在神经信息处理系统中，2014年。七个[20] Ishaan Gulrajani 、 Faruk Ahmed 、 Martin Arjovsky 、Vincent Dumoulin和Aaron C Courville。改进的瓦瑟斯坦甘斯训练。在神经信息处理系统的进展，2017年。七个[21] 迈克尔·海德曼唐·约翰逊查尔斯·伯勒斯高斯与快速傅立叶变换的历史。IEEE ASSP Magazine，1（4）：14-21，1984. 二、三、八[22] Martin Heusel、Hubert Ramsauer、Thomas Unterthiner、Bernhard Nessler和Sepp Hochreiter。两个时间尺度更新规则训练的甘斯收敛到一个局部纳什均衡。在神经信息处理系统的进展，2017年。五个[23] Xun Huang和Serge Belongie。实时任意样式传输，具有自适应实例规范化。在2017年IEEE国际计算机视觉会议上。八个[24] X. Huang和S.贝隆吉具有自适应实例规范化的实时任意样式传输。2017年八个[25] Xun Huang ， Yixuan Li ， Omid Poursaeed ， JohnHopcroft ， and Serge Belongie. 堆叠生成对抗网络。IEEE/CVF计算机视觉和模式识别会议论文集，2017年。八个[26] Xun Huang ， Ming-Yu Liu ， Serge Belongie ， and JanKautz.多模态无监督图像到图像翻译。在欧洲计算机视觉会议论文集，2018年。一、五、八[27] Kim Hyunsu 、 Jhoo Ho Young 、 Park Eunhyeok 和 YooSungjoo。Tag2pix：使用带有secat和改变损失的文本标记的线条艺术着色。IEEEInternational Conference onComputer Vision，2019。八个[28] P. Isola，J. Zhu，T. Zhou和A. A.埃夫罗斯使用条件对抗网络的图像到图像翻译。在IEEE/CVF计算机视觉和模式识别会议上，2017年。一个[29] Phillip Isola，Jun-Yan Zhu，Tinghui Zhou，and Alexei AEfros. 使用条件对抗网络进行图像到图像翻译IEEE/CVF计算机视觉和模式识别会议论文集，2017年。五个13940[30] 景永成、杨业州、冯遵雷、叶景文、余益州、宋明丽Neural Style Transfer ： A Review.IEEE Transactions onVisualization and Computer Graphics，2019。八个[31] Steven G Johnson和Matteo Frigo。一种具有较少算术运算的改进分裂基 fft 。 IEEE Transactions on SignalProcessing，55（1）：111-119，2006. 八个[32] Tero Karras ， Timo Aila ， Samuli Laine ， and JaakkoLehtinen.为提高质量、稳定性和变异性而进行的干细胞生长。在2018年学习代表国际会议五、六[33] Tero Karras Samuli Laine和Timo Aila一个基于样式的生成器架构，用于生成对抗网络。IEEE/CVF计算机视觉和模式识别会议论文集，2019年。五、八[34] Tero Karras ， Samuli Laine ， Miika Aittala ， JanneHellsten，Jaakko Lehtinen，and Timo Aila.分析和改进StyleGAN的图像质量。In Proceedings ofIEEE/CVF计算机视觉和模式识别会议，2020年。五、八[35] NicholasKolkinJasonSalavon和GregoryShakhnarovich。通过松弛的最优传输和自相似性实现风格转移。在IEEE/CVF计算机视觉和模式识别会议论文集，2019年。五六八[36] Chris t ianLedig ， LucasTheis ， FerencHusza'r ，JoseCaballero， AndrewCunningham ， AlejandroAcosta ， Andrew Aitken ， Alykhan Tejani ， JohannesTotz，Zehan Wang，et al.使用生成式对抗网络的照片级真实感单幅图像超分辨率。在IEEE/CVF计算机视觉和模式识别会议论文集，2017年。八个[37] Hsin-Ying Lee，Hung-Yu Tseng，Jia-Bin Huang，Ma-neesh Kumar Singh，and Ming-Hsuan Yang.通过解缠表征实现多样化的在欧洲计算机视觉会议论文集，2018年。一个[38] Xueting Li，Sifei Liu，Jan Kautz，and Ming-Hsuan Yang.学习线性变换快速任意风格转移。在IEEE计算机视觉和模式识别会议，2019。八个[39] Yijun Li，Chen Fang，Jimei Yang，Zhaowen Wang，Xin Lu，and Ming-Hsuan Yang.通过特征变换进行通用样式传递。在神经信息处理系统的进展，2017年。八个[40] Yijun Li ， Ming-Yu Liu ， Xuting Li ， Ming-HsuanYang，and Jan Kautz.一个封闭形式的解决方案的照片真实感图像风格化。在欧洲计算机视觉会议论文集，2018年9月。八个[41] Zhenhua Liu ， Jizheng Xu ， Xiulian Peng ， and RuiqinXiong.卷积神经网络的频域动态修剪。在神经信息处理系统的进展，2018年。八个[42] Mario Lucic 、 Michael Tschannen 、 Marvin Ritter 、Xiaohua Zhai、Olivier Bachem和Sylvain Gelly

下载后可阅读完整内容，剩余1页未读，立即下载