WaveGAN：提升少样本图像生成的高保真技术

152 浏览量更新于2024-06-19 收藏 2.83MB PDF 举报

"WaveGAN是一种高保真少拍图像生成的新型频率感知模型，由华东理工大学的研究团队提出。该模型通过将编码特征分解为多个频率分量并使用低频跳跃连接来保留图像的轮廓和结构信息，以解决现有方法在合成精细细节时的局限性。WaveGAN还引入了频率L1损失，以减少频域信息的丢失，提高了合成图像的质量。在Flower、Animal Faces和VGGFace三个数据集上的实验结果显示，WaveGAN达到了最先进的技术水平，体现在FID和LPIPS等评估指标上。该研究关注于在数据稀缺的情况下，如何利用生成对抗网络（GANs）生成高质量图像，对于少样本学习和图像生成领域具有重要意义。" 在当前的图像生成领域，生成对抗网络（GANs）已经在各种视觉生成任务中取得了显著进步。然而，当面临少量训练数据时，传统的GANs往往难以生成具有高保真度的图像。WaveGAN的出现旨在解决这一问题，特别是在少样本学习的场景下。研究者们注意到，以往的方法在合成包含精细细节的高频信号时存在困难，这会降低合成图像的整体质量。 WaveGAN的核心创新在于其频率感知机制。模型首先将编码特征分解为不同的频率分量，这样可以更好地处理图像中的高低频信息。低频跳跃连接的运用确保了图像的基本轮廓和结构得以保留。同时，通过在生成的图像和真实图像上应用频率L1损失，WaveGAN能够有效减少在频域中信息的丢失，进一步提升生成图像的细节和真实性。为了验证WaveGAN的有效性，研究团队在Flower、Animal Faces和VGGFace这三个数据集上进行了大量实验。实验结果表明，WaveGAN在FID（Frechet Inception Distance）和LPIPS（Learned Perceptual Image Patch Similarity）这两个常用的评估指标上取得了前所未有的最佳成绩，表明它在少拍图像生成方面的优越性能。 WaveGAN的研究不仅有助于推动图像生成技术的进步，还为在数据有限的情况下进行高效学习提供了新的思路。这一工作强调了对图像的频域分析在生成任务中的重要性，为未来相关领域的研究奠定了坚实的基础。通过GitHub链接（https://github.com/kobeshegu/ECCV2022_WaveGAN），研究者们提供了代码，使得其他研究人员可以进一步研究和应用WaveGAN模型。

+v：mala2255获取更多论

文

4米Yang等人

建议减轻过度拟合的风险。不同的数据增强技术，包括可微[46]，非

泄漏[20]和自适应伪增强[17]，旨在扩展有限的训练数据。Lecam[39]

正则化的输出，以避免过度拟合。不同于这些eff-fasting无条件的图像

生成有限的数据，在本文中，我们试图生成一个特定的类别时，从这

个类别的一些图像的新图像。

GANs

中的小波变换。

小波变换将给定信号分解为不同

的频率分量，在

各种生成任务中取得了巨大成功，例如风格转换[43]，图像重建[18]，图

像修复[44]，图像编辑[9]和图像超分辨率[6][16]。这些方法试图缩小频域

中的信息差距，以提高模型例如，Jiang et al. 提出焦点频率损失，以避

免图像重建任务的重要频率信息的损失[18]。WaveFill[44]将图像分解为

多个频率分量，并使用分解的信号填充损坏的图像区域，从而实现卓越

的图像修复。与这些方法不同的是，我们试图在只有少量数据的情况下

生成真实的、似是而非的图像。我们感兴趣的是频率信息的影响，具有

挑战性的少数拍摄图像生成。

少数拍摄图像生成。

受人类从少量观察中获得的巨大概括能力的启发

，

少镜头图像生成模型试图在给定少量图像的情况下生成新图像。现有的少

镜头图像生成方法可以大致分为三类：1）基于优化的方法，2）基于

融合的方法，以及3）基于变换的方法。DAGAN[1]将组合的投影潜码

和编码图像转换为新的图像。基于优化的方法FIGR[4]和DAWSON[27]

分别将生成模型与基于优化的Meta学习Reptile[32]和MAML[8]相基于

融合的方法融合局部特征 [12] 或输入图像[15][14]以合成新图像。

GMN[2] 将 VAE[25] 与匹配网络 [40] 相结合，以捕获少量分布。

MatchingGAN[14]将随机向量与给定的真实图像匹配，并将融合特征

映射到新图像。 F2GAN[15] 进一步改进了具有融合和填充范例的

MatchingGAN通过融合具有语义相似性的局部表示，LoFGAN[12]提高

了生成质量。值得注意的是，零镜头或少数镜头的文本到图像生成方

法[37][11][36]最近取得了很大的进展因此，本文重点讨论的问题，少

拍图像生成生成新的图像为一个给定的类中定义的第二节。3. 1 .

然而，现有的方法忽略了频率分量对生成图像质量的影响，导致生成

器合成具有更多伪影和更少细节的不利图像。在本文中，我们提出了一

个频率感知的模型，可以生成吸引人的和逼真的图像，通过添加低和高

频率的跳过连接的发生器。这种设计减轻了发生器合成高频信号的压

力。我们的工作从频域的角度探索了一种有效的少拍图像生成解决方

案，它补充了以前的基于融合的方法。

剩余18页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

WaveGAN：提升少样本图像生成的高保真技术

Python-在PyTorch中使用VQVAE2生成多种高保真图像的实现

图像生成-基于Pytorch实现VQ-VAE-2生成多样化高保真图像算法-附项目源码+模型权重+简单流程教程-优质项目实战

交互原型设计：高保真界面交互效果.pptx

去噪扩散模型在处理复杂图像数据集时，是如何有效地捕获数据分布并生成高保真度图像的？

去噪扩散模型在生成高保真图像时是如何通过逐步引入噪声和学习的逆向过程工作的？

如何应用去噪扩散模型在高保真图像生成中实现从噪声到清晰图像的转换？

扩散模型在图像生成和语音生成中的应用

在使用MPI (Multiplane Image) 和神经渲染进行Novel View Synthesis时，如何实现从多视角图像到高保真新视角图像的转换？请详细解释技术细节。

python 图像保真度和质量

如何在便携式音频设备中应用ES9018K2M DAC芯片以实现高保真音频播放？

最新资源