WaveGAN：高保真少拍图像生成的新技术水平证明的频率感知模型

162 浏览量更新于2023-11-30 收藏 2.83MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

+v：mala2255获取更多论文WaveGAN：用于高保真少拍图像生成的杨梦萍1， 2，王哲1， 2，王伟，池子秋1， 2，冯文毅1， 21华东理工大学计算机科学与工程系2华东理工大学能源化工过程智能制造重点实验室mengpingyang@mail.ecust.edu.cnwangzhe@ecust.edu.cn{chiziqiu Y10200096} @ mail.ecust.edu.cn抽象的。现有的少数拍摄图像生成方法通常在图像或特征级别上采用基于融合的策略来生成新图像。然而，以前的方法难以合成具有精细细节的大小高频信号，从而恶化了合成性能。姐妹品质为了解决这个问题，我们提出了WaveGAN，这是一种用于少数拍摄图像生成的频率感知模型。具体地说，我们将编码特征分解为多个频率分量，并执行低频跳跃连接以保留轮廓和结构信息。然后，我们减轻了发生器此外，我们利用- 所生成的图像和真实图像上的频率L1损失，以进一步改善频域信息丢失。在三个数据集上的大量实验证明了该方法的有效性和先进性。值得注意的是，我们分别在 FID 42.17 、 LPIPS 0.3868 、FID30.35、LPIPS 0.5076和FID 4.96、LPIPS 0.3822上实现了新的最新技术水平。Flower、AnimalFaces和VGGFace。GitHub：https://github.com/kobeshegu/ECCV2022_WaveGAN关键词：GANs，少样本学习，图像生成，小波变换1介绍近年来，随着生成模型的快速发展，视觉生成任务取得了显着的发展，特别是生成对抗网络（GANs）[19][22][23][21]。尽管被应用于各个领域，但GAN的成功主要来自于巨大的数据，而GAN在数据不足的情况下很难合成高质量的图像。少样本学习[7]是为了提高有限数据场景下的泛化能力而提出的，得到了广泛的关注和重点研究。然而，现有通讯作者arXiv：2207.07288v2 [cs.CV] 2022年8月+v：mala2255获取更多论文2M. Yang等人少数拍摄算法被设计用于分类[28]和分割[26]问题，很少有研究解决少数拍摄图像生成。因此，探索和促进在少数拍摄政权的生成质量是必要的。少镜头图像生成的目的是当给定来自同一类别的几幅图像时，为该类别生成新颖的图像。具体来说，该模型是首先以基于情节的方式在具有足够数据的辅助数据集（所见类）上训练[40]，即馈送特定数量的图像（例如，，3，5）在每个情节中进入模型。然后，当从新数据集（未见过的类）中给定某个类别的几个图像时，训练好的模型预计会产生新的图像。辅助数据集和新测试数据集之间没有重叠。该模型被鼓励捕捉可转移的能力，从看不见的类，以生成新的图像看不见的类。以前的方法尝试1）转换类内信息[1]，2）通过将GAN与元学习相结合来设计新的优化方案[4][27]，3)融合给定的图像[14][15][12]以解决少数拍摄图像的生成。在这些方法中，LoFGAN[12]通过基于特征的语义相似性融合局部表示来实现当前最先进的性能。然而，现有的方法忽略了频率信息在整个生成过程中的巨大影响F-principle[42]证明了神经网络优先拟合从低到高的频率信号因此，该模型倾向于生成具有更高优先级和更表面复杂性的频率，即，只产生低频信号。图1.一、变换后的频率分量的可视化 LL表示低频分量，LH、HL、HH表示高频分量。我们在图1中可视化真实图像的不同频率分量。低频分量（即，LL）包含一般信息，如整体表面、轮廓和结构。虽然丰富的细节和可感知的信息像花的叶子、狗的舌头和人的头发一样，存在于高频分量（即，、LH、HL、HH）。丰富的细节可以通过添加所有高频分量（即，、LH+HL+HH）。由于高频分量包含细致的信息，因此丢失高频分量可能导致生成器合成具有更多混叠伪影的模糊图像。这个问题+v：mala2255获取更多论文WaveGAN 3强调了在生成图像时考虑频率信号的必要性，特别是高频信号，因为生成器通常会避开它们[18][42]。WaveGAN是一种从频域角度改善少拍合成质量的创新有效方法。我们首先执行小波分解以将编码特征从空间域变换然后，我们通过低频跳过连接将低频分量馈送到编码器的后面层，保持整体轮廓和结构模式。为了减轻发生器产生高频信号的压力并向解码器提供更多细节，我们直接将分解的高频信号馈送到解码器。设计了两种策略来聚合高频信号，即WaveGAN-M和WaveGAN-B。这两种方法都是有效的，可以为解码器提供高频信息。然后，通过我们的逆频率变换操作将高频分量精确地重建回原始特征，从而保证高频信号的最小损失。此外，我们还对生成的图像和真实图像进行了频率L1损失处理，与空间损失相补充，有效地抑制了频率损失信息.我们的主要贡献可归纳如下：– 我们提出了WaveGAN，这是第一个利用频率分量来提高合成质量的少数拍摄图像生成方法。我们的WaveGAN将低频和高频跳过连接添加到发生器，从而消除了发生器– 我们设计了两种技术来聚合高频信息，用于将频率信号重构回原始特征，即：、WaveGAN-M和WaveGAN-B，其保留精细细节和统计特性。为了避免频率信息的丢失，我们还提出了频率L1损失– 我们在三个数据集上进行了全面的实验。定性和定量的结果都证明了该方法的优越性和有效性。值得注意的是，我们的模型优于最先进的方法，具有显着的 FID 改进（例如，从 102.07 到30.35）。2相关工作生成对抗网络。自[10]的开创性工作以来，生成对抗网络（GAN）已经取得了重大进展。受益于捕获数据分布的可标记能力，GAN已成功应用于各种视觉领域，包括图像生成[23][21]，视频生成[41]，图像到图像转换[35][38]等。通常，GAN模型由生成器和搜索引擎组成，并且这两个网络以对抗的方式交替更新。训练GAN是出了名的可怕因为它需要大量的数据和计算资源，并且对抗训练可能使模型发散。当给定有限的数据时，该方法往往会过拟合，导致生成质量差一些作品已经+v：mala2255获取更多论文4米Yang等人建议减轻过度拟合的风险。不同的数据增强技术，包括可微[46]，非泄漏[20]和自适应伪增强[17]，旨在扩展有限的训练数据。Lecam[39]正则化的输出，以避免过度拟合。不同于这些eff-fasting无条件的图像生成有限的数据，在本文中，我们试图生成一个特定的类别时，从这个类别的一些图像的新图像。GANs中的小波变换。小波变换将给定信号分解为不同的频率分量，在各种生成任务中取得了巨大成功，例如风格转换[43]，图像重建[18]，图像修复[44]，图像编辑[9]和图像超分辨率[6][16]。这些方法试图缩小频域中的信息差距，以提高模型例如，Jiang et al. 提出焦点频率损失，以避免图像重建任务的重要频率信息的损失[18]。WaveFill[44]将图像分解为多个频率分量，并使用分解的信号填充损坏的图像区域，从而实现卓越的图像修复。与这些方法不同的是，我们试图在只有少量数据的情况下生成真实的、似是而非的图像。我们感兴趣的是频率信息的影响，具有挑战性的少数拍摄图像生成。少数拍摄图像生成。受人类从少量观察中获得的巨大概括能力的启发，少镜头图像生成模型试图在给定少量图像的情况下生成新图像。现有的少镜头图像生成方法可以大致分为三类：1）基于优化的方法，2）基于融合的方法，以及3）基于变换的方法。DAGAN[1]将组合的投影潜码和编码图像转换为新的图像。基于优化的方法FIGR[4]和DAWSON[27]分别将生成模型与基于优化的Meta学习Reptile[32]和MAML[8]相基于融合的方法融合局部特征[12]或输入图像[15][14]以合成新图像。GMN[2] 将 VAE[25] 与匹配网络 [40] 相结合，以捕获少量分布。MatchingGAN[14]将随机向量与给定的真实图像匹配，并将融合特征映射到新图像。F2GAN[15]进一步改进了具有融合和填充范例的MatchingGAN通过融合具有语义相似性的局部表示，LoFGAN[12]提高了生成质量。值得注意的是，零镜头或少数镜头的文本到图像生成方法[37][11][36]最近取得了很大的进展因此，本文重点讨论的问题，少拍图像生成生成新的图像为一个给定的类中定义的第二节。3. 1 .然而，现有的方法忽略了频率分量对生成图像质量的影响，导致生成器合成具有更多伪影和更少细节的不利图像。在本文中，我们提出了一个频率感知的模型，可以生成吸引人的和逼真的图像，通过添加低和高频率的跳过连接的发生器。这种设计减轻了发生器合成高频信号的压力。我们的工作从频域的角度探索了一种有效的少拍图像生成解决方案，它补充了以前的基于融合的方法。+v：mala2255获取更多论文WaveGAN 53方法3.1概述问题定义。给定来自一个新类的K个图像，我们的模型的目标是为给定的类合成多样化和合理的图像。图像的数量K定义了K次拍摄图像生成任务。一般来说，这项任务已经完成。分两个阶段，即、培训和测试。首先将数据集拆分为seen类Cs和看不见的类Cu，其中Cs和Cu没有重叠。在训练阶段，从Cs采样的大量K-shot图像生成任务被馈送到模型中，期望模型传递知识从Cs到Cu学习生成新的图像。在测试阶段，模型将来自Cu的图像作为输入来合成新图像。图二、我们WaveGAN的整体框架我们在编码器中采用低频（LL）跳跃连接，在编码器中采用高频跳跃连接（LH，HL，HH）。解码器提供丰富的细节以提高合成质量。总体框架。如图 2 、我们的模型由一个 WaveEncoder 、一个WaveDecoder和一个Discriminator组成，WaveEncoder和WaveDecoder构成了我们的生成器。 WaveEncoder 提取图像的特征表示，而WaveDecoder将特征表示映射到新图像。我们对编码后的特征进行小波变换，得到多个频率分量。然后，我们在编码器中采用低频跳过连接来保留整体结构和轮廓。我们利用高频跳跃连接提供详细的信息，解码器。小波逆变换模块将这些高频信号重构为原始特征。高频信号包含丰富的细节和可感知的信息，使生成器能够合成高质量的图像。然后将真实图像和生成的图像输入到训练器中以训练整个模型。接下来，我们详细阐述我们的WaveEncoder和WaveDecoder。3.2WaveEncoder我们的WaveEncoder由卷积块和小波变换块组成卷积运算为解码器提取特征，+v：mala2255获取更多论文ΣΣ−6米。Yang等人产生新的图像。为了将提取的特征分解为多个频率分量，我们采用了一种简单而有效的小波变换，即。Haar小波[5]。Haar小波包含小波变换和小波逆变换两种操作，以及LLT、LHT、HLT和HHT四种核函数。1LT=0.021 1Σ ，HT1=100−11Σ（一）其中L和H分别表示低通滤波器和高通滤波器。低通滤波器集中于包含轮廓和结构信息的低频信号。相比之下，高通滤波器强调高频信号，捕捉细粒度的细节，如微妙的边缘和轮廓（见图）。 1和5）。小波变换将特征分解为频率分量LL、LH、HL、HH。在这些频率信号中，LL捕获图像的整体外观和基本对象结构（参见图1）。因此，我们在编码器中采用低频跳跃连接，以获得准确和忠实的特征，在整个特征提取过程中。具体地说，对于编码器中第i个卷积块得到的特征Ei，我们采用Haar小波变换提取频率分量LLi，LHi，HLi，HHi.然后，我们对低频信号LLi和从编码器中的第（i+1）个卷积块获得的特征Ei+1Ei+2=LLi+ConvBlocki+1（Ei+1）（2）所获得的跳过连接特征Ei+2被馈送到第（i+2）卷积块中。低频跳跃连接有助于生成图像的保真度实验证明在Sec. 四点四3.3波形解码器高频分量包含丰富的图像细节。然而，深度网络通常适合从低到高的频率信号，使得生成器难以产生高频信息，因为它生成具有更高优先级的频率。为了减轻编码器具体地，对于编码器的第i层，我们对特征执行小波变换并获得高频分量LHi、HLi、HHi，然后我们将逆分量馈送到解码器的第（n i）层，如图2所示，其中n是所有层的数量。该操作鼓励解码器合成具有更多细节和更少伪影的图像。利用小波逆变换将高频信号重构为原始特征.我们的小波逆变换可以根据这些高频分量是如何聚集的分为均值和基指数逆变换。平均逆变换。如图所示。3、计算K个特征的所有高频分量的频率元素平均值+v：mala2255获取更多论文Σ∈∈−∈WaveGAN 7从相同的类别，并采取平均结果作为我们的平均逆变换模块的输入。KHFM=HFi，HFi∈{LHi，HLi，HHi}（3）i=1虽然向解码器提供高频信号有助于生成图像的质量，但是平均逆变换可能不适合于一个特定图像，因为平均频率信息可能使频率信号移位。平均频率信息随着训练图像数目K的增加而变得更加中性，导致泛化能力下降。这个猜想可能违背我们的常识，即泛化能力应该随着图像数量的增加而提高。我们分析这是因为不同的图像，即使来自同一类别，在频域中也有不同的频率信号。在SEC的实验。4证实了我们的分析，即当K较大时，平均频率变换可能无法推广。为了提高逆变换在频域的泛化能力，我们设计了与镜头无关的Base-index逆变换。图三. 我们的均值和基本指数逆变换的插图。基本指数逆变换。我们的基本索引逆变换是基于LoFGAN的局部表示融合（LoF）策略实现的[12]。我们首先简单介绍一下LoFGAN。鉴于-编码器特征F=E（X）Rk×w×h×c，LoFGAN随机选择一个基特征f基Rw×h×c，并查看其余部分（K1）作为参考的特征，即、frefR（k− 1）×w×h×c。LoFGAN基于计算的语义相似度图融合局部特征，并用融合特征替换最接近的基础特征。为了向生成的图像提供定制的高频信号，我们重新编码LoF模块的所选基本特征的索引。如图所示在图3中，不是计算平均频率信号，而是显式地馈送对应于记录的索引i的高频分量。HFB=HFi，HFi∈{LHi，HLi，HHi}（4）高频分量是所选特征的精确频率信号，从而为用户提供定制的丰富细节和可感知信息+v：mala2255获取更多论文ΣΣi=18米Yang等人译码器我们的Base索引逆变换的泛化能力不会随着训练数量的增加而恶化。在获得聚合高频信号LH、LH、HH之后，我们执行我们的逆变换以将这些信号重建回原始特征。具体地说，我们首先对每个频率分量进行转置卷积求和的结果将频率信号精确地转换回原始特征，理论分析可以在[43]中找到。逆变换可以正式表示为：FIF=transConv（HF），HF∈ {HFM，HFB}（5）HF是从平均值或基本索引逆变换中获得的。采用逐元素张量加法将逆高频分量与前一特征，即，，Fi= Fi−1 + FIF（n−i +1）. 这样的分支缓解了发生器在产生包含精细细节的有限高频时的困境。3.4优化目标我们的模型有两个网络要优化，生成器（G）和网络（D）。G的输入是真实的图像，G试图生成似是而非的、多样的K图像xi的标签（仅适用于Cs）。D的输入是真实图像和生成的图像，并且D试图将真实图像与生成的图像区分开。通过优化以下损失，以对抗的方式交替更新生成器和控制器。频率L1-损失。我们采用频率L1损失的频率分量生成的图像和真实的图像，防止丢失的频率信息。此外，频率损失补充了现有的空间损失。我们对生成的图像和真实图像进行小波变换，以计算频率L1损失。LFre=1，Fre∈{LL，LH，HL，HH}（6）当地重建损失。我们采用局部重建损失来约束模型以保持局部特征。Lrec=<$x<$−LFM（X，α）<$1（7）其中α表示在局部融合模块（LoF）中融合特征的系数向量。对抗性损失。在[12]和[34]之后，我们采用对抗损失的铰链版本来优化生成器和控制器。DAdvGAdv=max（0，1−D（x））+max（0，1+D（x−））=−D（x）（八）LL新图像x∈G（X）。设X=xi表示真实图像，并且c（xi）表示+v：mala2255获取更多论文WaveGAN 9分类损失。分类损失限制模型合成属于一个特定类别的图像。我们添加一个辅助分类器，[34]第34章：我的天分类损失鼓励分类器识别图像属于哪个类别，同时使生成器能够合成属于一个特定类别的图像。DCLSGCLS=− log P（c（x）|（x）=−logP（c（x）|xxx）（九）我们的模型是用以下目标函数优化的，该目标函数是上述损失的线性组合。LG=LG+λGLG+λF reLF re+λrecLGAdvclsrec（十）LD=LD+λDAdvCLSCLS4实验数据集。我们使用少数拍摄图像生成社区中的三个流行数据集来评估我们模型的性能，即Flower [33]，Animal Faces [29]和VGGFace [3]。这些数据集分为可见类Cs和不可见类Cu。Cs用于训练阶段，而Cu用于测试阶段。采用的数据集在Tab中拆分。[1][2][3][4][5]。表1.实验数据集的分裂可见的类用于训练，不可见的类用于测试。数据集班级总数#看到的类#看不见的类#图像/类花102851740兽面14911930100VGGFace23541802552100评估和基线。我们使用两个常用的指标来评估生成图像的质量：Fr'echetInceptionDistance（FID）[13]和学习感知图像块相似性（LPIPS）[45]。这两种方法在相同的设置中计算[12]。我们将我们的模型与几种少数拍摄图像生成方法进行比较，即FIGR [4]，GMN [2]，E-SON [27]，DAGAN [1]，MathingGAN [14]，F2 GAN [15]和LoFGAN [12]。我们重新实现当前最先进的LoFGAN以进行公平比较（表示为4.1定量评价我们首先用Cs训练模型，然后使用Cu的数据合成新的图像进行定量评估。根据LoFGAN[12]和[15]，我们将每个不可见的类分成两部分，Ssup和Sque，Ssup中的图像被馈送到LL+v：mala2255获取更多论文10米Yang等人模型来生成图像。我们为每个类生成128幅图像（表示为Sgen），Sgen和Sque用于计算FID（越低越好）和LPIPS（越高越好）分数以评估合成质量。我们的模型和基线的定量结果在表中给出二、表中的所有结果均在训练和测试阶段的3次拍摄设置下进行。从Tab中可以看出。2，我们的waveGAN在所有数据集上实现了最低的FID和最高的LPIPS，WaveGAN-M和WaveGAN-B优于基准模型。值得注意的是，我们的模型实现了更好的FID结果比目前最先进的LoFGAN。具体来说，WaveGAN-B在具有挑战性的VGGFace数据集上实现了小于5（4.96）的FID，而LoFGAN获得了16.82。WaveGAN-B将FID从102.07（分别，81.70）至30.35（分别为2.17动物的脸（动物脸），Flower）。定量指标上的这种由于FID分数的上限等于0，并且我们首次实现了个位数，证明了我们方法的有效性。对于LPIPS度量，我们通过测量真实图像的LPIPS得分，并获得0.4393的花，0.5729的动物的脸，和0.4389的VGGFace。我们的模型产生了有利的LPIPS分数，接近上限，进一步证实了我们的模型的有效性表2. 我们的模型与FID和LPIPS基线的定量比较结果。 †结果引用自LoFGAN[12]。在相同的条件下，对模型的计算结果进行了重新验证，以便进行比较.最好的和第二名的结果分别用粗体和下划线表示方法类型花卉动物面孔VGGFaceFID（↓）LPIPS（↑）FID（↓）LPIPS（↑）FID（↓）LPIPS（↑）图[4]优化190.120.0634211.540.0756139.830.0834[27]第二十七话优化188.960.0583208.680.0642137.820.0769[1]第一次转型151.210.0812155.290.0892128.340.0913GMN[2]融合200.110.0743220.450.0868136.210.0902[14]第十四话融合143.350.1627148.520.1514118.620.1695[15]第十五话融合120.480.2172117.740.1831109.160.2125MatchingGAN+LoFGAN†[12]融合86.590.3704112.990.502422.990.2687[12]第十二话融合79.330.3862112.810.496420.310.2869LoFGAN融合81.700.3768102.070.500516.820.3041WaveGAN-M（我们的）融合63.790.370950.980.50148.620.3822WaveGAN-B（我们的）融合42.170.386830.350.50764.960.32554.2定性评价我们在图4中展示了LoFGAN [12]和我们的WaveGAN-B的可视化结果以进行定性比较。对于每个真实图像，我们给出了两个由LoFGAN和我们的WaveGAN-B生成的假图像。从图中可以看出，我们的模型生成的图像比LoFGAN生成的图像更合理+v：mala2255获取更多论文WaveGAN 11此外，我们的模型生成的图像包含丰富的细节和可感知的信息。以生成的花朵为例，该模型合成的花朵图像花瓣的水平和垂直方向、雄蕊的细节以及叶片的形状都更加合理和逼真。此外，LoFGAN生成的动物和人脸图像被扭曲，具有模糊的不利伪影，例如猫的眼睛，狗的头发甚至被错误放置。相比之下，我们的模型生成的动物和人脸图像具有更高的保真度，甚至看起来与真实图像难以区分。图四、WaveGAN和LoFGAN的定性比较结果最左边的三列是真实图像，我们为每类真实图像给出两个生成图像。4.3生成图像的频率分量的可视化我们在图5中可视化WaveGAN和LoFGAN [12]生成的图像的频率分量。如图5所示，除了我们的WaveGAN产生了更真实的视觉图像，我们的WaveGAN的分解高频分量包含了比LoFGAN更多的细节和可感知的信息。具体而言，LoFGAN的频率分量仅包含图像的表面和纹理信息，表明LoFGAN的生成器未能合成高频信息。相比之下，我们的WaveGAN是频率感知的，可以产生包含更多细节和统计特性的高频信号。此外，WaveGAN的频率分量捕获不太明显的精细信息（例如，，第二排和第五排的镜框和花茎，图5）。这种观察进一步证明了我们的方法的有效性和先进性。+v：mala2255获取更多论文12米。Yang等人图五. WaveGAN和LoFGAN生成的图像频率分量的可视化结果[12]。4.4消融研究我们进行消融研究，以评估拟议的WaveGAN的每个组件的有效性。我们的WaveGAN有三个主要组成部分，即1）低频跳跃连接，2）高频跳跃连接，3）频率L1损失。我们删除每个组件并保持其他设置不变，以验证它们的贡献。此外，我们删除LoF模块，以研究局部融合对我们的模型的影响。我们还测试每个分量对于我们的两种变换技术的贡献（即，、WaveGAN-M和WaveGAN-B）。见图6。消融研究的可视化比较结果。我们在图6中给出了消融研究的可视化结果。消融研究的定量结果见第2.2节。附录B。结合定性和定量的结果，我们可以得出以下四个结论：1）低频和高频信号的跳跃连接在我们的模型中起着至关重要的作用，而我们的高频跳跃连接起着主导作用在我们的模型中。2)高频信息为生成的图像提供详细信息，低频信息提供图像的整体轮廓。+v：mala2255获取更多论文联系我们WaveGAN 13图像（将基线与图6中的其他生成图像进行比较）。3）我们的完整模型达到了最好的效果，可以生成令人满意的图像。4)我们的方法补充了本地特征融合的方法。4.5增加分类为了进一步研究生成图像的质量，我们使用我们的模型生成的图像来增强数据集，以用于下游图像分类任务。具体来说，我们首先用[12]和[15]之后的类预训练ResNet18网络，我们训练ResNet18模型100个epochs，批量大小为4。然后，我们将不可见的数据集分为D训练，D测试和Dva l。对于花数据集的每个类别，训练、测试和有效图像的数量分别为10、15和15。对于每个类别的Animal Faces和VGGFace数据集，训练、测试和有效图像的数量分别为30、35和35 我们在没有任何增强的情况下，使用D训练的已知类上的预训练模型训练一个新的类识别器，记为“Base”。然后，我们生成图像以使用Lo FGAN和WaveGAN增强D训练。对于 Flower数据集，增强图像的数量为30，对于AnimalFace和VGGFace数据集，增强图像的数量为50。表3. 扩增的分类结果数据集基地 LoFGAN WaveGAN-M（我们的）WaveGAN-B（我们的）花64.7180.7870.2084.71动物20.0026.1031.8132.19VGGFace 50.7664.7462.9677.36分类结果见表1。3. 与没有任何增强的结果相比，我们的模型取得了显着的改善，我们的WaveGAN-B明显优于LoFGAN和WaveGAN-M。使用生成的图像来增强训练数据集的有效性证明了我们的模型可以产生高质量的图像，并且分类精度的提高为解决少镜头图像分类问题提供了一种新的数据增强策略。4.6射击次数的影响之前进行的所有实验都是3次拍摄图像生成任务。我们想知道不同的镜头对我们模型的影响。我们用K2、 3、 5、 7、 9进行了不同的实验。实验的不同镜头的训练和测试图像的数量是相同的。图7演示了我们的WaveGAN和LoFGAN的性能。从图中我们可以观察到，当K相对较小时，WaveGAN-M优于LoF-GAN。然而，WaveGAN-M的性能随着图像数量的增加而下降，使得WaveGAN-M不足以执行图像生成任务+v：mala2255获取更多论文14米Yang等人图第七章我们的模型在不同的生成任务下的比较结果。纵坐标表示FID分数，横坐标表示不同的射击K。大K。这种现象证实了我们在第二节中的分析。平均变换可能无法推广到一个特定的图像。相比之下，我们的WaveGAN-B对K的敏感度相对较低，并且是镜头不可知的，因此WaveGAN-B对不同的镜头生成任务具有更强的泛化能力，这体现了我们的WaveGAN-B的优越性。5结论在本文中，我们提出了WaveGAN，这是第一个从频域角度改善合成质量的少拍图像生成我们的方法的关键成分是一个WaveEncoder和一个WaveDecoder。我们的WaveEncoder对不同层次的特征进行小波变换，以获得频率信号。我们将分解后的低频信号馈送到编码器的底层，并将高频信号馈送到我们的WaveDecoder。我们的设计减轻了生成器我们进一步执行频率L1损失，以保持真实图像的频率信息，促进生成的图像的保真度实验上，我们的WaveGAN在三个具有挑战性的数据集上取得了显着的改进，可视化和下游分类结果表明，我们的WaveGAN可以生成逼真的图像。此外，消融研究表明，我们的方法的每个组成部分的有效性，并证实我们的方法补充了现有的局部融合为基础的战略。希望我们的WaveGAN可以启发研究人员从频域的角度探索少拍图像生成致谢。本文的工作得到了上海市科技计划项目“分布式生成少拍算法及理论研究”的资助。20511100600和21511100800、国家自然科学基金项目（批准号：62076094）、国防科技计划项目（批准号：2021-JCJQ-JJ-0041）、中国航天科技集团公司第八研究院产学研合作基金项目（批准号：SAST 2021 -007）。+v：mala2255获取更多论文WaveGAN 15引用1. Antoniou，A.，Storkey，A.，爱德华兹，H.：数据增强生成对抗网络。arXiv预印本arXiv：1711.04340（2017）2. Bartunov，S.，Vetrov，D.：使用生成匹配网络的少镜头生成建模。人工智能与统计国际会议（ International Conference on Artificial Intelligence andStatistics）pp. 670-678. PMLR（2018）3. Cao，Q.，沈，L.，谢伟，帕克希，O.M.，Zisserman，A.：Vggface2：一个用于跨姿势和年龄识别人脸的数据集。2018年第13届IEEE自动人脸手势识别国际会议（FG 2018）。pp. 67-74. IEEE（2018）4. 克洛乌洛托湖，Demers，M.：图：使用爬行动物生成新拍摄的图像。arXiv预印本arXiv：1901.02199（2019）5. 多贝西岛：小波变换、时频局部化与信号分析。IEEE transactions oninformation theory36（5），9616. 邓，X.扬河，巴西-地徐，M.，Dragotti，P.L.：小波域风格转移在单幅图像超分辨率中的有效感知-失真折衷。在：IEEE/CVF计算机视觉国际会议上。pp. 30767. Fei-Fei，L.，弗格斯河，Perona，P.：对象类别的一次性学习。IEEEtransactions on pattern analysis and machine intelligence28（4），5948. Finn，C.，Abbeel，P.，Levine，S.：模型不可知元学习用于深度网络的快速适应。上一篇：机器学习国际会议pp. 1126-1135. PMLR（2017）9. 高，Y.，Wei，F.，Bao，J.，Gu，S.，Chen，D.，中国农业科学院，Wen，F.，Lian，Z.：高逼真度和任意面部编辑。IEEE/CVF计算机视觉和模式识别会议论文集。pp. 1611510. 古德费洛岛， Pouget-Abadie ， J. ，米尔扎， M. ， Xu ， B. ， Warde-Farley，D.，Ozair，S.，Courville，A.，Bengio，Y.：生成对抗网。神经信息处理系统的进展27（2014）11. Gu，S.，Chen，D.，中国农业科学院，Bao，J.，Wen，F.，张，B.，Chen，D.，中国农业科学院，Yuan，L.，Guo，B.：矢量量化扩散模型在文本到图像合成中的应用。IEEE/CVF计算机视觉和模式识别会议论文集pp. 1069612. 顾志，李伟，霍，J.，Wang，L.，美国，Gao，Y.：Lofgan：融合局部表示以生成少量图像。IEEE/CVF计算机视觉国际会议论文集。pp. 846313. Heusel，M.，Ramsauer，H.，Unterthiner，T.，Nessler，B.，Hochreiter，S.：用双时标更新规则训练的Gans收敛于局部nash均衡。神经信息处理系统的进展30（2017）14. 洪，Y.，牛湖，张杰，Zhang，L.：Matchinggan：基于匹配的少数镜头图像生成。 2020 IEEE International Conference on Multimedia and Expo（ICME）pp. 1-6. IEEE（2020）15. 洪，Y.，牛湖，张杰，Zhao，W.，傅，C.，Zhang，L.：F2gan：用于生成少量图像的融合和填充gan。第28届ACM多媒体国际会议论文集。pp. 253516. 黄，H.，他，R.，太阳，Z.，Tan，T.：小波域生成对抗网络多尺度人脸幻觉。国际计算机视觉杂志127（6），76317. 江，L.Dai，B.，吴伟，Loy，C.C.：Deceive d：自适应伪增强，用于有限数据的gan训练。神经信息处理系统进展34（2021）+v：mala2255获取更多论文16M. Yang等人18. 江，L. Dai，B.，吴伟，Loy，C.C.：图像反射和合成的聚焦频率损失。IEEE/CVF计算机视觉国际会议论文集。pp. 1391919. Karras，T.，Aila，T.，Laine，S.，Lehtinen，J.：逐步增长的甘斯为IM-经过验证的质量、稳定性和变化。在：国际会议学习代表（2018）20. Karras，T.，Aittala，M.，Hellsten，J.，Laine，S.，Lehtinen，J.，Aila，T.：培训有限数据的生成对抗网络。神经信息处理系统的进展33，1210421. Karras，T.，Aittala，M.，Laine，S.， H？ark？one n，E.，Hellsten，J.， Le htinen，J.，艾拉T.：无别名生成对抗网络。神经信息处理系统进展34（2021）22. Karras，T.，Laine，S.，Aila，T.：一种基于样式的生成器架构对抗性网络在：IEEE/CVF计算机视觉和模式识别会议论文集。pp. 440123. Karras，T.，Laine，S.，Aittala，M.，Hellsten，J.，Lehtinen，J.，Aila，T.：分析提高了花柱的成像质量。在：IEEE/CVF计算机视觉和模式识别会议论文集。pp. 811024. 金玛，D.P.，Ba，J.：Adam：一种随机优化方法arXiv预印本1412.6980（2014）25. 金玛，D.P.，Welling，M.：自动编码变分贝叶斯。ArXiv预印本arXiv：1312.6114（2013）26. Li，G.，Jampani，V.，塞维利亚-拉腊湖Sun，D.，金，J.，Kim，J.：自适应亲-用于少数镜头分割的totype学习和分配。IEEE/CVF计算机视觉和模式识别会议论文集。pp. 833427. 梁伟，刘志，Liu，C.：道森：一个域自适应少拍生成框架-工作arXiv预印本arXiv：2001.00576（2020）28. 刘，B.，曹玉，Lin，Y.，（1996年），李，Q.，张志，Long，M.，Hu，H.：负边距很重要：了解少数镜头分类中的边距。欧洲计算机视觉会议。pp. 438-455.施普林格（2020）29. Liu，M.Y.，黄，X.，Mallya，A.，Karras，T.，Aila，T.，Lehtinen，J.，Kautz，J.：很少-拍摄无监督的图像到图像的转换。IEEE/CVF计算机视觉国际会议论文集。pp. 1055130. Liu，P.，（1986 - 1990），中国科学院院士，张洪，张，K.，林，L.，Zuo，W.：图像的多层小波-cnn修复在：IEEE计算机视觉和模式识别研讨会会议论文集。pp. 77331. Liu，Y.，李，Q.，Sun，Z.：基于小波变换的属性增强人脸老化积极对抗网络在：IEEE计算机视觉和模式识别会议（2019）32. Nichol，A.，Schulman，J.：爬虫：可扩展的元学习算法。arXiv预印本arXiv：1803.029992（3），第四届（2018年）33. 尼尔斯贝克法医Zisserman，A.：对大量类别的花卉进行自动分类2008年第六届印度计算机视觉会议，图形图像处理。pp. 722-729. IEEE（2008年）34. Odena，A.，Olah，C.，Shlens，J.：带辅助分类的条件图像合成fier gans上一篇：机器学习国际会议pp. 2642-2651。PMLR（2017）35. 帕克，T.，埃夫罗斯，匿名律师，张，R.Zhu，J.Y.：不成对的对比学习图像到图像的翻译。欧洲计算机视觉会议。pp. 319-345.施普林格（2020）+v：mala2255获取更多论文WaveGAN 1736. Ramesh，A.，Dhariwal，P.，Nichol，A.，Chu，C.，Chen

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

WaveGAN：高保真少拍图像生成的新技术水平证明的频率感知模型

无线频谱感知算法

扩散模型在图像生成和语音生成中的应用

python 图像保真度和质量

基于深度学习的图像压缩技术发展趋势

风格迁移定量评价指标有哪些

transformer图像保真

建立评价模型，评价彩色化方法的优劣，并利用该模型对问题1中的算法评分

生成隐函数时间序列模型

他分为低中高三个等级，分别解释一下这三个等级。

MATLAB图片的量化评价模型

linux下载高保真音乐

axure基础教程高保真

请制作一个Axure高保真源文件

axure 高保真模板 下载

axure 高保真web模板

后台系统axure高保真下载

axure 高保真系统

图像压缩技术的性能指标有哪些

axure web 高保真元件库

axure制作日历高保真原型

最新资源

axure 高保真模板下载