可靠的少样本图像生成的属性组编辑

86 浏览量更新于2023-10-26 收藏 20.51MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Guanqi Ding1,2*, Xinzhe Han1,2*, Shuhui Wang2,4†, Shuzhe Wu3, Xin Jin3, Dandan Tu3, Qingming Huang1,2,4{dingguanqi19, hanxinzhe17 @mails.ucas.ac.cn, wangshuhui@ict.ac.cn,∆w!!"∆w!!"∆w#!"∆w#!"w# $!w# $"w# $#x%$#x%%$#x&$#x%$"x%%$"x&$"111940可靠的少样本图像生成的属性组编辑01中国科学院大学，中国北京2中国科学院计算技术研究所智能信息处理重点实验室，中国北京3华为云EI创新实验室，中国 4深圳市鹏城实验室，中国深圳0{ wushuzhe2, jinxin11, tudandan } @huawei.com, qmhuang@ucas.ac.cn0摘要0即使使用最先进的生成对抗网络（GANs），少样本图像生成也是一项具有挑战性的任务。由于GAN训练过程的不稳定性和有限的训练数据，生成的图像往往质量低、多样性低。在这项工作中，我们提出了一种新的“基于编辑”的方法，即属性组编辑（AGE），用于少样本图像生成。基本假设是任何图像都是属性的集合，特定属性的编辑方向在所有类别之间共享。AGE检查GAN中学习到的内部表示，并识别语义上有意义的方向。具体而言，类嵌入，即特定类别的潜在代码的均值向量，用于表示类别相关属性，而类别无关属性通过稀疏字典学习在样本嵌入和类嵌入之间的差异上进行全局学习。在已见类别上训练良好的GAN的基础上，可以通过编辑类别无关属性来合成未见类别的多样化图像，同时保持类别相关属性不变。在不重新训练GAN的情况下，AGE不仅能够为具有有限数据的下游视觉应用生成更逼真和多样化的图像，还能够实现可控的图像编辑，具有可解释的类别无关方向。代码可在https://github.com/UniBester/AGE获得。01. 引言0生成对抗网络（GANs）的出现[10]使得深度生成模型能够生成更高质量和多样性的图像。然而，由于GAN的特性，训练一个好的GAN模型通常需要大量的训练数据0* 这些作者对本文贡献相同。† 通讯作者。0(a)0(b)0图1.潜在空间中的属性编辑示例。(a)类别相关属性编辑在类嵌入wcm之间。(b)类别无关属性编辑在类别之间是通用的0并且很难收敛[41]。给定来自未见类别的少量图像，GAN很难为该类别生成新的逼真和多样化的图像。这个任务被称为少样本图像生成，它可以为低数据检测[8]和少样本分类[34,36]等一系列下游任务带来好处。现有的少样本图像生成方法可以大致分为三类，即基于优化的方法[7,23]、基于融合的方法[4, 11, 14, 15]和基于转换的方法[3,13]。基于优化的方法引入元学习范式，通过学习初始化的基础模型并对每个未见类别进行微调来生成新的图像，但这类方法生成的图像模糊且质量低。基于融合的方法在特征空间中融合多个输入图像，并将融合的特征解码为同一类别的逼真图像。然而，这些方法需要至少两个图像作为输入111950输入只能生成与输入图像相似的图像。基于转换的方法找到类内转换，并将这些转换应用于未见类别的样本，以生成更多的同类别图像。然而，图像转换和生成的端到端训练非常不稳定。更糟糕的是，这些转换往往很复杂，生成的图像质量往往很低甚至崩溃。借鉴StyleGAN [20,21]的思想，图像可以被视为不同属性的集合。图像的类别由对象的类别相关属性决定，例如脸部形状和毛发形态。同一类别的图像之间的差异反映在与类别无关的属性上，包括表情、姿势等。此外，许多研究[12,32]表明，GAN在潜在空间中表示这些属性。沿着识别出的方向移动潜在代码可以相应地改变输出图像中的语义。从理论上讲，给定一个预训练的GAN，可以通过组合来自已见类别的属性生成未见类别的对象，如图1(a)所示。通过编辑类别无关属性可以生成同一类别的多样化图像，这些属性在所有类别之间共享，如图1(b)所示。如果可以区分这些语义上有意义的方向，我们可以实现可靠的少样本图像生成，无需重新训练GAN。为了识别这样的方向，图像编辑方法通常在潜在空间中注释一组合成样本，并训练线性分类器。它们需要明确定义目标属性以及相应的手动注释。然而，对于更复杂的多类别图像生成[6, 24,26]，获得这样详细的注释是不现实的。因此，基于编辑的方法的关键挑战是在没有明确监督的情况下分解类别相关和类别无关属性的有意义方向。为了实现这个目标，我们提出了属性组编辑（AGE），它检查图像和内部表示之间的变化关系。AGE的核心是在没有明确监督的情况下分解类别无关属性和类别相关属性的方向。首先，从该类别的所有样本的平均表示中获得特定类别的类别嵌入。如图1(a)所示，对于具有大量训练数据的已见类别，该嵌入很可能将所有类别相关属性与主要类别无关属性分离开来。随后，数据集中的任何样本都可以被视为从相应类别嵌入进行的类别无关编辑。为了在潜在空间中分解类别无关方向，我们使用稀疏字典学习（SDL）[2,25]对这个编辑过程进行建模。使用多个约束来确保0确保字典中的每个方向在语义上都是有意义且与类别无关的。字典中不同方向的线性组合可以促进生成多样化的图像，而不改变它们的类别。我们的贡献可以总结如下：-我们提出了一种新的少样本图像生成视角，即通过类别无关的图像编辑可以生成未见类别的多样化图像。-我们提出了一种新方法，称为属性组编辑（AGE），它可以从预训练的GAN中识别出类别相关和类别无关的编辑方向组，而无需显式监督。-大量实验证明AGE在高质量和多样性方面实现了更稳定的少样本图像生成。此外，由AGE发现的编辑方向在语义上是有意义的，我们还可以基于学习到的属性字典进行可控的图像生成。02. 相关工作0少样本图像生成。现有的少样本图像生成方法可以大致分为基于优化的方法、基于融合的方法和基于转换的方法。基于优化的方法[7, 23,29]将元学习和对抗学习相结合，通过微调模型来生成未见类别的图像。然而，这种方法生成的图像真实性较差。基于融合的方法通过将随机向量与条件图像进行匹配[14]或通过填充低级细节来插值条件图像的高级特征[11,15]来融合特征。简单的内容融合限制了生成图像的多样性。基于转换的方法[3,13]捕捉跨类别或类内变换，生成未见类别的新数据。这些方法通过图像差异捕捉变换，并且由于类内和类间对之间的复杂变换，可能会损坏。从我们的新的“基于编辑”的视角来看，类内变换可以通过基于一个样本的类别无关图像编辑来替代建模。少样本图像到图像的转换。少样本图像到图像的转换方法基于少量图像将图像从一个域映射到另一个域，如类别转换[16, 24, 37]、天气转换[30]和风格转换[22, 27,39]。这些方法也关注少样本设置，但主要处理的是域转换而不是对象类别。图像操作。最近的研究表明，GAN可以在潜在空间中表示多个可解释的属性[20,40]。对于图像编辑，监督学习方法[9, 32,40]根据预训练的分类器注释预定义的属性，然后学习潜在空间中属性的潜在方向。然而，它们严重依赖于属性预测器和人工注释。一些并行工作研究了GAN中的无监督语义发现。可以通过使用基于分割的网络[5]、线性子空间模型[12]、激活空间中的主成分分析[17]或精心设计的解缠约束[28, 33,38]来识别有意义的维度。与传统的图像编辑不同，AGE关注更具挑战性的多类别图像生成中的属性分解，这不能通过传统的图像编辑方法来执行。pSpw" !!w"!!∆w""#n"𝑨∆w& ""#w' "!!StyleGANw$!"𝑨 %𝐧)& ~ 𝑁(𝜇, 𝛴)∆w& $"#w'$!"𝐿#'! 𝐿()*#(' 𝐿+#,-x"!#x4"!#x$!"x4$!"111960改进0训练0推理0图2. AGE的概述。AGE在训练阶段学习一个包含类别无关属性编辑方向的字典A，并根据精炼的字典Af通过类别无关操作生成多样化的图像。0严重依赖属性预测器和人工注释。一些并行工作研究了GAN中的无监督语义发现。可以通过使用基于分割的网络[5]、线性子空间模型[12]、激活空间中的主成分分析[17]或精心设计的解缠约束[28, 33,38]来识别有意义的维度。与传统的图像编辑不同，AGE关注更具挑战性的多类别图像生成中的属性分解，这不能通过传统的图像编辑方法来执行。03. 方法0训练集 D train = { x c m i } N m × M 包含 M个已知类别的图像，测试集 D test = { x c k i } N k × K包含 K个未知类别的图像，每个类别中的图像数量通常较少，即为10或15。Few-shot图像生成旨在使用 D train训练一个多类别生成网络，然后通过 D test中的少量图像生成 K个未知类别的多样化图像。在本节中，我们介绍属性组编辑（AGE）方法，该方法可以在不重新训练GAN模型的情况下生成未知类别的图像。AGE利用大量已知类别的图像来识别类别相关和类别无关属性的语义有意义的方向，而无需显式监督。03.1. 准备工作0GAN反演。GAN中的生成器 G ( ∙ ) 学习了从 d 维潜空间 Z ∈ R d到更高维图像 X ∈ R H × W × C 的映射。相反，给定一个图像 x i，可以使用GAN反演将其嵌入到潜空间中。反演过程 I ( ∙ )和生成过程可以表示为：0对于图像 x i ∈ X，也可以使用GAN反演将其嵌入到潜空间中[1, 19, 31, 35,42]。GAN反演 I ( ∙ ) 和生成的过程可以表示为：0z i = I ( x i ) , ˆ x i = G ( z i ) . (1)0语义操作。GAN的潜空间最近被证明可以编码丰富的语义知识[9, 18,40]。潜空间中的不同方向控制不同的属性。许多工作[12,32, 33, 38]提出在某个方向∆ z i ∈ R d 中操作潜变量 z i以编辑相应的属性：0edit ( G ( z i )) = G ( z ′ i ) = G ( z i + α ∆ z i ) , (2)0其中 edit ( ∙ ) 表示图像的编辑操作。α表示操作强度。给定一个经过良好训练的用于多类别图像生成的GAN，编辑可以分为类别相关编辑和类别无关编辑。对于类别 c m 的采样潜变量 z c m i ，类别相关编辑 edit r ( ∙ )为：0edit r ( G ( z c m i )) = G ( z c i + α ∆ z r ) = ˆ x c k i , (3)0其中 ∆ z r 表示类别相关操作的方向，ˆ x c k i 是新类别 c k的图像。另一方面，对于类别无关编辑 edit ir ( ∙ )，我们有：0edit ir ( G ( z c m i )) = G ( z c m i + α ∆ z ir ) = ˆ x c m i , (4)0其中 ∆ z ir 表示类别无关编辑的方向，ˆ x c m i 是同一类别c m 的图像。𝐱!𝐱"𝐱#!mean+∆𝐰!"wi = pSp(xi),(5)wcm =1NmNm�i=1wcmi,(6)wcmi= wcm + ∆wiri .(7)minn ∥ni∥0s.t. ∆wiri = Ani,(8)ni = MLP(∆wiri ).(9)Lsparse = ∥σ(θ0ni − θ1)∥1,(10)Lrec = ∥G(wcm + Ani) − xcmi ∥2.(11)BT ˆwcmi= BT wcm,BT wcm + BT Ani = BT wcm,BT Ani = 0.(12)Lorth = ∥BT A∥2F ,(13)L = Lrec + λ1Lorth + λ2Lsparse.(14)111970图3.任何图像都可以被视为从相应的类别嵌入中进行类别无关编辑。这种线性变换可以重构输入图像的大多数属性。03.2. 属性组编辑0AGE的整体框架如图2所示，包括两个主要部分：图像嵌入和属性分解。03.2.1 图像嵌入0为了进行图像编辑，我们首先应该将图像样本嵌入到潜空间中。在实践中，我们使用pSp [31]将图像 x i编码为Style-GAN2 [20, 21]的 W + [1] 空间。0其中 w i ∈ R 18 × 512 是 x i 在 W +空间中的相应潜变量。03.2.2 属性分解0给定 W +空间中的潜表示，我们旨在根据给定的数据集区分一组类别相关属性方向和类别无关属性方向。类别相关属性。类别相关属性的组合确定了图像所属的类别。它编码了一个特定类别所有样本之间的共同属性。因此，我们使用类别 c m中所有样本的均值向量 w c m ∈ W +来表示类别嵌入，即类别 c m 的组合类别相关属性：0其中N m是类别c m的样本数量。包含M个已知类别的类别相关属性的字典定义为B = [ w c 1 , w c 2 , ..., w c M ]。0与类别无关的属性。如图3所示，给定包含所有类别相关属性的w c m，可以通过与类别无关的编辑∆ wir进行操作来获得类别c m 的任何图像x c mi，如公式7所示：0类别无关的方向在所有已知和未知类别中是共同的。为了学习类别无关的方向，我们将这个操作过程建模为稀疏字典学习（Sparse Dictionary Learning，SDL）[2,25]。给定一个操作方向∆ w iri的样本，我们优化一个包含所有类别无关属性方向的全局字典A ∈ R 18 × 512 × l和一个稀疏表示n i ∈ R 18 ×l，其中0其中∥ . ∥ 0是L0约束。这个稀疏约束鼓励A中的每个元素在语义上有意义。在实践中，它通过编码器-解码器架构进行优化。稀疏表示ni是通过多层感知机（Multi-layer Perceptron，MLP）从∆w ir i获得的：0由于L 0损失不可导，我们用S型激活函数逼近L 0约束的L1约束：0其中σ(∙)表示S型函数。θ 0和θ1是控制稀疏性的超参数。生成器的目标是生成与输入图像xi 接近的图像，通过L 2重构损失进行优化：0此外，为了进一步保证A ni仅编辑类别无关的属性，编辑后图像的嵌入ˆw c mi应具有与类别嵌入w c m相同的类别相关属性响应：0为了确保满足公式12，我们在A和B之间制定了正交约束：0其中∥ . ∥ 2F表示Frobenius范数。整体损失函数为：S(↑)AGE1-shot45.960.430528.040.557534.860.3294ˆni = A−1∆wiri ,(15)|ˆn| = 1M1Nm|ˆncmi |,(16)xckj = G(wcki + αAf ˜nj),(17)111980图4. AGE在Animal Faces、Flowers和VGGFaces上的一次性图像生成。0表1. 不同方法生成的用于未见类别的图像的FID( ↓ )和LPIPS( ↑)。由于大多数方法在此数据集上报告了不同数量的未见类别（例如LoFGAN中的552个，DeltaGAN中的96个和L2GAN中的497个），因此VGGFaces标有*。0方法设置 Flowers Animal Faces VGG Faces �0FIGR [7] 3-shot 190.12 0.0634 211.54 0.0756 139.83 0.0834 GMN [4] 3-shot 200.11 0.0743 220.45 0.0868 136.210.0902 DAWSON [23] 3-shot 188.96 0.0583 208.68 0.0642 137.82 0.0769 DAGAN [3] 1-shot 179.59 0.0496185.54 0.0687 134.28 0.0608 MatchingGAN [14] 3-shot 143.35 0.1627 148.52 0.1514 118.62 0.1695 F2GAN [15]3-shot 120.48 0.2172 117.74 0.1831 109.16 0.2125 LoFGAN [11] 3-shot 79.33 0.3862 112.81 0.4964 20.31 0.2869DeltaGAN [13] 1-shot 109.78 0.3912 89.81 0.4418 80.12 0.31460在推断阶段，为了找出最常见的类别无关的编辑方向，我们首先将∆ w ir反投影到表示ˆn上：0其中A−1是A的伪逆矩阵。然后，我们计算所有M个已见类别的|ˆni|的绝对值的平均值：0M×0Nm×0其中|ˆn|可以解释为整个数据集中方向的共性。对于W+的每一层，我们从A中选择t个方向，这些方向在整个数据集上具有最大的|ˆn|。给定单个图像xcni，可以生成一组图像：0空间，我们从A中选择与|ˆn|中的前t个值对应的t个方向。用于类别无关编辑的最终字典为Af ∈ R 18 × 512 ×t。为了自动生成多样的图像，我们假设稀疏表示n服从高斯分布N(µ,Σ)，其中µ和Σ通过对训练集中所有已见类别的ˆni进行计数得到。我们从N(µ,Σ)中随机采样一个任意的˜nj，并将其应用于未见类别的图像编辑。操作强度α用于控制生成图像的多样性。0其中wcki = pSp(xcki)。04.1. 实现细节04. 实验04.2. 数据集0在训练阶段，我们首先使用已见类别训练一个StyleGAN2[21]。给定一个训练好的GAN，稀疏表示编码器是一个具有Leaky-ReLU激活函数的5层多层感知器。字典A的长度l设置为100。为了更稳定和可解释的编辑，我们将StyleGAN2的18层W+空间分为底层、中间层和顶层，分别对应0-2层、3-6层和7-17层。每个组中的层共享相同的稀疏表示n。0输入MatchingGANAGE LoFGAN0我们按照[13]中的设置，在Animal Faces [24]、Flowers[26]和VGGFaces [6]上评估我们的方法。AnimalFaces。我们选择119个类别作为训练集中的已见类别，选择30个类别作为测试集中的未见类别。We test data augmentation for image classification onAnimal Faces [24]. We randomly select 15, 35, 100 imagesfor each category as train, val, and test, respectively. Fol-lowing [11], a ResNet-18 backbone is first initialized fromthe seen categories, then the model is fine-tuned on the un-seen categories. 75 images are generated for each unseencategory as data augmentation.“Sample Train” is an ablation that randomly samples∆w of seen categories from the train set and directly usedto edit the unseen categories. As shown in Table 3, the di-rectly sampled ∆w is unstable for image editing, resultingin crashed images and much higher FID, which proves the0.369.831.790.54290.570.631.810.54820.770.933.430.55321.071.438.180.56091.569.949.700.57192.066.163.990.5809111990输入DeltaGAN AGE0图5. MatchingGAN、LoFGAN和AGE在Flowers、Animal Faces和VGGFaces上生成的图像的比较。0Flowers。我们将其分为85个已见类别用于训练，17个未见类别用于测试。VGGFaces。对于VGGFaces [6]，我们随机选择1802个类别进行训练，572个类别进行评估。0图6. DeltaGAN中的许多失败案例可以通过AGE稳定生成。0我们在Animal Faces[24]上对图像分类进行数据增强测试。我们随机选择每个类别的15、35、100张图像作为训练集、验证集和测试集。按照[11]的方法，首先从已见类别初始化一个ResNet-18骨干网络，然后在未见类别上进行微调。为每个未见类别生成75张图像作为数据增强。SampleTrain是一个消融实验，它从训练集中随机采样已见类别的∆w，并直接用于编辑未见类别。如表3所示，直接采样的∆w对图像编辑不稳定，导致图像崩溃和更高的FID，这证明了04.3. 下游任务的消融研究0表2. 不同操作强度α的消融实验。0α 准确率 FID ( ↓ ) LPIPS ( ↑ )0基准 67.3 – –0Sample Train 70.8 54.66 0.61030使用SDL进行属性分解的必要性。生成图像的多样性和质量在很大程度上受到操作强度α的控制。随着α的增长，AGE生成的图像多样性更高，但质量较低。根据准确性，α=1在分类任务上表现最好。这个结果表明，生成与原始训练集遵循相同分布的图像是数据增强的最佳选择。尽管较低的α可以实现更令人满意的FID和LPIPS，但我们仍然根据在下游任务上的表现来决定最佳α。04.4. 与最先进方法的定量比较0我们根据常用的FID和LPIPS评估生成图像的质量。按照之前的工作[11, 13,14]，我们基于每个未见类别的真实图像生成128个图像，并根据生成的图像计算FID和LPIPS。按照[3,13]中的一次性设置，每次使用一个真实图像为未见类别生成足够的图像。112000色调表面结构0输入顶层中间层底层0图7. 在A f 中发现的分层可解释操作。0输入0Trans10Trans20图8. 使用相同的稀疏表示n操作不同类别的图像。0不同方法的结果在表1中报告，我们的方法在FID和LPIPS上取得了显著的改进。由于我们不需要重新训练GAN，AGE更加稳定，获得了令人印象深刻的FID增益。与基于融合和转换的方法相比，我们生成的图像也更加多样化。此外，我们可以实现一次性图像生成。04.5. 定性评估0AGE在动物脸部、花朵和VGGFaces上的一次性图像生成如图4所示。我们将我们的方法与基于融合的方法MatchingGAN [14]和LoFGAN [11]以及基于转换的方法DeltaGAN[13]进行了定性比较。所有图像都在[11]和[13]中报告。如图5所示，与LoFGAN[11]只能融合条件图像的特征不同，AGE可以生成具有新属性的图像。例如，我们可以生成两朵花的图像，并生成不同位置和表情的狗。与基于转换的方法DeltaGAN从不同图像对中学习类别内变换不同，AGE获得了潜在的类别无关性。0� !0姿势0� "0放大和缩小0� #$%0颜色0� &0头发0图9. 在U中沿着解缠的属性编辑方向操作图像的不同层。0基于更稳健的类别嵌入的语义。DeltaGAN中的许多失败案例可以通过AGE稳定生成，如图6所示。此外，由于AGE不需要重新训练GAN，与现有的融合和转换方法相比，AGE生成的图像质量更高。04.6. 语义属性分解0除了少样本图像生成之外，AGE还具有关于类别无关属性的可控图像编辑的额外优势。在本节中，我们将通过实验证明学习到的字典A f 的可转移性和可解释性。可转移性。由于Af是类别无关的，它可以在所有类别之间进行转移。我们使用相同的编辑方向编辑来自4个类别的图像，输出图像如图8所示。Trans1是张嘴，Trans2是向右转头。这表明字典A f是全局的，并且相同的n控制着不同类别图像的相似属性。Af = UΣV ∗.(18)Settingbaselinew/o LorthAGEInversionGeneratedInputInversionGeneratedInputis based on the statistics of the training set rather than adap-tive to the input images. Although the diversity of images isguaranteed, it will also lead to failure on images of specialstatus. As shown in Figure 11, if the objects are of an irreg-ular posture (e.g. dogs in sideways), the generated imagesare more likely to be crashed. Moreover, some attributesare not category-irrelevant for all categories, but they willbe learned in Af. For example, the number of petals iscategory-irrelevant for most flowers, but it may be identicalfor some specific categories. Although the generated im-ages are realistic, the category has been changed.Moreover, the performance of AGE largely relies onthe pretrained styleGAN and the inversion method. If thecategory-relevant attributes of input image can not be wellembedded, the editing will also fail. In future, we will tryto factorize both category-relevant and irrelevant attributeswith better disentanglement, and train the GAN inversionand attribute factorization end to end.112010原始0姿势&嘴巴&头发颜色&图案0w/o � !"#$!% w/o � &$'(0图10. 在没有稀疏或其他的情况下进行图像编辑0可解释性。尽管AGE是完全自监督的，但由于稀疏约束和StyleGAN2的有意义的潜在空间，A f中学习到的方向仍然是可解释的。首先，不同的层组控制不同的类别无关属性。特别是，我们分别在底层、中间层和顶层解释目标模型。图7显示了在动物脸部发现的多功能语义方向。它表明A f中的大多数方向是类别无关的。具体来说，底层主要控制对象的结构，如位置、放大/缩小和脸部形状。中间层主要控制颜色和表情等表面特征。顶层决定图像的背景和整体色调。我们可以通过在相应的组中进行采样来实现可控的类别无关编辑。为了找到不同层/组中解缠的属性编辑方向，我们进一步对字典A f 进行奇异值分解（SVD）：0矩阵U包含字典A f的每一层共享的方向。图9是通过沿着每层最显著的方向进行图像编辑的示例。尽管解缠是粗糙的，但沿着U中的单个方向可以连续编辑一个特定的类别无关属性。04.7. 损失组成部分的消融研究0我们在动物面孔数据集[24]上对L orth 和L sparse进行了消融研究。L orth是为了鼓励学习到的方向与类别无关。在图10中，没有Lorth的编辑图像更容易遇到类别变化。结果表明，少样本图像分类的准确率明显低于没有L orth 的AGE，如表3所示。Lsparse是为了表示n的稀疏性，这与学习到的方向的可解释性有关。与图9相比，它显示出在没有L sparse的SVD之后，不同的语义在学习到的方向中更加纠缠。沿着一个方向进行图像编辑将导致多个属性的变化。04.8. 失败案例和局限性0表3. 少样本图像分类中L orth 的消融实验。0准确率67.3 69.8 71.40图11.失败案例。失败案例主要来自GAN反演不良、输入对象位置不规则和错误的类别相关编辑。05. 结论0在这项工作中，我们提出了一种基于编辑的少样本图像生成的新视角。为了实现对未见类别的类别无关编辑，我们提出了一种新方法，属性组编辑（AGE），它可以在没有显式监督的情况下识别GAN学习到的类别相关和无关语义。大量实验证明了我们的方法在少样本图像生成和对类别无关属性的可控图像操作上的多样性和稳定性。0致谢。本工作部分得到了中国国家重点研发计划资助，项目编号2018AAA0102000；国家自然科学基金资助，项目编号62022083、U21B2038、61931008和61836002；以及中央高校基本科研业务费资助。112020参考文献0[1] Rameen Abdal, Yipeng Qin, and Peter Wonka.Image2stylegan:如何将图像嵌入到stylegan的潜在空间中？在ICCV 2019年。3, 40[2] M. Aharon, M. Elad, and A. Bruckstein. K-svd:一种用于稀疏表示的过完备字典设计算法。IEEE信号处理杂志，54(11):4311-4322，2006年。2, 40[3] Antreas Antoniou, Amos Storkey, and Harrison Edwards.数据增强生成对抗网络. arXiv preprint arXiv:1711.04340 ,2017. 1 , 2 , 5 , 60[4] Sergey Bartunov and Dmitry P. Vetrov.使用生成匹配网络的少样本生成建模. In AISTATS , 2018. 1 , 50[5] David Bau, Jun-Yan Zhu, Hendrik Strobelt, Bolei Zhou,Joshua B. Tenenbaum, William T. Freeman, and AntonioTorralba. Gan dissection: 可视化和理解生成对抗网络. In ICLR ,2019. 30[6] Qiong Cao, Li Shen, Weidi Xie, Omkar M. Parkhi, and An-drew Zisserman. Vggface2:一个用于识别不同姿态和年龄的数据集. IEEE InternationalConference on Au- tomatic Face & Gesture Recognition ,pages 67–74, 2018. 2 , 5 , 60[7] Louis Clouˆatre and Marc Demers. FIGR:使用reptile的少样本图像生成. arXiv preprint arXiv:1901.02199, 2019. 1 , 2 , 50[8] Kun Fu, Tengfei Zhang, Yue Zhang, Menglong Yan,Zhong- han Chang, Zhengyuan Zhang, and Xian Sun.Meta-ssd: 用于少样本目标检测的快速自适应元学习. IEEEAccess , 7:77597–77606, 2019. 10[9] Lore Goetschalckx, Alex Andonian, Aude Oliva, andPhillip Isola. Ganalyze: 用于认知图像属性的视觉定义. arXivpreprint arXiv:1906.10112 , 2019. 2 , 30[10] Ian Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, BingXu, David Warde-Farley, Sherjil Ozair, Aaron Courville, andYoshua Bengio. 生成对抗网络. In NeurIPS , 2014. 10[11] Zheng Gu, Wenbin Li, Jing Huo, Lei Wang, and Yang Gao.Lofgan: 融合局部表示的少样本图像生成. In ICCV , 2021. 1 , 2 ,5 , 6 , 70[12] Zhenliang He, Meina Kan, and Shiguang Shan. Eigengan:用于GAN的逐层特征学习. In ICCV , 2021. 2 , 30[13] Y. Hong, Li Niu, Jianfu Zhang, Jing Liang, and LiqingZhang. Deltagan:通过样本特定的增量实现多样化的少样本图像生成. In CVPR ,2020. 1 , 2 , 5 , 6 , 70[14] Yan Hong, Li Niu, Jianfu Zhang, and Liqing Zhang.Matchinggan: 基于匹配的少样本图像生成. In ICME , 2020. 1 , 2, 5 , 6 , 70[15] Yan Hong, Li Niu, Jianfu Zhang, Weijie Zhao, Chen Fu,and Liqing Zhang. F2gan:融合和填充生成对抗网络用于少样本图像生成. In Proceedings ofthe 28th ACM Interna- tional Conference on Multimedia ,pages 2535–2543, 2020. 1 , 2 , 50[16] Xun Huang, Ming-Yu Liu, Serge Belongie, and Jan Kautz.多模态无监督图像到图像的转换. In0欧洲计算机视觉大会(ECCV)会议论文集, 2018. 20[17] Erik H¨ark¨onen, Aaron Hertzmann, Jaakko Lehtinen, andSylvain Paris. Ganspace: 发现可解释的GAN控制. In NeurIPS ,2020. 30[18] Ali Jahanian, Lucy Chai, and Phillip Isola.生成对抗网络的“可操纵性”. In International Conference onLearning Representations , 2020. 30[19] Kyoungkook Kang, Seongtae Kim, and Sunghyun Cho.用于超出范围图像的GAN逆向与几何变换. 2021. 30[20] Tero Karras, Samuli Laine, and Timo Aila.基于风格的生成对抗网络的生成器架构. In CVPR , 2019. 2 , 40[21] Tero Karras, Samuli Laine, Miika Aittala, Janne Hellsten,Jaakko Lehtinen, and Timo Aila.分析和改进StyleGAN的图像质量. In CVPR , 2020. 2 , 4 , 50[22] Yijun Li, Richard Zhang, Jingwan Lu, and Eli Shechtman.Few-s

下载后可阅读完整内容，剩余1页未读，立即下载