条件细粒度图像生成中的单级可控GAN模型

186 浏览量更新于2023-10-14 收藏 1.2MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

9264用于条件细粒度图像生成陈天一1、刘毅1、张云飞1、吴思1、3 *、徐勇1、冯良兵2、黄厚生31华南理工2宇宙视觉科技有限公司公司3香港城市大学计算机科学系{csttychen，csly，cszhangyunfei}@ mail.scut.edu.cn，{cswusi，yxu}@scut.edu.cnlb.cosmosvisiontech.com，cshswong@cityu.edu.hk摘要先前最先进的深度生成模型通过设计分层模型结构和跨多个阶段合成图像来提高细粒度图像生成质量。学习过程是典型的-在对象类别中没有任何监督的情况下执行。为了解决这个问题，同时为了减轻模型设计和训练的复杂程度，我们提出了一种单级可控GAN（SSC-GAN），用于在半监督设置中进行条件细粒度图像合成。考虑到细粒度对象类别可能具有细微的区别和共享属性的事实，我们考虑了生成建模的三个变化因素：类独立内容、跨类属性和类语义，并将它们与不同的变量相关联。为了确保变量之间的解纠缠，我们最大限度地提高互信息之间的类独立变量和合成图像，真实数据映射到生成器的潜在空间进行跨类属性的一致性正则化，并将类基于语义的正则化到鉴别器我们表明，所提出的方法提供了一个单阶段的可控发电机和高保真度的细粒度类别的合成图像。SSC-GAN在多个细粒度数据集上建立最先进的半监督图像合成结果1. 介绍由于生成模型在学习复杂数据分布方面的高能力，深度生成学习[6，21，22，23，26，7]已经其中大部分是基于生成副词-*通讯作者。图1.代表性图像由SSC-GAN在CUB数据集[42]上的半监督（顶行）和全监督（中间行）设置中合成虽然在半监督的情况下只有一半的训练数据被标记，但SSC-GAN的合成质量与具有完全监督的模型的合成质量相当，并且可以接近真实数据的质量（底行）。sarial网络（GANs）[17]和变分自编码器（VAE）[27]。通常采用无监督或有监督的训练模式以在图像合成中取得显著成功[16，43，29，44，11，12，1，2]。然而，产生的生成器要么无法控制类se-mantics或需要大量的标记样本。为了解决这个问题，已经研究了半监督生成学习通用半监督生成式建模基于未标记数据的量是足够的当在细粒度数据上学习时，这不成立，这是由于数据获取和注释两者都可能是昂贵的并且需要广泛的专业知识的原因训练用于细粒度对象类别的高保真生成器本质上是具有挑战性的[48，47，49]，这是由于以下方面的困难：一方面，训练样本和标签都是不足的;另一方面，不同类别之间的区别可能是不确定的。房全苏半份9265.R中文（简体）R/F联系我们R/FFR��˜R_M（）E图2.用于细粒度图像生成的SSC-GAN的模型结构。基于类独立变量b、跨类变量z和类变量yz执行生成式建模。编码器M被并入以经由具有鉴别器D z的对抗训练将图像映射到生成器G的潜在空间中。另一方面，代码M（x）用于合成新的图像通过要求x和x~具有独立于b和y~ z的类似内容，x~和z与跨类属性相关联。为了使ke大部分未标记的数据，一个额外的鉴别器Dxb被纳入，以区分真实图像与假图像，而没有条件的类别标签，而在同一时间，以最大化之间的互信息b和合成的图像。因此，b与类别无关的内容相关联此外，我们施加正则化的类条件鉴别器Dx y的特征空间，以提高类的可分性，这是有益的类条件分布之间的匹配真实和合成的数据。微妙。为了诱导生成器捕获产生细粒度数据的潜在因素，先前的工作[5，32，37，18，30，20，10]采用分层模型结构，并且图像生成过程由多个阶段组成。为了使生成可控，在不同阶段中并入不同变量以与所发现的因素相关联。模型和训练的复杂性可能非常高。此外，对象级注释- s通常需要用于背景和遮罩生成。更重要的是，到目前为止还没有尝试在细粒度图像合成中显式地控制类语义。在这项工作中，我们探索了一种有效的方法来建模的因素的变化没有任何对象级的注释，同时执行类条件的图像生成有限的监督，如图1所示。更具体地说，我们的目标是执行细粒度的对象类别的半监督类条件生成建模，而在同一时间的变量的因素进行编码的生成可控性。我们提出了一个单级可控GAN（SSC-GAN），它学习在半监督场景中合成高保真细粒度图像。为了实现这一目标，细粒度的图像合成条件类独立变量，跨类变量和类变量。考虑到训练数据和标签的数量不足，这些变量的解开对于生成器捕获类语义非常重要，因此我们在以下三个方面改进了通用的基于半监督GAN的模型首先，我们加入了一个额外的鉴别器，以在真实数据和合成数据之间进行边缘分布匹配，同时最大化类独立变量和合成图像之间的互信息的时间其次，我们利用编码器将图像映射到生成器的潜在空间中，并通过改变类独立变量和类变量的值来生成新的图像。通过最小化原始图像和结果图像的潜在代码的差异，诱导生成器学习跨类属性。第三，类标签嵌入式判别器通常用于类条件分布对齐。然而，鉴别器的特征对于反映细粒度类别之间的区别并不一定有效。为了引导生成器捕获类变量本质上表示的内容，我们进一步正则化鉴别器SSC-GAN的模型结构如图2所示。我们总结这项工作的主要贡献如下：（1）我们提出了一种基于半监督GAN的生成模型SSC-GAN，它是单阶段的，可控制的，用于条件细粒度图像生成。(2) 生成式建模是基于类独立变量、跨类变量和类变量来执行的，这些变量通过相应地并入有效的正则化器而被解开，而不需要任何对象级注释。(3)一个有效的解决方案，可以获得的优化问题，而没有沉重的调整。2. 相关工作深度生成学习在图像合成领域取得了显著的成功。基于VAE的[9，25，39，52]模型通过执行最大化来9266转转| |||转似然估计，而基于GAN的模型[6，21，22，23，51，50]采用对抗学习。在本节中，我们简要回顾了与半监督生成学习（SSGL）和细粒度图像合成相关的工作2.1. 半监督生成学习SSGL [13，25]旨在合成高保真条件图像，同时减少模型对标记数据的依赖性。一个常见的策略是让鉴别器扮演两个角色：识别真实和虚假图像，并推断真实图像的类标签。Springenberg [40]提出了一种分类GAN（CatGAN），其中训练鉴别器以提供对真实实例的高置信度类预测，而假实例的预测类概率分布被约束为均匀的。在[36]中，Salimans et al.探索了多种训练技术，以提高CatGAN的训练稳定性和综合质量。此外，Wei等人[45]应用了Wasserstein GANs[3]的SSGL，并发现生成性能可以受益于应用Lipschitz连续正则化的鉴别器另一种广泛使用的策略是将分类器并入极大极小博弈中。Li等人[31]设计了一个Triple-GAN模型，其中一个分类器与一个生成器一起通过合成标签实例对来与鉴别器竞争，以尽可能真实的程度。Wu等人。[46]通过在生成器上实施特征语义匹配的正则化来增强Triple-GAN。另一方面，Dong和Lin[14]通过允许生成器与鉴别器和分类器竞争在他们的模型中，分类器被训练成最大化真实实例的类边缘，同时最小化假实例的类边缘。为了更好地利用现成的未标记数据，Gan等人[15]提出了一种三角形GAN模型，其中引入了一个额外的鉴别器来识别两种类型的假标签-实例对：具有预测标签的真实未标记图像和具有指定标签的合成图像。在[33]中，通过应用基于随机区域替换的数据增强策略来正则化分类器和鉴别器，改进了Triangle-GAN的生成性能。2.2. 细粒度图像合成虽然已经通过基于GAN的模型广泛研究了图像合成，但是用于细粒度对象类别的条件生成学习尚未被广泛探索。为了捕获具有细微区别的对象类别，Bao etal.[4]采用了基于CVAE-GAN的细粒度图像生成模型，该模型具有条件VAE（CVAE）[38]和GAN在模型训练中的优点。在[47]中，Yang et al.提出了一种分层递归的GAN算法，该算法将图像的背景和前景分别生成，然后进行拼接，得到一幅完整的细粒度图像。在语义上控制syn-对于大尺寸的图像，常用的策略是执行生成器的潜在空间的固有解纠缠Chen等人[8]提出了一种InfoGAN模型，通过对GAN的训练过程施加互信息规则化来发现沿着这个方向，Singh等人[37]开发了一种分层解纠缠方法，称为FineGAN。将不同的变量并入不同的生成阶段以与所发现的属性相关联。此外，Ben- ny和Wolf[5]和Li等人[32]通过对更多变异因素进行建模并增强生成能力来扩展FineGAN。SSC-GAN和上述基于GAN的方法之间的关键区别在于任务设置和建模技术：（1）我们专注于半监督细粒度图像合成，而现有的细粒度生成模型[4，37，5，32]基于监督或无监督训练策略。(2)FineGAN和变体的生成过程通常由多个阶段组成相比之下，SSC-GAN是单阶段可控生成模型，而不需要任何对象级注释。(3)一些有效的正则化器被应用到解开的变化的因素，这样我们就可以操纵的合成图像的语义。然而，通用半监督生成模型[31，15，14，33]不具备这种能力。3. 该方法在半监督设置中，观察到大量未标记数据U此外，存在少量的具有LU，其中每个实例的类标签可用。考虑到细粒度图像合成过程通常由超出对象类别的多个因素确定，有必要考虑与类语义不相关联的其他因素。在该模型中，我们考虑类无关的内容，跨类属性和类语义的变化的因素我们的目标是条件生成建模，其中图像生成器学习将因素与不同变量相关联。除了显式控制图像合成之外，合成的数据可以更好地匹配真实数据的统计数据。3.1. 概述在SSC-GAN中，图像生成由类独立变量b、跨类变量z和类变量yz控制。为了将变量与感兴趣的特定语义相关联，我们将模型的组成网络定义如下：生成器G：（z，b，yz）xz合成以变量为条件的图像;编码器M：xz将图像映射到G的潜空间;分类器C：xzyz推断图像的类别标签;鉴别器D ziden-9267DxbAdv·BL··Dz··.·zDxyL=EAdv2--{}S·L证明从先验分布采样并由M生成的z;以及另外两个鉴别器Dxb和Dxy分别区分真实实例与不具有和具有类标签的伪实例我们在M和Dz之间以及G和Dxb，Dxy之间进行对抗训练，以匹配真实和虚假的数据分布。SSC-GAN旨在从Lu学习变量本质上表示什么语义。3.2. 条件图像合成生成器G具有输入变量z和两个侧输入变量b和yz。令x/z表示图像合成。SSC-GAN。这两种方法都不同于一般的类条件图像合成方法。更具体地，匹配真实数据和合成数据的边缘分布对于解决这些问题是有用的，因为我们可以使用真实训练数据的整个集合来学习与类无关的内容和跨类属性。例如，不同种类的鸟类有着相似的生活环境、形状和姿势。为此目的，引入DXb来判断图像是来自真实数据还是由G，并且对抗损失Ladv被公式化如下：由来自可变三重态（z，b，yz）的G确定大小，公式表示如下：LDxb=Ezp0[log（1−Dxb（xz））]x，G（z，b，y），（1）+Exp数据[log（1−Dxb（x~））]（五）z z+Exp数据 [logDxb（x）]，其中z是从先验分布p0 中采样的。简单地，类独立和类标签码b和yz我们还可以合成另一种类型的图像，如下所示：x~，G（M（x），b，yz），（2）其中DXb（）表示图像来自真实数据的估计概率另一方面，预测头Hb建立在DXb之上，并且在给定DXb的特征的情况下学习预测合成数据的代码b。我们将Hbsem其中，真实图像x被映射到GLb=Ezp0[（b，Hb（fDx b（xz））]+Exp数据[（b，Hb（fDxb（x~））]，（六）n_w图像x~连同随机指定的b和y_z。为了确保x ~ 的质量与x ~z 一样好，需要M（x）的分布与p ~0 匹配。为此，我们采用对抗训练策略，其中Dz被训练以识别从p0采样并由M生成的z，而M被训练以欺骗Dz。诉讼辩护训练损失Ladv定义如下：Adv其中fDXb（）表示与DXb的最后隐藏层相关联的特征，Hb（）表示所有可能b值上的估计概率分布，并且是交叉熵函数。最小化sem导致b和合成图像之间的互信息最大化，使得b被强制以无监督的方式与类别无关的内容相关。为了匹配每个类的真实数据的统计量，G还LDz=Exp数据[log（1 −Dz（M（x）]（三）与Dxy竞争，这是用来区分真正+Ezp0[logDz（z）]，其中，p_data表示真实图像的分布，并且Dz（）表示从p 〇采样的潜码的预测概率。图像从假的，条件上给定的类标签。在我们的设置中，只有一小部分真实图像被标记。当将它们馈送到Dxy中时，它们的标签被确定如下：3.3. 控制因子为了鼓励M捕获跨类属性，我们执行y=label（x），如果x被标记，xone-hot（C（x）），否则，（七）明确地在x和x~的潜在码之间施加约束，以及相应的一致性损失cons的公式如下：其中C（）表示分类器C对未标记图像的预测类概率分布。我们将另一个对抗性训练损失Ladv公式化如下：缺点zxp数据 [M（x）−M（x~）2]。（四）LDxy=Ezp0[log（1−Dxy（yz，xz））]最小化M（x）和M（x~）之间的一致性对于从z解开b，y，z是有益的，因为它们的潜码来自原始图像，而不管变量。+Exp数据[log（1−Dxy（yz，x~））]+Exp数据[log D xy（y x，x）]。（八）9268DxyL其他变量的影响。考虑到标记数据的有限性和细粒度类之间的区别可能很小的问题，我们将两个鉴别器Dxb和Dxy引入到最小化adv迫使G合成不同的图像，这些图像与每个类上的真实图像难以区分由于在Dxy中嵌入了类别标签，因此它专注于识别指定类别的真实图像和合成图像，并且9269L=E2·y×个×个semyy------L+ L扫描电子显微镜中心--··y02数据LL所学习的特征对于反映类别之间的区别不一定有效为了提高类可分性，我们结合对比约束以如下正则化Dxy的特征空间：4. 实验我们进行了大量的实验，以评估性能的SSC-GAN在解开因素的变化，捕捉类语义，并减少依赖。Cntryx，x′p 数据 [max（φ（x，x′）-φ（x，x~）+m，0）]，（9）通过与最新技术水平进行比较，证实了标记数据yx=yx′哪里φ（x，x′）=fDx y（x）−fDxy（x′），（10）f Dxy（）表示在类标签嵌入之前与D x y的隐藏层相关联的特征，并且m表示将正对（x，x′）与n个正对（x，x~）分开的边距。与Dxy相比，分类器C具有不同的视角来验证合成大小的图像的类语义。为了确保合成的图像具有精确的类语义，我们进一步要求它们可以由C正确识别，相应的评估损失Lsem公式如下：L= Ezp[（yz，C（xz）]+ Exp[（yz，C（x~）]。（十一）在生成的图像的质量被增强的程度方面，生成模型4.1. 实验装置数据集。实验在不同的细粒度图像数据集上进行：[42][46][47][48][49][4 CUB包含来自200个鸟类类别的分辨率为 128 128 的约 6 K/6 K 训练 / 测试图像。FaceScrub 是一个人脸数据集。FS-100 由来自FaceScrub的100个最大类别的分辨率为64 64的约13K/2K训练/测试图像组成[35]。在斯坦福-汽车，有196个汽车类和大约8 K/8 K大小为128×128的图像用于训练/测试。包含cntr和sem促进类的可分性，这反过来又有利于真实数据和合成数据之间的类条件分布匹配3.4.模型训练SSC-GAN的所有组成网络通过对抗训练进行联合对于M和G，总损失函数由与三个鉴别器Dz、Dxb、Dxy相关联的三个对抗性训练损失项和与三个变量z、b、y相关联的三个正则化项组成，并且相应的公式表示如下：半监督设置。除非另有说明，否则我们随机采样2.8K、2K和4K训练图像以用作标记数据，其余图像未标记，分别用于CUB、FS-100和Stanford-Cars上的半监督学习。实作详细数据。我们使用 PyTorch 实现了 SSC-GAN ，硬件包括 Intel Core-i7 CPU 和 NVIDIA TitanRTX GPU。所有的组成网络都是从头开始联合优化的。训练时期的数量被设置为500，并且在每个批次中存在16/16/16个标记/未标记/合成的图像。我们采用Adam优化器[24]，学习率为g=0。0002和动量参数β1=0。5和最小值Ladvv+Lcons+Ladvv+L高级 +Lsem+Lsem。（十二）β2=0。999 方程（Eq.）(9)设置为M，GDzzDx bDx yb y0.5. 我们发现模型的性能是比较稳定的为了与M、G竞争，鉴别器的优化公式如下所示：当M1。我们还采用相等的加权因子的损失项方程。（12-14）没有沉重的调整。Maxadvadv+L高级 -L-L（十三）基线。为了验证所采用的im的有效性-Dz，Dx b，Dx yDzDx bDx yb y证明技术，我们建立了一个基线模型，它为了提高C的性能，两种类型的合成数据x，z，x~也用于优化C以及标记数据，并且我们将优化问题公式化如下：基于Triple-GAN [31]，并且在没有变量解缠和相关正则化的情况下执行通用类条件图像生成。为了公平比较，我们采用与SSC-GAN相同的骨干架构。minExp[（yx，C（x））+（yz，C（x~）]C评估方案。我们评估合成质量数据x被标记InceptionScore（IS）[36]和Fre'chetInception的术语+Exp数据[KL（C（x）||C（x））]+Ezp0[（yz，C（xz）]，（十四）距离（FID）[19]。我们还测量了生成的图像与每个类的真实图像的统计数据相匹配，并报告类的FID其中KL（）表示Kullback-Leibler散度，以测量C的预测与其自己的聚合网络C之间的差异。由于C通常提供比C更可靠的预测，因此它可以用于正则化网络上的标记和未标记的数据。（cfID）。为了进一步验证生成的图像的类语义，我们采用一个独立的分类器，这是预先训练的充分监督，推断其类标签。在生成过程中指定的类标签被用作地面实况来计算识别精度（RA）。9270L(a)CUB（b）FS-100（c）Stanford-Cars图3.代表性图像由具有变化的变量z、b和yz的SSC-GAN合成。4.2. 可控图像合成我们首先评估的SSC-GAN的图3中所示的合成图像展示了所提出的方法控制图像语义的效果。结果表明，三个表1.CUB上基线模型和变体的结果方法FID↓cFID↓ IS↑RA↑基线82.87 196.99 4.42±0.0711.04+类语义注册50.35 157.97 4.45±0.0390.43+ D xb&b -基于Reg. 30.48 113.42 4.59±0.0592.49+M&x~-basedR例如 20.03101.584.68±0.04 九十七点八五改善-62.84-95.41 +0.26 +86.81变量能够与我们的内部语义相关联。兴趣，我们发现相关的语义是人类可解释的。在CUB和Stanford-Cars上，变量z/b/yz控制对象形状和姿势/背景/对象外观。在FS-100上，变量z/b/yz编码面部表情和姿势/图像风格/人4.3. 模型分析模型组件的有效性。我们定量调查什么对基线模型和SSC-GAN之间的性能裕度有在本实验中，基线模型在以下阶段逐渐增强下订单：类语义正则化Lcntr和(a) RA曲线（b）合成图像图4.Baseline和SSC-GAN在特定类别鸟类图像合成中的比较(a)识别精度semy的合成图像。（b）通过以下方式生成的代表性图像y，鉴别器Dxb和基于变量b的正则化，以及编码器M和基于样本x~的正则化。所得模型的性能根据表1中的四个度量进行类语义规则化后，RA从11.04%提高到90.43%关于CUB在图4中，我们还绘制了训练过程中代表性类别的合成图像的RA分数可以发现，SSC-GAN能够有效地转换为更好的解决方案。因此，SSC-GAN合成的图像此外，包含Dxb和M导致FID/cfID降低约30/56点。结果表明，该技术是有效的，在提高类的语义，现实主义，和合成数据的多样性。编码跨类内容。以获得更多见解基线（上排）和SSC-GAN（下排）。在编码器M和相关联的正则化上，我们可视化合成图像x~，其基于真实参考图像x的潜伏码M（x）和随机指定的b和yz。图5示出了合成图像可以具有与参考图像不同的背景和类别语义，但是它们之间的形状和姿态是相似的。结果表明，M编码的内容独立于背景和类语义，这是一致的变量z控制。与独立于类的内容关联。为了给变量b赋予意义，我们在鉴别器D x b的顶部加入预测头Hb来预测值b，给定合成图像。我们采用了一种课堂活动-9271S--| |||图5.具有真实参考图像（第一列）的潜码和变化的变量b和yz的合成图像。在图6中，我们观察到Hb对背景（热点区域）施加更多的关注。改进类条件分布匹配。此外，我们示出了与类条件鉴别器Dxy的隐藏层相关联的特征fDxy 的t-SNE [41]嵌入，给定真实标记图像和合成图像。为了简单起见，我们随机选择5个CUB类来可视化图中的数据分布7.我们发现，SSC-GAN在每个类上对齐真实数据和合成数据方面的表现优于基线。4.4. 与现有技术的我们在SSC-GAN和许多竞争的基于GAN的生成模型之间进行了比较，没有任何高级GAN无监督模型无监督竞争方法包括SN-GAN [34]，FineGAN [37]和MixN-Match [32]作为代表性的通用和细粒度生成模型。无监督模型在与SSC-GAN相同的数据上进行训练细粒度生成模型的性能远远优于SN-GAN，特别是在CUB上。与FineGAN和MixNMatch相比，SSC-GAN的优势在CUB/FS-100/Stanford-Cars上，SSC-GAN 的 FID 得分达到 20.03/20.65/39.02 ，比MixNMatch低约26/5/7分。如图8所示，我们的模型合成的图像具有比FineGAN更高的视觉质量这表明合成质量可以大大受益于对象类别中的有限半监督模型我们还与一些半监督GAN进行了比较：三重GAN [31]、三角GAN [15]、增强TGAN [46]和R3-CGAN [33]。所有竞争模型都在与SSC-GAN相同的半监督设置和实验在测试数据集中，合成FS- 100图像是一项相对容易的任务，并且F1 D分数为图6.在给定真实图像（上行）的情况下，可视化预测头部Hb聚焦的位置（下行）的示例。(a) 基线（b）SSC-GAN图7.5类CUB上真实标记实例和合成大小实例的t-SNE可视化合成数据从先前的最佳结果25.28（通过R3-CGAN实现）下降到20.65。在所有三个数据集上，SSC-GAN能够实现比R3-CGAN更低的FID分数和更高的IS/RA分数在CUB上，R3-CGAN的性能我们认为，类语义和其他变化因素的解开有利于捕获细粒度的类别和增加合成数据的多样性。4.5. 标签数据现有的半监督生成模型很少考虑监督的层次。为了验证所提出的方法对该因素具有鲁棒性，我们将标记数据的比例定义为ρ=L/LU，并在ρ限制为0的CUB上进行实验。2，0。3，0。四，零。5，1（ρ= 1表示完全监督）。图9表明，SSC-GAN在所有监管级别下都大大超过了基线模型特别地，基线模型的性能随着ρ <0急剧下降。4，而所提出的方法执行稳步。这表明所采用的改进策略在降低对标注数据的依赖性方面是有效的。此外，我们在完全监督的设置下训练SSC-GAN，以提供半监督生成学习的上限在表3中，我们发现SSC-GAN的发电性能可以接近具有全Sup的SSC-GAN的发电性能。'.9272∗表2. SSC-GAN和最先进的非（半）监督GAN模型在细粒度图像合成中的比较。表示在与半监督模型相同的数据上训练无监督模型，而不使用标记数据的类标签CUB FS-100 Stanford-Cars方法FID↓IS↑RA↑FID↓IS↑RA↑FID↓IS↑RA↑[34]第三十四话160.094.21±0.05-41.261.66±0.05-53.202.80±0.05-FineGAN* [37]46.684.62±0.03-24.631.76±0.02-45.722.85±0.04-[32]第三十二话45.594.78±0.08-25.631.71±0.05-45.942.60±0.05-三重GAN [31]140.943.94±0.069.3591.051.45±0.0336.21114.122.45±0.064.43[46]第四十六话133.574.17±0.039.1657.581.57±0.0262.69105.202.43±0.053.48Triangle-GAN [5]96.424.36±0.059.0135.491.71±0.0494.9961.442.77±0.104.74R3-CGAN [33]88.624.43±0.068.6025.281.73±0.0274.3044.573.05±0.045.48SSC-GAN20.034.68±0.0497.8520.651.82± 0.0396.8639.023.10± 0.0387.45图9.监管水平对CUB最终生成绩效表3. SSC-GAN在半监督和监督设置中的结果。CUB FS-100Stanford-Cars方法FID↓ RA↑ FID↓ RA↑ FID↓ RA↑基线82.8711.0430.6388.3050.785.32SSC-GAN 20.0397.8520.6596.8639.0287.45含全套辅助设备十八点三十四分98.5416.2898.3537.4889.54(a) FineGAN（b）SSC-GAN图8.FineGAN和SSC-GAN在CUB、FS-100和Stanford-Cars上的视觉比较5. 结论我们专注于半监督场景中细粒度对象类别的类条件生成建模，其中只有少量的标记数据可以被访问。为此，我们提出了一个单级控制标签的GAN在本文中。图像生成是以类独立变量、跨类变量和类变量为条件的，以模拟变化的因素。我们扩展了通用半监督GAN的结构，并应用有效的正则化器来减少模型对标记数据的依赖，以及增强类可分性。从正则化拟合，变量被解开并与相应的图像属性相关联。我们的设计不仅使图像生成过程控制这不仅是可控制的，而且还有益于真实数据和合成数据的类条件分布的匹配。致谢这项工作得到了中国国家自然科学基金（项目号：200000000）的部分资助。62072188、62072189），部分由香港特别行政区研究资助局（项目编号：城市大学11201220）及部分由广东省自然科学基金（项目编号：2019A050510010、2020A1515010484）。引用[1] Rameen Abdal ， Yipeng Qian ， and Peter Wonka. Im-age2StyleGAN：如何将图像嵌入StyleGAN潜在空间？在Proc.国际计算机视觉，2019年。9273[2] Rameen Abdal ， Yipeng Qian ， and Peter Wonka. Im-age2StyleGAN++：如何编辑嵌入的图像？IEEE计算机视觉和模式识别会议，2020。[3] Martin Arjovsky Soumith Chintala 和 Leon Bottou 。Wasserstein生成对抗网络在proc 2017年国际机器学习会议。[4] Jianmin Bao，Dong Chen，Fang Wen，Houqiang Li，and Gang Hua.CVAE-GAN：通过非对称训练生成细粒度图像。在Proc.国际计算机视觉会议，2017。[5] 亚尼夫·本尼和里奥·沃尔夫。OneGAN：条件图像生成、前向分割和细粒度聚类的同时无监督学习。欧洲计算机视觉会议，2020年。[6] 安德鲁·布洛克杰夫·多纳休凯伦·西蒙尼安用于高保真自然图像合成的大规模GAN训练。在Proc。学习代表国际会议，2019年。[7] 蔡磊，高宏阳，季水旺。多级可变自动编码器，用于从粗到精的图像生成。在proc 国际数据挖掘会议，第630- 638页，2019年。[8] Xi Chen，Yan Duan，Rein Houthooft，John Schulman，Ilya Sutskever，and Pieter Abbeel.InfoGAN：通过信息最大化生成式对抗网络进行可解释的表示学习在Proc.神经信息处理系统，2016年。[9] 作者：Chen Xi，P.Kingma，Tim Salimans，Yan Duan，Pra- fulla Dhariwal，John Schulman，Ilya Sutskever，andPieter Abbeel.变分有损自动编码器。在proc 2017年国际学习表征会议。[10] 陈卓，王超越，博远，陶大成。人偶师甘：具有语义感知外观变换的任意肖像动画。在proc IEEE计算机视觉和模式识别会议，2020年。[11] Yunjey Choi，Minje Choi，Munyoung Kim，Jung-WooHa，Sunghun Kim，and Jaegul Choo. StarGAN：用于多域图像到图像翻译的统一生成对抗网络。在Proc. IEEE计算机视觉和模式识别会议，第8789-8797页[12] Yunjey Choi，Youngjung Uh，Jaejun Yoo，Jung-WooHa.StarGAN v2：用于多个领域的多样化图像合成。在Proc. IEEE计算机视觉和模式识别会议，2020年6月。[13] Zhijie Deng ， Hao Zhang ， Xiaodan Liang ， LuonaYang，Shizhen Xu，Jun Zhu，and Eric P.邢结构化生成对抗网络。在proc 神经信息处理系统，2017。[14] 董金浩和佟林。MarginGAN：半监督学习中的在proc神经信息处理系统，2019。[15] Zhe Gan，Liqun Chen，Weiyao Wang，Yunchen Pu，Yizhe Zhang ， Hao Liu ， Chunyuan Li ， and LawrenceCarin.三角形生成对抗网络。神经信息处理系统，2017年。[16] Lianli Gao ， Junchen Zhu ， Jingkuan Song ， FengZheng，and Heng Tao Shen. Lab2Pix：用于无监督图像合成的标签自适应生成对抗网络 Proc. 2020年ACM多媒体国际会议。[17] Ian J. Goodfellow、Jean Pouget-Abadie、Mehdi Mirza、Bing Xu 、 David Warde-Farley 、 Sherjil Ozair 、 AaronCourville和Yoshua Bengio。生成性对抗网。在proc 神经信息处理系统，2014。[18] 顾书阳、包建民、浩阳、董晨、方文、卢远。使用条件GAN进行面具引导的肖像编辑在proc IEEE计算机视觉和模式识别会议，2019年。[19] Martin Heusel，Hubert Ramsauer，Thomas Unterthiner，and Bernhard Nessler.由两个时间尺度更新规则训练的GAN收敛到局部纳什均衡。神经信息处理系统，2017年。[20] Songyao Jiang，Zhiqiang Tao，and Yun Fu. 使用对抗网络进行几何可编辑的人脸图像翻译。IEEE Transactionson Image Processing，30：2771- 2783，2021。[21] Tero Karras ， Timo Aila ， Samuli Laine ， and JaakkoLehtinen.GAN的逐步增长，以提高质量，稳定性和变化。在proc 2018年学习表征国际会议。[22] Tero Karras Samuli Laine和Timo Aila一个基于样式的生成器架构，用于生成对抗网络。在Proc. IEEE计算机视觉和模式识别会议，2019。[23] Tero Karras ， Samuli Laine ， Miika Aittala ， JanneHellsten，Jaakko Lehtinen，and Timo Aila.分析和改进StyleGAN的图像质量。IEEE计算机视觉和模式识别会议，2020。[24] 迪德里克山口金玛和吉米·雷巴。亚当：随机优化的一种方法在 Proc. International Conference on LearningRepresentation，2015年。[25] Diederik P. Kingma ， Shakir Mohamed ， Danilo J.Rezende和Max Welling。深度生成模型的半监督学习。在proc 神经信息处理系统，2014。[26] Diederik P. Kingma，Tim Salimans，Rafal Jzefowicz，X-i Chen，Ilya Sutskever，and Max Welling.用逆自回归流改进变分自编码器。在 Proc. Neural InformationProcessing Systems，第4736- 4744页[27] Diederik P. Kingma和Max Welling。自动编码变量贝叶斯。载于arXiv：1312.6114，2013。[28] Jonathan Krause，Michael Stark，Jia Deng，and Li Fei-Fei. 用于细粒度分类的 3D 对象表示。在 Proc.IEEEWorkshop on 3D Representation and Recognition ， 2013中。[29] KarolKurach，MarioLucˇic´，XiaohuaZhai，MarcinMichals-ki，and Sylvain Gelly. gans中正则化和规范化的大规模研究。在机器学习国际会议上，第3581-3590页[30] Cheng-Han Lee，Ziwei Liu，Lingyun Wu，and Ping Luo.MaskGAN：面向多样化和交互式面部图像管理。IEEE计算机视觉和模式识别会议，2020。9274[31] 李崇轩，徐坤，朱军，张波。三代对抗网。InProc.神经信息处理系统，2017。[32] Yuheng Li，Krishna Kumar Singh，Utkarsh Ojha，andYong Jae Lee. MixNMatch：用于条件图像生成的多因子解纠缠和编码。IEEE计算机视觉和模式识别会议，2020。[33] Yi Liu，Guangchang Deng，Xiangping Zeng，Si Wu，Zhi- wen Yu，and Hau-San Wong.用于半监督生成学习的CGAN的正则化判别IEEE计算机视觉和模式识别会议，2020。[34] Takeru Miyato，Toshiki Kataoka，Masanori Koyama，and Yuichi Yoshida.生成式对抗网络的谱归一化在proc2018年学习表征国际会议。[35] Hong-Wei Ng和Stefan Winkler。一种数据驱动的清理大型人脸数据集的方法。在 Proc.IEEE InternationalConference on Image Processing，2014中。[36] Tim Salimans 、 Ian Goodfellow

下载后可阅读完整内容，剩余1页未读，立即下载