标号维数解开VAE潜在空间及其在生成高质量图像中的应用

87 浏览量更新于2023-10-18 收藏 1.73MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

12192用标号相关/无关维数解开VAE的潜在空间孙志林郑丽华东师范大学51171214020@stu.ecnu.edu.cnsunli@ee.ecnu.edu.cn摘要VAE需要标准高斯分布作为潜在空间中的先验。由于所有的代码往往遵循相同的先验，它往往遭受所谓的为了避免这种情况，本文引入了隐码的类特定分布.但不同的cVAE，我们提出了一种方法解开的潜在空间的标签相关和不相关的尺寸，zs和zu，为一个单一的输入。我们采用两个独立的编码器分别将输入映射到zs和zu，然后将级联码交给解码器重构输入。标签无关码zu代表了所有输入的共同特征，因此它们受到标准高斯的约束，其编码器采用类似VAE的摊销变分推理方式进行训练。而zs假设遵循高斯混合分布，其中每个分量对应于特定的利用标签监督的全局随机方法对zs编码器中高斯分量的参数在理论上，我们证明了该方法实际上等价于在zs和类标签c的联合分布上增加一个KL发散项，它可以直接增加zs和类标签c之间的互信息C.我们的模型也可以通过在像素域中添加一个像素来扩展到GAN，这样它就可以生成高质量和多样化的图像。1. 介绍学习用于结构化图像数据的深度生成模型是困难的，因为该任务不是简单地对诸如分类的多对一映射函数进行建模，而是通常需要为从简单分布采样的类似代码生成不同的输出。此外，高维空间中的图像x往往位于复杂流形中，因此生成模型需要捕捉底层数据分布p（x）。基本上，变分自动编码器（VAE）[33，19]和生成对抗网络（GAN）[12，24]是结构化数据生成的在VAE，en-编码器q φ（z|x）将数据x映射到潜在空间中的代码z。解码器，由p θ（x）表示|z）被给予从编码器指定的分布采样的潜在码z，并且试图重建X。VAE中的编码器和解码器主要基于数据反射损失一起训练。同时，它要求正则化分布q φ（z|x）简单（例如高斯），基于q（z）之间Kullback-Leibler（KL）散度|X）和p（z）=N（0，I），使得在隐空间中的采样变得容易。VAE的优化是相当稳定的，但结果是模糊的。主要是因为由q φ（z）定义的后验|x）不够复杂，无法捕捉真实的后验，被称为“后塌陷”另一方面，GAN将数据生成任务视为生成器G（z）和GAND（x）之间的最小/最大博弈。从训练中计算出的对抗性损失使生成的图像更逼真，但其训练变得更不稳定。在[9，21，27]中，VAE和GAN被集成在一起，以便它们可以彼此受益。VAE和GAN都以无监督的方式工作，无需在生成的图像上给出任何标签条件。相反，条件VAE（cVAE）[36，3]通过显示编码器和解码器的标签c来扩展它它学习以给定标签为条件的数据分布。因此，编码器和解码器变为|x，c）和p θ（x|z，c）。类似地，在条件GAN（cGAN）[8，17，32，29]中，将标号c给予生成器G（z，c）和RQD（x，c）。理论上，将标签c馈送到VAE中的编码器或VAE或GAN中的解码器有助于增加生成的x和标签之间的互信息C.因此，它可以提高生成图像的质量。本文研究了两个独立编码器的VAE系统中的图像生成问题对于单个输入x，我们的目标是将编码器计算的潜在空间代码z分解为标签相关维度zs和不相关维度zu。我们强调zs和zu以及它们相应的编码器之间的区别。对于zs，由于标签c在训练期间是已知的，因此它应该更准确和具体。在没有任何标签约束的情况下，zu应该是通用的。具体地说，这两个编码器在其后验分布q φs（zs）上受到不同先验的约束|X）和12193q φu（zu|X）。与VAE或cVAE类似，其中完整代码z是标签无关的，zu的先验也选择N（0，I）。但与以往的工作不同，先验p（zs）变得复杂，以捕捉标签相关的分布。从解码器这里，cVAE和cGAN的区别在于它们使用固定的独热编码标签，而我们的工作应用zs，这被认为是可变的软标签。请注意，训练我们的模型有两个阶段。首先，zs的编码器在标签c的监督下接受分类任务的训练。这里采用了[39]中提出的高斯混合交叉熵损失而不是softmax交叉熵损失，因为它累积了具有相同标签c的样本的均值μc和方差σc，并将其建模为高斯N（μc，σc），因此zs <$N（μc，σc）。第一阶段指定标签相关分布。在在第二阶段，基于重构损失以端到端的方式联合同时，zs <$N（µc，σc）和zu<$N（0，I）也被考虑。本文的主要贡献在于：（1）对于编码器的单个输入x，我们提供了一种算法来在VAE中将潜在空间分解为标签相关和不相关的维度以前的作品，如[14，4，35]解开AE中的潜在空间，而不是VAE。因此，从他们的模型中进行推断是不可能的此外，[26，4，22]要求至少两个输入用于训练。（2）发现高斯混合损失函数是一种较好的先验分布参数估计方法，并且在VAE框架下可以进行优化。(3)我们给出了理论推导和各种详细的实验来解释我们工作的有效性。2. 相关作品两种类型的结构化图像生成方法是VAE和GAN。VAE [19]是一类由p θ（x|和q φ（z|x），它采用变分推理的思想，以最大限度地提高证据下限（ELBO），如方程所示。1.一、log p（x）≥E qφ（z|x）（log p θ（x|z））−DKL（q φ（z|x）||p（z））（一）上面的右边是ELBO，这是最大似然的下限。在VAE中，一个可微的编码器和解码器被连接起来，并且它们被参数化分别为φ和θ。E qφ（z|x）（logp θ（x|表示端到端重构损失，并且KL（q φ（z））表示端到端重构损失，|x）||p（z））是编码器的输出分布q φ（z）|x）和先验p（z），其通常由标准正态分布N（0，I）建模。注意，VAE假设后验q φ（z|x）是高斯的，μ和σ对于每个输入x由en估计。编码器这种策略被称为摊销变分推理（AVI），它比随机变分推理（SVI）更有效[16]。VAE的优点是其损失易于优化，但简单的潜空间先验可能无法捕获复杂的数据模式，这往往导致潜空间模式崩溃。另外，VAE编码的代码是难以解释的.因此，许多工作都集中在这两个方面来改进VAE。cVAE[36]添加标签向量作为编码器和解码器的输入，因此潜在代码和生成的图像以标签为条件，并可能防止潜在崩溃。另一方面，β- VAE [15，7]是一种用于潜在空间解纠缠的无监督方法它引入了一个简单的超参数β来平衡方程中的两个损失项。1.提出了一种VAE无限混合方案，并将其应用于半监督生成[1].它使用多个VAE并将它们组合为非参数混合模型。在[18]中，提出了半摊销VAE它将AVI与VAE中的SVI相结合。这里，SVI 估计整个训练集上的分布参数，而 AVI 在transmartVAE中给出了单个输入的估计。GAN [12]是另一种对数据分布pD（x）进行建模的技术。它从一个随机的zp（z）开始，其中p（z）是简单的，例如高斯，并在Dφ（·）的帮助下训练一个变换网络gθ（z），使得pθ（z）逼近pD（x）。后来的作品[31，25，2，13，28]试图稳定GAN传统的GAN以完全监督的方式，而cGAN [17，32，29，6]旨在生成以标签为条件的图像。在cGAN中，标签作为生成器和鉴别器的输入给出，作为分布的条件。像AE或VAE这样的在ALI [10]和BiGAN [9]中，编码器将x映射到z，而解码器将其反转。该算法采用z和x对，并被训练以确定它是来自编码器还是解码器。在VAE-GAN [21，23]中，VAE类似的想法也适用于[3]中的cVAE。VAE-GAN也适用于一些特定的应用，如[4，11]。由于代码z可能会影响生成的数据，因此一些工作试图对其效果进行建模并解开z的维度。InfoGAN [8]通过最大化c与合成数据gθ（z，c）。它的生成器输出g θ（z，c），由可编程逻辑器件φ（·）检验。Dφ（·）也试图重构码c。在[26]中，潜在维度是不确定的。基于特定因素和非特定因素的VAE纠缠但它的编码器需要多个输入，解码器将来自不同输入的代码[14]中的工作通过采用单个输入来修改[26]。为了稳定训练，它的模型是在AE而不是VAE中构建的，因此它12194该目标可重写为（在附录中详细推导）。∫∫logp（x）= logΣp（x，zs，zuC，c）dzsdzu≥Eq（z s|x），qφ（z u|x）[log pθ（x|zs，zu）]— D KL（q φ（zu|x）||p（zu））— D KL（q）（zs，c |x）||p（zs，c））（二）图1. 网络架构。在潜空间中，我们解开了类相关维数ZS和类无关维数ZU. 编码器s将输入图像x映射到zs，并强制zs进行良好分类，同时遵循具有学习均值μc和协方差μc的高斯混合分布。同时，编码器u从x中提取zu，并将其推送以匹配标准高斯N（0，I）。对抗分类器被添加到z u的顶部以区分z u的类，而编码器u试图欺骗它。然后zs和zu被级联并馈送到解码器中以获得用于重构的x ′。在像素域中采用对抗训练，并在图像上添加一个训练器正向传递过程以实线绘制，虚线表示反向传播。逻辑推理[35，4，22]中的其他作品也内置了AE和两个以上的输入。此外，它们仅适用于特定的领域，如人脸[35，4]或图像到图像的翻译[22]，而我们的工作是建立在VAE中的，并且在更一般的情况下只需要一个输入。3. 该方法提出了一种基于VAE的图像生成算法，该算法将编码器分为两个部分，一部分编码标签相关信息zs，另一部分编码标签无关信息zu。zs是通过对分类类别标签的监督来学习的，并且需要遵循高斯混合分布，而zu希望包含与标签无关的其他公共信息，并且使其接近标准高斯N（0，I）。3.1. 问题公式化由方程式2，ELBO在我们的设置中变成了3个术语。第一项是负重构误差，其中pθ是由θ参数化的解码器。它测量潜在代码zs和zu是否具有足够的信息来恢复原始数据。实际上，重建误差Lrec可以定义为x和x′之间的l2损失。第二项作为标签无关分支推q φ（zu|x）来匹配先验分布p（zu），这在3.2节中详细说明。第三项匹配q（zs|x）类特定的高斯分布，其均值和协方差是在监督下学习的，我们将在3.3节中进一步介绍。3.2. 标记无关分支直觉上，我们希望将潜在代码z分解为zs和zu，并期望zu遵循与标签无关的固定先验分布。该正则化通过最小化q φ（zu）之间的KL散度来实现|x）以及如等式（1）中所示的先验p（zu）。3.更具体地，q φ（zu|x）是一个高斯分布，其平均值为μ和对角协方差是编码器upa的输出用φ表示。p（zu）被简单地设置为N（0，I）。因此，KL正则化项为：Lkl=DK L[N（μ，μ）||N（0，I）]（3）请注意，方程式3可以用一个封闭的形式表示，这是很容易计算。为了确保zu和zs中的良好解纠缠，我们在潜在空间中引入对抗学习，如AAE [24]中所述，以将标签相关信息从zu中驱动出来。为了做到这一点，在zu的顶部添加对抗分类器，该分类器被训练为对具有交叉熵损失的zu的类别进行第四章：ΣLadv=−Eq（z |x）I（c=y）log q ω（c|zu）（4）给定标记数据集Ds={（x1，y1），（x2，y2），· · ·，（x（N），y（N））}，其中x（i）是第i个图像，y（i）∈{0，1，· · ·，C−1}是CφuC其中I（c=y）是指示函数，qω（c）|zu）是对应的标签。C和N分别是类的数量和数据集的大小。VAE的目标是最大化等式中定义的ELBO1、使由对抗分类器pa输出的softmax概率，用ω表示。同时，编码器u被训练成欺骗分类器，因此目标分布在所有类别上变得均匀，即1。交叉熵损失是数据对数似然logp（x）也被最大化。关键想法是将完整的潜在代码z分割成标签相关的维度zs和无关维度zu，定义为Eq。五、μcμ2cLGMμ1Σμ3Cμ4μ5μ9编码器Szμ7μ6μ8μ10SLkl解码器L记录X编码器UzuX对抗分类器LadvC判别器LGDAdvLadvDLadvE12195Ladv=−ECΣ1logQ（c）|z）（5）表示zs完全反映了类c，但zu不。因此Eqφ（z u|x） CωuC12196CECDrd3.3. 标签相关分支受通用汽车亏损的启发[39]，我们预计zs将遵循高斯-当这种损失成为Ladv=−Ez<$N（0，I），z<$p（z）[log（ Dθ（ G（zs，zu），c））]sian混合分布，表示为Eq. 6，其中μc和GD使用sS D是类c的高斯分布的均值和协方差，并且p（c）是先验概率，其对于所有类别简单地设置为1为了简单起见，我们忽略zs的不同维度之间的相关性，因此假设zrc是对角的。Σ Σp（z）=p（z）|c）p（c）=N（z;μ，μ）p（c）（6）对于发电机。注意，这里G（zs，zu）是解码器，并且p（zs）在等式（1）中定义。六、3.5. 训练算法训练细节在算法1中示出的编码器s，由q_s建模，提取标签相关代码z_s。s s s c cC c编码器s使用LGM进行和Lrec，鼓励zs回想一下，在Eq中。2、q ∈（zs，c）之间的KL散度|x）和p（z，s，c）最小化。如果zs被公式化为高斯分布，其中它的δ→0和它的平均值zδs由编码器s输出，它实际上是狄拉克δ函数δ（zs−zδs），则KL偏差变成等式2中的李克利正则化项Llkd。7，这是证明在附录。这里µy和y是由标签y指定的均值和协方差。Llkd=−logN（zs;µy，y）（7）此外，我们希望zs包含尽可能多的标签信息，因此zs和类c之间的互信息被添加到最大化目标函数中。我们在附录中证明了使后验概率q（c）的交叉熵损失最小化是等价的|zs）和标签，这正是分类损失Lcls，GM损失如等式中所示。8.Σ依赖于标签并遵循学习的高斯混合分布同时，由qφ表示的编码器u旨在提取类无关码zu。它并且接近于N（0，I）。学习由ω表征的对抗分类器以使用Ladv对zu进行分类。然后，解码器pθ使用com生成重建图像，zs和zu的组合特征与损失Lrec.在训练过程中，采用了两阶段交替训练算法。首先，使用L GM更新编码器s，以学习先验p（z s）的均值μc和协方差μc|c）.然后，联合训练两个编码器和解码器进行图像重建，同时对zs和zu的分布进行估计考虑了3.6. 在半监督生成中的应用给定L个未标记的额外数据Du={x（N+1），x（N+2），· · ·，x（N+L）}，我们现在使用我们的Lcls = −Eq（zs|x）I（c = y）log q（c|zs）C半监督生成的体系结构，其中没有给出Du中x（N+i）的标号y（这里N（z）|μ，μ）p（y）（八）我们假设Du在同一个定义域中=−logΣS Y Y作为完全监督的D，但可以满足y（N+i）kN（z）s|µk，k）p（k）y（N+i）S∈ {0，1，···，C−1}，或超出预定义范围。这两项加起来形成GM损失方程。9.第九条。这里LGM最终用于训练编码器。LGM=Lcls+λlkdLlkd（9）3.4. 解码器和对抗性解码器换句话说，如果不存在的y（N+i）在预定义范围内，则其zs遵循与等式（1）中相同的高斯混合6.否则，zs应该遵循等式中定义的模糊高斯分布。11个国家。Σ编码器s输出的潜在代码zs和zu，编码器u首先级联在一起，然后进一步µt=p（c）µcCΣΣ（11）给解码器以通过x′重构输入x。这里Σσ2=p（c）σ2+（1）（2）（3）（p（c）µ）2解码器由p θ（x）表示|z），其参数为θtCc cC c c从l2重建误差Lrec中学习。合成更具体地说，Z期望遵循N（μ，μ）一个高质量的x′，我们还采用了对抗训练s t t在像素域中。具体地说，一个Dθd（x，c）其中µt和µt是所有参数类特定的高斯分布N（μ，μ）为：在其参数θd上进行对抗训练，用于im-c cc证明x′。这里，在D中使用标签c如[29]。的在Eq. 6. 这里，Σt是具有σ 2的对角矩阵θd2t对抗性训练损失的计算公式如下：10Ladv=−ExP[logDθ（x，c）]-Ez<$N（0，I），z<$p（z）[log（1 −Dθ（G（zs，12197zu），c））]作为其方差向量。 σc也是Σc因此，似然正则化项变为Llkd=−logN（zs;µt，t）。整个网络以端到端的方式使用总损失进行训练。注意在这个设置时，未提供标签y，因此LGM、Ladv和Ladv美国D（十）E C在训练过程中被忽略了。12198+++ECFEGDp suD D算法1我们提出的架构的训练过程。Require：φ，θ，ω，θ d 编码器s的初始参数，编码器u，解码器，zu以及z s的高斯分布的x; μc和μ c的初始均值和协方差; n gm，每个端到端迭代的L GM迭代次数;λ rec和λ kl是L rec和L kl的权重;一曰：而不收敛第二章：对于i=0到ngm，3：从数据集中对{x，y}批次进行4：zs←Encoders（x）.5：LGM←−logq（y|zs）−λlkdlogp（zs|y）6：←−−LGM该模型具有一定的灵活性，因此具有广泛的应用前景。4.1. 玩具实例本节在一个玩具示例上演示我们的方法，其中真实数据分布位于2D中，其中一个维度（x轴）与标签相关，另一个维度（y轴）与标签无关。假设分布是已知的。有3种类型的数据点，分别用绿色、红色和蓝色表示，属于3类。二维数据点及其相应的标签被赋予我们的模型进行变分推理和新的样本生成。为了比较，我们也为cVAE-GAN提供了相同的训练数据。两者相比，7：µc<$−−µcLGM，c∈[0，C−1]EL共享网络的类似设置。在我们的模型中8：c<$−−cLGM，c∈[0，C−1]9：结束10：从数据集中采样{x，y}批11：μ，μ←编码器u（x）12：Lkl←DKL[N（µ，）||N（0，I）]13：样本N（0，I）14：zu←2+µ15：L adv← −c1log q ω（c|zu）两个编码器都是具有3个隐藏层的MLP，并且里面有三十二，六十四，六十四个单元。在cVAE-GAN中，编码器是相同的，但它只有一个编码器。识别器是完全相同的，这也是一个MLP的3个隐藏层与32，64，和64个单位。 Adam被用作优化方法，其中0.0005的固定学习率被应用于两者。每个模型训练50个epoch，直到它们全部收敛。每个模型生成的样本如图2所示。16：L adv← −log q ω（y|zu）从图2中我们可以看到，两个模型都可以17：zs←Encoder（x）.18：Llkd<$−logN（zs;µy，y）19：x′←Decoder（zs，zu）捕获底层数据分布，我们的模型以相似的速度接近。我们的模型的优点是它倾向于生成不同的样本，而cVAE-GAN第20章：一个女人||x − x′||22f2以保存的方式生成样本，21：样本zpp（zs|y），zp<$N（0，I）S u22：x′←Decoder（zp，zp）23：Ladv← −logDθ（x，y）−log（1 −Dθ（x′，y））−不相关的尺寸在限定的值范围内4.2. 生成图像质量Dd dflog（1−Dθ（x′，y））dp在本节中，我们将我们的方法与其他一般方法进行比较。24：Ladv←−log（Dθ（x′，y））−log（Dθ（x′，y））GDdf+图像生成质量的自适应模型实验25：←−−（Lrec+λlkdLlkd）26：φ←+−−φ（Ladv+λklLkl+λrecLrec）27：ω←+−−<$ωLadv在两个数据集上进行：FaceScrub [30]和 CIFAR- 10[20]。FaceScrub包含来自530个不同身份的92k训练图像。对于FaceScrub，级联ob-在[38]中提出的+C对象检测器首次用于检测人脸28：θ←−−θ（Lrec+Ladv）29：θd<$+−−θLadv30：结束，而首先，然后基于[41]中提出的SDM进行人脸对齐。检测到的裁剪面部为调整为固定尺寸64×64。在训练过程中，Adam优化器的α=0。0005已使用超声波-参数λlkd、λkl和λrec被设置为0.1、10和1，N个像素N·Z·U4. 实验通过实验验证了该方法的有效性首先设计了一个玩具示例，以表明通过解开标签相关和不相关的代码，我们的模型能够生成比cVAE-GAN [3]不同的数据样本。然后，我们将在真实图像数据集上生成的图像的质量进行并对潜在空间进行了分析。最后，通过半监督生成和图像修复实验，分别这里，N像素是图像像素的数量，Nzu是zu的维数。由于我们的方法将标签用于训练，因此选择以标签为条件的流行生成网络，如cVAE [36]，cVAE-GAN [3]和cGAN [29]进行比较。对于cVAE、cVAE-GAN和cGAN，我们随机生成c通过首先对z= N（0，I）进行采样，然后将z和c的一个热向量连接起来作为解码器/生成器的输入。至于我们的，zs <$N（µc，σc）和zu<$N（0，I）被采样并组合用于解码器以生成样本。一些112199初始10个时代20个时代30个时代40个时代50个时代CVAE-GAN我们(a) 真实数据分布（b）生成分布图2.我们的模型和cVAE-GAN的玩具示例的结果我们显示了在不同时期的生成点(a) 真实样本（b）cVAE（c）cGAN（d）CVAE-GAN（e）我们的图3.不同模型的生成图像的可视化生成的图像在图3中可视化。结果表明，cVAE产生的样本是高度模糊的，cGAN遭受模式崩溃。cVAE-GAN和我们的方法生成的样本似乎具有相似的质量，我们参考两个指标，Inception Score[34]和类内差异[5]来比较它们。我们采用Inception Score来评估图像的真实感和类间差异。生成的图像接近y类的真实图像，应该有一个后验概率，概率p（y|x）具有低熵。同时，不同类别的图像应该具有高熵的边缘概率p（y）。因此，初始分数，公式为exp（ExKL（p（y|x）||p（y），当图像是真实的和多样的时得到高值。为了得到条件类概率p（y|x），我们首先在真实数据上训练一个具有Inception-ResNet-v1 [37]架构的分类器。然后，我们随机生成53k个样本（100面部磨砂CIFAR-10cVAE [36]9.553.01cGAN [29]10.026.27cVAE-GAN [3]16.756.99我们17.917.04表1.不同方法在两个数据集上的初始得分。详情请参阅4.2。分类器边际p（y）是通过对所有p（y|X）。结果列于表1中。我们强调，我们的方法将在一个类中产生更多的多样性样本。由于初始得分仅测量类间多样性，因此也应考虑样本的类内多样性。我们采用[5]中提出的度量，其测量生成的图像集合X中的所有对之间的平均负MS-SSIM[40]。FaceScrub的5 k个样本（每个类别500个）和CIFAR-10的5 k个样本，并将它们应用于预训练表2显示了cVAE-GAN的类间多样性以及我们在FaceScrub和CIFAR-10上的方法。面部磨砂CIFAR-1012200SSS面部磨砂CIFAR-10cVAE-GAN [3]0.01410.0136我们0.01570.0149表2.两个数据集上不同方法的类内多样性详情请参阅4.2。d（X）= 1−1帧内|X|2Σ（x′，x）∈X×XMS-SSIM（x′，x）（12）(a) 固定zu和改变zs。4.3. 解纠缠潜空间分析我们现在评估我们的建议上的未纠缠的潜在空间，这是由标签相关的维度zs和不相关的zu。假设类C的zS捕获标签C内的训练图像所特有的变化，而zU应当包含所有类的共同特征的变化它在这种情况下，我们直接sam-求一个zuN（0，I），并保持固定。然后，通过首先从N（0，I）中采样一系列随机码，然后将它们映射到类c，来获得类c的一组zs。具体来说，我们首先采样z1<$N（0，I）和z2<$N（0，I）。然后通过线性插值得到一组随机码z（i），即， z（i）=αz1+（1−α）z2，α∈[0，1].我们(b) 固定zs，改变zu。图4. 通过固定一个代码并改变另一个代码生成的图像。在（a）中，每行显示具有固定z u的某个类c的线性变换z s的样本。在（b）中，每行对应于具有类别c的固定z s的线性变换z u的样本。4.4. 半监督图像生成根据3.6节的详细内容，进行了半监督图像生成实验。我们发现我们的方法可以很好地学习解纠缠的潜在表征。将每个z（i）映射到类c，其中z（i）=z（i）<$σc+µc。最后当未标记的额外数据可用时，发送到每个z（i）与固定的zu并交给为了验证这一点，我们随机选择了200个身份，解码器以获得生成的图像。(2)固定zs和改变zu。与（1）类似，我们首先从学习的分布中采样azs <$N（µc，σc）然后通过在z1和z2之间线性插值得到一组标签无关zu，其中z1和z2是从N（0，I）中采样的。我们在FaceScrub上进行实验，图像如图4所示。在图4（a）中，每一行呈现由某一类别c的线性变换的zs和固定的zu生成的样本。所有三行共享相同的zu，每列共享相同的随机码z（i），并将其映射到不同的类c，其中z（i）= z（i）<$σc+ µc。它表明，随着zs的变化，不同的身份，例如，留胡子、起皱纹或卸妆。在图4（b）中，每行表示具有线性变换的zua固定zs的c类样本，并且每列共享相同的zu。我们可以看到，每一行的图像都随着姿势、表情和照明的变化而变化。这两个实验表明zs与c相关，而zu反映了更常见的标签无关特征。我们还对z u中的每个维度感兴趣，并通过改变其中的单个元素进行实验。我们在zu中发现了三个维度，即表情、仰角和方位角，它们反映了有意义的共同特征。从CASIA [42]数据集的图像，并删除它们的标签，形成未标记的数据集Du。请注意，Du中的身份与FaceScrub中的身份完全不同。在标记数据集Ds上训练整个网络之后，我们使用第3.6节中说明的训练算法在Du为了展示半监督生成结果，将两个不同的图像提供给编码器S和编码器U，以分别生成代码zs和zu。然后，要求解码器基于来自zs和zu的级联码合成新的图像。图6示出了使用身份具有以下特征的图像的面部合成结果：没有出现在D中。第一行和第一列显示一组分别提供zu和zs的原始图像而中间的图像是使用相应行的zs和相应列的zu很明显，身份取决于zs，而其他特征，如姿势，照明，表情则反映在zu上。这种半监督生成表明zs和zu也可以在标记的训练数据Ds之外的身份上解开，这提供了极大的灵活性用于图像生成。4.5. 图像修复我们的方法也可以应用于图像修复。这意味着，给定一个部分损坏的图像，我们可以12201(a) 表达式（b）仰角（c）方位角图5.通过固定每行的zs和改变zu中的单个维度生成的图像。在这里，我们发现三个不同的维度，z u，其直接导致（a）中的表达式、（b）中的仰角和（c）中的方位角的变化。图6.人脸合成使用的图像，其身份没有出现在D。提供zu和zs的原始图像在第一行和第一列中给出。使用zuzs的组合的合成图像被示出在相应的位置中。提取有意义的潜在代码，重建原始图像。请注意，在cVAE-GAN [3]中，应该提供一个额外的类标签c用于重建，而在我们的方法中它是不需要的。在实践中，我们首先损坏图像x的一些补丁，即右半部分，眼睛，鼻子和嘴巴以及下半部分区域，然后将这些损坏的图像输入到两个编码器中以获得zs和zu，然后重建。′结构化图像x使用组合的zs生成，zu。图像修复结果通过xinp=原始图像损坏的图像CVAE-GAN我们的原始图像损坏的图像 CVAE-GAN我们的(a)右半边脸（b）眼睛Mx′+（1−M）x，其中M是损坏补丁的二进制掩码。图7显示了图像修复的结果cVAE-GAN努力完成图像当涉及到大部分缺失区域（例如，右半部分和下半部分）或面的枢轴区域（例如，眼睛），而我们的方法提供了视觉上令人愉悦的结果。5. 结论原始图像损坏的图像CVAE-GAN我们(c) 鼻子和嘴原始图像损坏的图像CVAE-GAN我们(d) 下半工作面提出了一种基于VAE基线的潜在空间解缠算法。我们的模型学习两个独立的编码器，并将潜在代码划分为标签相关和不相关的维度。结合一个像素域的图像，我们证明了我们的模型可以生成高质量和多样性的图像，并且它也可以应用于半监督图像生成，其中具有不可见类别的未标记数据被提供给编码器。未来的研究将包括利用更多的标签构建更多的可解释的潜在维度，以及减少我们框架中标签相关和不相关代码之间的相关性。图7.图像修复结果。原始图像被不同的图案损坏，在右半部，眼睛，鼻子和嘴巴，以及下半部脸部。我们将我们的模型与cVAE-GAN进行了比较。确认本工作得到国家自然科学基金项目61302125和上海市自然科学基金项目 17ZR 1408500 的资助。孙立（sunli@ee.ecnu.edu.cn）是相应的作者。12202引用[1] M Ehsan Abbasnejad，Anthony Dick，and Anton van denHengel. 用于半监督学习的无限变分自动编码器2017年IEEE计算机视觉和模式识别会议（CVPR），第781-790页IEEE，2017年。[2] 马丁 ·阿乔对 ky ，苏米特 ·钦塔拉和 Le'onBottou 。Wasserstein gan 统计，1050：9，2017。[3] Jianmin Bao，Dong Chen，Fang Wen，Houqiang Li，and Gang Hua.Cvae-gan：通过非对称训练生成细粒度图像。在2017年IEEE国际计算机视觉会议（ICCV），第2764-2773页。IEEE，2017年。[4] Jianmin Bao，Dong Chen，Fang Wen，Houqiang Li，and Gang Hua.面向开集身份保持的人脸合成。在IEEE计算机视觉和模式识别会议论文集，第6713-6722页[5] 马坦·本·约瑟夫和达芙娜·温肖尔用于不同数据集的高斯混合生成对抗网络，以及图像的无监督聚类。arXiv预印本arXiv：1808.10356，2018。[6] Konstantinos Bousmalis 、 Nathan Silberman 、 DavidDohan、Dumitru Erhan和Dilip Krishnan。无监督像素级域自适应生成对抗网络。在IEEE计算机视觉和模式识别会议（CVPR），第1卷，第7页，2017年。[7] Christopher P Burgess 、Irina Higgins、Arka Pal、LoicMatthey、Nick Watters、Guillaume Desjardins和Alexander Lerchner。理解β-vae中的解缠。arXiv预印本arXiv：1804.03599，2018。[8] Xi Chen，Yan Duan，Rein Houthooft，John Schulman，Ilya Sutskever，and Pieter Abbeel. Infogan：通过信息最大化生成式对抗网络进行可解释的表示学习神经信息处理系统的进展，第2172-2180页，2016年[9] Je f fDonahue，PhilippK raühenbuühl，和Tr ev或Darrell。对抗性特征学习。 arXiv 预印本 arXiv ： 1605.09782 ，2016。[10] Vincent Dumoulin 、 Ishmael Belghazi 、 Ben Poole 、Olivier Mastropietro 、 Alex Lamb 、 Martin Arjovsky 和Aaron Courville。逆向学习推理。在ICLR，2017。[11] Yixiao Ge，Zhuowan Li，Haiyu Zhao，Guojun Yin，Xiaogang Wang，and Hongsheng Li.Fd-gan：姿势引导的特征提取gan，用于稳健的人员重新识别。在神经信息处理系统的进展，2018年。[12] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。在神经信息处理系统的进展，第2672[13] Ishaan Gulrajani 、 Faruk Ahmed 、 Martin Arjovsky 、Vincent Dumoulin和Aaron C Courville。改进的瓦瑟斯坦甘斯训练。神经信息处理系统进展，第5767-5777页，2017年[14] Naama Hadad Lior Wolf和Moni Shahar。两步解缠法。在IEEE计算机视觉和模式识别会议论文集，第772-780页[15] Irina Higgins 、 Loic Matthey 、 Arka Pal 、 ChristopherBurgess 、 Xavier Glorot 、 Matthew Botvinick 、 ShakirMohamed和Alexander Lerchner。β-vae：使用约束变分框架学习基本视觉概念。在ICLR，2017。[16] Matthew D Hoffman，David M Blei，Chong Wang，andJohn Paisley. 随机变分推理机器学习研究杂志， 14（1）：1303[17] Phillip Isola，Jun-Yan Zhu，Tinghui Zhou，and Alexei AEfros.使用条件对抗网络的图像到图像翻译。arXiv预印本，2017年。[18] Yoon Kim ， Sam Wiseman ， Andrew C Miller ， DavidSontag和Alexander M Rush。半摊销变分自动编码器。arXiv预印本arXiv：1802.02550，2018。[19] Diederik P Kingma和Max Welling。自动编码变分贝叶斯。stat，1050：1，2014。[20] 亚历克斯·克列日夫斯基和杰弗里·辛顿从微小的图像中学习多层特征。技术报告，Cite- seer，2009年。[21] Anders Boesen Lindbo Larsen ，Søren Kaae Sønderby，Hugo Larochelle，and Ole Winther.使用学习的相似性度量对像素之外的像素进行自动编码。在国际机器学习会议上，第1558-1566页[22] Hsin-Ying Lee，Hung-Yu Tseng，Jia-Bin Huang，Ma-neesh Kumar Singh，and Ming-Hsuan Yang.通过解缠表征实现多样化的2018年欧洲计算机视觉会议[23] Ming-Yu Liu，Thomas Breuel，and Jan Kautz.无监督图像到图像翻译网络。神经信息处理系统进展，第700-708页，2017年[24] Alireza Makhzani、Jonathon Shlens、Navdeep Jaitly、IanGoodfellow和Brendan Frey。对抗性自动编码器。arXiv预印本arXiv：1511.05644，2015。[25] Xudong Mao ， Qing Li ， Haoran Xie ， Raymond YKLau，Zhen Wang，and Stephen Paul Smolley.最小二乘生成对抗网络。计算机视觉（ICCV），2017年IEEE国际会议，第2813IEEE，2017年。[26] Michael F Mathieu ， Junbo Jake Zhao ， Junbo Zhao ，Aditya Ramesh，Pablo Sprechmann，and Yann LeCun. 使用对抗性训练消

下载后可阅读完整内容，剩余1页未读，立即下载