图像生成中的解纠缠学习方法

102 浏览量更新于2023-10-13 收藏 1.5MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1图像生成余祥威1*，余鹏史1，小李2，志龙吉2，袁高2，仲钦武2，王梦左1，3（R）1哈尔滨工业大学、2明天的生活，3广州琶洲实验室{yuxiang.wei.cs，csypshi}@ gmail.com{liuxiao15，jizhilong，gaoyuan23，wuzhongqin}@tal.comwmzuo@hit.edu.cn摘要无监督解纠缠学习是理解和利用深度生成模型的关键。最近，SeFa试图通过对预训练的GAN的第一投影执行SVD来找到潜在的解纠缠方向。然而，它仅应用于第一层，并且以后处理的方式工作Hessian Penalty最小化输出的Hessian矩阵的非对角项，然而，它独立地约束输出的每个条目，使得它不足以解开潜在方向（例如，形状、大小、旋转等）的空间相关变化。在本文中，我们提出了一个简单的Or-gonalJa cobianR正则化（OroJaR它简单地鼓励由不同潜在维度上的扰动引起的输出的变化是正交的，并且相对于输入的雅可比矩阵被计算以表示这种变化。我们表明，我们的OroJaR还鼓励输出的海森矩阵对角间接的方式。与Hessian惩罚相比，我们的OroJaR以整体方式约束输出，使得其在解开对应于空间相关变化的潜在维度方面非常有效。定量和定性的实验结果表明，我们的方法是有效的解纠缠和可控的图像生成，并表现出良好的国家的最先进的方法。我们的代码可在https://github.com/csyxwei/OroJaR上获得。1. 介绍在解纠缠表示中，每个维度对应于一个变差因子（FOV）的变化，而与其他因子的变化无关[3]。从给定的数据集中学习解纠缠表示是一个*这项工作是在Yuxiang Wei在TAL担任研究实习生时完成的图1：通过我们的方法在BigGAN中学习的正交方向的示例，以合成ImageNet金毛猎犬或Churches。在跨行移动时，我们沿着z空间中的单个线性方向移动潜在代码这是人工智能的主要挑战，并且可以有益于许多计算机视觉任务，例如域适应[33，45]，可控图像生成[32，38，41，48]和图像处理[37]。近年来，无监督解纠缠学习引起了广泛的关注，因为它在理解生成模型[32，38]和各种视觉任务[37，45]中的广泛应用中具有重要意义。基于两种有代表性的生成模型，即可变自动编码器（VAE）[26]和生成对抗网络（GAN）[12]，已经提出了许多解纠缠方法[6，7，11，15，17，25，32，38，48]基于VAE的方法，如β-VAE [15]、FactorVAE [25]、β- TCVAE [6]等，主要通过加强隐变量的独立性来实现解纠缠。然而，它们的解缠性能和生成图像的视觉质量随着生成对抗网络（GAN）[12]的进展，已经提出了许多基于GAN的解纠缠方法[7，32，38，48]。SeFa [38]通过直接分解预训练GAN的第一个全连接层的权重来学习解纠缠的潜在但它只应用于发电机模型的第一层，以后置处理的方式工作，限制了DIS-2000的性能6721颜色旋转变焦6722纠缠Hessian Penalty [32]鼓励通过最小化输出的Hessian矩阵相对于其输入的非对角项来学习解纠缠表示然而，它使用最大值函数将正则化从标量值函数扩展到向量值函数，但独立地处理输出的每个条目，使得它不足以解开潜在方向（例如，形状、大小、旋转等）对应于空间相关的变化。受Hessian Penalty [32]和SeFa [38]的启发，我们提出了一个简单的正则化项来鼓励生成模型学习解纠缠表示。我们的方法基于一个简单的直觉：当扰动网络输入的单个维度时，我们希望输出中的变化与由其它输入维度引起的变化无关（并且也不相关）。为此，计算输出的雅可比矩阵以表示由潜在输入引起的变化。为了鼓励由不同潜在维度引起的变化与Hessian惩罚相反，我们以整体的方式约束变化，从而使其在解开与空间相关变化相对应的我们将该正则化项称为Or_gonal_Ja_cobian_R正则化（Or_jaR）。节中3.4中，我们表明我们的OroJaR还以间接的方式将Hessian矩阵约束为对角矩阵。另一方面，我们的OroJaR可以被视为SeFa在多个层上的端到端推广，这也有利于解缠结性能。在实践中，由于在训练期间计算雅可比矩阵是耗时的事实，我们通过一阶有限差分近似来近似它以加速训练。实验表明，我们的OroJaR与最先进的方法[32，38，48]相比表现良好，用于在三个数据集上进行非监督解纠缠学习（即，[29] 此外，我们的OroJaR可以用于探索预训练生成器的潜在空间中的有意义的变化方向从图1，我们的方法在寻找解缠结的潜在方向（例如，旋转、缩放和颜色等）在BigGAN上进行ImageNet预训练。这项工作的贡献可以概括为：• 我们提出了一个简单的正交雅可比正则化（OroJaR），以鼓励深度生成模型学习更好的解纠缠表示。• OroJaR可以应用于生成器的多个层，以整体的方式约束输出，并且间接地鼓励Hessian矩阵是对角的。• 大量的实验表明，我们提出的方法在学习和探索非纠缠表示，特别是那些对应于空间相关变化。2. 相关工作2.1. VAE中的解纠缠学习变分自动编码器（VAE）[26]已被广泛用于最先进的解缠结方法[6，9，15，18，21，25，27，28]。β-VAE [15]在变分后验和变分前验之间的KL散度上引入了一个可调节的超参数β >1，以利于解纠缠表示，但同时牺牲了重建结果。在β-VAE的基础上，[25]和[6]引入了总相关（TC）项，以提高解缠性能。DIP-VAE[27]使用矩匹配来惩罚聚合后验和先验之间的分歧，以鼓励解开。Guided-VAE [9]使用了一个额外的鉴别器来指导无监督的解纠缠学习，并学习了潜在的几何变换和主成分。此外，JointVAE [11]和CascadeVAE[17]试图以无监督的方式同时学习解开的连续和离散表示。综上所述，现有的基于VAE的方法主要通过分解聚集后验来分解变量，但通常存在图像质量不高的问题。2.2. GAN中的解纠缠学习两种方法，两阶段和一阶段的，已主要研究在GAN[12]中寻找去纠缠表示。两阶段方法识别预先训练的GAN的潜在空间而单阶段方法通过引入适当的额外正则化来鼓励GAN训练期间的解纠缠潜在空间中的可解释方向。已经提出了几种无监督方法，用于在预训练的GAN的潜在空间中发现可解释的方向[2，13，37，38，41]。Voynov等人 [41]通过联合学习候选矩阵和分类器来搜索可以容易地彼此区分的方向集合，使得矩阵中的语义方向可以被分类器正确地识别。 H ¨ rk o¨ nen等[13]对采样数据进行Shen等人[38]通过对预先训练的GAN的第一层的权重执行SVD来搜索可解释的方向。Wang等人[42]将这些方法统一起来，将其视为计算LPIPS模型[47]相对于输入的Hessian谱的特殊情况。尽管如此，两阶段方法仅以预训练的GAN的后处理方式工作，并且通常无法发现潜在空间中非线性的解纠缠分量。6723∈∈伊茨我∥ − ∥DM.◦Dd，iDDDD使用正则化的解纠缠学习代替后处理，也已经给出了通过在GAN训练中结合额外的正则化[7，10，30，32，34，40，48]来实现解纠缠的研究。InfoGAN [7]通过最大化输入潜变量和生成器输出之间的互信息来学习解纠缠表示。Zhu等[48]提出了一种变化可预测性损失，其通过最大化潜在变化和相应图像对之间的交互信息来鼓励解开纠缠Peebles等人[32]提出了HessianPenalty，使生成器相对于输入具有对角Hessian。然而，最大运算符是用来扩展海森惩罚处理向量值输出。结果，它独立地约束输出的每个条目，并且不足以解开对应于空间相关变化的潜在方向。我们的OroJaR是由Hessian惩罚[32]和SeFa [38]激励的。它可以被视为SeFa到多个层的端到端的一般化，并且以整体的方式约束由潜在维度引起的变化。实验还表明，OroJaR在解开对应于空间相关变化的潜在维度方面更有效2.3. 正交正则化已经给出了许多最近的研究来并入正交性以用于改进深度网络训练[5，19、31、36、43、44]。 Wang等人[43]强制正交JaR仅约束它们正交。3. 该方法在本节中，我们首先描述所提出的用于学习分解表示的正交雅可比正则化（OroJaR）。然后，引入一阶有限差分近似来加速训练。最后，我们讨论了它与相关解纠缠方法的联系，即[38][39]3.1. 正交雅可比正则化假设G：x = G（z）是一个深度生成模型。在此，z=[z1，…z i，…表示到G的输入向量，并且表示第i个潜在维度。xRn表示G的输出，并进一步引入xd= Gd（z）表示G的第d层输出. 在解纠缠表示方面，假设每个潜在维度控制一个变异因子的变化。也就是说，由两个不同的潜在维度z i和z j引起的变化应该是独立的（并且也是不相关的）。在我们的方法中，我们使用雅可比矢量，即，Gd，表示由潜在维度zi上的扰动引起的变化。然后，为了鼓励解纠缠表示，我们将它们的不同潜在维度的雅可比向量约束为正交，ΣGdΣTGd斯塔兹岛zjW是权重矩阵，I是单位矩阵。Jia等人[19]通过将权重矩阵的奇异值限制在1附近的窄范围内来鼓励正交性。为了提高图像生成质量，BigGAN [4]通过从正则化中移除对角项来引入“截断技巧”。Bansal等人[1]引入了另一个正交正则化值得注意的是，两个向量的正交性表明它们是不相关的，这也鼓励由不同潜在维度引起的变化是独立的。考虑到所有潜在维度，我们提出了正交雅可比正则化（OroJaR），以帮助深度生成模型学习解纠缠表示。选择，考虑到WTW−I和WWT−I。Σ不ΣΣ ΣΣGΣTG。D、2 2L（G）=J J ◦（1−I）.除了权重矩阵之外，正交正则化还可以也可以用来约束潜在空间和雅可比矩阵。特里克斯 PrOSe [39]将潜在空间表示参数化，Jddd=1d=1i=1j i.斯塔兹岛zj（二）作为正交球体的乘积来学习解纠缠表示。 Odena等人[31]一个正规的项，以鼓励雅可比矩阵其中Jd=[jd，1，...，jd，i，jd，m]表示雅可比矩阵。Gd关于z的矩阵，表示Hadamard产品I表示单位矩阵，并且1是全1的矩阵特别地，我们使用jd，i=Gd 以表示生成器的矩阵J位于一个范围内它也可以雅可比向量斯塔兹岛当范围足够窄。StyleGAN2 [24]提出了一种路径长度正则化，其隐含地鼓励生成器的雅可比矩阵在全局尺度上正交归一化虽然[24，31]中的正则化器被用来提高学习生成器的质量，但我们的OroJaR被引入以鼓励生成器学习解纠缠表示。此外，[24，31]鼓励雅可比向量正交到全局尺度，而我们的Oro-我们的OroJaR以整体的方式约束由潜在维度引起的输出变化为了说明这一点，我们让jij=jd，i◦jd，j。然后，jTjd，j可以等价地获得为j ij的所有元素的和。Ob-明显地，OrojaR仅约束jij的总和小，并且jij的每个元素可以是正/负以及大/小。因此，我们的OroJaR不对jij的元素施加任何单独的约束。我们注意到D2=0。（一）D6724∈一联系我们D| |OroL我DJ¨¨由许多潜在语义因素引起的变化（例如，形状、大小、旋转等）通常是空间相关的，最好是以整体的方式加以约束。相比之下，Hessian Penalty [32]使用max函数来聚合向量值输出的Hessian矩阵。它实际上要求Hessian矩阵的非对角项对于输出的每个元素都是小的，从而使得它不足以解开复杂和空间相关变化的因素。3.2. 加速训练的近似在训练期间，计算等式11中的雅可比矩阵是耗时的。（2）当m较大时。在[16，32]之后，我们使用Hutchinson（2）如：具体来说，我们引入一个可学习的正交矩阵ARm×N，其中N表示我们想要学习的正交方向的数量，m是潜在维度;A的列存储我们正在学习的方向在将OroJaR应用于预训练的G之后，通过以下来优化AA*= arg minEz，ωiLJ（G（z+ηAωi）），（8）其中ω i0，1N是索引A的列的独热向量，并且η是控制z应该在该方向上移动多远的标量。与Eqn的区别（7）是OroJaR现在被取为w.r.t. ωi而不是z。在我们的训练中，我们使用η = 1。在优化之后，A可以用于通过G（z + ηAω i）编辑生成的图像。D D3.4.与SeFa和Hessian Penalty的LJ（G）=ΣVarvΣvT（jTjd）vΣ=ΣVarvΣ（jdv）TjdvΣ，（3）我们进一步讨论了Oro的连接和差异-d=1d =1其中v是Rademacher向量（每个条目具有为-1或1的相等概率），并且Varv表示方差。JaR与两个代表性的解缠结学习方法，即，[38][39]塞法SeFa [38]对权重矩阵W∈是G在方向v上的一阶方向导数乘以v。jdv可以通过一阶有限差分近似有效地计算[35]：1j v=[G（z+εv）−G（z）]，（4）Rm1×m，以在预训练的GAN的潜在空间中发现语义上有意义的方向。令 W=U ~VT 是 W 的奇异值分解（SVD）。[38]《易经·系辞上》：“以德为本，以义为本。给出了作为V的列向量的投影。我们引入其中ε>0是控制第一方向导数估计的粒度在我们的实现中，我们使用ε=0。1.一、3.3. 在深度生成模型我们的OroJaR可以应用于许多生成模型，在这里我们考虑代表性的生成Adver-z′=VTz和W′=UΛ，并定义G1（z）=Wz和G′1（z′）=W′z′.可以容易地看到，（i）z’的每个维度对应于SeFa [38]发现的语义上有意义的方向（ii）G′1（z′）与G1（z）等价，即G1（z）=G′1（z′）. (iii)可以得到硬正交雅可比约束，即，ΣG′ΣT G′sarial网络（GAN）[12]。OroJaR可以应用于GAN以两种方式从头开始训练。对于GAN来说，1兹岛1= 0。（九）zj′分别使用L_D和L_G训练生成器G，LD=Ex[f（D（x））]+Ez[f（1-D（G（z）]，（5）LG=Ez[f（1-D（G（z）]，（6）其中f是GAN采用的模型特定映射为了将OroJaR应用于GAN训练，我们简单地将生成器的损失修改为：LG=Ez[f（1−D（G（z）]+λEz[LJ（G（z））]，（7）其中λ是折衷超参数。结合LJ（G）进入GAN训练有利于学习disen-因此，SeFa [38]可以被视为我们的Oro-JaR的特殊情况，通过找到仅在第一层G′1（z′）上定义的J的全局最优值并保持所有其他层的参数与SeFa相比，我们的OroJaR可以部署到多个层，并与SeFa联合优化。GAN以端到端的方式，从而有利于学习更好的解纠缠表示。黑森人的惩罚为了学习解纠缠表示，Hessian Penalty[32]鼓励生成器具有输出相对于输入的对角Hessian。通过仅考虑两个潜在维度Zi和Zj，海森罚的目标可以写为：2纠缠表示，并鼓励G实现可控和解纠缠的图像生成。适用于预先训练的发生器。类似于Hessian2Gz=0。（十）惩罚[32]，我们的OroJaR可以用于识别间预训练生成器的潜在空间中的可预测方向。6725左项可以进一步分解为4个分量，6726伊茨zi¨≈δziδzj-δziδzj斯塔兹岛zj+δzδz01-2(a)Sefa262-2(b)黑森罚分2图2：我们的OroJaR，Hessian Penalty [32]和SeFa [38]在Edges+Shoes上的解缠质量比较。对于每种方法，我们随机采样两个12维高斯向量。我们选择两个可解释的维度来显示，即鞋的形状和样式，每两排对应一个可解释的尺寸。在一行中，我们将维度zi的值从−2改变到+2，同时保持其他11个维度不变。243015611110721593411-2 2 2 2 2(a) Sefa(b) 黑森州罚款（c）我们的图3：我们的OroJaR，Hessian Penalty [32]和SeFa [38]在CLEVR-Simple上的解缠结质量比较。我们的方法有能力收缩的潜在空间时，它是overparameterized。因此，我们只显示前六个活跃度评分维度（见图1）。7、Sec。4.3）。（a）SeFa解开位置（顶部两行）。然而，它使颜色与形状变化（第3 - 5行）纠缠在一起。（b）Hessian Penalty学习独立控制对象的垂直位置、形状和颜色（第2 - 5行）。然而，水平位置毫无例外地由两个维度（第1行和第6行）控制（c）我们的方法可以成功地解开CLEVR-Simple中的四个因素（用于颜色变化的两个维度，但是由它们控制的颜色是不重叠的），并且实现更好的解开性能。2GJ200万美元兹河ΣT2GJzj我间接定义。当部分渐变使用的微小变化，我们的OroJaR约束了zj和 zi1ΣG（zi，zj+δzj）ΣTG（zi+δzi，zj）最后一个分量和Eqn的其他三个分量（十一）接近零。因此，OroJaR可以提供间接和1ΣG（zi，zj+δzj）ΣTG（zi，zj）（十一）Hessian Penalty的正则化。此外，奥罗--δziδzj斯塔兹岛zjJaR以整体的方式约束由潜在维度引起的变化，使其有效地解开潜在维度。1Σ G（zi，zj）ΣT G（zi + δzi，zj）1Σ G（zi，zj）ΣTG（zi，zj）伊茨伊茨4. 实验在本节中，我们首先介绍ij i j数据集和实施细节，然后评估我们的其中G（zi，zj+δzj）我是G在（z，i，OroJaR定性和定量比较z，j+δz，j），并且其他项与现有技术的方法相似。一个全面的ABLA-50-2(c)我们2颜色形状颜色y轴x轴形状风格形状风格颜色颜色形状y轴x轴2=斯塔兹岛zj对应于空间相关变化的mensions.6727××9511-22(a)Sefa3211-2(c)我们27910-2(b)黑森罚分2图4：通过我们的OroJaR、Hessian罚分[32]和SeFa [38]对CLEVR-复合物的解缠结质量的比较。这里我们展示了所有方法发现的三个代表性因素，即，颜色（顶部）、最右侧对象的形状（中间）和最左侧对象的形状（底部）。（a）SeFa无法用颜色解开形状（见中间和底部），并导致纠缠表示。（b）Hessian Penalty在控制单个对象同时保持另一对象不变方面表现不佳它学习通过一个维度控制两个对象的颜色（见顶部），当改变一个对象的形状时，另一个对象的形状或颜色（c）我们的OroJaR在解开最左边对象的颜色和每个对象的形状方面是有效的。补充资料中给出了该研究。4.1. 数据集和实施详细信息4.1.1数据集边缘+鞋子。Edges+Shoes [46]由50，000个边和50，000个鞋子图像组成。在[32]之后，我们采用这个数据集来评估我们的方法是否可以发现一个独立的输入组件来控制图像到图像的翻译，而无需域监督。克莱弗。CLEVR数据集包括三个基于CLEVR的合成数据集[20]。第一个数据集CLEVR-1FOV的特征是一个红色立方体，只有一个单一的变异因子（FOV）：沿单个轴的对象位置。第二个，CLEVR-Simple，有四个FOV：对象颜色、形状和位置（水平和垂直）。第三个， CLEVR- 复杂，保留来自 CLEVR- 简单的所有FOV，并添加第二个对象和另一个FOV（即，对象大小），导致总共十个FOV（每个对象五个）。每个数据集由大约10，000张图像组成。精灵Dsprites [29]包含从5个独立的潜在因素（形状，大小，旋转，水平和垂直位置）生成的总共737，280个图像。4.1.2实现细节对于Edges+Shoes和CLEVR数据集，我们按照[32]在其上训练ProGAN [22]，并将输入的维度设置为12。图像大小设置为128 128。对于Dsprites数据集，我们训练了一个简单的GAN（6个卷积层），输入的维度设置为6。图像大小设置为64 64。在所有实验中，OroJaR正好在第一D（对于ProGAN为10，对于简单GAN为4）层的投影/卷积输出之后应用。我们发现，当D对应于最后一个上采样层之前的最后一个层时，我们的OroJaR凭经验实现了最佳对于BigGAN实验，我们设置N=m，并通过在每个前向通道期间应用Gram-Schmidt和归一化来将A限制为正交归一化。4.2. 定性评价在本小节中，我们定性地比较了我们的OroJaR与三种最先进的解缠结方法的解缠结质量，即，[38][39]边缘+鞋子。Edges+Shoes数据集是真实世界但相对简单的数据集，其中没有提供地面实况因子。为了进行公平的比较，我们选择SeFa中对应于前两个特征值的属性（较低值意味着语义方向模糊）。从图2，SeFa，Hessian Penalty，和我们的OroJaR学习相同的两个主要的解纠缠变化，即鞋子的形状和样式。而我们的方法涵盖了更多不同的形状。CLEVR-简单。图3示出了CLEVR-Simple数据集上的比较。我们注意到，该数据集中的因子数为4，而输入的维度为12。当潜在空间被过度参数化时，我们的OroJaR可以自动关闭额外的维度。在这里，我们只比较了前六个活跃度评分维度与竞争方法（见图1）。7、Sec。4.3）。剩下的形状形状形状颜色形状颜色672832410SeFa GAN-VP0123554150234黑森州的惩罚我们的301245原始沿方向图6：比较OroJaR，Hessian Penalty [32]和Voynov [41]的潜在空间编辑质量。对于Hessian Penalty和我们的OroJaR，方向从η= -2.5增加到2.5，对于Voynov，方向从-8增加到8。我们的OroJaR更好地将缩放从旋转和颜色中分离出来。图5：SeFa [38]，GAN-VP [48]，Hessian Penalty [32]和我们的OroJaR在Dsprites数据集上的左上角：SeFa [38]将旋转与对象的位置（第2行）纠缠。它还将尺寸因子与形状因子（第4行和第5行）纠缠在一起。右上：对于GAN-VP [48]，位置与形状和旋转纠缠在一起。左下角：Hessian Penalty [32]将旋转与位置纠缠在一起，也将大小与形状纠缠在一起。右下角：我们的方法可以成功地解开这五个因素。从上到下，每行分别控制水平位置、垂直位置、旋转、大小和形状。最后一行的潜在维度已正确停用。ing维度基于我们的OroJaR和Hessian惩罚[32]两者被停用，因此未示出。从图3，SeFa学习控制对象的水平和垂直Hessian Penalty成功地解开了对象（第2 - 5行）的垂直位置、形状和颜色，但水平位置意外地由两个维度（第1和第6行）控制。相比之下，我们的方法成功地disentangles的四个因素（前五行）和停用额外的维度（第6行）。CLEVR-复合物。图4示出了CLEVR-Complex数据集上的比较。显然，SeFa无法将形状与颜色变化分开。海森罚函数在控制一个对象同时保持另一个对象不变时表现不佳。当改变一个对象的形状一个可能的解释是，海森罚独立地约束输出的每个条目这使得它不足以解开复杂的潜在方向（例如，对象的形状和颜色）。相反，我们的Oro-JaR有效地解开最左边对象的颜色和每个对象的形状，从而学习更好的解开表示。精灵图 5 显示了在 Dsprites 数据集上与 SeFa [38] ，Hessian Penalty [32]和GAN-VP [48]的定性比较。GAN-VP [48]在学习非纠缠表示方面仍然有限，其中位置与形状和旋转纠缠在一起。至于Hessian Penalty [32]和SeFa [38]，对象的位置与旋转纠缠在一起。它们也不能将形状与尺寸变化分开。相比之下，我们的OroJaR可以成功地解开这五个因素，同时正确地停用最后一行的潜在维度结果表明，我们的OroJaR在分离空间相关变化（例如，形状、尺寸、旋转等）。BigGAN。根据Sec。3.3，我们的OroJaR也可以用于发现预训练GAN的有意义的潜在方向。在这里，我们将其应用于在ImageNet [8]上训练的类条件Big-GAN [4]。图1显示了我们在金毛猎犬和教堂上的结果，我们的方法能够发现几个解开的方向，如旋转，缩放和颜色。图6显示了与Hessian Penalty [32]和Voynov [41]的定性比较。Voynov [41]将狗的颜色与缩放变化纠缠在一起。Hes-sian Penalty使旋转与缩放变化纠缠在一起。相比之下，我们的OroJaR执行更好的变焦质量。更多结果。更多的定性结果（例如 CLEVR-U 、CLEVR-1FOV和BigGAN）在附录中给出。4.3. 定量评价在本小节中，我们将我们的Oro-JaR与几种最先进的深度生成模型进行定量比较。在[32]之后，我们使用感知路径长度（PPL）和Frechet起始距离（FID）作为定量度量。PPL [23]通过评估G（z）在扰动下的变化量来测量生成器的平滑度。z. 虽然FID [14]利用激活用于测量生成的图像的质量的分布然而，PPL和FID都不是为评估解缠性能而设计的。因此，我们还报告了定量评估中的变化可预测性解纠缠度量（VP）[48]表1列出了对所述化合物的定量比较结果-22-22沃伊诺夫[41]黑森[32]我们6729表1：在Edges+Shoes和CLEVR上的不同方法对于FID和PPL，越低越好，对于VP，越高越好。我们在相同数量的训练迭代中报告具有最佳FID的模型。使用100，000、50，000和10，000个样本计算PPL、FID和VP。CLEVR-U数据集表明，我们通过设置m=3在CLEVR-Simple上训练模型。由于CLEVR-1FOV只有一个因子，因此我们不报告其VP结果。边缘+鞋架CLEVR-简单CLEVR-复杂CLEVR-U CLEVR-1FOV方法PPL（↓）FID（↓）VP（↑）PPL FID VP PPL FID VP PPL FID VP PPL FID VP2019-05 - 2210：00：002019 - 05 - 21 10：00：002019 - 05 - 21 10：00黑森罚分[32] 554.1 17.3 28.6 39.7 6.1 71.3 74.7 7.1 42.9 61.6 26.8 79.2 20.8 2.3-我们的236.716.132.3 6.74.976.9 10.410.748.8 40.94.690.7 2.8 2.1-表2：Dsprites上不同方法的变化可预测性度量（VP）的比较。方法GAN SeFa GAN-VP Hessian罚函数VP（%，↑）30.9（0.84）48.6（0.70）39.1（0.48）48.5（0.56）54.7（0.27）解纠缠算法能够识别和关闭冗余维度。在[32]之后，当我们在保持其他维度的同时改变zi时，将维度zi的活跃性引入为G（z）0.0120.0100.0080.0060.0040.0020.0000123456789 1011潜成分(a) CLEVR-简单0.180.160.140.120.100.080.060.040.020.00甘甘副总裁Sefa黑森州的惩罚我们的0 1 2 3 4 5潜成分(b) Dsprites固定. 为了评估找到多余尺寸的能力Sions，Fig.7示出了CLEVR-Simple和Dsprites上的活跃度分数与GAN对应物相比，SeFa [38]，Hessian Penalty[32]和我们的OroJaR都能够找到具有较小活跃度分数的冗余维度。然而，SeFa [38]和Hessian Penalty [32]未能找到所有的冗余维度，这也可以从图2中观察到。3.第三章。至于GAN-VP [48]，我们注意到VP损失鼓励由z的图7：CLEVR-Simple和Dsprites上的活跃度分数（每个维度控制G(a)在CLEVR-Simple上，我们的OroJaR和Hessian Penalty [32]都可以停用冗余尺寸（12个中的5/6被激活）。(b)在Dsprites上，我们也有类似的观察。SeFa [38]和GAN-VP [48]也有能力去激活冗余维度。Edges+Shoes和CLEVR数据集。CLEVR-1FOV数据集只有一个因子，所有竞争方法都具有相同的VP值。因此，我们不报告此数据集的VP 从表1 中，我们的OroJaR在所有数据集上都获得了更好的VP结果，这表明它可以学习更好的解纠缠表示。此外，它还用作[24]中的路径长度正则化，并帮助学习平滑的潜在空间，从而获得更好的PPL结果。对于我们的OroJaR，我们实证地发现，去除第一全连接层的归一化和激活有利于改善解纠缠。尽管InfoGAN [7]在大多数数据集上获得较低的FID，但它在学习解纠缠表示方面表现不佳。表2列出了Dsprites数据集上的VP结果，我们的OroJaR在竞争方法中也达到了最高的VP，这表明我们的OroJaR与最先进的无监督解缠学习方法相比表现良好。在许多实际情况下，我们没有足够的事先设置的解纠缠因子的数量。一个可行的解决方案是使用更大维度的输入，并且可区分。因此，它最多只能停用一个维度，并且z的维度应该仔细设置以确保GAN-VP工作良好。因此，我们不报告GAN-VP在Edges+Shoes和CLEVR上的结果，其中输入的维度设置为12并且高于FOV的数量。5. 结论在本文中，我们提出了一个正交雅可比正则化（OroJaR），以帮助生成模型学习解纠缠表示。它通过约束由不同潜在维度（即，雅可比向量）是正交的。此外，我们的OroJaR可以应用于生成器的多个层，并且以整体的方式约束输出，使其有效地解开对应于空间相关变化的实验结果表明，我们的OroJaR是有效的，在解纠缠和可控的图像生成，并表现出有利的对国家的最先进的方法。在未来，我们将把OroJaR扩展到VAE和其他生成模型，以改善解纠缠学习。确认本工作得到国家重点研究&发展计划项目（批准号：2020AAA0104500，以及中国国家自然科学基金（NSFC），批准号为U19A2073和62006064。GANSefa黑森州的惩罚我们的积极性积极性6730引用[1] Nitin Bansal，Xiaohan Chen，and Zhangyang Wang.在训练深度网络时，我们能否从正交正则化中获得更多？神经信息处理系统，31：4261-4271，2018。3[2] David Bau ， Jun-Yan Zhu ， Hendrik Strobelt ， BoleiZhou，Joshua B Tenenbaum，William T Freeman，andAntonio Torralba.肝解剖：可视化和理解生成对抗网络。在2018年国际学习代表会议上。2[3] Yoshua Bengio表示的深度学习：向前看。在统计语言和语音处理上，第1-37页。Springer，2013. 1[4] 安德鲁·布洛克杰夫·多纳休凯伦·西蒙尼安用于高保真自然图像合成的大规模gan训练。在2018年国际学习代表会议上。三、七[5] Andrew Brock、Theodore Lim、James Millar Ritchie和Nicholas J Weston。使用内省对抗网络进行神经照片编辑。在2017年的国际学习代表会议上3[6] 李雪晨，陈天勤，罗杰·格罗斯，大卫·杜维诺.隔离vae中解缠结的来源。第32届神经信息处理系统国际会议论文集，第2615-2625页，2018年一、二[7] Xi Chen，Yan Duan，Rein Houthooft，John Schulman，Ilya Sutskever，and Pieter Abbeel. Infogan：InterpretableRepresentationLearningbyInformationMaximizingGenerative Adversarial Nets（信息生成：信息最大化生成式对抗网络的可解释表示学习）神经信息处理系统进展，2016。一、三、八[8] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。在IEEE计算机视觉和模式识别会议论文集，第248-255页。Ieee，2009年。7[9] Zheng Ding，Yifan Xu，Weijian Xu，Gaurav Parmar，Yang Yang，Max Welling，and Zhuowen Tu.用于解纠缠学习的引导变分自动编码器。在IEEE计算机视觉和模式识别会议论文集，第7920-7929页，2020年。2[10] Chris Donahue、Zachary C Lipton、Akshay Balsubramani和Julian McAuley。生成对抗网络的潜在空间语义分解。在2018年国际学习代表会议上。3[11] 艾米莉·杜邦学习解开联合连续和离散表示。第32届神经信息处理系统国际会议论文集，第708-718页，2018年。一、二[12] Ian J Goodfellow，Jean Pouget-Abadie，Mehdi Mirza，Bing Xu ， David Warde-Farley ， Sherjil Ozair ， AaronCourville，and Yoshua Bengio.生成对抗网络。arXiv预印本arXiv：1406.2661，2014。一、二、四[13] ErikH¨ rko¨ nen ， AaronHertzmann ， Jaakk oLehtinen ，andSylvain Paris.Ganspace：Discovering interpretable gancon-巨魔神经信息处理系统的进展，33，2020。2[14] Martin Heusel、Hubert Ramsauer、Thomas Unterthiner、Bernhard Nessler和Sepp Hochreiter。两个时间尺度更新规则训练的甘斯收敛到一个局部纳什均衡。神经信息处理系统进展，第6629-6640页，2017年。7[15] Irina Higgins 、 Loic Matthey 、 Arka Pal 、 ChristopherBurgess 、 Xavier Glorot 、 Matthew Botvinick 、 ShakirMohamed和Alexander Lerchner。beta-vae：使用受约束的变分框架学习基本视觉概念。 2016. 一、二[16] 迈克尔·F·哈钦森拉普拉斯光滑样条影响矩阵迹的随机估计。通信统计模拟和计算，18（3）：1059-1076，1989年。4[17] 郑妍宇和宋贤伍通过交替解纠缠学习数据的离散和连续因子。国际机器学习会议，第3091-3099页。PMLR，2019年。一、二[18] Ananya Harsh Jha、Saket Anand、Maneesh Singh和VSRVeeravasarapu。用周期一致的变分自动编码器解开变化因素在欧洲计算机视觉会议论文集，第805-820页，2018年。2[19] Kui Jia，Dacheng Tao，Shenghua Gao，and XiangminXu.通过奇异值边界改进深度神经网络的训练。在IEEE计算机视觉和模式识别会议论文集，第4344- 4352页，2017年。3[20] Justin Johnson ， Bharath Hariharan ， Laurens van derMaaten ， Li Fei-Fei ， C Lawrence Zitnick ，

下载后可阅读完整内容，剩余1页未读，立即下载