用循环一致变分自动编码器解开变分因素

73 浏览量更新于2023-10-13 收藏 2.13MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

用循环一致变分自动编码器解开变分因素Ananya Harsh Jha1、Saket Anand1、Maneesh Singh2和VSR Veeravasarapu21印度理工学院-德里{ananyaharsh12018，anands}@ iiitd.ac.inVerisk Analyticsmaneesh. verisk.com， vsr. gmail.com抽象。学习图像中不同变化因素的解纠缠表示的生成模型对于目标数据增强非常有用通过从感兴趣的解纠缠潜在子空间采样，我们可以有效地生成特定任务所需的新数据学习解纠缠表示是一个具有挑战性的问题，特别是当某些变化因素难以标记时。在本文中，我们介绍了一种新的架构，解开潜在的空间成两个互补的子空间，仅使用弱监督的形式成对的相似性标签。受最近成功的循环一致性对抗架构的启发，我们在变分自动编码器框架中使用循环一致性我们的非对抗性方法与最近将对抗性训练与自动编码器相结合以解开表示的作品形成对比我们在三个数据集上展示了解开的潜在子空间的令人信服的结果，并与最近利用对抗训练的作品进行了比较关键词：解纠缠变分因子，循环一致性结构，变分自动编码器1介绍自然图像可以被认为是来自未知分布的样本，取决于不同的变化因素图像中对象的外观受到这些因素的影响，这些因素可能对应于形状、几何属性、照明、纹理和姿势。基于手头的任务，如图像分类，这些因素中的许多因素会分散预测模型的注意力，并且通常被称为讨厌的变量。减轻由无信息的变化因素引起的混淆的一种方法是设计忽略所有讨厌的变量的表示[1，2]。然而，这种方法受到可用训练数据的数量和质量的限制另一种方法是训练分类器学习表示，通过数据增强提供足够的多样性，对无信息的变化因素保持不变[3]。论文代码：github.com/ananyahjha93/cycle-consistent-vae22A.H. Jha等人由分离的潜在空间驱动的生成模型可以是受控数据增强的有效方式虽然生成对抗网络（GAN）[4，5]已被证明在生成新数据样本方面非常出色，但普通GAN架构不支持对潜在变量的推断这阻止了在数据生成期间对不同变化因素的控制DNA-GANs [6]引入了一个完全监督的架构来解开变异因素，然而，即使在可能的情况下，获取每个因素的标签也是繁琐和耗时的。最近的作品[7，8]将自动编码器与对抗训练相结合，以区分变化的信息和非信息因素，并将它们映射到单独的潜在变量集通常由感兴趣的任务指定的信息因素与可用的监督源相关联，例如类别身份或姿态，并且被称为特定的变化因素其余的无信息因素被组合在一起作为未指定的变异因素。学习这样一个模型有两个好处：首先，编码器学习为正在考虑的任务分解出讨厌的变量，其次，解码器可以用作生成模型，可以生成具有受控指定和随机未指定变异因素的新样本在解纠缠的潜在表示的上下文中，Mathieu et al.[7]将退化解定义为失败情况，其中指定的潜变量完全被解码器忽略，并且所有信息（包括图像身份）都是在图像生成期间从未指定的潜变量中获取的。1(c) 和（d））。这种退化在自动编码器中是预期的，除非潜在空间以某种方式被约束以保留关于相应子空间中的指定和未指定因子的信息[7]和[8]都通过使用对抗性损失来规避这个问题，该损失训练他们的自动编码器来生成其身份由指定的潜在变量而不是未指定的潜在变量定义的图像虽然这种策略产生了高质量的新图像，但它可能会训练解码器忽略指定和未指定潜在空间中的任何信息泄漏，而不是训练编码器来限制这种泄漏。Szab'oetal. [8]有一个非常广泛的应用领域，以确定变化的角度因素他们证明，严格限制未指定的潜在空间的维数会阻止编码器对与其中的指定变化因素相关的信息进行编码然而，这种架构的结果对未指定空间的维度非常敏感如图1（e），即使稍微合理的结果也需要仔细选择维度。基于这些观察，我们在这项工作中做出了以下贡献– 我们引入了循环一致的变分自动编码器，这是一种弱监督生成模型，它只使用成对相似性标签来解开特定和非特定的变分因素– 我们的经验表明，我们提出的架构避免了退化，并对指定和未指定的潜在子空间的维度选择具有鲁棒性用周期一致的VAE解开变异因素3i=1|图1.一、s：指定因子空间（类恒等式），z：未指定因子空间。在每个图像网格中：（a）、（b）、（c）、（d）和（e），顶行中的数字和顶行中的数字分别为：第一列取自测试集。生成每个网格内的数字从第一行取s，从第一列取z（a）和（b）：使用我们的方法解开变异因素的结果（c）和（d）：来自[8]的非对抗性架构的结果（e）：使用[8]中的非对抗性方法产生甚至几个合理数字所需的z的维数（f）：在自动编码器的情况下退化解的可视化– 我们声称并以经验验证了周期一致的VAE通过明确训练编码器以减少特定变化因素泄漏到未指定子空间中来产生高度分离的潜在表示据我们所知，周期一致性既没有被应用到解开的变化因素的问题，也没有被用于与变分自动编码器的组合其余的文件组织如下：Sec.2讨论了以前的作品在本文的背景下，Sec。3提供了我们提出的架构的细节，Sec.4经验验证我们的每一个主张使用定量和定性实验，和Sec。第5段总结了我们的工作，并提出了进一步发展所提出的想法的范围2相关工作可变自动编码器。Kingma等人[9]提出一个变分推理基于自动编码器的潜在因素模型的方法设X={xi} N为数据集包含N i d个样本，每个样本与来自m的连续潜在变量p（z）相关联，通常具有来自m的一个简单的潜在变量。近似后验q φ（z| x）使用编码器参数化，而似然项p θ（x，z）由解码器参数化。该架构通常被称为变分自动编码器（VAE），优化了以下变分下限：L（θ，φ;x）= E qφ（z| x）[log p θ（x| z）] −KL（q φ（z| x）p（z））（1）4A.H. Jha等人2GDRHS中的第一项是数据似然的期望值，而第二项KL散度充当编码器的正则化器，以将近似后验与潜在变量的先验分布对齐通过采用基于巧妙的线性变换的重新参数化，作者使用反向传播实现了VAE的端到端训练在测试时，VAE可以通过从先前的p（z）采样，然后通过解码器的前向传递来用作生成模型我们的架构使用VAE框架来对未指定的潜在子空间进行建模生成对抗网络。GANs [4]已被证明可以对复杂的高维数据分布进行建模，并从中生成新的样本它们包括两个神经网络，一个发生器和一个鉴别器，它们在最小-最大游戏设置中一起训练，通过优化等式中的损失（二）、该函数输出给定样本属于真实数据分布的概率，而不是来自生成器的样本生成器尝试将潜在空间中简单参数先验分布的随机样本映射到真实分布的样本当鉴别器的输出对于所有生成的样本都是1时，生成器被称为成功训练DCGAN [5]使用CNN来复制复杂的图像分布，是对抗训练成功的一个很好的例子minmaxV（D，G）=Expdata（x）[logD（x）]+Ezpz（z）[log（1−D（G（z）]（2）尽管GAN在成功训练时能够生成高质量的样本，但它需要精心设计的技巧来稳定训练并避免模式崩溃等问题在我们提出的方法中，我们不使用对抗训练，但是，Mathietal的w或k s是真实的。 [7]andS zab´oetal.[8]有一个有趣的应用程序对抗训练解开潜在的因素。周期一致性。循环一致性已被用于使神经机器翻译系统能够通过遵循机器翻译的闭环来从未标记的数据中学习[10]。Zhou等人[11]使用循环一致性来建立描绘相同类别对象的图像对之间的跨实例对应关系循环一致性架构进一步发现了深度估计[12]、非配对图像到图像转换[13]和无监督域自适应[14]中的应用我们在未指定的潜在空间中利用循环一致性的思想，并显式地训练编码器以减少与指定的变化因素相关的信息泄漏解开变异的因素最初的工作，如[15]，利用E-M框架来发现描述观测数据的独立变异因子Tenenbaum等人[16]学习从样式和内容参数到图像的双线性映射最近，[17Kulkarni等[20]通过提出一个网络来将视觉建模为逆向图形问题，该网络可以解开变换和照明变化。在[1]和[2]中，通过分解出给定任务的讨厌变量来学习不变表示Tran等人[21]利用身份和姿势标签，通过使用修改后的GAN架构将面部身份与姿势SD-GANs [22]引入了一个用周期一致的VAE解开变异因素5DC-GANs [5]和BE-GANs [23]上的siamese网络架构，同时生成具有共同身份但不同的未指定变化因素的图像对然而，像香草GAN一样，它们缺乏任何对潜在变量进行推断的方法Reed等人[24]提出了一种新的视觉类比生成体系结构，它根据一个示例对的图像之间的关系来转换查询图像DNA-GANs [6]提出了一种完全监督的方法来学习解纠缠表示。对抗性自动编码器[25]使用半监督方法来解开样式和类表示，然而，与[7]，[8]和我们的方法不同，它们不能推广到看不见的对象身份。Hu等人[26]提出了一种有趣的方法，该方法将自动编码器与对抗训练相结合，以完全无监督的方式解开变化因素然而，与[7，8]相比，解缠结的质量仍然不足我们的工作建立在Mathieu等人介绍的网络架构。 [7]andSzab´oetal.[8]的一项建议。大多数自动编码器都接受了额外的培训，以基于单一监督来源（如类别标签）来区分特定和非特定的变异因素。我们的工作与这两个不同，我们引入了一种非对抗性方法，在仅使用成对相似性标签的较弱监督源下解开变异因素最近，[27]还提出了另一种基于组级监督的非对抗性方法来解开表示然而，他们的架构并没有显式地训练编码器，因此在随机选择潜在维度时容易受到简并的3周期一致变分自动编码器在本节中，我们将描述我们的模型架构，解释其所有组件并开发其训练策略。3.1循环一致循环一致性框架背后的直觉很简单-以任何顺序组合在对于前向循环，这转化为前向变换F（x i），随后是反向变换G（F（x i））=x ′i，使得x ′ix i。图二、（a）：循环一致性框架中的前向循环：xi-F（xi）-G（F（xi））-x′i. （b）：循环相容框架中的后向循环：yi→G（yi）→F（G（yi））→yi′。6A.H. Jha等人LN||反向循环应确保反向变换之后是正向变换产生F（G（yi））=yi′yi。映射F（·）和G（·）可以使用神经网络来实现，其中通过最小化等式（1）中定义的基于p范数的循环损耗来进行训练（三）、循环一致性自然适合（变分）自动编码器训练框架，其中KL散度正则化重建包括正向。我们还使用反向循环一致性损失来训练编码器以更好地解开对于这种损失函数，我们通过在正向和反向损失之间交替来训练我们的模型。我们将在接下来的部分L循环=L正向+L反向L循环= E x p（x）[||G（F（x））−x||p]+ E y p（y）[||F（G（y））−y||p]（三）3.2模型描述我们提出了一个基于条件变分自动编码器的模型，其中潜在空间被划分为两个互补的子空间：s，它控制与数据集中可用监督相关的特定变化因素，z，它对剩余的未指定变化因素进行类似于Mathieu et al.s [7]工作，我们保持s为实值向量空间，并且假设z具有标准正态先验分布p（z）=（0，I）。这样的建筑师-ture允许在指定子空间中进行显式控制，同时允许从未指定子空间进行随机采样我们假设z和s之间的边际独立性，这意味着与两个潜在子空间相关的变化因子之间的完全解纠缠编码器。编码器可以被写为映射Enc（x）=（fz（x），fs（x）），其中fz（x）=（μ，σ）=z并且fs（x）=s。函数fs（x）是具有实值向量潜在空间的标准编码器，并且fz（x）是其向量输出参数化近似后验qφ（zx）的编码器由于从x中提取的同一组特征可以用于创建到z和s的映射，因此我们定义了一个具有共享权重的编码器，但最后一层除外，该编码器分支以给出两个函数fz（x）和fs（x）的输出译码器在该VAE中，解码器x ′= Dec（z，s）由条件似然p θ（xz，s）表示。最大化该似然的期望值w.r.t近似后验和s相当于最小化重构误差的向前循环。我们从数据集中抽取一对图像x1和x2具有相同的类标签。我们把它们都通过编码器以生成对应的潜在表示Enc（x1）=（z1，s1）和Enc（x2）=（z2，s2）。解码器的输入是通过交换两个图像的指定潜变量来构造的这产生以下重构：x′1=Dec（z1，s2）和x′2=Dec（z2，s1）。因为这两张照片类标签，交换指定的潜在变量应该不会对重建损失函数我们可以将decoder的条件似然重写为pθ（x|z，s*），其中s*=fs（x*），且x*是一个具有s*的任意矩阵用周期一致的VAE解开变异因素7图3.第三章。通过在来自同一类的两幅图像之间交换s潜变量，使用VAE进行图像重建这个过程与成对相似性标签一起工作，因为我们不需要知道采样图像对的实际类别标签类标签为x。整个前向循环最小化等式中给出的修改的变分上限4.第一章图3示出了正向循环的图示minEnc，12月L向前= −E qφ（z| x，s*）[log p θ（x| z，s *）]+ KL（q φ（z| x，s *）p（z））（4）值得注意的是，前向循环在任何给定时间都不需要实际的类标签这导致需要较弱形式的监督，其中图像需要用成对相似性标签进行注释这与Mathieu等人以前的作品形成对比[7]，这需要实际的cl as sla bels，和dS zab´oetal。 [8]，其中，所述等式是图像记录。上述前向循环类似于[7]和[8]中提出的自动编码器重构损失如第1，单独的正向循环可以产生退化的解决方案（图1）。1（c）和（d）），因为不存在阻止解码器仅使用未指定的潜变量来重建图像的约束在[7]和[8]中，对抗性损失函数已成功应用于具体处理退化解。由此产生的生成模型运行良好，然而，对抗性训练通常具有挑战性，在有效地解开潜在空间方面具有局限性现在，我们把这个讨论推迟到SEC。4.1. 在下一节中，我们将介绍基于反向循环一致性的非对抗性方法，以避免学习退化解，并显式地训练编码器以防止与指定因素相关的信息泄漏到未指定的子空间中。3.3防止退化的解决方案反向循环。图中所示的反向循环图4基于在特定空间中的cyc-c概念。我们根据高斯先验p（z）= N（0，I）在未指定的潜在空间上对z i进行采样，并将其与指定的潜在变量s 1= fs（x 1）和ds2=fs（x2）组合通过解码器，以分别获得对sx′1′=Dec（zi，s1）和dx′2′=Dec（zi，s2）的重新编码。与前向循环不同，X1和X2不需要具有相同的标签，并且可以被简单地执行。Sincebothimagesx1′′anddx′2′aregenerateeratedus ing8A.H. Jha等人||−||||−||图4.第一章循环一致的VAE架构的反向循环从z潜在空间中采样的点，与来自两个独立源的指定因子相结合，形成两个不同的图像。然而，如果我们将两个生成的图像通过编码器传递回去，我们应该能够在z空间中获得相同的采样点在这种情况下，对指定的约束条件的约束条件是z1′′=fz（x′1′）和z2′′=fz（x′2′），因此必须将约束条件映射到一个特定的约束条件。这样的约束促进了z与s的边缘独立性，因为使用不同的指定因子生成的图像可能被映射到未指定的潜在子空间中的相同点。这一步直接驱动编码器通过只保留与z潜在空间中的未指定因子相关的信息来产生解纠缠表示。方程中的变分损失（4）能够对未指定的潜在变量进行采样，并有助于生成新的图像。然而，编码器不一定学习从图像空间到未指定的潜在空间的唯一映射换句话说，具有相似未指定因子的样本可能会映射到显著不同的未指定潜变量。这一观察激励我们的成对反向循环损失方程。（5），其在未被执行的字节z1”和z2”具有较大的字节差的情况下惩罚编码器，但是，如果不从该或该初始地被执行的端口向该路径映射，则。这种修改与以前作品中循环一致性的典型用法形成对比我们发现，最小化方程中的成对反向循环损失（5）将一个抽象概念视为一个抽象概念的一部分（ziz1′′+ziz2′′），bothin损失值和解缠程度的术语m inLre ve rse=Ex1，x2p（x），ziN（0，I）[||fz（Dec（zi，fs（x1）ENC4实验−fz（Dec（zi，fs（x2）））||第1页]（五）我们在三个数据集上评估了我们的模型的性能：MNIST [28]，2DSprites [24，29]和LineMod [30，31]。我们把实验分成两部分。第一部分评估我们的模型在解纠缠表示的质量方面的性能第二部分评估我们的模型的图像生成能力我们将所得结果与文献[7，8]中的结果进行了我们使用的三个数据集如下所述用周期一致的VAE解开变异因素9MNIST。MNIST数据集[28]由分布在10个类别中的手写数字组成在MNIST的情况下，指定的因素是数字标识，而未指定的因素控制数字倾斜度、笔画宽度等。2D精灵2D精灵由游戏角色（精灵）组成，动画是用于小规模独立游戏开发的不同姿势我们从[29]下载数据集，该数据集由480个独特的字符组成，根据性别、头发类型、体型、盔甲类型、手臂类型和护胫类型的变化每个独特的角色都与298个不同的姿势相关联，其中120个有武器，其余的没有。数据集中总共有143040张图像训练集、验证集和测试集分别包含320、80和80个唯一字符这意味着训练、验证和测试分割中的每一个中的角色身份是相互排斥的，并且数据集提供了在完全看不见的对象身份上测试我们的模型的机会2D精灵的指定因素潜在空间与角色身份相关联，而姿势与未指定因素相关联线-MOD。LineMod [30]是一个对象识别和3D姿态估计数据集，具有15个独特的对象：我们使用数据集的合成版本[31]，它具有在不同视点下渲染的相同对象架构z暗s暗淡z列加速Z测试符合 s列车acc. s测试acc.MNISTSzab'oetal.161697.6596.0898.8998.46Mathieu等人161670.8566.8399.3798.52我们161617.7217.5699.7298.35Szab'oetal.646499.6998.1499.4198.05Mathieu等人646474.9472.2099.9498.64我们646426.0426.5599.9598.332D精灵Szab'oetal.5126499.7299.6399.8599.79Mathieu等人5126412.0511.9899.1896.75我们5126411.5511.4798.5397.16Szab'oetal.102451299.7999.6599.8799.76Mathieu等人102451212.4812.2599.2297.45我们102451211.2711.6198.1397.22线模式Szab'oetal.64256100.0100.0100.0100.0Mathieu等人6425690.1489.17100.0100.0我们6425662.1157.1799.9999.86Szab'oetal.256512100.099.97100.0100.0Mathieu等人25651286.8786.46100.0100.0我们25651260.3457.70100.0100.0表1. 三个数据集的定量结果z和s潜在空间的分类准确度是其中存在的指定因子信息量的良好指标由于我们的目标是为未指定和指定的变化因素提供分解表示，因此z潜在空间越低越好，s潜在空间越高越好10A.H. Jha等人每个类别有1541张图像，我们使用1000张图像进行训练，241张用于验证，300张用于测试。指定的因子潜在空间对该数据集中的对象身份进行未指定因子潜在空间对数据集中的其余变异因子进行在前向循环中，我们随机选取由相同的指定变异因子定义的图像对在反向循环期间，图像的选择完全随机。我们所有的模型都是使用PyTorch实现的[32]。有关我们架构的具体详情载于补充资料。4.1解纠缠表示的质量我们建立了类似于[7]的定量评价实验我们分别在每个竞争模型生成的指定和未指定的潜在嵌入上训练一个两层神经网络分类器由于指定的变异因子与每个数据集中的可用标签相关联，因此分类准确度给出了与两个潜在子空间中存在的指定变异因子相关的信息的公平度量如果这些因素被完全分解，我们期望在指定的潜在空间中的分类准确度是完美的，而在未指定的潜在空间中的分类准确度接近于偶然。在这个实验中，我们还研究了潜在空间维度变化的影响我们在表1中报告了定量比较表1中的定量结果显示了我们提出的周期一致VAE架构在所有三个数据集上以及潜在空间的不同维度上的一致趋势未指定的潜在子空间中的分类准确度对于所提出的架构是最小的，而它与指定的潜在子空间中的其他人相当这些趋势表明，在三个竞争模型中，所提出的模型向未指定的潜在子空间泄漏的指定因子信息最少这种特定信息的有限泄漏量可以归因于反向循环一致性损失，该损失显式地训练编码器以更有效地解开因子。图五、MNIST的z潜在空间的t-SNE图之间的比较根据（a）[8]中的类身份，我们可以看到良好的集群形成，这表明单独的对抗训练并不能促进z与s的边缘独立性。Mathieu我们的工作（c）将重新参数化与逆循环损失相结合，以产生关于特定因素的混乱用周期一致的VAE解开变异因素11我们还将未指定的潜在空间可视化为t-SNE图[33]，以基于MNIST数据集的可用标签检查任何表观结构的存在图图5显示了每个竞争模型获得的未指定潜在空间的t-SNE图这些点是彩色编码的，以指示指定的因子标签，在MNIST的情况下，这些因子标签是数字标识。我们可以在图中看到清晰的簇结构图5（a）表明在未指定潜在空间中指定因素信息的强烈存在该观察结果与表1中所示的定量结果一致如图5（b）和（c），Mathieu et al.的模型[7]和我们的模型似乎在特定因素信息方面具有相似的混淆程度然而，由于t-SNE图是近似值，因此定量结果报告在表中。1更好地捕捉性能比较。[7，8]中的架构分别利用对抗训练与常规和变分自动编码器的组合尽管S zab´oetal的未指定潜在嵌入中存在指定因素信息。如[8]所述，它通过结合指定和未指定的因素（如第4.2）。这个明显矛盾的观察结果表明，解码器以某种方式学会忽略未指定潜在空间中的指定因素信息我们推测，由于对抗性损失一起更新解码器和编码器参数，并且以该顺序，编码器保持不太可能解开潜在空间。可以做出类似的论点，Mathieu et al.s [7]体系结构没有显式地训练编码器来解开变化因素，从而在未指定的潜在空间中获得更高的分类准确性这图六、通过交换z和s变量在MNIST上生成图像结果最上面的一行和第一列从测试集中随机选择剩余的网格是通过从第一列的数字中取z并从第一行的数字中取s来生成的这使行中的未指定因子保持不变，列中的指定因子保持不变12A.H. Jha等人然而，由于VAE框架，在很大程度上减轻了行为，该框架通过在新图像生成时执行重新参数化来促进未指定潜在子空间中的类别混淆我们的方法也从重新参数化中受益，但是，未指定的潜在空间嵌入的分类准确度明显较低，这表明编码器通过最小化反向循环一致性损失来学习更好地理清因素4.2图像生成质量在三种不同的设置中评估图像生成的质量首先，我们测试了模型将不同图像中的未指定和指定因素结合起来生成新图像的能力结果以图像网格的形式显示，其中第一行和第一列是从测试集。剩余的网格显示通过组合生成的图像第一行图像中的指定因子和未指定因子在第一列的人对于该评估，我们将我们的结果与pri或w或ks[7]和d [8]进行比较。类似于Szabo’et al.的非广告应用程序。[8]，我们的模型对z和s变量的维度选择具有鲁棒性我们强调，与基值相比，我们的模型避免了显着更高维度的潜变量的退化，尽管它是一个非对抗性的架构。其次，我们给出了线性插值在潜空间中的效果左上角和右下角的图像是图7.第一次会议。通过交换z和s变量在2D Sprites上生成图像网格的布置与图相同六、用周期一致的VAE解开变异因素13图8. 通过交换z和s变量，在LineMod上生成图像网格的布置与图相同六、正如在第二节中所解释的4.2，我们没有观察到物体之间的视点的直接转移从测试集取得并且类似于第一评估，通过保持z跨行恒定并且s跨列恒定来生成剩余图像最后，我们通过调节s变量并直接从z变量的高斯先验p（z）中采样数据点来检查我们模型的条件图像生成能力通过组合来自不同来源的z和s生成新图像的第一次评估如图6，7和8所示LineMod数据集由具有复杂几何结构的图像组成，这些图像不共享固定的参考系例如，对于共同视点，“鸭子”的图像因此，如从图1显而易见的8、将未指定因素的转移解释为观点转移并不完全正确。潜在空间中的线性内插和经由从p（z）采样的条件图像生成的结果在图2A和2B中示出分别为9和105结论在本文中，我们介绍了一种简单而有效的方法，通过利用周期一致性的思想来解开特定和非特定的变异因素所提出的架构只需要以具有类似指定因素的数据对的形式进行弱监督建筑不产生退化14A.H. Jha等人图9.第九条。我们的模型在z和s潜在空间中的线性插值结果左上角和右下角的图像取自测试集。类似于图在图6中，z变量在行中是恒定的，而s在列中是恒定的图10个。通过调节取自测试图像的s变量并从N（0，I）中采样z变量来生成图像解决方案，并且对潜在空间的维度的选择是鲁棒的通过我们的实验评估，我们发现，即使对抗性训练产生了良好的视觉重建，编码器也不一定能有效地学会解开变异因素。另一方面，我们的模型在三个不同的数据集上取得了令人信服的定量结果，并显示出作为生成模型的良好图像生成能力我们还注意到，与GAN相比，基于VAE的生成模型生成的图像不那么清晰，我们的模型也不例外。解决这个问题的一种方法可能是训练我们的循环一致性VAE作为第一步，然后通过对抗性和反向循环一致性损失的组合来训练解码器这种训练策略可以提高所生成的图像的清晰度，同时保持编码器的解缠能力另一个有趣的方向是进一步探索以无监督的方式解开变异因素的方法确认我们感谢匿名ECCV评审员的深刻反馈我们感谢印度理工学院德里的Infosys人工智能中心部分支持这项研究。我们也感谢Verisk Analytics对其成功执行的支持用周期一致的VAE解开变异因素15引用1. Edwards ， H.Storkey ， A.J. ：审查对手的陈述在：学习代表国际会议ICLR2016（2016）2. 路易斯角Swersky，K.，李，Y.，Welling，M.，Zemel，R.S.：变分公平自动编码器。在：学习代表国际会议ICLR2016（2016）3. Krizhevsky，A.，萨茨克弗岛Hinton，G.E.：使用深度卷积神经网络的Imagenet分类在：第25届神经信息处理系统国际会议论文集-第1卷。NIPS4. Goodfellow，I.J.Pouget-Abadie，J.Mirza，M.，徐，B.，沃德-法利，D.，Ozair，S.，南卡罗来纳州考维尔Bengio，Y.：生成对抗网络。在：NIPS。（2014）26725. Radford，A.梅斯湖Chintala，S.：使用深度卷积生成对抗网络进行无监督表示学习在：学习代表国际会议ICLR2016（2016）6. Xiao，T.，Hong，J.，Ma，J.：DNA-GAN：从多属性图像中学习解纠缠表示。arXiv预印本arXiv：1711.05415（2017）7. Mathieu，M.，赵，J.J.，Sprechmann，P.，Ramesh，A.，LeCun，Y.：使用对抗性训练解开深度表示中的变化因素在：NIPS。（2016）50418. Szab'o，A.， Hu，Q.，波特尼埃， Zwicker，M.， Favaro，P.：在定义独立变异因子中的所有分类。arXiv预印本arXiv：1711.02245（2017）9. 金玛，D.P.，Welling，M.：自动编码变分贝叶斯。在：学习代表国际会议ICLR2014（2014）10.他D夏，Y.，Qin，T.，Wang，L.，美国，Yu，N.，Liu，T.，Ma，W.：机器翻译的双重学习在：神经信息处理系统的进展29。（2016）82011.Zhu，T.， Kr¨ahenbu¨hl，P.， Aubr y，M. 黄，Q.， Efros，A. 答：通过3D引导的周期一致性来确定对应关系。In：CVPR，IEEE Computer Society（2016）11712.戈达尔角Mac Aodha，O.，Brostow，G.J.：具有左右一致性的无监督单目深度估计在：CVPR中。（2017年）13.Zhu，J.，Park，T.Isola，P.，Efros，A.A.：使用循环一致性对抗网络的未配对图像到图像翻译In：ICCV，IEEE Computer Society（2017）224214.霍夫曼，J.，Tzeng，E.，Park，T.Zhu，J.，Isola，P.，Saenko，K.埃夫罗斯，匿名戒酒会达雷尔，T.：CyCADA：周期一致的对抗域适应。arXiv预印本arXiv：1711.03213（2017）15.Ghahramani，Z.：阶乘学习和EM算法。第七届神经信息处理系统国际会议论文集NIPS16.Tenenbaum，J.B.，弗里曼，W.T.：使用双线性模型分离样式和内容神经计算12（6）（2000）124717.Desjardins，G.，南卡罗来纳州考维尔Bengio，Y.：通过生成纠缠解开变异因素ArXiv预印本arXiv：1210.5474（2012）18.Reed，S.E.，Sohn，K.，张玉，Lee，H.：学习用流形相互作用解开变异因素在：ICML。JMLR研讨会和会议记录第32JMLR.org（2014）143116A.H. Jha等人19.唐，Y.，Salakhutdinov河Hinton，G.E.：深度朗伯网络载于：ICML，www.example.com/Omnipress（2012年）icml.cc20.Kulkarni，T. D.，Whitney，W.F.，Kohli，P.，Tenenbaum，J.B.：深度卷积逆图形网络。在：第28届神经信息处理系统国际会议论文集-第2卷。NIPS21.特兰湖Yin，X.，刘X：解纠缠表示学习GAN在姿态不变人脸识别中的应用。IEEE计算机视觉与模式识别会议（CVPR）（2017年7月）22.多纳休角Balsubbramani，A.，McAuley，J.，Lipton，Z.C.：生成对抗网络的潜在空间的语义分解在：学习代表国际会议ICLR2018（2018）23.Berthelot，D.，Schumm，T.，梅斯湖：BEGAN：边界平衡生成对抗网络。arXiv预印本arXiv：1703.10717（2017）24.Reed，S.E.，张玉，张玉，Lee，H.：深度视觉类比制作。在：NIPS。（2015）125225.Makhzani，A.，Shlens，J.，Jaitly，N.，Goodfellow，I.：对抗性自动编码器。在：学习代表国际会议（2016年）26.Hu，Q.， Szab'o，A.，波特尼埃， Zwicker，M.， Favaro，P.：通过混合变异因素来区分变异因素。arXiv预印本arXiv：1711.07410（2017）27.Bouchacourt，D.富冈河Nowozin，S.：多级变分自动编码器：从分组观察中学习解纠缠表示在：第三十二届AAAI人工智能会议的进展，新奥尔良，路易斯安那州，美国，2018年2月2日至7日（2018年）28. Lecun，Y.，博图湖Bengio，Y.，哈夫纳，P.：基于梯度的学习应用到文档识别。在：IEEE的会议记录（1998年）227829. http://lpc.opengameart.org/：解放像素杯访问时间：2018-02-21。30.Hinterstoisser，S.，莱佩蒂Ilic，S.，Holzer，S.，Bradski，G.，Konolige，K.，Navab，N.：基于模型的训练，检测和姿态估计的无纹理三维物体在严重混乱的场景。第11届亚洲计算机视觉会议论文集-第一卷ACCV31.Wohlhart，P.，Lepetit，V.：用于对象识别和3D姿态估计的学习描述符In：CVPR，IEEE Computer Society（2015）310932.Paszke ，A. ，格罗斯，S. ， Chintala ，S. ， Chanan ， G. ，Yang ，E. ，DeVito，Z.，林芝，Desmaison，A.，安蒂加湖Lerer，A.：PyTorch中的自动Differentiation（2017年）33.范德马滕湖，Hinton，G.：使用t-SNE可视化高维数据Journal of MachineLearning Research9：2579-2605（2008年11月）

下载后可阅读完整内容，剩余1页未读，立即下载