变分自动编码器对PCA方向的追求

8 浏览量更新于2023-10-19 收藏 703KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1变分自动编码器追求PCA方向（偶然）Michal Rol 'ınekZietlow、Dominik Zietlow和Georg Martius德国图宾根市马克斯-普朗克智能系统{mrolinek，dzietlow，gmartius}@ tue.mpg.de摘要变分自动编码器（VAE）是一个强大的架构，能够表示学习和生成建模。当涉及到学习可解释的（分解的）表示时，VAE及其变体表现出无与伦比的性能。然而，其原因尚不清楚，因为需要对潜在嵌入进行非常特定的对齐，但VAE的设计并不以任何明确的方式鼓励它。我们针对这一问题，作出如下解释：编码器中的对角近似与固有的随机性一起迫使解码器具有局部正交性。促进重建和正交性的局部行为与PCA嵌入的选择密切匹配。除了提供一个直观的理解，我们证明了充分的理论分析以及实验的声明。1. 介绍变分自动编码器（VAE）[24，36]是现代深度学习的基础架构之一。它既是一种生成模型，也是一种表征学习技术。生成模型在计算机视觉中占主导地位[25，15，22，16]，但有显著的例外，例如生成组合图[26]。至于表示学习，有各种各样的应用，包括图像插值[19]，单次泛化[35]，语言模型[43]，语音转换[3]等等。除了直接应用外，VAE还体现了变分方法在深度学习中的成功，并激发了广泛的正在进行的研究[23，44]。最近，可解释的潜在表征的无监督学习受到了很多关注。潜码的可解释性是一个直观清晰的概念。例如，当表示人脸时，一个潜在变量将仅对应于人的性别，另一个对应于肤色，还有一个对应于头发颜色等等。一旦这样[2]这些作者对这项工作的贡献是相等的。图1.针对训练的β-VAE，在来自CelebA数据集[28]的前实验图像上的单个潜在坐标上的潜在遍历潜在坐标清楚地隔离了方位角。[17]作者的作品发现一种表示，其允许可解释的潜在代码操作，这在各种应用中是期望的;最近，例如，在强化学习[39，18，11，41，34]。术语解纠缠[10，2，29]提供了一种更正式的方法。如果每个潜在组件精确地编码数据的一个“方面”（生成因子），则表示被认为是解纠缠的。根据当前的分离指标[17、21、6、29]，基于VAE的体系结构（β-VAE [17]，TCVAE [6]，FactorVAE [21]）在基准测试中占主导地位，将其他方法（如Info-GAN [7]和DCIGN [25]）抛在后面。示例性地，β -VAE的潜在遍历在图1B中示出。1，其中恰好有一个生成因子被隔离（面方位角）。基于VAE的架构在解缠任务上的成功一个令人惊讶的方面是，VAE在其自身的设计功能上都受到了挑战，作为生成模型[14，12]和对数似然优化器[30，33]。然而，没有这样的要求是在解开。另一个令人惊讶的事实是，解纠缠需要以下功能：：代表性的低维流形必须与坐标轴很好地对准。然而，VAE的设计并没有暗示任何这样的机制。相反，理想化的对数似然目标例如对于对准中的旋转变化是不变的。这些观察结果使人们怀疑VAE的内部工作机制还没有得到充分的理解。最近的几个作品探讨了这个问题[5，40，8，1，12，31，9]。然而，一个机械的解释VAE在本文中，我们隔离的VAE（也β-VAE）的内部机制，负责选择一个特定的潜在表示和它的对齐。我们给出理论上的1240612407NIϕi=1∈||→→--分析也涵盖了非线性的情况下，直观地解释所发现的动力学。我们表明，这种机制，nism促进嵌入变换的局部正交性，并澄清这种正交性如何对应于良好的解纠缠。此外，我们发现这种机制和经典的主成分分析（PCA）算法之间的强相似性。我们在实验中证实了我们的理论发现。我们的理论方法在以下方面是特别的：（a）我们的分析基础上的实施损失最后，将先验p（z）设置为（0，），并且假设编码器具有以下形式：.ΣEnc（x）q（z|x）=N µ m（x），diagσ2（x），（3）其中，μ和σ是取决于参数的确定性映射。特别注意，协方差矩阵被强制为对角的。这对本研究的主要结果具有重要意义（2）中的KL-散度可以以封闭形式计算为：与通常认为的理想化的（2）我们在实践中发现了一个普遍存在的制度LKL= 1Σd.Σµ2（xi）+ σ2（xi）−log σ2（xi）−1.（四）tice，并利用它的一个重要的简化。这种简化是实现形式化的关键步骤。这些结果除了本身具有显著性外，还为“为什么β -VAE不缠结”提供了可靠的解释2. 背景让我们首先回顾VAE，PCA和奇异值分解（SVD）的基础知识，以及更详细的解纠缠概述。2.1. 变分自动编码器设xiN 是由N i.i.d. sample- plesxiX=Rnof a randomvariable x. 自动编码器框架使用两个映射进行操作，编码器Enc：XZ和解码器Decθ：ZX，其中Z= Rd称为潜空间。在VAE的情况下，两个映射都是概率的，并且假设Z上的固定先验分布p（z）由于x的分布也是固定的（实际数据分布q（x）），映射Encθ和Decθ分别导出联合分布q（x，z）=qθ（z x）q（x）和p（x，z）=pθ（x z）p（z）（省略了对参数θ和θ的依赖性）。理想化的VAE对象是边缘化的对数似然ΣNlogp（xi）。（一）i=1然而，这一目标并不容易处理，可以通过证据下限（ELBO）来近似[24]。对于固定的xi，对数似然logp（xi）的下界为：Elog p（xi|z）− DKL（q（z |xi）n（z）），（2）2j j jj=1在实际实现中，来自（2）用平方损失或交叉熵损失来近似。2.2. 退纠缠在学习可解释表示的上下文中[2，17，5，40，38]，假设数据源自具有某些生成因子的过程是有用的。例如，对于面部图像，这可以是面部方位角、皮肤亮度、头发长度等。解纠缠表示可以定义为个体潜变量对个体生成因素的变化敏感，而对其他变化相对不敏感的表示[2]。虽然量化解纠缠是不平凡的，但已经提出了几个度量[21，17，6]。还要注意的是，如果不先学习一个能够很好地重建的足够有表现力的潜在表征，解开纠缠是不可能的。在无监督设置中，生成因子当然是未知的，并且学习必须诉诸于统计特性。线性降维技术展示了两种基本的统计方法。主成分分析（PCA）可以很好地隔离数据中的方差源，而独立成分分析（ICA）可以恢复因子分解的表示，参见[37]最近的评论。需要说明的一点是，解纠缠对潜在嵌入的旋转很敏感。根据上面的例子，让我们用a，s和h表示连续的与面部方位角、皮肤亮度和头发长度相对应的值。然后，如果我们将理想的潜在表示改变如下z q（z|xi）其中第一项对应于重构损失一联系我们0的情况。75 a +0。25秒+0。61小时0的情况。25a+ 0。75秒-0。61小时后，（5）12408第二个是潜在代表之间的KL分歧表示q（z|xi）和先验分布p（z）。一h−0。61a +0。61秒+0。50h变体β-VAE [17]在KL项，用于调节重建（第一项）和与先验的接近度之间的权衡我们的分析也会自动涵盖这个案例我们得到了一个同样具有表现力的表示，重建的术语（事实上，我们只乘以一个3D旋转矩阵），但个别潜在变量完全失去了其可解释的意义。12409∈∈∈| |D∈→I∈I∈nn•→nd•→•→D2.3. PCA和潜在表示让我们更仔细地研究PCA如何选择潜在嵌入的对齐以及为什么它很重要。众所周知[4]，对于具有编码器Y′的线性自动编码器 Rd×n，解码器YRn×d，平方误差作为重建损失，目标Σ在PCA的例子之后，我们形式化了哪些线性映射具有所需的命题1（保轴线性映射）。设MRn×d，其中0xi∈XΣlogEε（xi）<$Ji ε（x）<$（十八）此外，重建损失可以进一步分解为两部分：确定性和随机性。因为-S. t.xi∈XLKL（xi）=C，（19）mer定义为Lrec（xi）=<$Decθ（µ（xi））−xi<$2（13）并捕获平均编码器的平方损失。而随机损失Lrec（xi）=E<$Decθ（µ（xi））−Decθ（Enc<$（xi））<$2（14）纯粹由注入编码器的噪声引起。第四个提案。如果随机估计Decθ（Encθ（xi））在Decθ（μ（xi））附近无偏，则其中ε（xi）如（16）中那样被采样现在有几点意见该优化不是针对网络参数，而是直接针对所有Vi、σ i的值（仅受（19）约束）。目标和约束都涉及全局损失，而不是每个样本的损失。实际上，Vi、σ j中没有一个干扰VAE物镜的其余部分（12）。L记录（xi）=Lrec（xi）+Lrec（xi）。（十五）（单调）对数函数的存在有一个主要优点;我们可以描述（18）的所有全局最小值，这种分解类似于平方误差的经典偏差-方差分解[20]。3.3. 主要结果现在，我们终于为论文的中心主张提供了理论证据优化重建损失的随机部分促进了解码器的局部正交性因此，我们建立了一个优化问题，它允许我们独立于其他两个随机损失来优化随机损失（14）。这将隔离其对训练动态的影响。为了说明局部正交性，我们为每个xi引入解码器在点μ（xi）处的雅可比（线性近似）Ji，即Decθ（µ（xi））Ji =µ（xi）。因为，根据（3），编码器可以写为：Enc（xi）=µ（xi）+ε（xi），其中封闭形式这在下面的定理中得到了体现，这项工作的技术核心。定理2（主要结果）. 以下适用于优化问题（18，19）：(a) 每个局部最小值都是全局最小值。(b) 在每个全局最小值中，每个Ji的列都是正交的。充分的证明以及明确的描述的最小值是补充。A.1.然而，在下一节中给出了线性解码器示例的主要步骤的概述。无可否认，（18）中对数项的存在使我们的论证变得间接。然而，有几点需要说明。首先，如前所述，正交性不是VAE的设计特征。从这个意义上说，我们的结果也是间接的，这并不奇怪。此外，更重要的是，定理2还意味着，局部正交性甚至对于纯（无对数）随机ε（xi）<$N。2i我们可以近似随机损失（14），···、12413我i2i我2J（十六）损失推论1. 对于固定的xi∈X，考虑下式的一个子问题：¨E？Decθ（µ（x））−.Σ¨Decθ（μ（x））+Ji ε（x）<$（18）定义为我2ε（xi）=EJε（x）minVi，σi>0Eε（xi）<$Ji ε（x）<$（二十）我ε（xi）S. t.李嘉诚（xi）= C i.（二十一）124142≥X−22−ǁ ǁ→45此外，关于局部（全局）min- ima结构的结果也成立：(a) 每个局部最小值都是全局最小值。在这里我们已经看到，潜变量x似乎对重建更有影响。我们希望x的精度比y高。现在，对于ε=（εx，εy），我们计算(b) 在每个全局最小值中，每个Ji的列是正交的M1ε=4εx+εy2+−3εx+εy<$2+ 5εx−εy总而言之，定理2证明了本节开头所述论文的中心思想。与PCA的类比现在也更清楚了。局部地，VAE优化重建和正交性之间的折衷。该结果不受方程（2）中的势β项的影响，尽管可能需要适当的β来确保极化状态。在得到期望值后，我们可以利用ε平均值为零，EM1ε=var（4 ε x+ ε y）+var（−3ε x+ ε y）+var（5ε x− ε y）。最后，我们使用对于不相关的随机变量A和B，我们有var（A+cB）= varA+c2varB。重新排列后，我们得到4. 校样大纲2 222 2 22 2 2E<$M1ε<$=σx（4 +（−3）+ 5）+σy（1 + 1 +（−1））在本节中，我们将概述证明的关键步骤：= 50σ2+ 3σ2，定理2，更值得注意的是，它们背后X y完整的证据可以在Suppl. A.1.其中σ=（σ2，σ2）。注意，系数是X y我们将把自己限制在一个简单的设置。考虑一个线性解码器M与SVDM=UVT，这消除了局部线性化的必要性这将目标（18）从所有示例xi上的与优化问题（18，19）一样，我们采用固定列向量的平方模。这将优化问题（22）变成了一个简单的练习，特别是在意识到（23）固定了乘积σ x σ y 的值之后。事实上，我们甚至可以在平凡不等式a2 + b22ab中设置a2= 50σ x和b2= 3σ y，并发现E<$M1ε<$2= 50σ2+ 3σ2≥2·<$50·3·e−C<$24。5e-C，平均编码器（想象一个性能良好的编码器）。X y在接下来的段落中，我们分别执行opti-（二十五）参数σ的最优化和参数σ的最优化其中当σ2/σ2= 3/50时实现相等。这也是IM-X y矩阵V。4.1. 称重精度对于这一部分，我们固定解码器矩阵M并在值σ2=（σ2，. . . ，σ2）。简化的目标是正如预期的那样，变量x的精度 log σ2将显著高于y。下面是关于一般情况的两点意见• 不平等的完整版本（25）依赖于con-1minD（22）第二十二章：腔的日志功能;特别是，在（版本JensenσS. t.ε<$N（0，diag（σ2））Σ- logσj=C，（23）J目标的最小值取决于列范数的乘积。这也适用于未简化的设置。其中，由于平均编码器是固定的，因此（10）中的µ 2项消失。价值观l〇g（σj）不能被认为是对于不同潜坐标所允许的精度对数函数甚至建议考虑有效位数。问题（22）然后要求分配我们现在将在由下式给出的示例线性解码器M1：R2→R3上解决该问题：4.2. 隔离差异现在我们可以找到最佳的精度值，重点转移到最佳旋转潜在空间上。为了理解这样的旋转如何影响目标（22）的最小值，让我们考虑下面的例子，其中我们再次求助于解码器矩阵M2：想象一下，编码器改变了潜在的表示，45度旋转然后，我们可以通过首先取消此旋转来调2·212415√y′整解码器M1。特别地，我们设置M2= M1Rθ，其中R θ是二维旋转矩阵，旋转角度为θ。我们.ΣX4x+y有.′Σ1√2（3x′+ 5y′）M1：y<$→x−3x+ y <$。（二十四）5x−yM2：x<$→<$2<$2（−2x′−y′）<$2（3x′ +2y′）124162612452产品Vol图3. MV中正交性的2D图示。那个... 向量w1、w2是MV向量的列。最小化乘积ωw1ωw2ω，同时保持体积ωw1ωw2ωcos（α），结果为ω1ω w2。并如前所述进行类似的优化，.61·45EMε=σ+σ≥2e-C<$52。4e-C。表1. 训练时间的百分比，其中KKL<3%（公式。（30）持续到最后。报告了低（数据集依赖性）和高（10）潜在维度的β-VAEβ-VAE（差）β-VAE（10）精灵九十七百分之八九十6%fMNIST九十九。百分之八九十七百分之七MNIST九十九。百分之八九十九。百分之五Synth. 是林书九十九。百分之八九十六。百分之七Synth. 非林。九十九。百分之九九十八百分之五5. 实验我们进行了几个实验，不同的archi-22x2y4（二十六）结构和数据集来验证我们的结果经验。我们展示了两极化政权的普遍性，强势或-我们看到，目标的最小值是两倍多，这是一个实质性的差异。在高层次上，M1是解码器的更好选择的原因是变量x和y对重构的影响非常不同。这允许在变量y上节省一些精度，因为它的影响较小，并将其用于x，在那里它更有益。对于更多数量的潜变量，在潜变量的影响中实现“最大拉伸”的一种方法是选择它们，总是选择下一个，以便其影响最大化。这就是PCA的贪婪算法。让我们考虑一个稍微技术性的声明。我们在（25）和（26）中看到，在找到σ的最优值之后，剩下的目标是矩阵M的列范数Q的乘积。让我们用 col（M）表示这样的量：jM·j。然后对于一个固定的矩阵M，我们优化⊤（β-）VAE的正交效应以及与解纠缠的关系。5.1. 设置建筑。我们评估了经典的VAE、β-VAE（一种普通的自动编码器）和β-VAE插值，后者去除了临界对角近似（ 3 ），并为每个样本生成完整的协方差矩阵 ψ（xi）。由此产生的损失的KL条件相应改变（见补编第10号）。详情见B.3）。数据集。我们对著名的数据集dSprites [32]，MNIST[27]和FashionMNIST [42]以及两个合成数据集进行了评估。对于这两个合成任务，输入数据X是通过将单位平方V= [0，1]2嵌入到更高维度中来生成的。然后，期望潜在表示相对于V的轴被解开。在一种情况下（合成。是林书）我们使用了线性变换flin：R2→R3，另一个是非线性的（Synth.最小列数（MVV）（27）非林。）嵌入f非线性：R2→R6。的确切在正交矩阵V上。这个问题可以用几何学来解释。MV的列向量是基向量ej的图像。因此，乘积给出了体积（单位立方体的图像）的上界。转换的选择可以在Suppl.B. 毛皮-有关网络结构和训练参数的其他信息也在补充资料中提供。B.4.解纠缠度量。为了量化表示的解纠缠，在[6]中引入了所谓的互信息间隙（Mutual Information Gap，简称EGA）。因为他不太好-Y日本MVJej≥（{MV[0，1]d}）。（二十八）对于连续变量，我们使用调整后的定义，包括连续和离散变量，简称为解纠缠分数。细节被描述然而，由于正交矩阵V是等距的，它们不会改变该体积。此外，当向量MV∈j正交时，边界（28）精确地是因此，优化列向量（MV）的唯一方法是收紧边界，⊤12417也就是找到MV的列向量正交的V，参见图3。在这方面，重要的是，M沿着每个轴执行不同的缩放（使用θ），这允许改变向量MV_e，j之间的角度（参见图1）。图2）。见补编B.1。正如在解缠的情况下，解缠分数是0和1之间的数字，其中更高的值意味着更强的解缠。非线性度量。为了度量定理2的实际效果，我们引入了非正交性的度量如命题1和图2中所论证的，对于好的解码器M及其SVDM=UV，矩阵V应该是平凡的（带符号置换矩阵）。我们用如下定义的与非平凡性的距离（DtO）来测量非平凡性对于每个xi，i =1，. . . ，N，再次使用12418103050我ǁ· ǁ表2.解码器的正交性距离Dt0（等式29）和不同架构和数据集的解纠缠分数的结果。DtO值越低越好，Disent值越高越好价值观更好。随机解码器为数字提供了一个简单的基线β-VAEVAEAEβ-VAE随机解码器精灵Synth.是林书Synth. 非林。MNISTfMNIST不同意↑DtO↓Disent。↑DtO↓Disent。↑DtO↓DtO ↓DtO ↓0的情况。33± 0。150的情况。76± 0。080的情况。99± 0。010的情况。00± 0。000的情况。73± 0。160的情况。18± 0。02––0的情况。21 ±0。101 .一、08±0. 15––––1 .一、59±0。081 .一、36±0。050的情况。09 ±0. 041 .一、62±0。030的情况。71 ±0。190的情况。33 ±0。180的情况。59 ±0。300的情况。54 ±0。131 .一、83±0。051 .一、87±0 . 01，P<0.05。030的情况。12 ±0。061 .一、73±0。140的情况。71 ±0。310的情况。34 ±0。350的情况。42 ±0。240的情况。55 ±0。021 .一、93±0。08二、02 ±0.081 .一、86 ±0。110的情况。79±0。210的情况。89±0。16二、11 ±0。11二、11 ±0。11解码器在xi处的雅可比矩阵Ji及其SVDJi=UiiV5.3.非纠缠性和非纠缠性并定义1ΣNDtO= Ni=1Vi−P（Vi）现在，我们通过对各种架构和数据集的DtO（29）进行验证来为定理2提供证据，参见表2。结果清楚地支持这样的说法，即基于VAE的架构确实努力实现局部正交，其中F是Frobenius范数，P（Vi）是最接近V（在L1意义上）的带符号置换矩阵。找到最近的置换矩阵是通过混合整数线性规划解决最优（见补充。B.2）。5.2. 两极化制度在第3.2节中，我们假设VAE在极化状态下工作，并用LKL（10）近似LKL（实现目标（4在表1中，我们表明，极化机制确实在所有示例中在短暂的初始阶段之后主导了训练。我们报告的分数的训练时间，其中相对误差nality通过推广β-VAE架构，使得近似后验是任何多元高斯（β- VAE），目标变得旋转对称（就像理想化目标一样）。因此，没有优先考虑具体的对齐。简单的自动编码器也不支持潜在空间的特定方向。另一个重要的观察结果是DtO与解缠结评分之间的明确相关性。我们在图4中显示了这一点，其中显示了dSprites数据集上相同β-VAE架构我们使用了最先进的值β= 4[17]。其他实验报告于Suppl. C.吉隆坡为|LKL−LK L|LKL（三十）6. 讨论持续保持在3%以下，直到结束（评估ev-共生产500批）。可以通过以下方式选择行为变量：var（µ j（xi））> 0。五、1.21.11.00.90.80.70.1 0.2 0.3 0.4 0.5解缠评分图4.潜在表征的对齐（低DtO，（29））导致更好的解纠缠（更高的分数）。每个数据点对应于10、30或50个时期的独立运行。DTO12419我们分离的机制 VAE ，导致当地或 -thogonalization，并在效果上，执行本地PCA。此外，我们还以直观的方式、正式的方式和实验的方式证明了这种机制的功能我们还解释了为什么这种行为对于实施解纠缠表示是可取的。我们的见解表明，VAE利用方差的差异来形成潜在空间- 在线性情况下折叠到PCA。这并不直接鼓励因式分解的潜在表征。考虑到这一点，最近对（β-）VAE的改进[6，21，40]纳入了促进精确独立性的额外术语是完全有意义的VAE间接地促进正交性也是不令人满意的。设计允许对该特性进行显式控制的体系结构似乎是有益的。12420引用[1] 亚历山大·阿莱米，本·普尔，伊恩·菲舍尔，约书亚·狄龙，里夫·A。索罗斯和凯文·墨菲修理坏掉的ELBO在proc 35th Intl. 机器学习会议（ICML），第80卷，第159-168页。PMLR，2018。1[2] Y. Bengio，A. Courville和P。文森特表征学习：回顾与新观点。 IEEE Transactions on Pattern Analysis andMachine Intelligence，35（8）：1798- 1828，2013年8月。一、二[3] 梅琳·布劳和乔迪·博纳达使用变分自编码器的语音建模和转换。在国际米兰-SPEECH，第1770-1774页，2016年。1[4] H. Bourlard和Y.坎普多层感知器与奇异值分解的自动关联。Mandarin pt M217，飞利浦研究实验室，比利时布鲁塞尔，1987年。3[5] 克里斯托弗·P伯吉斯、伊琳娜·希金斯、阿尔卡·马齐、尼克·沃特斯、纪尧姆·德斯贾丁和亚历山大·德·勒希纳。理解 β-vae 中的解缠。 ArXiv 电子打印，abs/1804.03599，2018。一、二、三[6] 陈天琦李雪晨Roger B. Grosse，and David K.杜弗诺分离变量自动编码器中的解纠缠源。ArXiv电子打印，abs/1802.04942，2018。一、二、七、八[7] X. Chen ，Y. 段河，巴西 - 地Houthooft ， J. 舒尔曼岛Sutskever 和 P. 阿比尔 InfoGAN ： InterpretableRepresentationLearningbyInformationMaximizingGenerative Adversarial Nets. ArXiv电子印刷品，2016年6月。1[8] B.戴，Y.王，J.阿斯顿，G. Hua和D. Wipf 隐藏的人才的变化自动编码器。ArXiv电子打印，abs/1706.05148，2018。1[9] Bin Dai和David Wipf。诊断和增强可重构模型。ArXiv电子打印，abs/1903.05789，2019。1[10] Guillaume Desjardins ， Aaron Courville ， and YoshuaBengio.通过生成纠缠解开变异因素。ArXiv电子印刷品，abs/1210.5474，2012年。1[11] A. Ghadirzadeh，A. Maki，D. Kragic和M.比克曼使用强化学习的深度预测策略训练。2017年IEEE/RSJ英特尔智能机器人和系统国际会议（IROS），第2351-2358页，2017年9月。1[12] Partha Ghosh，Mehdi S. M. Sajjadi，Antonio Vergari，MichaelBlack，andBernhardSch o？l k opf. 从可变到确定性自动编码器。 ArXiv 电子打印， abs/1903.12436 ，2019。1[13] G. H. Golub 和 W. 卡汉计算矩阵的奇异值和伪逆。JournaloftheSocietyforIndustrialandAppliedMathematics工业与应用数学学会：Series B，NumericalAnalysis，2（2）：205-224，1965. 3[14] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。在Z. Ghahra-mani ， M. 威灵角 Cortes ， N. D. Lawrence 和 K. Q.Weinberger ，编辑， Advances in Neural InformationProcessing Systems 27 ，第 2672-2680 页。 CurranAssociates，Inc. 2014. 112421[15] K. Gregor，F. Besse，D.希门尼斯·雷兹岛Danihelka，和D. 维尔斯特拉从概念上压缩。 ArXiv 电子打印，abs/1604.08772，2016. 1[16] Karol Gregor 、 Ivo Danihelka 、 Alex Graves 、 DaniloRezende和Daan Wierstra。Draw：用于图像生成的递归神经网络。在弗朗西斯·巴赫和大卫·布莱，编辑，ICML，第37卷，第1462-1471页。PMLR，2015. 1[17] Irina Higgins 、 Loic Matthey 、 Arka Pal 、 ChristopherBurgess 、 Xavier Glorot 、 Matthew Botvinick 、 ShakirMohamed和Alexander Lerchner。Beta-VAE：使用约束变分框架学习基本视觉概念。ICLR，2017年。一、二、八[18] I.希金斯，A.帕尔、A. A.鲁苏湖Matthey，C. P伯吉斯，A. Pritzel ， M. 博特维尼克角 Blundell 和 A. LerchnerDARLA：改进强化学习中的零次迁移。ArXiv电子版，2017年7月。1[19] X. 侯湖，澳-地Shen，K.Sun和G.邱深度特征一致的变分自动编码器。在2017年IEEE计算机视觉应用冬季会议（WACV），第11332017年3月。1[20] Gareth James ， Daniela Witten ， Trevor Hastie ， andRobert Tibshirani. 统计学习导论：在R语言中的应用。Springer Publishing Company，Incorporated，2014.5[21] Hyunjik Kim和Andriy Mnih。通过因子分解进行分解。在Jennifer Dy和Andreas Krause，编辑，Proc. ICML，第80卷，第2649-2658页中。PMLR，2018。一、二、八[22] Diederik P Kingma，Tim Salimans，Rafal Jozefowicz，Xi Chen，Ilya Sutskever，and Max Welling.改进的变分推理与逆自回归流。In D. D.李，M。Sugiyama，U.诉勒克斯堡岛Guyon和R.Garnett，编辑，神经信息处理系统进展，第4743-4751页Curran Associates，Inc. 2016.1[23] Diederik P Kingma，Tim Salimans，Rafal Jozefowicz，Xi Chen，Ilya Sutskever，and Max Welling.改进的变分推理与逆自回归流。In D. D.李，M。Sugiyama，U.诉勒克斯堡岛Guyon和R.Garnett，编辑，神经信息处理系统进展，第4743-4751页Curran Associates，Inc. 2016.1[24] D. P Kingma和M.威林自动编码变分贝叶斯。ICLR，2014年。一、二[25] 放大图片作者：William F. Whitney，Pushmeet Kohli，and Josh Tenenbaum.深度卷积逆图网络。In C. Cortes，N. D. Lawrence ， D. D. 李， M 。 Sugiyama 和 R.Garnett，编辑，《神经信息处理系统进展》28，第2539-2547页。Curran Associates，Inc. 2015. 1[2

下载后可阅读完整内容，剩余1页未读，立即下载