分层贝叶斯深度自动编码器用于因子分解的方法

156 浏览量更新于2023-10-13 收藏 2.42MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1Bayes-Factor-VAE：用于因子分解的分层贝叶斯深度自动编码器模型Minyoung Kim1，Yuting Wang1，2，Pritish Sahu2，和VladimirPavlovic1，21英国剑桥三星AI中心2部美国新泽西州罗格斯大学计算机科学系mikim21@gmail.com，{yw632，ps851，vladimir}@ cs.rutgers.edu，v. samsung.com摘要我们提出了一系列新的分层贝叶斯深度自动编码器模型，能够识别数据中的可变性因素虽然最近的许多尝试在因子分解集中在复杂的学习目标的VAE框架内，他们选择的标准正常的潜在因素之前是次优的和有害的性能。我们的关键观察是，解开的潜在变量负责的主要来源的变异性，相关因素，可以更适当地使用长尾分布建模。另一方面，典型的高斯先验更适合于讨厌因素的建模。出于这一动机，我们通过引入高斯潜在先验方差的超先验，模仿无限混合，同时保持传统VAE的易处理的学习和推理，将VAE扩展到分层贝叶斯模型这一分析表明，以不同的方式划分和处理与相关因素和营养素相对应的潜在维度是我们提出的模型，被称为贝叶斯因子VAE，表现出优于现有的方法，无论是定量和定性方面的潜在解开几个具有挑战性的基准任务。1. 介绍诸如图像或视频的数据固有地是高维的，是诸如照明、光照、几何形状等许多复杂因素的交互的结果。识别这些因素及其复杂的相互作用不仅是解释数据变异性来源的关键，也是有效地表示相同数据以供后续分析、分类甚至重新合成的关键。为了解决这个问题，已经提出了诸如VAE [17]的深度因子模型，以在原理上、数学上简洁地并且在计算上高效地对环境数据与潜在因子之间然而，仅仅确定一些因素，可变性来源不充分;最后，希望所识别的因素也被分解。尽管有几种不同的，有时是相反的，关于解纠缠的观点[3，12]，最普遍接受的定义与先验独立性的概念一致，其中数据中独立可变性的每个方面都完全来源于一个潜在因素。识别这些分离的因素自然会导致数据的有效，简洁的表示。在本文中，我们的目标是在最具挑战性的无监督环境中解决这种分离的表示学习任务，在学习过程中不提供任何辅助信息，如标签。虽然最近已经有相当多的努力来解决潜在的解缠问题[7，21，13，5，18，15，6]，但大多数现有方法都未能产生令人满意的解决方案。一个根本的原因是他们的关键因素支持的disentanglement治疗不足，这在以前的作品几乎普遍与i.i.d. 高斯先验相比之下，为了实现高质量的解缠，需要区分并单独处理相关的潜在变量，负责数据中的主要变化，从微小变化的讨厌来源。具体而言，相关因素可能表现出非高斯长尾行为，这将它们与统计独立的高斯干扰区分开来。我们将在第2.2节中详细说明并证明这一要求。二、在本文中，我们的目标是开发原则性的因子解纠缠算法，满足这一要求。特别是，我们提出了三种不同的分层贝叶斯模型，将超先验的参数的潜在先验。这有效地模拟了采用无限混合物，同时保持了传统VAE的易处理的学习和推断。我们从VAE的简要背景开始，描述我们的动机和要求，以原则性的方式实现解开（第二节）。2），其次是特定模型的定义（第2节）。（3）第三章。背景我们用x∈RD表示观测值（例如，图像），z∈Rd是潜在的潜在向量。的29792980j=1νn=1变分自动编码器（VAE）[17]是一种深度概率模型，它将联合分布表示为：p（z）=N（z;0，I），（1）p θ（x|z）=p（x; θ（z）），（2）其中p（x;θ（z））是具有参数θ（z）的密度模型，其似然性可以可追踪地计算（例如， Gaus-sian 或Bernoulli），并且θ（z）是具有其自身权重参数的深度模型的输出。在无监督的集合中其中每个方面的可变性，例如（姿势、性别、面部表情），独立于其它方面（例如，图像中的姿态变化性的分布是相同的，而与性别或表情无关）。然后我们说，如果每个变量zj在统计上仅与一个方面相关，则潜在向量z其他z-j 也就是说，在固定z−j 的同时改变 z j，会导致x中第j个方面的排他性变化。相关vs营养变量。假设有意义的方面的确切数量是先验未知的是很自然的，使用环境数据{xn}N，可以学习模型但是可以知道足够大的上限D。只n=1N”（《易经》）最大化n=1logp（xn）。这就需要后验推理p（z|x），但由于精确推断是难以处理的，VAE采用变分技术：|x）<$q ν（z|x），其中q ν（z|x）=q（z;ν（x））是一个自由选择的易处理的密度，参数建模深度模型v（x）一个典型的选择，假设在整个文件中，是独立的高斯，Ydq ν（z|x）= N（z，j; m，j（x），s，j（x）2），（3）j=1其中，对于某些深度网络m j（x）和s j（x），ν（x）={m j（x），s j（x）} d。负数据对数似然允许以下作为其上限，Z中的一些变量将与方面相对应，而其余的变量归因于干扰效应（例如，充当到数据生成过程的管道）。因此，我们将潜在维度划分为两个不相交的子集，R（相关）和N（nuisance），R ∪ N ={1，. . . ，d}且R ∩ N =.形式上，如果z j和x是统计相关的，则称索引j是相关的（j ∈ R），如果z j和x是统计独立的，则称j是滋扰的（j ∈ N）。分析法部分假定已知R和N。上述概念意味着潜在变量zj特别地，我们的推导是基于半参数视图[4，2]，其中唯一的假设Rec（θ，ν）+Epd（x）ΣKL（q（z|x）||Σp（z）），（四）这是一个完全因式分解的p（z），对密度p（z）的选择没有限制。我们最小化wrtθ（·）和ν（·）。这里，pd（x）是{xn}N的经验数据分布，并且Σ ΣRec（θ，ν）=−Ep（x）E q（z|x）[log p θ（x|z）]（5）为了便于说明，我们考虑确定性的解码器/编码器对，x=decθ（z）和z=encν（x），其中参数θ和ν被约束为每个的逆。另外，encν（·）=dec−1（·）。在半参数ICA中，我们d νθ寻求解决MLE问题：是负的期望对数似然，等同于建筑损失2. 我们的动机minKL（p d（x）||p θ（x））s.t. p（z）=p（z），θYdj=1p（z，j），（6）尽管最小化（4）可以产生一个忠实地解释观察结果的模型，但学习的模型不一定表现出潜在因素的解纠缠。在本节中，我们从潜在解纠缠1的常见概念开始，并考虑VAE的半参数扩展以导出原则性目标函数以在该概念下实现潜在我们的分析还建议区分相关的潜在变量的滋扰，并分别对待两者。解缠的概念。考虑一组可以在x中观察到的方面，其中每个方面的值其中p θ（x）是从x = dec θ（z）导出的密度，其中zp（z）。潜在先验p（z）现在是我们要学习的模型的一部分，而不是像VAE中那样被固定我们令p（z）是自由形式（半参数），但完全分解，潜在的解开的关键。直接优化（6）是棘手的，我们在z空间中解决它。利用KL散度对于可逆变换2是不变的这一事实，我们有：KL（p d（x）||p θ（x））= KL（q ν（z）||p（z）），（72981¨¨）其中qν（z）是z=encν（x）的密度，其中x<$pd（x）。我们原来的问题（6）就变成了：与数据中的其他变量无关在例如，面部图像数据，我们通常观察图像，1虽然没有通用的定义，但我们使用的定义与主要定义.minKLz：= KLp（z），ν是的，qν（z）¨Σp（ zj）（八）概念与其他定义，包括最近的对称变换-j=1图12.2见补充证明。2982D¨¨J在编码器/解码器对变为随机（2）和（3）的情况下，需要三个修改：i）随机逆3，ii）KL（z）的不变性变成近似，iii）q ν（z）定义为：qν（z）=Ep（x）Σ Σq ν（z|x）=1ΣNNn=1q ν（z|xn），（9）图1. BF-VAE-1和BF-VAE-2的图形模型表示：（左）板，（右）展开版本。超参数在最近的解缠结文献中，这是一个众所周知的量，称为聚合后验。进一步对多余变量施加独立性约束，我们的优化问题变为：minKLzs.t. qν（zj|x）=qν（zj）<$x，j∈N，（10）p（z），ν其中qν （zj|x）和qν （zj）是来自qν （z）的矩阵|x）和q ν（z）。我们在记法中常常省略下标ν。不难看出，（8）中的目标KLzω是{aj}（BF-VAE-1）或{rj}（BF-VAE-2）。后（Sec.） 3.2和3.3）。在该策略中，我们将高斯p（ z j ）的方差作为待学习的参数，并使 KL （ q（zj ））最小化。||p（zj））是VAE参数以及先验方差（第第3.1节）。学习目标。基于以上分析，总体学习目标可以定义为：MinRec（θ，ν）+Epd（x）[KL（q（z）]|x）||p（zj））]+γTCθ，ν，p（z）和（10）可以分解如下（见补充）：Σ ΣKL= TC +KL（q（z）||p（z））+KL（q（z）||p（z））S.T.p（z j）=N（z j; 0，1），其中j ∈ N，（13）其中，我们包括（5）的Rec（θ，ν）以施加随机输入-zj∈RJ Jj∈NJ J（十一）反之，并替换对估值的困难KL（q（zj））||p（z，j））乘以期望KL，上界5允许一个闭其中TC是总相关性，q（z）的因子分解程度的度量：form. TC项将通过其密度ra来估计。[15]如《易经》所言：“以物易物，以物易.TC：= KL是的，q（z）¨q（ zj）Σ.（十二）其中其影响由γ控制。我们在（13）中的学习目标与最近的解纠缠算法（见第二节）相似。 4）因为VAEj=1有选择p（z）和v（of q v（z）的自由|为了在约束（10）内最小化KL z，我们单独处理（11）中的最后两项。第三学期。对于滋扰zj，为了满足约束（10），我们有q（z|x）=N（z;m，s2）对于某个固定的m和损失随着潜在变量（例如TC项）的独立性的额外损失而增大。然而，一个关键的区别是我们对相关变量和讨厌变量的单独处理，另外的目的是学习非高斯相关变量先验p（zj）。优化（13）假设已知的相关性分区R和N。在下一节中j j jJj我们将处理如何自动学习这个分区SJ.则q（zj ）：=q（zj|x）p d（x）dx=N（zj;mj，s2），允许选择高斯先验p（z j）= N（zj; 0，1），导致m j= 0，s j= 1，KL为零。第二学期。对于相关因子变量zj，zj和x不应该是独立的，因此q（zj）是具有异质分量q（zj）的高斯混合|X）。 VAE的高斯先验p（zj）=N（zj;0，1）意味着发散通常永远不会消失。为了补救这一点，i）选择不同于N（0，1）的p（z，j）（潜在地，非高斯），或者ii）保留高斯先验，但让p（z，j）的均值和方差可以灵活地选择，也许在j∈R上不同，以最大限度地减小这种KL发散。前一种方法可能会引起一个重要的问题在选择4之前。相反，我们提出了一种解决方案，该解决方案构建了p（zj）的分层贝叶斯先验，并推断出2983J从数据中，无论是隐式（Sec. 3.1 3.2）或显式（Sec.3.3）通过分层贝叶斯处理。3. 贝叶斯因子-VAE来自SEC的关键洞察力。 2是，对于相关因子，必须使p（z j）不同于N（0，1）。在本节中，我们提出了三种不同的先验模型，以原则性的贝叶斯方式实现这一目标3.1. 可调高斯先验（BF VAE 0）我们首先定义一个基础模型，这也是后续更复杂的变化所需要的，它放松了先验p（zj）的固定相同方差假设：使得θ和ν最小化重构损失Rec（θ，ν）（5）。4可以对p（z，j）采用灵活的模型，例如，有限混合物p（z|α）=Ydj=1p（zj|αj）=Ydj=1N（zj; 0，α−1），（14）”（《明史》卷26）但是，这可能导致过拟合;参见我们在SEC的实证研究。第5.1条5见补充证明。2984NJDJJj=1j=11其中α>0是要从数据6学习的精度参数。我们期望学习到的αj接近（除了）1，因为滋扰（相关，分别）。J.明确表达我们鼓励许多dimj成为滋扰的偏好，这允许平均负边际数据对数似然，-1logp（{xn}），上限为8：U：=Rec（θ，ν）+1 KL（q（α）||p（α））N为了避免学习到的相关变量中的冗余，我们添加正则化子（α−1−1）2，这导致：+Eq（α）Epd（x）ΣKL（q（z|x）||p（z|Σ（a））。（十八）Σdminθ，ν，αEp（x）Σ ΣKL（q（z）j|x）||N（zj;0，α−1））（18）中的Rec（θ，ν）与VAE的Rec（θ，ν）相同，而其他两个允许封闭形式;详见补充。TC项变为q（α）的平均值：j=1+Rec（θ，ν）+γTC+ηΣdj=1（α−1−1）2.（十五）TC1：=Eq（α）ΣKL（q（z|α）||Ydj=1q（zj|（a））Σ、（十九）我们用BF-VAE-0表示该模型。（15）中的期望KL允许封闭形式，与例如，[15 ]第10段。另一个好处是权衡参数η充当控制相关因子的基数的代理;较小的η比较大的η鼓励更多的相关因子。3.2. 分层贝叶斯先验（BF VAE 1）w_h_h与（1 - 2）中的TC相等，因为q（z|α）：=q（z|α，x）p d（x）dx =q（z|x）pd（x）dx=q（z）。最后的优化是最小化（U1+ γTC 1）wrt（θ，ν），{aj，bj，aj，bj}d，约束条件bj=aj−1。BF-VAE-1可以捕获精度参数α中的不确定性，而没有计算开销，因为所有客观项都允许封闭形式。学习了数据模型D={xn}N在此之前校正的数据，为了将BF-VAE-0扩展到贝叶斯分层设置，∫p（zj）：=n=1p（zj|αj）p（αj|D）dαj近似为：结合（14），我们采用α上共轭先验，∫p（zj）p（zj|αj）q（αj）dαj=t2a.zj;0，B.J. Σ，（20）Ydp（α）=Ydp（ αj）=G（αj;aj，bj），（16）jjjj=1j=1其中tf（0，v）是广义学生自由度F和形状V。p（z，j）告诉我们其中G（y;a，b）ya−1e−by是Gamma分布具有参数a（形状）和b（逆尺度），其中a，b>0的情况。我们进一步设置bj=aj−1，aj>1，以e表示我们的z j：大dof意味着麻烦（因为t变得接近高斯），而小dof意味着相关变量。对于模式[p（αj）]=17的偏好。我们让{aj}d是3.3. 具有相关性指标的先验（BF VAE 2）可以从数据中学习的模型参数这个模型命名为BF-VAE-1，具有图1所示的图形模型表示。1.一、这个模型的一个关键方面是通过边缘化α，则p的先验p（z）变为无限高斯混合，p（z）=p（α）N（z;0，α−1）dα，相关的必要条件BF-VAE-1仅允许对相关维度的基数进行隐式控制，假设相关因素和干扰之间没有明确的区分。在本节中，我们提出了另一种可以解决这些问题的模型。关键思想9是引入相关性指标变量r∈[0，1]d（高r 表示z的相关性）。我们让r因素因为Var[p（αj）]<$（aj−1）−1，大的aj将j j导致限制p（z |a）= N（z; 0，1），滋扰因子。2985n=1|{}确定超先验p（α）的形状：如果rj≥1aj→∞j j我们描述了模型的变分推理，其中我们引入变分密度q（α）和q（z|x）至ap-近似真实后验，如下所示：（相关），我们使p（α j）无信息，因此z j远离N（0，1）。相反，如果r j≈0（nuisance），则p（α j）应该在α j= 1处强烈达到峰值，p（z j）接近N（0，1）。的（16）的以下重新参数化使得能够进行该控制：p（α，{zn}NxnNn=1q（α）联系我们YdG（αj;aj，bj）j=1YNn=1q（zn|Xn）。p（α|r）=Ydj=1.Gαj;1+2分，rj+n1+2rj+nΣ-I，（21）（十七）[6]注意，我们将均值固定为0，只学习（逆）方差αj。虽然我们也可以很容易地参数化平均值，但（14）的形式在最小化KL方面同样灵活，如补充中所示[7]这种偏好也改善了实证表现。[8]有关推导，见附录。9它与众所周知的（贝叶斯）变量选择问题有关[24]，但明显不同的是，后者通常在标准回归设置中框定，其中在数据中观察到感兴趣的变量（协变量）在我们的例子中，我们的目标是选择最相关的潜变量z，j）≈2986j=1j=1j j jj其中R1是小的正数（例如，0的情况。001）的情况下。指标r自然定义了相关的指标集R={j：rj≈1}Q），都有助于我们在R上分解q（z）并且N为q（zR）·j∈Nq（zj）10，使得TC为：最近的深度表征学习试图通过采用非高斯先验模型或将潜在变量划分为不同处理的组来扩展VAE，这两种方法似乎与我们的方法相似。在[9]中，a.KLq（z R）||ΣYq（zj）≈Ej∈Rq（zR）Σ日志D（zR）1−D（zR）（二十二）联合表示离散和连续的混合模型潜伏期被引入。在[22]中，在部分标记的数据设置下，他们将与标签相关的因素与非标签相关的因素分开处理，从而导致有条件只关注相关变量。请注意，我们建议使用鉴别器密度比代理，（22）的rhs来评估TC，其中D（Q·）被优化以区分样本与q（zR），j∈Rq（zj）.为了将（22）转化为连续空间优化问题，我们将D（ zR ）重写为 D （ r◦z ），其中 ◦ 是逐元素（Hadamard）乘积，并引入两个额外的正则化器通过以下方式控制R的基数||R||1和使用熵先验对离散值的偏好H（r）=−Σd. rlogr+（1−r）log（1−r）<$。这因子模型 VAE中的高斯先验假设具有在一些实施例中，这些术语被放松以允许更多的灵活性和/或更好地适应特定场景。在VampPrior[26]中，他们提出了一个合理的基于编码器的有限混合模型，该模型近似于无限混合模型。在[8]中，采用von最近的CHyVAE[1]采用了逆Wishart先验（Gamma的推广），然而，它主要处理其中潜伏期可以通过完全先验协方差彼此先验相关的情况分层因素VAE[11]反而关注群体的独立性导致最终目标：U1+γEq（z）Σ日志D（r =z）1−D（rz）Σ+η S||R||1+ ηHH（r），（二十三）潜在变量（Group disentanglement）虽然这些最近的工作与我们的工作密切相关，他们要么关注不同的去纠缠目标，要么扩展先验以增加模型容量。它在er（θ，ν），r和{a∈j，b∈j}d上最小化，一起具有针对D（ ·）的交替梯度更新。在这个模型中，名为BF-VAE-2，权衡参数ηS和ηH控制相关因素的基数11大η鼓励强因素少;对于η小，可以学习许多弱因子。所学习的相关性向量r可以用作区分相关因素与干扰的指示符。4. 相关工作最新的无监督解纠缠方法在β-VAE[13]中，VAE目标的预期KL项尽量减少KL（q（z）||p（z））。在AAE[21]中，他们的目标是通过对抗学习直接缩小后一项如图所示在我们的分析中，SEC。2，TC中施加的q（z）的完全独立性，在因子解缠结中很重要，其中TC通过Factor-VAE [ 15 ]中的密度比估计，而TC-VAE [6]采用加权抽样策略。另一种替代方案是对抗学习，以最小化[5]中的Jensen-Shannon散度，而不是TC中的KL。与TC密切相关的有：DIP-VAE [18]，其惩罚q（z）的方差与恒等式的偏差，以及InfoGAN [7]，其旨在最小化除了X空间中的重构误差之外的z空间中的重构误差。[10]有关推导，见附录。[11]我们在第二节中以经验证明了这一点。5.2 和补充。5. 评价我们在几个基准数据集上评估我们的方法12，在那里我们定量和定性地评估解纠缠的好处。前者仅适用于完全因子标记的数据集，我们认为一个comprehensive套件的解纠缠度量在第二。第5.1条定性评估是通过潜在空间遍历数据合成的可视化来完成的。我们也在SEC进行验证。5.2视觉相关/重要的方面准确地对应于由我们在三个模型中的每一个中假设的指标确定的那些方面。1) 数据集。我们在以下数据集上测试所有方法：3D脸[25]，精灵[23]及其最近的扩展（C-Spr）[20]，用一些随机颜色填充精灵（被视为噪声），茶壶[10]和名人-A [19]。此外，我们考虑仅包含椭圆形状13的子元素的子集，由O-Spr表示。数据集的详情载于补编。所有数据集都提供了地面实况因子标签，以下数据集除外名人A对于所有数据集，图像大小归一化为64×64，像素强度/颜色值缩放为[0，1]。我们使用交叉熵作为重建损失。2) 竞争的方法。我们对比我们的模型、298712我们的代码可在https://seqam-lab.github.io/BFVAE/上公开获得13由于形状因子本质上是离散变量，因此假设连续潜变量的基础模型将是次优的。我们没有像最近的混合模型[9]那样明确地对离散/连续潜变量的组合进行建模，而是消除了这个离散因素通过仅考虑椭圆形图像2988MOGBF-VAE-210090908080707060510 20 50 100K510 20 50 100K图2.具有MoG先验（蓝色/虚线）的F-VAE的解缠结性能（度量II），具有不同的混合物阶数（K）与O-Spr（左）和Sprites（右）上的BF- VAE-2（红色/实心）[17][18][19][我们还将我们的BF-VAE模型与最近的RF-VAE[16]进行了比较，该模型也考虑了相关和滋扰潜伏期的差异处理。3) 模型架构和优化。我们采用与[15]中类似的模型架构和优化参数详情见附录。5.1. 定量结果我们考虑三个解纠缠度量14：i）度量I [15]收集数据样本，其中一个地面实况因子固定，其余随机变化，将其编码为z，找到具有最小方差的潜在指数，并测量从该指数到固定因子ID的分类准确性（越高越好），ii）度量II [16]通过收集一个因素的样本变化而其他因素固定，并寻求最大潜在方差的指数。iii）指标III [10]基于从潜在向量到单个地面实况因子的回归，测量预测质量的三个分数：解纠缠度为每个目标的贡献度，完整性为每个协变量的排他性贡献度，信息性为预测误差。因此，D和C的得分越高越好，I的得分越低越好。选项卡. 1总结了所有结果、数据集和指标。对于所有数据集的所有模型，我们使用潜在维度d=10。在大多数情况下，我们的模型在所有指标上都明显优于竞争方法。其次是RF-VAE，它也采用了相关性的概念，但不是显式的非高斯性。与高容量先验比较。我们在SEC的分析。 2指出相关维度先验p（z j）需要是非高斯的，足够灵活以匹配聚合后验q（z j）。在这里，我们考虑一种替代先验，其中这些财产。具体地说，我们使用Σ-VAE模型，其中图3. Celeb-A上BF-VAE-2的潜在空间遍历。我们用两个不同的η值（η = ηS =ηH大和小）训练两个BF-VAE-2模型。（左图：强因子）包含具有四个潜在变量（每个两个主题）的潜在遍历结果，这些潜在变量（根据高rj）由η个小模型和大模型检测到。它们对应于（从上到下）：性别、前额毛发、方位角和亮度，它们被认为是强/主要因素。（右侧面板：弱因子）示出了与仅由小η模型检测到（根据高rj）的四个其他潜变量的遍历。它们对应于：微笑、太阳镜、高度和秃顶，这些被认为是弱/次要因素。请参阅补充资料的放大图像和进一步的细节。F-VAE混合物优先。结果表明，高容量组合始终低于我们的贝叶斯模型;当K增加时，其遭受明显的过拟合。这表明不受控制的复杂先验可能是有害的，与我们对相关性的控制处理相反。5.2. 定性结果在本节中，我们研究我们的BF-VAE方法的定性性能。我们专注于：i）潜在空间遍历：我们描绘通过一次遍历单个潜在变量而同时固定其余潜在变量而合成的图像，以及ii）变量相关性指标的准确性：如第 3，我们的模型有隐式/显式指标，指向相关和讨厌的变量。具体地，i）BF-VAE-0（学习的αj）：如果αj远离1，则j相关，ii）BF-VAE-1（校正后的先验p（zj），等于2a（zj）：如果a（z j）很小（远离高斯），则j是相关的，反之亦然，iii）BF-VAE-2（学习的相关性指示符变量rj）：如果rj，则j是相关的大，反之亦然。由于篇幅有限，我们在本节中报告了选定的结果，在补充中报告了更广泛的结果结果显示为3D-面（图1）。 4），O-Spr（Fig. 5），和茶壶（图6）。潜在空间遍历演示a高斯混合先验p（z）=以{（π，μ，Σ）}Kk=1 πkN（z;μk;k），每个潜在变量的变化而其他变量保持不变固定的，在视觉上导致变化的一个地面真相k kkk要优化的模型参数除此之外，还有一个因素（除了茶壶）。而且这些结合F-VAE的参数。我们对比我们的BF-VAE-2 O-Spr和Sprites的解缠性能（Metric II评分）总结见图。 2，其中我们改变混合组分的数量K以控制混合组分的柔性程度。14更多详情见补编。2989视觉识别的因素实际上对应于由我们的模型指示为相关的那些变量。详情请参见图中的说明控制相关因素的基数。我们的BF-VAE-2（以及还有BF-VAE-0）的显著益处之一是，权衡参数η可以控制2990选项卡. 1.一、基准数据集的解纠缠度量对于度量III，每个单元格中的三个数字表示解缠结/完整性/信息性（顶行基于LASSO回归量，底行基于随机森林。注意，D和C越高越好，而I越低越好在竞争模型中，每个指标的最佳得分（在显著性范围内）以红色显示，第二好的以蓝色显示。Datasets/数据集VAEβ-VAEF-VAERF-VAEBF-VAE-0BF-VAE-1BF-VAE-23D人脸我一百块0±0。0一百块0±0。0一百块0±0。0九十九。9±0。1一百块0±0。0一百块0±0。0一百块0±0。0II九十三4±0. 7九十五5±0。692. 8 ±1。1九十五2±0。5九十五6±0。5九十七2±0。5九十七5±0。5III.96/ .81 /.37.99/ .84 /.26.96/ .78 /.40.98 / .86 /.311.0/.82/.36.96 / .83 /.251.0/1.0/.481.0/.93/.371.0/1.0/.451.0/.90/.331.0/1.0/.451.0/.90/.341.0/1.0/.441.0/ .88 /.41精灵我八十2 ±0。3八十8 ±0。881. 9 ±1。0八十五4±1。287岁9 ±0。9九十三8±0。6八十五5±0。8II五十八2±1。4七十六。8±0。9七十七。6±1。479岁。1±1。382岁7 ±1。182岁2 ±0。6八十五9±1。2III.59 / .68 /.52.57 / .69 /.460.67/0.69/0.53.72 /.84/.40.84 / .84 /.53.73/ .82 /.41.85 / .87 /.53.73/ .83 /.41.89/1.0/.60.75/ .83 /.44.92/.90/.54.75/ .83 /.340.88/1.0/0.58.75/.86/.48C-Spr我79岁。8±0。681. 2 ±0。4八十五6±0。8八十7 ±0。987岁7 ±0。5九十三2±0。694 7 ±0。8II61岁2 ±1。574岁3 ±1。7七十六。2±0。881. 4 ±1。183岁0 ±1。484. 2 ±1。183岁5 ±0。7III.52 / .55 /.54.58 / .62 /.510.77/0.82/0.53.73 / .83 /.390.79/0.76/0.52.75 / .83 /.42.87 /.91/.54.64 / .72 /.301.0/.95/.56.88/ .83 /.470.95/0.95/0.58.79 /.88/.420.86/0.91/0.56.84/.85/.45O-Spr我九十七2±0。475. 3 ±0。6一百块0±0。0一百块0±0。0一百块0±0。0一百块0±0。0一百块0±0。0II五十三2±1。5七十2 ±1。2八十6 ±1。1九十五4±0. 5九十七8±0。7九十九。8±0。2九十七1±0。8III.42 / .43 /.54.32 / .55 /.46.58/ .49 /.49.56 / .58 /.361.0/ .88 /.33.81 / .84 /.241.0/.99/.49.93 / .87 /.221.0/1.0/.420.99/0.93/0.221.0/ .97 /.40.99/.92/.211.0/ .93 /.42.98/ .91 /.23茶壶我九十1 ±0。9五十六9±1。191. 9 ±0。8九十八7±0。494 8 ±1。2九十七6±0。3九十七9±0。4II七十七。7±1。3四十七3±0。974岁6 ±1。883岁1 ±1。2九十4 ±1。082岁7 ±1。388岁9 ±0。8III.60 / .53 /.400.81/0.72/0.31.31 / .27 /.72.45 / .61 /.52.63 / .61 /.46.75 / .78 /.29.63 / .56 /.37.90/.79/.27.72/ .61 /.34.89/.80/.25.70/.65/.48.78 /.80/.50.67 /.62/.41.87 /.80/.32图4.在3D-Face数据集上我们的三个BF-VAE模型中的潜在空间遍历。（左）BF-VAE-0与学习的先验方差底部的α−1（值1。0描绘为红色虚线），（中间）BF-VAE-1，其中校正后的先验p（z）的D0 F（2a（）在J J（右）BF-VAE-2，学习的相关向量r在底部。（左：BF-VAE-0）四个视觉上明显的可变性维度（z4、z5、z8、z9）在彩色框内突出显示，其中每个维度与四个地面实况因子（z4=方位角、z5=照明、z8=仰角和z9=受试者ID）中的一个完全匹配。所有这四个维度的学习α j都远离1。（中间：BF-VAE-1）四个恢复的、突出显示的维度与地面实况因子相匹配，并且它们的p（z，j）也具有相对较小的DOF，正如预期的那样。（右：BF-VAE-2）这四个因子再次几乎被正确识别，对应于指示变量rj的高值。要由模型检测的相关因素的数量。我们在Celeb-A数据集上进行了可视化验证如图 3（在标题中详细描述），采用大η仅导致检测到强因子，而具有小η允许识别许多弱因子。29916. 结论这项工作表明，为了恢复数据变化的非纠缠因素，必须拥抱和模拟相关因素的非高斯性质，同时将它们与高斯干扰区分开来，2992图5. O-Spr上的潜在遍历。与图4相同的解释。（左：BF-VAE-0）这五个突出显示的主要变异性维度（z1，z2，z5，z6，z9）与四个地面实况因子（比例、X-、Y-位置、旋转）相匹配，而旋转分布在z6和z9上。正如我们所预期的，这些因子也正好对应于远离1的已知αj。（中间：BF-VAE-1）与BF-VAE-0类似，它识别了旋转分布在z1和z9上的五个变量。如预期的，这些相关变量在p（z，j）中具有小的DOF。（右图：BF-VAE-2）再次与前两个型号非常相似。所学习的r准确地指示相关尺寸。图6.茶壶上的潜在遍历。与图的解释相同。 4.第一章请注意，该数据集中的五个地面实况因子是：两个姿势变化（方位角和仰角）和三个颜色变化（R，G，B）。（左：BF-VAE-0）解释图像主要变异性的五个变量，（z2，z4，z6，z7，z8），并不能一一与真实因素完美匹配，两个或两个以上的因素纠缠在一些变量中（例如z8解释了颜色R和方位角。请注意，在[10]中也观察到复杂ResNet模型的类似失败。（中：BF-VAE-1）和（右：BF-VAE-2）总体上与BF-VAE-0类似的行为，但是相关性指标（BF-VAE-1中的隐式DOF和BF-VAE-2中的显式相关向量r）正确地识别主要变异性的维度。与VAE使用的传统先验假设相反我们发现，一个VAE赋予了一个分层贝叶斯先验，BF-VAE，可以有效地模拟这两个方面的任务。对基准数据集的实证评估验证了BF-VAE家族的这种能力，一致显示在三个解缠指标上的领先性能。我们还证明了模型2993引用[1] Abdul Abdul Ansari和Harold Soh。Hyperprior诱导了潜在表示的无监督解纠缠，2018年。arXiv：1809.04497。5[2] 弗朗西斯河巴赫和迈克尔一世约旦.核独立成分分析。Journal of Machine Learning Research，3：1-48，2002. 2[3] Yoshua Bengio Aaron Courville和Pascal Vincent表示学习：回顾与新的视角。 IEEE Transactions on PatternAnalysis and Machine Intelligence ， 35 （ 8 ）： 1798-1828，2013。1[4] Peter J. Bickel，Chris A.J. Klaassen，Ya'acov Ritov，andJon August Wellner. 半参数模型。Springer-Verlag，NewYork，1998.2[5] 腓利门·布拉克和约瑟芬·本吉奥。使用对抗网络学习非线性ICA的独立特征。InarXiv preprint，2017. 一、五[6] 瑞奇·T Q. Chen，Xuechen Li，Roger Grosse，and DavidDuvenaud. 变分自动编码器中解纠缠的分离源在神经信息处理系统的进展，2018年。一、五[7] Xi Chen，Yan Duan，Rein Houthooft，John Schulman，IlyaSutskever ， andPieterAbbeel.InfoGAN ：InterpretableRepresentationLearningbyInformationMaximizing Generative Adversarial Nets，2016.神经信息处理系统进展。一、五[8] 蒂姆河，澳 - 地 Davidson ， Luca Falorsi ， Nicola DeCao，Thomas Kipf，and Jakub M.托姆恰克超球面变分自动编码器，2018年。AI的不确定性5[9] 艾米莉·杜邦学习解开联合连续和离散表示，2018年。神经信息处理系统进展。5[10] 作者声明：Christopher K.I. 威廉姆斯一个框架的定量评估解开表示， 2018 年。第二届国际学习表征会议（ICLR）五六八[11] 吴昊，吴建民.放大图片创作者：Michael H. Brooks，Jennifer Dy，and Jan-Willem van de Meent.结构化解缠表示，2018年。arXiv：1804.02086v4。5[12] Irina Higgins 、 David Amos 、 David Pfau 、 SebastienRacaniere 、 Loic Matthey 、Danilo Rezende 和 AlexanderLerchner。走向解纠缠表示的定义，2018年。arXiv：1812.02230。一、二[13] Irina Higgins 、 Loic Matthey 、 Arka Pal 、 ChristopherBurgess 、 Xavier Glorot 、 Matthew Botvinick 、 ShakirMohamed和Alexander Lerchner。Beta-VAE：使用约束变分框架学习基本视觉概念。在2017年国际学习表征会议上。一、五、六[14] AapoHy v¨rinen、JuhaKarhunen和ErkkiOja。独立成分分析约翰威利父子，纽约，2001年。2[15] Hy

下载后可阅读完整内容，剩余1页未读，立即下载