因果VAE：学习解纠缠的因果结构

105 浏览量更新于2024-01-22 收藏 1005KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

9593Causal VAE：通过神经结构因果模型的解纠缠表示学习杨梦月1，2，刘福瑞1，*，陈志堂1，沈新伟3，郝建业1，王军21华为诺亚2University College London，伦敦，英国3香港科技大学，中国香港{yangmengyue2，liufurui 2，chenzhitang 2，haojianyehuawei.comxshenal@connect.ust.hkjun.wang @ cs.ucl.ac.uk摘要学习解纠缠的目的是寻找一种由观测数据的多个生成因子组成的低维表征。变分自动编码器（VAE）的框架通常用于从观测中分离独立因子。然而，在实际场景中，具有语义的因素不一定是独立的。相反，可能存在一个潜在的因果结构，使这些因素相互依赖.因此，我们提出了一个新的VAE为基础的框架名为CausalVAE，其中包括一个因果层，将独立的外源性因素转化为因果内源性的，对应于因果关系相关的概念数据。我们进一步分析了该模型的可识别性，表明从观测中学习的模型在一定程度上恢复了实验在各种数据集上进行，包括合成和真实的词基准CelebA。结果表明，CauseVAE学习的因果表示是语义上可解释的，它们的因果关系作为一个有向无环图（DAG）识别具有良好的准确性。此外，我们证明，建议的CauseVAE模型是能够产生反事实的数据，通过1. 介绍解纠缠表示学习在各种应用中非常重要，例如计算机视觉，语音和自然语言处理以及推荐系统[9，20，8]。原因是它可能有助于提高模型的性能，即提高泛化能力，*通讯作者。通过学习数据的潜在解纠缠表示，提高了系统的抗攻击能力和可扩展性最常见的分解表示学习框架之一是变分自动编码器（VAE），这是一种经过训练的深度生成模型，用于分解潜在的解释因素。通过VAE的解纠缠可以通过潜在因子的后验和标准多元高斯先验之间的Kullback-Leibler（KL）发散的正则化项来实现，这强制学习的潜在因子尽可能独立如果现实世界中的观测是由可数个独立因素产生的，则期望恢复潜变量。为了进一步提高独立性，VAE的各种扩展考虑最小化潜在因素之间的互信息。例如，Higginset al.[6]Burgesset al.[3]增加了KL发散项的权重以增强独立性。Kim等人[12，4]通过减少因素之间的总相关性进一步鼓励现有的解纠缠表征学习的大多数工作都假设现实世界的观察是由可数个独立因素产生尽管如此，我们认为，在许多现实世界的应用中，潜在的因素与语义的利益是因果关系，因此我们需要一个新的框架，支持因果disentanglement。考虑一个玩具的例子摆动摆图。1.一、照明源的位置和摆的角度是阴影的位置和长度的原因。通过因果分解表征学习，我们的目标是学习与上述四个概念相对应的表征显然，这些概念不是独立的，现有的方法可能无法提取这些因素。此外，因果解纠缠允许我们操纵因果系统来生成反事实数据。例如，我们可以操纵影子的潜在代码，9594图1. 摆动的钟摆：一个说明性的例子即使有钟摆和光线，也能创造出没有阴影的新画面这对应于因果关系中的一个支持“做操作”的深层生成模型在本文中，我们提出了一个基于 VAE 的因果disentangled表示学习框架，通过引入一个新的结构因果模型层（掩码层），它允许我们恢复潜在的因素与语义和结构通过因果DAG。输入信号通过编码器获得独立的外源因子，然后通过因果层生成因果表示，解码器采用因果表示来重建原始输入。我们称整个过程为因果分解表征学习。与可行性值得怀疑的无监督解缠表示学习不同[18]，需要额外的信息作为弱监督信号来实现因果表示学习。通过为了训练我们的模型，我们提出了一个新的损失函数，其中包括VAE证据下限损失和施加在学习的因果图上的非循环约束，以保证其此外，我们还分析了该模型的可辨识性，表明解纠缠模型的学习参数在一定程度上恢复了真实参数。本文的贡献有三个方面。（1）我们提出了一个新的框架CauseVAE，它支持因果解纠缠和2. 相关作品在本节中，我们回顾了最先进的解纠缠表征学习方法，包括结合因果关系和解纠缠表征学习的一些最新进展。我们还提出了从纯观测中学习因果结构的方法，这是我们提出的CauseVAE框架的关键组成部分。2.1. 解纠缠表示学习传统的解纠缠表示学习方法通过编码器-解码器框架学习相互独立的潜在因子在这个过程中，一个标准的正常分布-将P2P用作潜在码的先验。变分后验q（z|x）然后用于近似未知的真实后验p（z|x）。这个框架被进一步扩展，增加了新的独立正则化条款的orig-最终损失函数，导致各种算法。β-VAE [6]提出了一种自适应框架，该框架调整KL项的权重，以平衡解纠缠因子的独立性而因子VAE [4]提出了一个新的框架，只关注因子的独立性。另一方面，梯形VAE [16]利用梯形神经网络的结构然而，上述无监督的解纠缠表示学习算法在某些因素之间存在复杂因果关系的情况下表现不佳。此外，它们因缺乏归纳偏差而受到挑战，因此无法保证模型的可识别性[18]。VAE的可辨识性问题被定义为：如果从数据中学习的参数θ∈导致等于由θ参数化的真实分布的边缘分布，即，如果 p θ=p θ（x），则联合分布也匹配，即 p θ∈（x，z）=p θ（x，z）. 因此，先验p（z）（标准多元高斯分布）的旋转不变性将导致 p （ z ）的不可识别性。Khemakhem等人[11]证明存在无限多个不同的模型，这些模型需要相同的联合分布，这意味着底层的生成模型无法通过无监督学习来识别。相反，通过利用一些标签，人们能够恢复真实的模型[21，18]。Kulka- rni等[15]和Locatelloet al.[19]使用额外的标签来减少模型的模糊性。Khemakhem等人[11]通过利用非线性独立分量分析（非线性ICA）理论[2]，给出了2.2. 因果发现--因果分离表征学习我们将因果表征称为由因果图构成的表征。在过去的几十年里，从纯观测中发现因果图吸引了大量的关注[7，33，28]。因果发现使用9595，��′��′①推理②生成图2.Causal VAE的模型结构编码器将观测值x作为输入来生成独立的外生变量x，其先验分布被假设为标准的多元高斯分布。然后，它被因果层转换成因果表示z（等式2）。 1）具有条件先验分布p（z|u）。然后将掩模层应用于z，以类似于等式2中的SCM二、之后，将z作为解码器的输入以重构观察值x。观察性数据或观察性和干预性数据的组合。我们首先介绍了一套基于观测数据的方法。 Pearl等人[24]引入了一种基于概率图模型（PGMs）的语言来描述变量之间的因果关系。清水等[28]提出了一种称为LiNGAM的有效方法来学习因果图，并在线性和非高斯假设下证明了模型的可辨识性。Zheng等[34]提出了一种具有完全可微DAG约束的NOTEAR用于因果结构学习，它将非常复杂的组合优化问题大大减少为连续优化问题。Zhu等人[36]提出了一种灵活有效的基于强化学习（RL）的方法，用于在DAG空间中搜索具有最高得分的最佳图。当干预措施是可行的，也就是说，一个可以操纵的因果系统和收集数据的干预措施，方法提出了因果发现。Tillman等人[31，5]显示了从干预数据中学习的因果结构的可识别性。Peters等人[10，25，26]探讨了在干预下跨多个域的结构不变性，以识别因果边缘。最近，社会已经提出了兴趣相结合的因果关系和解开表示。Suter等人[30]使用因果关系来解释解开的潜在表征。Kocaoglu等人[14]提出了一种名为CauseGAN的方法，它支持Besserveet al. [1]在模型中采用了相关的潜在因素。它依靠“独立机制”或模块化原理nisms [26]，它们共同贡献于最终的预测，以实现解纠缠。在我们的模型中，我们通过因果结构层（掩蔽层）来分解因素，并且模型结构与他们的不同。 Schoülk opfetal. [27]声称因果解缠表征学习的重要性和必要性，但它仍然是概念性的。据我们所知，我们的工作是第一个成功实现因果解纠缠思想3. 变分自动编码器我们从因果表征的定义开始，然后提出一个新的框架，通过利用额外的输入来实现因果解缠，例如。概念的标签首先，我们在图 2 中概述了我们提出的CauseVAE模型结构。因果层主要描述结构因果模型（SCM）[28]，被引入到传统的VAE网络中。因果层将独立的外生因素转化为与因果相关的利益概念相对应的因果内生因素然后使用掩码机制[22]将父变量的效果传播给其子变量，模仿SCM的赋值操作。这样一个因果层是支持对系统进行干预或“做操作”的关键。3.1. 将独立的外生因素转化为因果表征我们的模型是在基于VAE的解纠缠的框架内。除了编码器和解码器结构之外，我们还引入了结构因果模型（SCM）层来学习因果表示。把因果关系编码器解码器因果掩模泄漏信息1234z1z2z341因果图Z1Z1234掩模掩模234z2解码z34③生成过程详情干预9596ζ我φ表示，我们考虑数据中感兴趣的n个概念。观测中的概念由具有邻接矩阵A的有向无环图（DAG）因果地构造。虽然一般的非线性SCM是优选的，但为了简单起见，在这项工作中，因果层准确地实现了线性SCM，如等式2所述。 1（图中所示）2-1），z=ATz+=（I−AT）−1，N（0，I），（1）其中A是在该层中要学习的参数。其中n是独立的高斯外生因子，z∈Rn是由DAG生成的n个概念的结构化因果表示，因此A可以置换为严格上三角矩阵.由于[18]中讨论的可识别性问题，模型的无监督学习可能不可行。为了解决这个问题，类似于iVAE[11]，我们采用与真实因果概念相关的附加信息u在我们的工作中，我们使用概念的标签。以两种方式利用附加信息u。首先，我们提出了一个条件先验p（z|u）注册-使z的学习后验化。这保证了学习模型属于可识别的家族。其次，我们还利用u来学习因果结构A。除了学习因果表示之外，我们还使模型能够支持对因果系统的干预，以生成训练数据中不存在的反事实数据。3.2. 结构因果模型层一旦获得因果表示z，它就通过掩模层[22]来重建自身。请注意，此步骤类似于SCM，它描述了子变量如何由其对应的父变量生成。我们将说明为什么这样一个层对于实现干预是必要的。设zi是向量z中的第i个变量。与因果图相关联的邻接矩阵为A=[A1|. . . |An]其中Ai∈Rn是权重向量，使得Aji编码从zj到zi的因果强度。我们有一套温和的非线性可逆函数[g1，g2，. . . ，g n]，其将父变量映射到子变量。然后我们写zi=gi（Ai<$z;ηi）+ηi，（2）其中n是逐元素乘法，ηi是gi（·）的参数（如图所示）。（注2）。注意，根据Eq. 1，我们可以简单地写z i=ATz+i。然而，在这方面，我们发现，添加温和的非线性函数G1导致更稳定的性能。为了说明这种屏蔽是如何工作的，考虑一个变量zi和Aiz等于一个向量，它只包含它的父信息，因为它屏蔽了所有zi父变量通过最小化重构误差，这一层使干预或因果关系中的干预[24]是指通过外部力量修改系统的某个部分，并且对这种操纵的结果感兴趣。为了干预zi，我们设置zi上的RHS方程。2（对应于z的第i个节点在图1中的第一层2）到一个固定值，然后其效果在Eq的LHS上传递给其所有子节点以及其自身。2（对应于第二层中z的一些节点）。请注意，干预原因会改变结果，而干预结果，另一方面，不会改变原因，因为信息只能从我们模型中的前一层流入下一层，这与因果效应的定义一致。3.3. 因果VAE的概率生成模型我们给出了所提出的生成模型的概率公式（如图所示）。（注2）。用x∈Rd表示观测变量，u ∈ Rn表示附加信息。u i是数据中第i个感兴趣概念的标签。设n ∈ Rn为潜在外生自变量，z ∈ Rn为具有语义的潜在内生变量，其中z=ATz+n=（I−AT）−1n。为简单起见，我们记为C =（I − AT）−1。我们将z和m都视为潜变量。考虑以下条件生成模型参数化，θ=（f，h，C，T，λ）：p θ（x，z，θ|u）=p θ（x|z，n，u）p θ（n，z|u）。（三）令f（z）表示解码器，其被假设为可逆函数，并且h（x，u）表示编码器。我们定义生成和推理模型如下：p θ（x|z，n，u）= p θ（x|z）p（x − f（z）），q（z，z）|x，u）<$q（z|n）q（n−h（x，u）），（4）其通过假设以下解码和编码过程来获得：x=f（z）+n，n=h（x，u）+n，（5）其中，k和k是概率密度分别为p和q的独立噪声的向量。当λ和λ是无穷小时，编码器和解码器可以看作是确定性的。我们定义了联合先验p θ（θ，z|u）对于潜在变量Z和Zp θ（θ，z|u）= p <$（z）p θ（z|u），（ 6）其中p θ（z）= N（0，I），潜在内生变量p θ（z）的先验|u）是在附加观测u上的因式分解的高斯分布条件，即p θ（z|u）=<$n p θ（z i| u i），p θ（z i| u i）=9597N（λ 1（u i），λ 2（u i）），我的邻接矩阵A和参数ηi训练非线性函数g12（七）9598φ其中λ1和λ2是任意函数。设λ1（u）=u，λ2（u）<$1.该分布有两个充分统计量，z的均值和方差，它们用充分统计量T（z）=（μ（z），σ（z））=（T1，1（z1），.表示。. . ，Tn，2（zn））。我们使用这些符号表示模型第5节中的可识别性分析。其中σ是一个逻辑函数，因为我们的标签是二进制的，κ1是一个小的正常数值。这遵循了A也应该很好地描述标签之间的因果关系类似地，我们将相同的约束应用于学习的潜在代码z，如下所示：n4. 学习策略lm=Ez<$qφΣǁzi−gi(Ai◦z;ηi)ǁ2≤κ2,(12)i=1在本节中，我们将讨论如何训练CauseVAE模型，以便同时学习因果表示和因果图。4.1. CaCO_3 VAE的证据下限我们应用变分贝叶斯来学习一个易于处理的分布函数-|x，u）来近似真实的后验p θ（λ，z|x，u）。给定具有经验数据分布qX（x，u）的数据集X，通过优化以下证据下限（ELBO）来学习参数θ和φ其中κ2是最小的正常数值。最后，因果邻接矩阵A被约束为DAG。我们采用连续可微的约束函数[34，35，23，32]，而不是使用传统的组合DAG约束当且仅当邻接矩阵A对应于DAG [32]时，该函数达到0，即H（A）<$tr（（I+cA<$A）n）−n=0，（13）M其中c是任意正数。培训专业-EqX [logpθ （x）|u）] ≥ELBO = EqX[E，z<$q φ[logpθ （x）|z，n，u）]我们的Causal VAE模型的计算简化为以下约束优化：- D（q φ（q，z|x，u）||p θ（θ，z|u））]，（八）其中D（·λ·）表示KL偏差。当量8、总的来说，很难然而，由于m和z之间的一一对应，我们将变分后验简化为如下所示：最大化ELBO， s.t.（11）（12）（13）.利用拉格朗日乘子法得到了新的损失函数q φ（φ，z|x，u）= q φ（|x，u）δ（z =C）=q φ（z|x，u）δ（n =C−1z），（9）其中δ（·）是狄拉克δ函数。根据第3.3节中介绍的模型假设，即，一代过程（Eq. 4）和先验（Eq. 6），我们得到一个简洁的ELBO损失形式如下：命题1 ELBO定义在方程中。 8可以写成：ELBO=EqX[Eq（z|x，u）[log p θ（x|z）]- D（q）φ（q|x，u）||p（））-D（q φ（z|x，u）||p θ（z|u））]。（十）L=−ELBO+αH（A）+βlu+γlm，（14）其中α，β，γ表示正则化超参数。5. 可识别性分析在本节中，我们提出了我们提出的模型的可识别性。我们采用可识别的[11]如下：定义1设θ是关于 Θ的二元关系，定义如下：（f，h，C，T，λ）<$（f，h<$，C<$，T<$ ，λ<$）优惠券B1，B2，b1，b2|有关证明的详情载于附录A。有了这种形式，我们可以很容易地实现一个损失函数来训练CauseVAE模型。T（h（x，u））=B1T<$ （h<$（x，u））+b1，T（f −1（x））=B2T<$ （<$f−1（x））+b2，9599u qX2 1<$x∈X，（十五）4.2. 学习潜在代码的因果结构除了编码器和解码器之外，我们的Causal VAE模型还涉及一个因果层，其中包含要学习的DAG结构。请注意，z和A都是未知的，为了简化训练任务并保证因果图A的可识别性，我们利用附加标签u来构建以下约束：L =Eu−σ（ATu）其中C =（I-AT）-1。如果B1是一个可逆矩阵，B2是一个可逆对角矩阵，其对角元素与u i相关联。我们说模型参数是可辨识的。在[11]之后，我们得到了因果生成模型的可识别性，如下所示。定理1假设我们观察到的数据是根据等式1生成的。3-4和以下假设成立，9600˜1. 集合{x∈ X |φ φ（x）= 0}的测度为零，其中φ φ是密度p的特征函数，定义在方程（1）中。五、2. 解码器函数f是可微的，并且f的雅可比矩阵具有满秩1。3. 充分统计量Ti，s（zi）0对所有1≤i≤ n和1≤s≤2几乎处处成立，其中Ti，s（zi）是变量zi的sth统计量.4. 附加观测值ui=0。则参数（f，h，C，T，λ）是可辨识的。虽然真实生成模型的参数θ在学习过程中是未知的，但定理1给出的生成模型的可辨识性保证了由假设函数学习的参数θ是可辨识的。这表明，学习的生成模型的参数在一定程度上恢复了真实的参数。此外，z中的所有zi与附加观测对齐它们被期待成为因果系统内在的因果关系。这就是为什么它可以保证z是因果表示。利用条件可辨识性，得到了在有监督信息先验p θ（z|u）。条件先验保证了p θ（z）的充分统计量|u）与u的值有关。定理1的完整证明可在附录B中找到。6. 实验在本节中，我们使用合成数据集和真实人脸图像数据集进行实验，并将我们的CauseVAE模型与现有的最新技术方法进行比较。我们专注于检查某种算法是否能够学习可解释的表示，以及对学习的潜在代码的干预结果是否与我们对因果系统的理解一致。6.1. 数据集，基线6.1.1数据集：我们在合成数据集和基准人脸数据集CelebA上进行了实验合成：我们构建了两个合成数据集，其中包括因果关系相关对象的图像。第一个叫钟摆。每个图像包含3个实体（ PENDULUM、 LIGHT、 SHADOW ）和4个概念（（PENDULUM 安格尔，光角度）→（阴影位置，阴影长度））。第二个名字叫Flow。每个图像包含4个概念（BALL SIZE→WATER SIZE，（WATER1（秩等于其较小的维度）尺寸，孔）→ 水流）。由于页面限制，正文仅显示Pendulum的结果，两个数据集的流程和更多详细信息见附录C.1。真实世界基准：我们还使用了真实世界数据集CelebA2 [17]，这是计算机视觉社区中广泛使用的数据集。在这个数据集中，总共有20万张人脸图像，标签上有不同的概念，我们选择了两个子集的因果关系相关的属性。第一组是CelebA（S英里），由性别，微笑，眼睛张开，嘴巴张开组成。第二个是CelebA（BEARD），由年龄，性别，秃头，胡子组成。正文仅显示CelebA（SMILE）的结果，附录D中提供了其他概念的更多基线：我们将我们的方法与一些最先进的方法进行比较，并显示消融研究的结果基线分为监督和非监督方法。Causal VAE-unsup、LadderVAE [16]和β-VAE [6]是无监督方法。CauseVAE-unsup是我们的模型的简化版本，其结构与CauseVAE相同，除了Mask层和监督条件先验p（z|U）被删除。监督方法包括解纠缠表示学习方法ConditionVAE [29]，它不包括模型结构中的因果层和因果生成模型CauseGAN [14]，它需要将真实的因果图作为先验知识给出。由于CauseGAN不关注表征学习，我们仅在干预实验中比较CauseVAE与CauseGAN（结果见附录D.3）。对于这些方法，给出了标签的先验条件，并且潜在表示的维数与CauseVAE相同。我们使用最大信息系数（ MIC ）和总信息系数（TIC）[13]作为我们的评估指标。这两个指标都反映了概念的学习表征与地面真值标签之间的信息相关程度6.2. 干预实验干预实验的目的是检验潜在表征的某个维度是否具有可解释的语义。潜码的值是通过前面介绍的“do操作”来操作的干预是通过以下步骤进行的：• 生成模型被训练。• 来自训练集的任意图像被馈送到编码器以生成潜码z。2http://mmlab.ie.cuhk.edu.hk/projects/CelebA.html9601图3.在钟摆数据集上进行干预实验的结果每行分别显示控制摆角、灯光角度、阴影长度和阴影位置的结果最下面一行是原始输入图像。其他合成数据集的更多干预结果见附录D.3。图4.CelebA（SMILE）上的Causal VAE模型结果控制因素为性别、微笑、睁眼和张嘴分别更多干预结果见附录D.3。• 我们操纵zi的值对应于一个感兴趣的概念。 F或因果VAE，如图。 2004年和图。 6显示，我们需要操作SCM层的输入和输出节点。注意，MA的影响对父节点的nipulation将被传播到其子节点。• 交织后的潜码Z通过解码器以生成新的图像。在实验中，数据集中的所有图像都用于训练我们提出的模型Causal VAE和其他基线。对于所有实验，超参数（α，β，γ）=（1，1，1），除非另有说明。我们首先在Pen- dulum数据集上进行干预实验，有4个潜在概念，结果如图所示。3 .第三章。我们通过设定对应的潜在代码值为0。我们期望，在相同的干预下，被操纵的概念的模式将在所有图像中被固定。例如，当我们如图3（a）的第一行所示干预摆角时，不同图像的摆角几乎相同。同时，我们还观察到S形阴影位置和 S形阴影长度以符合物理定律的正确方式请注意，这也与模块化的概念有关，这意味着干预生成系统的某个部分通常不会影响系统的其他部分在其他干预实验中也观察到类似的现象，表明我们的模型正确地实现了潜在的因果系统。ConditionVAE是一种不考虑因果结构的监督方法，其结果如图3（b）所示。存在一个问题，96020 1 23(a) 初始化0.50.40.30.20.10.00 1 2 3(b) 1个时期0.50.40.30.20.10.00 1 2 3(c) 5个时期1.51.20.90.60.30.00 1 23(d) 真正的0.50.40.30.20.10.0图5. 因果矩阵A的学习过程。这些概念包括：GENDER，SMILE，EYES OPEN，MOUTH OPEN（从上到下和从左到右的顺序）;（c）收敛A，（d）地面真值。表1.学习的表示z和标签u之间的MIC和TIC。结果表明，在所有比较的方法中，我们提出的CauseVAE的学习因子实现了最好的对齐感兴趣的概念（注：指标包括表中的平均值±标准误差钙离子VAE条件VAEβ-VAE钙离子VAE-unsup LadderVAE（%）MICTICMICTICMICTICMICTICMICTIC摆95.1±2.481.6±1.993.8±3.380.5±1.422.6±4.612.5±2.221.2±1.412.0±1.022.4±3.112.8±1.2流72.1±1.356.4±1.675.5±2.356.5±1.823.6±3.212.5±0.622.8±2.712.4±1.434.3±4.324.4±1.5CelebA（SMILE）83.7±6.271.6±7.278.8±10.966.1±12.122.5±1.29.92±1.227.2±5.314.6±4.223.5±3.010.3±1.6CelebA（BEARD）92.3±5.683.3±8.689.8±6.278.7±7.722.4±1.99.82±2.211.4±1.520.0±2.223.5±3.08.1±1.2介入每个概念1234z1z2z34后遮罩层遮罩层前图6. 干预方法效果码有时对整个图像没有影响这可能是因为他们没有明确考虑因果解纠缠。我们还设计了另一个合成数据集Flow，并对它进行了同样的比较实验，结果支持了我们的观点。由于页数限制，我们将结果显示在附录D中。图图4展示了CauseVAE在真实世界banchmark数据集CelebA 上的良好结果，子图分别显示了干预概念GENDER，SMILE，EYES OPEN和MOUTH OPEN 我们观察到，当我们干预原因概念SMILE时，嘴张开的状态也发生了变化。相反，干预效应概念“张开嘴”不会导致原因概念“微笑”发生变化。表1记录了所有比较方法的学习表示和地面实况概念标签之间的相互信息（MIC/TIC）。我们的模型与概念标签实现了最佳对齐，证明了我们所提出的方法的有效性。上相反，通过那些比较的方法学习的因子与地面事实标签具有低相关性，这指示那些因子至少不对应于感兴趣的因果概念。此外，我们在图5中显示了学习的邻接矩阵A。为了学习精确的因果图，我们通过优化增广拉格朗日方法[32]在Eq. 11，详情见附录C.3。随着训练时间的增加，我们看到我们的模型学习到的图很快收敛到真实的图，这表明我们的方法能够正确地学习因素之间的因果关系7. 结论在本文中，我们研究了一个重要的任务，学习的因果关系相关的概念在数据中的解开表示我们证明了所提出的模型是完全可识别的额外的监督信号。实验结果与合成和真实的数据表明，CauseVAE成功地学习因果关系相关的概念表示，并允许干预，以产生反事实输出预期根据我们的因果系统的理解。据我们所知，我们的工作是第一个成功实现因果解纠缠的工作，有望为解纠缠表征学习领域带来新的见解。32103210321032109603引用[1] MichelBesser v e，R e'mySun，andBernhardSchoülk opf. 交互事实揭示了深层生成模型的模块结构。arXiv 预印本arXiv：1812.03253，2018。3[2] 腓利门·布拉克和约瑟芬·本吉奥。用对抗网学习非线性独立特征。arXiv预印本arXiv：1710.05050，2017. 2[3] Christopher P Burgess，Irina Higgins，Arka Rupid，LoicMatthey ， Nick Watters ， Guillaume Desjardins ， andAlexander Lerchner.在贝塔中理解解脱。arXiv预印本arXiv：1804.03599，2018。1[4] Tian Qi Chen，Xuechen Li，Roger B Grosse，and DavidK Duvenaud. 变分自动编码器中解纠缠的隔离源神经信息处理系统的进展，第2610-2620页，2018年一、二[5] 大卫·赫克曼，丹·盖格，大卫·麦克斯韦·奇克林.学习baidu 网络：知识和统计数据的结合。 CoRR ，abs/1302.6815，2013年。3[6] Irina Higgins，Loic Matthey，Arka Bastard，ChristopherBurgess ， Xavier Glorot ， Matthew Botvinick ， ShakirMohamed，and Alexander Lerchner.beta-focus：使用受约束的变分框架学习基本的视觉Iclr，2（5）：6，2017.一、二、六[7] Patrik O Hoyer，Dominik Janzing，Joris M Mooij，JonasPe-ters，andBernhardSch oülk opf. 加性噪声模型下的非线性因果圆盘神经信息处理系统的进展，第689-696页，2009年2[8] Jun-Ting Hsieh，Bingbin Liu，De-An Huang，Li F Fei-Fei，and Juan Carlos Niebles.学习分解和解开视频预测的表示。神经信息处理系统的进展，第517-526页，2018年。1[9] Wei-Ning Hsu，Yu Zhang，and James Glass.从序列数据中进行无监督的解缠和可解释表示学习。神经信息处理系统的进展，第1878-1889页，2017年。1[10] Nan Rosemary Ke，Olexa Bilaniuk，Anirudh Goyal，Ste-fan Bauer，Hugo Larochelle，Chris Baud，and YoonneBengio.从未知干预中学习神经因果模型。CoRR，abs/1910.01075，2019。3[11] IlyesKhemakhem，DiederikP. Kingma和AapoHy várinen。变分自编码器和非线性ICA：一个统一的框架。CoRR，abs/1907.04809，2019。二、四、五[12] Hyunjik Kim和Andriy Mnih。通过分解分解来解开arXiv预印本arXiv：1802.05983，2018。1[13] Justin B Kinney和Gurinder S Atwal。公平性、互信息与最大信息系数。美国国家科学院院士，111（9）：33546[14] 放大图片作者： Christopher Snyder ， AlexandrosG.Dimakis和Sriram Vishwanath。Causalgan：通过对抗训练学习因果隐式生成模型。CoRR，abs/1709.02023，2017。二、三、六[15] Tejas D Kulkarni，William F Whitney，Pushmeet Kohli，and Josh Tenenbaum.深度卷积逆图形网络。神经信息处理系统的进展，第2539-2547页，2015年2[16] 丹尼尔 ·D. Lee ， Masashi Sugiyama ， Ulrike vonLuxburg，Isabelle Guyon，and Roman Garnett，editors.神经信息处理系统的进展29：神经信息处理系统2016年年会，2016年12月5日至10日，西班牙巴塞罗那，2016年。第二、六条[17] Ziwei Liu，Ping Luo，Xiaogang Wang，and Xiaoou Tang.在野外深度学习人脸属性。2015年IEEE计算机视觉国际会议，ICCV 2015，智利圣地亚哥，2015年12月7日至13日[17]，第3730六、九[18] Francesco Locatello 、 Stefan Bauer 、 Mario Lucic 、GunnarRtsch、Syl vainGel ly、BernhardScholk opf和Olivier Bachem。在非监督学习中对解纠缠表示的共同假设。arXiv预印本arXiv：1811.12359，2018。第二、四节[19] FrancescoLocatello，Michael Tschannen，Stefan Bauer，Gun-narRatsch，BernhardScho？ l k opf，andOl i vierBachem.使用较少的标签区分变异因素. arXiv预印本arXiv：1905.01258，2019。2[20] Jianxin Ma，Chang Zhou，Peng Cui，Hongxia Yang，and Wenwu Zhu.学习分解的表征以供推荐。神经信息处理系统的进展，第5712-5723页，2019年1[21] Emile Mathieu，Tom Rainforth，N Siddharth，and YeeWhye Teh.变分自动编码器中的解纠缠。arXiv预印本arXiv：1812.02833，2018。2[22] Ignavier Ng ， Zhuangyan Fang ， Shengyu Zhu ， andZhitang Chen. 基于掩蔽梯度的因果结构学习。arXiv预印本arXiv：1910.08527，2019。第三、四节[23] Ignavier Ng ， Shengyu Zhu ， Zhitang Chen ， andZhuangyan Fang.因果结构学习的图自动编码器方法。CoRR，abs/1911.07420，2019。5[24] 朱迪亚·珀尔因果关系。剑桥大学出版社，2009年。二、三、四[25] 乔纳斯·彼得斯，彼得·伯曼，尼古拉·迈因斯豪森。使用不变预测的因果推理：识别和置信区间。arXiv预印本arXiv：1501.01332，2015。3[26] JonasPeters ， DominikJanzing ， andBernhardSch oélk opf.因果推理的要素。The MIT Press，2017. 3[27] Bernhard Schoülk opf.机器学习的因果关系arXiv预印本arXiv：1911.10500，2019。3[28] ShoheiShimizu ， PatrikOHoyer ， AapoHyvérinen 和AnttiKerminen。因果关系描述的线性非高斯非循环模型Journal of Machine Learning Research，7（Oct）：2003二、三[29] Kihyuk Sohn，Honglak Lee，and Xinchen Yan.使用深度条件生成模型学习结构化输出表示神经信息处理系统的进展，第3483-3491页，2015年。6[30] RaphaelSuter ， DordeMiladino vic' ， BernhardScho ？ lkopf，andStefan Bauer.鲁棒的因果机制：验证干预鲁棒性的深度表示arXiv预印本arXiv：1811.00007，2018。3[31] Robert E.作者声明：Peter Spirtes.从具有重叠变量的多个数据集中学习具有潜在和选择变量的非循环模型的等价类。在Geoffrey J. Gordon，David B.邓森和米罗斯拉夫·杜迪克9604编辑， Proceedings of the Fourteenth InternationalConference on Artificial Intelligence and Statistics ，AISTATS 2011，Fort Lauderdale，USA，2011年4月11-13日，JMLR Proceedings第15卷，第3-15页JMLR.org，2011年。3[32] 岳雨、解尘、天高、墨玉。Dag-gnn：使用图神经网络进行 Dag 结构学习 arXiv 预印本arXiv： 1904.10098 ，2019。五、八[33] 张昆和Aapo Hyvarinen。后非线性因果模型的可辨识性arXiv预印本arXiv：1205.2599，2012年。2[34] Xun Zheng，Bryon Aragam，Pradeep K Ravikumar，andEric P Xing.Dags with no tears：Continuous optimizationfor struct learning.神经信息处理系统的进展，第9472-9483页，2018年三，五[35] 朱胜宇和陈志堂。因果发现与再学习。 CoRR ，abs/1906.04477，2019。5[36] Shengyu Zhu，Ignavier Ng，and Zhitang Chen.因果发现与强化学习。2020年国际学术会议（ICLR）。3

下载后可阅读完整内容，剩余1页未读，立即下载