联合训练下的变分自动编码器与基于潜在能量模型的优化方法及其应用

50 浏览量更新于2023-10-25 收藏 1.13MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1变分自动编码器与基于潜在能量模型作者单位Author Agencies史蒂文斯理工学院计算机科学系硕士论文作者单位AuthorAgencies2加州大学洛杉矶分校统计系than6@stevens.edu，{enijkamp，bopang}@ ucla.edu，linqizhou907@gmail.com{sczhu，ywu}@ stat.ucla.edu摘要本文提出了一种联合训练方法来学习变分自动编码器（VAE）和基于潜在能量的模型（EBM）。The jointtraining of VAE and latent EBM are based on an objectivefunctionthatconsistsofthreeKullback-Leiblerdivergences between three joint dis- tributions on the latentvector and the image, and the objec- tive function is of anelegant symmetric and anti-symmetric form of divergencetriangle that seamlessly integrates vari- ational andadversarial learning.在该联合训练方案中，潜在EBM作为生成器模型的评判器，而VAE中的生成器模型和推理模型分别作为潜在EBM的近似合成采样器和推理采样器。实验表明，联合训练大大提高了VAE的综合质量.它还使得能够学习能量函数，该能量函数能够检测出用于异常检测的样本示例。1. 介绍变分自动编码器（VAE）[23，35]是生成建模和无监督学习的强大方法它由一个生成器模型组成，该生成器模型通过自顶向下卷积网络（由于其自顶向下的性质，也称为解卷积网络）将噪声向量转换为信号（如图像）。它还包括一个推理模型，通过自下而上的网络从图像中推断出潜在向量。VAE在图像和视频合成[12，3]以及无监督和半监督学习[37，22]中有许多应用。Despite its success, the VAE suffers from relatively weaksynthesis quality compared to methods such as generativeadversarial net (GANs) [11, 34] that are based onadversar-ial learning.虽然将VAE目标函数与GAN目标函数相结合可以提高综合质量，但这种组合是相当特殊的。在本文中，我们将追求一个更系统的变分积分，学习和对抗性学习。具体来说，我们不是在GAN中使用一个基于潜在能量的模型（EBM），而是在联合训练方案中与VAE无缝衔接。VAE中的生成器模型是有向模型，具有关于潜在向量的已知先验分布（诸如高斯白噪声分布）和给定潜在向量的图像的条件分布。这种模型的优点是可以通过直接的祖先采样生成合成的例子。生成器模型以自上而下的方案定义了潜在向量和图像的我们可以把这种联合密度称为发电机密度。VAE也有一个推理模型，它定义了给定图像的潜在向量的连续分布为了与生成观察图像的数据分布一起我们可以将该联合密度称为联合数据密度，其中潜在向量可以被认为是EM算法语言中的缺失数据[6]。正如我们稍后将解释的，VAE相当于从数据密度到生成器密度的Kullback-Leibler发散的联合最小化在这种最小化中，发生器密度试图覆盖数据密度的模式，并且因此，发生器密度可能过度分散。这可以部分解释VAE与生成器网络不同，潜在循证医学是一种不确定的模型.它通过联合能量函数定义了潜在向量和图像的非归一化联合密度。这种无向形式使得潜在EBM比生成器网络更好地逼近数据密度。然而，潜在EBM的最大似然学习需要（1）推断采样：从给定观察到的示例的潜在矢量的条件密度采样，以及（2）合成采样：从所述潜在向量和所述图像的联合密度采样。两个推论79787979采样和合成采样需要耗时的马尔可夫链蒙特卡罗（MCMC）。在本文中，我们建议联合训练VAE和潜在EBM，以便这两个模型可以相互借用力量。联合训练方法的目标函数由潜在向量和图像的三个联合密度（即数据密度、生成器密度和潜在EBM密度）之间的Kullback-Leibler偏差组成。这三个Kullback-Leilber发散形成了一个优雅的对称和反对称形式的发散三角形，它无缝地集成了变分学习和对抗学习联合训练对VAE和潜在循证医学都有好处。潜在EBM具有更灵活的形式，可以更好地近似数据密度比生成器模型。它作为生成器模型的评论家，通过对数据密度进行判断。对于生成器模型，潜在EBM充当数据密度和目标密度的代理，以供生成器模型近似。生成器模型和相关联的推理模型又用作潜在EBM的近似合成采样器和推理采样器，从而减轻了潜在EBM的MCMC采样负担。实验结果表明，联合训练方法可以学习到综合能力较强的发电机模型。它还可以学习能够进行异常检测的能量函数2. 捐款和有关工作以下是我们工作的贡献（1）提出了一种同时学习VAE和潜在EBM的联合训练方法。目标函数为对称和反对称形式的发散三角形. (2)该方法集成了变分学习和对抗学习。(3)该方法融合了玻尔兹曼机和亥姆霍兹机的研究主题。以下是与我们的工作有关的主题(1) 变分和对抗学习。在过去的几年里，分别受到VAE [23，35，37，12]和GAN [11，34，2，41]的启发，变分学习和对抗学习的研究出现了爆炸式增长。我们工作的一个目的是找到一个自然的整合，变异和对抗性学习。在实验中，我们还比较了几种主要的方法.值得注意的是，对抗学习推理（ALI）[9，7]在对抗框架中结合了生成器模型和推理模型的学习它可以通过添加条件熵正则化来改进，如最近的方法ALICE [26]和SVAE [4]。虽然这些方法是使用联合训练图像和潜在向量来训练的，但这种训练不是概率密度，因此它不是潜在的EBM。(2) 亥姆霍兹机和玻尔兹曼机。之前VAE 和 GAN 接管， Boltzmann 机 [1 ， 17 ， 36] 和Helmholtz机[16]是生成建模和无监督学习的两类模型。玻尔兹曼机是潜在循证医学最突出的例子学习包括两个阶段。正相样本来自潜变量的条件分布，负相位样本来自潜变量和图像的联合分布。参数根据正负相位统计特性亥姆霍兹机器可以被认为是VAE的前身。它由自顶向下的生成模型和自底向上的识别模型组成学习也包括两个阶段。尾流阶段基于识别模型推断潜变量并更新生成模型的参数。睡眠阶段从生成模型生成合成数据并更新识别模型的参数。我们的工作旨在整合这两类模型。(3) 发电机网络和基于能量模型联合训练的发散三角形。发电机和基于能量的模型可以使用最大似然标准单独训练，如[13，33]所示，也可以联合训练，如[20，38，14，24]最近探索的那样。特别是，[14]提出了一种用于联合训练的发散三角形标准。我们的训练标准也是发散三角形的形式。然而，这些文献中的循证医学仅仅是定义在图像上，并没有在循证医学的潜向量在我们的工作中，我们采用潜EBM，它定义了一个联合密度的潜向量和图像，因此，这种无向联合密度是更自然的匹配生成器密度和数据密度，都是有向联合密度的潜向量和图像。3. 模型和学习3.1. 生成器网络设z为d维特征向量.设x为D维信号，例如图像。VAE包括一个生成器模型，它定义了一个联合概率密度p θ（x，z）= p（z）p θ（x|z），（1）其中p（z）是潜在向量z的已知先验分布，例如均匀分布或高斯白噪声，即，z<$N（0，Id），其中Id是d维单位矩阵。 p θ（x|z）是给定z时x的条件分布。pθ（x）的一个典型形式|z）使得x=g θ（z）+n，其中g θ（z）由自上而下的卷积网络（也称为解卷积网络）参数化。由于自上而下的方向，θ收集网络的所有权重和偏置项是残余噪声，并且通常假定它是σN（0，σ2ID）。7980发电机网络是一个有向模型。我们称pθ（x，z）为发生器密度。可以通过首先对z进行采样然后对给定z的x进行采样来直接对x进行采样。在文献中，这有时被称为祖先采样[30]。边际分布pθ（x）=pθ（x，z）dz。不以封闭的形式。因此，发电机网络有时被称为内隐生成模型。z的推断可以基于给定x的z的后验分布，即，p θ（z|x）=p θ（x，z）/p θ（x）. p θ（z|x）不是封闭形式。3.2. 推理模型VAE假设推理模型q φ（z|x）具有单独的一组参数φ。q φ（z）的一个例子|x）是N（μ φ（x），V φ（x）），其中μ φ（x）是d维均值向量，V φ（x）是d维对角方差-协方差矩阵。μφ和Vφ都可以通过下式参数化：自底向上卷积网络，其参数由φ表示。推理模型q φ（z|x）是真实后验p θ（z）的封闭形式近似|X）。3.3. 数据密度假设qdata（x）是生成ob的分布。其中对于两个联合密度q（x，y）和p（x，y），我们定义KL（q（y|x）p（y|x））= Eq（x）|y）[log（q（y|x）/p（y|x））≥ 0。由于KL（qdata（x）<$pθ（x））= Eqdata（x）[logqdata（x）]-Eqdata（x）[logpθ（x）]，联合最小化问题等价于Eq数据（x）[logp θ（x）− KL（q φ（z|x）p θ（z|（六）=E q数据（x）[E qφ（z|x）[log p θ（x，z）] − E qφ（z|x）[log q φ（z|X）]，这是VAE中使用的对数似然的下限[23]。值得注意的是，用于训练亥姆霍兹机器的唤醒-睡眠算法[16]包括（1）唤醒阶段：minθKL（qφ（x，z）<$pθ（x，z）），（2）睡眠阶段：minφKL（pθ（x，z）<$qφ（x，z））. 睡眠阶段逆转了KL发散的阶3.5.潜在循证医学不同于有向联合密度p θ（x，z）=p（z ）p θ（x|z），并且q φ（x，z）=qdata（x）q φ（z|x）在数据密度中，潜在EBM定义了无向联合密度，尽管是未归一化的：1提供图像。在实践中，对q数据（x）可以通过在ob上的平均来近似πα（x，z）=Z（α）exp[fα（x，z）]，（7）提供培训实例。我们使用符号q来表示数据分布的原因是其中−fα（x，z）是能量函数（一项origi-来自统计物理学）在图像X上定义，q数据（x）的问题是q数据（x）可以自然地组合潜在向量z。 Z（α）=exp[fα（x，z）]dxdz是利用推理模型q φ（z|x），这样我们就有了联合密度q φ（x，z）= q数据（x）q φ（z|X）。（二）上述也是方向密度，因为它可以在自下而上的方向上被因子化。我们可以将联合密度q φ（x，z）称为数据密度，其中在EM算法的术语中，我们可以将z视为缺失数据，并且q φ（z|x）作为缺失数据的插补模型。3.4. VAE自上而下生成元密度p θ（x，z）= p（z）p θ（x|z）和自底向上数据密度q φ（x，z）= qdata（x）q φ（z|（x）形成自然配对。如[14]所述，VAE可以被视为作为以下联合最小化归一化常数。它通常是难以处理的，并且exp[f α（x，z）]是一个未归一化的密度。潜在EBM最突出的例子是玻尔兹曼机[1，17]，其中f α（x，z）由成对势组成。在我们的工作中，我们首先将x编码成一个向量，然后将这个向量与向量z连接起来，然后通过在连接向量上定义的网络得到f α（x，z）。3.6.推理与综合抽样∫设π α（x）=πα（x，z）dz是潜在循证医学α的最大似然学习基于minαKL（qdata（x）<$πα（x）），因为最小化KL（qdata（x）<$πα（ x ））等效于最大化对数似然 Eqdata （ x ） [logπα（x）]。学习梯度是7981min min KL（qφ（x，z）<$pθ（x，z）），（3）∂ E[logπ（x）]= EΣ Σ∂f（x，z）θ φ∂αq数据（x）αqdata（x）πα（z|x）∂αα其中对于两个密度q（x）和p（x），KL（q（x）<$p（x））=Eq[log（q（x）/p（x）]是q和p之间的Kullback-Leibler散度。-Eπα（x，z）ΣΣ∂fα（x，z）.（八）为了将上述联合最小化连接到VAE的通常形式，KL（qφ（x，z）<$pθ（x，z））= KL（qdata（x）<$pθ（x））（4）+Eq数据（x）[KL（q φ（z|x）p θ（z|（x））]、（5）这是一个众所周知的结果，在潜在的循证医学[1，25]。在上述等式的右边，两个期望值可以通过蒙特卡罗抽样近似。对于每个观察到的图像，从π α（z）|x）是从X. 我们称之为推理抽样。在文献中，它是7982这就是所谓的积极阶段[1，17]。它也被称为箝位采样，其中x是观察到的图像并且是固定的。从πα（x，z）采样是从模型生成合成的例子。我们称之为综合抽样。在文献中，它被称为负相。它也被称为非箝位采样，其中x也是从模型中生成的。4. 联合训练4.1. 联合训练目标函数我们有以下三个联合密度。(1) 发生器密度p θ（x，z）= p（z）p θ（x|z）。循证医学在推理抽样和综合抽样中均避免了MCMC.换句话说，推理模型充当潜在EBM的近似推理采样器，并且生成器网络充当潜在EBM的近似合成采样器。4.3. 发电机网络的学习对于学习发电机网络，minθL等价于最小化LG（θ）=KL（q φ<$p θ）+KL（p θ<$πα）。其中梯度可以计算为：(2) 数据密度q φ（x，z）= qdata（x）q φ（z|X）。(3) 潜在EBM密度πα（x，z）。我们建议学习参数化的发电机模型DdθLG（θ）=−Eqdata（x）qφ（z|x）Σ Σ∂θlog p θ（x|z）由θ表示的推理模型，由φ表示的推理模型，以及由α表示的潜在EBM，∂-θEpθ（x，z） [fα（x，z）]。（十四）三角形：min min maxL（θ，α，φ），（9）在KL（qφ<$pθ）中，pθ出现在KL-散度的右侧。最小化KL分歧，到θ要求p覆盖q的所有主要模式。如果pθ φαL= KL（qφ<$pθ）+KL（pθ<$πα）−KL（qφ<$πα），（10）其中，所有密度qφ、pθ和πα都是（x，z）。上述目标函数是对称和反对称的。对称形式反对称性是由KL（qφ<$πα）前面的负号和α上的最大值引起的。4.2. 潜在循证医学的学习对于学习潜在EBM，maxαL等效于最小化LE（α）= KL（q φ<$π α）− KL（p θ<$π α）。（十一）在上面的最小化中，πα试图接近数据密度qφ并远离pθ。因此，通过比较pθ和qφ，πα可以作为pθ的一个批评者。由于πα的无向形式，它在近似qφ时比有向pθ更灵活。上述最小化的梯度为θ φ θ如果没有足够的柔性，它将使自己应变以覆盖所有的主模，结果，它将使pθ比qφ过色散。这可能是VAE倾向于在合成质量上受损的原因然而，在第二项KL（pθ<$πα）中，pθ出现在KL-散度的左手侧，πα，在其动力学中接近qφ而远离pθ，作为数据密度qφ的替代物和pθ的目标。由于pθ出现在KL发散的左侧它可以追踪πα（qφ的替代）的某些主模，而不需要以覆盖所有模式。还要注意，在KL（pθ<$πα）中，我们不需要知道Z（α），因为就θ而言，它是一个常数。结合上述两个KL-发散，近似地，我们最小化KL-发散的对称化版本S（q φ <$p θ）=KL（q φ<$p θ）+KL（p θ<$q φ）（假设π α接近q φ）。这将纠正VAE的过度分散提高了VAE的合成质量我们请读者参考教科书 [10 ， 31] 中关于 minpKL（q<$p）和minpKL（p<$q）之间的差异。在DdαLE （α）=−Eqdata（x）qφ（z|x）Σ ∂Σ ∂αfαΣΣ（x，z）文学，它们也被称为包容性和排他性KL或KL和反向KL。4.4. 对抗性追逐游戏+ Epθ（x，z）fα（x，z）.（十二）πα的动力学是它试图接近数据密度qφ而远离pθ。但是pθ的动力学比较等式12、Eqn。8，我们将π α（z|x）由q φ（z|在正相的推断采样中，我们用π α（x，z）代替π α（x，z）;在负相的综合采样中，我们用p θ（x，z）代替π α（x，z）。q φ（z|x）和p θ（x，z）可以直接采样。因此，联合训练使潜在7983它试图接近πα（同时也接近数据密度qφ）。这定义了一个对抗性的追逐游戏，即，πα向qφ运动，从pθ运动，而pθ追逐πα。结果，πα使pθ趋向qφ。pθ和πα形成一个行动者-批评者对。7984i=1i=1Mi=1i=1i=1i=1E我4.5. 推理模型学习推理模型q φ（z）的学习|x）可以基于minφL（θ，α，φ），这等价于最小化LI（φ）=KL（q φ<$p θ）−KL（q φ<$πα）。（十五）q φ（z|x）寻求接近p θ（z|x）相对于π α（z|X）。即，q φ（z|x）试图成为p θ的推理模型。同时，π α（z|x）寻求接近q φ（z|X）。这也是一场追逐游戏。q φ（z|x）超前π α（z|x）接近p θ（z|X）。方程中的LI（φ）的梯度15可以很容易地计算如：等式12，方程14和Eqn. 十六岁在实践中，我们使用样本平均值来近似期望值。综合和推理抽样。梯度计算的期望值基于生成器密度p θ（x，z）和数据密度q φ（x，z）。为了近似地估计发生器密度E_pθ（x，z）[. ]，我们通过z<$p（z），x<$p θ（x）进行综合采样|z）得到M个样本（zi，xi）。为了近似数据密度Eqφ（x，z）的期望，]，我们通过以下方式执行推理采样：xqφ（z|x）以得到M个样本（xi，z∈i）。两p θ（x|和q φ（z|x）假设为高斯分布，因此我们有：xθ=gθ（z）+σe1，e1<$N（0，ID）;d<$z<$=μφ（x）+Vφ（x）1/2e2，e2<$N（0，Id），（18）dφLI（φ）=<$φEqφ（x，z）[logqφ（x，z）−logpθ（x，z）]∂-f φ Eqφ（x，z）[log q φ（x，z）− f α（x，z）]。（十六）我们还可以学习q φ（z|x）通过最小化LI（φ）= KL（q φ<$p θ）+KL（qφ<$π α），（17）|x）接近于p θ（z|X）和π α（z|x）在变分近似中。4.6. 算法算法1VAE和潜在EBM其中gθ（z）是发电机模型的自上而下的去卷积网络（参见第3.1节），µφ（x）和Vφ（x）是推断模型的均值向量和对角方差-协方差矩阵的自下而上的卷积网络（参见第3.2节）。我们遵循通常的实践[11]，直接从发电机网络进行测试，即，x∈gθ（z）。请注意，合成样本（z，x）和推断样本（x，z）分别是生成器参数θ和推断参数φ的函数确保梯度反向传播。模型学习所得到的合成样本和推断样本可以用来逼近模型学习中的期望值。具体地，对于潜在EBM学习，等式11中的梯度。12可以近似为：要求：训练图像{xi}n;学习迭代D1LE（α）−ΣMΣ∂Σfα（xi，z<$i）T;α，θ，φ←初始化网络参数。确保：dαM∂αi=1估计参数{α，θ，φ}; 生成的样本100万日元{xi}n.公司简介i=1fα（x∈i，zi）.（十九）1：设t← 0。2：重复3：对（zi，xi）M的合成采样使用等式十八岁对于推理模型，等式（1）中的梯度。16可以近似为：4：使用等式2对（xi，z∈i）M进行影响采样十八岁D∂1ΣM5：LearnlatentEBM：Giv en{zi，xii}Mi和dφLI（φ）[logqφ（xi，z<$i）−logpθ（xi，z<$i）]{xi，z<$i}M，更新α←α−ηαL′（α），使用i=1等式19，学习率ηα。6：学习影响模型：Giv en{xi，zi}M，更新∂1ΣM−[logqφ（xi，z<$i）−fα（xi，z<$i）].i=1φ←φ−ηφL′（φ），学习率ηφ使用等式20块公司简介i=1（二7985i=1i=1G十）7：Learngeneratornetwork：Giv en{zi，xi}Mand{xi，z<$i}M，更新θ←θ−ηθL′（θ），带学习对于发电机模型，方程中的梯度14可以近似为：使用等式11对ηθ进行评级。21岁d1小时8：设t← t+1。9：直到t=TdθLG（θ）<$−Mi=1θlogp θ（xi|zi）2011年1月1日潜在的循证医学，生成器和推理模型可以是使用随机梯度下降联合训练，-θMi=1[fα（x∈i，zi）].（二十一）7986请注意，Eqn.20、Eqn。21上的合成样本s（zi，xi）和推断样本（xi，zi）可以容易地使用等式（1）反向传播。十八岁详细的训练过程在算法1中给出。5. 实验在本节中，我们将从四个方面评估所提出的模型：图像生成、测试图像重建、分布外泛化和异常检测。推理模型的学习是基于Eqn。15，我们还测试了使用Eqn训练推理模型的替代方法。17、重建与发展我们主要考虑4个数据集，包括CIFAR-10，CelebA [27]，大规模场景理解（LSUN）数据集[39]和MNIST。我们将在以下相关小节中更详细地描述数据集。所有训练图像数据集被调整大小并缩放到[-1，1]，无需进一步的预处理。所有网络参数都使用标准差为0.02的零均值高斯，并使用Adam进行优化[21]。我们采用与[34]中类似的反卷积网络结构用于生成器模型，并采用“镜像”卷积结构用于推理模型。这两种结构都涉及批量归一化[19]。对于联合能量模型πα（x，z），我们使用多层卷积来变换观测值x和潜在因子z，然后在共享相似性的高层将它们连接起来，如[26]所示。如[29]中所建议的，使用光谱归一化。详情请参阅我们的项目第15.1. 图像生成在这个实验中，我们评估生成的样本的视觉质量。学习良好的生成器网络pθ可以生成逼真的样本，并与训练数据共享视觉相似性。我们主要考虑三种常用的数据集，包括CIFAR-10，CelebA [27]和LSUN [39]，用于生成和重建评估。 CIFAR-10包含60，000个大小32×32，其中50，000张图像用于训练，10，000张用于测试。对于CelebA数据集，我们将其大小调整为64×64，随机选择10,000张图像，其中9,000张用于训练，1,000张用于测试。对于LSUN数据集，我们选择包含大约300万张图像的卧室类别，并将其调整为64×64。我们分开10，000张图像用于测试，其余的用于训练。的定性结果如图1所示。我们通过使用表1中的Frechet起始距离（FID）[28]进一步定量评估我们的模型。我们比较了基线模型，包括VAE [23]，DCGAN [34]，WGAN [2]，CoopNet[38]，ALICE [26]，[29][29][29 ][ 29] FID分数来自相关论文，对于缺失的评价，我们重新评价1https://hthth0801.github.io/jointLearning/通过利用它们发布的代码或使用它们的论文中指出的类似结构和最佳参数来重新实现它们。从表1，我们的模型实现了竞争力的发电性能相比，上市的基线模型。此外，与[14]相比，其在CIFAR-10上具有7.23的侵入评分（IS），在CelebA上具有31.9的FID，我们的模型分别具有7.17的IS和24.7的FID。实验结果表明，与单纯的VAE训练相比，联合训练可以大大提高合成质量。请注意，SNGAN [29]在分辨率相对较小的CIFAR-10上得到了更好的生成，而在其他分辨率相对较高且模式多样的数据集上，我们的模型获得了更有利的结果，并且具有更稳定的训练。5.2. 测试图像重建在这个实验中，我们通过测试图像重建来评估学习的推理模型的准确性。经过良好训练的推理模型不仅有助于学习潜在的EBM模型，但也学习匹配真实的后验p θ（z|x）的发电机模型。因此，在实践中，一个学习良好的推理模型可以平衡，以呈现真实的生成，正如我们在前面的部分中所展示的，以及测试图像.我们在CIFAR- 10、CelebA和LSUN-bedroom的保持测试集上对模型进行了评估具体来说，我们使用CIFAR-10 的10， 000个测试图像， CelebA和LSUN-bedroom的1，000和测试图像和相应的重建如图2所示。我们还使用均方根误差（RMSE）与基线模型（ALI [9]，ALICE [26]，SVAE [4]）进行了定量比较。请注意，对于这个实验，我们只与包含joint vector（x，z）的相关基线模型进行比较，并且可以实现体面的生成质量。此外，我们不考虑GAN及其变体，因为它们不涉及推理模型，并且不适用于图像重建。表2示出了结果。VAE自然地集成到我们的概率模型中，用于联合学习。然而，单独使用VAE在复杂数据集上可能非常无效相反，我们的模型实现了高生成质量和准确的重建。5.3. 非分布概化在这个实验中，我们使用学习的潜在EBMπα（x，z）来评估分布外（OOD）检测。如果能量模型是良好学习的，则训练图像连同其推断的潜在因子应当形成局部能量最小值。来自其他分布而不是训练分布的不可见图像应该被分配到相对较高的能量。这与Hopfield[18]观察到的联想记忆模型密切相关。我们在CIFAR-10训练模型上学习了所提出的模型。7987图1：生成的样本。左图：CIFAR-10代。中：CelebA世代。右：LSUN卧室一代。模型VAEDCGANWGANCoopNet爱丽丝SVAESNGAN我们的（+）我们CIFAR-10109.537.740.233.648.643.529.333.330.1CelebA99.0938.436.456.646.140.750.429.524.7LSUN175.270.467.735.472-67.831.427.3表1：使用FID评分对各种数据集进行的样本质量评价。我们的（+）表示我们提出的方法，其中推理模型使用等式（1）训练。十七岁模型CIFAR-10CelebALSUN-卧室VAE0.1920.1970.164阿里0.5580.720-爱丽丝0.1850.2140.181SVAE0.2580.209-我们的（+）0.1840.2080.169我们0.1770.1900.169表2：使用RMSE测试图像重建评价。我们的（+）表示我们提出的方法，其中使用Eqn训练推理模型。十七岁图2：测试图像重建。上图：CIFAR-10。下图：CelebA。左：测试图像。右：重建图像。年龄，然后利用学习的能量模型使用能量值（即，负对数似然）。我们使用的是ROC曲线（AUROC）分数作为我们的OOD度量遵循[15]，我们使用纹理[5]、均匀噪声、SVHN [32]和CelebA图像作为OOD分布（图4提供了CIFAR-10测试图像和OOD图像的示例我们比较了ALICE [26]，SVAE[4]和最近的EBM [8]作为我们的基线模型。ALICE、SVAE的CIFAR-10训练遵循网络，EBM的超参数和分数直接取自[8]。表3显示了AUROC评分。我们还在图3中提供了OOD分布的相对似然的直方图，这可以进一步验证来自OOD分布的图像被分配给相对低的对数似然（即，高能量）与训练分布相比。我们的潜在EBM可以学习为训练分布分配低能量，为来自OOD分布的数据分配高能量。7988图3：各种数据集的对数似然（未归一化）直方图。我们分别给出了CIFAR-10测试集与CelebA、Uniform Random、SVHN、Texture和CIFAR-10训练集的直方图比较精确-召回曲线（AUPRC），如[40]中所示。表4示出了结果。CIFAR SVHN均匀纹理CelebA图4：来自CIFAR-10 测试、SVHN、单形随机、纹理和CelebA的图像的图示。最后四个被认为是OOD分布。模型SVHN均匀纹理CelebAEBM0.631.00.48-爱丽丝0.290.00.400.48SVAE0.420.290.50.52我们0.681.00.560.56表3：各种图像数据集上OOD分类的AUROC评分。所有模型均在CIFAR-10列车组上学习。5.4. 异常检测表4：MNIST上无监督异常检测的AUPRC评分。数字取自[24]，我们模型的结果是过去10个时期的平均值，以考虑方差。6. 结论本文提出了一种同时学习VAE和潜在EBM的联合训练方法，其中VAE作为演员，潜在EBM作为演员。批评家目标函数是一个简单而紧凑的发散三角形，它涉及潜向量上三个联合密度之间的三个KL-发散。在这个实验中，我们采取了更接近和更gen.学习的潜在EBM与异常检测的应用程序的一般视图。无监督异常检测是机器学习中的重要问题之一，在网络安全、医学分析和监控等领域有着巨大的应用潜力。它类似于之前讨论的分布外检测，但在实践中可能更具挑战性，因为异常数据可能来自与训练分布类似且不完全分开的分布。我们在MNIST基准数据集上评估了我们的模型。MNIST数据集包含60，000张大小为28×28的灰度图像，描绘了手写数字。遵循与[24，40]相同的实验设置，我们将每个数字类别视为异常，并将其余9个数字视为正常示例。我们的模型只接受了正常的训练数据，并与正常和异常数据进行测试。我们使用能量函数作为我们的决策函数，并与基于BiGAN的异常检测模型[40]，最近的MEG [24]和VAE模型进行比较。图和图像。该目标函数集成了变分学习和对抗学习。实验结果表明，联合训练提高了VAE的综合质量，并学习到合理的能量函数，能够进行异常检测。学习格式良好的能量景观仍然是一个挑战性的问题，我们的经验表明，学习的能量函数可以对超参数的设置和训练算法内敏感。在我们的进一步工作中，我们将进一步改进能量函数的学习。We shall alsoexplore joint training of models with multiple layers oflatent variables in the styles of Helmholtz machine andBoltzmann machine.确认这项工作得到了DARPA XAI项目N66001- 17-2-4029的支持; ARO计划W 911 NF 1810296关于ONRMURI项目N 00014 -16-1-2007;极端科学与工程发现环境（XSEDE）资助ASC 170063。HoldoutVAE梅格BiGAN-σ我们10.0630.281 ±0.0350.287 ±0.0230.297 ±0.03340.3370.401±0.0610.443 ±0.0290.723 ±0.04250.3250.402 ±0.0620.514 ±0.0290.676 ±0.04170.1480.290 ±0.0400.347 ±0.0170.490 ±0.04190.1040.342 ±0.0340.307 ±0.0280.383 ±0.0257989引用[1] 大卫·H·阿克利，杰弗里·E·辛顿，特伦斯·J·塞-伊诺夫斯基。玻尔兹曼机的学习算法齿轮科学，9（1）：147-169，1985. 二、三、四[2] 马丁 ·阿乔对 ky ，苏米特 ·钦塔拉和 Le'onBottou 。Wasserstein生成对抗网络国际机器学习会议，第214-223页，2017年。二、六[3] MohammadBabaeizadeh 、 Chelsea Finn 、 DumitruErhan、Roy H Campbell和Sergey Levine。随机变分视频预测。arXiv预印本arXiv：1710.11252，2017。1[4] 陈立群，戴树阳，蒲云晨，周尔金，李春元，苏勤良，陈长友，劳伦斯.对称变分自动编码器和对抗学习的连接。在人工智能和统计国际会议上，第661-669页，2018年。二六七[5] Mircea Cimpoi ， Subhransu Maji ， Iasonas Kokkinos ，Sammy Mohamed，and Andrea Vedaldi.描述野外的纹理。IEEE计算机视觉和模式识别会议论文集，第3606-3613页，2014年。7[6] Arthur P Dempster，Nan M Laird，and Donald B Rubin.不完全数据的最大似然法。英国皇家统计学会会刊。B辑（方法），第1-38页，1977年。1[7] Je f fDonahue，PhilippK raühenbuühl，和Tr ev或Darrell。对抗性特征学习。 arXiv 预印本 arXiv ： 1605.09782 ，2016。2[8] Yilun Du和Igor Mordatch。基于能量的模型中的隐式生成和泛化。arXiv预印本arXiv：1903.08689，2019。7[9] Vincent Dumoulin 、 Ishmael Belghazi 、 Ben Poole 、Olivier Mastropietro 、 Alex Lamb 、 Martin Arjovsky 和Aaron Courville。逆向学习推理。arXiv预印本arXiv：1606.00704，2016。二、六[10] Ian Goodfellow Yoshua Bengio和Aaron Courville深度学习MIT Press，2016. 4[11] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。在神经信息处理系统的进展，第2672一、二、五[12] Karol Gregor 、 Ivo Danihelka 、 Alex Graves 、 DaniloJimenez Rezende和Daan Wierstra。抽签：一递归神经网络图像生成。arXiv预印本arXiv：1502.04623，2015。一、二[13] 田汉，杨璐，朱松春，吴英念。发电机网络的交替反向传播算法。在AAAI，第3卷，第13页，2017年。2[14] 田汉，埃里克·奈坎普，方小林，米奇·希尔，朱松春，吴应念.用于发电机模型、基于能量的模型和推理模型的联合训练的发散三角形。在IEEE计算机视觉和模式识别会议论文集，第8670- 8679页，2019年。二、三、六[15] 丹·亨德里克斯和凯文·金佩尔。用于检测神经网络中错误分类和分布外示例的基线。arXiv预印本arXiv：1610.02136，2016。7[16] 杰弗里·E·辛顿，彼得·达扬，布伦丹·J·弗雷和拉德·福特·M·尼尔。无监督神经网络的”唤醒-睡眠”算法。Science，268（5214）：1158-1161，1995. 二、三[17] Geoffrey E Hinton，Simon Osindero，and Yee-Whye Teh.一种深度信念网的快速学习算法。神经计算， 18（7）：1527-1554，2006. 二、三、四[18] 约翰·J·霍普菲尔德神经网络和物理系统与新兴的集体计算能力。美国国家科学院院刊，79（8）：2554-2558，1982。6[19] Sergey Ioffe和Christian Szegedy。批次标准化：通过减少内部协变量偏移来加速深度网络训练。arXiv预印本arXiv：1502.03167，2015。6[20] 金泰燮和Yoshua Bengio具有基于能量的概率估计的深层定向生成模型。arXiv预印本arXiv：1606.03439，2016年。2[21] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。6[22] Durk P Kingma ， Shakir Mohamed ， Danilo

下载后可阅读完整内容，剩余1页未读，立即下载