基于能量的潜变量模型的双层双变分学习

71 浏览量更新于2023-10-25 收藏 1.06MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

18460基于能量的潜变量模型的双层双变分学习葛坎1，吕金虎1，王天1*，张宝昌1，朱爱春2，黄磊1，郭国栋3，Hichem Snoussi41北京航空航天大学人工智能研究院自动化科学与电气工程学院北京中国2南京工业大学计算机科学与技术学院3百度研究院深度学习技术及应用国家工程实验室，北京中国4特鲁瓦理工大学，特鲁瓦法国{葛侃，王天，张伯琪}@ buaa.edu.cn，jhlu@iss.ac.cn，朱爱春@ njtech.edu.cnhuanglei36060520@gmail.comguoguodong01@baidu.com，hichem. utt.fr摘要基于能量的潜变量模型（EBLVMs）比传统的基于能量的模型更有表现力。然而，其在视觉任务上的潜力受到其基于最大似然估计的训练过程的限制，该过程需要从两个棘手的分布中采样。在本文中，我们提出了双层双变分学习（BiDVL），它是基于一个新的双层优化框架和两个易于处理的变分分布，以促进学习 EBLVMs 。特别地，我们引入了一个解耦的EBLVM，它由基于边缘能量的分布和结构后验组成，以处理在图像上学习深度EBLVM时的通过在我们的框架的低层中选择对称KL发散，可以获得用于视觉任务的紧凑BiDVL。我们的模型实现了令人印象深刻的图像生成perfor-曼斯相关作品。它还展示了测试图像重建和分布外检测的重要能力。1. 介绍基于能量的模型（EBM）[24]被称为在机器学习领域广泛研究的强大生成模型，它通过归一化指数负能量来明确定义一般分布。EBM也已成功应用于解决视觉任务，例如图像合成 [6] ，分类 [12] ，分布外（OOD）检测[30]或半监督学习[7]。此外，潜变量被并入以定义*通讯作者基于能量的潜变量模型（EBLVMs），更有表现力，能够进行表示学习[4]。然而，EBLVM的有效性恶化时，应用它来解决计算机视觉问题，因为学习最大似然估计（MLE）通常遭受双重棘手的模型问题[42]，即，由于标准化分母中的难处理的积分，从模型的后验分布和联合分布的采样是非平凡的。最近的工作[6，35]基于年龄梯度的马尔可夫链蒙特卡罗（MCMC），如朗之万动力学，从EBM近似采样，但需要大量的步骤，因为更少的步骤可能导致任意远离目标的采样分布。此外，为了处理EBLVMs的双重棘手问题，需要双重MCMC采样，因此在高维图像上不可行。为了有效地实现EBLVMs，本文提出了一种基于易处理的变分后验和变分联合分布的双层D双变分L学习（BiDVL如图1所示，我们将BiDVL表示为双层优化（BLO）问题。具体地说，通过探索变分分布来实现下层的模型分布，从而迫使梯度估计拟合真实的梯度估计，然后将得到的梯度估计用于上层的目标优化。理论上，BiDVL在非参数假设下等价于原始MLE目标[10]，而为了实际优化它，我们提出了一种有效的替代优化方案。此外，双变分学习的缺点来自于它在图像上学习深度EBLVM时的不稳定性。例如，AdVIL [25]可以近似-18461图1. BiDVL的动机。蓝色项目代表真正的目标优化过程。红色项目表示近似值。真实梯度、梯度估计和边界分别由蓝色、红色和黑色曲线表示。粗红色曲线是上层优化的梯度估计参见第4.1.1详细说明。从BiDVL退化的iPhone4不能实现良好的性能。失败的原因在于：1）一般的深度EBLVM没有关于后验的结构假设，无约束的后验在训练过程中可能在不同的模式结构之间转移，导致变分学习的动态目标2）忽略了两个变分分布之间的直接相互作用3)基于能量的posterior和它的变分近似没有有效的方法来模拟真实的。这些问题可能会影响其他学习深度EBLVM的方法[3，4，16]为了解决这些问题，我们将EBLVM分解为基于能量的边缘分布和结构后验，其中后者由变分后验表示。然后在低层选择一个对称的KL散度，通过共享两层的后验，将变分分布进行双重连接，从而得到一个紧凑的图像任务BiDVL。最后，解耦的EBLVM有助于导出重要性加权KL散度，其中Monte Carlo估计器的样本来自数据集。通过双重链接从数据中学习，后验模型更有效地对潜在空间进行建模。具体来说，我们参数化的变分分布与推理模型和隐式生成模型（IGM）。最近，[15，16，46]提出联合训练EBM，推理模型和IGM。但是，它们的表述在一定程度上都是由直觉组合而成的，导致了模型之间的重叠和冲突。完全用于EBLVM学习的BiDVL对一致性的解释有了很大的改进。总的来说，我们做出了以下贡献：1) 我们引入了一个MCMC免费BiDVL框架，有效地学习EBLVM。采用相应的交替优化方案进行求解。2) 我们注意到在学习深度EBLVM时存在几个问题在图像上。为了克服这些问题，我们定义了一个解耦EBLVM，并选择一个对称的KL分歧在较低的水平。由此产生的紧凑的目标意味着学习EBLVMs的一致性。3) 我们展示了基线模型之间令人印象深刻的图像生成质量。此外，BiDVL在测试图像重建和面向对象检测方面也表现出了良好的性能.2. 相关工作学习EBM和EBLVM。EBM和EBLVMs作为未规范化的概率模型，比其他生成模型更能有效地拟合数据分布。尽管如此，当通过MLE学习许多尝试[2，6]利用MCMC来近似该过程，但效率很差。[3，4，27，42]避免了基于得分匹配[18]的非平凡采样，但需要不稳定和低效的得分函数计算另一种方法是噪声对比估计[14]，其在高维图像上的性能较差[11]。此外，[13]提出了在不采样的情况下学习Stein Discreplenary，[47]将MLE推广到f-散度变分框架，[8，11]提出了MCMC自由变分方法，而所有这些方法都旨在学习EBM，我们的BiDVL以不同的方式实现EBLVM。最近的尝试[25]引入了两个变分模型来形成最小-最小-最大嵌套目标。他们的方法在RBM [1]和DBM [40]上进行了评估，但对于在图像上学习深度EBLVM来说是不稳定的。然而，我们提出了一个紧凑的稳定性模型，见第二节。4.2详情与其他型号联合训练。最近的工作也注意到EBM和其他模型之间的兼容性。[2，35，36，43，44]利用EBM以指数方式倾斜生成分布，其中大多数具有两阶段的细化过程，MCMC采样效率低下。[5，41]认为EBM是GAN的一种改进，但仍然使用MCMC来修改生成分布。[15]提出了联合训练EBM、推理模型和IGM的发散三角形损失，[16]将其扩展到EBLVM，[46]通过变分MCMC教学[45]将其扩展。这些研究通过假设EBM总是完美地拟合数据，直观地整合了KL损失，这在所涉及的模型之间引起了有害的冲突而我们的紧凑目标导出了重要性加权KL损失，并且BiDVL中的变分模型是模拟优化的，而不是它们的睡眠-清醒方案。所有的差异都源于我们的统一框架，显示了学习EBLVM的一致性。3. 预赛EBLVM定义了可视变量v和隐变量h的联合标量能量函数。相应的关节18462∫|Z∫||J、|J|J.能量是E（v）=−logexp（−E<$（v，h））dh.ψ∂ω|ω = ω∫E1（）ω（）EE分布q ω1（h|v）和p ω2（v，h）（红色标记项）旨在追踪其中Ep（v，h）=exp（−E<$（v，h）），（1）exp（−E<$（v，h））dhdv（v，h）表示联合空间上的能量函数模型分布p（h v）和p（v，h）（蓝色标记项）在较低层优化中，减小梯度估计项ψ参数化为，（）=称为配分函数exp（−E （v，h））dhdv是（3a）（红色曲线）。因此，梯度估计被迫符合真实的一个，即，当量（3）（粗蓝色曲线）。然后是esti-.边际分布由p（v）=p（v，h）d h给出，而边际分布由p（v）= p（v，h）dh最后得到的数据（粗红色曲线）用于优化上层的实际目标。根据[28]中描述的公式，我们假设培训 EBLVM 是通常基于对 MLE，或等价地最小化KL散度（k）=DKL（q（v）pk（v）），其中q（v）表示经验数据分布。如[24]所述，负对数似然目标的可通过以下公式低层（LL）子问题解上层（UL）变量是单例的，这被称为下层单例假设[29]。因此，我们定义LL子问题如下：ω（ω）=ar gminJLL（ω，ω），∇ψEq(v)[ −logpψ(v)] = ∇ψDKL(q(v)ǁpψ(v))=（二）ω∈ΩEq（v）p（h|v）[E（v，h）] − Ep （v，h）[E（v，h）]，JL L（v，ω）=D（q（v）qω1（h|v），q（v）p（h|（v））（四）其中p（h|v）=exp（−E<$（v，h））exp（−E<$（v，h））dh是后椎间盘+D（pω2（v，h），pω 2（v，h）），其中，k是变分分布的参数空间。隐藏潜在变量。由方程式（2），Monte Carlo梯度估计需要p∈（v，h）和p∈（v，h）的样本，由于高维空间上的积分，这是双重困难的。然而，通常采用的MCMC具有高消耗并且太庞大而不能同时应用于两个分布。4. 学习方法4.1. 双层双变分学习为了有效地处理这个双重棘手的问题选项。D表示对应于关于概率的假设的某个适当的度量，因为项（3b）、（3c）的形式使人想起一般的积分概率度量。相关讨论见附录A.1。我们应该再次强调LL子问题的解是一个函数w。r. t. UL变量，因此，（h|v）[E]−Ep2（v，h）[E]仅当LL（，ω（））= 0时成立。然后，考虑ω=ω（ω）的项（3a）的等价物由下式给出：Eq（v）qω（ω）（h|v）[E]− Epω（）（v，h）[E]我们提出双变分学习，即，介绍两个1 2表示变分后验的=Kl（q（v）q ω1（h|v）p（v，h））|（五）qω1 （h v）和变分联合分布pω2.（v，h），∂ψD（ p（v，h）（v，h）ω1=ω1（ω）其中ω=（ω1，ω2）是可训练参数。采样从变分分布只需要一个向前的步骤，KLω2ψ∂ψ|ω2 =ω2 (ψ).大大提高了效率。4.1.1框架受EQ启发（5），我们定义UL子问题如下：UL= arg minUL（λ，ωλ（λ）），ψ∈Ψ在这一部分中，我们介绍了双层优化（BLO）框架下的双重变分学习。让JU L（v，ω）=DK L（q（v）qω1（h|v）p（v，h））（六）为清楚起见，=（v，h）我们首先重写Eq。（2）以下是我们的动机：J（v）= Eq（v）p（h|v）[E] − Ep（v，h）[E]（3）−DKL（pω2（v，h）<$p<$（v，h）），其中k是能量函数的参数空间此外，UL目标的梯度w.r.t. 表示为<$JUL（<$，ω<$（<$））<$JUL（<$，ω）Eq（v）qω（h|v）[E] − Epω（v，h）[E]（3a）∂ψ=∂ψ|ω=ω（）（七）+Eq（v）p（h|v）[E]−Eq（v）qω1（h|v）[电子邮件地址]（3b）+Epω2（v，h）ψ]，（3c）ψp（v，h）ψψ[2014 -05-23]E ]−E[2014 -05-23]+E联系我们−1218463≡∂ψ. <$ω<$（<$）<$T<$JUL（<$，ω）其中表示身份w.r.t.换句话说，它保持ω1，ω2 的任何值。等式（3）意味着，对于适当的ω，使得项（3b）和（3c）都等于零，则项（3a）是精确的梯度估计。制定双层优化问题的动机如图所示1.一、变分分布其中，<$ω <$（<$）称为最佳响应（BR）雅可比矩阵[28]其捕获LL溶液w.r.t. UL变量。我们认为，在非参数假设[10]下，BiDVL中的BLO问题（4，6）等价于优化原始目标J（n）。形式定理是前-18464∀ ∈ ∃ ∈|||| |||||EJEE−|ǁǁJǁ ǁǁ|≤·J|≤·J||发送如下：定理1. 假设，D（q（v）qω1（h v），q（v）pω 1（h v））=0，并且D（ pω2（ v，h），p∈（ v，h））= 0，则我们有4.2.1去耦EBLVM上述问题意味着无约束后验模型对于潜在空间的建模是混乱和多余的，这促使我们重新定义p（v）和p（h|（五）作为J（）=JUL（，ω（）），J（）=JUL（，ω（））。基于能源的边际分布和结构性后序。考虑q ω 1（h）的相同参数化，|v）由于变分模型的容量有限，非参数假设在实际中并不总是成立的。但我们仍然可以将原始目标约束为UL（ω，ω）（ω）C′LL（ω，ω）。见附件-方块A.2和A.3的详细推导和证明。4.1.2替代优化和p（h v），并通过minD（q（v）qω1（h v）q（v）p（h v）），当量（4）通过共享参数ω1，可以直接使基于能量的后验与变分后验相等，从而得到D（q（v）qω1（h v），q（v）p<$（h v））= 0，消除了BiDVL中后验之间令人困惑的追逐，降低了LL目标。最后，我们制定了EBLVM的解耦版本：解决BLO问题需要计算UL目标（7）的梯度。”[28]《易经》云：“君子之道，焉可诬也？”[29]p '，ω1（v，h）= p'（v）qω1（h|V），p'（ v）exp（−E'（ v）），（八）ent遭受用递归推导过程处理BR雅可比矩阵。最近的尝试[3，32]利用梯度展开技术来估计双层优化问题中的梯度。然而，梯度展开要求内部循环形成递归计算图，并且分配更多的资源用于回溯。在我们的情况下，它也会导致性能较差。为了效率，我们忽略等式中的BR雅可比项（七）、然后对BiDVL进行交替优化，即，当更新当前级别中涉及的参数时，我们认为其余参数是固定的。注意，缺失项替代优化已被广泛用于强化学习。4.2. 图像任务的BiDVLBiDVL是EBLVM的通用框架，然而，双变分学习通常不稳定，无法在图像数据集上扩展到学习深度EBLVM。 AdVIL [25]可以通过选择较低级别的KL发散近似地从BiDVL中导出，遇到了与不稳定的训练和较差的图像处理我们将失败归因于三个关键的学习问题，这些问题加剧了高维和高度多模态图像数据集的不稳定性：其中，ω'（v）是用ω'参数化的新的边际能量，然后解耦的联合能量被重新定义为ω'，ω1（v，h）=ω'（v）logqω1（h v）。注意，我们实际上是在优化（ω 1）的上界，换句话说，如果两个层次的目标减少，那么原始目标也会减少，因此我们可以在两个层次上优化ω1而不改变BiDVL的最优解。4.2.2对称KL散度由于ω1在两个层次上都是最优的，因此在较低层次上的适当度量可以连接变分分布，其中KL发散是可行的选择。然而，如[9，16]所述，最小化DKL（P Q）w.r.t.Q迫使Q覆盖P的主支集，同时最小化反向版本DKL（Q P），Q被迫追逐P的主模。因此，为了整合这两种行为，我们在较低的水平上选择对称的KL发散，S（P Q）=DKL（P Q）+DKL（Q P）。同时，通过对Sec.4.1.2考虑到，一个紧凑的BiDVL是来自方程。（4）和（6）：minLL（ω），ω1) 一般定义的无向EBLVM（1）没有JLL（ω）=DKL（p∈'，ω（v，h）<$pω（v，h））（九）关于其后验p ∈（h）的显式结构假设|v）12(due到由网络表示的耦合联合能量+DKL（pω2（v，h）<$pω'，ω1（v，h）），并导致动态目标，其模式结构快速转移，对于q ω1（h|v）和p ω2（v，h）来追赶。minω1UL（ω′，ω1）2) 虽然这两个变量分布近似于-JU L（ω′，ω1）=DK L（q（v）qω（h|v）p'，ω（v，h））（十）对于p∈（v，h），它们之间没有直接的相互作用，因此在变分学习中可能会引起失准。3) p ω 1（h v）和q ω1（h v）都不能有效地模拟真实的后件，因为它们是相互学习的（4），而不是直接从数J18465据中学习。接下来，我们介绍了我们的解决方案，上述问题与BiDVL作为一个必要的框架，然后，一个实用的紧凑的BiDVL的图像任务，从而进行。1 1- DKL（pω2（v，h）<$pω′，ω1（v，h）），在较低水平的对称KL发散揭示了在两个方向上的变分分布之间的连接。基于上述解决方案，我们推导出下一节所示的加权KL损失，这被证明有助于有效地对数据潜在空间进行建模。18466∫···←− J←−Jq（v）^|^J.J.E−J.J.E2| ǁ| ǁǁ|（十三）4.2.3优化紧凑型BiDVL在这一部分中，我们提出了优化紧凑BiDVL（9，10）的梯度，通过以下公式计算当量ωJLL（ω）=<$ωDK L（p <$'（v）qω1（h|v）p ω2（v，h））+<$ω2Epω2（v，h） [E"（v）]+<$ωDK L（p ω2（v，h）<$qω1（h|（v））算法1基于交替随机梯度下降输入：学习率方案α和β;随机初始化的网络参数ω和ω′;低级步数N1：重复2：抽样一批数据3：对于n= 1，，N，优化的下级子问题（9）由=ωp"（v）q（ v）q（v）q ω1（h|v）日志q（v）q ω1（h|v）pω2（ v，h）dhdv第四章：当量（11）或Eq. （13））：ω← ω−α<$ωJLL（ω）+<$ω2Epω2（v，h）[E"（v）]+<$ωDK L（p ω2（v，h）<$qω1（h|（v））=<$ωD r（v）（q（v）q ω1（h|v）p ω2（v，h））+<$ω2Epω2（v，h）[E"（v）]+<$ωDK L（p ω2（v，h）<$qω1（h|（v）），（十一）ω1JUL（ω1，ω1）5：结束6：可选梯度展开如下[32]7：通过等式（10）优化上层子问题。（12）或Eq.（14））：ψ′ψ′β'UL（ω′，ω1）ω1ω1αω1UL（ω′，ω1）8：直到收敛或达到某个阈值=Eq（v）['E'（v）]−Epω2（v，h）['E'（v）]-<$ω1 DKL（p ω2（v，h）<$q ω1（h|（v）），（十二）4.3. 算法实现其中，Dr（v）表示重要性加权KL发散，其中r（v）=p"（v）作为重要性比。利用重要性比的主要原因是从p ∈'（v）的非平凡抽样。注意，计算比率仍然是不平凡的，我们在第二节中给出了详细的分析。5.4重要性加权术语提供了额外的好处。由于DKL（pω'（v）q ω1（h v）p ω2（v，h））具有模式覆盖行为，定义在整个空间上的p ω'（v）可能为p ω2（v，h）提供虚假的模式覆盖信息。而加权项估计的样本来自数据集，带来了pω2（v，h）的模式覆盖信息，进一步提高了EBLVM的收敛速度和训练稳定性。此外，极小化DKL（q（v）q ω1（hv）pω2（v，h））等价于优化VAE的证据下界，其重构方法被证明能有效地对数据潜在空间进行建模.最小化DKL（pω2（v，h）qω1（h v））倾向于增加后验下生成样本的可能性，这进一步增强了可见空间和潜在空间之间的对齐。通过共享变分后验qω1（hv），解耦EBLVM因此学习更简单的结构后验，易于对数据潜在空间进行建模。注意与 w.r.t. 相反的 ω1 包含在 Eqs 中。（ 11 ）和（12）可以被偏移以导出简化的梯度：<$ωJL L（ω）=<$ωDr（v）（q（v）qω1（h|v）p ω2（v，h））+<$ω2Epω2（v，h）[E"（v）]+<$ω2DK L（p ω2（v，h）<$qω1（h|（v）），'UL（V′）=Eq（v）[E′V′（v）]Epω（v，h）[E′V′（v）]。（十四）偏移梯度比原始梯度更稳定，因为相反的项被集成到一个水平中，但是削弱了对抗性学习，正如我们在第二节中所解释的那样。5.418467|Nǁ|算法1中总结了训练过程，在本节中，介绍了一个具体的实现该模型由EBM、推理模型和生成模型组成，分别对应于基于边际能量的分布pω'（v）、变分后验qω1（h v）和变分联合分布pω2（v，h）对于生成模型，BiDVL有很多选择，e.G.隐式生成模型（IGM）或流[39]。在这项工作中，我们简单地利用IGM，从IGM中通过将潜在变量h传递通过确定性生成器来获得样本，即，v=Gω2（h），其中h从已知分布p（h）中采样。对于推断模型，我们采用 VAE 的标准高斯编码器（ μω1 （ v ）， μω1（v））。从推理模型中采样通常采用重新参数化技巧，即。h=μω1（v）+ μω1（v）·μ，其中μ表示高斯噪声。4.4. 讨论在本节中，我们将在特定实现下展示BiDVL的一些其他属性。采用VAE结构，Eq.（11）包含重要性加权VAE损失，其中我们实际上使用等式（11）中的重要性加权重建损失和KL正则化。（十一）、同时，DKL（pω2（v，h）qω1（h v））作为隐空间上的另一种重构，参与了循环重构，将模型紧密地联系在一起.此外，在Eqs中有两个追逐游戏。（9）至（12）：1) 第一个追逐博弈是在边际EBMpω2和IGMpω2之间进行的。在低层中，pω2趋向于追赶pω'，而在高层中，pω'转向数据分布并逃离pω2。该游戏制定了类似于GAN的对抗性学习，但判别式引导的IGM通常具有有限的分配能力18468−××ǁ|×××E|||∼×密度的学习支持[2]，而在BiDVL，IGM是由一个复杂的基于能量的概率模型指导。2) 方程中的相反项（11）和（12）有助于变分模型之间的另一个追逐游戏。在低层中，q ω1和p ω2在潜在空间上被拉近，而在高层中，q ω1试图从另一个逃离。优化ω1以增加上一层的 DKL（p ω2（v，h）q ω1（hv）），会无目的地改变推理模型的均值和方差，导致训练不稳定。灵感来自在VAE损失中，重建部分和KL正则化部分之间的对抗性质，我们改为在上层最小化 DKL （ qω1 （ h v ） p（h）），vpω2（v）来解释追逐游戏。事实上，它为qω1提供了稳定训练的固定所有的性质，如重要性加权损失，额外的追逐游戏和两级优化方案都源于统一的框架，意味着学习EBLVMs的一致性。5. 实验我们评估BiDVL的三个任务：图像生成，测试图像重建和外的分布（OOD）检测。进行了测试图像重建以评估对潜在空间的建模能力，其余实验主要按照[16]设计。在主要论文中，在三个常用的基准数据集上进行了实验，包括CIFAR-10 [23]，SVHN [34]和CelebA[31]。对于CIFAR-10和SVHN，图像大小被重新调整为32 32。对于CelebA，我们将图像大小调整为32 32和64 64，以构建CelebA-32和CelebA-64。所有数据集都缩放到[1，1]进行预处理。我们的模型包括一个循证医学，推理模型和IGM。变分模型的结构如下[16]，它简单地级联了几个卷积层。为了稳定的训练，批量归一化[19]层插入卷积层之间。EBM使用卷积层将样本映射到具有频谱归一化的实值能量，以确保附录A.1中讨论的对卷积（v，h）的约束。通过Adam优化参数[20]。在我们的实验中，我们将较低级别的步骤数N设置为1，并忽略梯度展开，以实现更快和更稳定的训练一些主要的选择将在第二节中讨论。5.4为了在更大规模的图像上进行评估，我们还在CelebA上进行了实验，CelebA的大小调整为128 128，具有更强的基于Resnet的结构，见附录B。5.1. 图像生成通过在CIFAR-10、SVHN和CelebA上的实验，我们证明了该模型可以生成与训练图像具有视觉相似性的真实感图像。图2显示了由所提出的模型随机生成的3232个图像的结果。3显示了结果模型CIFAR-10CelebA-64VAE [22]109.599.09发散三角形[16]30.124.7IGEBM [6]40.58-GBM [2]23.02-维拉[11]27.5-SNGAN [33]21.750.4BiDVL（我们的）20.7517.24表1.通过FID评价CIFAR-10和CelebA- 64的样品质量。模型CelebA-32VAE [22]38.76DCGAN [38]12.50FCE [7]12.21GBM [2]5.21BiDVL（我们的）4.47表2.使用FID评价CelebA-32的样品质量64 64张图片在CelebA上。我们发现生成的图像保持多样性，这证实了学习EBLVM很好地覆盖了大多数模式的数据。我们采用Frechet起始距离（FID）[17]来反映样本质量，并从EBM，VAE和GAN中选择基线模型，以与第二节中的观点保持一致4.4发散三角形[16]是一种能量引导的 VAE ，具有与我们相似的模型结构。[11][12][13][14][15][16][17][18][19][SNGAN [33] 采用Resnet结构，在CIFAR-10上获得21.7 FID。最近的指数倾斜模型，制定了一个两阶段的细化过程与效率低下的MCMC采样，在这里不在选项卡中。1，我们在CIFAR-10和CelebA-64上评估我们的最佳模型。表2报告了CelebA-32的FID我们的模型实现了优于基线模型的性能，特别是在CIFAR-10上获得20.75 FID，即使没有复杂的结构，如Resnet。5.2. 图像重建在本节中，我们展示了我们的模型可以通过评估测试图像重建的性能来学习训练样本的低维结构。我们必须注意到，EBM和GAN在没有推理模型的情况下无法进行图像重建，而我们提出的模型中采用推理模型作为变分后验实验上，我们的模型在CIFAR-10和CelebA-64测试数据集上都实现了较低的重建误差，因为隐变量上的重建行为有助于进一步增强可见空间和隐空间之间的对齐我们比较了我们的模型，它具有最好的一代在第二。5.1中的基线模型。3、带根18469−E−E图2.随机生成的图像。左图：CIFAR-10。中间：SVHN。右：CelebA-32。图3.在CelebA-64上随机生成的图像。表3.使用RMSE评估CIFAR-10和CelebA-64上的测试图像重建均方误差（RMSE）作为度量。图4所示的重建图像表明，我们的模型可以捕获测试图像中的主要信息，并且低重建误差意味着真实数据的信息通过IGM有效地流向EBLVM。5.3. 分布外检测EBLVM定义了一个非归一化密度函数，可用于检测OOD样本。像GAN这样的生成模型对于OOD是不可行的，因为图4.测试图像重建。上图：CIFAR-10。下图：CelebA-64。左：测试图像。右：重建图像。模型分布是隐含定义的，而像VAE和Flows这样的似然模型被指责高估了OOD区域，因此无法区分OOD样本。然而，EBLVM的对数非归一化边缘密度，负边际能量（v）被训练为在OOD区域上分配低值，在数据区域上分配高值，这适合于我们的情况。由于解耦EBLVM的边缘部分可以忠实地模拟可见空间，因此我们将“V”（v）作为样本的评判标准。我们主要考虑了三个面向对象的数据集：uniformnoise，SVHN和CelebA.我们提出的模型在CIFAR-10上训练，其测试部分是分布数据集。在[6]之后，ROC曲线下面积（AU-ROC）被用作我们的评估指标。由于训练EBM是相关工作中发现的高方差过程[16]，因此我们从训练的早期阶段选择最佳模型模型CIFAR-10CelebA-64VAE [22]0.1920.197爱丽丝[26]0.1850.214SVAE [37]0.2580.209发散三角形[16]0.1770.190BiDVL（我们的）0.1680.18718470E− E0.010.05 0.1 0.5 1.0FID 22.62 20.75 21.90表5.不同碱比对FID的影响。模型在CIFAR-10上训练。表4.均匀、SVHN、CelebA测试数据集上的分布外检测我们报告了负自由能的AUROC。表4显示了我们的模型实现了与从最近的EBM、VAE和流中选择的大多数基线兼容的令人惊讶的是，我们发现我们提出的模型略优于形式JEM，虽然JEM是一个基于能量的分类器模型应该是好的OOD检测。此外，VERA [11]是一种最近用于学习EBM的无MCMC方法，在SVHN数据集上表现得很好，而我们的模型在CelebA上表现得更好。5.4. 消融和分析我们首先研究如何在SEC中提出的修改。4.2通过提高学习稳定性来解决问题。我们进行实验的原始BiDVL与规范KL，但它是不稳定的（甚至多样化）CIFAR。与此类似的现象，仅仅解耦EBLVM仍然难以收敛。另一方面，未解耦EBLVM的训练在对称KL的情况下改进了很多，并在CIFAR上获得了32.10 FID，但比我们的完整模型差得多第5.1条接下来我们研究BiDVL中的其余选项由于计算重要性比r（v）是不平凡的，我们用基本项和偏差项来对它进行了简明的估计。无偏移无偏移FID 20.2420.75 21.54RMSE 0.175 0.168 0.170表6.偏移量对FID和RMSE的影响。模型在CIFAR-10上训练。平均，因为基于能量的分布是温和的，并且典型地在不真实的样本上分配密度。最后运用0的情况。05，32 × 32数据集和0。1个64×64数据集。然后，我们研究了抵消方程中相反项的效果（11）和（12）。非偏移算法的实现细节如下.4.4 为了便于比较，我们在不考虑所有对立项的情况下对算法进行了评估。非偏移算法在CelebA-64上性能不稳定，有时甚至不收敛。表6显示了影响。我们发现偏置项的Sigmoid估计有助于非偏置算法的稳定化，但它倾向于过早过拟合，性能稍差。非胶印版达到 0. 81AUROC在SVHN和0。75AUROC对CelebA的影响，提示对抗性学习有助于BiDVL更好地建模。无条件算法在生成方面稍这意味着对潜在变量的重构我们的正式实验是在偏移版本上进行的。6. 结论在本文中，我们介绍了BiDVL，一个MCMC自由框架-r（v）=Ep'（v）[q（v）]q（ v）exp（−E'（v））Eq（v）[exp（−E'（v））]（十五）有效学习EBLVMs。对于图像任务，我们实现了一个解耦的EBLVM，由基于边缘能量的分布和结构后验组成，r′exp（−E′（v）），Eq（v）[exp（−E'（v））]其中基本项r′对应于平均比率，偏差项表示模型分配应该多学习。由于训练EBM是一个高方差过程，这使得偏置比的估计有噪声，因此我们使用Sigmoid（Eq（v）[Eq'（v）] （v））来替换偏置项，但仍然导致稍微差的性能，因此我们忽略偏置项。此外，我们发现所提出的模型对基本项非常敏感，如表1所示5.研究了不同基本比对CIFAR的影响。随着基本比率的增加，发电质量下降，当r ′ = 1时，情况会更糟。0的情况。它对应于重要性比应该很小的直觉然后在较低层选择对称KL散度。实验表明，该算法对相关图像具有较强的生成能力.在这项工作中，简单地堆叠几个卷积层在很大程度上限制了我们的模型扩展到大型图像数据集。在今后的工作中，将采用更深层次和更复杂的网络设计来评估大规模图像上的BiDVL。更广泛的影响。该方法用于训练EBLVM，并且训练的模型具有生成虚假内容的能力，这可能被潜在的恶意软件使用。这项工作是部分国家自然科学基金（62141604，61972016，62032016，62106012，62076016，62101245），北京市自然科学基金项目（L191007）。≈模型随机SVHNCelebAIGEBM [6]1.00.630.7[第21话]1.00.240.57SVAE [37]0.290.420.52发散三角形[16]1.00.680.56正义运动[12]1.00.670.75维拉[11]1.00.830.33BiDVL（我们的）1.00.760.7718471引用[1] David H.杰弗里·阿克利Hinton，和Terrence J. Se-jnowski.玻尔兹曼机的学习算法。认知Sci. ，9：147-169，1985. 2[2] Michael Arbel，Liang Zhou，and Arthur Gretton.一般化的基于能量的模型。ICLR，2021年。二、六[3] 范宝、李崇轩、徐坤、苏航、朱钧、张伯。基于能量的隐变量模型学习的双水平分数匹配。在NeurIPS，2020年。二、四[4] 范宝，徐坤，李崇轩，洪岚清，朱军，张波。基于能量的潜变量模型中得分函数的变分（梯度）估计。在ICML，2021。一、二[5] 张瑞祥，张晓刚，张晓刚. Larochelle，Liam Paull，Yuan Cao，and Yoshua Bengio.你的gan是一个秘密的基于能量的模型，你应该使用鉴别器驱动的潜在采样。在NeurIPS，2020年。2[6] Yilun Du和Igor Mordatch。隐式发电和基于能量的模型建模。NeurIPS，2019。一二六七八[7] 放大图片作者：Ruiqi Gao，Erik Nijkamp，Diederik P.放大图片作者：王金玛，徐振Dai，and Ying Nian Wu.基于能量模型的流量对比在CVPR中，第7515-7525页，2020年。1、6[8] Cong Geng，Jia Wang，Zhiyong Gao，Jes Frellsen，andSøren Hauberg.Bounds all around：训练具有双向边界的基于能量的模型。在NeurIPS，2021年。2[9] Ian Goodfellow ， Yoshua Bengio ， Aaron Courville ，Yoshua Bengio. 深度学习，第1卷。麻省理工学院出版社，2016.4[10] Ian J. Goodfellow，Jean Pouget-Abadie，Mehdi Mirza，Bing Xu，David Warde-Farley，Sherjil Ozair，Aaron C.Courville和Yoshua Bengio。生成性对抗网。NeurIPS，2014。第1、3条[11] Will Grathwohl 、 Jacob Kelly 、 Milad Hashemi 、Mohammad Norouzi、Kevin Swersky和David KristjansonDuvenaud。No MCMC for Me：用于快速稳定训练基于能量的模型的摊销采样。ICLR，2021年。二、六、八[12] WillGrathwohl，Kuan-ChiehWang，Joürn-HenrikJacobsen，DavidKristjansonDuvenaud，Mohammad Norouzi和Kevin Swersky。你的分类器其实是一个基于能量的模型，你应该把它当作一个模型来对待。在ICLR，2020年。1、8[13] WillGrathwohl，Kuan-ChiehWang，J？rn-HenrikJacobsen ， David Kristjanson Duvenaud ， andRichard S.泽梅尔学习斯坦差异，用于训练和评估基于能量的模型，而无需采样。在ICML，2020。2[14] 我的朋友。 Gutmann和AapoHy vérinen.非标准化统计模型的噪声对比估计及其在自然图象统计中的应用. J.马赫学习.Res. ，13：307-361，2012. 2[15] 田汉，埃里克·奈坎普，方小林，米奇·希尔，朱松春，吴应念.用于发电机模型、基于能量的模型和推断模型的联合训练的发散三角形。在CVPR中，第8662-8671页，2019年。2[16] Tian Han，Erik Nijkamp，Linqi Zhou，Bo Pang，Song-Chun Zhu，and Ying Nian Wu.变自动化18472编码器和基于潜在能量的模型。在CVPR中，第7975-7984页，2020年。二四六七八[17] MartinHeusel、HubertRamsauer、ThomasUnterthiner、Bernhard Nessler和Sepp Hochreiter。两个时间尺度更新规则训练的甘斯收敛到一个局部纳什均衡。NeurIPS，2017。6

下载后可阅读完整内容，剩余1页未读，立即下载