发散三角形：基于能量的生成器模型和推理模型的训练框架

201 浏览量更新于2023-10-19 收藏 1.98MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1发电机模型、基于能量的模型和推理模型田汉1岁，Erik Nijkamp1岁，方小林2岁，Mitch Hill1岁，朱松春1岁，吴应念1岁，加州大学洛杉矶分校2岁，浙江大学{hantian，enijkamp，mkhil}@ ucla.edu，xiaolinfang@zju.edu.cn，{sczhu，ywu}@stat.ucla.edu摘要本文提出发散三角形作为生成器模型、基于能量的模型和推理模型联合训练的框架。发散三角形是一个紧凑和对称（反对称）的目标函数，无缝集成变分学习，对抗学习，唤醒睡眠算法，并在统一的概率公式对比发散。这种统一使得采样、推断和能量评估的过程变得容易，而不需要昂贵的马尔可夫链蒙特卡罗方法。我们的实验表明，发散三角形能够学习（1）具有良好形式的能量景观的基于能量的模型，（2）以生成器网络的形式直接采样，以及（3）忠实地重建观测数据和合成数据的前馈推理。1. 介绍1.1. 整合三种模式深度概率生成模型是表示复杂数据分布的强大框架。它们已被广泛应用于无监督学习问题，从未标记数据中学习。生成学习的目标是建立丰富而灵活的模型，以适应复杂的多模态数据分布，并能够生成具有高度真实感的样本。生成模型家族可大致分为两类：第一类是基于能量的模型（也称为无向图模型），第二类是潜在变量模型（也称为有向图模型），其通常包括用于生成的生成器模型和用于推理或重构的推理模型。这些模型都有其优点和局限性。基于能量的模型定义了观测数据的显式似然但是sam*同等缴款。从这样的模型中拟合通常需要昂贵的马尔可夫链蒙特卡罗（MCMC）。生成器模型定义数据的直接采样。然而，它并没有一个明确的可能性。潜变量的推断也需要从后验分布中进行MCMC采样。推理模型定义了隐变量后验分布的显式近似。将基于能量的模型、生成器模型和推理模型相结合以获得每个模型的最佳效果是一个有吸引力的目标。另一方面，当模型一起训练时，挑战可能会积累，因为不同的模型需要有效地竞争或合作以实现其最高性能。在这项工作中，我们提出了发散三角形的联合训练的能量为基础的模型，发电机模型和推理模型。然后，三个模型的学习可以无缝地集成在一个有原则的概率框架中。基于能量的模型是基于由发电机模型提供的样本来学习的在推理模型的帮助下，发电机模型由观测数据和基于能量的模型来训练推理模型从由生成器模型拟合的真实数据以及由生成器模型生成的合成数据两者中学习。我们的实验表明，发散三角形能够学习具有良好行为的能量景观的基于能量的模型，具有高度真实样本的生成器模型，以及具有可信重构能力的推理模型1.2. 现有技术基于能量的模型的最大似然学习需要关于当前模型的期望，而生成器模型的最大似然学习需要关于潜在变量的后分布的期望。这两种期望都可以通过MCMC近似，例如 Gibbs 采样 [11] 、 Langevin 动力学或Hamiltonian Monte Carlo（HMC）[34]。[31，48]使用Langevin动力学来学习基于能量的模型，[13]使用Langevin动力学来学习发电机模型。在这两种情况下86708671MCMC采样在训练过程中引入了一个内部循环，造成了计算开销。基于能量的模型的早期版本是FRAME（过滤器，随机场和最大熵）模型[53，45]。[52]使用基于梯度的方法，如Langevin动力学从模型中采样。[51]将基于能量的模型称为描述性模型。[31，48]将模型推广到深度变量。对比发散（CD）[15]从观测数据中提取有限步MCMC，以减少学习基于能量的模型时的采样计算成本[28]。由此产生的学习算法遵循两个Kullback-Leibler发散之间的差异的梯度，因此称为对比发散。在本文中，我们将在比[ 15 ]更一般的意义上使用术语持续对比发散[42]从先前学习迭代的样本中进行MCMC采样推广[43]，[21]开发了一种内省学习方法，其中能量函数是有区别地学习的，并且基于能量的模型既是生成模型又是判别模型。为了学习生成器模型，变分自动编码器（VAE）[25，38，33]通过显式推理模型近似潜变量的后验分布。在VAE中，推理模型与发电机模型一起从观察数据中学习。VAE的前身是唤醒-睡眠算法[17]，其中推理模型是从睡眠阶段生成器模型生成的梦数据中学习的发电机模型也可以与一个基于神经网络的模型，如生成对抗网络（GAN）[12]，以及深度卷积GAN（ DCGAN ） [37] ，基于能量的 GAN （ EB-GAN ）[50]，Wasserstein GAN（WGAN）[2]. GAN不涉及推理模型。发电机模型也可以与基于能量的模型联合学习[23，6]。我们可以将这种学习模式解释为对比发散的对抗版本。在GAN中，伪模型最终会在真实图像和伪图像之间混淆，而在生成器模型和基于能量的模型的联合学习中，学习的基于能量的模型变成了观察数据上定义良好的概率分布。联合学习与WGAN有一些相似之处，但与WGAN不同的是，学习框架涉及两个互补的概率分布。[47]的协作学习方法通过从由生成器模型合成的图像初始化基于能量的模型的有限步MCMC采样来弥合基于能量的模型和生成器模型之间的差距。这种有限步MCMC产生更接近基于能量的模型的模式的修正样本，并且生成器模型可以从其初始样本的MCMC修订中学习。对抗性学习推理（ALI）[10，9]在对抗性框架中结合了生成器模型和推理模型的学习。ALI可以通过添加条件熵正则化来改进，从而产生ALICE [29]模型。最近提出的方法[4]具有相同的精神。他们缺乏基于观测数据的能源模型。1.3. 我们的贡献我们提出的公式，我们称之为发散三角形，重新解释并整合了无监督生成学习中的以下元素：（1）最大似然学习，（2）变分学习，（3）对抗学习，（4）对比发散，（5）唤醒-睡眠算法。学习无缝集成到一个概率框架的基础上KL分歧。2. 学习深度概率模型在本节中，我们将回顾两个概率模型，即发电机模型和基于能量的模型，这两个模型都是由卷积神经网络参数化的[27，26]。然后，我们将分别给出训练这两个模型的最大似然学习算法。我们介绍的两个最大似然学习算法是非常规的。我们试图得到这两个算法的基础上的Kullback-Leibler发散使用相同的计划。这将为发散三角形奠定基础。2.1. 发电机模型和能量模型生成器模型[12，37，25，38，33]是因子分析模型[39]的推广，z<$N （ 0 ， Id ）， x=gθ （ z ） +θ ，（1）其中gθ是由具有参数θ的深度网络参数化的自顶向下映射。它将d维特征向量z映射到D维信号x.其中σ∈N（0，σ2ID）与z无关.一般来说，模型由先验分布p（z）和条件分布p θ（x|z）。完全数据模型p θ（z，x）= p（z）p θ（x|z）。离散数据模型为p θ（x）=pθ（z，x）dz. 的后验分布为p θ（z|x）=p θ（z，x）/p θ（x）.见下图（a）。自顶向下映射自底向上映射隐藏向量z能量−fα（x）⇓ ⇑信号x<$gθ（z）信号x(a) （b）基于能源的模式补充模型是基于能量的模型[35，5，31，48]，其中−fα（x）定义x的能量，a8672∂θ低能量x被分配高概率。具体来说，我们有以下概率模型1πα（x）=Z（α）exp [fα（x）]，（2）其中fα（x）由具有参数α的自底向上深度网络参数化，Z（α）是归一化常数。如果fα（x）在α中是线性的，则该模型成为统计学中常见的指数族模型或统计物理学中的吉布斯分布我们可以认为πα是一个赋值器，其中fα将值赋给x，πα通过一个正态化的概率分布对x见上图（b）基于能量的模型πα通过fα（x）定义了显式对数似然，即使Z（α）是难以处理的。然而，很难从πα 采样。生成器模型 pθ 可以通过先生成 z∈p（z），再通过gθ（z）将z变换为x，从而直接生成x。但它没有定义x的显式对数似然。在逆强化学习[54，1]或逆最优控制的上下文中，x是动作，−fα（x）定义成本函数或fα（x）定义价值函数或目标函数。2.2. 最大似然学习假设qdata（x）是生成训练数据的真实分布。生成器pθ和基于能量的模型πα都可以通过最大似然来学习。大型优化（上界）K，它们在θt 处相交，因此S（θt）=K（θt）和S ′（θt）=K ′（θt）。其原因是K（θt）=0和K′（θt）=0。见图1图1.代理S优化（上界）K，它们在θt处以相同的切线相互接触。q数据（x）p θt（z|x）给我们完整的数据。EM的每一步都通过最小化代理S（θ）来拟合完全数据模型pθ（z，x），θ t+1= arg min KL（q 数据（x）p θt（z|x）<$p θ（z，x）），（五）θ这相当于最大化完整数据对数似然性。通过最小化S，我们将相对于θt减少S（θ），并且由于优控制图，我们将相对于θt进一步减少K（θ）我们也可以使用梯度下降来更新θ。因为S ′（θt）=K ′（θt），我们可以把θt放在y上，其中，我们有∂- KL（qdata（x）<$pθ（x））Σ Σ样本，最大似然量最小化∂=E logp（z，x）.（六）Kullback-Leibler散度KL（q数据 θ上的Δpθ），以及q数据（x）pθ（z|x）∂θθ最小化KL（q数据<$πα）在α上分别。经验-Eq数据可以用样本平均值来近似。2.2.1生成器模型的EM型学习为了学习生成器模型pθ，我们寻求在θ上最小化KL（qdata（x）<$pθ（x））。假设在一个迭代算法中，电流θ是θt.我们可以把θt固定在任何我们想要的地方，并围绕θt改变θ。我们可以写KL（q数据（x）p θt（z|x）<$p θ（z，x））=KL（qdata（x）<$p θ（x））+KL（p θt（z|x）p θ（z|X））。（三）在EM算法[7]中，左手边是代理目标函数。该代理函数比真正的目标函数KL（qdata（x）<$pθ（x））更容易处理，因为q数据（x）p θt（z|x）是一个完整的分布数据，pθ（z，x）是完全数据模型。我们可以把（3）写成：S（θ）=K（θ）+K（θ）。（四）几何图像是替代目标函数S（θ）高于真实目标函数K（θ），即，S8673不为了实现上述更新，我们需要计算关于后验分布p θ（z）的期望|X）。它可以近似MCMC，如Langevin动力学或HMC [34]。两者都需要梯度可以通过反向传播有效地完成的计算我们已经使用这种学习方法学习了生成器[13]。2.2.2基于能量模型为了学习基于能量的模型πα，我们寻求在α上最小化KL（qdata（x）<$πα（x））。假设在一个迭代算法中，电流α是αt.我们可以把αt固定在任何我们想要的地方，并围绕αt改变α。考虑以下对比分歧KL（qdata（x）<$π α（x））− KL（π αt（x）<$π α（x））。（七）我们可以使用上面的替代函数，这比真正的目标函数更容易处理，因为logZ（α）项被抵消了。具体地，我们可以将（7）写为S （ α ）为K （ α ） −K（ α ）（8）=−（Eqdata [f α（x）] − Eπα[f α（x）]）+const. （九）8674i=1.αt不几何图像是代理函数S（α）低于真实目标函数K（α），即， S使（下界）K最小化，它们在α t处相互接触，因此 S （ αt ） =K （ αt ）， S ′ （ αt ） =K ′（αt）。原因是K （αt）=0和K′（αt）=0。参见图2。图2.替代项S使K最小化（下限），它们在αt处以相同的切线相互接触。因为S使K最小化，所以我们没有类似EM的更新。然而，我们仍然可以使用梯度下降来更新α，其中导数为在发电机模型中，如果我们将p θt（z|x）通过推理模型q φ（z|x），我们得到VAE。在基于能量的模型中，如果我们将π αt（x）乘以生成元p θ（x），得到对抗对抗度（ACD）. K前面的neg ativ e符号是对抗学习的根源3. 发散三角：整合对抗学习和变分学习在这一节中，我们将首先介绍发散三角形，强调它的紧致对称和反对称形式.然后，我们将证明它是对现有方法的重新解释和整合，特别是VAE [25，38，33]和ACD [23，6]。3.1. 损失函数K ′（αt）=S ′（αt）=−（Eq[f′ （x）]−Eπ[f′ （x）]、（10）假设我们观察训练样本数据 αtα tαt{x（i） EQUIPQ数据（x）}n其中q数据（x）是未知哪里′（x）=∂αfα.（x）。αt.（十一）数据分布 πα（x）<$exp[fα（x）]，能量函数为tion−fα表示具有参数α的基于能量的模型。生成器模型p（z）p θ（x|z）具有参数θ和特征向量z。对潜在分布因为我们可以把αt放在任何地方，我们有p（z），生成过程定义为z<$p（z），x<$p θ（x|z）。∂-KL（q∂α数据（x）πα（x））最大似然学习算法发电机和基于能量的模型需要MCMC相同，= Eq数据Σ ∂αfαΣ（x）-EπαΣ ∂αfαΣ（x）.（十二）普林。我们通过提出一个发散三角形准则来修正最大似然KL-发散，使得两个为了实现上述更新，我们需要计算当前模型παt的期望值。它可以用MCMC近似，如Langevin动力学或从παt采样的HMC。它可以通过反向传播的梯度计算来有效地实现。我们已经使用这种学习方法训练了基于能量的模型[31，48]。上述学习算法具有对抗性解释。通过遵循S（α）= KL（qdata（x）<$π α（x））−KL（π αt（x）<$π α（x））的梯度将α t更新为α t +1 =−（Eqdata[fα（x）]−Eπα[fα（x）]）+const，我们寻求解-增加第一个KL分歧，而我们将增加第二个KL-发散，或者我们试图将值函数fα（x）移向观测数据，远离当前模型生成的合成数据也就是说，模型πα批评了它的当前版本παt，即，这个模型是它自己的对手或它自己的批评者。2.2.3异同在这两个模型中，在θt或αt处，我们有S=K，S ′=K ′，因为Kε=0，Kε′=0。不同之处在于，在发电机模型中，S=K+F8675可以在没有MCMC的情况下联合学习模型。除了生成元p θ和基于能量的模型π α外，我们还引入了一个推理模型q φ（z|（三）学习计划。这种推理模型是可变自动编码器中的关键组件[25，38，33]。推理模型q φ（z|x），其中参数φ从数据空间映射到la。帐篷空间在EM的上下文中，q φ（z|（x）可以考虑估算器，其估算缺失数据z以得到com，plete data（z，x）.上述三个模型从不同的角度定义了z和x上的联合分布。两个边缘，即，经验数据分布qdata（x）和潜在先验分布p（z）是已知的。目标是协调三个联合分配，使竞争和库珀-不同损失项之间的相互作用改善了学习。发散三角形涉及（z，x）上的以下三个联合分布：1. Q-分布：Q（z，x）= qdata（x）q φ（z|X）。2. P-分布：P（z，x）= p（z）p θ（x|z）。3. n-分布：n（z，x）= π α（x）q φ（z|X）。K，而在基于能量的模型中，S=K−K 。我们建议通过以下方法学习三个模型pθ，πα，qφ：8676回忆S=K+K 在（4）中，如果我们将难以处理的图 3. 发散三角形基于（ z ， x ）的三个联合分布之间的Kullback-Leibler发散。蓝色箭头表示跟随发散三角形损失函数Dmax min minD（α，θ，φ），p θt（z|x）在（4）中通过显式q φ（z|x），我们得到（14），因此我们避免了对p θ t（z）进行采样的MCMC |X）。我们可以把VAE解释为Q和P的交替投射。图示见图4。如果q φ（z|x）=p θ（z|x）时，算法简化为EM算法。唤醒-睡眠算法[17]类似于VAE，除了它通过minφKL（P<$Q）而不是minφKL（Q<$P）更新φ，使得唤醒-睡眠算法没有单个ob。射函数VAEminθminφKL（QφP）定义了一个合作博弈，其中qφ和pθ相互靠近。αθ φD= KL（QP）+KL（P P）− KL（QP）。（十三）图示见图3。发散三角形基于（z，x）上三个联合分布之间的三个KL发散。它有对称和反对称的形式，反对称是由于最后一个KL-散度前的负号和α上的极大化。发散三角形导致三个模型之间的以下动态：（1）Q和P寻求彼此接近。 (2) P试图接近到了。(3) π试图接近q数据，但它试图远离P，如红色箭头所示。注意KL（Q） = KL（q数据<$π α），因为q φ（z|x）取消出去（2）和（3）的效果是π接近q数据，同时也诱导P向q数据靠拢，即P向q数据追赶πα。3.2. 损失函数的解包3.2.2对抗性学习图5.对抗性对比发散（ACD）。左图：模型之间的相互作用.红色箭头表示追逐游戏，其中生成器模型追逐基于能量的模型，后者朝着数据分布运行。右：对比发散。接下来，考虑基于能量的模型模型的学习[23，6]。回想一下（8）中的S=K-K，如果我们将（8）中的难处理的παt（x）替换为pθ（x），我们得到min max[KL（qdata（x）<$πα（x））−KL（pθ（x）<$πα（x））]，（15）αθ发散三角形整合了变分和逆-sarial学习方法，这是最大似然的修改。或等效地max min[KL（pθ（x）<$πα（x））−KL（qdata（x）<$πα（x））]，（16）αθ3.2.1变分学习因此，我们避免了MCMC对παt（x）进行采样，更新α的梯度变为图4.变分自动编码器（VAE）作为交替投影的联合最小化。左图：模型之间的相互作用。右：交替投影。两个模型向对方跑去。首先，minθminφKL（QP）捕获变分自动编码器（VAE）。KL（Q<$P）= KL（qdata（x）<$pθ（x））+KL（q φ（z|x）p θ（z|（x））、（14）8677∂α[Eqdata（f α（x））− Epθ（f α（x））]。（十七）由于（15）中第二个KL-散度前面的负号，我们需要（15）中的maxθ或（16）中的minθ参见图5以获得图示。受[16]的启发，我们称（15）为对抗性对比分歧（ACD）。这是一个问题[23，6]。对抗形式（15）或（16）定义了具有以下动态的追逐游戏：生成器p θ追逐基于能量的模型π α 在minθKL（p θ <$π α）中，能量-基于πα的模型寻求更接近q数据，pθ。图5中的红色箭头说明了这个追逐游戏。结果是πα将pθ吸引向q数据。8678i=1i=1i=1i=1∂α∂φMM3.3. 训练算法这三个模型通过卷积神经网络进行参数化。算法1概述了发散三角形下的联合学习。在实践中，我们使用随机梯度下降，期望值由样本平均值代替算法1发散三角模型要求：训练图像{x（i）}n，图6.生成的样本。左：CIFAR上生成的样本-10数据集。右图：在CelebA数据集上生成的样本。学习迭代次数T，α，θ，φ←初始化网络参数。确保：估计参数{α，θ，φ}，生成的样本{x（i）}n。1：设t← 0。2：重复3：{z （一）p（z）}M4： {x} （一）θp（x|z（一）M~i=15： {x（i）qdata（x）}M.6： {z<$（i）<$qφ（z|x（i））}M.7：α-步骤：Giv en{x}i=1}M 所以{x}M，(i)i=1（一） i=1用学习率ηα更新α ← α + η αD。图7. 生成的样本。左：32×32ImageNet。右：8： φ-step：给定{（z（一），x（一）M~i=1 且{（z∈i），x（i）i=1，64× 64 LSUN（卧室）。更新φ←φ−ηφ <$D，学习率为ηφ。9： θ-step：给定{（z （一），x（一）M=1且{（z∈i），x（i）i=1，在理想情况下，pθ总是赶上πα，那么πα将收敛到最大似然估计minαKL（q数据<$πα），并且pθ收敛到πα。通过（ 17 ）对 α 的更新与 Wasser-steinGAN（WGAN）[2]相似，但与WGAN不同，fα定义了概率分布 πα ， θ 的学习基于 minθKL （ pθ （ x ） <$πα（x）），这是对πα的变分近似。这种变分近似只重-已知fα（x），不知道Z（α）。然而，与q φ（z）不同，|x），p θ（x）仍然是难以处理的，特别是它的熵没有一个封闭的形式. 因此，我们可以再次使用变分近似，通过改变问题到minθminφKL（p（z）p θ（x|z）<$π α（x）q φ（z|x）），也就是说，minθminφKL（Pθmin），它是解析易处理的，是[6]的基础。事实上KL（p θ（x）<$π α（x））+KL（p θ（z|x）<$q φ（z|X））。（18）因此，我们可以将（16）修改为maxαminθminφ[KL（P）−KL（Q）]，因为同样KL（Q）=KL（qdataπα）。将上述内容拟合在一起，我们得到发散三角形（13），它具有紧凑的对称和反对称形式。）}）}）}）}）}.8679∂θupdateθ←θ−ηθ <$D，学习率为ηθ（可选：多步更新）。十：设t←t+1。11：直到t=T4. 实验图像将调整大小并缩放为[-1，1]。网络参数初始化为零均值高斯，标准差为0。02并使用Adam进行优化[24]。网络权重以0的速率衰减。0005，并使用批量归一化[20]。代码可用在https://github.com/enijkamp/triangle。4.1. 图像生成4.1.1物体生成对于对象类别，我们在两个常用的自然图像数据集上测试我们的模型：CIFAR-10和CelebA [30]。对于CelebA人脸数据集，我们随机选择9，000张图像进行训练，另外1，000张图像用于测试重建任务。面部图像的大小调整为64×64，CIFAR-10图像保持32×32。所生成的对象样本的定性结果如图6所示。我们进一步评估我们的模型使用定量8680图8.从gθ（z）中提取1，024×1，024分辨率的样本，CelebA-HQ具有512维潜在向量。图9.从CelebA-HQ的潜在空间中线性插值的生成器模型gθ（z）进行模型VAE [25]DCGAN [37]WGAN [2][第46话]CEGAN [6][第10话]爱丽丝[29]我们CIFAR-10（IS）4.086.165.766.557.075.936.027.23CelebA（FID）99.0938.3936.3656.5741.8960.2946.1431.92表1.样品质量评价。第1行：CIFAR-10的初始分数第2行：CelebA的FID评分模型[第17话]VAE [25][第10话]爱丽丝[29]我们CIFAR-100.0580.0370.3110.0340.028CelebA0.1520.0390.5190.0460.030表2.测试重建评估。第1行：CIFAR- 10测试集的MSE。第2行：来自CelebA的1,000个MSE。基于CIFAR-10的初始得分（IS）[41]和CelebA面孔的Frechet初始距离（FID）[32]的评估我们生成50，000个随机样本用于初始分数的计算，以及10，000个随机样本用于FID分数的计算。表1显示了我们的模型与VAE [25]，DCGAN [37]，WGAN [2]，CoopNet [47]，CE [10]相比的IS和FID评分。[29]李，李。对于CIFAR-10上的Inception Score，我们借用了相关论文中的分数，对于9，000张CelebA面孔的FID分数，我们重新实现或使用了具有类似于我们模型的网络结构的可用代码。与最近的基准模型相比，发散三角形实现了具有竞争力的性能4.1.2大规模数据集我们还在大规模数据集上训练我们的模型，包括下采样的32×32版本的ImageNet [36，40]（大约100万张图像）和大规模场景理解（LSUN）数据集[49]。对于LSUN数据集，我们将-卧室，塔楼和教堂的分类，其中包含大约300万，70万和10万-狮子图像，并重新调整为64×64。网络结构与目标类中使用的网络结构相似在所有三个模型中使用具有两倍通道数和批归一化的Tion。生成的样本如图7所示。4.1.3高分辨率合成在本节中，我们采用分层训练方案来学习CelebA-HQ[22]上的模型，分辨率高达1，024×1，024像素。分层训练可以追溯到通过受限玻尔兹曼机初始化深度神经网络以克服优化障碍[18，3]。的这种技术已经在渐进式GAN中复活[22]，尽管层转换的顺序是颠倒的，这样顶层首先被训练。这类似于拉普拉斯金字塔[8]，其中图像以由粗到细的方式生成。与[22]一样，训练从空间分辨率为4×4的下采样图像开始，同时逐渐增加图像的大小和层数。所有三个模型都是同步增长的，其中RGB和特征之间的1×1卷积投影。与[22]相比，不需要小批量判别来增加gθ（·）的变化量，也不需要梯度惩罚来保持f α（·）的ve1-Lipschitz连续性.图8描述了在CelebA-HQ上从发生器模型gθ（z）采样的分辨率为1，024×1，024像素的高保真合成图9示出了潜在空间中的线性插值。8681i=156789图10.测试图像重建。上图：CIFAR-10。下图：CelebA。左：测试图像。右：重建图像。4.2. 测试图像重建在这个实验中，我们评估了我们的模型的重建这是我们推理模型准确性的一个强有力的指标。具体地，如果我们的发散三角模型D是良好学习的，则推理模型应该匹配生成器模型的真实q φ （ z|x ） ≈p θ（z|X）。在那里-因此，给定测试信号xte，其重构xte应0 5 10 15 20 25最小指数图11.描述Fashion-MNIST能量函数的盆地结构的不连通性图。每列表示按能量排序的流域成员。圆圈大小表示盆地成员的总数。垂直线表示能量的最小深度，水平线表示两个盆地合并的已知最低障碍。能量，并且如果两个最小值之间的能量势垒满足某个阈值，则顺序地对图像进行分组。这个过程一直持续到所有的最小值都被聚类。图11以断开连接图的形式描绘了−fα的映射[44]，并表明学习的能量函数不只将有意义的图像编码为最小值，接近xt，即，Xteqφ−→ztepθ−→x→e阿克斯特. 图-有意义的宏观结构。图10显示了测试图像及其重建CIFAR-10和CelebA对于CIFAR-10，我们使用10，000个预定义的测试图像，而对于CelebA，我们使用1，000个在训练中看不到的保留图像。重建质量用每像素均方误差（MSE）定量衡量。表2显示了我们模型与WS [17]，VAE [25]，ALI [10]，ALICE [29]相比的每像素MSE4.3. 能源景观图在下面的实验中，我们通过映射能量景观的宏观结构来评估学习的基于能量的模型。一个形式良好的能量函数将图像空间划分为有意义的Hopfield吸引盆[19]。为了学习这样的能量函数，在算法1中，我们执行多个θ-步骤，使得样本{x<$i}M足够“接近”− f α（x）的局部最小值。根据[14]，我们映射了能量函数−fα的结构. 首先，我们确定能量最小值。然后，我们将最小值从最低能量到最高能量5. 结论我们提出了一种新的概率框架，即发散三角形，用于基于能量的模型，生成器模型和推理模型的联合学习。发散三角形形成了三个模型的紧凑学习函数，并且自然地统一了最大似然估计[13，47]，变分自动编码器[25，38，33]，对抗学习[23，6]，对比发散[15]和唤醒-睡眠算法[17]的各个方面。确认这项工作得到了DARPA XAI项目N66001- 17-2-4029的支持; ARO计划W 911 NF 1810296关于ONRMURI项目N 00014 -16-1-2007;极端科学与工程发现环境（XSEDE）资助ASC 170063。我们感谢dr.吴天府、朱帅和庞波进行了有益的讨论。能源8682引用[1] P. Abbeel和A.Y. Ng. 通过反向强化学习的学徒学习第二十一届机器学习国际会议集，第1页，2004年。3[2] M. Arjovsky，S. Chintala和L.博图Wasserstein生成对抗网络。在国际机器学习会议上，第214-223页二六七[3] Y. Bengio，P. Lamblin，D. Popovici和H.拉罗谢尔贪婪的深度网络分层训练。神经信息处理系统的进展，第153-160页，2007年。7[4] L. Chen，S.戴，Y. Pu，E. Zhou C.，中国青冈C.李角苏C. Chen和L.卡琳对称变分自编码器和对抗学习的连接。在人工智能和统计国际会议上，第6612[5] J. 戴，Y.卢，和Y。N. 吴卷积神经网络的生成建模arXiv预印本arXiv：1412.6296，2014年。2[6] Z.戴，A.Almahairi，P.巴赫曼E.霍维，还有A.考维尔校准基于能量的生成对抗网络。arXiv预印本arXiv：1702.01691，2017。二、四、五、六、七、八[7] A. P. Dempster，N. M. Laird和D. B.鲁宾基于em算法的不完全数据最大似然估计。英国皇家统计学会杂志。B辑（方法），第1-38页，1977年。3[8] E. L. Denton，S.钦塔拉河Fergus等人使用对抗网络的拉普拉斯金字塔的深度生成图像模型。在NIPS，第1486-1494页，2015年。7[9] J. 多纳休山口Kr aühenbuühl 和 T. 达雷尔。adversarialfeature-ture learning.arXiv 预印本 arXiv ：1605.09782，2016。2[10] V. Dumoulin，I. 贝尔加齐，B. 普尔O. 马斯特罗彼得罗A. Lamb，M. Arjovsky和A.考维尔逆向学习推理。arXiv预印本arXiv：1606.00704，2016。二七八[11] S. Geman和D.盖曼随机松弛、吉布斯分布和图象的无规复原。 IEEE Transactions on Pattern Analysis andMachine Intelligence，（6）：721-741，1984。1[12] I. 古德费罗 J. 波吉特-阿巴迪 M. 米尔扎 B. 许、D. 沃德-法利，S。奥扎尔A.Courville和Y.本吉奥。生成对抗网络。在神经信息处理系统的进展，第2672-2680页，2014年。2[13] T.汉，Y。吕，S.- C. Zhu和Y. N.吴发电机网络的交替反向传播算法。在AAAI，第3卷，第13页，2017年。一、三、八[14] M. Hill，E. Nijkamp和S.- C.竹建造一个望远镜来观察高维图像空间。 arXiv 预印本 arXiv ： 1803.01043 ，2018。8[15] G.辛顿通过最小化对比差异来训练专家产品。神经计算，第1771二、八[16] G. E.辛顿通过最小化对比差异来训练专家的产品。Neural Computation，14（8）：1771- 1800，2002. 5[17] G. E.作者声明：A. Frey和R. M.尼尔无监督神经网络的Science，268（5214）：1158-1161，1995. 二、五、七、八[18] G. E. Hinton和R. R.萨拉赫季诺夫用神经网络降低数据的维数。science，313（5786）：504-507，2006. 7[19] J·J·霍普菲尔德。神经网络和物理系统与新兴的集体计算能力。美国国家科学院院刊，79（8）：2554-2558，1982。8[20] S. Ioffe和C.赛格迪批次标准化：通过减少内部协变量偏移来加速深度网络训练。 arXiv 预印本 arXiv ：1502.03167，2015。6[21] L. Jin，J. Lazarow，and Z.涂。用于区分性分类的内省学习。在神经信息处理系统的进展，2017年。2[22] T. Karras，T. Aila，S. Laine和J.莱赫蒂宁为提高质量、稳定性和变异性而进行的干细胞arXiv预印本arXiv：1710.10196，2017。7[23] T. Kim和Y.本吉奥。具有基于能量的概率估计的深度定向生成模型。arXiv预印本arXiv：1606.03439，2016年。二、四、五、八[24] D. Kingma和J. BA. Adam：一种随机优化方法。arXiv预印本arXiv：1412.6980，2014。6[25] D. P.Kingma和M.威林自动编码变分贝叶斯。arXiv预印本arXiv：1312.6114，2013。二、四、七、八[26] A.克里热夫斯基岛Sutskever和G. E.辛顿Imagenet分类与深度卷积神经网络。在NIPS，第1097-1105页，2012中。2[27] Y.勒昆湖Bottou，Y. Bengio和P.哈夫纳基于梯度的学习应用于文档识别。Proceedings of the IEEE，86（11）：2278-2324，1998. 2[28] Y. LeCun，S.乔普拉河哈德塞尔M.Ranzato和F.煌关于能量学习的教程。预测结构化数据，1（0），2006年。2[29] C. Li，H.Liu，C.Chen，Y.普湖，加-地陈河，巴西-地Henao，以及L.卡琳Alice：Towards understanding adversarial learning-ing for joint distribution matching. 神经信息处理系统，第5495-5503页，2017年二七八[30] Z. Liu，P. Luo，X. Wang和X.唐在野外深度学习人脸属性。在国际计算机视觉会议（ICCV）的会议记录中，2015年。6[31] Y.吕，S.- C. Zhu和Y. N.吴使用CNN滤波器学习FRAME模型。第三十届AAAI人工智能会议，2016。一、二、四[32] M. Lucic，K. Kurach，M. Michalski，S. Gelly和O.布-凯。Gans是平等的吗？一项大规模的研究arXiv预印本arXiv：1711.10337，2017。7[33] A. Mnih和K.格雷戈尔信念网络中的神经变分推理和学习。国际机器学习会议，第1791-1799页，2014年。二四八[34] R. M.尼尔使用哈密顿动力学的Mcmc。马尔可夫链蒙特卡罗手册，2011年2月。第1、3条[35] J. Ngiam，Z. Chen，P. W. Koh和A. Y. Ng.学习深度能量模型。在International Conference on Machine Learning，8683第1105-1112页，2011年。28684[36] A. v. d.奥德湾Kalchbrenner和K. Kavukcuoglu像素递归神经网络。arXiv预印本arXiv：1601.06759，2016。7[37] A.拉德福德湖，澳-地Metz和S.钦塔拉使用深度卷积生成对抗网络进行无监督表示学习arXiv预印本arXiv：1511.06434，2015。二、七[38] D. J. Rezende，S. Mohamed和D.维尔斯特拉深层生成模型中的随机反向传播和近似推理。在 InternationalConference on Machine Learning，第1278-1286页二四八[39] D. B. Rubin 和 D. T. 塞尔 ml 因子分析的 Em 算法。Psychometrika，47（1）：69-76，1982. 2[40] O. 鲁萨科夫斯基Deng，H.Su，J.Krause，S.萨蒂

下载后可阅读完整内容，剩余1页未读，立即下载