没有合适的资源?快使用搜索试试~ 我知道了~
基于能量模型和基于流量模型的联合训练方法及其在半监督学习中的应用
1基于能量模型[1]张晓刚1,张晓刚1,张晓刚1,张晓刚1.作者单位AuthorAgencies,J.戴2,吴应念11加州大学洛杉矶分校,2谷歌{ruiqigao,enijkamp}@ ucla.edu,{durk,zhenxu,adai}@ google.com,ywu@stat.ucla.edu摘要本文研究了一种联合估计基于能量的模型和基于流量的模型的训练方法,其中两个模型基于共享的对抗值函数迭代更新。这种联合训练方式具有以下特点。(1)基于能量的模型的更新基于噪声对比估计,其中流动模型充当强噪声分布。 (二)流模型的更新近似地最小化流模型和数据分布之间的Jensen-Shannon发散(3)与生成对抗网络(GAN)估计由生成器模型定义的隐式概率分布不同,我们的方法估计数据上的两个显式概率分布。使用所提出的方法,我们证明了一个显着的改进的合成质量的流模型,并显示了有效的无监督特征学习的学习基于能量的模型。此外,所提出的训练方法可以很容易地适应半监督学习。我们取得了有竞争力的结果,最先进的半监督学习方法。1. 介绍最近,基于流的模型(以下简称为流模型)作为一种深度生成模型[7,8,32,17,3,37,68,10]已经流行起来,并用于变分推理[34,59,33]。流模型有两个属性使其与其他类型的深度生成模型区分开来:(1)它们允许密度函数的有效评估,以及(2)它们允许从模型进行有效采样。对对数密度的有效评估允许流模型直接针对对数似然目标进行优化,不像变分自编码器(VAE)[34,60],其针对对数似然的界限进行优化,以及生成对抗网络(GAN)[15]。另一方面,自回归模型[19,56,62](原则上)采样效率低下,因为合成需要与数据维数成比例的计算。有效密度评估和有效采样的这些特性通常被视为有利的。不过,它们也有潜在的缺点:这些属性还充当对它们试图建模的真实数据分布的假设。通过选择流模型,我们假设真实的数据分布原则上是简单的采样,并且在计算上是有效的。此外,流模型假设数据是由有限序列的可逆函数生成的如果这些假设不成立,基于流量的模型可能会导致拟合不佳。在 深 度 生 成 模 型 的 另 一 端 是 基 于 能 量 的 模 型(EBM)[42,54,29,77,73,13,38,55,9,11,16,18,6]。能源-基于的模型定义了作为负能量函数的指数的未归一化密度。能量函数直接定义为输入的(学习)标量函数,并且通常由神经网络(如卷积网络)参数化[41,36]。对给定数据点的密度函数的评估涉及计算归一化常数,这需要棘手的积分。从EBM采样是昂贵的,并且还需要近似,例如计算昂贵的马尔可夫链蒙特卡罗(MCMC)采样。因此,EBM不做上述两个假设中的任何一个:它们不假设数据的密度很容易归一化,并且它们不假设有效的合成。此外,它们不通过可逆函数来约束数据分布。将EBM与流模型进行对比,前者是在表示方面,其中不同的层表示不同复杂性的特征,而后者是在学习计算方面,其中每个层或每个变换就像计算中的一个步骤。EBM类似于目标函数或目标分布,而流模型类似于有限步迭代算法或学习采样器。借用强化学习的语言[11],流模型就像一个演员,而EBM就像一个评论家或评估者。EBM在形式上比高度约束的流模型更简单、更灵活,因此EBM可以比流模型更准确地捕捉数据分布75187519模型相反,流动模型能够通过祖先采样直接生成,这在EBM中是非常缺乏的。因此,可能需要联合训练两个模型,将流模型的易处理性和EBM的灵活性相结合。这是本文的目的。我 们 的 联 合 训 练 方 法 受 到 [21] 的 噪 声 对 比 估 计(NCE)的启发,其中通过对真实数据和噪声模型生成的数据进行分类来区别地学习EBM在NCE中,噪声模型必须具有显式的归一化密度函数。此外,为了精确估计EBM,期望噪声分布接近数据分布。然而,噪声分布可以远离数据分布。流模型可以潜在地将噪声分布转换或传输到更接近数据分布的分布随着基于强流的生成模型[7,8,32]的出现,很自然地将流模型招募为EBM的噪声对比估计的对比度分布。然而,即使使用通过对数据分布的最大似然估计(MLE)预训练的基于流的模型因此,我们希望流模型成为循证医学更强的对照或更强的训练对手。为了实现这一目标,我们可以简单地使用NCE的相同目标函数,即用于分类的逻辑回归的对数似然。当NCE通过最大化该目标函数来更新EBM时,我们还可以通过最小化相同的目标函数来更新流模型,以使EBM的分类任务更难。这种流动模型的修正结合了极大似然估计和变分近似,有助于修正极大似然估计的过度分散。如果EBM接近数据分布,这相当于最小化数据分布和流模型之间的Jensen-Shannon散度(JSD)[15]从这个意义上说,学习方案与GAN密切相关[15]。然而,与GANs不同,GANs通过低维潜在向量学习定义隐式概率密度函数的生成器模型,我们的方法学习两个具有显式概率密度的概率模型(归一化模型和非归一化模型)。本文的贡献如下。本文提出了一种将EBM和流量模型的估计耦合起来的参数估计方法,该方法使用一个共享的目标函数。它改进了NCE与流量转换的噪声分布,它修改的MLE的流量模型近似JSD最小化,并帮助纠正过度分散的MLE。在二维合成数据上的实验表明,学习后的EBM算法能以比传统的EBM算法简单得多的网络结构流动模型在真实图像数据集上,我们证明了流模型的合成质量的显著改善,以及基于能量的模型的无监督特征学习的有效性。此外,我们表明,所提出的方法可以很容易地适应半监督学习,实现性能媲美国家的最先进的半监督方法。2. 相关工作对于用极大似然估计学习基于能量的模型,主要困难在于从当前模型中提取公平的样本。MLE的一个突出近似是对比发散(CD)[25]框架,需要从数据分布初始化MCMC。CD已被一般化为持久性CD [67],最近已被一般化为具有现代CNN结构的改良CD [13],对抗性CD [29,5,22[55,9]将基于采样的方法按比例放大到以白噪声作为采样起点的大型图像数据集。然而,这些基于采样的方法可能仍然难以遍历学习模型的不同模式,这可能导致有偏模型,并且可能需要很长时间来收敛。另一个变体是噪声对比估计(NCE)的一个优点,我们的自适应版本,是它避免了MCMC采样估计的能量为基础的模型,通过把估计问题的分类问题。从[69]中概括,[27,40,43]开发了一种内观参数估计方法,其中EBM是有区别地学习的,并且由通过学习过程获得的一系列区分模型组成另一项工作是通过评分匹配来估计循证医学的参数[26,74,63,64]。[75,11]将GAN与EBM的估计联系起来。NCE及其变体在自然语言处理(NLP)中得到了普及[23,57,2,4]。[51,50]将NCE应用于对数双线性模型,[70]将NCE应用于神经概率语言模型。NCE在典型的NLP任务中表现出有效性,例如单词嵌入[47]和顺序嵌入[71]。在逆强化学习的背景下,[44]提出了一种引导策略搜索方法,[11]将其与GAN连接起来。我们的方法与这种方法密切相关,其中能量函数可以被视为成本函数,而流模型可以被视为展开的策略。3. 学习方法3.1. 基于能量的模型设x为输入变量,例如图像。我们使用pθ(x)表示模型7520∂Z(θ)∂∂参数θ。基于能量的模型(EBM)定义如下:1例如,{x∈i,i=1,..., n}从噪声分布q(x)。然后,可以通过最大化以下目标函数来估计pθ(x)= Z(θ)exp[fθ(x)],(1)J(θ)=EpΣ数据Σpθ(x)pθ(x)+q(x)Σ+Eqq(x)pθ(x)+q(x)Σ、(四)其中fθ(x)由自底向上的卷积神经网络定义,其参数由θ表示。正规化常数Z(θ)=exp[fθ(x)]dx对于精确计算高维x。3.1.1最大似然估计方程中的基于能量的模型1可以通过最大似然估计(MLE)从未标记的数据中估计假设我们观察训练样本{xi,i=1,.,n}从未知的真实分布p数据(x)。我们可以看到数据集作为形成经验数据分布,并且因此关于p 数 据(x)的期望可以通过对训练示例求平均来近似。在MLE中,我们寻求最大化对数似然函数1Σn这将EBM的估计转换为分类问题。目标函数在以下意义上与监督学习中的逻辑回归有关。假设对于每个训练或生成的示例,我们分配一个二进制类标签y: y=1,如果x来自训练数据集,y=0,如果x由q(x)生成。 在逻辑回归中,估计给定数据x的类别的后验概率由于数据分布pdata(x)是未知的,所以类条件概率p(·|y=1),pθ(x)。而p(·|y=0)由q(x)建模。 假设我们假设两个类别标签的概率相等,即,p(y = 1)= p(y = 0)= 0。五、然后我们得到后验概率:p(y= 1|x)=pθ(x):=u(x,θ).(五)L(θ)= ni=1logpθ(xi)。(二)θpθ(x)+q(x)最大化对数似然函数相当于最小化Kullback-Leibler散度KL(p数据||pθ)。它的梯度可以写为:类标签y是伯努利分布的,所以log-参数θ的似然性变为ΣnΣnΣ Σ Σ Σ-KL(p数据||pθ)= Ep数据fθ(x)−Epθfθ(x),l(θ)= logu(xi;θ)+ log(1−u(xi;θ)),(6)i=1i =1∂θ ∂θ∂θ(三)其是直到1/n的因子的等式n的近似4.第一章噪声分布q(x)的选择是一个设计,也就是说,在不同的人的期望fθ(x)在p数据和pθ下的导数。通过分别对观测样本和由当前模型pθ(x)生成的合成样本求平均值,可以近似 地 估 计 期 望 值 困 难 在 于 , 从 pθ ( x ) 采 样 需 要MCMC,如Hamil- tonian蒙特卡洛或Langevin动力学[14,78],这可能需要很长时间才能收敛,特别是在高维和多模态空间,如图像空间。pθ(x)的极大似然估计试图覆盖p个数据(x)的所有模型。考虑到fθ(x)模型形式的灵活性,pθ(x)的极大似然估计有可能合理地逼近p个数据(x)。3.1.2噪声对比估计噪声对比估计(NCE)[21]可以用于学习EBM,通过包括归一化常数作为另一个可学习的参数。具体来 说 , 对 于 基 于 能 量 的 模 型 pθ ( x ) =1exp[fθ(x)],我们定义pθ(x)=exp[fθ(x)−c],其中c=logZ(θ)。c现在被视为a自由参数,并包含在θ中。假设我们观察训练示例{xi,i = 1,.,n},我们生成了苏.一般来说,我们期望q(x)满足以下条件:(1)归一化密度的表达式易于分析,(2)易于取样,(3)接近数据分布。在实践中,(3)对于在高维数据上学习模型很重要。如果q(x)不接近数据分布,那么分类问题就太容易了,不需要pθ来学习数据的模态。3.2. 基于流的模型流动模型的形式为x=gα(z);z<$q0(z),(7)其中q0是已知的噪声分布。gα是可逆变换序列的合成,其中可以显式地获得变换的雅可比行列式α表示参数。设qα(x)为给定数据点x且参数为α的模型的概率密度。则在变量变化下,qα(x)可以表示为:qα(x)=q0(g−1(x))|det(g−1(x)/x)|.(八)α α日志日志7521更具体地说,假设gα由一系列变换gα=gα1<$··<$gαm组成。其关系为─和qα(x)具有统一值函数的极大极小对策:minαmaxθV(θ,α),z和x之间的差可以写为zPartition1Partition···Partitionm−1PartitionX.我这样V(θ,α)=EΣ Σpθ(x)日志p数据Σpθ(x)+qα(x) Σ(十二)qα(x)=q0(g−1(x))<$m|、(9)|,(9)q(g(z))α i=1+Ezlogαα,其中为了简洁,我们定义z:=h0和x:=hm通过精心设计的变换,如在基于流的方法中所探索的,雅可比矩阵的行列式(hi−1/hi)的计算可以非常简单。关键思想是选择其雅可比矩阵是三角矩阵的变换,使得行列式变为|=Π|di a g(h i − 1 /h i)|.|.(10)以下是估计qα的两种情况:(1) 通过MLE [7,8,32,17,3,37,68]进行生成建模,基于minαKL(p数据<$qα),其中Ep数据可以通过观察到的示例的平均值来近似。(2) 基于minαKL(qα<$p)的非归一化目标密度p[34,59,33,30,28]的变分近似,其中KL(qαp)=Eqα[logqα(x)]−Eqα[logp(x)]pθ(gα(z))+qα(gα(z))其中,通过对观察到的样本{xi,i=1,.,n},而Ez通过 在 i 个 样 本 {x∈i , i=1 , . , n}dr a wn from qα(x),其中zi独立地为q0(z),i = 1,., n.在实验中,我们选择Glow [32]作为基于流的模型该算法可以从随机初始化的Glow模型或通过MLE预训练的Glow模型开始。在这里,我们假设观察样本和负样本的先验概率相等。它可以很容易地修改为我们为负样本分配更高的先验概率的情况,因为我们可以访问无限数量的自由负样本。目标函数可以从以下角度进行解释:(1) EBM中的噪声对比估计θ的更新可以看作是pθ(x)的噪声对比估计,但具有流变换噪声分布qα(x),=E[logq(z)-log|det(g′(z))|]−E(十一)[log p(x)]。自适应更新。 培训基本上是一种后勤z0αqαKL(qαp)是能量和熵之间的差,即,我们希望qα具有低能量但高熵。KL(qα<$p)可以在不反演gα的情况下计算。当qα出现在KL发散的右侧时,如(1)中所示,它被迫覆盖p数据的大多数模式,当qα出现在KL发散的左侧时,如(2)中所示,它倾向于追逐p的主要模式而忽略次要模式[52,12]。如以下部分所示,我们提出的方法通过组合(1)和(2)来学习流模型。3.3. 流量对比估计NCE的一个自然改进是将噪声回归分析然而,与用于分类的常规逻辑回归不同,对于每个xi或xi ,我们必须包括logqα(xi)或logqα(xi)作为示例依赖的偏差项。这迫使pθ(x)除了区分p 个 数 据(x)和qα(x)之外,还要复制q α(x),因此pθ(xi)一般大于qα(xi),而pθ(x<$i)一般小于qα(x<$i)。(2) 流动模型的Jensen-Shannon发散最小化。如果pθ(x)接近数据分布,则α的更新近似地最小化流模型qα和数据分布pdata之间的Jensen-Shannon散度:JSD(qαp数据)= KL(p数据(p数据+qα)/2)从而得到的分布更接近数据分布。这正是流模型所实现的。的+ KL(qα(p数据 +qα(十三))/2)。流模型通过一系列可逆变换gα(·)组合变换已知噪声分布q0(z)。其亦符合NCE的第(1)及(2)项要求然而,在实践中,我们发现预先训练的qα(x),例如通过MLE学习的,对于学习EBMpθ(x)来说不够强,因为来自qα(x)的MLE的合成数据仍然可以通过EBM容易地与真实数据区分开因此,我们建议迭代地训练EBM和流模型,在这种情况下,流模型被自适应地调整为成为更强的对比度分布或EBM的更强的训练对手这是通过类似于GAN的参数估计方案来实现的,其中pθ(x)其梯度w.r.t.α等于的梯度−Ep数据[log((pθ+qα)/2)]+KL(qα<$(pθ+qα)/2)。第一项的梯度类似于MLE,其迫使qα覆盖了数据分布的模式,并且倾向于导致过度分散的模型,这也在[32]中指出。第二项的梯度类似于qα和pθ之间的反向Kullback-Leibler发散,或qα对pθ的变分近似,这迫使qα追逐pθ的模式[52,12]。这可能有助于纠正MLE的过度分散,并结合了第3.2节中描述的估计基于流量的模型qα的两种场景。7522(3) 与GAN的联系我们的参数估计方案与GAN密切相关。在GAN中,判别器D和生成器G进行极大极小博弈:在θ上最大化以下目标函数:Llabel(θ)= Epdata(x,y)[log pθ(y|x,y ∈{1,., K})]minGmaxDV(G,D),=Epdata(x,y)Σ对数ΣpθyK(x)pΣ、(x)(十七)V(G,D)=Ep数据 [logD(x)]+ Ez[log(1 − D(G(zi)]。k=1θk(十四)该算法学习概率比pdata(x)/(pdata(x)+pG(x)),这是关于pdata和pG之间的差[11]。最后,如果生成器G学会了完美地复制p个数据,那么其在形式上类似于分类器。对于未标记的示例,概率可以由无条件EBM定义,其形式为混合模型:最后都是随机猜测然而,在我们的方法中,该比率由pθ和qα明确建模。pθ必须包含qα中的所有学习知识,除了不同的pθ(x)=ΣKi=11ΣKpθ(x|y = k)p(y =k)= Ki=1pθk(x),(十八)p数据和qα之间的关系。最后,我们学习了两个前-隐式概率分布pθ和qα作为p数据的近似值。尽管如此,我们简单地将所提出的方法称为流量估计或FCE。3.4. 半监督学习基于类条件能量的模型可以在以下意义上转换为判别模型假设有K个类别k = 1,..., K,并且模型为每个k学习不同的密度pθk(x)。网络fθk(x)(k=1,...,K可以共享共同的下层,但具有不同的顶层。设ρk是范畴k的先验概率,k=1,…,K.则将x分类到类别k的后验概率是softmax多类分类器结合从qα(x)生成的例子,我们可以定义与等式n相同的值函数V(θ,α)。12、未分类的例子联合估计算法交替以下两个步骤:(1)通过maxθLlabel(θ)+V(θ,α)更新θ;(2)通过minαV(θ,α)更新α。由于EBM的灵活性,fθk(x)可以由任何现有的为半监督学习设计的最先进的网络结构定义。4. 实验对于FCE,我们自适应地调整EBM和Glow的更新次数:我们首先更新EBM几次迭代,直到分类精度高于0。5,然后我们更新Glow,直到分类精度低于0的情况。五、我们使用Adam [31],学习率α=0。0003对于EBM和Adamax [31],学习率α=0。00001为Glow型号。 代码和更多的结果可以P(k|x)= exp(fθk(x)+bk),(15)可在http://www.stat.ucla.edu/上找到Kl=1 exp(fθl(x)+bl)fce/main.html其中bk=log(ρk)−logZ(θk)。鉴于这种对应关系,我们可以修改FCE来做半监督学习。具体来说,假设{(xi,yi),i = 1,., m}是具有已知标签的观察到的示例,并且{xi,i = m +1,..., m + n}是观察到的未标记的例子。对于每个类别k,我们可以假设,类条件循证医学的形式是4.1. 二维合成数据的密度估计图1展示了FCE在几个2D分布上的结果,其中FCE从随机初始化的Glow开始。学习的EBM可以准确地拟合多模态分布,并且形成比FCE或MLE学习的Glow更好的拟合。值得注意的是,EBM由比Glow简单得多的网络结构定义:对于Glow,我们使用10个仿射耦合层,这相当于30个全连接层pθk1(x)=Z(θk)exp[fθk (x)]=exp[fθk(x)−ck],(16)层,而基于能量的模型由4层全连接网络定义,其宽度与Glow相同另一个有趣的发现是,循证医学可以适应分布-其中fθk(x)共享除顶层之外的所有权重。我们假设每个类别的先验概率相等。设θ表示类条件EBM {θk,k=1,...,K}。对于标记的例子,我们可以最大化标签y的条件后验概率,给定x和x是一个观察到的例子(而不是(a)从qa生成的例子)。 根据贝叶斯法则,这导致7523即使流动模型不是一个完美的对比分布,也能很好地解释对于图1第一行中描述的分布,它是八个高斯分布的混合,我们可以将学习模型的估计密度与地面真实密度进行比较。图2显示了估计的对数密度随训练次数的均7524数据辉光-MLE辉光-FCE EBM-FCE表1:生成样品的FID评分对于我们的方法,我们从学习的Glow模型中评估生成样本。表2:dicates图1:在二维数据分布上训练的EBM和Glow模型的比较图2:8个高斯分布混合的2D示例中的密度估计精度。EBM的迭代我们展示了FCE的结果,无论是从随机初始化的Glow(“rand”)还是通过MLE预训练的Glow模型 ( “trained” ) 开 始 从 随 机 初 始 化 的 Glow 开 始 的FCEFCE的两种设置都比NCE实现了更低的错误率。4.2. 在真实图像数据集上学习我们在街景房屋号码(SVHN)[53],CIFAR-10 [35]和CelebA [45]数据集上进行实验。 我们将CelebA图像的大小调整为32×32像素,并使用了20,000张图片作为测试集。我们初始化FCE使用由MLE训练的预训练Glow模型,为了效率。我们再次强调EBM模型结构与Glow相比详细的模型架构见对于辉光,每个级别的[32] SVHN、CelebA和CIFAR-10分别设置为8、16、32。图3描绘了从学习的Glow模型合成的示例。为了评估合成大小的e示例的保真度,表1总结了Fre'chet初始使用Inception V3 [65]分类器计算的合成示例的距离(FID)[24与通过MLE训练的Glow相比,保真度显著提高(参见对数似然是基于具有估计的归一化常数的模型计算的,并且应该持保留态度。模型SVHNCIFAR-10CelebA发光MLE2.173.353.49GLOW-FCE(我们的)2.253.453.54EBM-FCE(我们的)2.153.27†3.40附录的定性比较),并具有竞争力的其他生成模型。在表2中,我们报告了测试集上的平均负对数似然(每维位数)。学习的EBM的对数似然基于估计的归一化常数(即,模型的一个参数),应该持保留态度。对于学习的Glow模型,使用FCE估计的Glow模型的对数似然略低于使用MLE训练的Glow模型的对数似然。4.3. 无监督特征学习为了进一步探索使用FCE学习的EBM,我们使用来自学习的EBM的特征执行无监督特征学习。具体来说,我们首先在SVHN的整个训练集上以无监督的方式进行FCE然后,我们从学习的EBM中提取顶层特征图,并仅使用训练图像的子集及其相应的标签在提取的特征之上训练线性分类器。图4显示了分类准确度与标记示例数量的函数关系。同时,我们将我们的方法与具有与EBM相同模型结构的监督模型进行比较,并且每次只在相同的标记样本子集我们观察到,FCE优于 监 督 模 型 时 , 标 记 的 例 子 的 数 量 很 小 ( 小 于2000)。接下来,我们尝试组合来自多个图层的要素一起具体来说,遵循[58]中列出的相同过程,来自顶部三个卷积层的特征被最大化合并并连接以形成14,336维特征向量。然后,利用训练样本的子集和相应的标签在这些特征上训练正则化的L2-SVM。表3总结了使用1,000、2,000和4,000个标记检查的结果。方法SVHNCIFAR-10CelebAVAE [34]57.2578.4138.76DCGAN [58]21.4037.7012.50发光[32]41.7045.9923.32FCE(我们的)20.1937.3012.21每维于测试 数据†in7525图3:FCE学习的Glow模型的合成示例从左到右的图分别来自SVHN、图像大小为32 ×32。图4:SVHN测试集分类准确度作为标记示例数量的函数。提取来自顶层特征图的特征,并在所提取的特征上学习线性分类器。从训练集的pls。在表格的顶部,我们比较了估计EBM或与生成器网络耦合的判别模型在表格的中间部分,我们比较了使用对比发散(CD)和CD的修改版本学习EBM的方法为了公平比较,我们对EBM使用相同的模型结构或所有方法中使用的判别模型。结果表明,FCE优于这些方法的学习功能的有效性方面。4.4. 半监督学习在第3.4节中,我们证明了FCE可以推广到执行半监督学习。我们强调,对于半监督学习,FCE不仅学习分类,边界或后验标签分布p(y|X)。相反,该算法最终得到K个估计的概率分布p(x|y=k),k=1,. K表示观察到的属于K类的样本。 图5说明了这一点通过在2D示例上显示学习过程来说明这一点,其中数据分布由两个扭曲的螺旋线组成表3:在从SVHN学习的级联特征上训练的L2-SVM分类 器 的 测 试 集 分 类 误 差 。 DDGM 是 Deep DirectedGenerative Models的缩写。为了公平比较,所有基于能量的模型或判别模型都用相同的模型结构训练。标记数据的方法属于两类。为每个类别提供了七个标记点。随着训练的进行,非一致性EBMpθ(x)学习捕获数据分布的所有模式,其形式为类条件EBMpθ1(x)和pθ2(x)的混合。同时,通过最大化目标函数Llabel(θ)(等式10), 17),pθ(x)被迫将学习到的模式投影到不同的空间中,导致两个分离的类条件EBM。如图5所示,在一个类别的单个模式中,EBM倾向于学习一个平滑连接的集群,这通常是我们在半监督学习中所期望的。然后,我们测试所提出的方法在一个数据集的真实图像。根据[49]中的设置,我们使用两种类型的CNN结构(“Conv-small”和“Conv-large”)用于EBM,这通常用于最先进的半监督学习方法。详细的模型结构见附录。我们从预训练的Glow模型开始FCE。在联合训练开始之前,EBM首先使用Glow模型进行50,000次迭代训练100020004000WGAN [1]43.1538.0032.56WGAN-GP [20]40.1232.2430.63DDGM [29]44.9934.2627.44DCGAN [58]38.5932.5129.37SN-GAN [48]40.8231.2428.69MMD-GAN-rep [72]36.7429.1225.23永久CD [67]45.7439.4734.18一步CD [25]44.3835.8730.45多网格采样[13]30.2326.5422.83FCE(我们的)27.0724.1222.057526图5:在2D示例上进行半监督学习的FCE说明,其中数据分布是属于两个类别的两个螺旋。在每个面板中,左上角是学习的无条件EBM。右上角是学习的Glow模型。下面是两个类条件EBM。对于观察到的数据,为每个类别提供七个标记点。固定.在实践中,这有助于EBM与预训练的Glow模型保持同步,并为EBM配备合理的分类能力。我们将此阶段的性能此外,由于虚拟对抗训练(VAT)[49]已被证明是一种有效的常规训练,表4:SVHN测试集上的半监督分类误差(%)。†表示我们通过运行已发布的代码获得结果。表示该方法使用了数据扩充。其他引用的结果由原始论文提供。我们的结果是三次运行的平均值半监督学习的量化方法,我们考虑采用它作为学习循证医学的额外损失。更具体地说,损失被定义为每个输入数据点周围的条件标签分布对局部扰动的鲁棒性表4总结了SVHN数据集上的半监督学习结果我们报告了三次运行的平均误差率和标准差。表中列出的所有方法都属于半监督学习方法家族我们的方法实现了竞争力的性能,这些国家的最先进的方法。‘FCE +VAT’ results show that the effectiveness of FCE does notoverlap much with existing5. 结论本文通过结合基于能量的模型的表示灵活性和基于流的模型的计算易处理性,探索基于能量的模型与基于流的模型的联合训练。我们可以将学习到的基于能量的模型视为学习到的表示,而学习到的基于流的模型视为学习到的计算。该方法可以被认为是噪声对比估计的自适应版本,其中通过流模型对噪声进行变换,以使其分布更接近数据分布,并使其与基于能量的模型形成更强的对比。同时,在相同的对抗值函数下,通过学习过程对基于流的模型进行自适应更新在今后的工作中,我们打算推广联合训练标记数据方法编号500 1000SWWAE [76] 23.56跳DGM [46]16.61(±0. 二十四)辅助副总经理[46] 22.86GAN与FM [61]18.44(±4. 8)8.11(±1. 第三章VAT-Conv-small[49]6.83(±0. 二十四)在[61,49]FCE-init9.42(±0. 24) 8.50(±0. 第二十六章)FCE7.05(±0. 28)6.35(±0. 12)模型[39]7.05(±0. 30)5.43(±0. 第二十五章)VAT-Conv-large[49]<$8.98(±0. 26) 5.77(±0. 32)平均教师[66]5.45(±0. 14) 5.21(±0. 21)[39]6.83(±0. 66)4.95(±0. 第二十六章)颞叶整体效应[39]5.12(±0. 13) 4.42(±0. 第十六章)在Conv-large中使用[39,49]FCE-init8.86(±0. 26) 7.60(±0. 23)FCE6.86(±0. 18) 5.54(±0. 十八)FCE+ VAT4.47(±0. 23)3.87(±0. 14)该方法通过将基于能量的模型与其他归一化概率模型(例如自回归模型)相结合来实现。我们还打算探索其他联合训练方法,例如基于对抗性对比发散[29,5,22]或发散三角[22]的方法。致谢这项工作得到了DARPA XAI项目N66001-17-2-4029和7527ARO项目W 911 NF 1810296的部分支持。我们 感谢 Pavel Sountsov 、 Alex Alemi 、Matthew D.Hoff-man和Srinivas Vasudevan的有益讨论。7528引用[1] MartinArjovsky,SoumithChintala,andBottou.Wasserstein gan arXiv预印本arXiv:1701.07875,2017。7[2] 保罗·巴特斯库和菲尔·布朗森机器翻译中的语用神经语言建模。arXiv预印本arXiv:1412.7119,2014。2[3] JensBehrmann , Da vidDuve naud , 和 J oérn-HenrikJa-cobsen 。 可 逆 剩 余 网 络 。 arXiv 预 印 本 arXiv :1811.00995,2018。1、4[4] Avishek Joey Bose,Huan Ling,and Yanshuai Cao.对抗性对比估计。arXiv预印本arXiv:1805.03642,2018。2[5] 戴梓航,阿姆贾德·阿尔玛海利,菲利普·巴赫曼,埃德·沃德·霍维,亚伦·库维尔。 校准基于能量的生成对抗网络。arXiv预印本arXiv:1702.01691,2017。二、八[6] Guillaume Desjardins , Yoellow Bengio , and Aaron CCourville.关于追踪配分函数。神经信息处理系统的进展,第2501-2509页,2011年1[7] Laurent Dinh , David Krueger , and Yoshua Bengio.Nice : 非 线 性 独 立 分 量 估 计 。 arXiv预 印 本 arXiv :1410.8516,2014。一、二、四[8] Laurent Dinh,Jascha Sohl-Dickstein,and Samy Ben-gio.使 用 实 nvp 的 密 度 估 计 。 arXiv 预 印 本 arXiv :1605.08803,2016。一、二、四[9] Yilun Du和Igor Mordatch。基于能量的模型中的隐式生成和泛化。arXiv预印本arXiv:1903.08689,2019。一、二[10] 康纳·杜坎,阿图尔·贝卡索夫,伊恩·默里,乔治·帕帕马卡里奥斯.神经样条流。神经信息处理系统的进展,第7509-7520页,2019年。1[11] 切尔西·芬恩,保罗·克里斯蒂亚诺,彼得·阿比尔和谢尔盖·莱文。生成对抗网络、反向强化学习和基于能量的模型之间的联系。arXiv预印本arXiv:1611.03852,2016。一、二、五[12] 查尔斯W福克斯和斯蒂芬J罗伯茨。变分贝叶斯推理教程。人工智能评论,38(2):85-95,2012。4[13] Ruiqi Gao,Yang Lu,Junpei Zhou,Song-Chun Zhu,and Ying Nian Wu.通过多重网格建模和采样学习生成式卷积网络。在IEEE计算机视觉和模式识别会议论文集,第9155- 9164页,2018年。一、二、七[14] 马克·吉罗拉米和本·考尔德黑德黎曼流形朗之万与哈密顿蒙特卡罗方法。英国皇家统计学会杂志:Series B( Statistical Methodol-ogy ) , 73 ( 2 ) : 123-214 ,2011。3[15] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。 在神经信息处理系统的进展,第2672一、二[16] Anirudh Goyal 别 名 Parth Goyal 、 Nan Rosemary Ke 、Surya Ganguli和Yoshua Bengio。变量回退:学习一个过渡算子作为一个随机递归网络。在神经信息处理系统的进展,第4392-4402页,2017年。1[17] Will Grathwohl, Ricky TQ Chen ,Jesse Beterncourt,Ilya Sutskever,and David Duvenaud. Ffjord:可扩展可逆生成 模型的自由形 式连续动力 学。arXiv预印本arXiv:1810.01367,2018。1、4[18] WillGrathwohl,Kuan-ChiehWang,J?rn-HenrikJacobsen,DavidDuvenaud,MohammadNorouzi,and Kevin Swersky.你的分类器其实是一个基于能量的模型,你应该把它当作一个模型来对待。arXiv预印本arXiv:1912.03263,2019。1[19] 亚历克斯·格雷夫斯使用递归神经网络生成序列。arXiv预印本arXiv:1308.0850,2013。1[20] Ishaan Gulrajani 、 Faruk Ahmed 、 Martin Arjovsky 、Vincent Dumoulin和Aaron C Courville。改进的瓦瑟斯坦甘斯训练。神经信息处理系统的进展,第5767-5777页,2017年。7[21] 我 的 迈 克 尔 · 古 特 曼 和 阿 波 · 海 弗 亚 里 宁 。 Noise-Contrastiveestimation : A new estimation principle forunnormalized statistical models. 在 Proceedings of theThirteenthInternationalConferenceonArtificialIntelligence and Statistics,第297-304页,2010中。二、三[22] 田汉,埃里克·奈坎普,方小林,米奇·希尔,朱松春,吴应念.用于发电机模型、基于能量的模型和推断模型的 联 合 训 练 的 发 散 三 角 形 。 arXiv 预 印 本 arXiv :1812.10907,2018。二、八[23] 何天行、张宇、Jasha Droppo和Kai Yu。用噪声对比估计训练双向神经网络语言模型2016年第10届汉语口语处理国际会议(ISCSLP),第1-5页。IEEE,2016. 2[24] Martin Heusel、Hubert Ramsauer、Thomas Unterthiner、Bernhard N
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 平尾装配工作平台运输支撑系统设计与应用
- MAX-MIN Ant System:用MATLAB解决旅行商问题
- Flutter状态管理新秀:sealed_flutter_bloc包整合seal_unions
- Pong²开源游戏:双人对战图形化的经典竞技体验
- jQuery spriteAnimator插件:创建精灵动画的利器
- 广播媒体对象传输方法与设备的技术分析
- MATLAB HDF5数据提取工具:深层结构化数据处理
- 适用于arm64的Valgrind交叉编译包发布
- 基于canvas和Java后端的小程序“飞翔的小鸟”完整示例
- 全面升级STM32F7 Discovery LCD BSP驱动程序
- React Router v4 入门教程与示例代码解析
- 下载OpenCV各版本安装包,全面覆盖2.4至4.5
- 手写笔画分割技术的新突破:智能分割方法与装置
- 基于Koplowitz & Bruckstein算法的MATLAB周长估计方法
- Modbus4j-3.0.3版本免费下载指南
- PoqetPresenter:Sharp Zaurus上的开源OpenOffice演示查看器
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功