JEM：训练联合能量模型以提高样本质量和判别能力

142 浏览量更新于2023-10-13 收藏 966KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

6494JEM++：训练JEM杨秀龙，季世豪佐治亚州立大学{xyang22，sji} @ gsu.edu摘要联合能量模型（JEM）[12]是最近提出的一种混合模型，它保留了现代CNN分类器的强大区分能力，同时生成的样本质量可与基于GAN的方法相媲美。在本文中，我们提出了各种新的训练过程和架构功能，以提高JEM1)我们提出了一个近端SGLD来生成来自前一步骤的样本附近的样本2)我们进一步将EBM的近似最大似然学习视为多步差分游戏，并扩展了YOPO框架[47]以在反向传播过程中删除冗余计算，从而大大加速了训练。3)不是从随机噪声初始化SGLD链，我们引入了一个新的信息初始化，从训练数据估计的分布4)这种信息初始化使我们能够在JEM中启用批量归一化，这进一步释放了现代CNN架构用于混合建模的能力。11. 介绍深度神经网络（DNN）在各种判别任务和生成任务方面取得了重大突破，包括图像分类，对象检测以及高质量图像和文本生成[26，18，3，5]。然而，关于判别模型和生成模型的先前工作在很大程度上是分开的。尽管一些研究（例如，[6，8]）已经表明生成训练有利于判别模型，最近关于生成模型的工作主要集中在定性样本质量[4，37，40]，并且最先进的生成模型的判别性能仍然远远落后于判别模型[2，7，9]。在不同的判别和生成模型中，基于能量的模型（EBM）[27]是一类有吸引力的模型。1代码：https://github.com/sndnyang/JEMPP概率模型，可以被视为具有区分力和生成力的混合模型 [12] 。与流行的生成模型（如 VAE [25] 和 GAN[11]）相比，EBM只需要训练一个具有一组共享特征的单个网络来进行区分任务和生成任务，并利用隐式采样进行生成。由于EBM是唯一需要训练的对象，因此它通常比使用多个网络的方法实现更高的简单性和稳定性。因此，最近有一个很大的兴趣，在不牺牲他们的歧视权力的歧视性模型包含的生成能力具体来说，最近的一系列工作提出将CNN训练为用于图像分类和生成的EBM[45，16，9，12]。其中，JEM [12]是最具代表性的一种，它重新诠释了现代CNN分类器（例如，Wide-ResNet [46]）作为图像生成的EBMJEM展示了EBM在混合建模中的潜力，并引发了一系列后续工作[48，13，10，14]。然而，循证医学的培训仍然是一项具有挑战性的任务。如表1中所示，现有方法在寻求改进的训练算法中展示了不同算法特征之间的大量权衡。大多数作品[32，9，12]采用SGLD采样[42]来训练EBM，其中在每个采样步骤中需要前向和后向传播的K这些训练方法可以通过较大的K来延长，从而避免了大规模数据集所需的长时间训练过程此外，SGLD可能是不稳定的，并且容易发散，这进一步阻碍了EBM的流行为了避免SGLD的长采样过程，最近的工作引入了辅助模型[17，44，14]或使用特殊的架构[13，41]来摊销SGLD采样或提高其稳定性。鉴于基于SGLD的方法，特别是JEM [12]的架构简单性，我们提出以下问题：是否有可能开发JEM的新训练方法以减少SGLD所需的采样步骤的数量，同时提高其训练稳定性？6495∈ X∈ Xθθ−表1.不同循证医学培训方法的特点训练方法快速稳定高亮度没有辅助。模型无约束拱约可能性基于SGLD [32、9、12]''✓✓✓✓评分匹配[41，21]✓'✓✓''噪声对比[10，15]✓✓''✓'正则化生成器[17，14]✓✓✓'✓✓JEM++（我们的）↑↑✓✓✓✓在本文中，我们介绍了各种训练过程和架构功能，以提高JEM在对JEM算法进行深入研究后，我们发现JEM算法有时会产生异常图像，其中包含超出合理范围的极值像素这促使我们通过将样本投影到先前样本的Lp其次，JEM不支持现代体系结构功能，如批处理规范[22]2。我们发现，一个巨大的统计差距之间的初始噪声样本的SGLD和真实的数据引起的训练困难的JEM时，批量范数启用。因此，我们引入了一个新的信息初始化，关闭初始样本和真实数据之间的差距此外，我们发现，批量范数使能的JEM支持更大的学习率，这进一步提高了JEM的收敛速度。最后，我们扩展了YOPO [47]，一个用于PGD [28]加速的通用框架，用于EBM的最大似然学习，并进一步加速JEM的训练我们的主要贡献总结如下：1. 我们提出了一个近端SGLD来生成来自前一步骤的样本附近的样本，这可以提高算法的效率。2. 基于能量的模型基于能量的模型（EBM）[27]定义了一个能量函数，该函数将低能量值分配给从数据分布中提取的样本，否则将高能量值分配给样本，使得任何概率密度pθ（x）都可以通过Boltzmann分布表示为p（x）=exp（−Eθ（x）），（1）Z（θ）其中Eθ（x）是映射每个输入的能量函数X为标量，Z（θ）为归一化常数(also即配分函数）使得pθ（x）是有效的密度函数。训练EBM的关键挑战在于估计配分函数Z（θ），这是众所周知的难以处理的。参数θ的标准最大似然估计也不是直接的，并且已经提出了许多基于采样的方法来有效地近似它。具体地，单个样本的对数似然xw.r.t. θ可以表示为证明了JEM的稳定性。2. 我们进一步处理近似最大似然logp（x）θ=Epθ（x′）Eθ（x′）∂θ− Eθ（x），（2）∂θ学习EBM作为一个多步微分游戏，其中可以通过在反向传播期间去除冗余计算而加速，同时保持总体预测性能。3. 我们引入了一种新的信息初始化来初始化SGLD链，这进一步稳定了训练，加快了SGLD采样的收敛速度。4. 这种新的信息初始化也使批量规范能够成功训练JEM，并释放现代CNN架构的力量。更重要的其中期望值在密度函数pθ（x′）上，由于难以处理的Z（θ），从中采样是具有挑战性的。因此，之前已经提出了MCMC和Gibbs采样[20]来有效地估计期望。为了加速有效采样的混合，最近已经采用随机梯度朗之万动力学（SGLD）[42]通过使用梯度信息[32，9，12]来训练EBM。具体来说，为了从pθ（x）采样，SGLD如下x0p0（x），JEM以大的学习率优化，而JEM则失败了。电话+1tαEθ（xt）t t5. JEM++与现有技术水平相当或优于现有技术水平JEM是一种混合模型，适用于区分性和生成性任务，同时比原始JEM具有更高的稳定性和训练速度。2尽管作者声称他们已经能够成功地用批范数训练JEM，但在他们的论文或代码中没有披露细节。x=x−2xt+α，N（0，1），（3）其中p0（x）通常是[1，1]上的均匀分布，其样本通过SGLD链上具有步长α先前的工作[9，12，31]已经研究了SGLD采样中的超参数在稳定性方面6496|θΣθθyΣΣ·--12Byfθ（x）[y]也可用于定义EBM和速度，并表明，SGLD为基础的方法遭受从顺序采样在每次迭代的稳定性差和计算的挑战。具体地，Nijkamp等人[31]发现SGLD中的噪声项并不重要，并且包括低方差ap的噪声。提高综合品质。更重要的3.1. EBM的Minimax优化训练在实际应用中，当我们使用模型参数θ的最大似然估计时，方程2，B 个样本{x1 ， x2 ，... ， xB}pθ（x）的小批量和使用B个真实数据样本{xr，xr，···，xr} X。到由于SGLD链的密度很小，因此期望在SGLD链收敛之后从SGLD链生成样本。这要求步长α以多项式时间表和无限数量的采样步长衰减，这在实际应用中是不现实的相反，JEM [12]在采样期间使用恒定步长α，并使用仅运行有限步数的采样器来近似样本。为了提高采样稳定性，该模型将需要四倍的SGLD步骤的数量，这大大增加了运行时间。3. JEM++：JEM我们首先简要介绍JEM [12]，然后讨论各种新的训练程序，以提高其准确性，稳定性和速度。联合能量模型（JEM）[12]将现代CNN分类器重新解释为EBM。考虑参数θ的CNN分类器，给定输入x，分类器首先将输入映射到C个实数值的向量（或为了避免符号混乱，我们假设B=1，在其余的这篇论文，但结果很容易扩展到B>1。与Nijkamp等人相似[31]他们发现，虽然SGLD采样中噪声项的显著性（3），但我们的实证研究也证实了这一观察结果。因此，我们忽略等式中的噪声项。并将其视为在采样过程中产生一些随机性以促进优化的伪影。在此假设下，SGLD采样（3）可以近似地重新解释为SGD迭代，学习率为α/2，从范围初始化。p0（x）的dom样本。假设收敛可以是在实现的情况下，SGLD采样（3）的目的是求解下面的优化问题近似为3x*= argmin E θ（x）。（六）X因此，EBM的最大似然学习与Eq. 2是近似求解下面的极大极小博弈maxΣmin E θ（x）− E θ（xr）Σ。（七）logits）：fθ（x）[y]，y∈[1，· · ·，C]，其中C是num-θx然后通过soft-max函数对logits进行归一化，以产生概率向量：e fθ（x）[y]/′ e fθ（x）[y′]。有趣的是，相同的向量为了具有稳健的收敛行为，我们可以通过使用接近点方法[33]来解决（7）的内部最小化问题。我们可以进一步处理极小极大优化问题（7）作为多步微分对策联合密度：p θ（x，y）=efθ（x）[y]/Z（θ），其中Z（θ）是未知的归一化常数（与x或y无关）。然后，可以通过将联合密度边缘化为：（x，y）=y∈fθ（x）[y]/Z（θ）。将该密度与Eq.1，很容易证明x的相应能量函数被定义为Eθ（x）=−logefθ（x）[y]=−LSE（fθ（x）），（4）y其中LSE（）表示Log-Sum-Exp函数。为了优化模型参数θ，JEM建议最大化联合密度函数pθ（x，y），其可以分解为：logp θ（x，y）= log p θ（y|x）+log p θ（x），（5）其中，第一项是用于分类的常规交叉熵目标，并且第二项可以通过EBM的最大似然学习来2中定义的SGLD采样。在本文中，我们遵循相同的目标函数的JEM，并侧重于如何提高稳定的SGLD采样，以及加快最大似然学习的EBM。并扩展YOPO [47]这一加速PGD的通用框架接下来，我们将详细描述这些新的培训程序。3.2. 近端SGLDEBM的先前工作揭示了基于SGLD的方法的训练稳定性和计算时间之间的权衡[32，9，12]。然而，基于SGLD的EBM不稳定的原因仍在调查中。经验上，我们观察到，在EBM发散时，SGLD生成具有极端值的异常样本，这些极端值对模型参数更新具有因此，我们介绍了我们的第一个改进，以稳定的内部最小化问题与近端SGLD。近似点方法广泛用于优化[35，33]。为了解决（7）的内部最小化问题，该算法通过以下邻近点迭代来生成序列xtt=1，2，···：xt+1=argminE θ（x）s.t. ||pε，（8）||p<ε, (8)3整个流水线仍然是随机采样器，因为样本是通过运行具有随机初始化的有限长度随机梯度下降来Xlogits64972−·2pXθθ˜θ0θθXθXK倍其在每个迭代t处求解受约束的最小化问题，即，目前的解决方案应该在SGLD采样前一个，由Lp范数测量。较与标准SGD迭代相比，邻近点迭代具有鲁棒的收敛行为。此外，即使在Eq.8在每次迭代中都没有精确地最小化，它仍然比标准SGD具有更强的收敛保证，从而产生了不精确的邻近点方法[35]。因此，如果我们解决每个最小化问题（8）不精确地用一步SGD得到一个不精确的邻近点迭代xt+1=xt−αL（E（xt），ε），（9）其中Lp（·，ε）将梯度投影到下式的Lp范数球：图1.SGLD-K抽样与PYLD-M抽样的比较N采样。其中，f0表示基于CNN的EBM的第一层，fθT−1◦fθT−2◦···fθ1表示没有第一个半径ε。经验上，我们发现L∞范数是有效的T−1T−21跨不同的架构和数据集。因此，在本文的其余部分中，我们只考虑L∞-范数。对于L∞范数，等式9可以改写为层r，使得fθ（x）=gθ~（fθ（x，θ0））。给我一个样本x，能量函数（4）的梯度可以通过下式计算：链式规则为：xt+1=xt−α箝位（CQE（xt），ε）+αt，（10）Eθ（x）=xgθ~伦敦经济学院。gθ~（f0（x，θ0））Σ其中，钳位（，ε）运算符在[ε，ε]的范围内钳位梯度。请注意，为了将随机性纳入不精确的近点迭代中，我们将噪声项添加回等式。10，其类似于原始SGLD采样（3），但具有用于实施邻近约束的梯度箝位算子。3.3. 循证医学的微分博弈如第3.1节所述，最大似然EBM（7）的学习近似地解决了极大极小博弈·f0gθ~（f0（x，θ0））·xf0（x，θ0）。（十二）近端SGLD（10）针对Θ的每次更新进行K次全前向和后向传播的扫描。为了稳定循证医学的训练，它需要一个大的K，这大大增加了运行时间。为了减少完全向前和向后传播的总数，我们遵循YOPO并引入一个松弛变量：p=−gLS E。g<$（f0（x，θ0））<$·<$fg<$（f0（x，θ0）），（13）这个目标与使用 PGD攻击的对抗训练有密切关系[28]。因此，我们可以将用于加速对抗训练的方法扩展到EBM，并降低多步SGLD的计算复杂度。受庞特里亚金最大值原理[ 34 ]的启发[47]提出了一种称为YOPO（You-PropogateOnce）的优化方法来加速多步对抗训练，如PGD。YOPO中的关键因素是对抗性扰动仅与神经网络中的第一层权重耦合然后，YOPO可以将对手更新与网络参数的训练解耦，并且将完全前向和后向传播的总数减少到每组对手更新中仅一次。类似地，我们可以将Y0P0扩展到EBM的最大似然学习，因为目标（7）也可以被视为多步微分游戏，并且来自邻近SGLD（10）的采样图像X仅与第一层通过插入能量函数（4）到（7），我们可以将极大极小目标重写为：maxΣmin −LSE。g~（f0（x，θ0））Σ−Eθ（xr）Σ（11）1向前1向后PYLD采样��×�� ≈��M次1个前向1个后向+ N个内环-θ6498××≈×并将其冻结为SAM的内部循环中的常数。请更新我们将我们的加速的Proximial SGLD算法称为PYLD-M-N（Proximal-YOPO-SGLD），其具有M个外环和N个内环。图1展示了SGLD-K和PYLD-M-N之间的概念比较。SGLD-K访问数据K次，需要K次完全的前向和后向传播。相反，PYLD-M-N访问数据M N次，同时仅需要M次完全的前向和后向传播以及M N次廉价样本更新的内循环与YOPO [47]类似，当M NK时，PYLD可以实现与SGLD类似的样品质量。但是PYLD-M-N具有增加N和减少M的灵活性，以实现近似相同的运动水平，而计算成本要少得多。我们将在展示结果时说明这一点。我们的PYLD的伪码在算法1中描述。有关YOPO 的更多详细信息，我们请读者参阅[47]。3.4. 信息初始化初始采样分布p0（x）也起着重要的作用。在循证医学培训中的重要作用Nijkamp等人[31] sum-6499∈···−.Σ∼--∈···−·∇4：p=−gLSEg~（f0（xt，θ0））·fg〜（f0（xt，θ0））算法1PYLD-M-N 采样：G_ n网络工作gθ~和f0，其中θ0、步长α、步数M和N1：x0p0（x）2：对于t [0，1，…，M1]，3：%计算松弛变量飞机汽车鸟猫鹿狗蛙马船舶卡车图2.CIFAR10的分类中心例如，图2显示了{µ1，µ2，···，µ10}θ˜5：xt，0=xtθ0θ6：对于s [0，1，…， N1]，做7：γ=箝位（pxt，sf0（xt，s，θ0），ε）8：xt，s+1=xt，s α/2γ9：结束10：xt+1=xt，N+αt11：结束12：返回xMx0的SGLD初始化主要有两种类型：非信息初始化和信息初始化。前者从独立于训练数据的噪声分布（诸如均匀或高斯分布）初始化样本x0sian分布，而后者从接近数据分布的近似分布采样。一种典型的信息初始化是直接使用来自训练数据的样本，如对比发散（CD）[20]中所提出的。在此基础上，Tieleman [39]提出了持续对比发散（PCD），并使用来自先前学习迭代的样本作为当前迭代的初始样本与普遍的智慧相反，Nijkamp等人。[32]提出了一种短期MCMC采样器，它总是从随机噪声分布（如均匀分布）开始。此外，为了训练循证医学，Xie et al.[45]提出了另一种持久初始化，其组合了非信息性和信息性初始化，并从先前迭代的数据样本中对短SGLD链进行采样，并且偶尔（以小概率ρ）从随机噪声中重新初始化链。这也是IGEBM [9]和JEM [12]所采用的采样方法，其维护来自先前迭代的样本的重放缓冲区，并用随机噪声替换缓冲区中的一小部分样本以训练EBM。在本文中，我们探索信息初始化初始化的SGLD链，并使用PCD与重放缓冲区。主要区别在于，我们用从训练数据集估计的高斯混合分布的样本代替随机噪声样本。也就是说，我们将初始抽样分布定义为p0（x）=ΣyπyN（µy，Σy）（14）其中πy=|Dy|/Σy′|Dy′|，µy=Ex <$Dy[x]，Σy=ExDyΣ（x−µy）（x−µy）Σ，其中Dy表示具有标签y的训练样本的集合。以及来自信息初始化的示例样本可以在补充材料中找到。信息初始化将足够的信息带入x0中以引导SGLD链比从随机噪声更快地收敛，因为初始样本x0现在更接近真实数据流形。从经验上讲我们还观察到改进的训练稳定性。更重要的3.5. 批量归一化和学习率批处理范数[22]是许多最先进的CNN架构中的重要组成部分批量范数通过在每个小批量内计算的均值和方差对输入特征进行归一化，这减轻了训练非常深的网络的梯度消失问题，并显着提高了基于梯度的方法的收敛速度此外，批量范数允许更大的学习率，并减轻了繁琐的微调的需要。然而，最先进的EBM，如IGEBM [9]和JEM [12]，不支持批量范数。在JEM中，如果启用批范数，则该模型既不能达到较高的分类精度，也不能生成真实感较强的图像。这是因为批量范数的一个内在假设是输入特征应该来自单个或相似的分布。如果小批量包含来自不同分布的数据，则该归一化行为可能是有问题的，因此导致不准确的统计估计。不幸的是，这可能是原始IGEBM还有正义运动显然，如果像IGEBM和JEM中那样从均匀或高斯分布中采样初始样本x0，则x0和真实数据样本具有不同的潜在分布，违反了批量范数的假设。Xie等人也观察到了类似的现象。[43]世界卫生组织展示了干净数据和对抗性例子之间的不同统计数据。他们表明，通过使用批范数的两个分支，可以提高干净数据的准确性和对抗鲁棒性：一个主分支用于干净数据，一个辅助分支用于对抗性示例。我们不是使用两个批规范，而是从不同的角度来考虑批规范的训练难度。既然我们可以选择设计sam-对于分布p0（x），我们可以使用上面讨论的信息初始化来实现EBM中的批量规范（分类中心）。CIFAR100和SVHN上的类似可视化6500∼ND×算法2训练JEM++：给定网络f θ、步长α、重放缓冲区B、步数M和N、重新初始化频率ρ和类数C1：不收敛时第二章：样本（xr，yr）D第三章：样本x0B，概率为1−ρ，否则x0（µy，Σy），y p（y）=π4：在Algo中应用PYLD。1到样本xM从x05：用等式计算梯度2来自Xr和XM，以及从（xr，yr）开始的CE损失梯度，并更新模型参数θ6：将样品xM添加/替换回B第七章： end while训练由于高斯混合分布（14）实际上是从真实训练示例中估计的，因此我们可以缩小SGLD的初始样本与真实数据之间的统计差距，并且成功地在JEM++中启用批范数更重要的总之，算法2提供了用于JEM++训练的伪代码，其遵循具有重放缓冲器的JEM[12]和IGEBM [9] 为简洁起见，仅一个实样本（xr，y r）和一个生成的样本xMpθ（x）用于优化参数θ。将上面的伪代码推广到我们在实验中使用的小批量设置是很简单的。4. 实验我们评估了JEM++在多个识别和生成任务上的性能由于我们的主要目标是提高JEM的准确性，训练稳定性和速度，我们在正文中介绍了这些结果，并将其下游应用程序，如对抗鲁棒性，校准和OOD检测，作为补充材料。为了与JEM [12]进行公平比较，我们的实验严格遵循JEM4源代码中提供的设置。我们所有的实验都是在Nvidia RTX GPU上使用PyTorch进行的。4.1. 混合建模我们在三个基准数据集上训练JEM++：CI-FAR10、CIFAR 100 [26]和SVHN [30]，并将其与最先进的混合模型以及独立的生成和判别模型进行比较。根据JEM [12]的设置，我们所有的实验都基于表2. CIFAR10上的混合建模结果。我们报告JEM++我们还报告了JEM和JEM++之间的每个历元加速比类模型加速度%↑ IS*↑FID *↓剩余流量[7]70.33.6046.4发光[24]67.63.9248.9单个IGEBM [9]49.18.3037.9混合模型JEM （ K=20 ） [12]1× JEM++（M=5）2.4×JEM++（ M=10 ） 1. 5×JEM++（M=20）。92×92.991.193.594.18.767.818.298.1138.437.937.138.0Reg将军VERA †（α =100）2.8× VERA [14]（α =1）2. 8×93.2 8.11 30.576.1 8.00Disc.WRN w/BN95.8 N/A N/A将军SNGAN [29]NCSN [38]不适用8.59 25.5不适用†VERA使用辅助发生器来摊销SGLD采样并报告2。8在没有关于如何执行评估的很多细节的情况下，可以加速*对IS和FID的公平评估具有挑战性，因为不同的方法使用不同的方式来测量图像质量。JEM使用一组模型来评估其IS和FID，而JEM++仅使用单个模型进行评估。正义与平等运动没有提供更多细节。因此很难有一个公平的比较。表3. SVHN和CIFAR100的测试准确度（%）。模型SVHN CIFAR100Softmax（w/BN）97.078.9维拉[14]96.872.2JEM（K=20）96.772.2JEM++（M=5）96.772.0JEM++（M=10）96.974.5JEM++的参数设置在教程材料中提供。值得一提的是，应用lr = 0的SGD优化器。1到JEM++实现了比JEM的默认设置更好的准确性，使用Adam和lr=0。00015.为了评估生成图像的质量，我们采用了初始得分（IS）[36]和Fre'chetIncep-tion Distance（FID）[19]。CIFAR10、CIFAR100和SVHN的结果分别报告于表2和3中。可以观察到，JEM++（M=10）在准确度（93.5%）、FID得分（37.1）和每历元加速比（1.5）方面优于JEM和其他单网络混合模型，而在IS得分方面稍差。由于SVHN和CIFAR100上通常没有IS和FID分数，因此我们在这两个基准上给出了分类精度和生成的样本。我们的JEM++（M=10）模型在SVHN和CIFAR100上分别实现了96.9%和74.5%的准确度，显著优于JEM。JEM++为CIFAR10、SVHNWide-ResNet架构[46]，其中包括超5JEM不能使用大于0.0001的学习率。否则就是4https://github.com/wgrathwohl/JEM非常不稳定，在早期很容易发散。×6501(a) 无条件样本（b）类别条件样本图3. JEM++生成CIFAR10样品。(a) SVHN（b）CIFAR100图4. JEM++生成了SVHN和CIFAR100的类条件样本。每一行对应一个类。和CIFAR100分别在图3和4中示出。JEM++生成的其他图像可在补充材料中找到。我们还研究了JEM++由于篇幅所限，详细情况将归入补充材料。4.2. 训练稳定性和速度基于SGLD的训练的主要限制是训练时间和稳定性之间的权衡。使用的SGLD采样步长越多，EBM可以实现的稳定性和性能越好。在本节中，我们从训练稳定性和速度方面对JEM和JEM++进行了我们首先比较了JEM和JEM++的训练稳定性。根据我们的实证研究，官方JEM（K=20的K步SGLD）遭受训练不稳定性，即，它在60个历元之前有规律地发散。以前的作品[9，12]，包括JEM在内的所有方法都不能找到一个合理的小K来完全稳定EBM的训练，因此当出现分歧时依赖于检查点来恢复训练。图5示出了在具有不同配置的CIFAR10上训练的JEM++的学习曲线。可以看出，JEM++更加稳定，并且在不需要时不发散。M=20。更重要的是，M = 10的JEM++可以实现高稳定性;甚至M = 5的JEM++比K = 20的JEM更稳定。如第3节所述，信息-图5.在具有不同配置的CIFAR10上训练的JEM++的学习曲线：(2)接近性约束。官方的JEM使用K=20，但它在60个历元之前有规律地发散。肯定初始化提高了JEM因此，采样过程需要更少的步骤来达到能量函数的低能量区域，我们想象它应该比其他区域平滑得多在此外，如图5所示，邻近约束还提高了JEM++的稳定性。我们进一步比较了JEM和JEM++在每个epoch的运行时间方面的训练速度结果报告在表4中，其中我们比较了在具有不同M和N配置的CIFAR10上训练的JEM和JEM++。可以观察到，M指定PYLD的前向和后向传播的总数，消耗大部分运行时间，而N对运行时间具有较小的影响，因为它指定用于样本更新的内部循环的数量，这是相对便宜的。因此，我们可以增加N和减少M，以达到近似相同的样本质量水平，而计算成本要少得多。考虑到训练稳定性（图5）和训练速度（表4），M=10和N=5在两个标准之间实现了良好的平衡，因此是我们的JEM++的默认配置。表4.JEM和JEM++在CIFAR10上的运行时比较模型每历元分钟数加速JEM 30.11×JEM++，M=5N=512.52. 41N= 1012.62. 39N= 2013.02. 31JEM++，男性=10N=520.11。49N= 1020.31。48N= 2020.41. 47JEM++，男性=20N=532.5。93×N= 1032.7。92×N = 2032.9。91×××××××65024.3. 消融研究JEM++引入了各种新的训练程序和架构功能，以提高JEM在本节中，我们研究了JEM++的不同组件对图像分类和图像生成性能的影响。具体而言，我们对CIFAR10进行了消融研究，并对不同组件进行了详尽的比较。我们测量了1）w/o邻近约束，2）Adam优化器，3）启用批范数的随机初始化，以及4）两种不同类型的初始化w/o批范数的效果。结果见表5。可以观察到，每个组件都对JEM++的性能做出了积极贡献。近端SGLD中的邻近度约束改善了稳定性和准确性我们的实验表明，当较小的M放大了不稳定性时，邻近度约束不仅有助于稳定训练，而且提高了训练模型的准确性信息初始化在JEM++中也起着重要作用，它使批规范和SGD的使用具有更大的学习率。当批量范数在JEM中启用时，我们发现它既不能实现高的分类精度，也不能生成真实感图像。另一方面，没有批处理范数的JEM可以实现不错的分类精度并生成高质量的图像，但它是不稳定的，并且在早期容易发散。信息初始化本身w/o批规范仍然有利于稳定训练，如通过改进的分类准确性和图像质量所表现的。值得一提的是然而，当启用批规范时，具有更大学习率的SGD优化器可以应用于成功训练JEM++，性能优于默认AdamJEM中使用的优化器（学习率非常小）表5.JEM++的不同组分的消融研究所有模型都在CIFAR10上训练，M = 10，N = 5。简体中文93.58.2937.1不含邻近度92.97.9236.0亚当92.57.6542.7随机初始化（w/BN）1---随机初始化（w/o BN）288.67.6435.1信息初始化（不含BN）391.17.9239.81它不能实现高精度并生成逼真的图像。2它在第28个时期早期发散3没有批范数，只有lr = 0的ADAM。0001可以使用。4.4. 分类准确性与图像质量我们从实验中观察到的一个有趣的现象是分类精度和图像质量之间的权衡。图6示出了类的演进作为训练时期的函数的量化准确度、IS和FID分数。在训练的早期阶段（在历元100之前），分类精度和图像质量两者可以被联合地提高。在此之后，准确性和图像质量之间存在明显的竞争，其中提高准确性会损害图像质量。这可能可以用我们的极大极小目标（7）来解释，其中分类器和隐式生成器相互竞争以达到平衡。与标准GANs [11]相比，不同之处在于我们只有一个网络同时作为分类器和生成器。如何在一个模型中平衡鉴别力和生成力尚不清楚。今后对此作进一步调查将是有意义的图6.JEM++的分类准确性、IS和FID分数的演变epoch 125周围的尖峰是由于训练不稳定性，并且由于接近度约束，JEM++最终稳定了训练5. 结论在本文中，我们提出了JEM++，它提高了JEM我们在多个基准数据集上证明了这些改进的有效性，在图像分类，图像生成，对抗鲁棒性，不确定性校准和OOD检测的大多数任务中具有最先进的结果。最重要的是，与最初的JEM相比，JEM++享有稳定和加速的训练。至于未来的工作，我们计划研究分类精度和图像质量之间的权衡，如图6所示。我们感兴趣的是最佳折衷是什么以及我们如何能够通过架构设计和/或新的训练方法（例如，[14，1]）。我们还计划将JEM++应用于大规模基准测试，如ImageNet，以及它在其他领域的应用，如NLP。6. 确认我们要感谢匿名审稿人的意见和建议，这有助于提高本文的质量我们还要感谢VMware公司的支持。为这项研究提供大学研究消融加速%↑ IS↑ FID↓6503引用[1] Lynton Ardizzone、Radek Mackowiak、Carsten Rother和UllrichK ¨ the。训练具有竞争性生成分类的信息瓶颈的规范化在神经信息处理系统（NeurIPS），2020。8[2] JensBehrmann、Will Grathwohl、Ricky TQ Chen、DavidDu-venaud和J？ rn-HenrikJacobsen。无形的剩余网络。在2018年的国际机器学习会议（ICML）上。1[3] 安德鲁·布洛克杰夫·多纳休凯伦·西蒙尼安用于高保真自然图像合成的大规模GAN训练。在2019年国际学习代表会议（ICLR）上。1[4] 安德鲁·布洛克杰夫·多纳休凯伦·西蒙尼安用于高保真自然图像合成的大规模GAN训练。在2019年国际学习代表会议（ICLR）上。1[5] Tom Brown ， Benjamin Mann ， Nick Ryder ， MelanieSub- biah，Jared D Kaplan，Prafulla Dhariwal，ArvindNeelakan- tan，Pranav Shyam，Girish Sastry，AmandaAskell ， Sand- hini Agarwal ， Ariel Herbert-Voss ，Gretchen Krueger ， Tom Henighan ， Rewon Child ，Aditya Ramesh，Daniel Ziegler，Jeffrey Wu，ClemensWinter，Chris Hesse，Mark Chen，Eric Sigler，MateuszLitwin ， Scott Gray ， Benjamin Chess ， Jack Clark ，Christopher Berner、Sam McCandlish、Alec Radford、Ilya Sutskever和Dario Amodei。语言模型是很少机会的学习者。神经信息处理系统进展（NeurIPS），2020年。1[6] Olivier Chapelle、Bernhard Scholkopf和Alexander Zien。半监督学习 IEEE Transactions on Neural Networks ，2009。1[7] Rick yTQChen ， JensBehrmann ， Da vidDuv enaud ，andJoürn-HenrikJacobsen.可逆生成建模的剩余流。arXiv预印本arXiv：1906.02735，2019。1、6[8] Arthur P Dempster，Nan M Laird，and Donald B Rubin.不完全数据的最大似然法。英国皇家统计学会杂志：B辑（方法学），1977年。1[9] Yilun Du和Igor Mordatch。基于能量的模型中的隐式生成和一般化。神经信息处理系统进展（NeurIPS），2019年。一、二、三、五、六、七[10] 放大图片作者：Ruiqi Gao，Erik Nijkamp，Diederik P.放大图片作者：王金玛，徐振Dai，and Ying Nian Wu.基于能量的模型的流量对比估计。在IEEE/CVF计算机视觉和模式识别会议（CVPR），2020年。一、二[11] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。神经信息处理系统进展（NeurIPS），2014年。1、8[12] Will Grathwohl 、 Kuan-Chieh Wang 、 Joern-HenrikJacobsen 、 David Duvenaud 、 Mohammad Norouzi 和Kevin Swer-sky。你的分类器其实是一个基于能量的模型，你应该把它当作一个模型来对待。在国际会议上学习表示（ICLR），2020年。一、二、三、五、六、七[13] Will Grathwohl ， Kuan-Chieh Wang ， Joern-HenrikJacobsen，David Duvenaud，and Richard Zemel.学习斯坦差异，用于训练和评估基于能量的模型而无需采样。第37届国际机器学习会议（ICML），2020年。1[14] Will Sussman Grathwohl 、 Jacob Jin Kelly 、 MiladHashemi、Mohammad Norouzi、Kevin Swersky和DavidDuvenaud。没有MCMC给我：用于基于能量的模型的快速和稳定训练的摊销采样。国际学习表征会议（ICLR），2021年。一、二、六、八[15] 我的迈克尔 · 古特曼和阿波 · 海弗亚里宁。 Noise-Contrastiveestimation ： A new estimation principle forunnormalized statistical models. 第十三届国际人工智能与统计集，2010年。2[16] 田汉，埃里克·奈坎普，方小林，米奇·希尔，朱松春，吴应念.用于发电机模型、基于能量的模型和推断模型的联合训练的发散三角形。在IEEE计算机视觉和模式识别会议论文集，2019年。1[17] Tian Han，Erik Nijkamp，Linqi Zhou，Bo Pang，Song-Chun Zhu，and Ying Nian Wu.变分自动编码器和基于潜在能量的模型的联合训练。IEEE/CVF计算机视觉和模式识别会议（CVPR），2020年。一、二[18] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在IEEE计算机视觉和模式识别会议（CVPR），2016年。1[19] Martin Heusel、Hubert Ramsauer、Thomas Unterthiner、Bernhard Nessler和Sepp Hochreiter。两个时间

下载后可阅读完整内容，剩余1页未读，立即下载