基于特征函数的深度隐式生成建模方法及其在图像生成上的有效性

48 浏览量更新于2023-10-25 收藏 12.18MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

74780一种基于特征函数的深度隐式生成建模方法0Abdul Fatir Ansari†，Jonathan Scarlett†‡，和Harold Soh†0† 新加坡国立大学计算机科学系 ‡新加坡国立大学数学系0{afatir, scarlett, harold}@comp.nus.edu.sg0摘要0隐式生成模型（IGMs），如生成对抗网络（GANs）已经成为有效的数据驱动模型，特别是用于生成样本，尤其是图像。本文将学习IGM的问题形式化为最小化特征函数之间的期望距离。具体来说，我们最小化真实数据分布和生成数据分布的特征函数之间的距离，使用适当选择的加权分布。这个距离度量被称为特征函数距离（CFD），可以（近似）以线性时间复杂度计算，与二次时间复杂度的最大均值差异（MMD）相比具有更高的效率。通过用CFD替换GAN中评论家的差异度量，我们得到了一个简单易实现且稳定训练的模型。所提出的度量具有连续性和可微性，与生成器参数相关，以及在弱拓扑下的连续性等理论性质。我们进一步提出了CFD的变体，在训练过程中也优化了加权分布参数；这消除了手动调整的需要，并且相对于CFD在测试功效上有所改进。我们通过实验证明，我们提出的方法在各种无监督图像生成基准测试中优于WGAN和MMD-GAN变体。01. 引言0隐式生成模型（IGMs），如生成对抗网络（GANs）[12]，旨在使用来自真实数据分布P的样本来学习一个模型Qθ。与预设的概率模型不同，IGMs不需要似然函数，在数据似然函数未知或难以计算时具有吸引力。从实证上看，GAN在许多任务上表现出色，从无监督图像生成[18]到策略学习[17]。原始的GAN存在优化不稳定性和模式崩溃问题，通常需要各种临时的调整。0稳定训练的技巧[31]。随后的研究发现，GAN中的生成器-判别器设置最小化了真实数据分布和生成数据分布之间的Jensen-Shannon散度；这种散度存在不连续性，导致Qθ接近P时梯度无法提供有效信息，从而阻碍了训练。后续的研究工作已经确定了一种可以简化GAN训练的散度的理想特性，并提出了替代的训练方案[2, 34,3]，主要使用属于积分概率度量（IPM）家族的距离[29]。其中一种流行的IPM是基于核的度量最大均值差异（MMD），近期的大部分工作都集中在推导更好的MMD-GAN变体[21, 5, 1,22]。本文采用了一种不同的、更基本的方法，将学习IGM的问题形式化为最小化真实数据分布和生成数据分布的特征函数之间的期望距离。特征函数在概率论中广泛应用于两样本检验[15, 11,8]，但令人惊讶的是，它们尚未被用于GAN的训练。我们发现，这种方法导致了一个简单且计算效率高的损失函数：特征函数距离（CFD）。计算CFD的时间复杂度与样本数量成线性关系（不像二次时间复杂度的MMD），我们的实验结果表明，最小化CFD可以实现有效的训练。本文在理论和实证上都支持使用CFD来训练IGM。我们首先证明了CFD在生成器参数方面几乎处处连续可微，并且满足弱拓扑下的连续性，这些是使其成为适合的GAN度量的关键特性[3,21]。我们提供了补充现有GAN训练度量理论的新型直接证明。在算法上，我们的关键思想很简单：使用优化加权分布下的CFD的经验估计来训练GAN。我们报告了使用合成分布和四个基准图像数据集（MNIST、CIFAR10、STL10、CelebA）进行的系统实验。ϕP(t) = Ex∼P[ei⟨t,x⟩] =�ei⟨t,x⟩d P,(1)CFD2ω(P, Q) =�Rd |ϕP(t) − ϕQ(t)|2 ω(t; η)dt,(2)74790我们的实验证明，基于CFD的方法在定量评估指标上优于WGAN和MMD-GAN变体。从实际角度来看，我们发现基于CFD的GAN实现简单且训练稳定。总结起来，本文的主要贡献有：•使用从特征函数导出的损失训练隐式生成模型的新方法；•理论结果表明，所提出的损失度量在生成器参数上是连续且可微的，并满足弱拓扑中的连续性；•实验结果表明，我们的方法在各种合成和真实世界数据集上相对于最先进的WGAN和MMD-GAN变体具有优势的生成模型。02. 概率距离和GAN0我们首先简要回顾生成对抗网络（GAN）框架和最近用于训练GAN的基于距离的方法。GAN是一种隐式生成模型，其目标是从 P X 的样本 { x } n i =1 中学习数据分布 P X。GAN由生成器网络 g θ 和评论家网络 f φ（也称为鉴别器）组成。生成器 g θ ： Z → X将从简单分布（例如高斯分布）中采样的潜在向量 z ∈ Z转换为数据空间中的向量 ˆ x 。最初的GAN [ 12 ]是通过评论家和生成器之间的对抗性两人游戏来定义的；评论家试图区分真实数据样本和从生成器获得的样本，生成器试图使其样本与真实数据样本无法区分。在最近的工作中，这个两人游戏被视为最小化真实数据分布和生成分布之间的差异。评论家 f φ评估真实样本和生成样本之间的某种概率差异，并被优化以最大化这种差异。在最初的GAN中，相关的（隐式）距离度量是Jensen-Shannon散度，但是随后引入了其他的差异度量，例如1-Wasserstein距离 [ 3 , 14 ]，Cramer距离 [ 4]，最大均值差异（MMD）[ 21 , 5 , 1 ]和Sobolev IPM [28]。文献中提出的许多距离可以归结为具有不同函数类约束的积分概率度量（IPM）框架。03. 特征函数距离0在这项工作中，我们提出使用基于特征函数（CFs）的距离度量来训练GAN。假设 P 是与实值随机变量 X相关联的概率测度，特征函数 ϕ P ： R d → C0X 的特征函数给出0其中 t ∈ R d 是输入参数，而 i = √ − 1。特征函数在概率论中广泛应用，通常用作概率密度函数的替代。随机变量的特征函数完全定义了它，即对于两个分布P 和 Q ，当且仅当 ϕ P = ϕ Q 时， P = Q。与密度函数不同，特征函数总是存在的，并且是一致连续和有界的： | ϕ P ( t ) | ≤ 1 。平方特征函数距离（CFD）[8 ，016 ] 两个分布 P 和 Q之间的距离由它们的特征函数的加权积分平方误差给出0其中 ω ( t ; η ) 是一个加权函数，我们假设它由 η参数化，并选择使得方程（ 2 ）中的积分收敛。当 ω ( t ;η ) 是分布在 R d 上的概率密度函数时，方程（ 2）中的积分可以写成期望形式：0CFD 2 ω(P, Q) = Et � ω(t; η) ∑ |ϕP(t) - ϕQ(t)|^2. (3)0类似于信号处理中的傅里叶分析，方程（3）可以解释为从ω(t;η)中采样的频率处两个信号的傅里叶变换之间的期望差异。如果supp(ω) =Rd，根据特征函数的唯一性定理，可以证明CFD ω(P, Q) = 0 �� P = Q[35]。在实践中，可以使用经验特征函数和从加权分布ω(t;η)中获得的有限样本来近似计算CFD。具体而言，对于a ∈ Rd，退化分布δa的特征函数为0由e i �t, a�给出，其中t ∈Rd。给定来自概率分布P的观测值X := {x1, ...,xn}，经验分布是具有相等权重的退化分布的混合，相应的经验特征函数ˆϕP是退化分布的特征函数的加权和：0ˆϕP(t) = 10n0j = 1 e i �t, xj�. (4)0设X := {x1, ..., xn}和Y := {y1, ...,ym}是来自分布P和Q的样本，其中xi, yi ∈ Rd，并且t1, ...,tk是从ω(t;η)中采样的样本。我们定义P和Q之间的经验特征函数距离（ECFD）为0ECFD 2 ω(P, Q) = 10k0i = 1 |ˆϕP(ti) - ˆϕQ(ti)|^2, (5)0.50.60.70.80.91.0̸−3−2−10123µPj ̸= µQj−3−2−10123µPi = µQi−3−2−101230.000.010.020.000.02−3−2−101230.00.10.20.30.40.5748000 200 400 600 800 1000 维度0测试功率0P ≠ Q0ECFDECFD-SmoothOECFDOECFD-Smooth0图1：（左）基于ECFD的测试功率随维度数量的变化；（右）优化后的加权分布尺度变化。0其中ˆϕP和ˆϕQ分别是使用X和Y计算得到的经验CFs。与CFD（方程2）相关的量已在[30]和[16]中进行了研究，其中最小化稳定分布的分析和经验特征函数之间的差异用于参数估计。CFD非常适用于此应用，因为稳定分布不具有密度函数，使得最大似然估计困难。参数拟合也已经在其他模型中进行了探索，例如高斯混合模型、稳定ARMA过程和仿射跳跃扩散模型[36]。最近，[8]提出了基于ECFD的快速（O(n)样本数量）两样本测试，以及ECFD的平滑版本，其中特征函数与解析核进行卷积。作者通过实验证明，与二次时间测试相比，ECFD及其平滑变体在测试功率/运行时间权衡方面具有更好的性能，并且比MMD的次二次时间变体具有更好的测试功率。03.1. 优化的ECFD用于两样本测试0选择ω(t;η)对于ECFD成功区分两个不同分布非常重要；选择适当的分布和/或参数η可以更好地覆盖P和Q之间差异所在的频率。例如，如果差异集中在远离原点的频率上，并且ω(t;η)是高斯分布，则通过适当增大ω(t;η)的每个坐标的方差可以提高测试功率。为了增加ECFD的功率，我们建议优化加权分布ω(t;η)的参数η（例如，与正态分布相关的方差），以最大化测试的功率。但是，需要注意的是0在指定函数类ω(∙;η)的丰富程度时，优化哪些参数以及相关的约束条件非常重要。过度优化可能导致测试专注于仅仅由于采样波动而产生的差异。举个极端的例子，我们发现直接优化t（而不是优化加权分布）会严重降低测试正确接受零假设P = Q的能力。0为了验证我们的方法，我们进行了一个基本实验，使用了类似于[8]的高维高斯分布。具体来说，我们使用了两个多元高斯分布P和Q，除了一个维度外，它们在所有维度上的均值相同。随着维度的增加，从这两个分布中抽取的样本越来越难以区分。在我们的测试中，权重分布ω(t;η)被选择为高斯分布N(0,diag(σ^2))，从P和Q中各取10000个样本，频率数量(k)设置为3。我们使用Adam优化器对参数向量η ={σ}进行了100次迭代的ECFD最大化，批量大小为1000。0图1a显示了测试功率（即零假设P =Q被拒绝的次数的比例）随维度数量的变化。OEFCD表示优化的ECFD，而“Smooth”后缀表示由[8]提出的平滑ECFD变体。我们可以看到，优化η增加了ECFD和ECFD-Smooth的功率，特别是在较高维度上。优化的平滑和非平滑ECFD变体之间似乎没有显著差异。此外，优化改善了测试的能力，能够正确区分两个不同的分布，但在分布相同时接受零假设的能力没有受到影响（见附录C）。̸infθ∈Θ supψ∈ΨCFD2ω(Pfφ(X), Pfφ(gθ(Z))),(6)74810为了研究σ如何适应，我们在数据集中可视化了两个维度{i，j}，其中µPi = µQi，µPj ≠µQj。图1b显示了P和Q的ECF之间的绝对差异，同时在两个维度上绘制了权重分布的相应维度。实线蓝线显示了优化分布（对于OECFD），而虚线橙线显示了初始分布（即ECFD和ECFD-Smooth的σ =1）。在分布相同的维度中，σ与初始值的偏差很小。然而，在分布不同的维度中，方差的增加更加明显，以弥补ECFs之间的差异从原点扩散。04. 使用CFD进行隐式生成建模0在本节中，我们将注意力转向应用（优化的）CFD来学习IGM，特别是GAN。与标准GAN一样，我们的模型由一个生成器gθ：Z→X和一个评论家fφ：X→Rm组成，其中θ和φ是参数向量，数据/潜在空间X�Rd和Z�Rp。下面，我们用Θ，Φ，Π表示参数θ、φ、η所在的空间。生成器最小化真实数据和生成数据之间的经验CFD。我们不是最小化原始高维数据的特征函数之间的距离，而是使用评论家神经网络fφ，在学习的低维空间中最大化真实数据和生成数据分布之间的CFD。这导致了IGM的以下极小极大目标：0其中ψ ={φ，η}（对应的参数空间Ψ），如果我们选择不优化权重分布，则省略对η的优化。在我们的实验中，我们设置η ={σ}，其中σ表示ω的每个维度的尺度。由于评估CFD需要对数据分布有所了解，实际上，我们优化经验估计ECFD 2ω而不是CFD 2ω。因此，我们将这个模型称为特征函数生成对抗网络（CF-GAN）。04.1. CFD属性：连续性、可微性和弱拓扑0与最近提出的Wasserstein [3]和MMD [21]GAN类似，CFD具有良好的数学性质。具体而言，CFD在生成器参数的几乎所有地方都是连续和可微的（定理1）。此外，由于它在弱拓扑中是连续的（定理2），它可以为生成器gθ提供比其他“距离”更具信息性的训练信号。0缺乏这个性质（例如，Jensen-Shannon散度）。在下面，我们在与[ 3]类似的假设下为上述声明提供证明。以下定理正式陈述了在θ几乎处处连续和可微的结果，这对于允许通过梯度下降进行训练是可取的。0定理1. 假设（i）f φ ◦ g θ相对于( θ, z)是局部Lipschitz的，其中常数L ( θ, z)不依赖于φ并且满足E z [ L ( θ, z )] < ∞ ；（ii）sup η ∈Π E ω ( t ; η ) [ ∥ t ∥ ] < ∞ 。那么，函数sup ψ ∈ ΨCFD 2 ω ( P f φ ( X ) , P f φ ( g θ ( Z )) )在θ ∈Θ的任何地方都是连续的，并且在θ ∈Θ的几乎所有地方都是可微的。0以下定理在弱拓扑中建立了连续性，并涉及一般收敛分布，而不仅仅是对应于g θ ( z )的分布。在这个结果中，我们让P( φ )是当x � P时f φ ( x )的分布，类似地，P ( φ )n也是如此。0定理2. 假设（i）f φ对于某个L f 是Lipschitz的，不依赖于φ；（ii）supη ∈ Π E ω ( t ) [ ∥ t ∥ ] < ∞ 。0然后，函数sup ψ ∈ Ψ CFD 2 ω ( P ( φ ) n , P ( φ ) )在连续性方面是连续的。0在弱拓扑中是连续的，即如果P n D −→ P，则sup ψ ∈ ΨCFD 2 ω ( P ( φ ) n , P ( φ ) ) → 0，其中D−→表示分布收敛。0证明在附录中给出。简而言之，我们使用几何论证来限制特征函数之间的差异；我们将eia解释为圆上的一个向量，并注意到| e ia − e ib | ≤ | a −b |。然后，我们使用x，x′的Lipschitz函数的期望和分布的平均值来上界函数值的差异。Lipschitz性质确保当一个分布收敛到另一个分布时，函数差异消失。许多生成器满足局部Lipschitz假设，例如，当g θ是具有ReLU激活的前馈网络时。为了确保fφ是Lipschitz的，先前工作中使用的常见方法包括权重剪辑[3 ]和梯度惩罚[ 14 ]。此外，许多常见的分布满足E ω ( t ) [∥ t ∥ ] < ∞，例如，高斯分布、学生-t分布和具有固定σ的拉普拉斯分布。当σ是无界且优化时，我们通过 ∥ σ ∥对CFD进行归一化，这样可以防止σ趋于无穷大。关于连续性结果中Lipschitz假设的必要性的示例（尽管使用了不同的度量）可以在[ 1]的示例1中找到。在附录中，我们讨论了定理2可以被加强为“当且仅当”语句的条件。04.2. 与MMD和先前工作的关系0CFD与最大均值差异(MMD) [ 13 ]有关。给定两个分布P和MMD2k(P, Q) = E [κ(x, x′)] + E [κ(y, y′)] − 2E [κ(x, y)](7)74820Q，平方MMD由下式给出0其中x, x ′ � P 且 y, y ′ � Q是独立样本，κ是核函数。当CFD的加权分布等于MMD中核函数的逆傅里叶变换（即 ω ( t ) = F − 1 { κ }）时，CFD和平方MMD是等价的：CFD 2 ω ( P , Q ) =MMD 2 κ ( P , Q )。确实，具有supp( F − 1 ( κ )) = Rd的核函数被称为特征核函数[ 35 ]，当supp( ω ) = Rd时，如果且仅如果P = Q，则MMD κ ( P , Q ) =0。尽管在上述条件下形式上等价，但我们发现实验上优化MMD和CFD的经验估计会导致不同的收敛特性和模型性能，适用于一系列数据集。此外，与MMD相比，CFD在近似计算时需要二次时间复杂度，而CFD需要O ( nk)的时间，因此在k �n时具有计算吸引力。通过最小化真实样本和生成样本之间的MMD来学习生成模型是由[ 23 ]和[ 10]独立提出的。生成矩匹配网络(GMMN) [ 23]首先使用自动编码器将数据转换为潜在空间，然后训练一个生成网络来产生与真实潜在分布匹配的潜在向量。MMD-GAN [ 21 ]使用一个网络fφ进行类似的输入转换，该网络通过对抗训练来最大化真实分布P X和生成器分布Qθ之间的MMD；这导致了一个类似GAN的极小极大准则。最近的工作[ 5 ]和[ 1]提出了在MMD-GAN批评家的梯度上的不同理论动机的正则化器，从而改善了训练效果。在我们的实验中，我们将与MMD-GAN进行比较，包括有和没有梯度正则化的情况。最近的工作[ 22](IKL-GAN)评估了在傅里叶空间参数化的核函数，然后用于在MMD-GAN中计算MMD。与IKL-GAN相比，我们通过特征函数而不是通过MMD推导出CF-GAN，我们的方法不需要核函数评估。我们还提供了关于优化CFD的理论性质的新的直接证明，这些证明不是基于其与MMD的等价性。IKL-GAN利用神经网络来采样随机频率，而我们使用一个更简单的固定分布和一个学习的尺度，从而减少了需要调整的超参数的数量。我们的方法提供了最先进的性能，这表明IKL-GAN中更复杂的设置可能不需要用于有效的GAN训练。同时，已经进行了大量的工作来通过架构和优化改进GAN的训练[27 , 7 , 18]；这些研究方向与我们的工作是正交的，并且可以纳入我们提出的模型中。05. 实验0在本节中，我们将展示对我们提出的CF-GAN模型的不同变体进行比较的实证结果。当参数σ与评论家一起优化时，我们将模型名称前缀为O，并在σ保持固定时省略它。类似地，当使用梯度惩罚[14]来强制fφ的Lipschitz性时，我们将模型名称后缀为GP。在没有梯度惩罚的情况下，我们将fφ的权重剪辑在[-0.01,0.01]之间。当参数σ被优化时，我们通过∥σ∥对ECFD进行缩放，以防止σ趋于无穷大，从而确保Eω(t)[∥t∥]<∞。我们将我们提出的模型与两个MMD-GAN的变体进行比较：（i）MMD-GAN[21]，它使用MMD和混合RBF核作为距离度量；（ii）MMD-GAN-GP L2[5]，它引入了基于MMD的IPM见证函数的附加梯度惩罚，鉴别器激活的L2惩罚，并使用混合RQ核。我们还与WGAN[3]和WGAN-GP [14]进行比较，因为它们与MMD-GAN[21, 5]有密切关系。我们的代码可以在网上找到。0https://github.com/crslab/OCFGAN。05.1. 合成数据0我们首先在两个合成的一维分布上测试了这些方法：一个简单的单峰分布（D1）和一个更复杂的双峰分布（D2）。这些分布是通过将z�N(0,1)使用函数h:R→R进行变换构建的。对于单峰数据集，我们使用了[37]中使用的尺度平移函数形式，其中h(z)=µ+σz。对于双峰数据集，我们使用了planarflow[32]中使用的函数形式，其中h(z)=αz+βtanh(γαz)。我们训练了各种GAN模型来逼近变换样本的分布。训练完成后，我们将GAN学习到的变换函数ˆh与真实函数h进行比较。我们计算平均绝对误差（MAE）(Ez[|h(z)−ˆh(z)|])来评估模型。有关实验设置的更多详细信息请参见附录B.1。图2a和2b显示了MAE随训练迭代次数的变化。对于这两个数据集，具有梯度惩罚的模型收敛到更好的极小值。在D1中，MMD-GAN-GP和OCF-GAN-GP收敛到相同的MAE值，但MMD-GAN-GP收敛速度更快。在我们的实验中，我们观察到权重分布的尺度（初始化为1）在MAE开始减小之前迅速下降。对于尺度固定为0.1（CF-GAN-GPσ=0.1）和1（CF-GAN-GPσ=1）的实验，两个模型收敛到相同的MAE，但CF-GAN-GP σ=1收敛所需时间比CF-GAN-GPσ=0.1长得多。这表明尺度参数的优化可以加快收敛速度。对于更复杂的数据集D2，MMD-GAN-GP收敛所需时间显著长于WGAN-GP和OCF-GAN-GP。OCF-GAN-GP收敛最快且达到更好的极小值。0.000.050.100.150.200.250.300.350.40WGANWGAN-GPλGP=1MMD-GANMMD-GAN-GPCF-GAN-GP(T )σ=0.1CF-GAN-GP(T )σ=1OCF-GAN-GP(T )0.00.10.20.30.40.5WGANWGAN-GPMMD-GANMMD-GAN-GPOCF-GAN(N)OCF-GAN-GP(N)shows the FID and KID values achieved by different mod-els for CIFAR10, STL10, and CelebA datasets. In short,our model outperforms both variants of WGAN and MMD-GAN by a signiﬁcant margin. OCF-GAN, using just oneweighting function, outperforms both MMD-GANs that usea mixture of 5 different kernels.We observe that the optimization of the scale parameterimproves the performance of the models for both weightingdistributions, and the introduction of gradient penalty as ameans to ensure Lipschitzness of fφ results in a signiﬁcantimprovement in the score values for all models. This is inline with the results of [14] and [5]. Overall, amongst theCF-GAN variants, OCF-GAN-GP with Gaussian weightingperforms the best for all datasets.The two-dimensional precision-recall scores in Fig. 3748300 2000 4000 6000 8000 10000 生成器迭代次数0平均绝对误差（MAE）00 2500 5000 7500 10000 12500 15000 17500 20000生成器迭代次数0平均绝对误差（MAE）0图2：合成数据集D1（左）和D2（右）的MAE随生成器迭代次数的变化。这些图是在10次随机运行中平均得到的。0接下来是WGAN-GP。05.2. 图像生成0最近对GAN进行了大规模分析[26]，结果表明在充足的计算预算下，不同的模型可以达到类似的最佳性能，并提倡在实际环境下比较不同分布。因此，我们在固定的计算预算下比较了不同初始化的模型所达到的分数。我们使用了四个数据集：1）MNIST[20]：包含60K个手写数字的灰度图像；2）CIFAR10[19]：包含50K个RGB图像；3）CelebA[24]：包含约200K个名人脸部的RGB图像；4）STL10[9]：包含100K个RGB图像。对于所有数据集，我们将图像进行中心裁剪和缩放为32×32。0网络和超参数详细信息考虑到我们的计算预算和实验设置，我们对所有模型使用了类似DCGAN的生成器gθ和评论家fφ架构（类似于[21]）。对于MMD-GAN，我们使用了五个不同尺度的RBF核（5-RBF）的混合[21]。MMD-GAN-GPL2使用了一组有理二次核（5-RQ）的混合。核参数和梯度和L2惩罚的权衡参数根据[5]进行设置。我们使用两种加权分布（高斯分布和学生t分布，自由度为2）测试了CF-GAN的变体。对于CF-GAN，我们在集合{0.2，0.5，1}中测试了3个尺度参数，并报告最佳结果。计算ECFD的频率数（k）设置为8。请参阅附录B.2获取实现细节。0评估指标我们使用三个评估指标来比较不同的模型：Fréchet InceptionDistance（FID）[34]，Kernel InceptionDistance（KID）[5]和生成模型的精确度-召回率（PR）[33]。关于这些指标和评估过程的详细信息可以在附录B.2中找到。简而言之，FID计算两个多元高斯分布之间的Fréchet距离，而KID计算真实数据分布和生成数据分布之间的MMD（使用多项式核，阶数为3）。PR是一个二维得分，将生成样本的质量与数据分布的覆盖度分离开来。PR由一对F8（召回率）和F1/8（精确度）组成，分别表示覆盖度和样本质量[33]。0FID和KID分别给出了CIFAR10、STL10和CelebA数据集上不同模型的得分。简而言之，我们的模型在性能上明显优于WGAN和MMD-GAN的两个变体。只使用一个加权函数的OCF-GAN在性能上优于使用5个不同核的MMD-GAN。我们观察到优化尺度参数可以改善两种加权分布的模型性能，并且引入梯度惩罚作为确保fφ的Lipschitz性的手段，可以显著提高所有模型的得分值。这与[14]和[5]的结果一致。总体而言，在CF-GAN的变体中，使用高斯加权的OCF-GAN-GP在所有数据集上表现最好。图3中的二维精确度-召回率得分0结果在下面，我们总结了我们的主要发现，并将详细信息放在附录中。表10提供了对不同模型性能的进一步洞察。在所有数据集中，相比于权重剪裁（OCF-GAN），梯度惩罚（OCF-GAN-GP）的添加对召回率的改进更大。这个结果支持最近的观点，即权重剪裁迫使生成器学习更简单的函数，而梯度惩罚更加灵活[14]。引入梯度惩罚后，CIFAR10和STL10数据集的召回率改进更为明显，而CelebA数据集的改进相对较小。这个结果是直观的；CelebA数据集相比于CIFAR10/STL10数据集更加均匀和简单，后者包含更多类别的图像。0.780.800.820.840.860.880.900.920.94WGANWGAN-GPMMD-GANMMD-GAN-GPL2OCF-GAN-TOCF-GAN-GP-N0.860.880.900.920.940.960.981.00WGANWGAN-GPMMD-GANMMD-GAN-GPL2OCF-GAN-TOCF-GAN-GP-N0.880.900.920.940.960.981.00WGANWGAN-GPMMD-GANMMD-GAN-GPL2OCF-GAN-TOCF-GAN-GP-N748400.70 0.75 0.80 0.85 0.90 F8（召回率）0F1/8（精确度）0CIFAR1000.700 0.725 0.750 0.775 0.800 0.825F8（召回率）0STL1000.90 0.92 0.94 0.96 0.98 1.00 F8（召回率）0F1/8（精确度）0CelebA0图3：CIFAR10（左）、STL10（中）和CelebA（右）数据集的精确度-召回率得分（得分越高越好）。0可能具有更复杂且相距较远的模式。关于MNIST数据集的结果，所有模型都取得了良好的得分值，详见附录C，其中还包括使用平滑版本的ECFD和优化的平滑版本的进一步实验（在图像数据集上未改善）。0定性结果除了上述定量指标外，我们还对生成的样本进行了定性分析。图4展示了OCF-GAN-GP生成的不同数据集的图像样本。我们还在128×128缩放版本的CelebA数据集上使用了深度ResNet模型测试了我们的方法。通过这个模型生成的样本（图5）表明，OCF-GAN-GP可以扩展到更大的图像和网络，并且能够生成与使用类似大小的网络的最先进方法相媲美的视觉吸引力的图像。附录C中还可以找到其他定性比较。0加权分布的影响加权分布的选择并没有对模型的性能产生重大影响。当使用权重剪辑时，T分布的性能最好，而在梯度惩罚的情况下，N分布的性能最好。这表明，分布的适当选择取决于数据集和使用的Lipschitz正则化方法，但整体框架对合理的选择是稳健的。我们还进行了初步实验，使用均匀（U）分布加权方案。尽管均匀分布不满足条件supp(U)=Rm，但我们发现这不会对性能产生不利影响（见附录C）。均匀加权分布对应于MMD中的sinc核，已知是一种非特征核[35]。我们的结果表明，当用于MMD-GAN时，这样的核仍然有效，但我们没有进行实验验证。0图4：OCF-GAN-GP生成的不同数据集（从上到下：CIFAR10、STL10和MNIST）的图像样本（随机样本，无选择）。0随机频率数量的影响我们进行了一项实验，研究了从加权分布中随机采样的频率数量（k）对计算ECFD的影响。我们使用了表现最佳的模型（OCF-GAN-GP），并使用了集合{1,4, 8, 16, 32,64}中的不同k值运行。该实验的FID和KID得分如表2所示。如预期的那样，随着k的增加，得分值会提高。然而，即使对于10.44 (0.03)5 (1)40.39 (0.05)4 (1)80.36 (0.03)4 (1)160.35 (0.02)3 (1)320.35 (0.03)3 (1)640.36 (0.07)4 (1)74850表1：在CIFAR10、STL10和CelebA数据集上进行5次随机运行的FID和KID（×103）得分（较低为更好）（标准差在括号中）。0模型核/ CIFAR10 STL10 CelebA0权重 FID KID FID KID FID KID0WGAN – 44.11 (1.16) 25 (1) 38.61 (0.43) 23 (1) 17.85 (0.69) 12 (1) WGAN-GP – 35.91 (0.30) 19 (1)27.85 (0.81) 15 (1) 10.03 (0.37) 6 (1) MMD-GAN 5-RBF 41.28 (0.54) 23 (1) 35.76 (0.54) 21 (1)18.48 (1.60) 12 (1) MMD-GAN-GP L 2 5-RQ 38.88 (1.35) 21 (1) 31.67 (0.94) 17 (1) 13.22 (1.30) 8(1)0CF-GAN N (σ=0.5) 39.81 (0.93) 23 (1) 33.54 (1.11) 19 (1) 13.71 (0.50) 9 (1) T (σ=1) 41.41 (0.64) 22(1) 35.64 (0.44) 20 (1) 16.92 (1.29) 11 (1)0OCF-GAN N 38.47 (1.00) 20 (1) 32.51 (0.87) 19 (1) 14.91 (0.83) 9 (1) T 37.96 (0.74) 20 (1) 31.03(0.82) 17 (1) 13.73 (0.56) 8 (1)0OCF-GAN-GP N 33.08 (0.26) 17 (1) 26.16 (0.64) 14 (1) 9.39 (0.25) 5 (1) T 34.33 (0.77) 18 (1) 26.86(0.38) 15 (1) 9.61 (0.39) 6 (1)0表2：在MNIST数据集上使用不同频率数量的OCF-GAN-GP的FID和KID得分。0频率数量（k）FID KID × 10 30图5：OCF-GAN-GP使用ResNet生成器生成的128×128CelebA数据集的图像样本（随机样本，无选择）。0当频率的数量尽可能低（k = 1）时，性能不会严重下降。06. 讨论和结论0在本文中，我们提出了一种新颖的用于训练IGMs的特征函数之间的加权距离，并且证明了所提出的度量具有吸引人的理论性质。我们通过实验证明，所提出的模型在四个基准图像数据集上优于MMD-GAN和WGAN变体。我们的结果表明，特征函数为训练IGMs提供了一种有效的替代方法。这项工作为未来的研究开辟了额外的途径。例如，用于训练的经验CFD可能导致高方差的梯度估计（特别是在采样频率较少的情况下），然而，在我们的测试中，CFD训练的模型在收敛性方面取得了高性能得分。这个原因应该更加深入地探讨。虽然我们使用了WGAN-GP提出的梯度惩罚方法，但没有理由将梯度限制为精确的1。我们相信，对所提出的损失函数的几何性质的探索可能会改进所提出方法的梯度正则化器。除了生成建模，MMD等两个样本测试方法已经被用于领域适应[25]和领域分离[6]等问题。本文提出的优化CFD损失函数可以作为这些问题的替代损失函数。0致谢本研究得到新加坡国家研究基金会在其AI新加坡计划（奖项编号：AISG-RP-2019-011）下对H. Soh的支持。J.Scarlett得到新加坡国家研究基金会（NRF）的支持，资助号码为R-252-000-A74-281。[28] Youssef Mroueh, Chun-Liang Li, Tom Sercu, Anant Raj, andYu Cheng. Sobolev GAN. arXiv:1711.04894, 2017. 274860参考文献0[1] Michael Arbel，Dougal Sutherland，MikołajBi´nkowski和Arthur Gretton. 关于MMDGAN的梯度正则化器。在NeurIPS，2018年。1，2，4，50[2] Mart´ın Arjovsky和L´eon Bottou.朝着训练生成对抗网络的原则方法。arXiv：1701.04862，2017年。10[3] Mart´ın Arjovsky，Soumith Chintala和L´eon Bottou.Wasserstein生成对抗网络。在ICML，2017年。1，2，4，50[4] Marc G. Bellemare，Ivo Danihelka，Will Dabney，ShakirMohamed，Balaji Lakshminarayanan，Stephan Hoyer和R´emi Munos.Cramer距离作为解决偏向Wasserstein梯度的方法。arXiv：1705.10743，2017年。20[5] Mikolaj Binkowski，Dougal J. Sutherland，MichaelArbel和Arthur Gretton. 揭秘MMDGANs。在ICLR，2018年。1，2，5，60[6] Konstantinos Bousmalis，George Trigeorgis，NathanSilberman，Dilip Krishnan和Dumitru Erhan.领域分离网络。在NIPS，2016年。80[7] Andrew Brock，Jeff Donahue和Karen Simonyan.用于高保真度自然图像合成的大规模GAN训练。arXi

下载后可阅读完整内容，剩余1页未读，立即下载