切片Wasserstein生成模型的近似方法

150 浏览量更新于2023-10-18 收藏 2.3MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

3713切片Wasserstein生成模型吴继清1黄志武 *1Dinesh Acharya1李雯1Janine Thoma1Danda Pani Paudel1Luc Van Gool1， 21计算机视觉实验室，瑞士苏黎世联邦理工学院2VISICS，比利时鲁汶大学{jwu，zhiwu.huang，liwen，jthoma，paudel，vangool}@ vision.ee.ethz.ch*同等贡献摘要在生成式建模中，Wasserstein距离（WD）已成为衡量生成数据分布与真实数据分布之间差异的有用度量。不幸的是，它是具有挑战性的近似的WD的高维分布。相比之下，切片Wasserstein距离（SWD）将高维分布分解为多个一维边缘分布，因此更容易近似。在本文中，我们介绍了新的近似的原始和双重SWD。与传统的SWD近似方法不同，我们不使用大量的随机投影，而是提出以端到端的深度学习方式用少量的参数化正交投影来近似SWD作为SWD近似的具体应用，我们设计了两种可微SWD块来装备现代生成框架--自动编码器（AE）和生成对抗网络（GAN）。在实验中，我们不仅展示了所提出的生成模型在标准图像合成基准上的优越性，而且还展示了以无监督方式生成具有挑战性的高分辨率图像和视频的最新性能。1. 介绍Wasserstein距离（WD）是一个重要的度量，最初应用于最优运输问题2[33]。最近，[3，11，30，36，31，23，1，2]发现了WD在生成模型中的优势，并实现了图像合成的最新性能。然而，WD有一些缺点。例如，它的原始形式对于高维概率分布通常是难以处理的，尽管一些工作[31，10，30]已经提出了1代码：https://github.com/musikisomorphie/swd.git2最优运输解决的问题是找到一个最优的计划，以最小的成本将源分布转移到目标分布。原始形式的放松版本。WD的对偶形式可以更容易地导出，但仍然难以近似其k-Lipschitz约束[36，37]。考虑到WD的弱点，切片Wasserstein距离（SWD）表明自己是一个潜在的替代方案。SWD将高维分布分解为多个一维边缘分布，因此可以更容易地近似，如[5，21，19，9]中所研究的。然而，由于在现有的方法中的效率低下的近似SWD，其潜力的生成式建模尚未得到充分发掘。在本文中，我们解决这个问题。我们的贡献可归纳如下：• 依靠我们的新的原始SWD近似，我们提出了切片Wasserstein自动编码器（SWAE）模型。通过无缝地堆叠提议的原始SWD块（层）在标准编码器的顶部，我们给传统的AE生成功能。最先进的基于AE的生成模型通常需要额外的正则化器来实现相同的效果。• 基于我们新的对偶 SWD 近似，我们引入了Wasserstein生成广告网络（SWGAN）的切片版本，两个社会福利署的大楼连接在一起。据我们所知，这是第一个工作，研究双SWD及其应用到生成模型。• 为了满足所建议的SWD块的投影矩阵所需的正交约束，我们采用-在Stiefel流形上应用非欧优化算法来更新投影矩阵。• 在标准图像合成基准测试中，我们证明了模型无监督高分辨率图像和视频合成的挑战性任务这些评估证实了我们的模型在非平凡情况下的优势。3714X2. 背景2.1. Wasserstein距离相关模型原始Wasserstein距离（WD）由下式给出：相对于几个输入样本的梯度的范数。然后将该梯度惩罚添加到基本WGAN损失（即，WD的双重形式）导致以下完整目标：p1Wp（PX，PY）=infE（X，Y）<$γ[d（X，Y）]p，（1）最小最大E[D（X）]−E[D（G（Z））]+γ∈φ（PX，PY）其中X，Y是随机变量，γ（PX，PY）表示所有联合分布γ（X，Y）的集合，其边际分布G D XPXλEXλPXPG[（<$$> < $ D（X<$）<$2−1）2]，（四）b分别是PX，PY，d是度量，并且p >0。对于p= 1，WD的Kantorovich其中，G、D表示生成器，并且Z分别表示零值，Z是随机噪声，X是随机样本。W1（PX，PY）=supf∈Lip1EXPX [f（X）]−EY<$PY[f（Y）]，（二）在从PX和PG采样的点对之间沿直线均匀采样的分布P X <$，并且<$X<$D（X<$）是关于X<$的梯度。作为其中Lip1是所有1-Lipschitz函数的集合。双当k > 0时，如果我们用Lip k代替Lip 1，则WD变为k·W1. 原始WD的原始形式（Eq.1）一般在-听话的然而，对于自动编码器（AE）的情况，[31]已经证明，在易处理的编码器上优化原始WD等同于在难处理的联合分布γ（X，Y）上优化它。这个想法产生了Wasserstein自动编码器（WAE）。另一种避免难以处理的原始WD的方法是使用它的对偶形式。通过在Eq.2与神经网络，[3]已经找到了一种自然的方式，将双WD引入GAN框架。WAE和WGAN代表原始和对偶WD在生成模型中的典型应用因此，我们在下文中总结了必要的细节。2.1.1瓦瑟斯坦AE（WAE）[31]提出的WAE优化了原始WD的放松版本。为了在编码器上施加先验分布，向目标引入附加发散D在[36]中研究，有限数量的样本是不够的对高维域施加k-Lipschitz约束。因此，[36]用额外的一致性项（CTGAN）进一步改进了Wasserstein GAN。此外，委员会认为，[26]介绍了一种频谱归一化（SN）技术，该技术还改进了GAN的训练，包括WGAN家族。SNGAN通过归一化每层的权重来施加1-Lipschitz约束。为了加强GAN训练的稳定性并实现高分辨率图像生成，[16]将WGAN-GP应用于渐进增长方案（PG-WGAN）。2.2. 切片Wasserstein距离相关模型切片Wasserstein距离（SWD）的基本思想是将高维分布的具有挑战性的估计分解为多个一维分布的更简单的估计。形式上，设PX，PY为随机变量的概率分布，X，Y。对于单位向量θ∈Sn−1，我们定义相应的内积πθ（x）=θTx和边际分布π<$PX=PX<$π−1。那么原始SWD由下式给出：INFPQ（Z）|X）∈QE XPX E QPQ（Z|X）[c（X，G（Z））]+λD（PQ，PZ），（三）θ θ. ∫SWp（PX，PY）=Σ1pWp（π<$PX，π<$PY）pdθ.其中Z是随机噪声，G是解码器，Q是任何非随机噪声，编码器Q上的边际分布PQ的参数集，θ θSn−1（五）c是欧几里德距离，λ >0是超参数，D是编码器的PQ与Z的先验分布PZ之间的散度。[31]通过使用最大平均差异（MMD）或GAN来实例化D，两者都可以看作是一种分布匹配策略。2.1.2Wasserstein GAN（WGAN）一些作品[5，21，19]利用WD具有一维概率分布之间最优运输计划的封闭形式解更具体地说，设 FX ， FY 是对应于 PX ， PY 的累积分布函数（CDF），则对所有θ∈Sn−1，存在唯一的封闭形式解τθ=（π<$FY）−1<$π<$FX，（6）θ θWGAN的关键挑战是k-Lipschitz约束在Eq. 二、原WGAN [3]采用权值裁剪策略;但它对k-Lipschitz约束的满足较差。为了缓解这个问题，改进后的列车-这样，Eq.5可以通过计算∫W（ππP，π<$P）p= dp（x，τ（x））dπ<$PX3715.（七）Wasserstein GAN（WGAN-GP）[11]惩罚了pθXθYRθθX3716ΘΘΘ ΘΘΘ1nΘ Θ ΘΘ此外，如[6]（第5章）所证明的，SWD不仅是有效距离，而且等价于WD目标n维PDF源n维PDF将n-dim PDF投影到一维边缘PDFSWp（PX，PY）p≤α1Wp（PX，PY）p1≤α2SWp（PX，PY）n+1，（八）（一）正交矩阵其中α1、α2是常数，n是来自X、Y的样本向量的维数。考虑到这些有利的特性，SWD有可能改善现代生成模型，特别是在处理图像和视频等高维分布的样本时。（三）通过比较一维边缘PDF（二）目标一维边缘PDF源一维边缘PDFSWD通常通过使用沿随机方向的投影（随机投影）的求和来近似[28，21，16，9]。例如，[28]迭代地使用大量随机投影来估计样本的SWD，并通过梯度下降来更新样本。类似地，切片 Wasserstein 发电机（SWG）[9]通过SWD损失优化其发电机。这种SWD损失计算由随机投影分解的特征图的边缘分布之间的差异。不幸的是，这些方法需要大量的随机预测，还没有完全释放出社会福利署的潜力。3. 该方法与一组随机向量（投影）相比，一组正交投影更有效地跨越整个空间。此外，神经网络已被证明具有强大的泛化能力。因此，我们建议在深度学习中用一小组参数化正交矩阵来近似原始和对偶SWD。图1.我们的原始和对偶SWD近似的插图(1)- （2）：通过沿着正交单位向量（或正交矩阵）投影样本，我们将n维目标和源概率分布函数（PDF）分解成它们的一维边缘PDF。(2)- （3）：我们通过比较它们的边缘PDF来匹配n维PDF。对于原始SWD近似，这是通过源到目标分布的迭代变换隐式地完成的。对于对偶近似，明确地计算对偶SWD。当m→ ∞时，收敛性成立.为了减少计算块的数量（等式10），9）IDT要求，我们建议参数化正交矩阵并学习以一种端到端的深度学习的方式。因此，少量的这种参数化计算块足以近似原始SWD。3.2.双SWD近似由于SWD的被积函数（等式5）只不过是一维WD，其Kantorovich的对偶可以无缝地应用，并且Eq. 5可以改写为离子。在下文中，我们给出了我们的原始和对偶SWD近似的详细描述。稍后，我们将介绍∫。supΣEXθ<$π<$PX [f（Xθ）]− EYθ <$π<$PY [f（Yθ）]dθ。两个生成的建模应用程序的所得SWD块切片Wasserstein AE（SWAE）和切片Wasser-Sn−1θf∈Lipkθ（十）斯坦甘（SWGAN）。3.1. 原始SWD近似给定i∈N，在目标分布PY的指导下，我们定义第i个计算块，它将输入分布PXi转换为PXi+1，如下所示Qi（x）=Oii（（Oi）Tx），（9）其中x是来自PXi，0i=[θi，. . . ，θi] ∈Rn×n 是随机正交矩阵，并且类似于原始SWD近似，我们建议使用正交矩阵来估计Sn−1上的积分。这些正交矩阵也在深度学习的背景下被参数化和学习因此，使用适当数量的正交矩阵就足以实现良好的估计。所提出的SWD近似概念性地示出在图中。1.一、3.3. 切片Wasserstein AE（SWAE）由于基于AE的生成模型需要在编码器上施加先验分布，因此很自然地使Eq. 9（τ i，τ i，. . . ，τ i）（等式6）是最优运输地图，θ1θ2θn相对于由Oi投影的PXi，PY的边际分布。堆叠m个计算块Qm个。. . 迭代分布转移（IDT）方法[27]中的结果是<$Q 2 <$Q 1。如[6]中所研究的，设目标分布PY为高斯分布，则PXm相对于原始SWD收敛到PY[3]在这里，我们采用了[ 6 ]中的“等价”的用法可学习并将其纳入编码器。通过堆叠我们的原始的SWD块（层）在标准编码器的顶部，我们给传统的自动编码器的生成能力换句话说，我们可以隐式地匹配编码器和先验分布，而无需引入额外的正则化器，如等式中所要求的D。3 .第三章。具体地，我们的编码器Q是标准编码网络E和m个原始SWD块Sp，1，. . . ，3717Sp，m，即Q = Sp，m≠. . . Sp，13718j{yi、jj{zi、j我2j=1ZBx z2我我算法1所提出的原始SWD块要求：正交矩阵OΘ= [θ1，. . .，θr] ∈R r×r，批隐码My= [y1，. . .，yb] ∈R r×b，批高斯噪声Mz=[z1，. . . ，zb]∈ R r×b，仓数l输出：一批传送的潜在代码My=[y=1，. . . ，yb]写成经验分布函数（EDF）[8]，我们得到以下Alg的误差估计。一曰：定理1. 给定b∈N，设Z1，Z2，. . .，Zb是实值同分布的.具有连续CDF F −1的随机变量域[0，1]。然后定义相关EDFF−1（t）=1<$b1。假设F是一个CDFs，对于i← 1，rdoy′=θTMy，z′=θTMzZ，bbi=1{Zi≤t}YYisfyingF−F≤γ，则存在δ>0suc h我我我′Y Y∞"yi−minj{y“}"z′ −minj {z′}.y=i，j，z=i i，j，1imax′i、j}−minj{y′}i最大值i、j}−minj{z′}对于所有ε−δγ≥2bln 2它认为，y′，z′分别是y′，z′的第j个元素i、ji、j我我′′ ′′计算yi，zi的软PDF直方图py“”，pz“"，使用l个箱−1˜−1−2b（ε−δγ）2i iPr<$FZ，bFY（t）−FZ FY（t）<$∞> ε ≤ e.计算py“"，pz”“的CDFFy”“，F z”“我我我′′（十一）通过线性插值逐元素计算Fy′′（yi）y∈i=（max{z′} −min{z′}）（F′′）−1F′′（y′′）+min{z′}J端i、jji，jzi伊伊ji，j对于定理1的证明，请参考我们的《自然》-材料。由于估算EDF很简单，计算My= OΘM T，My=[yT，. . . ，yT]2011年1月算法2所提出的SWAE要求：原始SWD块数量m，批量大小b，解码器G和编码器Q= Sp，m × m。. . 训练步数h，训练超参数等。对于t← 1，h做在一维数据上使用中等数量的SAM-定理1告诉我们，我们的原始SWD块的核心步骤近似于Eq. 6好的由于原始SWD块的隐式SWD近似，因此没有必要在最终目标上引入显式正则化我们提出的SWAE模型的目标是：样本真实数据Mx=[x1，. . . ，xb]从P X样本高斯噪声Mz=[z1，. . . ，zb]从N（0，1）通过降序更新Q和G的权重wINFPQ（Z）|X）∈QEXPX EQPQ（Z|十）、[<$X-G（Q（X，Z））<$2]，（十二）w←亚当（亚当）端w（1Mx -G（Q（M，M））（2），w）其中Q、G分别是编码器和解码器，并且Q被我们的原始SWD块隐含地约束相应的算法在Alg. 二、通过将E的潜在代码输入原始SWD块Sp ，1，. . .，Sp ，m，潜码的分布被转移到先验分布。在本文中，我们选择的先验分布是高斯分布，因为它是经常做的AE为基础的模型。然而，在[6]的支持下，更复杂的先验分布也是可以接受的。我们的原始SWD块的实现细节在Alg中给出。1.一、该算法背后的想法是分解Eq.6分为多个可微计算步骤。然而，传统的直方图计算是不可微的。因此，我们提出了一个软版本的直方图计算，使PDF直方图计算微分。更具体地说，对于元素y，3.4. 切片Wasserstein GAN（SWGAN）WGAN的成功表明，双WD可以作为GAN模型建模的合适目标为了保持这种设置的优点，但为了避免在高维分布上施加k-Lipschitz约束，我们建议使用对偶SWD来代替。具体地，我们引入m个双SWD块Sd ，1，. . .，Sd，m到CXD（参见Alg. （3）第三章。图像数据分布由低维流形支持。出于这个原因，经典的GAN鉴别器将其输入数据编码为低维特征图。我们遵循这个设定。我们的大脑是由我们将权重e−αy−ci2/le−α<$y−cj<$2到编码网络E和双SWD块Sd，s，也就是说第i个仓，其中c1，. . . 、Cl是仓中心。最终我们通过对所有元素y上的每个仓的权重求和来获得直方图。注意，对于α→ ∞，这个软版本返回到原始的不可微版本。在实践中，由于α对生成能力的影响很小，我们根据经验确定α= 1。因此，最初的社会福利署块（Alg. 1）是可区分的，可以用深度学习的方式进行训练。算法的逼近误差。1由其对应于Eq. 六、自从Alg. 1将所有样本向量重新缩放为[0，1]，其CDF的逆函数再次为CDF。加上民防部队可以D=[Sd，1λE，. . . ，Sd，mE]T.最后，我们通过对输出的平均值求和来估计对偶SWD在Sn−1社会福利署大厦Sd，1，. . . ，Sd，m（参见Alg. 4）. 为了近似一维最优f∈Lipk（等式10），10）在我们的SWD模块中，使用非线性神经网络就足够了层。这是由普遍逼近定理[14，12]支持的。对于我们的情况，我们根据经验在Alg中设置Fi3是Fi（y′）=uiLeakyReLU（wiy′+vi），其中ui、vi、wi是标量参数。k-Lipschitz梯度罚函数在高维空间中存在不足.对于一维函数，.Σ3719（j，i=1（j，i=11B1Ot1tOtGBDb算法3所提出的双SWD块要求：正交矩阵OΘ= [θ1，. . .，θr] ∈R r×r和一批隐码My=[y1，. . . ，yb] ∈ R r×b.输出：用于双SWD的y轴批次对于i← 1，rdo计算y′=θTMy将简单的原始SWD损失纳入GAN模型。3.5. SWAE和SWGAN培训为了训练所提出的SWAE和SWGAN模型，我们利用标准Adam优化算法[17]。在整个培训过程中，社会福利署的预测矩阵我我计算y′′=Fi（y′），其中F=（F1，. . .，Fr）块应保持正交。为此，我们首先我我是一维函数，用于近似等式中的f10个。端y′=[y′ ′，. . . ，y′′]T通过QR分解，用随机正交矩阵初始化SWD块的参数，然后更新而不是欧氏空间。建筑算法4所提出的SWGAN要求：双SWD块的数量m，批量大小b，生成器G和SWD=[Sd，1 SWE，. . . ，Sd，m E]T，潜在码尺寸r，Lipschitz常数k，训练步骤h，训练超参数，等对于t← 1，h做样本真实数据M= [x，. . .，x]从P在流形值更新规则[15]的基础上，我们优化了Stiefel流形上的正交矩阵。在第t个训练步骤中，在计算正交矩阵Ot的欧几里得梯度<$L （ k ）之后，我们通过减去Ot （OT<$L（k）+x1bX（L（k））TO）/2（见[7]），其中L（k）是样本高斯噪声Mz =[z1，. . . ，zb]从N（0，1）从均匀分布U [0，1]中采样两个向量μ1，μ2，对于l=1，. . . ，b计算Mx，My的元素：xl=（1−µ1，l）xl+µ1，lG（zl）y=（1−µ2，l）E（xl）+µ2，lE（G（zl））通过降序更新权重wGofGwG ←亚当（wr×m，b Dji（G（Mz），wG）通过降序更新权重wDofDwD← Adam（wr×m，b（Dji（Mx）−Dji（G（Mz））+Ott第k层。为简单起见，我们随后删除索引K. 沿切向搜索产生Stiefel流形的切空间中的更新。最后，通过收缩操作Γ将得到的更新投影回Stiefel流形。因此，Stiefel流形上的当前正交矩阵Ot的更新可以写成以下形式：λ1<$$>MD（Mx<$）<$2+λ2<$$>MF（My<$）−k·1<$2），wD），其中x2y2T计算F元素的梯度。LOt=（Ot）/2，（14）端然而，它可以容易地施加k-Lipschitz约束。因此，我们额外地在Fis的输出的每个维度上应用梯度惩罚。由于具有不同k-Lip约束的对偶WD在标量上彼此等效我们将k，k′作为F，D的可调超参数，并将搜索区间放宽到k，k′≥0，这种放宽可以由[37]证明。因此，最终目标是Ot+1=Γ（Ot−（LOt）），（15）其中，r表示对应于QR分解的收缩操作，并且r（·）表示标准Adam优化。注意，对于r维数据，收缩的复杂度为O（r3），并且是时间的主要贡献者。优化方法的复杂性因此，我们将n维输入数据编码为r维潜码。∫min max.EXP[D（X）]−EΣ[D（G（Z））]+（r n）在应用社署区块之前，我们的方法的训练速度仍然可以与G D θ∈Sn−1XXPG现有的方法（参见Tab.①的人。推理速度不是λ1E<$[λ1E<$D（X<$）−k′<$2]+λ2E<$[F（Y）−k·12]，XPXX2YPYY2（十三）受到收回操作的影响。其中θ嵌入在D中，1是所有元素都为1的向量。我们根据[ 11 ]对X和Y进行采样。λ1、λ2是平衡惩罚项的系数（参见Alg.4）. 为为了计算效率，我们的目标交换了最大值和积分的阶数，与等式2相比。10个。这种交换的结果在一个下限估计方程。10个。这意味着目标可以导致双重社会福利署的收敛讨论除了所提出的SWAE和SWGAN之外，还可以将我们提出的原始和对偶SWD近似应用于其他生成模型。例如，在[25]之后，基于AE的模型可以被en-通过我们的双SWD对抗训练来增强受[30]的启发，可以用我们的原始SWD正则化GAN。此外，通过使用排序算法[20]，37204. 标准训练在讨论了SWD的理论优点及其在生成式建模中的应用之后，我们在标准训练设置下研究了我们提出的模型的实际优势4.1. 玩具数据集在[11]之后，我们首先在三个玩具数据集上进行实验：瑞士卷，8高斯和25高斯（见图2）。为了进行公平的比较，我们尊重[11]中比较方法的实验设置。对于本实验，SWAE和SWGAN仅使用一个SWD块。4紧Stiefel流形St（d，n）定义为St（d，n）={A∈R n×d：A TA = I d}，其中I d是d × d单位矩阵。3721VAE144.7±9.666.8±2.2–0.16s0.64sWAE-MMD109.1±1.559.1±4.9–0.17s0.63sAAE（WAE-GAN）107.7±2.149.3±5.8–0.25s1.61sSwae107.9±5.248.9±4.3–0.16s0.37sWAE AE +100 IDT SWAECT-GAN SWGSWGAN图2.生成样本（绿点）与真实样本（黄点）在Swiss Roll（顶行）、8个高斯（中间行）和25个高斯（底行）上的目视和FID结果对于基于AE的模型，括号中显示的FID分数表示生成的潜在代码和真实噪声之间的差异对于GAN，还绘制了鉴别器的值表面。我们的模型的优越性通过视觉结果和Fre'chet起始距离（FID）[1 3]来说明。社会福利署对世界卫生组织。与基于WD的2表明我们的SWAE在视觉和定量上都优于SWGAN也取得了比CTGAN更好的成绩这些结果支持SWD的优势，WD生成建模。SWAE vs AE + IDT。[27]这是我们的第一步。因此，我们也将其用作基线。为此，我们将IDT块堆叠在常规编码器的顶部。我们通过多次实验确定IDT块的最佳数量为100然后，我们在标准Adam优化下训练IDT增强AE（AE+100 IDT）图中括号内的FID评分2表明，我们的SWAE，只配备了一个SWD块，更好地接近真实的噪声分布比IDT增强AE与100 IDT块。此外，对于所有三个数据集，视觉结果证实SWAE优于AE + 100 IDT。这表明单个可学习原始SWD块比多个原始IDT块更有效。SWGAN vs SWG。我们将我们的SWGAN与最先进的基于SWD的GAN模型SWG进行比较[9]。SWG是沿随机单位向量投影的SWD近似的典型应用。尽管在SWD中使用了10000个随机单位向量，图1.2显示我们的SWGAN只有一个双SWD块（128个正交单位向量），在更好的视觉和更好的FID结果方面，利用沿正交单位向量的可学习投影，在捕获真实数据分布方面更成功。4.2. 标准数据集除了我们的玩具数据集实验，我们还在三个广泛使用的基准上进行了各种实验表1.基于AE和GAN模型的FID（左）和运行时（右）比较运行时间是在TITAN Xp GPU上为一个训练步骤计算的。[22 ][24][25][26][27][29][2 我们来-[18][19][ 1对于GAN模型，我们将SWGAN与DCGAN[29] ， WGAN [3] ， WGAN-GP [11] ， SNGAN [26] ，CTGAN [36]和SWG [9]进行比较。我们提出的SWAE使用[4]建议的解码器架构。对于编码器，我们将原始SWD块堆叠在包含缩小和线性变换层的浅层编码网络上。我们的SWGAN采用了[11]用于生成器的ResNet结构。对于这个例子，我们将我们的双SWD块应用于包含多个ResNet层的请参阅我们的补充材料了解更多的架构细节。至于比较的方法，我们使用官方的实现，如果它是在线提供的，我们应用其作者调优的最佳设置。表1中基于AE的模型的评估。1，图3（右：MTurk偏好评分）和图3。4表明，我们提出的SWAE明显优于纯VAE模型。此外，我们的FID分数仅略高于AAE（WAE-GAN），后者还采用了对抗训练。由于这种对抗性训练，AAE（WAE-GAN）通常不太稳定，而我们的模型提供稳定的训练（见图1）。3（左a）），由于一个简单的l2重建损失没有任何额外的正则化。选项卡. 1和图3（右）突出优势我们的SWGAN模型在FID和MTurk偏好评分方面。根据额外的标签信息，SNGAN在CIFAR-10上获得了17.5的竞争性FID评分，如[26]所报告。同时，我们的SWGAN在没有使用地面真实标签的情况下达到了更低的17.4分。图1B中报告的视觉结果。4与表1中的FID评分一致。1.一、我们认为，SWGAN的良好性能主要来自于所提出的SWD对训练数据的多个一维边缘分布的有效逼近稳定性研究。除了最佳架构比较，我们还研究了各种设置下的模型稳定性：ConvNet和ResNet，带归一化（w/norm）和不带归一化（w/o norm）。如Tab.所示。2，我们提出的模型在FID分数方面不太敏感，这归功于更容易近似CIFAR-10CelebALSUNCIFAR-10CelebADCGAN30.2± 0.952.5± 2.261.7± 2.90.13s1.57sWGAN51.3± 1.537.1± 1.973.3± 2.50.25s2.12swgan-GP19.0± 0.818.0± 0.726.9± 1.10.60s2.40sSNGAN21.5± 1.321.7± 1.531.3± 2.10.21s0.53sCTGAN17.6± 0.715.8± 0.619.5± 1.20.63s2.61sSWG33.7± 1.521.9± 2.067.9± 2.70.22s0.83sSWGAN17.0± 1.013.2± 0.714.9± 1.00.64s2.74s0.04（0.06）0.05（0.06）0.04（0.04）0.010.030.010.07（0.04）0.06（0.06）0.03（0.02）0.030.050.020.05（0.03）0.05（0.06）0.04（0.02）0.020.050.013722人类偏好评分SWAE/VAE0.74/0.26SWAE/WAE-MMD0.55/0.45SWAE/ AAE（WAE-GAN）0.48/0.52SWGAN/WGAN-GP0.61/0.39SWGAN/SNGAN0.66/0.34SWGAN/CTGAN0.56/0.44SWGAN/SWG0.69/0.31PG-SWGAN/PG-WGAN0.55/0.45PG-SWGAN-3D/VGAN0.91/0.09PG-SWGAN-3D/MoCoGAN0.95/0.05PG-SWGAN-3D/PG-WGAN-3D0.54/0.46图3.左：SWAE（顶行）和SWGAN（底行）的训练和超参数研究。右：来自MTurk用户研究的偏好得分，用于CelebA上生成的图像和TrailerFaces上合成的视频。ResNet（w/ norm）WAE-MMD 64.0ResNet（w/onorm）61.8ConvNet（w/norm）55.8ConvNet（w/onorm）67.8AAE（WAE-GAN）62.356.748.366.1Swae63.259.165.248.6CTGAN16.016.519.519.7SWG24.329.122.228.5SWGAN13.014.819.218.8表2. CelebA上各种架构的FID分数。最佳架构是SWG的ConvNet、 WAE-MMD、AAE（WAE-GAN）、CTGAN的ResNet 、 SWGAN 和 SWAE 的无规范化（ w/o norm ）ConvNet。SWD（参见补充材料中的目视结果）。训练和超参数。图3（左b，f）显示了我们的SWAE和SWGAN产生的视觉质量随着训练迭代次数的增加而逐渐增加。此外，使用少量的SWD块-3个原始块和4个双块（图11）。3（左c，g））-足以实现最佳性能。SWGAN中的4个对偶块（4×128个单位向量）与10000个随机单位向量形成对比[9]《易经》云：这证实了我们可学习的SWD块的效率。在另一个实验中，我们研究了Lipschitz常数k，k′对SWGAN的影响和SWAE的bin数l的图3（左d，h）显示SWGAN支持相对较小的k值。k′被确定为0（参见补充材料）。SWAE的最佳箱数为32。通过分析计算复杂度和性能之间的权衡，我们将r维设置为128（Alg.1、3）。我们还确定λ1，λ2（等式13）是20，10使用网格搜索。补充材料中介绍了这两项研究。SWGAN和SWAE的学习率根据经验确定为0。0003。最后，我们将SWGAN的每个训练步骤的迭代次数设置为LSUN和CelebA为4，CIFAR-10为55. 渐进式训练实验在标准基准的视觉质量和稳定性改善的鼓舞下，我们评估了我们提出的模型，用于在[16]建议的渐进训练方式下生成高分辨率图像和视频高分辨率图像生成。对于这项任务，我们使用CelebA-HQ [16] 和 LSUN [38] 数据集，分别包含1024×1024和256×256张图像。为了提高高分辨率图像的生成，[16]引入了一种GAN渐进式增长训练计划（PG-GAN）。PG-GAN使用WGAN-GP损失（PG-WGAN）来实现最先进的高分辨率图像合成。为了公平比较，我们为相同的渐进式增长架构配备了我们提出的SWGAN目标及其双SWD块（PG-SWGAN）。如图3（右）和图。5，我们的PG-SWGAN在CelebA-HQ和LSUN数据集上的定性和定量比较方面都优于PG-WGAN。更高分辨率的视频生成。我们引入了一种新的基线无监督视频合成方法以及一个新的面部表情视频数据集5。该数据集包含大约200，000个各种面部表情的单独剪辑，其中面部以256×256分辨率从YouTube上的大约6，000个好莱坞电影预告片中裁剪出来因此，我们将数据集命名为TrailerFaces。对于渐进视频生成，我们利用一个新的PG-GAN网络设计用于无监督视频生成。我们在时空维度上逐步扩展网络，使其能够从粗到细平滑地产生空间外观和时间运动。图3（右）显示了我们的模型在偏好评分方面优于最先进的方法[34，32有关定性比较，请参阅我们的补充视频。基于所提出的 PG-GAN 设计，我们评估了原始WGAN损耗（PG-WGAN-3D）和我们提出的SWGAN损耗（PG-SWGAN-3D）。图3（右）和图5进行了定性和定量比较。对于FID评估，我们按照[35]计算PG-WGAN-3D和PG-SWGAN-3D的视频FID分数。更高的偏好得分（图）。3（右））和较低的FID评分（图。5 ）我们的 PG-SWGAN-3D 反映了使用我们提出的SWGAN的优势。局限性。对于纯基于AE的生成模型，包括SWAE，扩展到高分辨率图像和视频合成任务是不平凡的。SWAE在生成与SWGAN相当的高质量图像和视频方面仍然面临挑战。我们计划在未来的研究中解决这一性能差距。5基线代码和数据集都将在github.com/musikisomorphie/swd.git上发布3723VAE WAE-MMD AAE（WAE-GAN）SWAECIFAR-10CelebASWG CTGAN WGAN-GPSWGANCIFAR-10CelebALSUN图4.SWAE、SWGAN和比较方法的目视结果补充材料中提供了更多结果PG-WGANPG-SWGANCelebA-HQLSUN7.55.58.48.0PG-WGAN-3DPG-SWGAN-3DTrailerFaces462.6404.1图5.比较方法在更高分辨率图像/视频上的视觉和FID结果补充资料中提供了更多结果6. 结论在本文中，我们介绍了一种新的方法，有效地逼近原始和对偶SWD。作为混凝土应用-复杂性，我们增强了现代AE为基础的和GAN模型与由此产生的原始和双SWD块。对于图像和视频合成，定性和定量的结果表明，我们的模型优于其他方法。3724引用[1] 乔纳斯·阿德勒和塞巴斯蒂安·伦茨巴拿赫·沃瑟斯坦在NIPS，2018年。1[2] LucaAmbrogioni、UmutGuécluér、YagmurGuécluétuérk、MaxHinne、Marcel AJ van Gerven和Eric Maris。Wasserstein变分推理在NIPS，2018年。1[3] 马丁·阿乔对ky，苏米特·钦塔拉和Le'onBottou。Wasser-stein生成对抗网络。ICML，2017。一、二、六[4] David Berthelot Tom Schumm和Luke Metz BEGAN：边界均衡生成对抗网络。arXiv预印本arXiv：1703.10717，2017. 6[5] NicolasBonneel，JulienRabin，GabrielPeyre´，andHanspeterPfister. 切片和氡瓦瑟斯坦重心的措施。Journal of Mathematical Imaging and Vision，51（1）：22-45，2015。一、二[6] 尼古拉斯·博诺特。最优运输的一维和进化方法。博士论文，巴黎11，2013年。三、四[7] Nicolas Boumal ， Bamdev Mishra ， P-A Absil ， andRodolphe Sepulchre. Manopt ，一个用于流形优化的matlab 工具箱。 The Journal of Machine LearningResearch，15（1）：1455-1459，2014。5[8] 鲁伊·卡斯特罗经验分布函数和直方图。课堂讲稿，2WS 17-高级统计学。埃因霍温理工大学数学系，2015年。4[9] Ishan Deshpande，Ziyu Zhang，and Alexander Schwing.使用切片Wasserstein距离的生成建模。在CVPR，2018年。一、三、六、七[10] 奥德·根·埃维，加布里埃尔·佩·雷，马可·库图里。学习具有 Sinkhorn 分歧的生成模型 arXiv 预印本 arXiv ：1706.00292，2017。1[11] Ishaan Gulrajani 、 Faruk Ahmed 、 Martin Arjovsky 、Vincent Dumoulin和Aaron Courville。改进了Wasser-steinGAN的训练在NIPS，2017年。一、二、五、六[12] Simon Haykin和神经网络全面的基础。神经网络，2（2004）：41，2004年。4[13] Martin Heusel，Hubert Ramsauer，Thomas Unterthiner，Bern-hard Nessler，and Sepp Hochreiter.由两个时间尺度更新规则训练的GAN收敛到局部纳什均衡。在NIPS，2017年。6[14] 科特·霍尼克多层前馈网络的逼近能力。神经网络，4（2）：251-257，1991。 4[15] Zhiwu Huang和Luc Van Gool。用于SPD矩阵学习的黎曼网络InAAAI，2017. 5[16] Tero Kar

下载后可阅读完整内容，剩余1页未读，立即下载