GAN训练中基于间接对抗性损失的IPM方法

88 浏览量更新于2023-10-15 收藏 843KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

4652通过训练GAN的瑞阳德明武{yang，vmduc}@nlab.ci.i.u-tokyo.ac.jp中山秀树nakayama@ci.i.u-tokyo.ac.jp日本东京大学D步骤实际样品G步骤假样品0狄拉克-δ分布(a)传统对抗性损失（b）间接对抗性损失图1：传统的或我们的间接对抗性损失的说明。“D阶”和“G阶”分别指的是步进电机和发电机阶。在过去的工作中，对抗性学习过程直接连接在真实和虚假样本的输出之间，而我们在真实，虚假和中间分布之间构建了一个间接过程，以避免吸引力问题。摘要在这项研究中，我们考虑了积分概率度量（IPM）方法在训练生成对抗网络（GANs）中的弱收敛特性。我们首先集中在一个基于IPM的排斥性GAN方法，采用排斥版本的最大平均离散（MMD ）作为排斥性损失（称为排斥MMD-GAN）。我们重新解释它的排斥度量作为一个间接的损失函数向中间分布。这使我们能够提出一个新的发电机损失，通过这样一个中间分布的基础上，我们的重新解释。我们的间接对抗损失使用简单的已知分布（即，我们实验中的正态分布或均匀分布）来模拟真实、虚假和中间三个部分之间的间接对抗分布。此外，我们发现来自IPM家族的核化Stein差异（KSD）作为对抗损失函数，以避免来自中间分布样本的随机性，因为目标侧（中间侧）在KSD中是无样本的在几个真实世界数据集上的实验表明，我们的方法可以成功地用基于中间分布的KSD和MMD训练GAN，并且可以优于以前的损失度量。1. 介绍虽然生成对抗网络（GANs）[7]非常成功，但训练GANs仍然具有挑战性。为了解决这个问题，已经提出了多种策略，例如设计损失函数[1，20]，网络结构，实际样品D步骤G步骤假样品D步骤D步骤4653..∫F结构[12，14]和训练正则化[26，9]。与f-发散族[3，21，30]相比，积分概率分布（ IPM ） [29] GAN [1 ， 9 ， 20 ， 35] （ IPM-GAN）意味着弱收敛，实现了更高的生成质量[24]。从理论上讲，IPM方法可以达到假分布和真分布之间的数值零，当且仅当两个分布相等[24]（这里，真分布和假分布是指以非线性输入为条件的非线性输入的后验输出，稍后相同）。例如，最大平均离散度（MMD）在MMD-GAN中表现出色后来，排斥性MMD-GAN [35]将干扰损耗从吸引性MMD改变为排斥性MMD区分器损耗，并使用与MMD-GAN相同的发生器损耗在本文中，我们试图解决排斥MMD-GAN[35]中所示的吸引力问题，而不混合使用两种不同的损失度量（吸引力和排斥损失），其学习方向不统一（G步骤如图1所示）。1 a而D步骤如图。（见第1段b）。此外，我们得到了一个新的理想框架，解决这样的混合问题。我们重新解释的排斥MMD在Eq. 3、不包括排斥。精确地说，我们通过伪中间分布重写排斥MMD方程作为输出分布的学习目标原始MMD-GAN[20]中有吸引力的在我们对排斥性MMD损失的解释中[35]，真实分布向伪中间分布移动，这不能统一最小-最大博弈。因此，我们提出了一种新的发电机损失配对排斥MMD的混合损耗，可以避免通过我们的间接MMD损失的混合问题。我们在一个已知的中间分布附近保持假分布和真分布这一学习过程实现了间接广告-在发生器步骤中，分布向中间分布移动。在训练之后，假分布和真分布接近中间分布，从而最小化真分布和假分布。此外，计算MMD距离需要从中间分布中随机采样，导致训练过程中基于采样的偏差。因此，我们采用了一种特定的无样本IPM方法，即Stein Discrepancy（SD）[36]，以避免这种随机性。SD及其内核化版本（KSD）[22，4，5]已广泛应用于许多机器学习任务，如变分自动编码器[32]，人工采样器[11]和基于能量的模型[8]，但尚未用于训练数据驱动的GAN。我们建议用我们新的基于KSD的损失函数代替以前工作中使用的损失函数，以解决我们间接版本中的随机性问题。MMD-GAN。我们简单而有效的方法结合了对抗学习和KSD的关键思想，即KSD-GAN，在生成质量方面显着提高了GAN的训练我们的贡献如下：• 我们提出了一个间接对抗训练过程，以统一排斥MMD-GAN中的生成器和网络损耗（图1）。①的人。• 我们发现KSD损失克服了排斥MMD损失的间接版本中的随机性，以改善学习过程。• 我们的真实世界数据集实验显示出优于其他损失指标的性能。2. 背景2.1. IPM GANsIPM [29]被定义为通过见证函数f（·）最大化源分布p和目标分布q的期望值之间的差异：三种分布之间的对抗学习-假的，真实的和中间的。具体而言，真实分布向中间分布IPMF（p，q）=supf∈Ffdp−nfdq。、（1）而假的一个远离中间的一个在双步骤中移动。然后，假的分销商-其中，在Eq. 1是一类实值有界可测函数。4654···▽ΣΣ∈F·.Σ▽根据见证函数f（）的不同条件，IPM系列涉及许多类型的测量。例如，Wasserstein-1距离要求函数f（）的Lipschitz连续性。另一个典型的例子是MMD，它在RKHS中定义了见证函数。除了Wasserstein和MMD，其他定义也很重要，如Fisher IPM和SD等。因此，基于上述IPM定义的GAN取得了重大成功，作为对抗性损失[1，20，27]。2.2. 最大平均离散损失和反推损失平方MMD基于核函数k（）定义源分布p和目标分布q之间的差。如[28]所示，可以使用数学近似来数值计算MMD距离MMD（p，q）=Ey<$q[k（D（y），D（y′））]vanilla-GAN的收敛结论不能直接用于排斥MMD-GAN。2.3. 斯坦·迪克雷茨Stein离散度是从拟合优度检验[36]中推导出来的，这是IPM方法中的一个SD中的得分函数的定义EpSq（x）f（x）+xf（x）= 0，（4）其中得分函数为Sq（x）=xlog（q（x））q（x）是未归一化的p.d. f。目标分布每个f的平滑度要求由方程式4与Eq中的相同 1和所有f属于P分布的Stein类当量当且仅当p=q。因此，Stein的方法可以指示给定的一组样本与特定目标分布的匹配程度。样本间的测度S（p，q）- 2 <$Ex<$p，y<$q[k（D（x），D（y））]（2）从源分布和p.d.f. 在比分上+Exp[k（D（x），D（x′））]，函数Sq定义为：其中，D（）代表源分布输出，x和y分别是来自源分布p和目标分布q的样本在MMD-GAN [20]中，等式2被用作发电机的损失，而方程的负形式。2用作损耗。随后，提出排斥MMD-GAN [35]的作者表明，使用Eq.2的吸引问题，因为在实际样本中，双方差损失因此，他们提出了MMD函数的排斥版本：supExp[Sq（x）f（x）+xf（x）]，（5）f∈F其中p是源分布，q是目标分布。显然，S（p，q）仅取决于源分布中的样本。通过将SD引入RKHS，作者在[22]中解决了计算问题，使其成为许多机器学习任务中的统计损失函数。如图所示在[22]中，KSD可以写成核化形式Ex，x′<$p[uq（x，x′）]，其中uq核可以扩展为：MMDrep（p，q）=Exp[k（D（x），D（x′））]（三）u（x，x′）=S（x）<$k（x，x′）S（x′）- Ey<$q[k（D（y），D（y′））].q q q排斥MMD-GAN也使用Eq. 2作为发电机损耗，与Eq. 3.文[7]利用JS-发散证明了极大极小对策的收敛性。将JS发散替换为+Sq（x）xk（x，x′）+<$xk（x，x′）<$Sq（x′）+tr（x，x′ k（x，x′））.4655（六）MMD距离不会改变[7]中的结论，而在[35]中使用了发生器和重复步骤中的因此在这里，k（x，x′）核的选择是所有核相关实验中的RBF核，因为它在过去的工作中有经验表现[22，23]。4656OOOOOOO O −OON·3. 间接对抗损失3.1. 重新解释排斥性MMD损失在[35]中，该矩阵删除了相交核矩阵（方程中的第二项）。2)真实和虚假的输出分布之间的关系。首先，我们定义了一个伪目标分布（表示为），它只包含等于零的样本，即狄拉克-δ分布，如图1所示。1.一、然后，我们可以用这个中间判别函数来代替排斥MMD判别函数损失函数：L_D=MMD（p，i）MMD（q，i），使p接近中间分布并将目标分布q从根据MMD距离。因为仅包含零，所以MMD（pi）和MMD（qi）两者在等式（1）中的第三项中具有常数矩阵。2.常数项在反向传播中只给出零梯度，允许我们省略它们.在Eq中的第二项2是输入和零之间的核矩阵;因此，它可以被视为损失函数中正则化的一部分在这种情况下，因为双稳态损耗最小化了真实样本输出与中间分布之间的MMD距离，所以不需要否定地使用等式2，因此没有吸引人的问题发生。因此，我们提出了另一个排斥版本的MMD随机损失函数作为真实，假和中间分布之间的间接损失函数LD=Er，r′实[k（D（r），D（r′））]直接在生成器步骤中从真实样本中当发电机陷入局部最小值时，分布式可以抑制循环，因为优化器不能确保在每一步都有更好的网络。更重要的是，我们可以用另一个简单的分布来代替狄拉克-δ分布，例如标准正态分布（）。相比之下，我们的发电机损失可能会面临冷-开始问题，由于中间分布的采样器必须采样足够的随机样本。因此，在初始步骤期间难以获得对生成器有意义的信息另一方面，我们找到了另一种解决这个问题的优雅方法，称为KSD。由于其无样本的特性，我们可以将中间分布视为等式中的目标侧q。6. 因此，我们提出的KSD-GAN可以保持间接损失的优点，而不会面临随机抽样。3.2. KSD损失函数首先，我们选择一个简单分布作为中间分布q，即，正态或均匀分布。然后，在识别步骤中，我们迫使真实输入的伪输出向中间分布移动，并通过KSD来分离伪输出，以增强识别能力。接下来，在生成器步骤中，我们将伪源的输出移动到中间分布附近。最后，真实和虚假分布实现了- Eg，g′伪[k（D（g）， D（g′））]- 2Erreal[k（D（r），0）]+2Egfa ke[k（0，D（g））].（七）中间分布附近的动态平衡。目标函数如下：LD=Er，r′实[uq（D（r），D（r′））]因此，我们可以将这种间接损失函数推广到基于中间分布的发电机损失：−Eg，g′<$fake[uq（D（g），D（g′））]，LG =Eg，g′伪[uq（D（g），D（g′））]，（九）LG=Egfake[k（D（g），D（g′））]-2Egfa ke[k（0，D（g））].（八）其中，uq内核在等式中定义6、应用的输出（）。在这里，我们的KSD损失函数最小化真实输出和中间分布之间的KSD我们的新发电机损失在方程。8具有与排斥性MMD-GAN中的丢失相同的学习目标（如图8所示）。（见第1段b）。此外，与追求可持续的产出分布相比，同时最大化假输出和中间分布之间的关系。在生成器中，伪输出与中间分布之间的4657·..NU损失函数因此，完美训练的生成器的理想情况将是KSD（D（r），q）=KSD（D（g），q）=0。在这种情况下，真实分布等价于在KSD度量下生成的伪分布。我们在表1中总结了所有相关的损失指标。3.3. 收敛我们基于中间分销的MMD和KSD损失与过去的对抗性损失不同我们分两步证明它们的收敛性：首先，我们的方法属于IPM-GAN;其次，它们满足IPM-GAN关于收敛的条件，从而获得证明。引理1. 定义一个实值有界可测函数作为见证函数f（）。假设q分布是中间分布。那么IPM-GAN中基于中间分布的对抗性分歧的目标函数损失我们训练CIFAR10来比较无条件生成性能，结果如表2所示。我们的间接MMD损失提高了排斥MMD-GAN的性能因此，我们选择MMD（δ）和KSD进行烧蚀实验。4.2.实验装置数据集。我们比较了基于CIFAR10（50k训练样本，10类，322像素）的不同损失的生成质量[17]，CIFAR100(50k训练样本，100类，322像素）[17]，和Tiny-ImageNet数据集（100 k训练样本，200类，642像素）[18]。此外，我们在MNIST数据集（60k灰度级样本，10个类，282像素）上训练DCGAN[19]，以通过附录中的tSNE [34]证明TMN我们还训练了CelebA数据集（203k训练样本，INFGsupErreal，gfa ke[fq（r）+fq（g）].（十）f∈F调整为642像素）[25]和FFHQ数据集（7k图像，10242像素）[14]。证据见附录a推论2. 我们基于中间分布的对抗性发散满足IPM-GAN的收敛条件[24]。因此，我们的方法可以获得收敛性。3.4.中间分布用于训练GAN的中间分布的选择会影响模型性能，通过为不同尺度的数据集选择分布，可以在质量和多样性之间实现更好的平衡。正态分布和均匀分布方程简洁，是比较适合的中间分布.相反，一些复杂的分布，如混合高斯分布和Dirichlet分布，不适合中间分布。4. 实验4.1. 预赛我们首先在基于MMD和基于KSD比较方法。我们将过去的三种方法作为基线，与表3中的方法进行比较。首先，非饱和损失函数（Vanilla GAN）解决了饱和问题，并与原始损失函数[7，6]相比显示出其优势。接下来，我们选择著名的Wasserstein距离[1]和铰链损失函数[37]（Wasserstein-GAN）作为另一种基线方法。铰链损失已在过去的许多工作中得到验证，并在BigGAN [2]中取得了相当大的成功。第三种基线方法是排斥性MMD损失[35]（排斥性MMD-GAN）。排斥性MMD损失改善了原始MMD-GAN的性能[20]。我们比较了KSD-GAN的四种不同设置的生成质量，这些设置是使用Uni- form或Normal分布以及对于初始或所有训练步骤使用铰链内核的组合超参数。我们使用官方的PyTorch[31]实现代码进行培训和评估。我们只将最后一层编辑为多维，并使用BigGAN和StyleGAN 2中的默认设置（例如，学习率，每个生成器步长的学习步长，以及4658NDD†NU√√度量发电机失鉴别器损失MMDE[k（X，X′）]+ E[k（Y，Y′）]−2<$E[k（X，Y）]（等式（二）−E[k（X，X′）]−E[k（Y，Y′）]+2E[k（X，Y）]（负方程（二）MMD（代表）如上E[k（X，X′）] −E[k（Y，Y′）]（等式第三章MMD（δ）†E[k（Y，Y′）]−2<$E[k（0，Y）]（等式第八章）E[k（X，X′）]− E[k（Y，Y′）]−2<$E[k（X，0）]+ 2<$E[k（0，Y）]（等式第七章）MMD（N）†E[k（Y，Y′）]−2E[k（N，Y）]E[k（X，X′）]− E[k（Y，Y′）]−2<$E[k（X，N）]+ 2<$E[k（N，Y）]KSD（U）†E[uU（Y，Y′）]（等式9，q=U）E[uU（X，X′）]− E[uU（Y，Y′）]KSD（N）†E[uN（Y，Y′）]（等式9，q=N）E[uN（X，X′）]− E[uN（Y，Y′）]表1：相关工作中的方程和我们提出的损失度量。在这里，我们分别使用‘对于基于KSD的损失，我们列出了均匀分布或正态分布作为中间分布的情况，通过在等式中替换q分布。9.第九条。度量香草（JS）Wasserstein MMD（代表）MMD（δ）MMD（N） KSD（U）KSD（N）FID↓12.079715.234819.536012.653116.67668.50058.5883表2：不同损失指标之间基于StyleGAN2 [15]的初步无条件生成实验的结果。“代表”：‘Repulsive’ and ‘“”和“”：间接对抗损失的中间分布。亚当优化器中的beta [16]等）。因此，我们的实现不同于那些原始报告。对于排斥MMD-GAN实验，我们使用多尺度RBF核，σ∈ {1，2，2，2，4}，我们的KSD使用σ=1。评估指标。我们使用Inception评分（IS，越高越好）[33]、Fréchet Inception距离（FID，越低越好）[10]和学习感知图像块相似性（LPIPS，越高越多样化）[38]来验证定量评估。对于每个模型，我们随机采样50k个样本来计算IS和FID。对于LPIPS，我们计算了表4中每个类别的得分，以证明世代多样性。4.3. 定量分析数值分析如表3所示，我们比较了三个真实世界数据集的IS和FID。在所有实验中，除了损失函数之外，训练都是使用完全相同的设置进行的表3中的结果表明如下：1）首先，我们的KSD-GAN具有优于其他损失函数的性能。具体而言，KSD-GAN具有热启动和均匀中间分布，在FID方面显示出其优势;2）KSD-GAN的IS随设置而变化。CIFAR 10和CIFAR 100数据集包含相对较低分辨率的图像，在这些情况下，正态分布的性能高于均匀分布; 3）中间分布的选择对发电质量也有影响。一般来说，均匀分布的情况下，表现出较高的FID.我们推测，正态分布的情况下，倾向于保持一个更集中的特征空间比均匀分布，使它更容易欺骗的生成器，同时失去了一些细节的标记。而均匀分布则保留了平均先验信息，以获取更多的细节信息. 因此，在低分辨率学习情况下，细节具有较低的优先级，并且正态分布情况在IS方面较高，而均匀分布情况在IS方面较高。4659度量CIFAR10CIFAR100微型ImageNetIS↑FID↓IS↑FID↓IS↑FID↓香草（JS）WassersteinMMD（代表）8.126±0.097.554±0.097.396±0.0610.4610.9910.179.080±0.139.272±0.156.513±0.1115.6512.0730.4310.481±0.1212.666±0.166.080±0.0737.5723.8374.13MMD（δ）KSD（N）-铰链KSD（U）-铰链KSD（N）-w.s.KSD（U）-w.s.9.279±0.089.169±0.109.166±0.089.327±0.109.128±0.097.7010.607.1512.526.059.577±0.1610.312±0.179.831±0.189.736±0.139.781±0.068.8310.507.6311.877.3510.943±0.1210.227±0.1212.706±0.1810.715±0.1612.205±0.2228.7633.9021.4828.4321.47表3：BigGAN [2]条件生成实验的结果我们将KSD-GAN的四个设置与三个过去的损失指标进行了比较。MMD（代表）代表令人厌恶的MMD损失。在我们的方法中，“-hinged”代表使用附录B中介绍的铰链内核。“-w. s.”是指在前10k次迭代中应用铰链内核的热启动。在更高分辨率的学习情况下是有利的;4）此外，对于前10 k次迭代使用铰接内核产生大于IS的FID结果IS结果略有变化，而FID结果略有改善，除了Tiny-ImageNet实验中的正态我们推测，去除铰链核增加了用于训练的信息量，使得能够更好地训练，同时也失去了对收敛的保护，这导致不同的性能;5)在某些情况下，具有正态分布的KSD-GAN表现出不同的性能，在一个评估指标中有所改善为了进一步分析这一现象，我们给出了基于LPIPS的世代多样性多样性分析如表所示。4、正态分布的KSD-GAN实验总体上比均匀分布的KSD-GAN实验表现出更高的多样性。我们推测，正态分布的情况下，往往优先生成高质量的图像在几个类，而忽略了其他类的细节我们的MMD（δ）方法比MMD（Rep.）更大的类别。我们推测，MMD（代表）可能会被困在平凡的局部最小图像中，并且可能在探索更大的多样性之前牺牲更多的细节以最小化损失，而我们的可以在优化中保持更多的细节其他统计数字载于附录。度量（LPIPS↑）CIFAR-10CIFAR-100小小的-ImageNet香草（JS） 0.19230.15440.4872Wasserstein0.18150.20250.5092MMD（代表）0.19050.20610.4428MMD（δ）0.17810.22730.6546KSD（U）KSD（N）0.17230.19340.16550.17310.48410.5519表4：三个数据集中不同类别之间的LPIPS平均值（越高越好）。化学发光（FID↓）CelebAFFHQ香草（JS）8.53-Wasserstein7.13 7.41MMD（代表）12.78-MMD（δ）3.945.33KSD（U）3.634.82表5：在不同损失度量中的单峰数据集实验的FID结果（越低越好）4.4. 人脸生成的定性结果在我们的BigGAN实验中，单峰生成任务也4660在人脸数据集上进行了训练4661(a) KSD-GAN（CelebA）（b）KSD-GAN（FFHQ）(c)Wasserstein（CelebA）（d）Wasserstein（FFHQ）图2：与Wasserstein基线相比，我们的KSD-GAN具有均匀中间分布和热启动设置的人脸图像生成样本。如图2，并在表5中实现CelebA的FID为3.63。我们还使用不同的损失来继续训练预先训练的StyleGAN2 [13]，并在获得稳定结果后记录其最小FID分数。在FFHQ上继续学习后，我们的KSD损失达到了FID的4.82。更多样本见附录。5. 局限性和结论我们遇到了几个缺点，这些缺点在这项工作中没有得到首先，我们的方法遵循其他基于核的方法，如MMD-GAN，它们有相对更多的超参数要调整。我们的工作主要使用基于过去文献的相似超参数，同时保持额外的调谐空间。其次，我们的方法在最后一层的计算复杂度比其他一些度量。然而，这在推断阶段不会是问题。最后，我们的方法可能难以使用现有的预训练模型。传统的损失度量是从事后定义的，而我们的建议是朝着一个明确的中间分布（如示于图①的人。在这项工作中，我们的新KSD损失函数在IS和FID方面优于过去的损失函数，并且对于几个真实世界的数据集具有可比的LPIPS分数。我们可能会尝试在未来使用人工中间分布用于特定目的。由于均匀分布和正态分布中的简单先验假设，将真实或虚假源移动到中间分布附近相对简单。然而，这种存在的分布不太可能是真实分布和伪因此，找到一种分析方法来创建作为中间分布的分布可以提高收敛速度或在训练过程中保持更多的细节。此外，使用一些预先训练的模型作为中间分布可以实现特定的域转移。未来的工作可以探讨这些想法的可行性。鸣谢本工作得到东京大学人工智能及其他研究所的支持，JSPS/MEXTKAKENHI资助号：22K17947，JP 19 H 04166和JP 22 H 05015。4662引用[1] 马丁·阿约夫斯基苏米特·钦塔拉和莱昂·博特图Wasserstein生成对抗网络国际机器学习会议，第214-223页。PMLR，2017年。[2] 安德鲁·布洛克杰夫·多纳休凯伦·西蒙尼安用于高保真自然图像合成的大规模gan训练。在2018年国际学习代表会议上[3] Imre Csiszár和Paul C Shields。信息论与统计学：一个教程。2004年[4] Wenbo Gong ， Yingzhen Li ， and José MiguelHernán-Lobato.切片核化的斯坦差异。在国际会议上学习代表，2020年。[5] Wenbo Gong，Kaibo Zhang，Yingzhen Li，andJosé Miguel Hernán-Lobato.切片斯坦差异的活动切片。在机器学习国际会议上，第3766-3776页。PMLR，2021年。[6] 伊恩·古德费洛。Nips 2016教程：生成对抗网络。arXiv预印本arXiv：1701.00160，2016年。[7] Ian J Goodfellow，Jean Pouget-Abadie，MehdiMirza，Bing Xu，David Warde-Farley，SherjilOzair，Aaron C Courville，and Yoshua Bengio.生成性对抗网。在NIPS，2014。[8] Will Grathwohl ， Kuan-Chieh Wang ， Jörn-Henrik Jacobsen，David Duvenaud，and RichardZemel.学习用于训练和评估基于能量的模型而无需采样的斯坦差异国际机器学习会议，第3732-3747页PMLR，2020年。[9] IshaanGulrajani 、 FarukAhmed 、 MartinArjovsky、VincentDumoulin和AaronCourville。改进的瓦瑟斯坦甘斯训练。第31届神经信息处理系统国际会议论文集，第5769-5779页，2017年[10] Martin Heusel，Hubert Ramsauer，Thomas Un-terthiner ， BernhardNessler ， andSeppHochreiter.通过两个时间尺度更新规则训练的Gans收敛于局部纳什均衡。在NIPS，2017年。[11] 胡天阳，陈子祥，孙涵曦，白金城，叶茂，程光。斯坦因神经取样器。arXiv预印本arXiv：1810.03545，2018。[12] Tero Karras ， Timo Aila ， Samuli Laine ， andJaakko Lehtinen. 为提高质量、稳定性和变异性而进行的干细胞生长在2018年国际学习代表会议上[13] Tero Karras ， Miika Aittala ， Janne Hellsten ，Samuli Laine，Jaakko Lehtinen，and Timo Aila.用有限的数据训练生成对抗网络在IEEE神经信息处理系统会议上，2020年。[14] Tero Karras Samuli Laine和Timo Aila一个基于风格的生成器架构用于生成式对抗网络。在IEEE/CVF计算机视觉和模式识别集，第4401-4410页[15] Tero Karras ， Samuli Laine ， Miika Aittala ，Janne Hellsten，Jaakko Lehtinen，and Timo Aila.分析并提高了扫描电镜的成像质量 . 在IEEE/CVF计算机视觉和模式识别会议论文集，第8110-8119页[16] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。[17] Alex Krizhevsky等人从微小的图像中学习多层特征。2009年[18] 雅乐、玄阳。微小的imagenet视觉识别挑战。CS 231N，7：7，2015。[19] Yann LeCun，Léon Bottou，Yoshua Bengio，and Patrick Haffner.基于梯度的学习应用于文档识别。Proceedings of the IEEE，86（11）：2278[20] Chun-Liang Li ， Wei-Cheng Chang ， Yim- ingYang，and Barnabás Póczos.Mmd gan：对矩匹配网络的更深入理解在NIPS，2017年。[21] 弗里德里希·利泽和伊戈尔·瓦伊达。论统计与信息论中的分歧与信息。IEEE Transactions onInformation Theory，52（10）：4394[22] 刘强，杰森李，和迈克尔乔丹。拟合优度检验的核化斯坦差异。国际机器学习会议，第276-284页。PMLR，2016.[23] 刘强和王迪林。Stein变分梯度下降：一种通用的贝叶斯推理算法。第30届神经信息处理系统国际会议论文集，第2378-2386页，2016年[24] 刘爽，奥利维耶·布斯凯，卡玛莉卡·乔德-胡里.生成对抗学习的逼近和收敛性质。第31届神经信息处理系统国际会议论文集，第5551-5559页，2017年。4663[25] Ziwei Liu ， Ping Luo ， Xiaogang Wang ， andXiaoou Tang.在野外深度学习人脸属性。在计算机视觉国际会议（ICCV）上，2015年12月。[26] Takeru Miyato ， Toshiki Kataoka ， MasanoriKoyama，and Yuichi Yoshida.gans的光谱归一化在2018年的学习代表国际会议[27] 尤瑟夫·穆鲁，汤姆·塞尔库，和瓦巴瓦·戈埃尔。Mcgan：均值和协方差特征匹配gan。国际机器学习会议，第2527-2535页。PMLR，2017年。[28] KriksanMuandet，Kenji Kriumizu，Bharath Srit-rumbudur，and Bernhard Schölkopf.分布的核平均嵌入：一个回顾和超越。arXiv预印本arXiv：1605.09522，2016.[29] 阿尔弗雷德·穆勒整数概率度量及其生成函数类Advances in Applied Probability，第429-443页[30] Sebastian Nowozin 、 Botond Cseke 和 RyotaTomioka。f-gan：使用变分发散最小化训练生成神经采样器。神经信息处理系统的进展，2016年29日。[31] Adam Paszke、Sam Gross、Soumith Chintala、Gregory Chanan 、 Edward Yang 、 ZacharyDeVito、Zem- ing Lin、Alban Desmaison、LucaAntiga和Adam Lerer。pytorch中的自动微分。2017年。[32] Yunchen Pu ， Zhe Gan ， Ricardo Henao ，Chunyuan Li，Shaobo Han，and Lawrence Carin.基于斯坦变分梯度下降的Vae第31届神经信息处理系统国际会议论文集，第4239-4248页，2017年[33] Tim Salimans 、 Ian Goodfellow 、 WojciechZaremba 、 Vicki Cheung 、 Alec Radford 和 XiChen。改进训练gans的技术。在NIPS，2016年。[34] Laurens Van der Maaten和Geoffrey Hinton使用t-sne 可视化数据 Journal of Machine LearningResearch，9（11），2008.[35] 卫望、元孙、撒满哈嘎木格。用排斥损失函数改进mmd-gan训练在国际会议上学习代表，2019年。[36] Jiasen Yang ， Qiang Liu ， Vinayak Rao ， andJennifer Neville.通过stein差异对离散分布进行拟合优度检验。 ICML ，第 5561-5570 页。PMLR，2018。[37] 韩章、伊恩·古德费罗、迪米特里斯·梅塔克斯和奥古斯都·奥德纳。自我注意生成副词-sarial网络《国际机器学习会议》，第7354-7363页PMLR，2019年。[38] Richard Zhang、Phillip Isola、Alexei A Efros、Eli Shechtman和Oliver Wang。深层特征作为一种知觉尺度的不合理的有效性。在IEEE计算机视觉和模式识别会议论文集，第586

下载后可阅读完整内容，剩余1页未读，立即下载