无限生成对抗网络：解决复杂图像生成的新方法

15 浏览量更新于2023-10-13 收藏 1.23MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1基于无限生成对抗网络的无监督图像生成惠英1，何旺2，邵田家1*，尹燕3，周坤11浙江大学2利兹大学3克莱姆森大学huiying@zju.edu.cn，H.E. leeds.ac.uk，tjshao@zju.edu.cn，yin5@clemson.edu，kunzhou@acm.org摘要图像生成在计算机视觉中得到了广泛的研究，其中一个核心的研究挑战是从任意复杂的分布中生成图像，并进行少量的监督。生成对抗网络（GANs）作为一种隐式方法在这方面取得了巨大的成功，因此得到了广泛的应用。然而，已知GAN会遇到诸如模式崩溃、非结构化潜在空间、无法计算似然性等问题。在本文中，我们提出了一种新的非监督非参数方法，称为无限条件GAN或MIC-GAN的混合，以解决多个GAN问题在一起，旨在与简约的先验知识的图像生成。通过对不同数据集的综合评估，我们表明MIC-GAN在构建潜在空间和避免模式崩溃方面是有效的，并且优于最先进的方法。MIC-GAN具有自适应性、通用性和鲁棒性。它们为几个众所周知的GAN问题提供了有希望的解决方案可用代码：github.com/yinghdb/MICGANs。1. 介绍GAN在快速增长的应用中取得了巨大的成功[19]。成功在于它们能够以无监督、非参数和隐式方式捕获复杂的数据分布然而，这种能力具有局限性，例如模式崩溃。尽管有一系列方法试图解决这些问题，但它们仍然是开放的。这促使我们的研究旨在共同解决几个限制，包括模式塌陷，非结构化的潜在空间，以及无法计算可能性，我们希望这将有助于后续的GAN研究并拓宽其下游应用。GAN通常包括两个功能：产生器和鉴别器。在图像生成中，鉴别器区分真实图像和生成图像，而生成器的目标是通过生成*通讯作者。作者来自浙江大学，隶属于CAD/CG国家重点实验室.类似于真实数据的图像。众所周知的模式崩溃问题是指生成器倾向于仅生成在多模式数据分布中的一个或几个模式周围聚集的类似数据，例如，仅在猫/狗数据集中生成猫图像。在解决/减轻模式崩溃的分布匹配方面已经有了积极的研究[31，45，50，55]，其基本上显式/隐式地最小化生成数据和实际数据之间的分布失配。并行地，发现潜在空间结构化也可以帮助，例如。通过引入条件[39]、噪声[23]、潜在变量[5]或潜在结构[15]。相比之下，潜在空间结构化，ING没有使更多的下游应用程序，如受控的图像生成，但他们通常需要强大的数据/潜在空间结构的先验知识，如类标签或数据中的聚类数或模式数在潜在空间。换句话说，它们要么是有监督的，要么是无监督的，但是是参数化的和规定的。我们通过提出一种新的、无监督的和非参数的方法，即无限条件GANs或MIC-GANs的混合，同时解决了潜在空间结构和模式崩溃。不失一般性，我们假设图像数据集包含多个（未标记的）图像聚类，每个聚类自然形成一个模式。我们利用GAN来避免模式崩溃，即，利用GAN的模式折叠属性，以让一个GAN覆盖一个模式，使得我们可以使用多个GAN来捕获所有模式。接下来，这样做自然会带来需要多少GAN的问题。我们的目标是从数据中学习所需的GAN数量，而不是依赖于先验知识[3，15]。换句话说，MIC-GAN模拟了无限数量的GAN的分布。同时，我们还根据数据空间构造了一个潜在空间，让每个GAN学习将一个潜在模式映射到一个数据模式。由于在数据空间中可以存在无限数量的模式，因此在潜在空间中也存在相同数量的模式，每个模式然后，潜在空间由GAN的凸组合表示，因此是结构化的。为了对GAN的分布进行建模，我们的第一个技术创新是对GAN进行新的贝叶斯处理，1428414285||GAN参数的非参数先验。具体来说，我们假设在我们的库中有无限数量的GAN，因此对于每个图像，都有一个最佳的GAN来生成它。这是通过在GAN参数上施加狄利克雷过程[11]来实现的，该狄利克雷过程将GAN参数的概率空间划分为可数无限集合，其中每个元素对应于一个GAN。然后，图像生成过程被分成两个步骤：首先为图像选择最合适的GAN，然后使用所选择的GAN生成图像。我们的第二个技术新颖性是一个新的混合推理方案。由于DP的无限性，训练MIC-GAN具有挑战性。我们不仅需要估计需要多少GAN，还需要计算它们的参数。一些具体的挑战包括：1）无法从GAN计算似然（GAN的基本缺陷）[9]; 2）缺乏GAN分布的明确形式; 3）用于估计潜在无限数量的GAN的禁止计算。这些挑战超出了现有方法的能力。因此，我们提出了一个新的混合推理方案称为对抗中国餐馆过程。MIC-GAN是无监督和非参数的。它们自动学习潜在模式，并通过一个GAN将每个模式映射到一个数据模式。MIC-GAN不仅可以避免模式崩溃，还可以实现受控的图像生成，潜在模式之间的插值以及对整个潜在空间的通过广泛的评估和比较，我们展示了MIC-GAN在数据聚类和生成方面的优越性能。2. 相关工作GANs中的模式崩溃GANs经常遭受模式崩溃，其中生成器学习仅从真实分布的少数模式生成样本，同时丢失许多其他模式。为了缓解这个问题，研究人员提出了各种方法，例如将小批量统计纳入鉴别器[53]，添加正则化[4，59]，展开鉴别器的优化[38]，结合变分自动编码器（VAE）使用变分推理[50]的GAN，使用多个鉴别器[7]，采用高斯混合作为鉴别器嵌入的似然函数[10]，并在鉴别器的损失中应用改进的发散度量[2，14，37，40，45]。其他方法专注于最小化生成的数据和真实数据之间的分布失配。例如，VEEGAN[55]引入了一个额外的重建器网络来执行真实数据分布和高斯随机噪声之间的双射映射。MMD GAN [31]提出用生成神经网络对齐两个分布的矩。大多数现有的方法本质上是将一个分布（通常是高斯分布或均匀分布）映射到一个数据分布。具有任意数量的模式。这是一个非常具有挑战性的映射学习，导致许多问题，如收敛和无法学习复杂的分布[46]。我们不是避免模式崩溃，而是通过让一个GAN学习数据分布中的一种模式（假设一个GAN可以学习一种模式）来利用它这不仅自然地避免了模式崩溃，但导致更结构化的潜在空间表示。早期的GANs专注于映射整个分布（例如：均匀或高斯）到数据分布。从那时起，已经做出了许多努力来构建GANs中的潜在空间，以便生成是可控的，并且可以学习语义。常见的策略包括引入条件[36，39，41，47，58]，潜变量[5]，多代[12，32]，噪声[23，24]和聚类[42]。最近的方法还采用模型的混合（例如，高斯混合模型）来显式地参数化潜在空间[3，15]。然而，这些方法通常需要很强的先验知识，例如：类标签、数据分布中的簇数和潜在空间中的模式数，具有规定的模型以实现最佳性能。在本文中，我们放宽了对潜在/数据空间的任何先验知识具体地，MIC-GAN被设计成同时且自动地学习潜在模式和数据模式。这是通过主动构建潜在模式，同时在潜在模式和数据模式之间建立一对一的映射来实现的，其中每个GAN学习一个映射。因此，潜在空间由GAN的凸组合构成。DMGAN [25]是与我们最相似的工作，它使用多个生成器来学习分布，而无需先验知识。相比之下，MIC-GAN既不对支持的连接性强加任何假设，也不需要多个生成器。此外，MIC-GAN具有很强的聚类能力，可以学习潜在模式。一种替代方法是使用可变自动编码器（VAE），其可以构造潜在空间（即，单个高斯或混合高斯）[8，20，21，26，43，56]，但它们通常无法生成具有清晰细节的图像因此，我们专注于GANs。3. 方法3.1. 初步给定图像数据X，GAN可以被视为两个分布G（X θg，Z）和D（[0，1] θ d，X），其中θ =[θ g，θ d]是网络权重，Z是从分布中提取的，例如：高斯θ唯一地定义GAN。与传统的GAN不同，我们使用贝叶斯方法并将θ视为随机变量，其符合由Φ =[Φg，Φd]参数化的一些先验分布。θ的推论可以14286YYYΣ→ ∞||||NNN--−∈Σ∼我KKi−1 +αD（x（i）;φd）×−i1i−1θlKKKY→ ∞--比例i1+α通过迭代采样进行[51]：Ngp（θ g|Z，θ d）∝（D（G（z（i）; θ g）; θ d））p（θ g| Φg）（1）i=1Ndp（θ d|Z，X，θ g）<$D（x（i）; θ d）×i=1Ng（1− D（G（z（i）; θ g）; θ d））× p（θd| Φd）（2）与用绘制表示的前者和用实际值表示的后者等效3.2. 无限GANs我们提出了一种新的贝叶斯GAN，这是一个混合的无限GANs模型。下式在图4中，表示GAN的网络权重。假设我们有K个GAN，并逐个检查X对于每个图像x i，我们对最佳GANφci进行采样（基于一些标准）以生成它。所以i=1其中Ng和Nd是生成图像和真实图像的总数，p（θgΦg）和p（θdΦd）是网络权重的先验分布，为了简单起见，有时合并为p（θΦ）对于我们的目标，先验的选择基于以下考虑。首先，如果X具有对应于K个聚类的K个模式，则我们的目标是通过K个不同的GAN来学习K个映射，并且每个GAN仅响应第k个GAN。GAN被选择得越频繁，它在将来被选择的可能性就越大。如果所有Nk都很小，则可能基于Φ对新的GAN进行采样。我们将模型的生成过程描述为：样本z i∈ Z，{φ1，. . . ，φk，.. . ，φ K} Φ样本c iCRP（α，Φ; c1，. . . ，ci−1），其中c i= kxi=G（zi;φg）使得D（xi;φd）= 1（5）可以用于生成一个图像集群这表明kk来自现有技术的抽取需要是离散的。其次，由于K值是先验未知的，因此我们需要假设K. 因此，我们采用狄利克雷过程（DP）作为θs的先验p（θΦ）DP（α，Φ）是一个概率分布。其中，现在是指示符变量，Φ{c=k}=[Φg，Φd]是第k将等式4-5与等式1-2结合，我们的新模型的推论变为：p（φ|Φ）=p（c）|c−i）CRP（α，Φ，c−i）c∈[1，K]（6）其中，α称为浓度，Φ为基数分布它描述了一个i−1GKp（φ g|（1）A（ D（G（z（i）; φ g）; φ d））p（φg|Φg）（7）θi|θ−i，α，Φ Σ1l=1i−1 +αδθl+（3）KKi=1DYki=1kkkGYkKi=1根据Φ。θ=θ，. . .，θ。δ是先前绘制的样本θl处的δ函数。当绘制新的θi时，或者再次绘制先前绘制的样本（概率与θ i成比例），1），或新样品被绘制（具有概率i−1+α到α）。作为-求和每个θ具有值φ，可以存在具有相同值φk的多个θ。因此，到目前为止在等式3中绘制的总共i个样本中仅存在K个独特值，其中凯岛一个直观（但不严格）的类比是多次滚动骰子。每次选择一侧（样本），但总体上仅存在K= 6个可能值。要查看“富人越来越富”属性，以前绘制的φ越多，再次绘制的可能性另一种等价的表示法称为中国餐馆过程（CRP）[1]，其中第k（k K）个值φk被绘制的次数与其再次被绘制的概率相关：KD（G（z （i ）;φ g）;φ d））×p（φ d| Φd），1≤k≤K（八）其中c−i= c1，. . . ，ci−1。等式6中的采样c将自然地计算K的正确值，基本上进行无监督聚类[44]。经典GAN作为最大似然。等式6- 8是经典GAN的贝叶斯概括。如果对Φ使用统一先验，并且采用迭代最大后验概率（MAP）优化而不是对后验概率进行采样，则局部最小值给出标准GAN [13]。然而，即使有一个平坦的先验，在整个后验的贝叶斯边缘化和用MAP中的点质量近似它之间也有很大的差异公式6-8是公式1- 2的一种规格，具有CRP先验。虽然之前已经探索过GAN上的贝叶斯泛化，但我们相信这是第一次在GAN的分布建模中使用非参数贝叶斯先验家族。此外，MIC-GAN的目标是以无监督的方式用一个GAN捕获一组图像。CRP先验可以自动θi|θ−i，α，ΦNkδk=1i−1 +αα+ Φ（4）i−1 +α机械地推断K的正确值，而不是像现有方法[33，42，15]中那样预先定义一个，其中过度其中δφk是φk处的δ函数，并且Nk是到目前为止φk已经被采样等式3和41ci=k是已经选择的图像的总数Nk=p（φ d|Z，X，φ g）∝其中随机变量的无穷序列θs是独立同分布的。（1−KKφk14287配对K将把一个簇任意地分成几个簇，而低估K将混合多个簇。14288−||i−iii−ikk1+α|||||||||||∝N|KKα，x，φ）∝我 KK我K||∼||3.3. 无限条件GANs对方程6-8进行迭代采样，理论上可以推导出φs和K的正确值。虽然φd和φg可以被采样[51]或近似[13]，但K需要通过采样c间接采样，这是非常具有挑战性的。为了看到挑战，我们需要分析c的全条件分布。要获得完整的分布-分别变为G φg（X Z，C k）和D φd（[0，1]X，C k）而不是G（X Z;φ g）和D（[0，1]X，φ d），其中C p（C）表现良好，例如多元高斯分布该公式类似于条件GAN（CGAN），但对C进行了贝叶斯处理。事实上，通过在网络的多个层中引入条件变量，我们利用其改变映射的能力。还有，我们现在首先给出c当量如[44]：Nk基于仅需要由φ= [φg，φd]参数化的一个GAN，并且消除了对多个GAN的需要，而不会损害学习K个独特映射的能力。现在，C的作用与等式5中的Φ相同，导致：p（cip（c i=k|c−i）∝ i1 + ααcj对于所有j1时的那些分数更差，证实了我们的方法可以减轻模式崩溃。当将我们的方法与CIFAR-10上的StyleGAN 2-Ada（表3）进行比较时，也可以观察到相同的模式崩溃缓解，其中StyleGAN 2-Ada只是我们的方法，K= 1。4.4. 非参数学习在现实世界的场景中，我们通常不知道先验的聚类数，在该聚类数下，我们研究InfoGAN、ClusterGAN和DeliGAN的我们使用Hybrid并使用K=8、12、16和22运行实验，以覆盖小于、等于和大于地面实况K=12的K我们仅在图4中示出了K=8的结果，并请读者参考补充材料以获得更全面的结果和分析。直观地，当K小于地面实况时，基线方法不能捕获所有模式或捕获混合模式;当K小于地面实况时，基线方法不能捕获所有模式或捕获混合模式。DCGANStyleGAN2K纯度FIDK纯度FIDMNIST115-0.93849.895.22115-0.939712.969.92200.95788.62200.948912.79250.939.13250.948711.9K纯度FIDK纯度FID混合115-0.921860.8350.74115-0.94215.4715.7200.961148.17200.92313.31250.96645.07250.956711.214293我们DMGANInfoGAN ClusterGAN DeliGAN图3.MNIST（顶部）和Hybrid（底部）数据集的世代比较我们在MNIST上使用地面实况K=10，在InfoGAN，MixterGAN和DeliGAN上使用K=12，在MNIST上使用K=20，在MIC-GAN和DMGAN上使用K=25每一列是从MNIST的模式生成的（顶部），并且每一行是从Hybrid的模式生成的（底部）。InfoGAN ClusterGAN DeliGAN图4. K= InfoGAN、ClusterGAN和DeliGAN的8个结果。K大于地面实况，它们捕获混合模式或重复模式。相比之下，尽管MIC-GAN（图1-2）也学习额外的模式，但它将质量集中到顶部模式中，从而导致模式的干净和MIC-GAN能够生成高质量的图像和准确的数据模式捕获，同时对K的初始猜测具有鲁棒性。4.5. 潜在结构由于MIC-GAN是GAN的凸组合，因此我们可以进行受控生成，包括使用特定模式，以及在两个或多个不同模式之间进行插值以生成图像。图1-2已经显示了基于单一模式的图像生成我们在图5中分别示出了两个C之间和四个C之间的通过双模式和多模式插值，我们表明MIC-GANs很好地构建了潜在空间，以便可以在由基模式限定的子空间内进行平滑插值。图5.左：每行是两个潜码之间的插值结果，其中第一列和最后一列是原始图像。右：四个潜在码之间的插值结果，其中每个角表示一种模式。5. 结论我们提出了一个新的无监督和非参数生成框架MIC-GANs，基于简约的假设，共同解决两个基本的GAN问题，模式崩溃和非结构化潜在空间。广泛的评估和比较表明，MIC-GAN在多个数据集上的性能优于最先进的方法。MIC-GAN不需要强大的先验知识，也不需要太多的人为干预，为多模态图像生成提供了一个强大致谢我们感谢匿名评论者的宝贵意见。该研究得到了NSFChina（No. 61772462号61890954号U1736217），100人才浙江大学、美国国家科学基金会资助项目2011471、2016414。14294引用[1] 大卫·J·奥尔德斯可交换性和相关主题。在P. L. Hennequin，editor，E'coled'E施普林格柏林海德堡。[2] Mar t'ınArj o vs ky， SoumithChinta l a ， andL e'onBottou.Wasserstein生成对抗网络在ICML 2017，2017。[3] 马坦·本·约瑟夫和达芙娜·温肖尔针对不同数据集的高斯混合生成对抗网络，以及图像的无监督聚类。CoRR，abs/1808.10356，2018。[4] Tong Che ， Yanran Li ， Athul Paul Jacob ， YoshuaBengio，and Wenjie Li.模式正则化生成对抗网络。在ICLR 2017，2017。[5] Xi Chen，Yan Duan，Rein Houthooft，John Schulman，Ilya Sutskever，and Pieter Abbeel. Infogan：通过信息最大化生成对抗网络进行可解释的表示学习。参见NIPS2016，第2172-2180页[6] Yunjey Choi，Youngjung Uh，Jaejun Yoo，Jung-WooHa.Stargan v2：多领域的多样化图像合成。在CVPR2020，第8188-8197页[7] 伊尚山口Durugkar，Ian Gemp，and Sridhar Mahadevan.生成多对抗网络。在ICLR 2017，2017。[8] AmineEchraibi，JoachimFlocon-Cholet，Ste'phaneGosselin和Sandrine Vaton。Dirich- let过程深潜高斯混合模型的变分后验。 CoRR， abs/2006.08993 ，2020。[9] Hamid Eghbal-zadeh和G.威德默生成对抗网络的似然ArXiv，abs/1707.07530，2017。[10] Hamid Eghbal-zadeh ， Werner Zellinger ， and GerhardWid-mer.混合密度生成对抗网络。在CVPR 2019中，第5820-5829页[11] Thomas S.弗格森一些非参数问题的贝叶斯分析。统计年鉴，1（2）：209-230，1973年。[12] 放大图片作者：Arnab Ghosh，Viveka Kulharia，Vinay P.菲利普？南布迪里H. S. Torr和Puneet Kumar Dokania。多智能体双向生成对抗网络。在CVPR 2018中，第8513-8521页[13] 伊恩·古德费洛。Nips 2016教程：生成对抗网络，2017年。[14] Ishaan Gulrajani ， Faruk Ahmed ， Mart´ın Arjovsky ，Vincent Dumoulin，and Aaron C.考维尔改进的瓦瑟斯坦甘斯训练。参见NIPS 2017，第5

下载后可阅读完整内容，剩余1页未读，立即下载