没有合适的资源?快使用搜索试试~ 我知道了~
7992用于可控图像合成的刘瑞1刘宇1龚新宇2王晓刚1李洪生11香港中文大学-商汤科技联合实验室2德州农工大学ruiliu@cuhk.edu.hkgong@tamu.edu{yuliu,xgwang,hsli}@ ee.cuhk.edu.hk摘要基于流的生成模型由于其可逆的流水线和精确的对数似然目标,在图像合成这是因为图像条件的潜在分布难以从其潜变量z精确测量。本文在对图像的联合概率密度及其条件进行建模的基础上,提出了一种新的基于流的生成模型--连续对抗生成流(CAGlow)。而不是从潜在空间中解开属性,我们开辟了一条新的道路,学习编码器以对抗的方式估计从条件空间到潜在空间的映射。给定特定条件c,CAGlow可以将其编码为采样z,然后在复杂情况下实现鲁棒的条件图像合成,例如将个人身份与多个属性组合。CAGlow可以在监督和无监督两种方式下实现,因此可以合成具有条件信息的图像,如类别,属性,甚至一些未知的属性。大量的实验表明,CAGlow确保了不同条件的独立性,并在很大程度上优于常规Glow。1. 介绍生成对抗网络(GAN)[1,11,27,32]和变分自编码器(VAE)[18]是两种最流行的生成模型,因为它们有坚实的理论基础和出色的结果。此外,这些模型的条件图像合成的性能随着深度学习的快速发展而迅速提高。然而,GAN没有显式编码器来将图像映射到潜在空间中,这对于许多下游任务是有用的,而VAE生成的图像往往是模糊的。这些模型的条件版本仍然存在这些问题[30,31,36,37]。近年来,基于流的生成模型由于其自然的(a) 推断(b)抽样图1.Barnes-Hut t-SNE [40]对CGlow的200个身份的6,000个潜在向量的可视化[17]。(a)由前向CG低推断的潜在向量;(b)通过逆CGlow随机采样的潜在向量。最好用彩色观看。图像空间和潜在空间之间映射的可逆性,精确的对数似然,以及其在图像合成中的巨大潜力[7,8,12,17]。在这项工作中,我们专注于基于流的生成模型的条件图像合成。不幸的是,条件图像合成对于基于流的生成模型来说是一项艰巨的任务,因为这些模型被迫根据其定义[7]在图像和潜在向量的分布之间进行双射映射,这意味着它们的潜在维度必须匹配可见维度[10]。因此,无法将条件信息与图像连接到完整模型中,如CGAN[30],CVAE [36]和CVAE-GAN [2]。另一个直接的想法是向优化目标添加判别正则化,如[5,28],具有类相关先验,如原始Glow [17]的工作中所述。在本文中,我们将Glow的这种增量变体命名为CGlow但当满足复杂条件时,例如,具有200个身份如图1所示,实际分布由前向CGlow推断的潜向量具有非常接近的聚类,但是采样的潜向量的聚类保持远离并且与真实分布具有大的偏差,这导致其生成的图像中的伪影,如图3所示。这是由于图像条件的潜在分布在潜空间上很难精确测量,更不用说一些多目标情况了7993....例如姿势不变的人脸识别[6,39]和身份属性分解[9,22]。这种方法也无法探索隐藏在潜在空间中的一些未知性质[4]。针对上述问题,本文提出了一种新的基于条件流的生成模型--条件对抗生成流(CAGlow)。这种方法不是直接在潜在空间上解开表示,这对于基于流的模型来说是一项艰巨的任务,而是学习一个有效的编码器来将条件的分布映射到潜在空间中,并以对抗的方式在真实分布和生成的分布之间建立紧密的联系。本文的主要贡献概括如下:• 我们是第一个通过使用不可逆编码器将条件映射到基于可逆流的潜在空间来模型,可以利用其可逆性进行可控图像合成。该下限由编码器建模的分布与潜在向量的先验分布之间的KL发散以及输出和输入数据之间的重建损失组成由于这两种类型的模型有不同的优点和缺点,因此提出了许多工作来充分利用它们来促进图像合成[20,26,29]。与前两种模型不同,基于流的生成模型建立了一系列可逆变换,直接优化数据分布的负对数似然。2.2.基于流的生成模型如上所述,基于流的生成模型[7,8,17]旨在使用双射函数F将自然图像p(x)的分布映射到潜在先验分布p(z),即z=F(x)。因为函数F是双射的,所以x=F−1(z)也是有效的,可以用来生成图像。因此,其最大化对数似然的目标可以通过变量的变化来表达:• 我们还将对抗性网络纳入亲-提出的CAGlow,这有助于编码器学习一个控制,条件空间与潜空间之间的连续映射.logp(x)= log p(z)+log.det.dF。DX.太空对抗训练ΣK= logp(z)+..log.det.德赫岛、(一)• 通过大量的实验,我们证明,CAGlow优于最先进的基于流的.i=1dhi−1。模型在复杂条件下发光,这种方法可以在一些未知但可解释的表示条件下执行图像合成,这些表示是以无监督的方式学习的。2. 基于流的生成模型与条件图像合成在深入研究所提出的条件对抗生成流程之前,我们从概率的角度简要回顾了一些最先进的生成模型和条件图像合成模型,这是我们工作的基础理论。2.1.三种基本生成模型通常使用的生成模型有三种基本类型:生成对抗网络(GAN)[11],变分自动编码器(VAE)[18]和基于流的生成模型(FGM)[7,8,17]。GAN包含一个判别器和一个生成器模型,它们进行极大极小对策。这样一个两人游戏实际上是最优化的,当他们达到纳什均衡点,也就是说,玩家不能告诉一个图像是真实的或不。许多后续工作通过更好的损失,训练技能和评估指标来改进生成对抗网络[1,13,19,34,16,24,27,35]。VAE的目标是最大化目标数据点的对数似然的变化下限。其 中 ,为了简洁,我 们 定 义 dh0= x 和 dh K= z ,|detdhi/dhi−1|是雅可比矩阵dh i/dh i−1的 对 数行 列 式 的绝 对值。 等Jacobian矩阵依赖于双射函数的设计,如仿射耦合层和可逆1×1卷积。请参阅[8]和[17]了解更多详情。2.3.条件图像合成主流的条件生成模型包括VAE和GAN。沿着VAE的思路,CVAE [36]被提出来将传统的VAE扩展到条件生成模型,该模型对条件分布进行建模,并遵循vanilla VAE的思想找到该分布的变分下界沿着GAN的另一条线,存在更多具有不同形式和应用的条件模型[3,14,15,33,41,42,43]。据我们所知,最早的工作是CGAN [30],它将噪声或图像与类标签连接起来,然后将它们输入到生成器中进行条件图像合成。这个想法很简单,但在处理多类别分类任务时缺乏效率。然后,ACGAN [31]提出通过简单地提出一个辅助分类器来解决这些问题。另一个令人惊叹的工作是infoGAN [4],它以完全无监督的方式学习可解释和可分解的表示,并提供了一个基于最大化相互关系的优雅理论。7994...输入潜码和它们的观测值之间的信息。辅助 分类 器生成 对抗网 络( ACGAN )是 vanillaGAN的经典变体,其目标函数总结为:Ls=Ex<$p<$ ( x ) [log Dφ( x ) ]+Ex<$pθ ( x ) [log(1− Dφ( x))],L c = Ex<$p<$(x),c<$p(c)[log p φ(c |x)]图2.该模型一般包含一个可逆流、一个编码器和一个监控模块3.1. 制剂首先,受EQ的启发。(1)中,我们将具有其条件的图像建模为联合概率分布,并进一步通过双射映射z=F(x)获得具有条件的潜向量的分布:+Ex<$pθ(x),c<$p(c)[logpφ(c|X)],(二)..logp(x,cs)= log p(z,cs)+log. det.dF。. 、(四)其中,pφ(x)表示图像x的真实分布,p θ(x)表示生成的图像分布,并且|x)=C φ(x)共享二合一神经网络的参数。通过训练生成器使Lc−Ls最大化并训练最大化Lc+Ls的方法。.DX.其中我们让cs表示受监督的条件。使用贝叶斯公式,最大化等式4等于收件人:maxEzp(z),csp(cs)[logp(cs|z)]正如我们所知,GAN的目标实际上是缩小-..* 本文件迟交。dF。(五)利用真实和真实之间的詹森-香农分歧,伪分布[1]。因此,上述目标也可以是+Ezp(z)[logp(z)+ log.det. ]的,DX描述为最大化:− JS(p)<$(x)||p θ(x))+Ex<$p<$(x),c<$p(c)[log p φ(c|x)]+Ex<$pθ(x),c<$p(c)[log pφ(c|X)]。(三)其中,先验p∈(z)由标准高斯分布建模。我们假设潜在向量存在未知的其他分布p(z)。根据Gibb此外,还有一些模型结合了GAN用VAE来提高发电性能,如[26,Ez<$p<$(z)[logp<$(z)]≥Ez<$p <$(z)[logp(z)]29]。CVAE-GAN [2]是一种将VAE与GAN统一起来的条件生成模型它首先用标签编码图像=Ezp(z) [logp(z)] −KL(p(z)||p(z))。(六)转化为潜在向量,然后利用编码的向量和相同的标签,在真实或虚假的分类器和辅助分类器的帮助下有条件地生成图像。该模型在处理细粒度分类问题方面显示出巨大的潜力.许多实证研究表明,对于无条件和有条件模型,GAN生成的图像比VAE生成的图像更清晰[3,16]。然而,与Vari不同的是,其次,我们将所有条件建模为p(c)=p(cs,cu)其中cs表示监督条件,cu表示无人监管的因此,我们可以使用编码器E来将具有随机噪声的条件信息映射到潜在分布pθ(z)=Eθ(cθ,c θ),其中c θ表示随机噪声。使用VAE[18]中的变分下界方法,我们可以通过以下方式找到p(c)的下界:国家自动编码器和基于流的生成模型,经典的GAN没有编码器来映射自然图像潜在空间,这对下游任务很有用,例如logp(c)≥−KL(p θ(z)||p(z))+Ez<$pθ(z),c<$p(c<$)[logp(c)|z)]。(七)图像编辑、图像修补和属性变形。此外,与优化最大似然下界、近似推断潜变量的VAE不同,基于流的生成模型的目标是直接优化精确的对数似然,无需采样即可推断潜变量。这里我们定义p(z)=(p θ(z)+pθ(z))/2,所以我们有KL(p θ(z))||p(z))+KL( p∈ ( z ) ) ||p ( z ) ) =JS ( p θ ( z ) ||p∈(z))。此外,我们提出了一个分类器C,用于从两个实数中分类z。假的分布。最后,通过将所有的EQ。(4-7),我们得到我们的最终目标最大化:..* 本文件迟交。dF。因此,在本文中,我们充分利用潜在空间的流动为基础的模型,通过建立一个连续的Ezp(z)[log p(z)+log.det∗.DX.(八)]7995从条件空间映射到潜在空间,并通过对抗网络精确捕获目标分布。3. 条件对抗生成流在本节中,我们将介绍我们提出的模型CAGlow的公式和详细架构,如−JS(p θ(z)||p(z))+Ez<$p<$(z),cs<$p(cs)[logp(cs|z)]+Ez<$pθ(z),c<$p(c<$)[logp(c<$)|z)]。该目标函数可以分解为两部分:第一项与可逆流方程的目标相同。最后三项与ACGAN Eq.(三)、不同的是7996图像空间监督流通池×N真/假?流量步长×K∗潜在空间分类器特朗普重建联系方式刘海编码器状态空间图像空间流通池×N流量步长×K∗特朗普眼镜刘海条件编码器状态空间..0010010100100011正向流F反向流F-1编码器E(a) CAGlow的训练过程编码器E(b) CAGlow的图像合成过程图2.所提出的条件对抗生成流的网络架构的说明 它包含一个可逆流F,一个编码器E,和一个监督块,包括一个区分真实向量与假向量的ADID i,一个正确分类监督条件的分类器C和一个重建非监督条件的解码器D e。p(c)包含有监督和无监督的条件信息。在这里,我们假设它们是相互独立的,并实现它们与分类器和解码器,这是说明在下面的部分。3.2. 网络结构考虑到我们的目标是最大化Eq。(8)我们会小心介绍建议的网络架构,以达致这个目标。如图2所示,所提出的模型包含三个部分:1)可逆多尺度流F;2)编码器E θ;以及3)监督块,其是包括编码器Diφ、分类器C φ和解码器D eφ的三合一神经网络。可逆流F使用公式化为z=F(x)的可逆网络在自然图像的分布和潜在向量之间建立双射映射,其中z具有先验分布p∈ F(z)。在这里,我们采用标准高斯分布来建模z,并使用最大似然估计对其进行优化。具体来说,我们采用的结构是辉光N×K作为基线,如图2所示。所以可逆流动的损失是在不同的任务上使用许多不同的条件Glow模型。编码器E θ有助于对潜在向量z在条件cθ上的条件分布进行建模。 也就是说,p θ(z)=Eθ(c,c)其中c来自由标准高斯分布建模的底层分布p(c),以帮助E生成潜在向量的不同样本。p(c)实际上是对监督条件cs和un的联合分布进行建模监督条件cu.以图2为例,当人脸图像被馈送到前向流F中时,其包含身份号码和属性(如眼镜和刘海)的监督条件cs被馈送到编码器E中作为独热向量,并且同时从分类器C的顶部提供监督信号。同时,从非监督条件c u和随机噪声c u的特定分布中采样非监督条件cu和随机噪声c u,并将其与监督条件连接。cu将由解码器De从潜在向量解码以增强其与z的互信息。根据目标Eq。(8),我们希望最小化该条件分布pθ(z)与实潜向量分布pθ(z)之间的JS散度。..由前向流推断,借助* 本文件迟交。dF。D.所以编码器E是:LF= −Ez<$p<$(z)[log p(z)+log. det. ]中。(九)DXiφ θLE=−Ep(),cp(c)[logDiφ(Eθ(c,c))].(十)请注意,来自p(z)的样本被视为实际数据,这些数据被馈送到监控块中以供进一步处理。sarial训练,所以我们采取多阶段训练策略,第一阶段是训练一个规则的Glow模型,以便对潜在向量进行有效采样这种策略的一个额外优点是,在训练之后,通过在小的监督块上添加不同的监督信号,可以将预训练的Glow模型用于不同的任务,从而摆脱了训练的大计算消耗。鉴别器Diφ旨在区分生成的潜在向量与由可逆流相应地推断的真实向量:L Di = −Ez<$p<$( z )[log D iφ(z)] −Ez<$pθ ( z )[1−logD iφ(z)]。(十一)分类器Cφ与判别器Dφ部分共享参数,并通过soft-max或sigmoid函数输出不同的类概率。我们通过一个样品分裂挤压行为规范仿射耦合i x 1卷积挤压行为规范仿射耦合i x 1卷积79972交叉熵损失或二进制交叉熵损失。利用这样的神经网络 参 数 化分 类 器, 我 们 可 以 得 到 一 类 后 验 概 率 qφ(cs|z)的两个标记的实向量和生成的向量。损失可表述为:L C= − Ez<$p<$(z),cs<$p(cs)[log qφ(cs|z)]4. 实验在本节中,我们将在很大程度上实证证明我们提出的方法相对于一些主要基线的4.1.实现细节-Ez<$ pθ( z),cs<$ p( cs)[logqφ(十二)(中、西)|z)]。数据集。我们验证了我们提出的有效性,解码器Deφ与训练器和分类器部分地共享网络参数,并且其旨在从生成的潜在向量解码无监督条件以用于重构它们。所以解码器的损失是:LDe= −Ez<$pθ(z),cu<$p(cu)[log q φ(cu|z)],(13)其中p(cu)对于连续码可以用均匀分布建模,对于离散码可以用二项分布建模。相应地,损失可以设置为均方误差和二进制交叉熵损失。3.3. CAGlow的目标我们展示了为最大化方程8而设计的网络,但在实践中,真实潜在向量和生成向量的分布可能不会相互重叠,特别是在训练过程的早期阶段,因此,神经网络可以准确地将它们分开。这种现象使得训练过程不稳定,容易出现模式崩溃。为了克服这个典型但重要的问题,我们提出了一种成对特征匹配正则化策略,该策略在具有相同条件的真实和虚假数据点的表示之间使用L2令f(z)表示监督块网络的中间层上的潜向量z的特征,因此该成对特征匹配损失被公式化为:1在一些公开的数据集上进行建模。第一数据集是MNIST数字数据集[21],包含50,000个训练数据和10,000个测试数据,类别从0到9。第二个是大规模人脸数据集CelebA [23],其中包含202,599个人脸图像,每个图像有10,177个身份和40对于CelebA数据集,由于Glow的计算消耗较大,我们选择了相对较小的图像大小64进行评估[17]。但是对于更大的图像尺寸,这个概念是相同的。网络.在我们的实验中,我们将可逆流网络设置为GlowN×K的典型设置。N是包含“挤压”和“拆分”操作的单元格用于下采样和降维。K是包含仿射耦合层和可逆1×1卷积的步骤数 请参阅[8,17]。有关详细信息我们将MNIST的Glow设置为3×10,CelebA在MNIST的实验中,对编码器和子系统进行了测试。透视块包含两个完全连接的层,具有64个隐藏神经元。解码器、分类器和解码器只共享第一层,并输出不同的矢量用于计算各自的损失。 在CelebA的实验中,编码器首先将身份嵌入到固定维度的潜在向量中,并将其与属性和随机噪声的独热向量连接起来。然后,矢量通过一个全连接层和三个反卷积层,上采样比例为2、2、1和通道LFM=||二、||2.(十四)2尺寸分别为128、512、48。监控块包含信道大小为64的两个跨距2卷积层,因此,我们提出的CAGlow的最终目标是最大限度地减少损失:Σ128,然后是四个特定的全连接层,输出真实或虚假的概率,不同的身份,类型、不同属性和无监督重构L=S∈{ F,E,Di,C,De,FM}(λSLS),(15)条件基线。由于所提出的模型是从其中,精确的损失函数在等式中给出(9-14)。注意,除了它们的输出层之外,监控网络LDi测量分类器如何区分真实和虚假向量,并且LC测量分类器在分类不同类别方面的表现如何,其可以直接用于下游任务,如半监督学习。LDe措施解码器在无监督的情况下代码,可用于未知属性的勘探。最先进基于流的生成模型Glow,主要证明了所提出的模型CA- Glow相对于先前工作Glow及其增量变体CGlow的优越性[17]。4.2. 可控图像合成通过不同方法对不同标识和属性的条件图像合成结果如图3所示。我们为每一行设置相同的标识,为每一列设置相同的从图3a中,我们可以看到CGlow生成的图像受到严重干扰,7998(a) [17]第十七话图3.条件图像合成演示。从上到下:不同的人。从左到右:不同的属性(特定属性在第一行上方注释)。(a)由CGlow生成的图像。身份和属性之间的干扰很大;(b)由CAGlow生成的图像具有更好的可控性。不同的身份和属性。属性的变化对身份产生不利影响,反之亦然。此外,属性的变化也影响到CGlow中其他属性的出现或消失。此外,我们可以在CGlow生成的图像中看到一些伪影,因为采样分布偏离了真实分布,如第1节所述。而CAGlow合成的图像避免了这种负面影响,在此设置下表现出出色的性能,如图3b所示。累积条件下的图像合成。为了进一步验证我们的方法的可控性,我们展示了逐步改变多个属性的生成结果。由于CGlow很难在身份持久化的情况下改变多个属性,因此我们将我们的方法与具有预存储功能的常规Glow进行了比较。为了在改变属性的同时保持身份,正则Glow必须首先解析原始图像的所有潜在向量,并为每个特定属性存储平均特征。然后推导出任意图像的特征向量,并通过添加预先存储的属性特征来改变特征向量,从而生成身份不变的目标图像当只操作一个属性时,此策略非常有效。但在处理多个属性时,效果不够理想如图4所示,我们一步一步地将多一个属性添加到原始人脸图像。在普通的Glow中,添加属性相比之下,我们的模型表现良好,通过控制属性的变化独立的累积条件下。此外,我们的方法比常规Glow有两个额外的优势:1)采用条件-潜在条件的编码-解码策略,将身份和属性的特征很好地分离,产生无干扰的图像; 2)我们只将一些one-hot的条件向量输入到编码器中,然后进行逆向流来生成图像,不需要预先存储属性特征和推理过程来获得特定的潜在向量,因此CAGlow在时间和空间消耗上有明显的改善。平滑插值。我们还在图5中同时展示了两个不同身份和属性的插值生成结果。该操作通过简单地将两个特定目标的输入独热向量从[0,1]改变为[1,0]来完成。从图中可以看出,一个特定条件的插值显示了所生成图像的连续变化,并且对另一个条件没有负面影响。7999(a)[17]第17话图4.累积条件下图像合成演示。从左至右:逐步添加不同的属性(在第一行上方注释特定属性)。(a)由常规Glow生成的图像具有预存储功能。身份和其他属性受到严重干扰;(b)由CAGlow生成的图像具有更好的可控性。模型CGlowCAGlow精度87岁百分之三十六九十三百分之七十五方差0的情况。02450的情况。0016表2.CelebA上不同身份AMP属性的准确性和方差图5.在ID和属性上进行插值。从顶部到底部:对两个不同的人进行插值。从左至右:两个不同属性的插值(金发到黑发)。ric,分别对真实性、多样性和可区分性进行评价。我们 在 MNIST 和 CelebA 数 据 集 上 预 训 练 GoogLeNet[38],然后通过不同的方法计算生成的样本的前1精度按照[13]中的方法,我们在预训练的GoogLeNet上计算生成样本的FID得分。如表1所示,我们的方法在MNIST 和 CelebA 数 据 集 上 都 实 现 了 更 好 的 性 能 。CAGlow的FID得分非常接近原始Glow,这意味着我们的方法可以学习潜在向量的良好条件分布,而不会丢失多样性。属性保留测试。本文提出了一种新的属性均值概率(AMP)评价指标,用于检验属性的稳定性。我们首先基于CelebA数据集为L个不同的属性训练L个不同的分类器,以获得99%以上的精度。对于具有识别度 i 的 任 何 图 像 xi , 这 些 分 类 器 可 以 输 出 概 率 pl(xi)。对于不同的属性l∈ {1,...,L}. AMP的价值由AMP =1ΣLp(x)。 基于这些iLl=1l i表1.MNIST和CelebA的准确度和FID结果4.3. 定量比较在这一部分中,我们进行了一些实验,以验证我们的方法的优越性,用一些定量的结果。类别优先级测试。我们会说法语,距离(FID)[24]和顶级精度作为我们的方法-分类器,我们可以计算预测所有生成的样本的准确性和AMP沿身份的方差我们的方法具有更好的准确性和更低的方差,如表2所示。累积条件干扰试验。与4.2中的操作相同,我们逐步更改多个属性基于上面提到的L个预训练分类器,我们计算L-1的最后一步和这一步的平均概率而改变的,只有自己。年龄 然后我们取差值的绝对值为-辉光CGlowCAGlow(MNIST)-九十八百分之八十九九十九。百分之五十五Acc(CelebA)-87岁百分之四十三九十五百分之十六8000(a)旋转的不同潜在代码(b)宽度的不同潜在代码图6.未知属性在MNIST上的探索[21]。#MplCGlowGlow +预存CAGlow10.0043500.0022450.00077420.0232150.0072130.00260830.0470550.0143520.00582540.0777670.0237670.009939表3. AMP与对照组相比,差异的绝对值为操纵的时代。更低的值意味着更高的稳定性。将上一步的AMP与这一步的AMP之间的差作为度量。该评价指标描述了对结果的干扰程度。较小的值意味着更稳定的生成系统,并说明不同属性之间的更好的解纠缠。我们表明,我们的结果实现了最佳性能,如表3所示。4.4. 用非监督学习在这一部分中,我们将探索MNIST和CelebA数据集的一些基本属性。这些数据集除了提供条件信息外,还隐藏着一些未知的条件信息。该实验旨在证明我们的模型可以生成一些未知但可解释的属性的图像。请注意,这些属性是以无监督的方式找到的。我们不添加任何监督信号的损失,只使用一个自动编码重建损失的输入代码从先验分布采样。我们假设无监督码的均匀分布,并采取均方误差损失的重建。MNIST的结果如图6所示。从该图中可以看出,生成的数字的旋转方向和宽度分别随着潜在条件码的变化而我们还在图7中示出了对CelebA的探索结果。如我们所见,我们的方法可以捕捉下-图7. CelebA上的未知属性探索不同偏航角和亮度的说谎分布,在CelebA数据集中没有注释。5. 结论在 本 文 中,我 们 提 出 了一 种新 的生 成 模 型 CA-Glow,它无缝地统一了三个子块:可逆流、编码器和监督块,并且利用对抗训练策略。这个框架提供了很大的可控性和灵活性,合成的图像条件多个注释。定性和定量的实验结果都证明了所提出的方法的优越性,香草版本的Glow。在未来,我们计划进一步研究更复杂的先验分布而不是简单的高斯分布对基于流的生成模型的影响。谢谢。这项工作得到商汤科技集团有限公司的部分支持,部分由香港研究资助局的一般研究基金资助(拨款 编 号 : CUHK14202217 、 CUHK14203118 、CUHK14205615、CUHK14207814、CUHK14213616、CUHK14208417、CUHK14239816),以及香港中文大学的部分支持。直接授予。8001引用[1] 马 丁 ·阿 乔 对 ky , 苏 米 特 ·钦 塔 拉 和 Le'onBottou 。Wasserstein生成对抗网络ICML,2017。一、二、三[2] Jianmin Bao,Dong Chen,Fang Wen,Houqiang Li,and Gang Hua.CVAE-GAN:通过非对称训练生成细粒度图像。InICCV,2017. 第1、3条[3] 安德鲁·布洛克杰夫·多纳休凯伦·西蒙尼安用于高保真自然图像合成的大规模GAN训练。2019年,在ICLR。二、三[4] Xi Chen,Yan Duan,Rein Houthooft,John Schulman,Ilya Sutskever,and Pieter Abbeel. Infogan:通过信息最大 化 生 成 对 抗 网 络 进 行 可 解 释 的 表 示 学 习 。InNeurIPS,2016. 2[5] 作者:Brian Cheung,Jesse A. Livezey,Arjun K. Bansal和Bruno A.奥尔斯豪森发现深层网络中隐藏的变化因素arXiv预印本arXiv:1412.6583,2014年。1[6] 丁长兴、陶大成。姿态不变人脸识别综述。ACM Trans.Intell. 系统Technol. 第37:1-37:42页,2016年。2[7] Laurent Dinh , David Krueger , and Yoshua Bengio.NICE:非线性独立分量估计。ICLR研讨会,2015年。一、二[8] Laurent Dinh,Jascha Sohl-Dickstein,and Samy Bengio.使用真实NVP进行密度估计。 在ICLR,2017。 一、二、五[9] Yixiao Ge,Zhuowan Li,Haiyu Zhao,Guojun Yin,Shuai Yi , Xiaogang Wang , and Hongsheng Li.FD-GAN:用于鲁棒人物重新识别的姿势引导特征提取GANNeurIPS,2018。2[10] 伊恩·古德费洛。Nips 2016教程:生成对抗网络。arXiv预印本arXiv:1701.00160,2016年。1[11] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。NeurIPS,2014。一、二[12] Will Grathwohl,Ricky T. Q. Chen,Jesse Bettencourt,Ilya Sutskever,and David Duvenaud. FFJORD:可伸缩可逆生成模型的自由形式连续动力学。arXiv预印本arXiv:1810.01367,2018。1[13] Martin Heusel、Hubert Ramsauer、Thomas Unterthiner、Bernhard Nessler和Sepp Hochreiter。两个时间尺度更新规则训练的甘斯收敛到一个局部纳什均衡。NeurIPS,2017。二、七[14] Seunhoon Hong,Dingdong Yang,Jongwook Choi,andHonglak Lee.推理语义布局的分层文本到图像合成。在CVPR,2018年。2[15] Phillip Isola,Jun-Yan Zhu,Tinghui Zhou,and Alexei A.埃夫罗斯使用条件对抗网络的图像到图像翻译。在CVPR,2017年。2[16] Tero Karras , Timo Aila , Samuli Laine , and JaakkoLehtinen.为提高质量、稳定性和变异性而进行的干细胞生长。在ICLR,2018年。二、三[17] Diederik P. Kingma和Prafulla Dhariwal。Glow:GenerativeFlow with Invertible 1x1 Convolutions ( 英 语 : Glow :Generative Flow with Invertible 1x1 Convolutions)arXiv预印本arXiv:1807.03039,2018。一、二、五、六、七8002[18] Diederik P. Kingma和Max Welling。自动编码变分贝叶斯。见ICLR,2014年。一、二、三[19] 卡罗尔·库拉奇,马里奥·卢西奇,翟晓华,马辛·米哈尔-斯基,西尔万·吉利。Gan的风景:损失、架构 、 正 则 化 和 规 范 化 。 arXiv 预 印 本 arXiv :1807.04720,2018。2[20] AndersBoesenLindboLarsen , SørenKaaeSønderby,and Ole Winther.使用学习的相似性度量对像素之外的像素进行自动编码。arXiv预印本arXiv:1512.09300,2015。2[21] Yann Lecun , Lon Bottou , Yoonge Bengio , andPatrick Haffner. 基于梯度的学习应用于文档识别。在IEEE会议录,1998年。五、八[22] Yu Liu,Fangyin Wei,Jing Shao,Lu Sheng,JunjieYan,and Xiaogang Wang.探索面部识别之外的非纠缠特征表示。在CVPR,2018年。2[23] Ziwei Liu,Ping Luo,Xiaogang Wang,and XiaoouTang.在野外深度学习人脸属性。 在ICCV,2015年。 5[24] Mario Lucic 、 Karol Kurach 、 Marcin Michalski 、Sylvain Gelly 和 Olivier Bousquet 。 Gans 是 平 等 的吗?一项大规模的研究NeurIPS,2018。二、七[25] 大卫·J·C麦凯信息理论,推理学习算法。剑桥大学出版社,纽约,纽约,美国,2002年。3[26] Alireza Makhzani,Jonathe Shlens,Navdeep Jaitly,and Ian J.古德费罗对抗性自动编码器。arXiv预印本arXiv:1511.05644,2015。二、三[27] 毛旭东,李庆,谢浩然,Raymond Y.K. Lau,ZhenWang,and Stephen Paul Smolley. 最小二乘生成对抗网络。arXiv预印本arXiv:1611.04076,2016。一、二[28] Michael F Mathieu,Junbo Jake Zhao,Junbo Zhao,Aditya Ramesh , Pablo Sprechmann , and YannLeCun. 使用对抗性训练消除深层表征中的变异因素InNeurIPS,2016. 1[29] Lars Mescheder , Sebastian Nowozin , and AndreasGeiger.对抗变分贝叶斯:统一变分自动编码器和生成对抗网络。ICML,2017。二、三[30] Mehdi Mirza和Simon Osindero条件生成对抗网。arXiv预印本arXiv:1411.1784,2014。一、二[31] Augustus Odena , Christopher Olah , and JonathonShlens.使用辅助分类器GAN的条件图像合成。ICML,2017。一、二[32] 亚历克·雷德福卢克·梅斯和苏米特·钦塔拉深度卷积生成对抗网络的无监督表示学习。arXiv预印本arXiv:1511.06434,2015。1[33] Scott Reed , Zeynep Akata , Xinchen Yan ,Lajanugen Lo- geswaran , Bernt Schiele , andHonglak Lee. 生 成 对 抗 性 文 本 到 图 像 合 成 。InICML,2016. 2[34] Tim Sainburg , Marvin Thielk , Brad Theilman ,Benjamin Migliori,and Timothy Gentner. 生成对抗插值自编码:对潜在空间插值的对抗训练鼓励凸潜在分布。arXiv预印本arXiv:1807.06650,2018。28003[35] Tim Salimans 、 Ian Goodfellow 、 Wojciech Zaremba 、Vicki Cheung、Alec Radford和Xi Chen。改进的gans训练技术。InNeurIPS,2016. 2[36] Kihyuk Sohn,Honglak Lee,and Xinchen Yan.使用深度条件生成模型学习结构化输出表示。InNeurIPS,2015.一、二[37] 约斯特·托拜厄斯·斯普林根伯格分类生成对抗网络的无监督和半监督学习。ICLR,2016年。1[38] Christian Szegedy,Vincent Vanhoucke,Sergey Ioffe,Jonathon Shlens,and Zbigniew Wojna.重新思考计算机视觉的概念架构。 在CVPR,2016年。 7[39] Luan Tran,Xi Yin,and Xiaoming Liu.姿态不变人脸识别的非纠缠表示学习算法在CVPR,2017年。2[40] Laurens van der Maaten和Geoffrey Hinton使用t-SNE可视化 数 据 。 Journal of Machine Learning Research , 第2579-2605页,2008年。1[41] Ting-Chun Wang,Ming-Yu Liu,Jun-Yan Zhu,AndrewTao,Jan Kautz,and Bryan Catanzaro.用条件gans实现高分辨率图像在CVPR,2018年。2[42] 张涵,徐涛,李洪生,张少庭,王晓刚,黄晓磊,季米特里斯.Stackgan:使用堆叠的生成对抗网络进行文本到照片般逼真的图像合成。InICCV,2017. 2[43] Jun-Yan Zhu,Taesung Park,Phillip Isola,and Alexei A.埃夫罗斯使用循环一致对抗网络的不成对图像到图像翻译。InICCV,2017. 2
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM Java项目:StudentInfo 数据管理与可视化分析
- pyedgar:Python库简化EDGAR数据交互与文档下载
- Node.js环境下wfdb文件解码与实时数据处理
- phpcms v2.2企业级网站管理系统发布
- 美团饿了么优惠券推广工具-uniapp源码
- 基于红外传感器的会议室实时占用率测量系统
- DenseNet-201预训练模型:图像分类的深度学习工具箱
- Java实现和弦移调工具:Transposer-java
- phpMyFAQ 2.5.1 Beta多国语言版:技术项目源码共享平台
- Python自动化源码实现便捷自动下单功能
- Android天气预报应用:查看多城市详细天气信息
- PHPTML类:简化HTML页面创建的PHP开源工具
- Biovec在蛋白质分析中的应用:预测、结构和可视化
- EfficientNet-b0深度学习工具箱模型在MATLAB中的应用
- 2024年河北省技能大赛数字化设计开发样题解析
- 笔记本USB加湿器:便携式设计解决方案
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功