没有合适的资源?快使用搜索试试~ 我知道了~
用于条件图像生成的Navaneeth Bodla1,Gang Hua2和Rama Chellappa11美国马里兰大学学院公园分校@ umiacs.umd.edu2微软研究院ganghua@microsoft.com抽象。 我们介绍了FusedGAN,这是一种用于条件图像合成的深度网络,具有对不同图像的可控采样。逼真度、多样性和可控采样是衡量一个好的图像生成模型的主要质量指标. 大多数现有模式在这三个方面都存在不足。FusedGAN可以以非常高的保真度对各种图像进行可控采样 我们认为,可控性可以通过解开的生成过程中的各个阶段。与堆栈式GAN相比,其中多个阶段的GAN分别训练,并对标记的中间图像进行全面监督,FusedGAN具有一个带有内置GAN堆栈的单阶段管道与现有的方法不同,这些方法需要利用配对的条件和图像进行全面监督,FusedGAN可以有效地利用更丰富的图像,而无需在训练中使用相应的条件,以产生更多样化的高保真样本。 我们通过融合两个生成器来实现这一点:一个用于无条件图像生成,另一个用于有条件图像生成,其中两个部分共享一个共同的潜在空间,从而解开生成。我们证明了FusedGAN在细粒度图像生成任务中的功效,例如文本到图像和属性到面部生成。1介绍深度生成模型的最新发展激发了人们对合成逼真图像的兴趣。生成对抗网络(GANs)[2]和变分自编码器(VAEs)[6]已被广泛应用于各种应用中,例如从低分辨率图像生成超分辨率图像,图像修复,文本到图像合成,属性到面部合成,草图到面部合成和风格转移[4,5,19]等。随机抽样合成图像是一种有趣的方法,而条件图像生成方法更具有实用价值。例如,给定一组特定的属性生成人脸在取证应用中有很多实际用途,这使得它很容易制作N a a adl a s ins h i p a t M i c ro s o ft R e s e r c h期间完成的工作部分。2N.博德拉湾Hua和R. Chellappa一个潜在嫌疑人的画像生成一个细粒度的鸟类图像,其描述可能是在生物学的教育和研究的兴趣。CGAN [8]已被广泛用于在给定条件[1,17,18]下合成图像。一个好的、有效的图像生成模型需要具备以下三个属性:1)保真度,2)多样性,以及3)采样的可控性。 受控采样是指通过控制诸如姿势、风格、背景和细粒度细节等因素的变化来对图像进行采样的过程。通过控制这些因素中的一个或多个,可以实现不同的图像。A.不受控制的条件抽样B) 在具有相同姿势的两种风格之间插值A) 非控制条件抽样C) 控制姿势和变化的细节(1) 低分辨率示例D) 风格多变的受控姿势B)在具有相同姿势的两种风格之间插值C)受控姿势和变化的细节D)具有变化风格的受控姿势(2) 高分辨率示例Fig. 1.对于低分辨率和高分辨率图像的具有受控多样性的采样的说明:StackGAN只能生成给定如A中所示的相应文本的随机图像除此之外,我们的方法可以生成具有受控多样性的样本,例如在B中,我们展示了在具有相同姿势的两种风格之间插值的示例,在C中,我们固定姿势并生成具有不同细节和背景的样本。在D中,我们固定姿势并生成具有由描述定义的不同风格1中的示例对应于低分辨率图像的采样,2中的示例对应于高分辨率图像。生成的.例如,可以通过保持恒定的背景来生成不同的图像,或者通过保持相同的姿势来生成具有不同风格的图像采样的可控性直接关系到从某种网络架构产生的表示。我们认为,它是同样重要的保真度和多样性,因为它可以支持更多的实际应用,如我们在上面讨论的情况下,在生成犯罪嫌疑人的肖像基于可描述的属性。使用文本到鸟图像生成作为示例,可控因素包括样式、姿势、细粒度细节的量和背景。 使用StackGAN [18],可以生成高保真度的鸟类图像,但我们只能控制样式(即文本描述)。为了在采样中实现更多 的 控 制 , 我 们 需 要 更 好 地 理 清 潜 在 空 间 中 的 不 同 因 素 。 在attribute2image [17]中,Yan等人已经解开了前景和背景的生成,从而通过保持其中一个固定并改变另一个来实现受控采样。用于条件图像生成的3图二.通过融合GAN和CGAN进行32× 32图像合成的FusedGAN插图。我们提出了一种方法来解开的结构(捕捉姿势和形状)和风格(捕捉前景和背景的细粒度外观),以执行图像合成与高保真度,多样性和可控性的采样。而不是试图学习一个独立的条件生成器,我们建议从一个无条件的生成器。我们通过一个简单的思想实验来说明我们的方法。考虑在一个示例中,任务是绘制给定文本描述的鸟,例如“a yellow bird with black wings and a re d tal l”。制作的方法是首先制作出一只鸟的轮廓,该鸟具有特定的姿势和翅膀、冠部、喙和尾巴的形状。然后,根据描述,随后将翅膀涂成黑色,身体涂成黄色,尾巴涂成红色。注意鸟的初始草图与条件无关,即,定义样式的文本说明只有在画鸟的后期才需要它。受这种直观的绘图过程以及先前堆叠的深度生成模型的成功[16,18,20]的启发,我们建议解开图像生成过程,以便我们学习两个级联的生成器。第一个非条件生成器生成一个结构先验(类似于鸟的初始草图),它独立于条件,第二个条件生成器进一步为其添加样式并创建一个与条件匹配的图像(详见第3换句话说,我们通过级联两个发生器通过解开生成过程,我们的方法的一个额外的优点是,我们可以只使用没有相应条件的图像来训练无条件生成器。这使我们能够在训练期间利用半监督数据。它有助于学习更好的结构先验(图2中所示的融合块),这反过来有助于生成更好和多样化的条件图像。我们提出的模型称为FusedGAN,在这个意义上是独一无二的,它在单个阶段中具有堆叠的优势,可以使用半监督数据进行有效训练。与现有方法相比,我们的模型的优点是:1)它有助于以受控的多样性对图像进行采样。2)我们可以在训练过程中使用半监督数据。这意味着,除了用于条件图像生成(例如文本到图像)的通常配对数据外,我们还可以利用没有配对条件的图像3)与FashionGAN不同 [20]4N.博德拉湾Hua和R. Chellappa和S2GAN[16],我们不需要额外的中间监督,如分割图或表面法线。2相关工作我们简要总结了文本到图像生成的相关工作,并在深度生成模型中堆叠。文本到图像生成。Reed等人 [12]首先提出了一种称为GAN-INT的模型,用于文本到图像的生成,他们使用条件GAN来生成图像。在他们的后续工作GAWWN [11]中,他们利用边界框和关键点方面的额外监督来在更受控的设置中生成鸟类。Zhang等人 [18]将条件GAN的思想扩展到两阶段条件GAN,其中两个GAN被堆叠以从第一阶段生成的低分辨率图像逐步生成高分辨率图像StackGAN能够生成具有非常好的视觉质量的高分辨率256×256图像。代替单次拍摄图像生成,Gregor等人[3]提出了DRAW,它使用递归网络逐像素生成图像。GAN-INT [12]和StackGAN [18]试图解决的关键问题是潜在空间的多样性和不连续性。由于潜在空间的高维性和文本数据的有限性,潜在空间往往是高度不连续的,这使得生成器很难GAN-INT在训练过程中提出了一种流形插值方法,而StackGAN提出了条件增强,从高斯分布中对文本嵌入进行采样。我们进一步分析了条件增强在我们的方法中的贡献,并表明它模拟了所生成的鸟类的细粒度细节的多样性(有关详细信息,请参阅第5节)。堆积。所提出的FusedGAN模型背后的核心思想是通过堆叠来分解生成过程。堆叠允许生成模型的每个阶段专注于更小的任务,而分解支持更灵活的采样。我们简要总结以前的作品解决解开和堆叠。堆叠图像生成已被证明是有效的,在许多图像合成任务。在高级别,堆叠图像生成流水线通常具有两个单独的连续级。第一阶段生成中间图像(诸如分割图或表面法线的图)。然后,第二阶段将中间图像作为输入以生成最终条件图像。例如,S2 GAN [16]通过首先生成形状结构(即,表面法线),然后在第二阶段中生成场景的最终图像StackGAN [18]首先生成以文本嵌入φt为条件的低分辨率图像,然后使用它来生成高分辨率图像。在fashionGAN [20]中,Zhu等人使用第一阶段来生成以设计编码φd为条件的分割图,然后在第二阶段中使用它来生成新的时尚图像。用于条件图像生成的5图三.所提出的方法的端到端流水线。蓝色和橙色块分别对应于无条件和有条件图像生成流水线。我们使用堆叠作为一种学习分解表示的方法不同于这些现有的工作,在我们的模型中的阶段是隐含的。具体来说,在我们的模型中,第一阶段执行无条件图像生成,第二阶段执行有条件图像生成。此外,两个级共享一组高级滤波器。因此,这两个阶段实际上融合成一个阶段,这是端到端训练。与S2GAN类似,我们的模型将风格和结构分开.但与S2GAN [16]不同的是,我们不需要任何额外的表面法线监督,也不需要单独的阶段训练。类似地,Fash-ionGAN [20]和attribute 2 image [17]都需要以分割图的形式进行额外的中间监督,在我们的情况下不需要。3FusedGAN:配方为了解开结构和风格的生成,我们的方法包括两个融合的阶段。 第一阶段执行无条件图像生成,并产生作为第二阶段的结构先验的特征图。然后,第二阶段生成最终条件图像(即,匹配由文本描述定义的样式的图像)使用该结构先验和条件作为输入。必须指出的是,在第一阶段和第二阶段中没有明确的层次结构这两个阶段可以使用交替优化同时训练我们使用文本到图像合成作为一个例子,提供我们的方法,可以很容易地扩展到其他任务,如属性到人脸合成的细节。3.1第一阶段:学习结构我们的第一阶段是GAN,它从随机噪声向量中生成鸟类图像,并且在此过程中还生成一个中间表示,6N.博德拉湾Hua和R. Chellappa作为第二阶段之前的结构。它包含一个生成器G1和一个鉴别器DU,它们在两个玩家的最小-最大游戏中相互对抗在最小-最大博弈中,生成器试图通过生成尽可能接近真实的鸟来欺骗鉴别器,而鉴别器则试图区分它们。G1和Du都是深度神经网络等可微函数,通过优化最小-最大损失函数来minmax V(D u,G1)= Expdata [log D u(x)]+ Ezpz [log(1 − D u(G1(z)]。 (一)G1Du由于我们想先生成一个结构,我们将第一阶段的生成器G1分成两个模块:G s和G u。Gs取噪声向量z作为输入。在一系列卷积和上采样操作之后,它生成结构先验Ms。然后Gu将结构prior作为输入,然后再次输入一系列的上采样和卷积生成最终图像。因此,如1中所呈现的最小-最大目标函数中的G1被进一步分解为Gs和Gu,即、Ms= Gs(z),G1(z)= Gu(Ms).(二)其中Ms是中间表示。它捕获创建鸟所需的所有高级因此,它作为一个结构,决定了鸟的最终形状由于姿态和结构信息与风格无关,因此可以在第二阶段中重复使用,以合成与描述匹配的鸟。该第一阶段的优点是它不需要任何配对的训练数据。它可以使用仅包含目标概念图像的大型数据集进行训练,例如鸟类,这有助于学习改进的结构先验。3.2第二阶段:结构优先的风格化在第二阶段中,我们使用CGAN来生成与描述匹配的鸟。与传统的CGAN流水线不同,其输入包括条件(即,文本描述)和随机噪声向量,我们将来自第一阶段的结构先验Ms和文本描述作为输入馈送到条件生成器Gc。类似于CGAN,第二阶段的鉴别器Dc将图像和条件作为输入,以确保Gc生成与描述匹配的图像。Ms充当模板并向第二级的发生器提供附加信号。这迫使生成器合成不仅与描述匹配而且还保留其中包含的结构信息的鸟。因此,G c不是从头开始学习,而是通过使用文本描述向M s添加样式来构建Ms。注意,M也可以具有来自阶段一的其自己的样式信息。然而,由于第二阶段中的生成器和判别器都将文本描述作为输入,因此Gc确保生成的图像的风格是描述的风格,而不是Ms的风格以这种方式,任务在Gs、Gu和Gc之间划分,其中Gs负责学习整体图像结构,而Gu和Gc专注于获取图像。用于条件图像生成的7结构信息并分别生成无条件和有条件图像。整个流水线如图3所示 条件GAN通过优化以下目标函数来训练,即:、minmax V(D c,G c)= Exp数据[log D c(x|y)]+ Ezpz [log(1 − D c(G c(G u(z))|y)]。GCDc(3)4FusedGAN:学习与推理在本节中,我们提供了训练我们的FusedGAN管道的细节,以及推理过程。我们首先介绍了用于描述训练算法的符号,然后详细介绍了体系结构和推理步骤。学习设z ∈IRd×1是从正态分布采样的噪声向量,即,zN(0,I),其中d是潜在空间的维数;Gs(z,θs)是生成结构先验Ms∈IRs×s×k的生成器;Gu(Ms,θu)是以结构先验Ms为输入并生成目标图像xuf的无条件图像生成器;以及Du(x,θdu)是以真实图像xr或生成图像xuf为输入的无条件图像鉴别器。对于条件图像生成流水线,令E(θ e,y)是文本编码器,其将文本嵌入y ∈ IRp×1作为输入,并产生张量M y∈IRs×s×q。 为了实现这一点,受StackGAN [18]的启发,条件增广被构造为从随机独立项G auss i和在N(μ(y),Σ(y))上的随机变量C(∈ IR q × 1)和在给定的x项上。该c是重复该n个p以匹配Ms的空间维度以产生My。我们将Gc(My,Ms,θc)表示为条件生成元,它取My和M作为输入以生成条件图像。类似地,Dc(x,y,θdc)是条件图像鉴别器,其将真实图像xcr或条件图像xcf连同条件y一起作为输入。真实图像或生成图像的大小均为IRN×N×3。使用标准交替优化方法来训练我们的模型。我们以交替的步骤训练条件和无条件管道,直到模型收敛。 通过优化组合的GAN和CGAN目标来更新模型参数,即、LGu = log D u(G u(z)),LDu = log D u(x),LDc= logDc(x,y),LGc= logDc(Gc(My,Ms),y)+λDKL(N(μ(y),Σ(y))N(0,I))(4)推理。在推断期间,为了生成条件图像,我们首先从N(0,1)中提取噪声样本z,其通过Gs以生成结构先验Ms。Ms然后采取两条路径,一条通过生成器Gu以产生无条件图像xuf。在第二条路径中,我们首先通过编码器E发送文本输入,编码器E从文本嵌入周围的高斯中提取样本。E和M的输出被级联,并且通过G。以生成条件图像X。注意,在该过程中,我们具有来自1)N(0,1)和2)输入文本的分布N(μ(y),Σ(y))的两个随机噪声向量,它们是两个控制向量。8N.博德拉湾Hua和R. Chellappa因素超过抽样程序。换句话说,在一个推理步骤中,我们合成两个图像:条件图像和无条件图像,这是我们模型的副产品,有助于分析和更好地理解我们提出的模型和结果。有关架构和算法的更多详细信息,请参见补充材料。5实验我们在两个条件图像生成用例中呈现了我们的方法的结果和分析:1)使用鸟类作为案例研究的文本到图像合成,以及2)使用面部作为案例研究的属性到图像合成。为了评价我们的方法,我们进行定性和定量分析。定性分析是通过执行用户研究来完成的。对于定量结果,我们使用初始得分[13]。5.1文本到图像合成CUB鸟类数据集[15]包含11,788张图像。对于每个图像,Reed等人提供了10种描述和1024维文本编码。[10]。如[12]中所述,数据集被划分为分别为8,855和2,933个图像的类不相交训练和测试分割。由于我们的方法可以处理半监督数据,因此我们使用nabirds数据集[14]来增强该数据集,该数据集包含48,562张鸟类图像,而没有任何相应的文本解压缩。我们总共使用57,417张图像用于我们的第一阶段结构生成,并使用8,855个图像和文本对用于训练第二阶段条件图像生成器。 作为预处理步骤,我们裁剪图像以确保对象-图像尺寸比大于0。75 [18]。结果和分析在本节中,我们介绍了我们的方法在各种受控采样用例中的有用性,并将其性能与基线方法进行了比较:StackGAN stage-I、StackGAN stage-II、GAN-INT-CLS和GAWWN。我们提供了一个详细的消融分析的各种组件在我们的管道的贡献由于合成高分辨率图像不是我们工作的主要贡献,我们通过分析64× 64合成图像来进行烧蚀实验固定的姿势,不同的风格:许多不同风格的鸟类可以有相同的姿势。我们将展示如何使用FusedGAN生成它们具有视觉结果的图示在图4的左侧中呈现我们还分析了在整个条件图像生成过程中的结构先验的贡献 为此,我们考虑5个文本描述ti,其中i = 1,2,...,5只鸟,每个描述采样4张图像,每列中的姿势相同,如图4左侧所示。用于条件图像生成的9这只鸟有一个明亮的黄色身体,与棕色的冠和翅膀。这只鸟是完全红色与黑色的翅膀和尖喙。这只鸟有棕色的翅膀和白色的身体。一种腹部呈鲜黄色,尾巴和背部呈橙色的鸟一种色彩鲜艳的小鸟,除了黑色的尾巴外,身体的大部分都长有亮蓝色的羽毛(B)StackGANStage-I(C)GAN-INT-CLS结构(A) 融合GAN图4.第一章从我们的FusedGAN模型、StackGAN stage-I和GAN-INT-CLS合成的示例鸟对于FusedGAN,前五行对应于由左侧所示的相应文本描述生成的图像,最后一行对应于由我们的模型生成的无条件图像。为了控制姿势,即为了生成具有相同姿势的各种风格的鸟(文本描述),我们保持z恒定并改变文本描述。例如,考虑FusedGAN的图4中的第一列为了生成这些鸟,我们从N(0,I)中采样z,并将其通过Gs,这产生了一个结构。然后,我们使用相同的M与我们的5个文本描述样本,以产生相应的条件图像,如前五行所示。请注意,它们都具有相同的姿势,因为它们的结构先验是相同的。这表明姿态和结构信息被成功地捕获在Ms中,并且样式信息被留给Gc。我们通过可视化无条件图像进一步检查结构先验的贡献,如图4的最后一行所示。对于第三列,所有的鸟似乎都有一个明显的长尾,这也可以在无条件的图像中看到。同样在第四列,我们可以观察到无条件图像有一个大乳房,这是明确转移黄色、红色和橙色的鸟。这些结果有力地支持了MS能够成功地捕获和转移到各种描述的条件生成的鸟类图像的结构的大量信息我们进一步将受控采样方法与StackGAN和GAN-INT-CLS进行了比较,如图4所示。对于这两种方法,我们尝试通过使用相同的z作为列中每个图像的输入来控制姿势,但具有不同的文本描述。GAN-INT-CLS似乎能够控制所有列的姿态,而StackGAN则不能。虽然对于StackGAN的一些结果,例如第二列,它似乎保留了所有样式的姿势,但对于其他列则没有。例如在风格10N.博德拉湾Hua和R. Chellappa图五、(a)生成各种风格的鸟类图像,但不同数量的细粒度细节。(b)六种文字描述的鸟类保持相同姿态的插值在第三列中,我们可以清楚地观察到最后两只鸟的姿势完全翻转。这表明, 风格和结构 并没有完全解 开。相比之 下,在来自 我们的FusedGAN的结果中,我们观察到结构先验明确地确保姿势被一致地保留。固定姿势,细节变化:一只具有特定姿势和风格的鸟在细节和背景方面仍然可以有很多多样性。在这个实验中,我们展示了一种对它们进行采样的方法这也显示了条件增强在我们的模型中的作用和有用性。为了保持姿势相同,如前一节所述,我们对z进行采样并生成Ms,该Ms在本实验中保持不变为了改变细节,我们考虑特定的文本描述并将其通过E,并从应用条件增强的文本嵌入周围的高斯分布中抽取5个样本这5个样品中的每一个产生具有相同姿势(和风格)但具有不同量的精细细节和背景的鸟,如图5a所示。从图5a的第二行可以观察到,对于翅膀上有黑色的红色鸟,即使所有的鸟具有相同的姿势,也没有两只鸟是完全相同的。它们的翅膀和尾巴上都有不同数量的黑色在第四行中可以看到类似的行为,其中所有的鸟都是橙色的,但是具有不同的颜色饱和度。这表明,条件增强是积极增加多样性的建模更精细的细节,我们的模型中的鸟类。GAN-INT-CLS 对 文 本 嵌 入的 采 样 没 有 任 何 额外 的 控 制 虽 然StackGAN表明条件增强通常有助于提高多样性,但它没有办法利用它进行受控采样。使用条件增强,我们的模型可以同时用于条件图像生成的11模型初始分数人阶GAN-INT-CLS(64× 64)2.88 ±.041.60StackGAN stage-I(64× 64)2.95 ±.021.91FusedGAN(我们的)(64× 64)3.00±.033.12GAWWN(128× 128)3.62 ±.07-StackGAN stage-II(256× 256)3.70 ±.04-FusedGAN+高分辨率(我们的)(256× 256)3.92±.05-表1.初始分数和人类平均等级提高鸟类的多样性,并对具有不同细粒度细节的鸟类进行受控采样。具有相同姿势但不同样式的插值:我们的方法还允许通过保持姿势恒定来在各种风格之间进行插值,如图5b所示。为了实现这一点,我们取两个文本样本t1和t2,然后将它们通过E,从它们各自的高斯分布中提取两个样本我们得到了两个样本,每个样本的维数为1× 128然后,我们在它们之间插值以均匀地选取8个样本,使得第一个样本对应于t1,最后一个样本对应于t2。然后,我们绘制z并生成对于这8个样本保持恒定的Ms如在我们的较早部分和推断过程中所描述的,Ms和内插样本被给出作为Gc的输入以生成条件图像。在图5b中,我们展示了这个插值实验的一些结果。每行的第一个和最后一个图像对应于两种样式。补间中的所有图像都是插值的。此外,每一行的第一图像与前一行的最后图像相同通过这种方式,我们在5种不同的风格之间进行插值,保持相同的姿势。请注意,这些行是在以下之间插值:t1→t2、 t2→t3、t3→t4、t4→t5和t5→t1以完成整个周期。高分辨率图像合成:由于我们的工作的主要贡献是合成图像的控制采样,我们提出了一个模型来合成大小为64 × 64的图像。然而,图像分辨率不是我们模型的限制我们在图6中显示了使用高分辨率生成器叠加Gc的一些可视化结果。这些视觉结果验证了可以生成高分辨率图像,而不会失去类似于图4和图5的受控图像合成能力我们在补充材料中提供了有关高分辨率发生器管道的更多详细信息定性和定量比较:为了将我们的方法与StackGAN,GAN-INT-CLS和GAWWN的结果进行定量比较,我们使用了来自各自作者的公开可用模型并计算了初始得分,如表1所示。我们为每个模型随机抽取30k张图像,并使用StackGAN提供的CUB鸟类测试集上的预训练模型计算初始分数表1示出了各种方法在高分辨率和低分辨率设置中的性能对于低分辨率的64× 64图像合成,我们的方法获得了比12N.博德拉湾Hua和R. Chellappa度量StackGAN-I 融合GAN-FS FusedGAN(我们的)初始分数2.95 ±.022.69 ±.023.00±.03表 2. FusedGAN-FS 指 的 是 在 完 全 监 督 CUB 鸟 类 数 据 集 的 情 况 下 训 练FusedGAN。FusedGAN(我们的)指的是半监督训练。StackGAN,并以显著的优势击败GAN-INT-CLS由于初始分数在充分评估保真度和多样性方面有其自身的局限性,我们还进行了用户研究,将我们的方法与两种竞争方法的结果进行对于这项用户研究,我们随机选择100个文本描述和样本8图像为每个模型。我们把这些图像给10个不同的人请他们给鸟儿的忠诚度打分。作者均未参与用户研究。用户研究的结果表明,通过我们的方法生成的鸟类与Stage-I的Stack- GAN和GAN-INT-CLS相比具有更好的这可以部分归因于这样一个事实,即我们提出的模型可以利用更多的训练图像,而没有配对的文本描述,由于我们的模型的半监督性质。表1高分辨率图像合成性能表明,我们的具有高分辨率生成的一B见 图 6 。 第 一 行 对 应 于 低 分 辨 率FusedGAN(64× 64),第二行对应于高分辨率FusedGAN(256× 256)。A和B是两个例子erator实现了最先进的性能相比,已发表的作品文本到图像合成使用CUB数据集。有关用户研究的更多详细信息,请参见补充材料。除了图4所示的有限视觉结果外,我们还在补充材料中提供了更多视觉结果评估半监督训练:由于通过设计,我们的FusedGAN支持使用半监督数据进行训练,而不需要整个数据集具有相应的文本标题。这使得我们在训练中使用未配对的图像,这被期望学习更好的生成器Gs,并且进而学习更好的结构先验Ms。为了定量评估和证明半监督训练确实有助于生成更好的图像,我们通过单独在CUB数据集上训练我们的模型来比较初始得分,而没有使用nabirds进行任何数据增强。此外,由于StackGAN stage-I仅在具有完全监督的CUB数据集上进行训练,因此它可以作为另一个基线进行比较。表2显示,与完全监督训练相比,半监督训练有助于提高初始得分,因此合成更好的图像,而完全监督训练无法利用更丰富的未配对图像。用于条件图像生成的13图7.第一次会议。生成的视觉示例说明了面部合成中风格和结构的分解5.2属性到人脸生成为了进一步分析解缠和结构先验的重要性,我们评估了其在属性到面合成上的有用性,如图7所示。对于这个实验,我们使用CelebA [7]数据集,该数据集具有用每个面部图像注释的40维我们遵循相同的训练协议来构建我们提出的模型,除了我们不使用没有配对属性的任何更多图像来这是因为CelebA已经有超过20万张图片,这已经足够了。我们使用标准DCGAN架构[9]进行培训,补充材料中提供了更多有关此方面的详细信息。结果和分析:具有相同结构但不同属性的采样与鸟类世代中的实验类似,在该实验中,我们从N(0,I)中绘制z,并保持结构先验常数。然后,我们给出各种属性向量作为输入来合成人脸,如图7所示对于图7中的每一列,所有行都具有相同的姿势和结构,但是合成的面部根据属性而变化对于每行,默认情况下,所有属性都处于禁用状态,只有每行旁边显示的属性处于启用状态。我们从图7a中得出了几个有趣的观察结果例如,在第一列中,对于前两个图像,当性别的属性从男性切换到女性时,不仅姿势而且面部的一些其他特征类似地,对于同一列中的第二和第三图像,面部看起来非常相似。仔细观察这些图像可以发现,在嘴部和颌骨区域周围存在细微的差异,这可以区分男性和女性。此外,在最后一列中,可以观察到即使对于极端姿势,结构也被保留。这进一步证实了我们的模型能够成功地理清风格和结构。图7b呈现了从各种随机属性生成的一批面部,但是具有相同的先前结构我们可以观察到不同的面孔是如何生成的,具有不同的属性,例如头发的颜色和风格,戴帽子或14N.博德拉湾Hua和R. Chellappa不,肤色,性别等,但他们看起来都一样像这样的受控采样在法医学中找到了它的用例,可以合成具有不同属性的相似面孔,这有助于制作潜在嫌疑人的肖像为了定量地衡量我们的方法的性能,我们与attribute2image进行比较 Attr2Image 使 用 额 外 的 监 督 分 割 地 图 在 rringraining , 而 我 们 的hoddoesnt r e u u p e r i n y s u s us 由于分割图的可用性,因此然而,LFW没有真实属性向量,作者使用了来自预训练模型的属性,这些属性并不可靠。相反,我们在CelebA上执行我们的实验,CelebA提供地面实况属性向量。因此,仅仅比较来自两个不同设置的图像的视觉质量不是非常有用的。为了完整起见,我们通过评估初始得分(使用[17]中的模型 我们观察到1分。87± 0 . 01,P <0.05。01用于attr2image和二、63 ± 0。03为FuSedGAN。6结论我们提出了FusedGAN,这是一种新的深度生成模型架构,用于通过融合两个生成器来生成条件图像,其中一个生成无条件图像,另一个生成条件图像。非条件图像生成可以利用没有相应条件的附加训练图像来学习良好的结构先验。这反过来又有助于合成更好的条件图像,因为除了条件之外,它还将结构先验作为其输入的一部分该模型具有堆叠和解开的优点,而不需要单独的阶段训练或额外的中间图像监督。对文本到图像合成和属性到人脸合成的大量分析和实验表明,该模型能够成功地学习风格和结构的解纠缠表示,从而生成具有高保真度,多样性和更可控的采样的鸟类和人脸7确认Navaneeth Bodla和Rama Chellappa的工作得到了IARPA JANUS的支持。这项研究是基于由国家情报总监办公室(ODNI),情报高级研究项目活动(IARPA),通过IARPA研发合同号支持的工作&。2014-14071600012.本文中包含的观点和结论是作者的观点和结论,不应被解释为必然代表ODNI、IARPA或美国的官方政策或认可(无论是明示还是暗示)。政府。美国政府被授权为政府目的复制和分发重印本,尽管其上有任何版权注释。黄虎的作品部分由中国国家自然科学基金会资助,资助号用于条件图像生成的15引用1. Dai,B.,Lin,D. Urtasun河Fidler,S.:通过有条件的根,走向多样化和自然的形象。arXiv预印本arXiv:1703.06029(2017)2. 古德费洛岛Pouget-Abadie,J.Mirza,M.,徐,B.,沃德-法利,D.,欧泽尔美国,Courville,A.Bengio,Y.:生成性对抗网。In:Advances in neuralin Formalin ProocessSystems.pp. 26723.Gregor,K.,达尼赫尔卡岛格雷夫斯,A.,Rezende,D.J.,Wierstra,D.:画:一个复发-用于图像生成的Rent神经网络arXiv预印本arXiv:1502.04623(2015)4. 古拉贾尼岛Ahmed,F.,Arjovsky,M.,Dumoulin,V.,Courville,A.:改进的瓦瑟斯坦甘斯训练。arXiv预印本arXiv:1704.00028(2017)5. Isola,P.,Zhu,J.Y.,周,T.,Efros,A.A.:图像到图像的翻译与条件对抗性网络2016年:Arxiv6. 金玛,D.P.,Welling,M.:自动编码变分贝叶斯。ArXiv预印本arXiv:1312.6114(2013)7. 刘志,Luo,P.,王,X.,唐X:在野外深度学习人脸属性于:计算机视觉国际会议(ICCV)(2015年12月)8. Mirza,M.,Osindero,S.:条件生成对抗网。arXiv预印本ArXiv:1411.1784(2014)9. Radford,A.梅斯湖Chintala,S.:使用深度卷积生成对抗网络进行无监督表示学习arXiv预印本arXiv:1511.06434(2015)10. Reed,S.,Akata,Z.,李,H.,Schiele,B.:学习精细的深层表征-颗 粒 化 的 视 觉 描 述 。 在 : Proceedings of the IEEE Conference onComputerVision andPattern Recognit ion中。pp. 4911. Reed,S.,Akata,Z.,Mohan,S.,Tenka,S.,Schiele,B.,Lee,H.:学习什么和在哪里画画在:神经信息处理系统的进展(2016)12. Reed,S.,Akata,Z.,Yan,X.,洛格斯瓦兰湖Schiele,B.,Lee,H.:生成对抗文本到图像合成。arXiv预印本arXiv:1605.05396(2016)13. Salimans,T.古德费洛岛Zaremba,W.,Cheung,V. Radford,A. Chen,X.:我-训练GAN的成熟技术神经信息处理系统进展。pp. 223414. Van Horn,G. Branson,S.,法雷尔河,Haber,S.,Barry,J.,Ipeirotis,P.,佩洛娜P.,Belongie,S.:与公民科学家一起构建鸟类识别应用程序和大规模数据 集 : 细 粒 度 数 据 集 集 合 中 的 细 打 印 。 在 : Proceedings oftheIEEEConferenceo n C onComuterVis isinandPater nRe g inition中。pp. 59515. Wah,C.,Branson,S.,Welinder,P.Perona,P.,Belongie,S.:加州理工-加州大学圣地亚哥分校Birds-200-2011 Dataset. Tech. Rep. CNS-TR-2011-001 , California Institute ofTechnology(2011)16. 王,X.,Gupta,A.:使用样式和结构副词的生成图像建模sarial网络In:ECCV(2016)17. Yan,X.,杨杰,Sohn,K.,Lee,H.:Attribute2image:从视觉属性有条件地生成图像corr abs/1512.00570(2015)18. 张洪,徐,T.,Li,H.,Zhang,S.,(1991),中国农业科学院,黄,X.,王,X.,Metaxas,D.:堆叠-gan:使用堆叠生成对抗网络进行文本到照片级逼真图像合成。arXiv预印本arXiv:1612.03242(2016)19. Zhu,J.Y.,Park,T.Isola,P.,Efros,A.A.:不成对的图像到图像的翻译我们-周期一致的对抗网络。arXiv预印本arXiv:1703.10593(2017)20. Zhu,S.,Fidler,S.,Urtasun河Lin,D. Loy,C.C.:做你自己的Prada:具有结构连贯性的时装合成
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 基于Python和Opencv的车牌识别系统实现
- 我的代码小部件库:统计、MySQL操作与树结构功能
- React初学者入门指南:快速构建并部署你的第一个应用
- Oddish:夜潜CSGO皮肤,智能爬虫技术解析
- 利用REST HaProxy实现haproxy.cfg配置的HTTP接口化
- LeetCode用例构造实践:CMake和GoogleTest的应用
- 快速搭建vulhub靶场:简化docker-compose与vulhub-master下载
- 天秤座术语表:glossariolibras项目安装与使用指南
- 从Vercel到Firebase的全栈Amazon克隆项目指南
- ANU PK大楼Studio 1的3D声效和Ambisonic技术体验
- C#实现的鼠标事件功能演示
- 掌握DP-10:LeetCode超级掉蛋与爆破气球
- C与SDL开发的游戏如何编译至WebAssembly平台
- CastorDOC开源应用程序:文档管理功能与Alfresco集成
- LeetCode用例构造与计算机科学基础:数据结构与设计模式
- 通过travis-nightly-builder实现自动化API与Rake任务构建
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功