没有合适的资源?快使用搜索试试~ 我知道了~
77230插图GAN用于全身图像生成0A0Niloy J. Mitra 2, 3 Krishna Kumar Sin0Peter Wonka 1 Eli Shechtman 20Jingwan Lu 201 KAUST 2 Adobllege London0anna.fruehstueck@kaust.edu.sa,{ krishsin,elishe } l.com,jlu@adobe.com0(b)(c)0(a)0(b)0(c)0(d)0图1.插图GAN应用。我们的全身人类生成器能够以最先进的分辨率(1024×1024像素)生成合理的身体(a)。然而,在合成结果中出现了一些伪影,最明显的是在极端部位和脸部(b)。我们利用第二个专门的生成器无缝地改进面部区域(c)。我们还可以使用给定的面部作为输入,无条件生成身体(c)。此外,我们可以选择特定的面部和身体,并将它们组合在一个无缝合并的输出中(d)。0摘要0虽然GAN在某些领域的理想条件下可以生成逼真的图像,但由于身份、发型、服装和姿势的多样性,生成全身人类图像仍然很困难。我们提出了一种新颖的方法,通过结合多个预训练的GAN,其中一个GAN生成全局画布(例如,人体),一组专门的GAN或插图专注于不同的部分(例如,脸部、鞋子),可以无缝地插入到全局画布上。我们将问题建模为共同探索各自的潜在空间,使生成的图像可以通过将专门生成器的部分插入到全局画布上,而不会产生接缝。我们通过将全身GAN与专门的高质量人脸GAN相结合来演示该设置,以产生看起来合理的人类图像。我们使用定量指标和用户研究来评估我们的结果。01. 引言0生成对抗网络(GANs)已经成为非常成功的图像生成范式。例如,StyleGAN [14]现在是创建“0对于多个类别(例如人脸、汽车、风景)的近乎逼真的图像,GAN可以产生。然而,对于展现复杂变化的类别,创建非常高质量的结果变得更加困难。例如,全身人类生成仍然是一个开放的挑战,因为人类的姿势、形状和外观变化很大。0我们如何在高分辨率和高质量下生成结果?一种方法是将目标图像分成瓦片,并训练一个GAN来顺序生成它们[7]。然而,这种方法不适用于耦合(对象)部分是非局部的和/或不容易统计建模的情况。另一种方法是收集非常高分辨率的图像并训练一个单一的GAN,以完整的分辨率生成图像。然而,这使得数据收集和训练任务非常昂贵,并且对象配置/姿势的变化会带来进一步的挑战。据我们所知,还没有发布过这样高分辨率的数据集,也没有相应的高分辨率GAN架构。0我们提出了InsetGAN来解决上述问题。具体而言,我们提出结合一个生成器来提供全局上下文,以画布的形式呈现,以及一组专门的部分生成器,为不同的感兴趣区域提供细节。然后,将专门的结果LborderLcoarse77240降采样 ↓0降采样 ↓0边界0边界0交替联合优化0优化输出期间的复制+粘贴0(b)0单个GAN优化0(a)0GA(wA)0IA0GB(wB)0IB0B0I ↓A0I ↓B0EA0EB0wB0B(wA,wB)0图2. InsetGAN流程。给定两个潜在变量wA和wB,以及预训练生成器GA和GB,分别生成两个图像IA := GA(wA)和IB :=GB(wB),我们设计了一个流程,可以仅优化wA(a),或者迭代优化wA和wB(b),以实现面部和身体的无缝输出组合。我们使用一组损失Lcoarse和Lborder来描述我们在优化过程中要最小化的条件。右侧的图示显示,给定一个身体输入,仅仅复制和粘贴目标面部会产生边界伪影。我们展示了单向优化(右上)和双向优化(右下)的应用,以创建无缝合并的结果。请注意,当算法可以在插图面部和画布身体生成器空间中进行优化时,它在接缝边界处产生更自然的结果-请注意头部到身体区域的头发和肤色的融合。联合优化是具有挑战性的,因为边界框B(IA)是以变量wA为条件的。0被粘贴为插图,放置在画布上以产生最终生成物。这种方法具有多个优点:(I)画布GAN可以在中等质量的数据上进行训练,其中对象部分不一定对齐。尽管这导致画布中的各个部分有些模糊(例如,在人体的情况下,面部模糊/扭曲),但这足以为稍后插入的特定部分提供全局协调;(II)特定部分可以在特定部分的数据上进行训练,从而更容易实现一致的对齐;(III)不同的画布/部分GAN可以在不同的分辨率下进行训练,从而降低数据(质量)要求。CollageGAN[20]在条件设置中探索了类似的思路。给定一个提供有用的形状和对齐提示的语义映射,他们使用类别特定GAN的输出集合创建拼贴画[20]。相比之下,我们的工作侧重于无条件设置,这更具挑战性,因为我们的多个生成器需要相互协作,以在没有语义映射提示的情况下生成一致的形状和外观。剩下的问题是如何协调画布和部分GAN,以使插图添加到画布上不会在插图边界处显示接缝伪影。当边界条件非常复杂且插图边界本身未知时,这一方面尤其具有挑战性。例如,当将面部添加到身体时,应具有一致的肤色、服装边界和发型流动。我们通过共同寻找(预训练的)画布和部分GAN中的潜在代码来解决这个问题,以使通过将部分插图插入画布形成的最终图像不显示任何接缝。在本文中,我们在人体生成的背景下研究了这个问题,其中0人脸是由特定于人脸的GAN生成的。我们使用自定义数据集对InsetGAN进行评估,与其他方法进行比较,并使用定量指标和用户研究评估结果的质量。图1展示了突出显示面部插图的无缝结果以及面部插入边界上多样化解决方案的人体生成应用。贡献:(1)我们提出了一个多GAN优化框架,共同优化两个或更多协作生成器的潜在代码,以使整体组合结果在将生成的部分作为插图插入生成的画布时无边界伪影且连贯。(2)我们在高度具有挑战性的全身人体生成任务上展示了我们的框架,并提出了第一个能够以1024×1024像素分辨率无条件地生成逼真人体的可行流程。02. 相关工作0通过生成对抗网络(GANs)[8]进行无条件图像生成在最近几年中显示出了很多潜力。在这个背景下,StyleGAN架构是在一系列论文[11-14]中开发的,并被广泛认为是合成个体对象类的最先进技术。对于在ImageNet数据集上进行类条件图像生成,BigGAN[5]通常是首选的架构。在我们的工作中,我们建立在StyleGAN2-ADA的基础上,因为与StyleGAN3相比,这种架构在我们的领域上产生了更好的FID[9]和Precision&Recall[17]分数。此外,使用StyleGAN2生成完整的人体图像是我们希望在我们的工作中改进的基线。77250图3. 无条件生成结果。使用我们的自适应截断方法创建的示例(在补充材料中描述),并进行水平裁剪。乍一看,结果看起来很真实,但面部区域显示出明显的伪影(请放大查看)。0图像外延是指缺失像素周围没有可用像素的图像补全问题。最近的论文基于使用生成对抗网络[29]和结构的显式建模的思想[19,34]。尽管这两篇论文专门研究人体,但我们发现GAN架构Co-ModGAN[33]在图像外延方面的结果更加令人印象深刻(请参见第5节中的比较)。全身人类的条件生成具有两个可能的优势。首先,条件生成能够提供更多的控制。其次,条件生成可以帮助控制变异性并提高视觉质量。在人类的背景下,一个自然的想法是将生成条件设置为人体姿势[4,15,16,22,23,26,28]或分割信息[10]。由于许多条件架构无法处理与无条件StyleGAN相同的高分辨率(1024×1024像素),开发新架构的替代方法是将条件嵌入到无条件生成器的潜在空间中。在这个背景下使用的两种方法是使用优化进行StyleGAN嵌入[1,2]或使用编码器架构进行StyleGAN嵌入[3,25,30]。我们的工作也使用了嵌入算法。03. 方法0我们提出了一种使用一个或多个独立预训练的无条件生成器网络无条件生成完整身体人类图像的方法。根据所需的应用和输出配置,我们描述了协调多个生成器的不同方式。03.1. 全身GAN0生成完整身体的人类图像的天真方法是使用一个训练了数万个示例人类的单个生成器(有关数据集的详细信息请参见第4节)。我们采用了Karras等人提出的最先进的StyleGAN2架构[11]。大多数先前的全身生成或编辑工作[4,18,20,35]生成的图像分辨率为256×256像素或512×512像素。我们首次尝试以1024×1024像素的分辨率无条件地生成完整身体的人类。由于目标领域的复杂性,单个GAN生成的结果有时会出现异常形状的身体部位和非常规的外观。0逼真的外观。这些伪影在面部和四肢上最为明显,如图1(a)所示。由于人类姿势和外貌的多样性以及相关的对齐困难,手和脚出现在训练图像的许多可能位置,使得单个生成器更难学习。面部尤其困难,因为我们人类对这些区域的伪影非常敏感。因此,它们需要专用的网络和特殊处理。图3显示了各种无条件生成结果。我们的结果展示了正确的人体比例,面部和身体的一致肤色,有趣的服装变化和看起来合理的配饰(例如手提包和太阳镜),但在细节中可能存在伪影。03.2. 多GAN优化0为了改善全身GAN生成的有问题的区域,我们使用其他生成器训练的特定身体区域图像生成像素,作为插图插入到全身GAN的结果中。基本的全身GAN和专门的身体部位GAN可以使用相同或不同的数据集进行训练。无论哪种情况,多个GAN中包含的额外网络容量可以更好地建模人体的复杂外观和变异性。作为概念验证,我们展示了使用从我们全身训练图像中裁剪的人脸区域训练的人脸GAN可以用于改善身体GAN结果的外观。另外,我们还可以利用在其他数据集(如FFHQ[14])上训练的人脸生成器进行面部增强。类似地,专门的手部或脚部生成器也可以用于改善身体的其他区域。我们展示了我们可以在多优化过程中同时使用多个部位生成器,如图4所示。主要的挑战是如何协调多个无条件GAN以产生彼此一致的像素。在我们的应用中,我们有一个生成全身人体的GA,其中I A :=GA(wA),还有一个生成人体内部子区域或插图的GB,其中IB :=GB(wB)。为了协调专门的部位GAN和全局/画布GAN,我们需要一个边界框检测器来识别与我们的部位GAN生成的区域对应的I A 的区域。我们用检测到的边界框裁剪IA,并将裁剪的像素表示为B(I A)。将一个单独生成的部分IB 插入到画布I A中的问题等同于找到一对潜在代码(wA,wB),使得相应的图像I A 和I B 可以在B(I A) 和I B的边界区域中无缝组合。为了生成最终结果,我们直接用I B生成的像素替换边界框B(I A) 内的原始像素:minwA,wBLcoarse := λ1L1(I↓A, I↓B) + λ2Llpips(I↓A, I↓B),(2)77260图4.两个插图。这些结果是使用专门的鞋子生成器训练的,该生成器使用我们全身人体的鞋子裁剪,并使用我们的人脸生成器。这三个生成器(全身画布和两个插图)共同优化,以产生无缝的连贯输出。圆形的放大图显示了改进前(顶部)和改进后(底部)的鞋子(请放大查看)。0Ω L(GA(wA), GB(wB)) (1)0L coarse := λ1L1(I↓A, I↓B) +λ2Llpips(I↓A, I↓B),(2)0其中,Ω :=B(GA(wA)),并且滥用符号,L捕捉了边界上测量接缝质量的Ω和区域内测量I A 和I B相似性的Ω。完整的优化是复杂的,因为感兴趣的区域Ω取决于wA。我们的多GAN优化框架可以支持各种人类生成和编辑应用。根据应用场景的不同,我们优化wA、wB或同时优化两者以获得最佳结果。优化目标。在优化潜在代码wA、wB或两者时,我们考虑多个目标:(I)由人脸GAN和身体GAN生成的人脸区域在粗略尺度上应具有相似的外观,以便当人脸GAN生成的像素被粘贴到身体GAN画布上时,属性匹配(例如,脸部的肤色与脖子的肤色相匹配);(II)人脸裁剪周围的边界像素匹配,以便简单的复制粘贴操作不会产生可见的接缝;(III)最终合成结果看起来逼真。为了匹配人脸外观,我们对人脸区域进行下采样,并计算L1和感知损失[32]的组合Llpips:0其中 I ↓ A = D 64 (B (I A)) 和 I ↓ B = D 64 (I B),D 64是将图像下采样到 64×64像素分辨率。对于边界匹配,我们还对全分辨率的边界像素应用了 L1 和感知损失:0L border :=0λ 4 L lpips (E 8 (B (I A)), E 8 (I B)) (3)0图5.面部细化。给定生成的人体,我们使用专门训练在相同数据集上的面部模型来提高面部区域的质量。我们共同优化面部和人体潜码,使得两个生成器协同工作产生连贯的结果。两个嵌入的面部裁剪图显示了由人体 GAN 生成的初始面部(底部)和由专门的面部 GAN改进的最终面部(顶部)。0其中 E x (I) 是 I 的边界区域,宽度为 x像素。为了在优化过程中保持真实性,我们还添加了两个正则化项:0L reg := λ r 1 ∥ w � − w avg ∥ r 2 �0i ∥ δ i ∥ (4)0第一项防止优化的潜码偏离平均潜码太远。我们通过在 Z空间中随机采样大量潜码,将其映射到 W 空间,并计算平均潜码 wavg。第二项是为了在 w + 潜空间中对潜码进行正则化。在 StyleGAN2推断过程中,相同的 512 维潜码 w 被输入到每个生成器层中(n取决于输出分辨率)。许多 GAN 反演方法在这个 n×512 维的 w +0我们使用了一个 512 维的 w 潜空间的单一基础 w �潜空间和 n 个偏移潜空间 δ i 来分解 w + 潜空间。第 i层使用的潜空间是 w + δ i。我们使用 L2范数作为正则化项,以确保 δ i保持较小。根据我们对结果的视觉分析,我们为身体生成器使用比面部生成器更大的权重进行正则化。根据具体应用的不同,我们混合和匹配各种损失。面部细化与面部交换。给定一个随机生成的人体 G A (w A),我们可以固定 w A并优化 w B,使得 G B (w B) 在粗略尺度上看起来与 B (G A(w A))相似,并在细粒度尺度上匹配边界像素(图2右上角)。我们有:0最小化 w B (L coarse + L border) (5)0虽然这几乎能产生令人满意的结果,但有时会出现边界不连续的情况。为了进一步改进,(6)(8)77270图6. 对现有面部进行多模态人体生成。对于由预训练的 FFHQ模型生成的每个面部(中间列),我们使用联合优化来生成三个不同的人体,同时保持输入面部的面部身份。0我们可以优化 w A 和 wB,使得两个生成器协同工作,生成一张没有混合伪影的连贯图像(图2右下角)。为了在优化 w A的过程中保持身体外观不变,我们引入了一个额外的损失项:0L body := λ 5 L 1 (R O (I A), R O (I ref))+0λ 6 L lpips ( R O ( I A ) , R O ( I ref ))0其中 I ref 是由 G A生成的输入参考人体,在优化过程中应保持不变,R O定义了面部边界框之外的人体区域。我们还使用平均潜码正则化项 L reg 来防止生成伪影。最终的目标函数为:0最小化 w A 和 w B (L coarse + L border + L reg + L body)(7)0图1(b)和图5显示了使用专门的面部模型在从用于训练人体生成器的相同数据中裁剪的面部上进行面部细化的结果。当使用预训练的 FFHQ面部模型时,我们的细化结果展现了类似的视觉质量(请参见补充材料)。对于现有面部的人体生成。给定一个真实的面部或随机生成的面部 G B (w B),我们可以固定 w B并优化 w A,使得 G A (w A)生成的人体在姿势、肤色、性别、发型等方面与输入面部相匹配。实践中,我们发现为了最好地保持边界连续性,特别是在生成与复杂发型的面部匹配的人体时,通常会避免 w B发生较大变化,以使0人脸身份大多得到保留,但边界和背景像素可以稍微调整以使wA的优化更容易。为了在优化过程中保持人脸身份,我们使用额外的人脸重构损失:0L face := λ7 L1(RI(IB),RI(Iref))+0λ8 L lpips(RI(IB),RI(Iref))0其中RI定义了人脸裁剪的内部区域,Iref表示参考输入人脸。为了更精确的控制,可以使用人脸分割代替边界框。我们的目标函数变为:0min wA,wB(L coarse + L border + L reg + L face)(9)0通过对wA进行不同的初始化,我们可以生成每个人脸的多个结果,如图6所示。注意,我们的模型可以生成与输入人脸兼容的多样化身体外观。生成的身体肤色通常与输入人脸肤色相匹配(例如,图6的顶部和底部行中的非洲裔妇女)。图1(c)显示了另一个示例。0人脸身体蒙太奇。我们可以将任何真实或生成的人脸与任何生成的身体组合以产生照片蒙太奇。对于真实的人脸,我们需要首先使用现成的编码器将其编码为GB的潜在空间wB。类似地,真实的身体可以被编码为GA的潜在空间,但由于人体的高变异性,很难实现低重构误差。所有蒙太奇结果都是由GB生成的合成身体创建的。我们使用以下目标函数:0min wA,wB(L coarse + L border + L reg + L face + Lbody)(10)0图7显示了将由预训练的FFHQ模型生成的人脸(顶部行)与由我们的全身生成器GA生成的身体(最左列)组合的结果。通过微调人脸和身体潜在编码,我们实现了连贯和保持身份的合成结果。虽然我们没有任何明确的损失来鼓励肤色的一致性,但是在给定具有不同肤色的人脸的情况下,我们的联合优化会微调身体的颈部和手部像素的肤色,以最小化最终结果中的外观不一致性和边界差异。图1(d)显示了另外两个示例。我们的联合优化能够微调女士的肩部区域,使她的头发自然地休息在右肩上。图2的最右列显示了联合优化对最终结果质量(底部)的改进,与仅优化wB(给定输入身体)相比。0优化细节。虽然差异微小,但我们观察到使用L1损失比L2损失具有稍好的视觉性能。我们将许多损失应用于图像的降采样版本D64(B(IA))和D64(IB)上,以便在优化过程中提供更大的灵活性,并减少对源图像的伪影过拟合的风险(例如,身体GAN的人脸区域缺乏真实的高频细节),类似于PULSE的策略。在wA和wB的联合优化中,一个挑战是边界条件Ω取决于变量wA。我们通过交替优化wA和wB,并在每次更新wA后重新评估边界来解决这个问题。我们to allow for more flexibility during optimization and to re-duce the risk of overfitting to artifacts from the source im-age (e.g., the body GAN’s face region, which lacks realistichigh-frequency details) in a strategy similar to PULSE [24].One challenge in the joint optimization of wA and wB isthat the boundary condition Ω depends on the variable wA.We address this by alternately optimizing for wA and wB,and reevaluating the boundary after each update of wA. We77280图7.人脸身体蒙太奇。给定由预训练的FFHQ模型生成的目标人脸(顶部行)和由我们的全身人类生成器生成的身体(最左列),我们应用联合潜在优化来找到可以组合产生连贯全身人类的兼容人脸和人体潜在编码。注意人脸和肤色如何同步,并放大观察人脸插图周围的(缺少)接缝。0图8.多模态人脸改进。为了改进由DeepFashion训练的全身模型生成的人类,我们使用预训练的FFHQ模型合成了一系列无缝融合的结果人脸,所有这些人脸看起来都与输入的身体兼容。0当更新收敛时停止该过程。优化初始化。对于wA或wB的默认初始化选择是它们对应的平均潜在向量wavg。这通常能够快速得到合理的结果。然而,对于像找到匹配的身体IA用于输入的人脸IB等应用,生成多样的结果是可取的。在这种情况下,我们从截断的潜在编码wtrunc = wrand * (1 - α)+ wavg *α开始。由于引入了随机性和与平均潜在编码的插值,我们可以生成多样而逼真的结果(见图6)。在图8中,给定由我们在DeepFashion上训练的全身模型生成的人类,我们使用预训练的FFHQ人脸模型替换了多个更好看的脸部。不同的wB初始化会产生不同的结果。在同时优化两个潜在编码的过程中,如果要求脸部区域或身体区域保持固定,我们会使用最初用于生成合成参考图像的潜在编码或从真实图像编码的潜在编码来初始化优化过程。04. 数据集和实现0我们整理了一个专有的数据集,包含83,972张高质量的全身人类照片,分辨率为1024×1024像素。这些图像来自于从第三方数据供应商购买的100,718张多样化的野外照片数据集。数据集包括手工标注的地面真实分割掩模。我们在原始图像上应用了一个人体姿势检测网络[6],并过滤掉那些包含极端姿势的图像,导致姿势检测结果置信度较低。图9显示了一些样本训练图像。特征对齐在高质量图像生成中起着重要作用,这可以从在FFHQ数据集上训练的模型与其他人脸数据集上训练的模型的定性差异中看出。因此,我们使用姿势骨架仔细对齐人类。我们根据颈部和臀部关节的位置定义一个上半身轴线。我们将人类定位在上半身轴线在图像中心对齐的位置。由于透视和姿势的变化非常大,在每个人的图像框架中选择适当的比例是具有挑战性的。我们根据上半身长度对人类进行缩放,然后评估由分割掩模定义的脸部区域的范围。如果脸部长度小于给定的最小值(大于最大值),我们将重新缩放,使脸部长度等于最小值(最大值)。最后,我们使用反射填充扩大背景,并使用大小为27的高斯核对其进行模糊处理,以便生成器的容量仅集中在建模前景人物上。这些野外照片中背景外观的巨大变化对GAN提出了极大的挑战,尤其是在数据量有限的情况下。我们也考虑完全去除背景,但由于两个原因没有这样做:(1)人工标注的分割掩模在边界周围仍然不完美,(2)我们观察到当前的GAN架构不能很好地处理大面积的均匀颜色。我们还展示了我们在DeepFashion上的方法,该数据集包含66,607张时尚照片,包括服装和穿着服装的人物。使用与上述相同的对齐策略,我们提取了10,145张1024×768分辨率的全身图像。由于背景已经是均匀的,我们不对其进行模糊处理。训练细节我们使用StyleGAN2-ADA架构,在4个Titan VGPU上使用所有论文中提出的增强方案,以28天18小时的时间训练了我们的主要人体生成器网络,分辨率为1024×1024像素,批量大小为4,处理了4200万张图像。在尝试了0.1到20之间不同的R1γ值后,我们选择了13。类似地,我们使用4个v100GPU在9天内训练了我们的DeepFashion人体生成器网络,分辨率为1024×768像素,批量大小为8,处理了1800万张图像。我们使用预训练的FaceNet[27]来检测和对齐我们生成的身体和脸部的边界框。在1024×1024像素的输出分辨率下,我们优化算法同时优化两个生成器潜在变量的运行时间约为75秒。如果GB的分辨率较小,为256×256像素,则优化时间减少到约60秒。77290图9.全身人类数据集。我们从野外的人类照片中创建了一个数据集。这些图像经过自动预处理、对齐和裁剪,分辨率为1024×1024像素,使用地面真实分割掩模和检测到的姿势骨架。0根据他们的上半身长度对人类进行缩放,然后评估由分割掩模定义的脸部区域的范围。如果脸部长度小于给定的最小值(大于最大值),我们将重新缩放,使脸部长度等于最小值(最大值)。最后,我们使用反射填充扩大背景,并使用大小为27的高斯核对其进行模糊处理,以便生成器的容量仅集中在建模前景人物上。这些野外照片中背景外观的巨大变化对GAN提出了极大的挑战,尤其是在数据量有限的情况下。我们也考虑完全去除背景,但由于两个原因没有这样做:(1)人工标注的分割掩模在边界周围仍然不完美,(2)我们观察到当前的GAN架构不能很好地处理大面积的均匀颜色。我们还展示了我们在DeepFashion上的方法,该数据集包含66,607张时尚照片,包括服装和穿着服装的人物。使用与上述相同的对齐策略,我们提取了10,145张1024×768分辨率的全身图像。由于背景已经是均匀的,我们不对其进行模糊处理。训练细节我们使用StyleGAN2-ADA架构,在4个Titan VGPU上使用所有论文中提出的增强方案,以28天18小时的时间训练了我们的主要人体生成器网络,分辨率为1024×1024像素,批量大小为4,处理了4200万张图像。在尝试了0.1到20之间不同的R1γ值后,我们选择了13。类似地,我们使用4个v100GPU在9天内训练了我们的DeepFashion人体生成器网络,分辨率为1024×768像素,批量大小为8,处理了1800万张图像。我们使用预训练的FaceNet[27]来检测和对齐我们生成的身体和脸部的边界框。在1024×1024像素的输出分辨率下,我们优化算法同时优化两个生成器潜在变量的运行时间约为75秒。如果GB的分辨率较小,为256×256像素,则优化时间减少到约60秒。05. 评估与讨论0定量评估。我们遵循标准做法,计算FID(FréchetInceptionDistance)来衡量我们生成的全身结果与训练分布的接近程度。许多以前的论文,包括Co-0ModGAN指出,FID统计数据噪声较大,与人类对视觉质量的感知关联性不强。我们还观察到,FID对结果的多样性比质量更敏感,并且随着我们截断生成的结果,FID显著增加,这减少了变异性,但对于生成具有较少伪影的自然图像至关重要。虽然未截断结果的FID为13.96,但对于t=0.7,FID上升到26.67,对于t=0.4(更多截断),FID上升到71.90。我们比较了几种替代方法在面部细化应用中的FID值。我们使用两种不同的截断设置,t=0.7和t=0.4,并在全身图像和包括经过复制和粘贴后的细化面部和边界像素的图像裁剪上进行评估。0t=0.7 t=0.4 FID分数(较低为更好)全身 面部 全身 面部0无条件生成 26.67 27.14 71.90 66.61 InsetGAN 25.33 31.6169.58 61.570FID的差异很小。这表明使用联合优化进行面部细化不会修改无条件生成器学习到的分布,因此不会降低结果的多样性。然而,尽管FID值相似,感知质量仍可能存在较大差异,这在我们的用户研究中得到了证明。基准比较。据我们所知,没有其他先前的工作在不需要除已知区域的参考像素外的条件下,无条件地生成1024×1024像素分辨率的全身人物或修复/扩展人物。以前的工作曾尝试生成合理的人体,但它们需要输入分割掩码。可以重新用于我们的身体生成和面部细化应用的最佳现有方法是CoModGAN[33]。图10显示,我们的InsetGAN(右上)在替换由我们的身体生成器(左)生成的初始面部方面优于CoModGAN(右下)。我们使用官方实现、训练数据和默认参数在四个V100GPU上训练了两周的CoModGAN,使用了围绕面部的方形(带有小的随机偏移以进行泛化)孔。同样,我们使用围绕身体的矩形孔训练CoModGAN,以与我们的InsetGAN进行身体生成任务的比较。在图11中,我们展示了使用几个随机初始化的输入面部获得的CoModGAN的两个最佳结果。与我们在图6中的结果相比,CoModGAN产生的图像完成更不真实和多样化。77300图10. 与Co-ModGAN[33]进行面部细化比较。给定生成的人物(左),InsetGAN改善了面部质量(右上),产生了比CoModGAN(右下)更具说服力的结果。CoModGAN的结果是通过在面部区域周围定义矩形孔来生成的。0用户研究。我们进行了一项用户研究,以更好地评估我们方法的感知质量。我们从我们的全身生成器中聚合了500个生成的人物和500个随机训练图像。然后,我们应用我们的联合优化方法或CoModGAN来替换生成样本中的面部区域。我们向亚马逊机械土耳其的志愿者参与者展示了几组图像对,并要求他们选择“哪个图像中的人看起来更合理和真实”。每个图像对收集了5个投票,并汇总到多数票中。研究显示,在12.4%的图像对中,用户更喜欢我们未经细化的结果,而不是训练图像,每个图像只有1秒钟的观看时间。这表明我们的结果正确地捕捉到了基本的人体比例和姿势,能够让人们产生真实的困惑。在98%的情况下,用户更喜欢我们的联合优化结果而不是未经细化的图像。相比之下,只有7%的CoModGAN样本被选中,而不是未经细化的图像,这与我们从图10中的观察一致。局限性。我们的工作有多个局限性,可以从改进中受益。首先,联合优化方法可能会改变细节,如发型、领口或服装细节。在许多情况下,这些变化是微小的,但在某些情况下,变化可能较大,例如图6中间行的女人的头发和图7顶行的男人的衣领。其次,如图3所示,我们的全身GAN存在其他问题,InsetGAN无法改进:对称性,例如在手和脚上以及服装上(穿着浅蓝色衬衫的女人)可见,以及用于服装的面料的一致性(最右边的人)。第三,生成的结果在体型和姿势方面的变化有限,下面将更详细地讨论。由于训练数据分布的原因,我们生成的结果绝大多数都具有纤细的体型。数据集偏差和社会影响。DeepFashion和我们的专有数据集都存在偏差。DeepFashion包含有限数量的唯一身份。同一模型出现在多个图像中。绝大多数图像是女性(约9:1),年龄、种族和体形范围并不代表真实的人类群体。因此,对其进行训练的模型只能0图11. 使用CoModGAN生成身体 [ 33 ].我们展示了由CoModGAN生成的结果,该模型经过训练可以填充给定图像中覆盖身体的矩形空洞。插图中显示了带有空洞的输入图像。我们为每个输入生成了多个结果,并在此展示了最好的两个结果。请参考图6以查看我们在相同输入人脸上的结果。我们观察到,CoModGAN创建了无缝的内容,但与我们的结果相比,视觉质量较差。0生成有限范围的身份(主要是年轻的白人女性),如图8所示。我们尽力寻找多样化的数据集,并从一个东亚的数据供应商购买了一个数据集,但注意到图像中年轻亚洲女性的过度呈现。此外,许多图像似乎描绘了苗条的街头时尚模特;因此,绝大多数图像都包含苗条的身材和正式的服装。在偏见数据集上训练的模型往往会学习到对人体的偏见表示。由于亚洲人的过度呈现,我们在其他种族的结果中在面部区域包含更多的伪影(参见图3中最右边的四个结果)。我们鼓励未来的研究努力多样化训练数据集,以更好地服务于我们多样化的社会。我们生成过程的无条件性以及一些在低分辨率下操作的优化损失的限制意味着我们生成的人体输出可能无法完全保留输入图像中的属性。此外,由于我们的数据中几乎只有成年人的年龄分布,我们无法忠实地为儿童的面部生成身体。与其他人类领域生成模型类似,我们的方法可以被恶意用户利用来生成深度伪造图像。然而,正如我们在用户研究中所看到的,即使在短短的一秒钟内,用户仍然能够将我们大部分生成的结果与真实的人类图像区分开来。随着我们进一步提高结果质量,我们希望并鼓励其他研究人员研究深度伪造检测算法。06. 结论0我们提出了InsetGAN,这是第一个能够以1024×1024像素分辨率无条件地生成逼真人类图像的可行框架。InsetGAN的主要技术贡献是引入了一个多GAN优化框架,可以同时优化两个或多个协作生成器的潜在编码。在未来的工作中,我们计划将多生成器的思想扩展到3D形状表示,例如3DGAN或基于Transformer的自回归模型。我们还计划在其他图像领域展示InsetGAN框架,并研究多GAN设置中的协调潜在编辑。77310参考文献0[1] Rameen Abdal, Yipeng Qin, and Peter Wonka.图像到StyleGAN: 如何将图像嵌入StyleGAN潜空间? InProceedings of the IEEE/CVF International Conference onComputer Vision and Pattern Recognition (CVPR) , pages4432–4441, 2019. 30[2] Rameen Abdal, Yipeng Qin, and Peter Wonka.图像到StyleGAN++: 如何编辑嵌入图像? In Proceedings of theIEEE/CVF International Conference on Computer Vision andPattern Recognition (CVPR) , pages 8296–8305, 2020. 30[3] Yuval Alaluf, Or Patashnik, and Daniel Cohen-Or. Restyle:基于残差的StyleGAN编码器通过迭代细化. In Proceedings ofthe IEEE/CVF International Conference on Computer Visionand Pattern Recognition (CVPR) , pages 6711–6720, 2021. 30[4] Badour AlBahar, Jingwan Lu, Jimei Yang, Zhixin Shu, EliShechtman, and Jia-Bin Huang. 姿势与风格:保留细节的姿势引导图像合成与条件StyleGAN. ACMTransactions on Graphics , 2021. 30[5] Andrew Brock, Jeff Donahue, and Karen Simonyan.大规模GAN训练用于高保真度自然图像合成. In InternationalConference on Learning Representa- tions (ICLR) , 2019. 20[6] Zhe Cao, Gines Hidalgo, Tomas Simon, Shih-En Wei, andYaser Sheikh.OpenPose:使用部分亲和场进行实时多人2D姿势估计。《IEEE模式分析与机器智能交易》,第43卷,第01期,172-186页,2021年。60[7] Anna Fr¨uhst¨uck, Ibraheem Alhashim, and Peter Wonka.Ti- leGAN:合成大规模非均匀纹理。《ACM图形学交易(ACMSIGGRAPH会议论文集)》,第38卷,第4期,58:1-58:11页,2019年。10[8] Ian Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu,David Warde-Farley, Sherjil Ozair, Aaron Courville, and YoshuaBengio.生成对抗网络。《神经信息处理系统进展》,第27卷,2014年。20[9] Martin Heusel, Hubert Ramsauer, Thomas Unterthiner,Bernhard Nessler, and Sepp Hochreiter.通过两个时间尺度更新规则训练的GAN收敛到局部纳什均衡。《神经信息处理系统进展》,第30卷,2017年。20[10] Jinfeng Jiang, Guiqing Li, Shihao Wu, Huiqian Zhang, andYongwei Nie.BPA-GAN:使用身体部位感知的生成对抗网络进行人体运动转移。《图形模
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- IEEE 14总线系统Simulink模型开发指南与案例研究
- STLinkV2.J16.S4固件更新与应用指南
- Java并发处理的实用示例分析
- Linux下简化部署与日志查看的Shell脚本工具
- Maven增量编译技术详解及应用示例
- MyEclipse 2021.5.24a最新版本发布
- Indore探索前端代码库使用指南与开发环境搭建
- 电子技术基础数字部分PPT课件第六版康华光
- MySQL 8.0.25版本可视化安装包详细介绍
- 易语言实现主流搜索引擎快速集成
- 使用asyncio-sse包装器实现服务器事件推送简易指南
- Java高级开发工程师面试要点总结
- R语言项目ClearningData-Proj1的数据处理
- VFP成本费用计算系统源码及论文全面解析
- Qt5与C++打造书籍管理系统教程
- React 应用入门:开发、测试及生产部署教程
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功