没有合适的资源?快使用搜索试试~ 我知道了~
7683PZPZPTransEditor:基于Transformer的双空间GAN实现高可控性人脸编辑徐艳波1,4尹月琴1,蒋黎明2,吴倩怡5,郑成耀3,陈昌来2,戴波2,吴伟1,31上海人工智能实验室2南洋理工大学S-Lab3商汤科技4香港科技大学5莫纳什大学yxubu@connect.ust.hkmonash.eduyinyueqin0314@gmail.com{limig002,ccloy,bo.dai} @ ntu.edu.sgzhengchengyao@sensetime.comwuwenyan0503@gmail.com源图1.由transEditor提供的各种编辑示例。 第四列上的图像是采样的源图像,其在语义上被内插到左侧和右侧。我们提出的双潜空间,即-空间和-空间,不同的属性可以在一个空间单独或在双空间同时编辑,展示了我们的方法的灵活性头部姿势(第一行)和波浪头发(第二行)仅通过-space进行编辑。分离的双空间通过在-空间中编辑姿势和在-空间中编辑微笑来同时编辑姿势和微笑(第三行)。跨空间交互允许协作编辑复杂属性,如性别(最后一行)。摘要StyleGAN等最新进展促进了可控面部编辑的发展。为了解决其在单个潜在空间中的属性解耦的核心挑战,已经尝试采用双空间GAN来更好地解开风格和内容表示。然而,这些方法仍然不能获得具有高度可控性的合理编辑结果,特别是对于复杂的属性。在这项研究中,我们强调了双空间GAN中交互的重要性,以实现更可控的编辑。我们提出了一个小说,基于转换器的框架来增强这种交互。此外,我们开发了一种新的双空间编辑和反转策略,以提供额外的编辑灵活性。大量的实验证明了该框架在图像质量和编辑能力方面的优越性,表明了TransEditor在高度可控的 面 部 编 辑 方 面 的 有 效 性 。 代 码 和 模 型 可 在www.example.com上公开获得https://github.com/BillyXYB/TransEditor。两个作者有相等的贡献,按顺序排列。这项工作是在上海人工智能实验室实习期间完成的。性别卷发姿势+微笑构成7684PZZZP××1. 介绍由于生成对抗网络(GAN)的进步,高保真生成建模已经取得了巨大的飞跃[13,22,23]。这些努力加快了面部编辑的进步[14,16,40],这是一项具有许多实际应用的重要下游任务,绕过了繁琐的手动编辑过程。当应用当前的方法时,永不停止的、高度可控的面部属性编辑仍然具有挑战性[23高度可控的面部编辑的主要挑战在于潜在空间中属性的清晰解缠。例如,期望在操纵肖像的头部姿态时保持一致的面部特征。代表性的基于GAN的方法[23,24]探索了单个潜在空间表示和生成器的风格调制技术,以实现更好的图像生成和语义编辑。另一方面,一些研究[6,39]专注于以细粒度方式对特定面部部位进行局部区域编辑然而,在单一的潜空间设计下,这些作品仍然遭受着某些复杂属性的潜纠缠,如脸谱化。为了应对这些挑战,最近的研究[4,25]已经提出了初步的尝试,这些尝试利用了StyleGAN [22]架构中风格和内容分离的双重潜在空间的想法,在每个空间中实现了合理的语义分离然而,这些尝试可能不足以充分利用双空间GAN的潜力。我们经验性地观察到,这些方法不能获得体面的面部编辑结果,特别是在复杂属性中,如图所示六、改变人脸的姿态可能会产生令人不满意的伪影,并且当通过固定内容代码来内插DAT [25]的样式代码时,很容易发生色调的剧烈变化因此,我们推测根本原因是两个潜在空间之间缺乏交互,因此编辑一个空间可能会扭曲另一个空间,使得可控的面部编辑不可行。在本文中,我们表明,潜在的空间在一个双空间GAN的相互作用起着重要的作用,在面部编辑。受最近Transformer [5,9,20,27,38]在视觉任务中取得的 巨 大 成 功 的 启 发 , 我 们 提 出 了 一 种 新 的 基 于Transformer的双空间GAN,名为TransEditor,以加强双潜在空间的相互作用。生成元中的两个潜在空间,-space和-space分别用作生成器的初始输入特征映射和所有层的风格调制[23]。具体来说,我们提出了一个基于Transformer的跨空间交互模块,在该模块中,我们结合了基于Transformer的跨空间注意力机制,以增强这两个空间之间的交互,从而促进高度可控的面部编辑。相互作用的设计是不平凡的,因为潜在的纠缠可能会加剧,互动。我们建议使用P空间作为查询,Z空间作为键和值.因此,仅利用P-空间来重新加权来自Z-的值矩阵。空间通过跨空间交互模块,因此仍然与来自空间的精炼代码相分离。由于交互模块的设计,我们的双空间允许灵活的编辑,同时保持解纠缠- ment语义在一个富有表现力的方式,与-空间主要控制的结构信息和-空间确定纹理表示。然后,不同于以前在单个空间中执行编辑的方法[32-1)。此外,为了实现真实图像编辑,我们还扩展了现有的反演技术[31]以适应所提出的双空间设计。本工作的贡献可以概括为以下几点。我们提出了transEditor,一种新的基于transformer的双空间GAN高度可控的面部属性编辑。通过引入跨空间注意机制,两个潜在空间可以以一种非纠缠的方式建立有意义的互动。此外,我们开发了一种新颖的灵活的双空间图像编辑和反转策略,以利用TransEditor提供的改进的可控性。大量的实验证明了TransEditor在高度可控和稳定的面部属性编辑方面的有效性,优于最先进的方法,特别是对于复杂的属性。2. 相关工作2.1. 解纠缠的结构潜空间单一潜在空间。ProgressiveGAN [21]使用潜在代码作为输入 特征图来控 制整个图像 的生成。StyleGAN[22,23]使用将初始分布映射到中间潜在空间w的映射网络来改进分解,因此潜在代码的分解可以重新形成给定的真实图像分布。此外,逐层自适应正常实例( AdaIN ) [11 , 18] 用 于 进 一 步 改 善 解 纠 缠 。StyleMapGAN [24]将潜在代码重塑为具有空间结构的张量。该方法实现了良好的重建结果,但语义编辑性能较差,称为可编辑性-失真权衡[2,36,44]。它的编码器也需要一起训练原因是网络依赖于编码器来使真实图像的投影风格图实现局部对应[24]。双重潜在空间。为了达到更好的解缠或空间意识,一些研究,探索双潜在空间的设计已被提出。SNI [4]将潜在空间分为空间可变和空间不变部分。分离允许一定程度的本地编辑。然而,空间代码(4 4或8 8)的有限容量可能会导致执行内容控制时失败[25]。DAT [25]通过引入类似于原始潜在空间的对称空间并在生成过程中利用分离操作进行解纠缠来改进结构。然而,内容空间亲-7685FSPZZPN∈∈Z × PPP∈∈ZPPp2...pn−由DAT [25]构成的pose单独对每个像素进行操作,因此它缺乏全局结构连接,并且不能很好地处理某些具有较大结构变化的属性,如pose。对于各种任务,还有其他类型的双重潜在空间。Zhu等[43]提出了图像合成的空间和空间。Park等人[29]使用样式码向量和具有空间维度结构码。[3,26]分解虚拟试穿的姿势和风格。2.2. 基于GAN的图像编辑潜空间操控。由于GAN的潜在空间是语义感知的,因此可以通过潜在空间导航来操纵生成图像的属性[42]。 以前的作品旨在寻找seman-tic方向通常可以分为监督方向[12,32],自我监督方向[19,35]和非监督方向。[15,34]监督的人。InterfaceGAN [32]通过使用属性分类器和SVM在潜在空间中找到对应于特定属性的超平面。Jahanian等人[19]需要大量成对的例子来拟合图像变换。SeFa [34]对特征向量进行分解,并找到无需额外标签的可解释方向同时,有一些研究[6,39]专注于特定面部部位的局部编辑。StyleSpace [39]提出了一个通道样式参数空间,以执行高度本地化和分离的属性编辑。GAN反演。使用“潜在空间”编辑真实图像空间.图2(a)显示了我们模型的结构。我们提出了两个潜在的空间,并与单独的映射(第二。3.1),它们分别用作生成器和逐层样式调制的初始输入特征图然后,基于trans-former的交互模块(Sec. 3.2)来模拟这两个空间之间的交互,使它们在编辑期间更加平衡此外,我们开发了一种新的双空间图像编辑和反演策略(第二节)。3.3)用于真实图像编辑。3.1.对偶潜空间不是学习将单个高斯分布映射到图像x的生成器G,即,x=G(z),z(0,I),在我们的方法中使用两个分离的潜在空间因此,我们的生成过程可以重新表述为:x=transEditor(z,p),(1)其中(z,p)。注意,确定两个空间应该如何与生成器集成是不平凡的。对于基于StyleGAN2的架构[23],在每一层,生成过程可以表示为:Fi+1=ModuConv ( Twi , Fi ) ,(2)其中Fi表示从预处理产生的特征图操作时,图像应投影回生成器的潜在空间[42]。基于优化的方法[1,28]直接优化潜在代码以最小化像素级重建损失。然而,优化过程是缓慢的,并且反转的代码可能会落在原始语义流形之外,使得编辑过程遭受有意义的语义操纵。这个问题通过基于学习的方法[31,36]解决,该方法使用由生成器训练和指导的额外编码器将图像直接嵌入到潜码中,从而在真实图像编辑期间提供益处。2.3. 基于转换器的交互多头注意模块通常用于一些多模态任务中,以建立文本模态和视觉模态之间的模态间交互,例如图像字幕[7,17]和文本到图像翻译[8,30]。TransStyleGAN[27]引入了一个Transformer结构来对样式代码的不同层之间的相关性进行是由层样式码wi确定的调制和解调过程。 尽管在每一层执行调制和解调,但是每个特征图是来自前一层的卷积结果。因此,初始特征图F0是整个生成过程的基础。 2(b),为了提供更多的可控性,我们用来自-空间的潜在输入代替学习的常数输入。此外,空间提供的自适应能力使我们能够消除噪声输入.此外,我们认为为整个潜在输入重塑单个采样向量是固有纠缠的[4],因此我们的两个空间和由分离的子矢量组成,即,zRn×512,pRn×512。 为了进一步鼓励理想的解纠缠性质,我们在对偶空间(z+,p+)∈Mz(Z)×Mp(P),可以写为:在基于StyleGAN 2架构的单个潜在空间内。在这项工作中,我们利用多头atten-z+MZ10...0z1z2+z+Zn0Mz...0在Transformer [37]中建立交互模块,z=2=2(三)所提出的对偶潜在空间之间的关系(即,- 空间和空间),促进更灵活和可控的-致敬编辑...z+...00...MZN...zn17686n通过分离但协作的双重...00...Mpn3. 方法+PIMp10...0中国1亿+p+0百万p...0我们的目标是实现更可控的面部属性p=2=2(四)1...p+7687ZP× ∈×ZPZ × P(a) TransEditor(b)StyleGAN2图2. TransEditor的网络架构。 (a)显示了我们模型的结构,它包含两个独立的潜在空间,基于Transformer的跨空间交互模块和生成器。与(b)StyleGAN 2 [23]相比,我们的生成器使用p+代码作为输入,交互结果(z+)L(w)用于风格调制。注意每个Mzi或Mpi是一个MLP [10]模,映射空间z+p+Rn×512Rn×512。在我们的实验中,我们设置n= 16。空格仍然是分开的,但是z+已经采用了查询p+。这种设计能够更好地解开对偶空间,同时在编辑过程中保持全局一致性3.2. 基于变换器的跨空间交互(参见第二节)4.3)。细化的潜在代码(z+)L,即w,用作在双空间GAN中,使用两个分离的潜在代码的朴素生成可能是有问题的。SNI [4]表明,在所有层添加样式代码会影响解缠性能,即,在生成器的早期层改变样式代码会尽管DAT [25]比SNI实现了更好的解纠缠我们将这种现象归因于在双重潜在空间中缺乏相互作用,因为它们不以任何方式相关。受跨域Transformer模型[30]的启发,我们通过基于交叉注意的交互模块将两个分离的空间关联起来。映射的潜在代码z+被用作键(K)和值(V),并且潜在代码p+被用作查询(Q)。第l层Transformer中的交互可以写为:Q=p+WQ,K=(z+)IWK,V=(z+)IWV,(5)式调制参数的发生器G.因此,图像x的生成过程被公式化为:x=G(w,F0),(7)其中,w是从等式2产生的调制输入(6),和重塑模块(见图。2(a))将映射的p+代码重新成形为初始特征图F0,其空间维度适合作为生成器的输入。我们的生成器的训练是完全无监督的,它只应用StyleGAN2 [23]之后的对抗损失和路径长度正则化3.3. 双空间图像编辑与反演直觉上,一些复杂的属性(例如,年龄)可能涉及面部结构和纹理两者的变化。有了我们解开的对偶潜在空间,我们建议使用和一起编辑这样的复杂属性。据我们所知,这是第一个研究,同时通过两个潜在的空间进行属性编辑。(z+)l+1QKT=softmax(√d )V+(z+)1、(6)由于强制执行语义分布以拟合原始高斯分布是不可取的[22],编辑过程其中WQ、WK、WV是线性投影矩阵,并且dk是潜在码的公共维度。换句话说,由p+查询的注意力过程将是op-通过隐操作,我们的模型的过程是在乘积空间++上操作的。因此,我们的双空间操纵过程可以写为:在z+. 由于p+只作为查询,两个I(Z+×P+)(z、p+)=(IZ+K+++7688(Z),IP+(p)), (8)7689方法LPIPSall↑LPIPSzLPIPSpLPIPS↓∈Z∈PZPZP∗∗我ZP×[25]第二十五话我们0.55960.56182015年12月31日1999年12月31日表1. FFHQ-256的LPIPS评分比较[22]。较高的LPIPS代表更多样化的结果。LPIPSz是通过固定p码和随机抽样z码来获得的,类似于LPIPSp。LPIPS是LPIPSz和LPIPSp之间的差值,较低的值表示更平衡的对偶空间。图3. 双空间倒置架构。反转的z+代码来自提取的特征图的不同层,而p+代码来自最高特征图。其中z++、p++和I i表示在空间i上操作的操作。值得注意的是,两个运算I+和I+可以是不同的。在我们的例子中,我们利用InterFaceGAN [33]的线性潜在操作方法来处理这两个空间。具体来说,对于每个属性,我们使用SVM分类器来训练由两个分离的潜在空间+和+中的正常向量表示的两个超平面。此后,对于已知的潜在码z+和p+,我们可以沿着nz移动λz步,沿着np移动λp步,以得到新的la-本节中使用的定量度量如下所示。重新评分计算。我们设计了一个由Ce/Ci给出的度量标准来定量评价编辑性能,其中Ce和Ci分别表示被编辑和受影响属性的属性得分的累积变化。它有效地衡量了一个属性的编辑如何影响其他属性。补充材料中包含了这一指标的详细信息。较低的值表示较少纠缠(更好)的编辑结果。学习感知图像块相似性(LPIPS)。LPIPS [41]测量潜在空间的多样性较大的LPIPS分数指示更多样化的空间。4.1. 隐空间插值与编辑我们的双潜空间实现了一定程度的语义-帐篷码(z++λ zn z,p++λ pn p)。为属性完全包含在一个空间中,我们编辑它们,抽搐分离,像姿势一样,空间控制结构信息,仅在该空间上操作(例如,λp= 0)。 更复杂-如果同时使用这两个空间,则可以更好地操纵诸如性别之类的特定属性然后将使用操纵的代码来生成编辑的图像。为了编辑真实图像,有必要将图像反转回双潜空间。我们采用pSp [31]编码器架构用于我们的双空间图像反转。如图3.首先使用特征金字塔提取输入真实图像的三级特征图。由于我们的z+空间具有分层结构,因此使用不同的特征来生成每个z+。p+潜在码仅从编码器中的最高级别特征映射,并作为生成器的初始特征映射输入注入。上述反转策略映射真实图像- 空间控制纹理信息。解纠缠和平衡的对偶空间。在我们的架构中的两个潜在空间都是语义上有意义的,同时实现了理想的解纠缠。具体来说,头部姿势完全由空间控制。如图如图4a所示,当重新采样z代码时,所有生成的图像共享相同的头部姿势。另一方面,当z代码固定时,类似的纹理,即,颜色,化妆,种族,将出现在所有结果(图。第4b段)。此外,在双重空间的设置下,往往希望有更多的平衡空间,而不是由一个单一的空间主导。DAT [25]使用多样性损失来鼓励其内容空间的多样性。在选项卡中。1,我们的对偶空间实现了比DAT更平衡的空间分离,同时获得更高的整体分集。多样性差异进入我们训练好的双潜空间,线性潜在操纵以执行双空间编辑。我们的对偶空间(dual spaces)LPIPS )为0。0662,这是一半的4. 实验在我们的实验中,我们首先评估了我们的方法在高度可控的面部编辑中的有效性4.1)。然后,我们将我们的方法与三种代表性的最先进的方法进行比较(第二节)。4.2),即,单空间方法(StyleGAN 2 [23],StyleMapGAN [24])和双空间方法(DAT [25]),在两个定性(第25节)。4.2.1)和定量(第4.2.2)方面。此外,我们还进行了消融研究(第4.3)分离我们方法的每个关键组件。我们在CelebA-HQ [21]和FFHQ[22]上训练了TransEdi- tor,分辨率为256 256.实验设置和实施的详细信息可以在我们的补充材料中找到那个...DAT [25].这与我们的定性观察一致,即TransEditor的两个空间都显示出更高的控制不稳定性,因为它们更平衡。潜空间插值这两个空间都是光滑的和语义感知的,因此可以通过向特定方向插值来改变某些面部属性图4c示出了每行处的固定头部姿势以及当z代码被内插时纹理的平滑变化同样,图图4D示出了具有固定z代码的每行处的纹理信息的小变化,以及具有相同p代码的每列的头部姿势的一致性。潜在空间的平滑性和语义感知属性允许更好的属性编辑。双重潜在空间编辑。使用双空间潜在操纵方法(第二节)3.3),属性编辑可以按-MMMM+…+M…MM…M……Mp'投资$r&z'投资$r&7690PZP(a) 修复p代码和样本z代码(b)修复z代码和样本p代码(c)内插z代码(d)内插p代码图4.transEditor的双重潜在空间。(a)中的每一行都是由一个固定的p码和一个随机采样的z码生成的类似地,(b)中的每一行由固定z码和随机采样p码生成。在(c)中,每列从相同的z代码开始,并向相同的方向插值。每一行都有相同的采样p代码。类似地,(d)中的每一列从相同的p代码开始(d)中的每一行共享相同的z代码。男性源反演图5. 双空间编辑属性男性。使用p代码(第一行)进行编辑时,头发体积将减小。如果使用z代码(第二行),脸部会逐渐长出小胡子第三行显示通过两个空间联合编辑男性属性的结果。通过朝向训练超平面的法线方向的线性内插形成图中的结果。5表示p代码控制结构信息,如头发体积,和z代码控制纹理信息,如胡子,和联合编辑结果在第三行证明了两个潜在空间之间的合作,可以实现更好的编辑性能。更多的编辑结果在图。1进一步展示了我们双空间编辑策略的灵活性4.2. 与最先进方法的4.2.1定性评价采样图像编辑。图6示出了一些采样图像的编辑结果。由于性别的变化可能涉及纹理和结构信息的变化,因此性别的编辑是通过在-空间和-空间上进行编辑来完成的(DAT的内容和风格空间[25])。对于姿势编辑,只使用DAT [25]的内容空间和我们的-空间。与其他方法相比,该方法获得了更好的编辑效果。如第2,当编辑涉及DAT [25]的风格空间时,可以很容易地改变图像色调(图3的第三行)。(见第6a段)。头部姿势的操纵甚至是一项更具挑战性的任务,因为纹理和结构信息需要保持对齐以保持身份。图6b示出了TransEditor的优点。持续时间两个空间Z空间P空间7691ZPPZ样品(a) 性别样品(b) 构成图6. 示例图像编辑比较。第三列上的图像是采样的源图像,其在语义上被内插到左侧和右侧。当编辑性别(a)和姿势(b)时,我们的方法比其他方法更好地保留了身份在姿势编辑中,p代码在修复z代码时被操纵然而,交互过程确保由生成器接收的样式调制参数已经与p代码对齐(等式2)。(6)),从而在整个操作过程中产生一致的纹理。真实图像编辑。为了实现真实图像编辑,我们使用第二节中提到的双空间反演方法三点三隐式操作方法与采样图像编辑相同。图7示出了利用现有技术的方法对真实图像编辑的比较结果。在图7a中,StyleMapGAN[24]遭受全局语义编辑,其中面部变成长头发的男性。可以清楚地观察到DAT [25]的扭曲和Style-GAN 2[23]的属性纠缠如图在图7b中,所有基线都无法编辑头部姿势,而我们的方法获得可信的结果。4.2.2定量评价对于编辑性能比较,我们选择了三个属性:微笑、头部姿势和性别,它们分别表示在-空间、-空间和两个空间中编辑。我们使用它们来计算重新评分指标。我们的方法与StyleGAN 2 [23]、StyleMap- GAN [24]和DAT[25]的比较结果二、我们观察到,当编辑每个特定属性时,我们的模型对其他属性的影响是最小的,这表明我们的方法在执行编辑时是最少纠缠的。4.3. 消融研究通过Transformer的空间交互在我们的建筑中,空间的互动对于两个空间之间的语义平衡至关重要。移除交互过程(即, 发电机接收两个完全独立的代码)产生不平衡的结果。在这种情况下,P空间控制着大部分信息,在编辑和颜色和形状的联合变化(图的第一行)更纠缠的结果。(八)。相比之下,利用跨空间交互机制,图像的色调在成功 的 姿 势 编 辑 中 保 持 一 致 ( 图 1B 的 第 三 行 ) 。(八)。因此,在两个空间之间建立连接能够实现更平衡的设置,这有利于面部属性编辑。双空间设计与单空间设计。然后,我们评估的双重空间设计的作用。TransStyle-GAN [37]采用自我注意机制在单空间设计中建立不同风格代码之间的联系。然而,如图2的第二行8、当姿态编辑的步长变大时,人脸的朝向仍然很难改变,而人脸的扭曲和色调的变化会很严重。这表明在单个空间中编辑姿势的难度,证明了我们的双潜在空间的优势。K,Q,V矩阵的选择对于跨空间交互模块,我们需要考虑跨空间注意力的K、Q、V矩阵的选择。多模态领域的一些研究使用需要细化的单模态特征作为查询,而其他模态特征作为键和值。在我们的例子中,这相当于使用z+空间作为查询矩阵,使用p+空间作为键值矩阵。然而,跨空间注意模块的输出作为z+空间的细化特征,是值矩阵(p+空间)的加权,这可能会产生两个空间的一定纠缠此设置(图9a)显示了严重的纠缠,-space和-space,交换p代码会导致不同的纹理,这对于编辑来说是不希望的另一方面,我们的设置显示在图。9b是更好的分离,因为p+空间仅被用作查询以帮助更新z+空间。因此,该交互方法在第二。3.2更适合我们的设计。我们DATStyleMapGANStyleGAN2我们DATStyleMapGANStyleGAN27692源反演(a) 性别源反演(b) 构成图7. 真实图像编辑比较。第一列上的图像是真正的源图像。第四列示出了重构结果,其在语义上被内插到左侧和右侧。当编辑性别(a)和姿势(b)时,我们的方法比其他方法更好地保留了面部身份。表2. StyleGAN2 [23],StyleMapGAN [24],DAT [25]和Ours之间的定量编辑比较。行-列条目表示编辑行属性时列属性的变化程度。例如,姿势行和性别列显示编辑头部姿势时性别的更改比较表明,我们的方法在编辑过程中对其他属性的影响最小姿势↓性别↓微笑↓方法StyleGAN2StyleMapDAT我们StyleGAN2StyleMapDAT我们StyleGAN2StyleMapDAT我们构成----0.6833.4184.8690.2310.5770.9470.6250.153性别0.7380.3400.3860.313----0.1891.8040.5140.035微笑0.07120.1810.0340.0310.1460.1460.1110.040----源反演图8. Transformer的烧蚀研究及双空间设计。从上到下依次显 示 使 用 不 带 Transformer 的 transEditor 、 不 带 双 空 格 的transEditor和transEditor本身编辑头部姿势的结果。5. 结论与讨论介绍了一种基于Transformer的跨空间交互机制的双空间GAN体系结构TransEditor。此外,我们提出了一种新的双空间图像编辑和反转策略,高度可控的面部编辑。大量的实验表明,TransEditor的有效性,在属性解纠缠和可控性,超越了国家的最先进的基线,在复杂的属性编辑。建议的transEditor是很容易适用于许多现实世界的应用程序,如照片修饰和面部处理,然而,(a)Z作为Q矩阵,P作为K,V矩阵 (b)P作为Q矩阵,Z作为K,V矩阵图9. 使用Transformer的不同交互方法的消融研究。这两个图像都是通过固定z代码并在每列处采样p代码来生成的。图(b)是我们当前的设置,它显示了比图(a)更清晰的结果。可能会被不道德地使用。设计更好的媒体取证方法可能是对策。至于限制,编辑过程依赖于辅助分类器(用于语义边界),其质量和多样性可能限制可编辑属性。此外,改进双空间GAN的编辑任务的跨空间交互可能是有趣的未来工作。谢谢。本研究部分得到了RIE 2020行业联盟基金行业合作项目(IAF-ICP)资助计划的支持,以及行业合作伙伴的现金和实物捐助。我们DATStyleMapGANStyleGAN2我们DATStyleMapGANStyleGAN27693引用[1] Rameen Abdal,Yipeng Qin,and Peter Wonka.图像-年龄2风格:如何将图像嵌入到潜空间中?在ICCV,2019年。[2] Yuval Alaluf , Or Patashnik , and Daniel Cohen-Or.Restyle:一个基于残差的stylegan编码器,通过迭代细化。ICCV,2021。[3] Badour Albahar , Jingwan Lu , Jimei Yang , ZhixinShu , Eli Shechtman , and Jia-Bin Huang. Pose withstyle:基于条件风格的姿态引导的细节保持图像合成。TOG,40,2021.[4] 亚泽德·阿尔哈比和彼得·旺卡通过结构化噪声注入的解缠图像生成。在CVPR,2020年。[5] 尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛纳夫、尼古拉斯·乌斯尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁伊科。使用变压器进行端到端对象检测。在ECCV,2020年。[6] Edo Collins , Raja Bala , Bob Price , and SabineSusstrunk.编辑风格:揭示gans的局部语义。在CVPR,2020年。[7] Marcella Cornia , Matteo Stefanini , Lorenzo Baraldi ,and Rita Cucchiara.网状记忆Transformer,用于图像覆盖。在CVPR,2020年。[8] 丁明,杨卓义,洪文义,郑文迪,周昌,尹大,林俊阳 , 邹 旭 , 周 少 , 杨 红 霞 , 等 。 Cogview : 通 过transformers 掌 握 文 本 到 图 像 的 arXiv 预 印 本 arXiv :2105.13290,2021。[9] AlexeyDosovitskiy、LucasBeyer、AlexanderKolesnikov、Dirk Weissenborn、Xiaohua Zhai、ThomasUnterthiner 、 Mostafa Dehghani 、 Matthias Minderer 、Georg Heigold、Syl-vain Gelly、Jakob Uszkoreit和NeilHoulsby。一张图片相当于16x16个单词:用于大规模图像识别的变压器ICLR,2021年。[10] Matt W Gardner和SR Dorling。人工神经网络(多层感知器)-大气科学应用综述。大气环境,32:2627[11] Golnaz Ghiasi , Honglak Lee , Manjunath Kudlur ,Vincent Dumoulin,and Jonathon Shlens.探索实时、任意神 经 艺 术 风 格 化 网 络 的 结 构 arXiv 预 印 本 arXiv :1705.06830,2017。[12] Lore Goetschalckx,Alex Andonian,Aude Oliva,andPhillip Isola.Ganalyze : Toward visual definitions ofcognitive image properties.在ICCV,2019年。[13] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。NeurIPS,27,2014.[14] Jinjin Gu,Yujun Shen,and Bolei Zhou.图像处理采用多码gan先验.在CVPR,2020年。[15] ErikH¨ rko¨ nen , AaronHertzmann , Jaakk oLehtinen ,andSylvain Paris.Ganspace:Discovering interpretable gancontrol.神经IPS,2020年。[16] Zhenliang He,Wangmeng Zuo,Meina Kan,ShiguangShan,and Xilin Chen.Attgan:通过只更改您想要的内容来编辑面部属性。TIP,28:5464[17] Lun Huang,Wenmin Wang,Jie Chen,and Xiao-YongWei.注意注意图像字幕。在ICCV,2019年。[18] Xun Huang和Serge Belongie。实时任意样式传输,具有自适应实例规范化。InICCV,2017.7694[19] Ali Jahanian,Lucy Chai和Phillip Isola。关于生成对抗网络的在ICLR,2020年。[20] Yifan Jiang , Shiyu Chang , and Zhangyang Wang.Transgan:两个变压器可以使一个强大的根。arXiv预印本arXiv:2102.07074,2021。[21] Tero Karras,Timo Aila,Samuli Laine,and JaakkoLehtinen.为提高质量、稳定性和变异性而进行的干细胞生长。arXiv预印本arXiv:1710.10196,2017。[22] Tero Karras Samuli Laine和Timo Aila一个基于样式的生成器架构,用于生成对抗网络。在CVPR,2019年。[23] Tero Karras , Samuli Laine , Miika Aittala , JanneHellsten,Jaakko Lehtinen,and Timo Aila.分析和改善stylegan的图像质量。在CVPR,2020年。[24] Hyunsu Kim , Yunjey Choi , Junho Kim , SungjooYoo,and Youngjung Uh.利用感兴趣区域的空间维度进行即时影像编辑。在CVPR,2021年。[25] 权智贤和叶钟哲图像生成与翻译中内容-风格解缠的对角注意与风格感。ICCV,2021。[26] Kathleen M Lewis 、 Srivatsan Varadharajan 和 IraKemelmacher-Shlizerman。Tryongan:通过分层插值实现身体感知试穿。TOG,40,2021.[27] Heyi Li,Jinlong Liu,Yunzhi Bai,Huayan Wang,and Klaus Mueller.为真实面孔编辑转换风格潜在空间。arXiv预印本arXiv:2105.14230,2021。[28] Fangchang Ma,Ulas Ayaz,and Sertac Karaman.部分测量卷积生成网络的可逆性。NeurIPS,2019。[29] Taesung Park,Jun-Yan Zhu,Oliver Wang,JingwanLu,Eli Shechtman,Alexei Efros,and Richard Zhang.把自动编码器换成深层图像处理。NeurIPS,33,2020。[30] Aditya Ramesh、Mikhail Pavlov、Gabriel Goh、ScottGray、Chelsea Voss、Alec Radford、Mark Chen和Ilya Sutskever。零拍摄文本到图像生成。arXiv预印本arXiv:2102.12092,2021。[31] Elad Richardson 、 Yuval Alaluf 、 Or Patashnik 、Yotam Nitzan 、 Yaniv Azar 、 Stav Shapiro 和 DanielCohen-Or。编码样式:一种用于图像到图像转换的stylegan编码器。在CVPR,2021年。[32] Yujun Shen , Jinjin Gu , Xiaoou Tang , and BoleiZhou.语义人 脸编辑中 gans 潜在空 间的解释 。在CVPR,2020年。[33] Yujun Shen,Ceyuan Yang,Xiaoyu Tang,and BoleiZhou. 接口: 解 释gans 学 习 的解 纠 缠 人 脸 表征 。PAMI,2020年。[34] Yujun Shen和Bolei Zhou。gans中潜在语义的闭式分解。在CVPR,2021年。[35] Nurit Spingarn,Ron Banner,Tomer Michaeli。没有优化的Gan”可操控性”。在ICLR,2020年。[36] Omer Tov , Yuval Alaluf , Yotam Nitzan , OrPatashnik,and Daniel Cohen-Or.设计一个用于花柱图像处理的编码器。ACM TOG,40:1[37] Ashish Vaswani,Noam Shazeer,Niki Parmar,JakobUszko-reit , Llion Jones , Aidan N Gomez , ukaszKaiser,and Illia Polosukhin.注意力是你所需要的。NeurIPS,2017。[38] Yuqing Wang,Zhaoliang Xu,Xinlong Wang,ChunhuaShen,Baoshan Cheng,Hao Shen,and Huaxia Xia.使用Transformers进行端到端视频实例分割。在CVPR,2021年。7695[39] Zongze Wu,Dani Lischinski,and Eli Shechtman.样式空间分析:风格图像生成的分离控件。在CVPR,2021年。[40] 张刚、坎美娜、Shiguang Shan和Xilin Chen。用于人脸属性编辑的具有空间注意力的生成对抗网络在ECCV,2018。[41] Richard Zhang 、 Phillip Isola 、 Alexei A Efros 、 EliShechtman和Oliver W
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索数据转换实验平台在设备装置中的应用
- 使用git-log-to-tikz.py将Git日志转换为TIKZ图形
- 小栗子源码2.9.3版本发布
- 使用Tinder-Hack-Client实现Tinder API交互
- Android Studio新模板:个性化Material Design导航抽屉
- React API分页模块:数据获取与页面管理
- C语言实现顺序表的动态分配方法
- 光催化分解水产氢固溶体催化剂制备技术揭秘
- VS2013环境下tinyxml库的32位与64位编译指南
- 网易云歌词情感分析系统实现与架构
- React应用展示GitHub用户详细信息及项目分析
- LayUI2.1.6帮助文档API功能详解
- 全栈开发实现的chatgpt应用可打包小程序/H5/App
- C++实现顺序表的动态内存分配技术
- Java制作水果格斗游戏:策略与随机性的结合
- 基于若依框架的后台管理系统开发实例解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功