没有合适的资源?快使用搜索试试~ 我知道了~
1检索样式:无监督人脸特征传输与检索闽金虫1号mchong6@illinois.edu朱文生wschu@google.comAbhishek Kumar2abhishk@google.com大卫·福赛斯1daf@illinois.edu1伊利诺伊大学香槟分校2谷歌研究源源源参考输出参考输出参考输出查询检索到的图像(a) 眼睛/鼻子/嘴(b)毛发转移(c)姿势转移(d)面部特征检索图1:我们提出了一种无监督的方法来将局部面部外观从真实参考图像转移到真实源图像,例如,(a)眼睛、鼻子和嘴。与最先进的[10]相比,我们的方法能够实现照片般逼真的传输。(b) 头发和(c)姿势,并且可以根据不同的面部特征自然地扩展用于(d)语义检索摘要我们提出检索风格(RIS),一个无监督的框架,面部特征转移和检索的真实图像。最近的工作显示了通过利用StyleGAN潜在空间的解纠缠特性来转移局部面部特征的能力。RIS在以下方面改进了现有技术:1)引入更有效的特征解纠缠以允许具有挑战性的转移(即,头发、姿势),这些在SoTA方法中未显示出可能性。2)消除了对每个图像超参数调整的需要,以及对大量图像计算目录的需要。3)使用分离的面部特征(例如,眼睛)。据我们所知,这是第一次在这个精细的水平上检索人脸图像。4)展示真实图像上的强大、自然编辑。我们的定性和定量分析表明,RIS实现了高保真的特征转移和准确的细粒度检索的真实图像。我们还讨论了负责任的应用程序RIS 。 我 们 的 代 码 可 以 在 https://github.com/mchong 6/RetrieveInStyle上找到。1. 介绍生成对抗网络(GAN)[6,18,19]的最新进展已经显示出生成逼真的高分辨率图像的能力,特别是对于面部。在无条件设置下,通常很难解释或控制GAN的输出。条件GAN更适合语义编辑。然而,对输出图像的有意义的控制程度在很大程度上取决于注释的详细程度。这对细粒度面部编辑提出了挑战,因为难以或不可能以细粒度编辑所需的细节程度来注释数据集。关于面部编辑的现有工作通常利用附加信息来指导条件生成,诸如手动标签[3,8,21,42,44,45],分割masks [12,22],属性分类器[14],渲染模型38873888∈WW[20,38]等。然而,附加信息需要额外的计算,并且在实践中并不总是可用的此外,精细的面部特征(例如眼睛的独特形状)难以描述为标记或特征。作为替代方案,预训练GAN [13,31,39]中潜在方向的无监督发现允许以计算有效的方式找到有意义的潜在表示然而,与监督方法相比,这样的方法对于细粒度编辑不太有效。最近,风格编辑(EIS)[10]提出了一种用于面部特征转移的主要无监督方法。虽然EIS允许对空间相干的面部特征(例如,眼睛、鼻子和嘴),它需要在整个数据集上计算语义目录,并为每个图像单独调整这样的要求使得EIS不可扩展到检索领域中通常遇到的大型数据集。此外,EIS控制难以描述为空间图的面部特征(诸如头发和头部姿势)仍然具有挑战性。更重要的是,EIS仅适用于合成图像,并且尚未测试如何操纵真实图像。在这项研究中,我们提出了检索风格(RIS),一个简单而有效的无监督框架,解决了细粒度的面部特征转移和检索。图1示出了RIS提供的能力。RIS在几个方面改进了EIS。首先,我们发现样式空间中的眼睛)对于每个图像是不同的,因此必须单独计算而不是在整个数据集上计算。由于所发现的通道是图像特定的,所以RIS不仅针对空间相干的面部特征(例如,眼睛,鼻子,嘴巴),而且也具有挑战性(即,头发、姿势)。其次,与发现的第三,特定于图像的表示自然地扩展RIS用于细粒度的面部特征检索,这在EIS中是不可能的最后,我们证明了RIS提供编辑和检索的真实图像时,结合GAN的版本的方法,而EIS与合成图像。虽然RIS是通用的,并且可以应用于广泛的数据集,但是本研究集中于面部,因为在面部检索应用中存在关于面部部分及其相关性的既定约定(例如,[4、11、23、25])。我们的贡献是:1. RIS基于我们对“子成员资格”的发现而优于EIS2. 我们获得特征特定表示(例如,眼睛鼻子、嘴、头发),其使得能够通过即使对于人类也难以描述或注释的细粒度特征来进行面部检索据我们所知,这是第一个工作,以解决细粒度的检索问题,没有监督。3. 我们证明了RIS可以推广到GAN反转图像,允许在早期研究中未显示的真实图像上进行传输和检索在CelebA-HQ上的结果验证了RIS在大型真实数据集上实现了高质量的检索。2. 相关工作StyleGAN:StyleGAN1 [19]和StyleGAN2 [19]实现了最先进的无条件图像生成。StyleGAN[15 ]第10段。与将随机噪声向量z映射到图像的先前GAN架构相反,StyleGAN经由非线性映射网络将z映射到w然后,生成器中的特征映射由AdaIN模块中的w控制[15]。StyleGAN的+潜在空间已被证明表现出解开的特征表示[1,2,19,31]。Xu等[43]进一步表明,风格系数σ,其中σ=FC(w),FC是仿射层,与w相比,表现出更清晰的视觉特征。风格系数σ直接用于缩放生成器中的逐层激活。潜在空间图像编辑:Radford等人[28]表明GANs的潜在空间在语义上是有意义的– latent directions can be associated with semantics ( 姿势、微笑),由任一监督者获得方向(例如,预先训练的属性分类器,InterFaceGAN [31])或无监督装置(例如,zooms and shifts,Jahanian [16])。Voynov[39]找到与分类器可以观察到的变化相对应的方向GANSpace [13]使用PCA来识别有意义的潜在方向。Shen和Zhou [32]提出了一种封闭形式的因子分解来获得方向。功能激活图像编辑:本地编辑可以跟随操纵GAN特征激活。GAN Dis-section [5]使用分割模型来将内部GAN激活对应于语义概念,从而允许它们添加或移除对象。特征混合[34]递归地混合源和图像之间的特征激活,以允许局部语义转移。这些方法需要预先训练的分割模型或用户提供的掩模。可以获得作为图像到图像翻译的编辑。AttGAN [14]允许通过条件GAN设置进行多属性面部编辑StarGAN[8]提出了一种单生成器、多域方法,该方法使用条件生成来实现面部编辑。GANimation [27]使用ActionUnits注释调节生成器,以允许平滑的面部表情编辑。MaskGAN [22]使用分割掩码来实现交互式空间图像编辑。3889ΣA∈∈KK∈人脸检索:当前的面部检索系统通常基于身份来匹配面部,并且缺乏在面部特征级别上匹配的粒度。基于非深度学习的检索系统,如Photobook [26]和CAFI-IRIS [40]使用特征,如Eigenfaces [37],文本描述和/或面部标志;但是我们期望学习的特征具有优势。FaceNet[30]通过三元组损失来学习嵌入,其中嵌入之间的欧氏距离对应于通过身份训练的面部相似性。其他作品[33,35]将问题表述为身份之间的分类任务。但是这些方法在身份级别上执行检索,并且通过设计,对于诸如表情和发型之类的细节是不变的。相比之下,RIS旨在提高人脸检索的粒度。而不是要求GAN反演:GAN反演将真实图像编码到GAN的潜在空间。它通常通过潜在空间中的梯度下降来完成[2,19,41],这导致以可扩展性为代价的准确重建一个图2:子成员资格:从我们的方法的贡献得分Mk允许有意义的聚类。在该图中,每行是k=头发的聚类;行内的图像是相似的,表明聚类是有效的。在各行中,图像不同,表明头发中存在真实的变化scoreMk,c∈[0,1]K×C:基于编码器的方法[29,43,46]反而允许可扩展的GAN反演。Mk,c一个= NHW2n,c,h,wn,h,w⊙Un,k,h,w.(一)3. 检索样式在本节中,我们描述了所提出的检索风格(RIS)的面部特征转移和检索。我们首先回顾了我们的方法所基于的风格编辑(EIS)[10]。然后,我们提出了一个更可控和直观的传输改进EIS,并表明,我们的方法可以自然地扩展到细粒度的人脸检索,这是不可能的EIS。3.1. 编辑风格与通过向量算术操纵潜在空间的方法不同[13,16,31,32,39],EIS将语义编辑问题表述为将StyleGAN[18]的风格系数σ从参考图像复制到源图像,即,输出图像携带来自参考图像的面部特征,同时保留来自源图像的其余特征。作者表明,语义局部转移是可能的图像生成的预训练的StyleGAN与最小的监督。EIS的一个关键见解是StyleGAN生成器的空间特征激活可以被分组为与语义上有意义的概念(例如眼睛、鼻子、嘴等)相对应的集群。 具体来说,假设ARN×C×H×W是StyleGAN特定层的激活张量,其中N是图像的数量,C是通道的数量,H是高度,W是宽度。球面K形三通k-均值[7]在空间上应用于A,即,C大小的N×H×W向量上的聚类。A的每个空间位置与簇成员U∈{0,1}N×K×H×W,然后用于计算贡献直观地,Mk,c告诉风格系数σR,C的第c个通道对面部特征k的生成有多大贡献。注意,σ直接缩放调制模块中的激活A-激活越大,k受信道c的影响越大。然后经由源图像和参考图像的风格系数σS、σR之间的插值来执行跨两个图像的面部特征k的转移。编辑图像的风格系数σG可以通过重写等式(1)中的风格插值来获得。(3)[10]:σG=(1−qk)⊙σS+qk⊙σR,(2)其中qk[0,1]C是给定面部特征k的插值向量。EIS使用从Mk,c和手动超参数调谐导出的贪婪优化来找到qk,这样的超参数可能对不同的参考图像敏感,并导致次优的传输,如图2中所示。4.第一章此外,在N个图像上计算Mk,c,并且对于所有特征转移是固定的我们在SEC争论。具有固定的Mk,c对于传输可能不是理想的,因为并非所有图像共享相同的通道来描述相同的面部特征。3.2. 改进的EIS用于人脸特征提取子成员:EIS假设对特定特征(例如眼睛)做出高贡献的通道对于每个图像都是相同的。因此,为了计算等式中的Mk在等式(1)中,EIS对大小为N的大量图像集合上的分数求平均。我们假设高贡献渠道可能3890∈∈. Σ=maxA[s]c,h,wK∈(a) 参考(b)来源(c)天真(d)我们的实践,效果很好。在该假设下,我们获得针对每个风格系数通道的软类分配,其中softmax为所有类(M行),获得:q= Softmax。MΣ,(4)kτ图3:从(a)参考到(b)源的位姿转移(c)第(1)款从StyleGAN2 [19]的前4层简单地复制风格系数主要转移姿势和部分头发(左边的头发较短,头发顶部较平),表明它们的风格系数在早期层中纠缠。(d)我们的方法匹配参考图像的姿态并且忠实地从源保留毛发。从图像到图像变化这意味着在N上求平均图像可能丢失源或参考的特定细节。我们将这种效应的存在形象化在图中。二、每-在数据集中的图像的每个图像M(N=1)上形成球形k均值聚类产生语义上有意义的聚类。每一行中的图像属于相同的聚类。同一行内的发型相似,而不同行的发型明显不同。 我们进一步分析每个集群的顶部活动通道(每个通道对应于M k的维度),并且观察到每个集群具有其自己的一组顶部活动通道,这些通道对它是唯一的。更详细的分析请参考补充材料。这验证了我们的假设,即语义特征的高贡献通道在图像中是不也就是说,不同图像的相同特征k由不同组的通道控制。我们将这些小组称为考虑到N=2。具体地说,其中M[0,1]KXC是所有面部特征的堆叠贡献分数,τ是温度,q[0,1]KXC是插值向量。用于特定特征k的插值向量qk可以从q的行索引。QK可以认为是k的掩码,它允许在σS和σR之间进行插值。姿势转移:Karraset al.[19]已经表明,StyleGAN2的前几层捕获了高级特征,如姿势。在图3中,我们展示了复制StyleGAN2的前4层的风格系数(对应于前2048个风格系数通道),将大部分姿势和头发信息从参考传输到源图像,而不影响眼睛和嘴巴等其他特征。通过假设前4层仅包含姿势和头发信息,我们简单地导出:q姿势=1−q头发,(5)仅用于前4层,其余的归零。类似地,对于除头发之外的所有面部特征,前4层被归零以防止姿势改变。如图3、qpose捕捉姿势信息而不影响头发。我们的姿势转移的一个显著优点是它不需要标签或手动调谐。例如,GANSpace [13]需要手动选择层子集; AttGAN [14]和InterFaceGAN [31]需要属性标签,StyleRig [36]需要3D面部模型。图4示出了我们的面部特征转移的全部能力。潜在方向:与EIS不同,EIS将面部特征转移限制为如等式(1)中的风格插值。(3),我们将问题表述为沿着潜在方向遍历,基于Mk,c2c,h,wh,w⊙U[s] k,h,w,关于展示StyleGAN的潜在空间向量算术属性的工作然后,我们修改Eq。(3)至:Σh,wA[r]2⊙U[r]k,h,wΣ,(3)σG=σS+αqk⊙(σR−σS),(6)其中,潜在方向为n=qk⊙(σR−σS),并且其中S和R分别表示感兴趣的直观地说,为了从参考图像传输到源图像,我们对对源图像、参考图像或两者都重要的通道感兴趣获得插值向量:代替从依赖于每图像超参数ρ和ε的贪婪优化过程(如在EIS中)获得插值向量qk,我们假设风格系数σ的每个通道对应于一个面部特征。这源于StyleGAN的独立风格空间和3891E∈R标量步长为α。 如果我们限制α[0,1],我们将进行风格插值。在向量算术的性质下,我们可以使用α,它允许风格外推我们在图中显示根据图5,缩放α允许特定面部属性的增加或减少例如,我们能够进行平滑的姿势插值。3.3. 人脸特征检索本节示出了等式(1)中的样式表示(6)可适应于细粒度的人脸特征检索,3892X∈T XKXKKK(a) 源(b) 参考(c)眼睛(d)鼻子(e)嘴(f)头发(g)姿势图4:面部特征转移:我们的方法通过将面部特征从(b)参考图像转移到(a)源图像来对真实图像进行有效的语义编辑。我们的方法将空间相干特征(即,眼睛、鼻子、嘴)以及具有挑战性的特征头发和姿势。请注意,使用SoTA EIS [10]无法编辑真实图像对于特定图像,对该通道对该特征贡献多少进行编码由于qk可以被认为是一个掩码,我们构建了一个特定于特征的表示:vQ=qQ⊙ σQ。(七)然后可以通过匹配vk来执行特征检索,因为具有相似vk的两个图像表明外观相似的特征k。我们计算表示vR=qR⊙σR,其中图5:潜在方向:RIS控制中的α变量σRΣ和Σ是中的图像的风格系数。.然后,我们将两个风格系数/面部图像的面部特征之间的距离定义为距离k(IQ,IR)=d(VQ,VR), (8)源图像和参考图像之间的插值,kk示出了嘴(顶行)、头发(中间行)和姿势(底行)的平滑过渡。定义如下。给定查询图像IQ和检索数据集,我们的目标是检索关于面部特征的前K个最接近的图像k(例如,眼睛)。如前一节所述,RIS识别调节特定图像的面部特征外观的样式通道。这表明样式通道可以用于检索具有与查询面部中的面部特征相似的外观的面部。人脸检索通常通过匹配身份嵌入来完成[30,33,35]。然而,细粒度的面部特征检索是相对未开发的,因为难以收集和注释具有细粒度的训练数据(例如,眼睛或鼻子的形状)。对于每个面部特征k,我们有qk∈[0,1]1×C至其中d是距离度量(本研究中的余弦距离)。然后,我们对距离进行排名,以用于针对面部特征k的最近邻搜索。直观地,如果在两个图像之间存在Mk并且因此存在qk失配,则它们的距离将是大的。由于图2示出了相似的特征具有相似的Mk,反之亦然,因此较小的距离将反映更多相似的特征。我们表明这是真实的empiri-cally和RIS的作品,如图预期。7.第一次会议。另外,如果我们使用来自Σ的逐层平均值和标准差来归一化σQ和σR,则我们观察到更好的结果。SoTA EIS [10]和RIS(我们的)之间的比较:EIS和RIS两者共享通过将转移归因于参考图像来执行无监督局部面部编辑的独特方式。他们的不同之处在于他们如何实现它。(1)EIS通过对一批N个图像求平均α = −1.5α = −0.75源α = 0.75 α = 1.5参考3893来计算贡献分数M基于M3894来源1参考1眼睛鼻子嘴巴头发参考资料2图6:与EIS [10]的比较:(a,b)示出从参考1到源图像的转移;(c)(d)来自参考文献2。我们的方法(RIS)生成视觉上更准确和自然的结果。例如,在一个示例中,EIS改变了(a)中的肤色和(c)中的衬衫颜色,而RIS没有。RIS还在(d)中实现了嘴周围的胡须转移,即使在训练数据中女性面部上的胡须是罕见的或不存在的。RIS使用N=2,这避免了手动的每图像超参数调整,因此允许更可扩展和直观的传输。因此,RIS产生眼睛、鼻子和嘴的更精确的转移,并且使得能够转移在EIS中未示出的诸如头发和姿势的新颖特征。(2)RIS将M重新定义为图像特定的表示,其允许无监督的细粒度人脸特征检索。EIS假设M的平均表示,这将在实验中被示出为对于特征检索不太有效。4. 实验虽然其 他基于StyleGAN 的工作 ,包括EIS [10,13],专注于操纵生成的图像,但我们专注于操纵真实图像的更相关问题。这是一个更困难的问题,因为没有保证在生成的图像上表现良好的GAN足够稳定以推广到真实图像。为了证明RIS可以推广到真实数据集,我们使用CelebA-HQ [17]和30 k图像进行所有实验。由于基于特征的检索需要对整个数据集进行反演,因此我们选择使用pSp [29],这是一种基于SoTA编码器的GAN反演方法,用于我们所有的实验。4.1. 面部特征转移在这一节中,我们提供了定性和定量分析的人脸特征转移的真实图像。我们固定τ = 0。1,α = 1。3对于所有实验,因为我们观察到方程中的温度τ(4)对不同的源图像和参考图像不敏感根据作者的实现,我们使用N=200用于EIS [10]定性分析:图6示出了真实图像上的RIS(我们的方法)和EIS之间的定性比较。可以观察到,RIS提供更好的定位能力。EIS(图6(a))在所有转移中严重影响肤色,特别是严重改变毛发转移的照明。相比之下,RIS在转移目标特征的同时保持相对相似的肤色。EIS还改变了眼睛和鼻子的源图像,同时转移嘴(图。6(a)),表明其代表性的纠缠。在转移嘴部(包括下巴区域)时,EIS未能再现图像Reference2中的胡须(图2)。6(c))。另一方面,RIS忠实地再现胡须(图。6(d))。值得注意的是,RIS能够生成具有胡须的女性面部,表示训练集中不存在的分布外生成。请参考补充材料以获得更多的比较。(d)RIS(b)RIS(c)EIS(a)EIS3895查询最近邻居RIS最远邻居最近邻居EIS图7:面部特征检索:我们比较了我们的方法RIS(submembership Mk)和EIS [10](通用Mk)在真实人脸上的细粒度检索。我们展示了3张最近和最远检索(NR和FR)的脸。RIS检索语义上相似的NR的所有面部特征,而不匹配的功能上的差异。注意,EIS检索到眼睛和鼻子上非常相似的NR,具有相同的查询图像,指示缺乏特征定位。我们方法FID∞StyleGAN2 [19] 2.44EIS [10] 3.47RIS(我们的)3.73表1:图像保真度比较:与EIS相比,RIS实现了可比较的FID ∞,并且与基础StyleGAN2相比仅略差。较大的FID∞可以归因于我们的OOD生成能力,例如如右图所示的长发男性或秃头女性。定量分析:为了定量验证我们的转移结果,我们计算了FID ∞[9],这是基线StyleGAN2 [19],EIS [10]和RIS的FID的无偏估计。有关设置的详细信息,请参见补充资料。表1显示了FID∞比较。 与基础StyleGAN2相比,EIS和RIS都实现了较小的FID∞然而,RIS产生了稍大的FID∞,这可以通过我们的方法甚至生成分布外样本的能力来解释,如果需要传递环特征的话。这样的样本在训练基本StyleGAN2的FFHQ数据集中是不常见的,并且因此有助于更大的FID∞,例如,我们的方法能够将环长发转移到有胡子的男性,或将秃头转移到女性,如如表1右侧所示。4.2. 人脸特征检索我们评估我们的检索性能定性和定量。我们使用GAN倒置CelebA-HQ图像作为检索数据集,余弦距离作为度量。定性分析:精细的面部检索据我们所知,相对未被探索,没有适当的指标来评估这项任务。相反,我们重新利用EIS中的平均MK进行检索,并将其用作基线。具体地,当计算Eq.(7)中,我们用从EIS的平均Mk导出的qk来替换个体qk由于大规模的超参数调整为每个参考图像是不可行的EIS,我们得到了一个固定的超参数选择,可能不会推广到所有的图像。图7示出了RIS和EIS之间的定性比较。RIS具有明显更清晰的表征。具体地,对于眼睛检索,尽管查询具有不同的眼睛,RIS检索具有相同眼睛但不同身份的图像,而EIS仅检索相同身份。这表明EIS表征纠缠在眼睛和身份特征之间。此外,EIS检索几乎相同的图像用于不同的特征(即,眼睛和鼻子),暗示纠缠。对于嘴检索,RIS识别查询的大开口,检索语义相似(w.r.t.嘴部特征)但图像多样另一方面,EIS检索具有相同肤色的图像最后,对于毛发检索,RIS检索具有相似毛发但具有不同性别的图像,而EIS仅检索女性图像。最后,RIS的最远邻居在语义上与查询图像不同。总体而言,RIS最近邻在非匹配特征上表现出显著的变化,而EIS最近邻则没有。随着我们在Fig.6、这进一步(d)头发(b)鼻子(c)嘴(a)眼睛3896^^FFQQ5一5ΣQ属性匹配评分(%)类我们EIS眼睛96.395.4鼻子100.0100.0嘴81.175.8头发97.597.1表2:我们比较了RIS和EIS之间的AMS,以测量检索准确性。使用预先训练的属性分类器来识别给定的面部特征。RIS在所有类别中的表现都优于EIS,口腔检索明显更好。加强了我们的个人Mk产生更好的解缠和功能的重点相比,平均Mk在EIS。这也验证了我们的亚成员假设TRSI-IoU。我们使用检索来评估如何以及RIS解开面部特征。 我们专注于两个检索集合标识IoU(TRSI-IoU):使用对同一面部的两个面部特征查询来检索两组图像; TRSI-IoU被计算为这两个集合之间的恒等式的交集。如果两个查询是同一个人,则全脸检索方法应具有接近1的TRSI-IoU,否则为0。 假设一个方法不解开特征,可以近似地预缠绕特征。图8:TRSI-IoU测量了同一张脸上两个不同特征查询之间使用较小的TRSI-IoU(见正文)可以更好地解开面部特征的方法。我们比较了RIS和EIS的 TRSI-IoURIS显示中位数(红线)明显改善,四分位数范围(方框)小得多这表明我们的方法更好地解开面部特征。F,并得到其对第a个属性的预测为Fa(·)=[a()>T],即,如果预测大于阈值T = 0,则a()= 1。否则为5和0。然后,为第k个面部特征定义属性匹配分数(AMS)(说)嘴与眼分开。用眼睛看,用眼睛看,用眼睛看。嘴)将隐式地约束嘴(相应地,眼睛),AMSk=ΣI(i)∈XΣt(i)∈T(i)a∈Ak(一)ΣF^a(I(i))=F^a(t(i))Σ.所以两个检索集将有许多个体在com中。mon;因此TRSI-IoU变得相对较大。另一方面,如果一种方法恰当地将眼睛和嘴巴分开,那么它的身份就不应该有太多的重叠;因此TRSI-IoU变得相对较小。很难知道TRSI-IoU的最小可获得值,但较低的TRSI-IoU是方法更好地解缠的良好证据。图8示出了针对100个查询和所有面部特征对(选自眼睛、鼻子、嘴、头发)评估的RIS和EIS的TRSI-IoU的箱形图。RIS显示显著更低的TRSI-IoU,并且差异具有统计学显著性。属性匹配分数。我们使用在CelebA属性上预训练的属性分类器[24]来进一步评估我们的检索质量请注意,这些属性是二元的,并且对于细粒度的目的而言不够详细CelebA及其贡献者也明显缺乏多样性,缺少头罩、卷发等,这使得RIS在生成多样化和包容性的人的面孔方面的评估是不可能的。对于第k个特征毛发的检索,毛发相关属性k(例如,“black hair”, “wavy hair”, 应该在查询和检索图像之间保持相似。有关k相关属性的完整列表,请参见补充资料。我们根据针对特征k的查询图像I(i)来检索前5个图像T(i)。我们用属性分类器|·|T5|·|一个k|Ak|表2(b)比较了EIS和RIS之间的AMS评分由于分类器是在不包含细粒度的预定义属性上训练的,因此它对我们的细粒度检索的特定任务的描述性可能较低。尽管如此,在这种不太细粒度的设置下,RIS在所有类别中都优于EIS,其中口腔检索明显更好。5. 结论我们提出了Retrieve in Style(RIS),这是一种简单有效的无监督面部特征转移方法,可以在真实图像上的短尺度特征(眼睛,鼻子,嘴巴)和长尺度特征(头发,姿势)上工作,而无需任何超参数调整。RIS产生真实、准确的特征转移而不修改图像的其余部分,并且自然地扩展到细粒度的面部特征检索。请注意,真实感操作图像的技术可能会被滥用,产生虚假或误导性信息,研究人员应该意识到这些风险。据我们所知,这是第一个工作,使无监督,细粒度的面部检索,尤其是在真实图像。我们的定性和定量分析验证了RIS的有效性。鸣谢:Min Jin Chong在UIUC的工作基于部分由NSFGrant1718221和部分由ONRMURIAwardN00014-16-1-2007支持的工作。3897引用[1] Rameen Abdal,Yipeng Qin,and Peter Wonka.图像-年龄2风格:如何将图像嵌入到潜空间中?在IEEE计算机视觉国际会议论文集,第4432-4441页,2019年。二个[2] 拉米恩 阿卜杜勒 一鹏 秦 和 彼得 旺卡 我-age2stylegan++:如何编辑嵌入的图像?在IEEE/CVF计算机视觉和模式识别会议的论文集,第8296-8305页二、三[3]Jianmin Bao,Dong Chen,Fang Wen,Houqiang Li,and Gang华面向开集身份保持的人脸合成。在CVPR,2018年。一个[4] James C Bartlett,Susan Hurry,Warren Thorley。面孔的典型性和熟悉性。Memory Cognition,12(3):219-228,1984. 二个[5] David Bau , Jun-Yan Zhu , Hendrik Strobelt , BoleiZhou,Joshua B Tenenbaum,William T Freeman,and Anto- nioTorralba. GAN夹层:可视化和理解生成对抗网络。arXiv预印本arXiv:1811.10597,2018。二个[6] 安德鲁·布洛克杰夫·多纳休凯伦·西蒙尼安大用于高保真度自然图像合成的缩放GAN训练arXiv预印本arXiv:1809.11096,2018。一个[7] Christian Buchta 、 Martin Kober 、 Ingo Feinerer 和 KurtHornik。球形k-means聚类统计软件杂志,50(10):1-22,2012。三个[8] Yunjey Choi,Minje Choi,Munyoung Kim,Jung-WooHa,金成勋和朱在古Stargan:用于多域图像到图像翻译的统一生成对抗网络。在CVPR,2018年。一、二[9] Min Jin Chong和David Forsyth。 有效无偏fid和《盗梦空间》的分数以及在哪里可以找到它们。在CVPR,2020年。7[10] Edo Collins,Raja Bala,Bob Price,and Sabine Susstrunk.编辑风格:揭示GANs的本地语义。在CVPR,2020年。一、二、三、五、六、七[11] Michael R Courtois和John H Mueller。面部识别中的目标和目标的典型性?Journal of Applied Psychology,66(5):639,1981. 二个[12] 顾舒阳,鲍健民,杨浩,陈东,方文, 陆渊 。面 具指 导的 肖像编 辑与 条件 甘斯 。在CVPR,2019年。一个[13] ErikH¨ rko¨ nen,AaronHertzmann,Jaakk oLehtinen,and西尔万·帕里斯GANSpace:发现可解释的GAN控件。arXiv预印本arXiv:2004.02546,2020。二三四六[14] Zhenliang He,Wangmeng Zuo,Meina Kan,ShiguangShan,还有陈西林。AttGAN:通过只更改您想要的内容来编辑面部属性。IEEE Transactions on Image Processing,28(11):5464-5478,2019。一、二、四[15] Xun Huang和Serge Belongie。任意样式传输具有自适应实例规范化的实时性。InICCV,2017. 二个[16] Ali Jahanian*、Lucy Chai* 和Phillip Isola。 在“生成对抗网络的能力。在ICLR,2020年。二、三[17] Tero Karras,Timo Aila,Samuli Laine,and JaakkoLehtinen.为提高质量、稳定性和变异性而进行的干细胞生长。arXiv预印本arXiv:1710.10196,2017。六个[18] Tero Karras Samuli Laine和Timo Aila 基于样式的3898生成对抗网络的生成器架构在CVPR,2019年。 第1、3条[19] Tero Karras , Samuli Laine , Miika Aittala , JanneHellsten,Jaakko Lehtinen,and Timo Aila.分析和改善stylegan的图像质量。在CVPR,2020年。一二三四七[20] 马雷克·科瓦尔斯基 斯蒂芬·J·加宾 弗吉尼亚·埃斯特勒塔达斯·巴尔特鲁斯·艾提斯、马修·约翰逊和杰米·肖顿。CONFIG:可控神经人脸图像生成。在欧洲计算机视觉会议(ECCV),2020年。二个[21] Guillaume Lample,Neil Zeghidour,Nicolas Usunier,An-toine Bordes,Ludovic Denoyer,and Marc衰减器网络:通过滑动属性操作图像。NeurIPS,2017。一个[22] Cheng-Han Lee,Ziwei Liu,Lingyun Wu,and PingLuo. MaskGAN:面向多样化和交互式面部图像管理。在CVPR,2020年。一、二[23] Eric Lee , Thomas Whalen , John Sakalauskas , GlenBaigent,钱德拉·比塞萨,安德鲁·麦卡锡,格伦达·里德,辛西娅·沃顿.通过面部特征识别嫌疑人。Ergonomics,47(7):719-747,2004. 二个[24] Ziwei Liu,Ping Luo,Xiaogang Wang,and Xiaoou Tang.在野外深度学习人脸属性。在2015年12月的国际计算机视觉会议(ICCV)的会议记录中。八个[25] Ahmed M Megreya和A Mike Burton。 配合面照片:在目击者记忆中表现不佳(没有记忆)。实验心理学杂志应用,14(4):364,2008。二个[26] Alex Pentland ,Rosalind W Picard 和Stan Sclaroff 。Pho- tobook:基于内容的图像数据库操作。国际计算机视觉杂志,18(3):233-254,1996。三个[27] Albert Pumarola,Antonio Agudo,Aleix M Martinez,Al-bertoSanfeliu和FrancescMoreno-Noguer。Ganimation:从单个图像中获得解剖感知面部动画在欧洲计算机视觉会议(ECCV)的会议记录中,第818-833页,2018年。二个[28] 亚历克·雷德福卢克·梅斯和苏米特·钦塔拉 Un-使用深度卷积生成对抗网络进行监督表示学习。arXiv预印本arXiv:1511.06434,2015。二、四[29] Elad Richardson , Yuval Alaluf , Or Patashnik , YotamNitzan,Yaniv Azar,Stav Shapiro,and Daniel Cohen-Or.编码样式:一种用于图像到图像转换的stylegan编码器。arXiv预印本arXiv:2008.00951,2020。三、六[30] Florian Schroff Dmitry Kalenichenko James PhilbinFacenet:用于人脸识别和聚类的统一嵌入CVPR,2015。三、五[31] Yujun Shen,Jinjin Gu,Xiaoou Tang,and Bolei Zhou.间预处理GANs的潜在空间,用于语义人脸编辑。在CVPR,2020年。二、三、四[32] Yujun Shen和Bolei Zhou。GANs中潜在语义arXiv预印本arXiv:2007.06600,2020。二、三[33] Yi Sun,Xiaogang Wang,and Xiaoou Tang. 深刻汲取面部表示是稀疏的、选择性的和鲁棒的。在CVPR,2015年。 三、五[34] Ryohei Suzuki 、 Masanori Koyama 、 Takeru Miyato 、Taizan Yonetsuji和Huachun Zhu。空间可控的IM-3899年龄合成与内部表现拼贴。arXiv预印本arXiv:1811.10153,2018。二个[35] Yaniv Taigman、Ming Yang、Marc狼Deepface:缩小与人脸验证中人类水平的差距。CVPR,2014。三、五[36] Ayush Tewari,Mohamed Elgharib,Gaurav Bharaj,Flo-IanBernard,Hans-PeterSeidel,PatrickPe'rez,Michael Zolhoferr,andChristianTheobalt. Stylerig : Riggingstyle-gan for 3dcontrol over portrait images,cvpr 2020.IEEE计算机视觉与模式识别会议(CVPR)IEEE,2020年6月。四个[37] 马修·特克和亚历克斯·彭特兰 识别的特征面第Journal of Cognitive Neuroscience,3(1):71-86,1991. 3[38] Ben Usman,Nick Dufour,Kate Saenko,and Chris Bregler.PuppetGAN:通过演示进行跨域图像操作。在ICCV,2019年。二个[39] 安德烈·沃诺夫和阿特姆·巴本科。无监督发现GAN潜在空间中的所有可解释方向。arXiv预印本arXiv:2002.03754,2020。二、三[40] Jian-Kang Wu,Yew Hock Ang,PC Lam,SK Moorthy,and一个德赛·纳拉辛哈卢。人脸图像检索、识别与推理系统 。 在 Proceedings of the first ACM internationalconference on Multimedia,pages 47-55,1993中。3[41] 乔纳斯·武尔夫和安东尼奥·托拉尔巴改善反演和世代多样性
下载后可阅读完整内容,剩余1页未读,立即下载



















安全验证
文档复制为VIP权益,开通VIP直接复制
