没有合适的资源?快使用搜索试试~ 我知道了~
从连续性到可编辑性:视频图像反转的新方法
13910从连续性到可编辑性:用连续图像反转GANYangyang Xu1,Yong Du2,Wenpeng Xiao1,Xuemiao Xu1,3,4,5 * and Shengfeng He1,5 *1华南理工大学2中国海洋大学3计算智能与网络空间信息4亚热带建筑科学5大数据与智能机器人(a)输入(b)I2S [1](c)I2S++[2](d)pSp [18](e)InD [24](f)我们的图1:我们提出了一种替代的GAN反演方法,该方法联合考虑多个连续图像。我们利用输入之间的先天连续性,以同时最大化反转的潜在代码的重建保真度(顶行)和可编辑性我们的方法联合反转了(a)中的三个图像,我们只显示了第一个红色框的结果。摘要现有的GAN反演方法都存在着一个悖论,即反演后的码要么能够实现高保真重构,要么能够保留编辑能力。只有其中一个显然不能实现真正的图像编辑。在本文中,我们通过引入连续图像(例如,视频帧或具有不同姿势的同一个人)进入反转过程。我们的解决方案背后的比率是连续图像的连续性导致固有的可编辑方向。这种与生俱来的属性有两个独特的用途:1)调节联合反转过程,使得每个反转代码在语义上可从另一个反转代码中的一个反转代码访问,并且固定在可编辑域中; 2)加强图像间相干性,使得每个反转代码的保真度可以与其他图像的互补最大化。大量的实验表明,我们的替代显着优于国家的最先进的方法重建保真度和可编辑性方面的真实图像数据集和合成数据集。此外,委员会认为,*通讯作者({xuemx,hesfe} @ scut.edu.cn)。我们的方法提供了基于视频的GAN反演的第一个支持和从连续图像的无监督语义转移的有趣应用。源代码可以在以下位置找到:InvertingGANshttps://github.com/cnnlstm/_with_ConcretiveImgs.1. 介绍生成对抗网络(GANs)[5,9,10]已经证明了通用的图像编辑能力,特别是通过发现可以操纵相应图像属性的自发学习的可解释方向[17,8,19,4,22]。具体地,给定随机潜在代码w,可以通过沿着特定语义方向(例如,方向)推动潜在向量来实现图像编辑。、年龄、性别):I′=G(w+α×→n),(1)其中I’是编辑的图像,G是生成器,α是缩放因子,并且→n是可解释的方向。因此,最近的尝试[1,2,18,24]旨在通过将图像反转为潜码w来将这种能力迁移到真实图像编辑。这个任务有两个关键重建←性别→13911i)反转代码是否可以忠实地重建原始输入,以及ii)是否可以成功地应用预先获取的语义方向。然而,现有的方法似乎陷入了一个悖论,因为实现一个目的将不可避免地牺牲另一个目的。如图1、I2S、I2S++和pSp [1,2,18]仅集中于获得忠实的重建,但反转码显示出有限的可编辑性。相比之下,从域内反演[24](图1e)获得的潜在代码在语义上有意义的域中以保真度为代价我们认为,仅基于单个图像来平衡这两个因素是非常具有挑战性的,因为没有指示器来阐明潜在空间中的可编辑域,从而阻止优化获得两个因素之间的完美平衡。在本文中,我们解决了上述问题,通过引入连续的图像,它可以是一个视频片段或同一个人与不同的姿势,形成一个联合优化过程。我们的替代方案背后的理性是,连续图像带来的连续性可以用作约束可编辑性的指标。特别地,为了确保反转的潜在代码中的每一个是可编辑的,我们通过利用简单的线性组合强制它们中的每一个在语义上可从其他代码中的一个访问来联合优化多个潜在代码。此外,我们进一步探索了连续性的保真度,通过注入多源监督,重建图像的公共区域应该是一致的,在所有的连续图像。我们在输入图像之间建立密集的对应关系,然后将获得的对应关系应用于将每个重建扭曲到邻居,以进行一致性和相干性测量。为了评估所提出的方法,我们构建了一个真实的基于 视 频 的 数 据 集 RAVDESS-12 , 以 及 通 过 操 纵StyleGAN [10]生成的图像的属性合成的另一个大量的实验表明,我们的解决方案优于现有的方法,在可编辑性和reconstrucc-灰保真度的优越性能。此外,我们的方法能够执行各种应用,例如:、基于视频的GAN反演、无监督语义转移和图像变形。总之,我们的贡献有三方面:我们提出了一种替代的GAN反演方法的连续图像,并深入研究了连续图像的GAN反演的连续性。我们定制了两个新的约束,一个是相互可访问的约束,制定连续图像反演作为一个线性组合过程中的潜在空间,以确保可编辑性,并在RGB空间的反转consis- tency约束,以guarantee重建保真度,通过测量跨图像的重建一致性。我们展示了最佳性能的编辑能力和重建保真度方面,我们支持各种新的应用程序,如基于视频的GAN反演和无监督语义传输。2. 相关工作通过潜在空间探索进行图像编辑。生成模型在以随机潜码为输入的反图像合成中显示出巨大的潜力.最近的工作表明,预训练的GAN的潜在空间编码了丰富的语义方向。以特定方向改变潜码可以编辑具有目标属性的图像。特别地,Radfordet al.[17]观察到潜在空间中存在对应于在面部上添加微笑或眼镜的方向。Ganalyze等人[4]用一个固定的学习者探索潜空间中的记忆方向Jahanian等人[8]研究GANs的可操纵性,以适应一些图像变换。Shen等人[19]探索二元属性潜空间中的语义边界。Voynov等人[22]通过无监督的模型不可知过程发现隐藏在潜在空间中的语义方向。用这样的方向改变潜码可以操纵输出图像的对应属性。将这些技术移植到实际的图像编辑中是很自然的。在此之前,需要将真实图像反转回潜码。GAN反演。 为了实现真实图像编辑,提出了GAN版本内方法以基于预训练的GAN来推断输入图像的潜码[16,25,1,3,15]。这些方法可以分为两类,基于优化和基于编码器。前者单独优化特定图像的潜在代码,集中在逐像素重建[1,2,3,13]。然而,确保重建保真度不能保证输出潜在代码可由学习的方向编辑。另一方面,基于编码器的方法训练将真实图像映射到潜码的通用编码器[24,18]。特别是,域内GAN反演[24]将学习的编码器与优化过程相结合,以将编码器与生成器的语义知识对齐。然而,现有的方法并没有解决潜在空间中的可编辑域问题,因此它们不能在可编辑性和保真度之间达到完美的平衡。我们的目标是解决这个问题,从一个新的角度考虑多个连续的图像。3. 方法3.1. 概述隐码的可编辑性和重构的保真度是影响GAN反演性能的两个重要因素为了满足这两方面,我们利用连续图像所带来的连续性,描绘了同一主题的不同变化。我们的管道···13912优化目标潜在空间WB反演W b!n1!n2LICCGIbIb+1Ib+2ObO b+1O b+2FW-W潜在代码Σ·RGB空间旅行RGB空间W型翘曲操作流量b b+1^Ib+1O^b+1图2:所提出的基于连续图像的GAN反演的流水线。G是StyleGAN的预训练生成器,F是用于计算双向光流的预训练FlowNet。上半部分显示了相互可访问约束。给定连续的图像作为输入,我们强制它们中的每一个在语义上可以从另一个中的一个用简单的线性组合编码。 wb和→nk都是得到的优化目标。底部显示了创新RGB空间中的一致性约束请注意,在这里,我们只显示了在计算Ib和Ib+1时的前向流。LICC,同时,LC和LP也被省略。方法如图所示。二、给定一系列连续图像作为输入,所提出的方法的目的是在潜在空间中寻找它们的最佳潜在代码,然后将它们馈送到预训练和固定的生成器中进行重构。特别地,i)我们在连续图像之间定义线性组合机制,这将通过与语义方向的联合优化来促进潜码的可编辑性,以及ii)我们在RGB空间中在重建图像的扭曲结果与其对应的原始图像之间建立一致性约束,从而提高重建的保真度。请注意,我们选择StyleGAN [9]的生成器作为我们模型中的预训练3.2. 基于连续图像的GAN反演相互可访问的约束。对于输入集中的每个图像,它可以逐渐地改变成其他图像,正如图1所示。2、嘴巴逐渐张开。或者它可以以一种激烈的方式改变其他人,例如同一个人在非常不同的姿势。在任一情况下,给定基本图像Ib,可以直观地假设其他图像的潜码是基本图像Ib的潜码图像连同特定语义方向→n(e. G. ,ex-压力、姿势)。 然后,图像的潜码wb+KIb+K可以用公式表示如下:另一方面,可以预先定义特定的语义方向→n[19,22,21],但是需要语义上等价的输入图像。为了处理具有任意语义变化的图像,我们将方向作为我们的优化目标之一请注意,缩放因子αK-s也是可学习的,因此,我们将它们吸收到方向中并重新表示方程:(2)作为提议的可相互访问的约束,其如下:Kwb+K=wb+→nk。(三)k=1以这种方式,我们可以通过联合优化wb和→nk-s来计算出所有图像的潜码。这样的比喻--多重线性组合机制可以提高潜码的可编辑性。其主要原因是,i)每个反向潜码可以被看作是相对于另一个反向潜码的编辑代码,并且ii)如果图像在特定的语义方向上变化,则可以自适应地学习变化的尺度,并且更重要的是,iii)能够处理conp之间的不同属性的变化保护图像。更重要的是,有学问的→nk-s具有po-可能被转移到其他潜在代码作为预定义的语义方向。反演一致性约束。 一旦我们有了wb+K =wb +αK ×→n, K=1,2,·· ·, T−1,(2)潜在代码,我们将它们馈送到生成器G()中以重构连续图像。对于某个基本图像Ib,其其中T表示图像的总数。然而,由于连续图像可能在不同属性中从一个到另一个变化,因此该假设太强上关于潜在码w_b的重构O_b由下式计算:0 b=G(w b),b =1,2,···,T. (四)13913L∈ − −{}W×--Lǁ· ǁLΣLΣJVBBBBL=联系我们Σ为了保证重建的保真度,我们特别考虑了重建图像的公共区域与输入的连续图像之间的反演一致性。具体地说,我们定制的反转一致性约束损失的基础上双向流在RGB空间如图中底部所示。在图2中,首先,可以通过预先训练的Fl 〇wNet2 [ 7 ]计算基础图像Ib和其他图像Ib+k之间的边界流f b ⇒ b +k。由conv1 1、conv1 2、conv3 2生成的特征并转化2层VGG-16用于模拟损失。最后,整个目标函数定义如下:L=λ1LICC+λ2LC+λ3LP,(11)其中λs表示平衡因子。那么潜在的密码Wb和方向→nk可以通过下式优化:F(·),其公式如下:{w*,→n*}=argminλL+λL+λL.(十二)fb⇒b+k=F(Ib,Ib+k),(5)B K{wb,→nk}1ICC2C3P其中kZ[lb,Tb] 0。然后,我们用isf low扭曲Ib以形成扭曲图像Ib+k,其可以表示如下:注意,我们遵循[1],即用+空间。并且方向^nk-s初始地被设置为零并且在优化期间被更新。Ib+k =warp(Ib,fb⇒b+k)的情况。(六)4. 实验4.1. 实现细节此外,我们还得到了所接收的图像Ob的压缩结果O(b+k),其表示如下:Ob+k =wa rp(Ob,fbb+k).(七)由于连续的图像描述相同的主题,因此在-对于每个基图像Ib,生成的warpings{I(b+k}之间应该存在不同的关系。这种关系-我们在PC用Nvidia GeForce RTX 3090在Pytorch中实现了所提出的方法。 我们利用StyleGAN [9]的生成器在FFHQ数据集[9]上进行预训练,分辨率为10241024。 使用Adam优化器[11]优化潜在代码和语义方向。 我们遵循[1],其使用5000个梯度下降步骤,学习速率为0.01,β1=0。9,β2=0。999,且ε=1e−8。我们根据经验,在等式中设置平衡重(12)当λ1= 1时,船舶应转移到其他warpingOb+k。用同样的方法,我们可以计算出反向流fb+k⇒b在Ib+k和Ib之间,以及相应的环Ib+k,Ob+k。通过迭代b的所有值和k,我们从输入图像的扭曲注入多源监督以限制重建,并且所提出的反演一致性约束损失ICC由下式给出:LICC=ΣΣ(Ib+k−Ob+k2+Ib+k−Ob+k2),(8)BK哪里2表示逐像素L2距离。此外,我们认为,保持一个像素明智的consis-输入图像与其对应的图像之间的一致性。因此,在我们的目标中引入逐像素一致性损失C,即λ2=1且λ3=1。我们在等式中设置T=5。(4),其指示在每个输入序列中包含5个连续图像。4.2. 实验设置数据集。我们首先使用真实视频在RAVDESS数据集[12]上进行实验。原始RAVDESS数据集包含2,452个视频,其中24个主题使用各种语义表达式说话和唱歌Ssions。我们选择了其中的12个视频进行评估,结果是1,454帧,我们将此数据集命名为RAVDESS-12数据集。由于真实图像没有真实的潜码,我们不能主观地评估反转码及其在潜空间中的可编辑性。另一方面,它表明,学习的语义方向的工作非常好,在生成的图像。因此,我们构建了一个合成数据集,包含1000个样本,LC=m∈q ∪{0}O1+m−I1+m由StyleGAN随机生成。对于每个样本,我们用α值(范围从-3到3)和语义方向(ac-3)为了保证重构的良好视觉感知,我们还利用感知损失P,其公式如下:4从InterfaceGAN [19]获取),产生5000个图像。我们记录了原始样本的潜码,相应的编辑规范,以及编辑后的潜码用于评估可编辑性的代码。 GAN反演法1P4ΦV(I1+m)−Φj(O1+m)2,(10)ODS将反转原始样本并将其编辑为目标属性以进行比较。13914V·j=1m∈q < ${0}其中Φj()表示预训练的VGG-16网络的第j层,并且我们遵循Abdal等人。[1]选择竞争对手我们主要对比了四种GAN反演方法:Image2StyleGAN ( I2S ) [1] , Im- age2StyleGAN++(I2S++)[2],In-domain Inversion13915↓WNWNWWWNNNN表1:在两个数据集上用四个度量进行图像重建时与现有GAN反演方法的比较。表示越低越好,并且最好的结果以粗体标记。度量方法RAVDESS-12数据集合成数据集NIQE↓FID↓LPIPS↓MSE↓(×e-3)NIQE↓FID↓LPIPS↓MSE↓(×e-3)I2S [1]3.77016.2840.1628.7913.37448.9090.27135.011pSp [18]3.66829.7010.20222.3373.91084.3550.39146.244美国[24]3.76518.1350.1939.9633.15242.7730.35244.645我们3.59613.1360.1485.9722.80737.2250.25024.395I2S++[2]3.3580.3200.0030.1742.6442.9670.0141.458我们的++3.3520.3110.0030.1652.5972.8970.0141.432表2:在RAVDESS-12数据集上用两个盲度量对真实图像操作的定量评价。表示越低越好,并且最好的结果以粗体标记。度量I2S [1] pSp [18] 美国[24]我们NIQE↓FID↓3.77621.6095.24230.1283.69319.2713.25415.482(a)(b)I2S(c)PSP(d)InD(e)我们 (f)I2S++(g)Ours++图3:图像重建的定性比较。与在+空间(左)优化的结果相比,我们的方法可以重建出最忠实的外观。涉及空间在很大程度上改善了重建(右部分),但我们的++比I2S++(第二行)表现出更好的颜色保护。(InD)[24] 和 pSp 网 络 [18] 。 所 有 方 法 都 被 反 转 到StyleGAN的相同+潜在空间,应用相同的编辑方向。值得注意的是,I2S++为小细节恢复引入了额外的噪声空间。一个主要的问题是,在反向的两个潜在的代码+和空间是高度耦合的,但是学习的语义方向仅在+中被优化。应用它们会改变+空间潜在代码,但使噪声矢量保持不变,这些未配对的矢量在编辑后产生“重影”伪影(见图11)。4).因此,我们主要将其用于重建比较,并且我们还将我们的方法扩展到包括噪声空间,称为Ours++。评估指标。对于定量比较,我们使用四个指标,自然度图像质量评估器(NIQE)[14]、Fre'chet初始距离(FID)[6]、学习感知图像块相似性(LPIPS)[23]和像素均方误差(MSE),用于评估重建保真度。特别地 , FID 计 算 输 入 和 输 出 图 像 的 分 布 之 间 的Wasserstein-2距离NIQE评估人类感知的质量,这是一个完全盲目的评估,没有重新评估。追求GT形象。由于在真实的RAVDESS-12数据集上没有GT用于SEMANIC编辑任务,因此我们使用FID和NIQE来评估真实图像编辑结果。4.3. 图像重建定量评价。我们首先评估的逆码的重建保真度。定量比较见表。1.一、我们可以看到,我们的方法在真实数据集和合成数据集上都明显优于三个可编辑的GAN版本内方法(上半部分)。特别是对于逐像素的差异度量MSE,我们大大提高了31%的最先进的。这表明所提出的联合优化成功地结合了来自相邻图像的互补信息。此外,通过引入噪声空间,I2S++和Ours++实现了最忠实的重构。由于图像间的相干性,我们进一步推动重建记录一点。定性评价。定性比较见图。3.第三章。我们可以看到Image2StyleGAN无法正确恢复图像颜色。同时,pSp和InD不能恢复原始图像的最精细的面部细节(参见第一行中的牙齿)。与上述三种方法相比,本文方法能够重建出真实的外观细节.毫不奇怪,I2S++在所有竞争对手中恢复了最好的细节这主要是因为它们在空间上进行了优化编码,得到了高频信息.我们还描述了在空间中优化的结果,并且我们比I2S++更好地保留了原始颜色(参见第二行)。4.4. 图像编辑在本节中,我们将评估我们的GAN反演方法对真实图像编辑以及合成图像的影响。我们↓- - -13916↓(a)投入(b)I2s(c)Ind(d)PSP(e)我们(f)I2S++(g)Ours++图4:在真实RAVDESS-12数据集上使用姿势和年龄属性进行语义编辑的定性比较。由红色框标记的图像是重建的目标,并且每个示例的中间行中的图像是反演结果。我们可以说,我们的方法可以支持更有利的语义编辑。表3:在合成数据集上使用四个度量对图像操作进行定量评价。 表示 越低越好,最好的结果用粗体标记。度量I2S [1] pSp [18] 美国[24]我们NIQE↓FID↓LPIPS↓MSE↓(×e-3)3.39035.8940.39989.6713.91758.3420.452126.6423.19348.8670.424101.5633.16333.8720.34770.224基于倒置的潜码进行两个编辑任务,第一个是语义操作,第二个是图像变形。4.4.1语义操纵语义操纵的目的是通过改变图像的反向代码来编辑图像我们使用五个语义方向(即性别、姿势、微笑、眼镜和年龄)。定性评价。实际数据的定性比较如图所示。4.第一章我们可以看到,我们的操纵脸在视觉上比竞争对手的结果更合理。特别地,由Image2StyleGAN [1]获得的操纵结果呈现具有姿势变化的噪声伪影类似的情况也可以找到(a) GT(b)I2S(c)Ind(d)pSp(e)我们的图5:在合成数据集上使用Smile和Age属性进行语义编辑的定性比较。值得第一个序列包含语义变化,其中“gender”用于优化,“smile”用于语义编辑,第二个我们编辑的结果与地面事实更相似。在I2S++ [2]中。基于pSp [18]的操纵面几乎不变。这是因为pSp专注于学习从输入到潜在代码的直接映射,而忽略了可编辑性。该问题通过域内反演[24]来解决,但它也牺牲了重建质量。相比之下,由于共同考虑的内在editabil- ity约束之间的连续图像,我们的反向潜在代码更语义可编辑,导致更多的解开操纵。另一方面,噪声空间优化方法(图1的右部分)可以用于噪声空间优化。4)在姿态改变的情况下,与其他相比示出明显的噪声伪影,这是因为预优化的噪声向量不适合于编辑的潜在向量w。然而,Ours++可以比I2S++的反向矢量更好地将性别与眼镜为了评估所获得的反演是否可以通过任意方向进行编辑,我们强制编辑方向与合成数据集上的输入序列所包含的语义变化不同合成数据的定性比较如图所示。五、与对真实数据的评估类似,I2S产生明显的伪影,pSp无法编辑结果,InD无法保留原始身份。我们的操作结果与GT更相似,这表明我们的倒置码与GT潜码更接近,并且也继承了它们的边缘。― ―+姿势+年龄-+年龄-+微笑-13917↓↓←−−→↓L表4:在RAVDESS-12数据集上使用两个盲度量对图像变形的定量评价。表示越低越好,并且最好的结果以粗体标记。度量I2S [1] pSp [18] 美国[24]我们NIQE↓FID↓4.25540.6275.35038.4744.05138.9253.68837.695表5:在合成数据集上利用四个度量对图像变形的定量评估。表示越低越好,并且最好的结果以粗体标记。度量I2S [1]pSp [18] 美国[24]我们NIQE↓FID↓LPIPS↓MSE↓(×e-3)3.38931.7760.472141.4323.80030.1920.467121.8343.21221.9010.469125.6743.11518.6210.40298.354倒置A变形倒置B图6:图像变形任务的定性比较。我们可以看到,我们的结果提出了一个连续的过程和变形的脸是真实的。能力定量评价。我们在表中给出了定量比较。2、Tab。3 .第三章。我们的方法在RAVDESS-12数据集和合成数据集上都取得了最好的结果。特别是,对于盲度量NIQE , 我 们 的 编 辑 结 果 比 最 先 进 的 方 法 提 高 了13.8%,这表明我们的编辑在视觉上更合理。在Syn-thesized数据集上的定量结果可以评估反转码是否与GT码足够接近,使得我们可以重用它们的语义信息。从两个非盲度量LPIPS和MSE,我们可以看到我们编辑的结果与GT非常由于我们在潜在空间中的语义可访问正则化,我们的倒置潜在代码与竞争对手相比,显示出很强的可编辑性。4.4.2图像变形图像变形的目的是通过插值图像的潜码来实现图像的语义融合。这是评价倒排码是否真的存在于潜空间中对于高质量的反转代码,其插值结果也应该保持在可编辑域中,并且语义连续变化。定性比较见图。六、我们可以看到Image2StyleGAN [1]产生的变形结果具有明显的同时,由pSp [18]产生的结果对于非自然毛发是不现实的。相反,我们的方法提出了高质量的结果与连续变形过程。我们还提出了定量评价变形任务的Tab。4和Tab。5,我们可以看到,我们的反演结果优于其他反演方法的真实数据集和合成的。表6:使用四种度量进行图像重建的消融研究。表示越低越好,并且最好的结果以粗体标记。变体 NIQE↓ FID↓ LPIPS↓ MSE↓(×e-3)基线3.770 16.284 0.1628.791不带MAC3.685 13.375 0.1518.065无ICC3.765 14.791 0.1608.508我们3.596 13.136 0.1485.9724.5. 语义转移如第3.2,隐码w和语义方向→n都可以无监督地获得af-称为反转。除了潜在代码之外,我们获得的方向→n表示输入图像的语义变化。给定输入图像作为参考,我们可以将其语义变化传递到目标人脸。转移结果如图所示。7.第一次会议。我们可以看到,目标人脸的语义属性被修改后的参考图像集。请注意,引用中有多个属性已更改。例如,在右边的例子中,嘴和姿势同时变化,这表明,我们获得的方向与所指的方向是分离的,可以应用于其他方面。除了现有的可解释方向的监督[19,20]或无监督[21,22]学习之外,这揭示了语义方向的新的4.6. 消融研究在本节中,我们将分析我们的两个组件的功效:互可访问约束(MAC)和反转一致性约束(ICC)。注意 , 如 果 没 有 这 两 个 分 量 , 我 们 的 方 法 等 于Image2StyleGAN反演,并且我们将其设置为我们的基线。通过去掉这两个约束之一,我们得到两个变量在这种情况下,ICC被移除,并且同时优化所有潜在代码。我们PSPInDI2s13918↓图7:我们从连续图像无监督地获取的方向-n可以用于传递语义。的第一行是作为参考的输入集,红色框中的图像是目标人脸。我们可以将引用的语义变化转移到目标人脸,即使有多个属性发生变化。表7:用两个盲度量对语义操纵的消融研究表示越低越好,并且最好的结果以粗体标记。度量基线不带MAC无ICC我们NIQE↓FID↓3.77621.6093.65916.121.3.39817.2743.25415.482我们在RAVDESS-12数据集上进行了图像重建和语义操作任务的消融研究实验。GAN反转的定量比较示于表1中。六、我们可以看到,每个变量在所有指标上都优于基线。这表明两个分量都有助于GAN反演性能 。 同 时 , 变 体 ( w/oMAC ) 的 性 能 优 于 变 体(w/oICC),这表明连续图像带来的反演一致性对GAN反演任务的贡献更大在选项卡中。7的语义编辑,我们观察到一个不同的情况。我们可以看到变体(w/oICC)比变体(w/oMAC)表现得更好,这揭示了相互可访问的约束将反转的潜在代码限制在可编辑域中。上述两个评估表明,我们的两个约束工作得很好,遵循我们的设计原则。我们在图1中示出了不同变体的结果。8通过改变“年龄”属性。我们可以看到,基线和变体(w/oMAC)与眼镜纠缠在一起,表明仅关注重建保真度缺乏反转码的可编辑性。相比之下,变体(w/oICC)和我们的最终结果可以成功地修改“年龄”属性,揭示了我们设计的5. 结论在本文中,我们提出了一种替代的GAN反演方法的连续图像,我们制定连续(a)基线(b)无MAS(c)无ICS(d)我们的图8:通过编辑“年龄”属性对具有两个变体和基线的语义编辑的消融研究图像反转作为潜在空间中的线性组合过程,其确保可编辑性,并且在RGB空间中跨输入传递重构一致性以保证重构保真度。实验结果表明,该方法在可编辑性和重构逼真度方面是有效的此外,我们还支持各种新的应用,如基于视频的GAN反演和无监督语义传输。鸣谢:本项目得到广东省重点领域研究发展计划(2020 B010165004、2020 B 010166003、2018 B 010107003)的资助;国家自然科学基金项目(61972162、61772206、U1611461、61472145);广-国际科技合作项目(2021 A0505030009);广东省自然科学基金 ( 2021 A1515012625 ) ; 广 州 市 基 础 与 应 用 研 究 项 目(202102021074); CCF-腾讯开放研究基金(CCF-腾讯RAGR 20190112、RAGR 20210114);中国邮政-博士生科学基金(2020M682240,2021T140631)和中央高校基础研究基金(202113035)。+年龄-13919引用[1] Rameen Abdal,Yipeng Qin,and Peter Wonka.图像-年龄2风格:如何将图像嵌入到潜空间中?在ICCV,第4432-4441页,2019年。一、二、四、五、六、七[2] Rameen Abdal , Yipeng Qin , and Peter Wonka. Im-age2stylegan++:如何编辑嵌入的图像?在CVPR,第8296-8305页,2020年。一二四五六[3] Antonia Creswell和Anil Anthony Bharath。反生成对抗网络的生成器。IEEE TNNLS,30(7):1967-1974,2018。2[4] Lore Goetschalckx,Alex Andonian,Aude Oliva,andPhillip Isola.Ganalyze : Toward visual definitions ofcognitive image properties. 在 ICCV , 第 5744-5753 页 ,2019年。一、二[5] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。在NeurIPS,第27卷,2014中。1[6] Martin Heusel、Hubert Ramsauer、Thomas Unterthiner、Bernhard Nessler和Sepp Hochreiter。两个时间尺度更新规 则 训 练 的 甘 斯 收 敛 到 一 个 局 部 纳 什 均 衡 。 在NeurIPS,第6626-6637页,2017年。5[7] Eddy Ilg , Nikolaus Mayer , Tonmoy Saikia , MargretKeuper,Alexey Dosovitskiy,and Thomas Brox.Flownet2.0:深度网络光流估计的演变在CVPR中,第2462-2470页4[8] Ali Jahanian,Lucy Chai和Phillip Isola。关于生成对抗网络的2019. 一、二[9] Tero Karras Samuli Laine和Timo Aila一个基于样式的生成器架构,用于生成对抗网络。在CVPR中,第4401-4410页,2019年。一、三、四[10] Tero Karras , Samuli Laine , Miika Aittala , JanneHellsten,Jaakko Lehtinen,and Timo Aila.分析和改善stylegan的图像质量。在CVPR中,第8110-8119页一、二[11] Diederik P. Kingma和Jimmy Ba。Adam:随机最佳化的方法。2015年,国际会议。4[12] Steven R Livingstone和Frank A Russo。 Ryer-son情感语音和歌曲视听数据库(Ravdess):北美英语中动态的、多模态的面部和语音表达。PloS one,13(5):e0196391,2018. 4[13] Fangchang Ma,Ulas Ayaz,and Sertac Karaman.部分测量卷积生成网络的可逆性。在NeurIPS,第31卷,2018年。2[14] Anish Mittal、Rajiv Soundararajan和Alan C Bovik。制作Signal Process Letter,20(3):209-212,2012. 5[15] Xingang Pan,Xiaohang Zhan,Bo Dai,Dahua Lin ,Chen Change Loy,and Ping Luo.利用深度生成先验进行多功能图像恢复和处理。在ECCV,第262-277页,2020中。2[16] GuimPerarnau , JoostVanDeWeijer , BogdanRaducanu,and JoseMA'lv arez. 用于图像编辑的不可验证的条件gans。2016. 2[17] 亚历克·雷德福卢克·梅斯和苏米特·钦塔拉使用深度卷积生成对抗网络进行无监督表示学习2015年,国际会议。一、二13920[18] Elad Richardson、Yuval Alaluf、Or Patashnik、YotamNitzan、Yaniv Azar、Stav Shapiro和Daniel Cohen-Or。编码样式:一种用于图像到图像转换的stylegan编码器。在CVPR,第2287-2296页,2021中。一、二、五、六、七[19] Yujun Shen,Jinjin Gu,Xiaoou Tang,and Bolei Zhou.语义人脸编辑中gans潜在空间的解释。在CVPR中,第9243-9252页,2020年。一二三四六七[20] Yujun Shen,Ceyuan Yang,Xiaoyu Tang,and BoleiZhou.接口:解释gans学习的解纠缠人脸表征。IEEETPAMI,2020。7[21] Yujun Shen和Bolei Zhou。gans中潜在语义的闭式分解。在CVPR中,第1532-1540页,2021年。三、七[22] 安德烈·沃诺夫和阿特姆·巴本科。潜在空间中可解释方向的无监督发现。在ICML,2020。一、二、三、七[23] Richard Zhang 、 Phillip Isola 、 Alexei A Efros 、 EliShechtman和Oliver Wang。深度特征作为感知度量的不合理有效性。在CVPR,第586-595页5[24] Jiapeng Zhu,Yujun Shen,Deli Zhao,and Bolei Zhou.用于真实图像编辑的域内gan反演在ECCV,2020年。一、二、五、六、七[25] 朱军燕,菲利普·克拉亨布尔,伊莱·谢赫特曼,阿列克谢·埃夫罗斯.自然图像流形上的生成视觉操作在ECCV,第597-613页,2016中。2
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索数据转换实验平台在设备装置中的应用
- 使用git-log-to-tikz.py将Git日志转换为TIKZ图形
- 小栗子源码2.9.3版本发布
- 使用Tinder-Hack-Client实现Tinder API交互
- Android Studio新模板:个性化Material Design导航抽屉
- React API分页模块:数据获取与页面管理
- C语言实现顺序表的动态分配方法
- 光催化分解水产氢固溶体催化剂制备技术揭秘
- VS2013环境下tinyxml库的32位与64位编译指南
- 网易云歌词情感分析系统实现与架构
- React应用展示GitHub用户详细信息及项目分析
- LayUI2.1.6帮助文档API功能详解
- 全栈开发实现的chatgpt应用可打包小程序/H5/App
- C++实现顺序表的动态内存分配技术
- Java制作水果格斗游戏:策略与随机性的结合
- 基于若依框架的后台管理系统开发实例解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功