基于神经ODE的潜在转换和基于GAN的图像编辑

121 浏览量更新于2023-10-14 收藏 20.94MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1144280通过神经ODE进行潜在转换0基于GAN的图像编辑0Valentin Khrulkov 1* Leyla Mirvakhabova 2*0Ivan Oseledets 2 Artem Babenko 1,30Yandex0斯科尔科沃科学技术学院0俄罗斯国家研究大学高等经济学院0khrulkov.v@gmail.com, { leyla.mirvakhabova,i.oseledets } @skoltech.ru , artem.babenko@phystech.edu0摘要0高保真语义图像编辑的最新进展0我们的工作严重依赖于最先进的生成模型（如StyleGAN）所假设的解缠潜在空间。具体而言，最近的研究表明，通过线性转换和潜在方向，可以在人脸图像中实现属性的可控性。我们研究了大量具有已知属性的数据集，并证明了仅通过线性转换很难获得某些属性操作。0在我们的工作中，我们展示了非线性潜在代码操作的重要性。0我们的工作严重依赖于最先进的生成模型（如StyleGAN）所假设的解缠潜在空间。具体而言，最近的研究表明，通过线性转换和潜在方向，可以在人脸图像中实现属性的可控性。我们研究了大量具有已知属性的数据集，并证明了仅通过线性转换很难获得某些属性操作。01. 引言0生成对抗网络（GANs）已经取得了显著的技术进步，对于图像处理和可控生成，如语义图像到图像的转换和通过操作内部GAN激活或生成器参数进行图像编辑。此外，由于GAN的潜在空间被认为是解缠的，最新的方法很大程度上依赖于这一点，例如StyleGAN。具体而言，最近的研究表明，通过线性转换和潜在方向，可以在人脸图像中实现属性的可控性。几个最近的方法解决了发现这些方向的问题，隐含地假设最先进的GAN学习了具有固有线性可分属性分布和语义向量算术属性的潜在0已知的内容空间具有语义上有意义的向量空间算术，最近的大量工作探索这些空间以发现可解释的方向。这些方法所确定的方向然后用于操作用户指定的0* 同等贡献0图像属性，对于人脸图像尤其成功。0虽然有很多方法探索潜在空间的可解释性，但大多数方法都集中在人脸数据集上。0最近已经开发了预训练GAN的空间，其中大多数学习线性潜在控制，而更复杂的非线性潜在转换几乎没有得到解决。我们推测这种限制可能是因为大部分潜在编辑文献都偏向于人脸数据集，其中线性转换足以获得良好的编辑质量。0在这项工作中，我们展示了在一般情况下，线性转换并不足以满足需求。0线性潜在转换不能普遍适用于所有领域和属性，需要更复杂的非线性转换。为此，我们分析了在已知属性标签的几个合成和真实数据集上训练的GAN的潜在空间中不同属性值的分布。我们的分析表明，对于非人脸图像，许多属性不能通过线性转换来控制。为了缓解这个问题，我们提出了一种基于最近的神经ODE工作的潜在转换的替代参数化方法。我们的参数化方法允许基于梯度的优化，并可以在现有的潜在空间探索方法中使用。通过大量实验证明，所提出的非线性转换对于可控生成的目的更具吸引力。特别是，我们证明了非线性转换对于需要全局内容变化的编辑（如场景外观的变化）更有益。0总结一下，我们的贡献如下：0•我0我们分析了GAN潜在空间中不同属性值的分布，并显示线性潜在控制通常在人脸领域之外是不足够的。0• 我们提出了一种基于神经ODE的参数化方法，用于学习允许非线性控制的潜在变换。we achieve controls over the value of the attribute si. Notethat these approaches assume that we use a single vector nifor all the points w 2 W. InterFaceGAN [29] is amongthe most successful approaches to construct the shift vectorthat manipulates a desired attribute in the supervised set-ting. The idea of this method is to ﬁnd a hyperplane in thelatent space separating w with different values of si. For alarge number of random style vectors w the labels are ob-tained by evaluating R[G(w)], and the hyperplane is foundby ﬁtting an SVM on this synthetic labeled dataset. Thecorresponding direction ni is then simply a normal vectorto this hyperplane.144290允许学习非线性控制的潜在变换。在几个非人脸数据集上，我们展示了这种潜在变换的效果。0我们展示了使用这种参数化方法可以获得更高的编辑质量，通过定性和定量的方式进行了确认。0• 我们提出了一种分析学习的神经ODE模型的技术。0基于神经ODE模型，揭示了需要非线性潜在变换的属性。02. 相关工作0已经实证表明GAN的潜在空间具有人类可解释的向量空间算术[27，29，11，16，31，36，30]。例如，在训练了的GAN上，对于人脸图像，它们的潜在空间具有线性方向，对应于添加微笑、眼镜和性别转换。0对于人脸图像，它们的潜在空间具有线性方向，对应于添加微笑、眼镜和性别转换[27，29]。由于这些可解释的方向为强大的图像编辑提供了直接途径，因此它们目前受到了广泛的研究关注。最近的一系列工作[11，29]利用明确的人工提供的监督来确定潜在空间中的可解释方向。例如，[29]使用在CelebA数据集[23]上预训练的分类器来预测特定的人脸属性。然后，使用这些分类器为生成的图像和它们的潜在代码产生伪标签。基于这些伪标签，在潜在空间中构建分离超平面，该超平面的法向量成为控制相应属性的方向。0直接的强大图像编辑路径，但是它们的发现目前受到了广泛的研究关注。最近的一系列工作[11，29]利用明确的人工提供的监督来确定潜在空间中的可解释方向。例如，[29]使用在CelebA数据集[23]上预训练的分类器来预测特定的人脸属性。然后，使用这些分类器为生成的图像和它们的潜在代码产生伪标签。基于这些伪标签，在潜在空间中构建分离超平面，该超平面的法向量成为控制相应属性的方向。0其他工作[11]在潜在空间中解决了优化问题，最大化了预训练模型对图像审美吸引力的评分。这种优化的结果是使图像更具审美吸引力的方向。两个自监督的工作[16，26]寻找与简单图像增强（如缩放或平移）相对应的潜在空间向量。最近的一些方法[31，14，25]在没有任何形式的（自我）监督的情况下确定可解释的方向。[31]学习了一组方向，可以通过基于两个样本的单独分类模型轻松区分，这两个样本是由原始潜在代码生成并沿着特定方向移动的。[25]通过最小化生成器Hessian矩阵的非对角线平方和来学习这些方向。另一种方法[14]表明，可解释的方向通常对应于生成器网络的隐藏层激活的主要成分。0提到了非线性潜在变换的可能性，但他们没有提供非线性编辑的可靠证据；因此，最近的大部分编辑文献仅使用线性操作。据我们所知，我们的工作是第一个在几个数据集上展示了线性编辑的不足之处，并与非线性技术进行了严格的定量比较。0提到了非线性潜在变换的可能性，但他们没有提供非线性编辑的可靠证据；因此，最近的大部分编辑文献仅使用线性操作。据我们所知，我们的工作是第一个在几个数据集上展示了线性编辑的不足之处，并与非线性技术进行了严格的定量比较。03. 基于GAN的图像编辑0在本节中，我们回顾了当前的图像编辑方法。0通过GAN进行可控图像生成和编辑，并讨论它们可能的弱点。0G : W ! X ，其中 W � R d 表示潜在空间， X � R C � H � W表示图像空间。我们使用基于样式的生成器，其中操作是在所谓的样式空间 W中进行的，已经证明该空间在各种图像属性上更具“解耦”性。我们专注于监督设置，并假设我们已经获得了经过训练的语义属性回归网络 R : X ! S � R N，它预测给定图像的属性值。这里的 S 表示图像域 X的语义属性空间，例如对于人脸，可以是头发颜色、年龄等。图像属性 S 的空间可能是详尽的，即点 x 2 X可能通过其属性 R ( x )唯一确定，或者只是“真实”属性空间的一个子集。03.1.通过平移操作图像属性0目前大多数方法都提出了通过在潜在空间中进行简单线性平移来操作-0合成图像的属性与潜在空间中的简单线性平移。这意味着以下内容。设s为生成图像G(w0)的属性向量，si为单个选择的(二进制)属性。这些方法试图精心构造一个向量ni，使得通过逐渐改变w0，我们可以控制属性si的值。注意，这些方法假设我们对所有点w∈W使用单个向量ni。InterFaceGAN[29]是构造平移向量以在监督设置中操作所需属性的最成功方法之一。该方法的思想是在潜在空间中找到一个分隔具有不同si值的w的超平面。对于大量的随机样式向量w，通过评估R[G(w)]获得标签，并通过在这个合成标记数据集上拟合SVM来找到超平面。相应的方向ni只是这个超平面的法向量。0w(�) = w0 + �ni, (1)04.非线性方法0与前面描述的方法相比，本节中的方法不同-0在这里，我们将重点放在GAN潜在空间中的非线性方法上。我们可以将简单的线性移位视为-˙w =f(w; ✓)kf(w; ✓)k,(3)with f(·; ✓) being an MLP (or constant) as described above.To compute image edits, we then move along the trajecto-ries of this ODE in the latent space.transformations in the latent space in such a manner thatthey would change the desired attribute while leaving theothers unchanged. Recall, that R is a network, which pre-dicts the value of image attributes. Suppose that we have Ndiscrete attributes and our goal is to manipulate the i-th (bi-nary) attribute. Let w be a random style vector with a vectorof attributes R(w) = (s1, . . . , si, . . . sN). We set the targetattribute vector ˆs = (s1, . . . , 1 � si, . . . sN). After follow-ing along the trajectory of the Neural ODE starting at w forsome time value T, we obtain a point w(T, ✓). More con-cretely, in practice we set the maximal value Tmax of order8�12 and then randomly sample the interval [Tmax/4, Tmax]to get the ﬁnal time step (as was done in [31]). In whatfollows, as a slight abuse of notation, we will denote byR[·] the predicted attribute values of a generated image:R[G( )].1(w, ✓) = CE([w(T, ✓)]i,ˆsi),(4)L2(w, ✓) =1N � 1NXj=1,i6=jCE(R[w(T, ✓)]j,ˆsj).(5)144300图1.考虑以下二进制属性si在潜在空间W中的分布的玩具例子。通过任何平移向量n，左侧分布中的某些点将“错过”右侧分布。这表明更复杂的非线性平移可能是必要的。0由(1)给出的作为具有恒定右手边的微分方程的流动，即˙w =ni，其中初始条件w(0) =w0。将这种编辑推广到非线性领域可以直接进行：例如，通过用某个函数替换右手边，该函数取决于输入w。我们提出了一种简单的方法：我们考虑具有由几个线性层和LeakyReLU激活函数组成的神经网络参数化的右手边的神经ODE模型[7]。然后使用回归器R进行端到端训练。现在让我们详细讨论模型结构和训练过程。04.1.关于神经ODE的提醒0神经ODE模型[7]连接了微分方程-0通过参数化ODE系统来参数化微分方程和神经网络：0˙h(t) = f(h(t), t; �), (2)0其中t∈[0,T]是时间，h(t)∈Rd。ODE问题在时间步t=T处的解作为相应隐藏层的输出，其中输入作为(2)的初始值提供。在实践中，可以通过黑盒微分方程求解器计算输出。为了计算关于�的梯度，通常使用伴随方法，它允许在额外的函数评估成本下进行内存高效的反向传播。04.2.用于图像操作的神经ODE。0我们直接应用神经ODE进行图像操作-0在GAN的潜在空间中进行。即，我们用潜在空间中可训练的神经ODE替换线性流(1)。现在让我们简要描述一下具体情况和优化目标。0网络架构。神经ODE的右手边-0ODE模型f(∙; �)由一个简单的多层感知器(MLP)表示，具有LeakyReLU非线性(其中�=00.2)。我们将网络f的层数从1变化到3；我们另外考虑一个恒定的右手边，即形式为˙w =�的方程，其中�是可训练的。我们还将ODE的右手边归一化为单位长度，以便对于相同的T值，所有方法的轨迹长度相同。总之，我们的神经ODE具有以下形式。0为了实现上述所需的转换0为了实现这些属性的期望转换，我们引入了一个损失函数，由两个项组成：第一个项用 L 1 表示，衡量获得的第 i个属性值与期望值之间的差异。0其中 CE 表示交叉熵损失。第二个项由 L 2表示，控制剩余属性值的变化。0最后，损失函数的形式为 L = L 1 + L 2。请注意，这个损失函数通常不能写成单个交叉熵损失，因为离散属性 ˆ s j可能属于不同基数的空间（例如，我们可能有一个像“物体位置”这样的属性，假设有一个大的中间值集合）。在我们的工作中，我们为每个属性搜索一个单独的神经ODE；然而，原则上，可以考虑条件神经ODE并使用一个模型。C(⌧, w) =(61443104.3. 评估0图像编辑方法的质量评估0通常来说，评估图像编辑的效果是一个非平凡的任务，通常依赖于人工评估者提供的平均意见分数或一些代理指标。一般来说，给定一种改变图像潜在编码的方法，我们在视觉上观察是否发生了期望的属性转变以及转换的解耦程度 [ 29 ,31]。简而言之，我们提出以传统PR或ROC曲线的精神来在数值上衡量这些效果。具体而言，给定起始点 w 和时间步长� ，我们测量 (i) 属性 s i 的值是否等于期望的目标值，以及(ii) 对于剩余的每个属性，我们计算沿着轨迹到 �的标签分布的归一化熵。 (ii)的背后思想是，在理想情况下，属性值保持不变，并且相对“罕见”和局部化的自发属性变化仍然是令人满意的。形式上，对于给定的带有属性向量 R ( w ) = ( s 1 , . . . , s i , . . .s N ) 和目标属性向量 ˆ s = ( s 1 , . . . , 1 − s i , . . . s N) ，这两个指标分别称为 C( �, w ) 和 D( �, w )，分别表示控制和解耦。具体定义如下。01 , ˆ s i = R [ w ( � )] i 0 , 否则，(6)0D(�, w) = 10N - 10NX0j = 1，j ≠ i0H0�0{R[w(t)]j}�0t = 00�0H0�0Uniform(#Sj)0�. (7)0这里 #Sj表示第j个属性的基数，H是熵。为了得到这些度量指标的全局值，我们简单地对大量样本进行平均。即，我们得到一条01 /0i D(�, wi))，构造上位于单位0方块。通过比较这些曲线在两种方法中的相对位置，我们可以判断哪种方法提供了更好的解缠缠结/控制质量。然而，需要注意的是，通过这些度量指标可靠地估计质量只有在已知数据中的所有变化因素的情况下才可能，这对于合成数据集是可能的。对于大规模真实图像数据集，我们必须依靠人工评估的标准视觉评估。05. 实验0我们已经在Pytorch中实现了提出的方法。0Pytorch。对于GAN训练，我们使用了一块单独的0我们在DGX-1工作站上使用8个Nvidia Tesla V100GPU进行训练，对于训练神经ODE，我们使用了一块单独的V100GPU（在我们的设置中，每个方向大约需要30分钟）。架构、优化细节和额外实验的具体信息，请参阅补充材料。我们的代码和模型可在github上找到。05.1. 合成数据集0本节的目标是定量验证非线性编辑在一些已知的大规模数据集上的效果，这些数据集包含了纹理和非纹0在一些已知的大规模数据集上验证非线性编辑的优势，这些数据集包含了纹理和非纹理属性（见图3的示例）。0数据集。0• MPI3D包含103,6800张图像，有7个因素0[12]。该数据集表示机器人手臂在各种位置上持有不同形状和颜色的物体。我们使用数据集的玩具部分，即简单渲染的图像。0• Isaac3D是一个最近提出的高分辨率图像数据集。0分辨率为128x128的图像[24]，包含737,280张图像和9个变化因素；我们将图像调整为128x128的分辨率。从某种意义上说，这是MPI3D的高级版本，具有逼真的图像和更多的属性。0对于这两个数据集，每个图像都由相应的属性唯一确定；因此，我们可以使用上述度量指标合理地比较线性和非线性操作。0GAN模型。我们使用了最近提出的StyleGAN 2。0[19]及其在Pytorch中的实现，可以在github上找到。我们使用默认设置，只修改了样式网络中的层数，将其设置为3，与[24,20]中的设置相同。对于MPI3D，我们训练了1250万帧，对于Isaac3D，我们训练了2500万帧。训练过程中没有使用任何数据增强。0属性回归器。对于每个数据集，我们训练了一个属性回归器网络。0在真实数据上训练了一个属性回归器网络。对于MPI3D，0我们使用一个简单的四块CNN作为骨干网络，后面跟着多个分类头部，对于Isaac3D，我们使用了ResNet18（未预训练）作为骨干网络。在这两种情况下，属性回归器能够在测试集上对所有属性达到超过99%的准确率。0神经ODE模型。我们考虑了两个神经ODE模型，0具体来说，我们使用了一个可训练常数右侧的线性模型（在图中称为Ours(linear)），以及由深度为1的MLP表示的右侧模型（Ours(nonlinear)）。我们使用了在github上找到的开源实现的神经ODE。我们将所有模型训练了5000次迭代，批量大小为24。对于这两个数据集，所有属性都有超过两个的取值，而之前我们只考虑了二元属性。为了简化，当我们对索引为j的属性进行修正时，我们将其二值化。144320图2.我们的学习方法。通过可训练的神经ODE的非线性流，将潜在空间的样本转换。损失函数确保编辑图像的期望语义属性发生变化，而其他属性保持不变。这些属性是使用预训练的属性回归器R获得的。0图3.用于方法定量评估的两个合成数据集的样本。在这两种情况下，所有变化因素都是已知的。0通过学习将sj = 0转换为sj = #Sj -1，并且所有其他属性保留其完整的离散值集合。对于这两个数据集，我们使用Tmax =12。对于Isaac3D，我们考虑所有属性，对于MPI3D，我们为前五个属性训练神经ODE模型，因为两个位置属性的基数很大；然而，在计算指标和训练期间，我们仍然将它们包括在内。作为参考，我们包括了InterFace-GAN（IF）方法及其“解缠”版本IFprojected的得分。后者是使用[29]中指定的条件操作方法获得的（我们将每个属性都与所有其他属性进行条件操作）。0我们现在评估所得到的神经ODE。结果如下。0我们现在评估所得到的神经ODE。结果如下。0对于Isaac3D，我们在图4中总结了结果。在这里，我们绘制了CD曲线，如第4节所讨论的。直观地说，较低的曲线位置，即覆盖控制范围的曲线，与另一个曲线相比，表示图像编辑方法的质量更好。我们观察到，深度神经ODE可以在所有属性上在解缠和控制之间取得合理的折衷。另一方面，线性转换则无法实现这种折衷。0一个曲线相对于另一个曲线的较低位置，即覆盖控制范围的曲线，表示图像编辑方法的质量更好。我们观察到，深度神经ODE可以在所有属性上在解缠和控制之间取得合理的折衷。另一方面，线性转换则无法实现这种折衷。0另一方面，线性控制在控制方面较差（即它们在潜在空间的某个子集上不起作用）。0图4.Isaac3D和MPI3D的控制-解缠曲线。我们观察到，与线性转换不同，非线性流可以在所有样本上实现良好的控制，同时保持合理的解缠。0或者提供较差的解缠。有趣的是，在某些情况下，曲线在原点附近会跳跃，例如相机高度。这种行为表明潜在代码在属性转移发生之前必须经过相当长的距离，直观上对应于整洁且分离良好的属性分布。另一方面，对于许多其他非纹理属性，这些分布可能会“交织”潜在空间W和属性转换可以相对接近原点发生。图5提供了学习到的操作示例。05.2. 现实生活数据集0在本节中，我们研究非线性行为。0我们的基于神经ODE的方法在现实生活数据集上学习到的图像编辑。此外，我们在附录B.1中还包括了对CUB-200-2011数据集的实验。Similar to the previous reasoning, we consider the attributeswhich intuitively correspond to the drastic change of im-age content. Namely, we study the rugged attribute andthe lush vegetation attribute. Results are provided atFigure 8. Here we can observe an interesting failure modeof linear methods: for instance, in the last example, they144330图5. 在MPI3D上操作前五个属性。在可视化中，我们使用了深度为2的学习的神经ODE。0数据集。0• FFHQ是一个包含70000个高质量人脸图像的数据集。0人脸图像[18]。这是一个标准的图像编辑基准，因为它包含丰富的年龄、种族、光照和背景变化。0• Places365包含1803460个训练图像，0400多个独特的场景类别[33]。我们将数据集限制为户外自然场景，并过滤掉具有属性“人工制造”的场景。最终版本包含48个类别和239457个图像。0模型。对于这些数据集，我们还使用了StyleGAN 2。0对于FFHQ，我们使用了最近的高质量预训练模型，该模型生成分辨率为256x256的图像，并由[17]的作者在github上提供。CUB-200-2011和Places365是生成建模的特别具有挑战性的数据集，因为样本数量较少且样本多样性较高。我们使用自适应数据增强（ADA）策略[17]来处理有限大小的数据集。我们使用tensorflow中的作者实现，链接与github相同。我们使用默认配置训练两个模型的2500万帧；我们只更改样式网络中的层数为8，以与FFHQ模型保持一致。对于训练，我们将所有图像调整为256x256。0属性回归器。对于所有属性回归器，我们使用在ImageNet上预训练的相同冻结的ResNet18骨干网络，然后是一个可训练的深度为2的MLP，对于每个属性，我们考虑一个单独的分类头。为了训练回归器，我们使用了以下数据。0使用相同的冻结ResNet18骨干网络，在ImageNet上预训练，然后是一个可训练的深度为2的MLP，对于每个属性，我们考虑一个单独的分类头。为了训练回归器，我们使用了以下数据。0• 对于FFHQ，我们使用CelebA [23]数据集提供的数据和属性注释。0CelebA [23]数据集提供的注释。0有202,599个图像，具有40个二进制属性，例如微笑、性别、发型等。0数据集。该数据集包含8,571个场景图像0Neural ODE。我们使用完全相同的设置和损失函数0在我们的方法中，强制保持身份的另一种方法是利用现成的表示网络F，例如人脸数据集的FaceNet[28]。在这种情况下，我们用余弦距离替换了我们的L2损失，即F[G(w(T;�))]和F[G(w)]之间的距离。有关此实验的详细信息，请参见补充材料。0对于合成数据集，我们使用与之前相同的损失函数。我们为每个属性训练一个单独的模型。我们尝试了神经网络0编辑，我们考虑InterFaceGAN（IF）。我们使用20,000个潜在代码来训练SVM。我们没有得到具有条件的IF的竞争结果，因此我们使用了标准版本。这种方法类似于其他作品[3,36]。0基线。作为监督图像的基线方法0我们假设对于由人脸图像组成的数据集，描述纹理特征（例如头发或肤色）的属性可以线性地进行相对较好的操作，而对于非纹理特征（例如头发类型、性别）的属性，线性变化可能会有稍微较差的性能。为了支持我们的假设，我们对性别和波浪发型进行了实验；我们的发现在图6中描述。此外，我们还尝试了属性操作的组合，例如，我们可能首先想要改变性别，然后再操作发型；我们的实验在图7中总结。我们注意到，在所有实验中，我们的非线性方法在视觉质量方面优于或与线性方法相当。05.2.1 FFHQ0与先前的推理类似，我们考虑直观上对应于图像内容的剧烈变化的属性。即，我们研究崎岖属性和茂盛植被属性。结果见图8。在这里，我们可以观察到线性方法的一个有趣的失败模式：例如，在最后一个示例中，它们-05.2.2 Places365144340图6. 在FFHQ数据集上训练的StyleGAN2上操作两个不同属性。对于性别：男性和波浪发型，线性变化会导致（i）不自然的面部颜色（ii）身份变化。0图7.一个顺序属性操作的示例：性别：男性与随后的波浪发型属性。我们的非线性方法在控制和解缠方面表现得更好。0简单地使纹理更绿，从非常高的层次上来说，对应于更多的“植被”。然而，它们遇到了困难-0我们的非线性方法成功地实现了添加树木或草地等细节的困难，这一点也适用于崎岖的属性。05.2.3编辑真实图像0在本节中，我们展示了基于获得的神经ODE的编辑可以应用于投影到StyleGAN 2 W+空间的真实图像。我们使用了标准的投影仪[19]和深度为1的训练模型。与以往的真实图像编辑[1,2,3]一样，我们将编辑应用于W+的子集。具体来说，我们在这个实验中使用了索引（0-6）。我们的结果如图9所示。0图8.在Places365数据集上操纵崎岖和郁郁葱葱的属性。我们观察到我们的非线性方法可以实现对图像内容的期望控制，而线性变换往往会改变图像的纹理。0图9.在W +空间中操纵真实图像。05.2.4人工评估0与以前的工作[3]类似，我们对获得的编辑质量进行了人工评估。我们选择了0FFHQ有13个共同属性，Places365有32个属性。在评估过程中，我们向评估员展示了三张图片：一张原始图片和两张通过两种不同方法获得的修改图片；这两张图片是随机顺序显示的。我们问了以下问题：（Q1）“哪个更好地改变了目标的属性？”和（Q2）“哪个更好地保留了原始图片的身份？”可能的答案包括“左边”，“右边”和“无/两者都不适用”；参与者的总数为21，回答的数量为�1000，对于两个数据集都是如此。我们将Ours（非线性）与Ours（线性）和IF方法在单独的研究中进行比较。结果见表1；我们观察到我们的非线性方法可以更好地控制和保持身份。vsIFOurs(linear)IFOurs(linear)Q1+34%+10%+47%+48%Q2+4%+5%20%+31%NXi=1Spearman rank correlation between the attribute orderingprovided by HSV D and human evaluation ordering visual-ized at Figure 15. The obtained value is ⇠ 0.41, conﬁrmingthe existence of a correlation. Interestingly, we ﬁnd thateven such ‘simple’ attributes such as gray hair still re-quire a nontrivial trajectory in the latent space. The obtainedHSV D values for Places365 are available in the supplemen-tary material. Overall, based on the experimental results,we argue that attributes requiring a ‘global’ content changecan not be adequately controlled with linear edits. E.g., forgray hair which is naturally entangled with the facialappearance, we do not simply change the hair color but alsomake the entire face older. Similar logic holds, for instance,for the lush attribute on Places365. On the other hand,such attributes as Smiling or Bushy Eyebrows requirerelatively small and localized changes, and we observe thatthe IF method is on par with our nonlinear model.144350FFHQ Places3650表1.根据人工评估者的观点，Ours（非线性）相对于线性方法的改进情况（以绝对百分比值表示）。0特别是在更具挑战性的Places365数据集上。我们注意到，在这个数据集上，IF经常难以进行任何视觉编辑，这解释了它在Q2上的优势。我们在附录C的图14中可视化了我们问卷的界面。附录C的图15给出了每个特定属性的改进情况（对于Ours（非线性）与IF的评估）；我们还注意到，IF和Ours（线性）的前4个最具挑战性的属性是一致的，这表明某些属性需要非线性控制（卷曲的头发，灰色的头发）。05.2.5学习到的神经ODE的分析0在本节中，我们研究了使用我们的方法得到的各种属性的神经ODE。我们专注于深度为1的模型，即它采用形式d w0dt = A w + b。对于分析0sis，我们忽略右侧的归一化，因为它不会影响到得到的轨迹，只是对其重新参数化。为了研究所得到的0ODE，切换到A的特征基是方便的。在这些坐标下（假设所有特征值都是实数），ODE的形式变为d e w0具有大幅度特征值| λ i | �1对应于‘快速’子空间，在这个子空间中发生了一些非平凡的动态。另一方面，在‘慢速’子空间中，特征值| λ i | �1，动态接近于线性，即轨迹接近于直线。因此，我们可以通过评估相应矩阵的特征值如何快速衰减来衡量属性的‘复杂性’。如果它们迅速衰减，那么这个属性就更容易通过线性变换进行控制，并且在相反情况下需要更多的‘非线性’控制。估计矩阵A的范围由奇异熵来完成。它是通过矩阵A的奇异值{ σ i }来定义的，具体如下：0H SVD ( A ) = −0˜ σ i log ˜ σ i , (8)0其中 { ˜ σ i } 是归一化奇异值集合： ˜ σ i = σ i / P σ i 。 HSVD ( A ) 的值可以作为 A的‘快速’子空间的对数维度的代理。我们假设对于具有较大 H SVD值的属性，我们的非线性方法提供了更显著的改进。在计算H SVD 时，我们使用前 128 个奇异值（共 512个）以消除噪声。0图10. 在FFHQ上估计的多个属性的H SVD 值。06. 结论0在这项工作中，我们讨论了一种新颖的图像处理方法。0通过非线性位移进行图像操作，由神经ODE模型参数化.在多个数据集上，我们证明了我们的方法相对于标准线性位移的优势。对于分析，我们仅考虑了以传统方式训练的最先进的StyleGAN2。因此，可能存在这个模型的设计选择不允许实现完美的解缠。未来工作的一个有趣方向是更好地理解潜在空间中属性分布的排列方式以及如何利用它来实现更好的解缠。实现这一目标的另一个可能方向是尝试调整GAN架构，使其更好地融入几何（即形状）归纳偏差。[3] Rameen Abdal, Peihao Zhu, Niloy Mitra, and Peter Wonka.[4] David Bau, Steven Liu, Tongzhou Wang, Jun-Yan Zhu, and[5] David Bau, Jun-Yan Zhu, Hendrik Strobelt, Bolei Zhou,ing the image quality of stylegan.In Proceedings of theIEEE/CVF Conference on Computer Vision and PatternRecognition, pages 8110–8119, 2020. 4, 7[20] Valentin Khrulkov, Leyla Mirvakhabova, Ivan Oseledets, andArtem Babenko.Disentangled representations from non-disentangled models, 2021. 4[21] Pierre-Yves Laffont, Zhile Ren, Xiaofeng Tao, Chao Qian,and James Hays. Transient attributes for high-level under-standing and editing of outdoor scenes. ACM Transactionson Graphics (proceedings of SIGGRAPH), 33(4), 2014. 6[22] Hsin-Ying Lee, Hung-Yu Tseng, Qi Mao, Jia-Bin Huang,Yu-Ding Lu, Maneesh Singh, and Ming-Hsuan Yang.Drit++: Diverse image-to-image translation via disentangledrepresentations. International Journal of Compute

下载后可阅读完整内容，剩余1页未读，立即下载