CoordGAN：基于GANs的自监督密集对应关系学习

65 浏览量更新于2023-10-25 收藏 15.09MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

100110CoordGAN：GANs中自监督密集对应关系的出现0Jiteng Mu 1*，Shalini De Mello 2，Zhiding Yu 2，Nuno Vasconcelos 10Xiaolong Wang 1，Jan Kautz 2，Sifei Liu 201 UC San Diego，2 Nvidia0Corr-Map生0Corr-Map生0Corr-Map0（裁剪）0Corr-Map0（裁剪）0图1.由所提出的CoordGAN合成的各种对象类别的图像（左：人脸；右上：汽车；右下：猫）：每一行显示具有相同结构但不同纹理的图像；在每一列中，结构保持不变，纹理变化。合成图像的对应关系图（Corr-Map）显示在每行的第一列中。为了更好地可视化，我们使用现成的分割模型来突出显示所有对应关系图的前景区域，如Corr-Map（Crop）所示。0生成对抗网络（GANs）可以合成具有平滑变化的图像，沿着语义上有意义的潜在方向，如姿势、表情、布局等。虽然这表明GANs隐含地学习了图像之间的像素级对应关系，但很少有研究探索如何明确地提取它们。在这项工作中，我们引入了CoordinateGAN（CoordGAN），这是一个结构纹理解耦的GAN，为每个生成的图像学习了一个密集的对应关系图。我们将不同图像的对应关系图表示为从规范坐标系变换而来的变形坐标系，即对应关系图描述了结构（例如脸部的形状），通过变换来控制。因此，找到对应关系变得更加困难0直到在不同的对应关系图中找到相同的坐标。在CoordGAN中，我们采样一个变换0mation to represent the structure of a synthesized instance,while an independent texture branch is responsible for ren-0* 在Nvidia实习期间完成的工作。0dering appearance details orthogonal to the structure.Our approach can also extract dense correspondencemaps for real images by adding an encoder on top ofthe genera-01. 引言0生成对抗网络（GANs）取得了巨大的成就0在合成高质量图像方面取得了巨大成功[3, 20-22,37]，许多最近的研究表明它们也学习了丰富的可解释的潜在空间方向[40,41]。沿着语义上有意义的方向（例如姿势）移动潜在代码会生成具有平滑变化外观的实例（例如不断变化的视角），这意味着GANs也隐含地学习了哪些像素或区域from GANs. Speciﬁcally, we aim to learn an explicit cor-respondence map, i.e., a pixel-level semantic label map.Since correspondence represents structure (e.g., shapes offacial components) and is independent of texture (e.g.,global appearance like skin tone and texture), this task ishighly relevant to disentanglement of structure and texturein GANs [1,28,33,41,45,50]. Studies show that disentan-glement of semantic attributes can be achieved by carefullysearching for latent directions learned by GANs [12,41,50],but all attributes being factorized have to be identiﬁed byhumans.Some recent advances [1, 28] demonstrate ef-Our key idea is to introduce a novel coordinate space,100120彼此对应，来自不同的合成实例。0另一方面，密集对应关系已经建立起来0在局部语义相似区域之间建立对应关系，但外观不同（例如两只不同眼睛的补丁）。学习同一类别图像之间的密集对应关系仍然具有挑战性，因为标记大规模的像素级注释非常费时费力。虽然大多数现有的0作品依赖于监督[7, 11, 17,39]或无监督[47]图像分类网络，但很少有人研究如何从GANs中学习密集对应关系。0在这项工作中，我们探索学习密集对应关系0通过改进生成对抗网络的噪声代码输入[1]，或在中间层应用空间注意力[28]，实现了有效的结构-纹理解耦。然而，它们要么产生相对较低分辨率（例如4x4）的结构图[1]，要么不明确地产生结构图[28]。0从中可以明确地获得一个类别的所有合成图像的像素级对应关系。受到3D网格的UV映射[19,27,31]的启发，其中一个类别的形状被表示为一个规范模板的变形，在这项工作中，我们将生成图像的密集对应关系图表示为从规范2D坐标映射变换而来的变形坐标帧。这使得能够表示一个唯一的结构0我们的关键思想是引入一种新的坐标空间，从该空间中可以明确地获得像素级对应关系，即语义标签地图。由于对应关系表示结构（例如面部组件的形状）并且与纹理（例如肤色和纹理等全局外观）无关，因此这个任务与生成对抗网络中的结构和纹理解耦密切相关。研究表明，通过仔细搜索生成对抗网络学习到的潜在方向，可以实现语义属性的解耦[12,41,50]，但所有要分解的属性都必须由人类识别。一些最近的进展[1,28]通过改进生成对抗网络的噪声输入或在中间层应用空间注意力来实现有效的结构-纹理解耦。然而，它们要么产生相对较低分辨率（例如4x4）的结构图[1]，要么不明确地产生结构图[28]。0我们在训练过程中采用了几个目标，以确保0网络学习准确的密集对应关系，即（1）纹理交换约束，以确保具有相同结构代码但不同纹理代码的图像具有相同的结构；（2）纹理交换约束，以确保具有相同纹理代码但不同结构的图像具有相似的纹理0结构代码。我们还引入了一种变形损失来进一步规范对应关系图。此外，我们还展示了CoordGAN可以灵活地配备一个编码器，为真实图像生成密集对应关系图。我们总结我们的贡献如下：0• 我们引入了一种新的坐标空间，从该空间中学习准确的密集对应关系0可以明确提取一个类别的图像之间的密集对应关系。引入了一个变形函数来学习这个坐标空间。0• 我们提出了CoordGAN，一种解耦的生成对抗网络，可以生成0通过一组有效的目标生成密集对应关系图和高质量的图像。0• CoordGAN可以灵活地配备编码器0为真实图像生成对应关系图。换句话说，我们还引入了一个网络（即编码器），学习明确的结构表示。0• 实验证明CoordGAN生成准确的0为各种类别生成密集对应关系图和高质量的结构/纹理可编辑图像。02. 相关工作0解耦的生成对抗网络。最近的研究[12,41,50]表明0富有语义意义的方向（例如姿势、颜色、光照等）在生成对抗网络中自动出现。为了分解这些有意义的潜在方向，提出了一系列解耦的生成对抗网络[4,5,33,34,42]，通过多个潜在因素合成图像，其中每个因素控制一定的属性，例如物体形状或纹理。与需要人工注释（例如边界框、表面法线等）的[34,42,45]不同，与我们相关的大多数是自监督解耦方法[1,28,33]。其中，Alharbi等人[1]表明，在生成对抗网络的第一层注入分层噪声可以实现细粒度的空间内容解耦。Kwon等人[28]进一步在多个层次注入噪声，并使用对角线空间注意力模块。然而，学习到的内容代码只捕捉到粗略的结构，例如视点，即保持相同的内容代码并仅修改纹理代码将改变主体的形状。相反，我们的方法模拟了更细的结构，可以生成具有不同纹理的相同身份的图像。0风格迁移。风格迁移[6,10,18,35,43]通过结合一个图像的内容和另一个图像的纹理来合成新的图0通过将一个图像的内容与另一个图像的纹理相结合来生成新的图像。与我们相关的大多数方法是在两个图像的语义相关区域之间交换纹理。例如，Park等人[35]学习了一个解缠结的自动编码器，以便可以交换相应区域的纹理。相比之下，我们的工作研究了无条件GAN的解缠结，并明确提取了图像之间的密集对应关系。0密集对应。识别密集对应关系一直是一个重要问题。0由于形状和外观变化较大，密集对应一直是一个具有挑战性的问题。大多数现有方法都是2DWHC(i, j) = (i, j), this denotes the canonical coordinate map(see Figure 2). Pixel locations and coordinates are normal-ized to the range [�1, 1]. For example, C(1, 1) = (1, 1)indicates the bottom right pixel of the coordinate map is100130Corr-Map A Corr-Map B 规范0坐标框架0图像A 图像B0图2.坐标空间中的对应关系。对应映射（Corr-Map）在所有合成图像和规范坐标框架之间建立了密集对应关系。0基于判别网络，即有监督的图像分类[7,11,17,25,32,39]或无监督的图像级对比学习[47,48]。我们的工作不同之处在于我们研究如何从GAN中提取密集对应关系。最近的几项工作[49,52]表明，通过线性分类器可以从GAN中提取语义信息，但这些方法仍然需要手动注释来训练分类器。受到这些工作的启发，我们进一步提取了无需使用任何注释标签的密集对应关系。0并行工作。Peebles等人[36]实现了视觉0通过为预训练的StyleGAN2[23]添加额外的空间变换网络（STN）[16]来实现对齐。然而，只能为物体的部分部分识别到密集对应关系。不同的是，通过解缠结结构和纹理，所提出的CoordGAN自动生成完整图像的对应关系图，无需预训练的StyleGAN或额外的STN。03. CoordGAN中的密集对应0我们设计了一个结构-纹理解缠结的GAN，0密集对应可以从结构组件中明确提取出来，其中关键组件是将图像结构与所有图像共享的坐标空间相结合。具体来说，每个生成的0图像表示为一个变形的坐标框架，从共享的规范2D坐标框架变换而来。这将图像像素之间的对应关系的查找减少为在相应的变形坐标框架中定位坐标，这些坐标是从规范坐标框架中的相同坐标变换而来的。我们将我们的模型称为坐标GAN（CoordGAN）。0坐标映射表示。我们将C定义为0在坐标(1,1)处定义了一个变形函数W：(C,w)→Cw，其中C是一个坐标映射，w是一个参数化的代码，将C映射到一个变形的坐标映射Cw。由于代码w将图像的像素坐标与规范坐标映射相关联，可以将其视为图像结构的表示。特别地，Cw(i,j)=(k,l)意味着图像的像素i,j与规范坐标k,l对应。给定具有代码w1和w2的两个图像，还可以通过寻找具有相似坐标的像素来建立它们之间的对应关系。给定与坐标Cw1(i,j)相关联的图像的像素(i,j)，另一个具有坐标映射Cw2的图像中对应的像素为，0T 1, 2 (i, j) = arg 0p,q || C w 1 (i, j) - C w 2 (p, q) || 2, (1)0其中 T 1, 2 定义了从变形坐标 C w 1 到 C w 2的正向变换。这样，包括变形函数的图像生成模型自动建立了所有合成图像之间的密集对应关系，如图2所示。这对于在图像之间传递属性（如语义标签、标志位置、图像像素等）非常有用。03.1. 概述0CoordGAN的概述如下所示0图3.CoordGAN是一种基于结构坐标映射表示的生成模型。我们模型的输入包括两个维度为N的潜在码向量：用于建模布局和物体结构的结构码 z s ∈ R N和用于建模纹理、光照等的纹理码 z t ∈ RN。CoordGAN生成器 G(z s, z t; �G)是一个从这些码到图像空间的映射，具有参数 �G。它由结构和纹理映射的组合实现。参数为 � S的结构映射网络 w s = S(z s; � S)将结构噪声变量 z s映射到结构码 w s，然后由变形函数 W(C, w s)生成一个变形的坐标映射 C w s 用于图像。参数为 � T的纹理映射网络 w t = T(z t, � T)将纹理噪声变量 z t映射到纹理码 w t。然后，调制生成器通过由参数化的映射A 产生一个图像，参数为 � A。0G(z s, z t; � G) = A(C w s, w t; � A), (2)0其中 � G 包括 � S、� T和 �A。各个模块的细节将在下面的章节中讨论。03.2. 坐标变形网络0CoordGAN的一个主要组成部分是变形0我们提出了一个坐标变形网络0它学习了在规范坐标和变形坐标之间的转换，该转换是在一个潜在结构码 w s的条件下进行的。虽然存在多种可微分的变换函数，如ThinPlate Splines (TPS)、Spatial Transformation Network (STN)[16]和af�nity ma-ConcatSince the latter has high resolution (i.e., 128⇥128), insteadof gradually increasing spatial resolution, the spatial reso-lution is kept the same as the input Fourier embedding atall layers as shown in Figure 3. We inject the latent tex-ture code wt into different layers of the modulated gener-ator, via weight modulation [22], to render appearance de-tails at different levels. To balance the structure and tex-ture inputs at an architectural level, the dense correspon-dence map is also concatenated with the features producedby multiple intermediate layers of the modulated generator.We found that, without this multi-layer modulation of densecorrespondence map, the coordinate warping network canonly learn coarse and inaccurate structure information (e.g.,viewpoints of faces), as shown in Table 3.100140结构映射网络0规范坐标映射0位置编码0坐标变形0网络0相关图0纹理映射网络0调制卷积层0调制卷积层0图像0调制生成器0连接0连接0HxWx(C+2)0HxWx(C+2)0仿射0变换0结构潜码0规范坐标映射0MLP0坐标变形网络0HxWxC0图3.CoordGAN的概述。CoordGAN主要包括纹理映射网络、结构映射网络、坐标变形网络和调制生成器。坐标变形网络（右侧）接收结构潜码和规范坐标映射，并输出一个对应关系图，然后将其馈入多层调制生成器以合成图像。0trix [30,44]，在CoordGAN中，这个变换是通过一个MLP实现的0C w s (i, j) = W(C(i, j), w s) = P([C(i, j), w s], � P) 8 i, j (3)0其中 [C(i, j), w s] ∈ R N +2 是规范坐标框架中坐标 i, j与结构潜码 w s的连接。在补充材料中，我们展示了MLP是一个可学习的、条件几何变换，用于规范坐标框架和变形坐标框架之间的转换。0通过MLP学习变换的优点有两个。首先，由于MLP是一个包含仅线性投影层和ReLU的连续函数，它保持了规范坐标系中坐标的顺序，即确保了形变是微分同胚的。其次，与TPS和STN相比，我们的W设计更通用，允许更灵活的变形。0CoordGAN的其余组件。虽然03.3. 将形变融入CoordGAN0位置编码。与其输入密集的对应关系，0CoordGAN的其余组件。虽然我们的生成器设计受到StyleGAN [ 21 ]的启发（见图3），但我们在以下讨论主要区别。0映射网络S(∙)和T(∙)。我们使用相同的0通过MLP学习变换的优点有两个。首先，由于MLP是一个包含仅线性投影层和ReLU的连续函数，它保持了规范坐标系中坐标的顺序，即确保了形变是微分同胚的。其次，与TPS和STN相比，我们的W设计更通用，允许更灵活的变形。0调制生成器A(∙)。我们替换了可学习的0结构和纹理分别负责的两个独立映射网络。0将对应关系映射直接输入StyleGAN的生成器，我们通过位置编码层将其映射。即，通过应用1×1卷积后接正弦函数获得傅里叶嵌入。傅里叶嵌入作为生成器的第一层。03.4. 学习目标0学习准确的对应关系图并鼓励0潜在空间的解缠，使得z s 和z t分别编码图像结构和纹理，Co-or0纹理交换约束。为了确保具有相同纹理编码z t 的结构代码z s 1 和z s 20ordGAN在结构固定且只有纹理编码被修改时生成相同的身份和图像布局，应用纹理交换约束。给定一对具有共享结构编码z s 和不同纹理编码z t 1 ，z t 2的合成图像，纹理交换损失L t定义为两个合成图像之间的LPIPS [ 51 ]损失:0L t = L LP IP S ( G ( z s , z t 1 ; � G ) , G ( z s , z t 2 ; � G )) . (4)0结构交换约束。为了鼓励图像0共享相同纹理编码的图像具有类似外观纹理，引入了结构交换约束。这包括鼓励具有相同纹理编码z t 但不同结构编码zs 1 和z s 2 的两个图像具有相似的纹理。根据[ 35]，通过以下方式实现：h⇣Dpatch G(zs1, zt; ✓G), G(zs2, zt; ✓G)⌘i.Lwarp = LLP IP S(xw2,1, x2),(6)Lcham = 1|C|X(i,j)2Cmin(p,q) ||C(i, j) � Cw(p, q)||2+1|Cw|X(p,q)2Cwmin(i,j) ||Cw(p, q) � C(i, j)||2.(7)LG =�t ⇤ Lt + �s ⇤ Ls + �warp ⇤ Lwarp+ �cham ⇤ Lcham + �GAN ⇤ LGAN,(8)Lcon = L2(ws, ws,E) + L2(Cw, CwE ),(9)Lrec = L1(x, G(E(x))) + LLP IP S(x, G(E(x))),(10)LE = �con ⇤ Lcon + �rec ⇤ Lrec + �t ⇤ Lt,(11)sults of models trained on the CelebAMask-HQ [29], Stan-ford Cars [26], and AFHQ-Cat [6] datasets. We train sepa-rate models on each dataset, using a resolution of 512⇥512for the CelebAMask-HQ model and 128⇥128 for the othertwo. For CelebAMask-HQ, we ﬁrst train CoordGAN withan output size of 128 ⇥ 128 and then append two upsam-pling layers to generate high-resolution images. Detailednetwork design and training hyper-parameters are describedin the supplementary.4.1. Evaluation on Dense CorrespondenceWe quantitatively demonstrate the quality of the ex-100150基于补丁鉴别器D patch 的非饱和GAN损失:0L s = E0− log0形变损失。形变损失被定义为明确的-0显式地规范化对应关系图。给定一对0合成图像x 1 = G(z s 1 , z t 1 ; � G)和x 2 = G(z s 2 , z t 2 ; �G)，通过根据方程（1）转移像素颜色，将x 1 根据x 2的坐标框架进行变形。在实践中，类似于[30, 44,46]，我们使用亲和矩阵放松方程（1），使得变形可微分。这样就产生了一个变形的图像xw02 , 1 . 基于0LPIPS损失[51]，0用于最小化x w02 , 1 和 x 2 .0Chamfer损失。假设一个规范化的坐标映射C0将其转换为变形的坐标映射C w，实施Chamfer损失以避免变换的崩溃，0整体学习目标。为了生成逼真的图像-0图像，对合成图像应用标准的GAN目标函数L GAN。结合所有前述的损失目标，整体训练目标定义为0其中λ t ，λ s ，λ warp ，λ cham ，λGAN是用于平衡不同损失的系数。03.5. 通过编码器反转CoordGAN0CoordGAN可以配备一个编码器来0能够从真实图像中提取稠密对应关系。具体而言，引入一个由参数化的编码器E（∙; �E）参数化的编码器E（∙; � E）将图像x映射到一对结构w s,E和纹理wt,E潜在代码。然后，将这些潜在代码输入到CoordGAN中合成图像的副本。正如在[38]中观察到的那样，将真实图像直接嵌入到W+空间而不是W空间中可以更好地重建。因此，对于纹理分支，我们设计编码器输出纹理潜在代码w+0t,E在W+空间中，而不是W空间中0在训练过程中，我们固定生成器，通过潜在一致性、重建和纹理交换损失来优化编码器，具体如下所述。0潜在一致性损失。我们引入一个潜在一致性损失0通过将合成图像反馈给编码器并匹配编码器输出的分布来匹配编码器输出的分布，从而实现一致性损失0由映射网络原始产生的。假设使用潜在代码w t ，w s和对应关系图Cw合成图像。将该图像输入编码器会产生一对潜在代码w+0t,E 和 w s,E ，以及0对应关系图C w0E . 潜在一致性损失0L con 定义为0其中L2（∙，∙）表示L2损失。0重建损失。这是用于0输入真实图像，使用L1（L1）和LPIPS[51]（LPIPS）组件进行定义，如下所示0整体学习目标。整体学习目标是-0用于编码器训练的目标是0其中λcon，λrec，λt是平衡不同损失的超参数。0我们注意到编码器有助于对真实图像进行显式结构表示学习。与基于优化的GAN反演方法相比，它的效率0在本节中，我们展示了定量和定性的结果。04. 实验04.1. 密集对应关系的评估0在语义标签传播任务中，我们对提取的密集对应关系进行了定量评估。给定一个具有语义标签的参考图像，首先使用训练好的编码器推断出其对应关系图。这为该图像的语义标签和对应关系图之间建立了映射关系。然后为查询图像推断出另一个对应关系图，并使用公式（1）获取参考图像的标签。为了与训练阶段对齐，我们在实践中使用亲和矩阵放宽公式（1）。0在CelebAMask-HQ [29]和DatasetGAN[52]数据集上评估了不同方法。我们合并了CelebAMask-HQ数据集的标签，并选择了6个类别（眼睛、鼻子、耳朵、嘴巴、脸部和眉毛）CelebA-HQ DGAN-face DGAN-carResnet50 [14]39.4811.0511.07Moco [13]36.1910.009.53VFS [48]38.108.556.88Swap AE [35]24.735.485.37Pix2Style2Pix [38]48.5020.3610.77CoordGAN52.2523.7813.23100160对应关系图0（裁剪）0参考0图像0参考0标签0对应关系图0（裁剪）0查询图像0传播的0标签0对应关系图0（裁剪）0查询图像0传播的0标签0对应关系图0（裁剪）0查询图像0传播的0标签0图4.语义标签传播的定性结果。每一行中，给定一个参考图像及其左侧显示的语义标签，所提出的方法预测其对应关系图，并将其分割掩模传播到右侧的其他查询图像。为了更好地可视化，我们使用地面真值掩模突出显示所有预测的对应关系图的前景区域，用Corr-Map（Crop）表示。请注意，实际的标签传播不使用地面真值掩模。0用于我们的评估。DatasetGAN数据集包含人脸（34类）和汽车（20类）的详细手动注释标签。对于DatasetGAN中的人脸，我们排除了颈部和头发，因为它们在数据集中的所有图像中都不一致可见。对于所有数据集，我们随机选择5个图像作为参考图像，另一组作为查询图像。将每个参考图像的语义标签传播到所有查询图像，并计算与地面真值分割图的平均交并比（IOU）以进行评估。我们报告这5次运行的平均分数。0基准。对于所有基准模型，我们提取特征。0从隐藏层中提取特征，并使用最近邻搜索确定特征对应关系并传播标签。我们在下面详细介绍了用于标签传播的选定特征。我们使用了两组基准。第一组0由基于迁移学习的方法组成，其中包括具有监督ImageNet预训练的方法，例如ResNet50[14]，或者基于自监督对比学习的方法，例如MoCo[13]在ImageNet[8]上预训练，以及在Kinetics视频数据集[24]上预训练的VFS [48]。对于所有这些方法，我们都使用ResNet50[14]作为骨干网络，并直接在我们的任务上测试预训练模型，无需微调。我们遵循[47, 48]，使用Res-block4的特征进行标签传播，因为Res-block4给出了最佳的像素级对应关系。另一组基准是基于自动编码器的方法，例如Swapping Auto-encoder[35]和Pix2Style2Pix[38]。这两种方法都是在与我们相同的数据集上进行训练的。对于SwappingAuto-encoder，使用结构分支特征进行标签传播。对于Pix2Style2Pix编码器，使用Res-block4的特征进行标签传播。所有方法都使用128的输入图像分辨率进行评估，Pix2Style2Pix的输入图像尺寸设置为256。0表1. 标签传播的IOU比较。我们的方法0在所有基准方法中，CoordGAN展现了最好的语义标签传播结果。0定量结果。如表1所述，0posedCoordGAN在语义分割标签传播任务上优于所有自监督基线方法，对于这个任务，最相关的方法是0Pix2Style2Pix也学习了预训练StyleGAN2模型的编码器。虽然Pix2Style2Pix的编码器特征包含了结构和纹理信息，但只有结构信息的CoordGAN对应图仍然实现了更好的标签传播性能。这些结果表明CoordGAN学习到了比其他方法更准确的对应关系。0定性结果。我们可视化了坐标0图4中显示了坐标图和传播的分割标签。左侧显示了DatasetGAN数据集中的几个参考图像及其语义标签。右侧显示了不同查询测试图像的传播结果。参考图像和查询图像的预测对应图使用颜色编码并与前景的真实语义标签进行掩蔽以便更好地可视化。请注意，这仅用于可视化，实际的标签传播不使用真实的掩蔽。请注意，我们的方法对于正面和侧面查询人脸都产生了精确的标签传播结果。CoordGANDiagonalGANStyleGAN FactorizationCelebA-HQStanford CarsAFHQ-catLPIPS # Arcface # FID # LPIPS # FID # LPIPS # FID #StyleGAN2 [23]--8.21-16.20-21.02DiagonalGAN [28]0.580.7911.160.6118.090.5517.63CoordGAN0.220.3816.160.2124.270.2723.62100170图5. 纹理交换的定性比较。从上到下：在CelebAMask-HQ、StanfordCars和AFHQ-cat数据集上训练的模型。对于CoordGAN和DiagonalGAN，每行显示的图像都是使用相同的结构代码和不同的纹理代码生成的。对于GANFactorization，每行的图像都是使用沿着已识别的特征向量方向的随机扰动生成的。显然，当仅修改纹理代码时，CoordGAN在保留结构方面表现更好。0表2.纹理交换比较。CoordGAN的最低LPIPS和Arcface特征距离表明在纹理代码变化时更好地保留了结构。0对于汽车来说，这更具挑战性，考虑到视角和尺度的巨大差异。例如，在极端情况下，参考汽车从前方视角观察，查询汽车从后方视角观察，不存在对应关系。令人惊讶的是，即使在参考汽车从侧面观察，查询汽车从后方观察的情况下，CoordGAN仍然能够合理地匹配标签。我们推测这是因为它通过观察许多实例并在训练期间密集地关联它们来学习了一个合理的类别先验知识。04.2. 保持身份的纹理交换0我们分析了结构和纹理的解缠，0通过使用相同的结构代码但不同的纹理代码（即纹理交换）生成图像，并评估输出的结构一致性。在这些实验中，我们关注生成器，不使用编码器。0我们使用ArcFace [9]人脸身份损失和LPIPS[51]损失来评估解耦和结构保持性能，以及FID[15]分数来衡量生成图像的感知质量。ArcFace计算两个人脸之间的特征级余弦相似度损失。它可以用来衡量人脸身份是否保持一致，因为损失越小，两个图像捕捉到相同身份的可能性就越大。LPIPS[51]用于衡量两个图像是否具有相似的图像布局。0基准。CoordGAN与两个基准进行了比较。0基准：DiagonalGAN [28]和GAN Factorization[41]。DiagonalGAN在基于StyleGAN的结构和纹理解耦方面取得了最先进的性能。与CoordGAN类似，它使用单独的结构和纹理代码作为输入。为了生成纹理交换的图像，我们采样一个结构代码和不同的纹理代码，然后使用上述度量计算合成图像之间的结构相似性。GANFactorization利用奇异值分解来识别不同GAN层之间的语义有意义的潜在方向。该论文认为GAN的最后几层主要负责控制纹理。因此，我们通过在预训练的StyleGAN2的最后两个卷积层的计算特征向量上添加扰动，使用GANFactorization生成纹理交换的图像。LPIPS#Arcface #CelebA-HQDGAN-faceCoordGAN0.100.3252.2523.78w/o struc-mod0.320.7348.5920.01100180图6.结构交换的定性结果。每一行显示了使用相同纹理代码和不同结构代码生成的图像。0结果如表2所示，CoordGAN优于基准。0对于所有对象类别的解耦度量（ArcFace和LPIPS），CoordGAN在所有解耦度量（ArcFace和LPIPS）上都显著超过了基准。这表明它成功地保留了输入纹理无关的细粒度图像结构。请注意，ArcFace仅适用于人脸。FID分数是针对所有方法生成的10,000张图像计算的，供参考。请注意，正如[1,28]中讨论的那样，由于强制执行了强解耦约束，FID分数略有下降。0在图5中，每一行显示了不同的纹理交换图像。0通过固定结构代码并变化纹理代码来生成图像，我们进一步展示了CoordGAN的成功。DiagonalGAN完全改变了主体的身份，这在测试汽车时更加明显，因为视点不确定且尺度可以变化。结果表明，它的解耦内容代码只捕捉到了粗糙的结构信息，例如粗略的图像布局和视角。相比之下，CoordGAN成功地保持了粗粒度和细粒度的图像结构，并且只变化了外观，在所有数据集上都表现出色。对于GAN分解，虽然可能可以详尽地搜索只修改图像纹理的潜在特征向量，但很难精确控制合成图像的外观。04.3. 结构交换0为了进一步证明CoordGAN成功地解耦了结构和纹理，在本节中，我们合成了具有相同纹理代码和不同结构代码（即结构交换）的图像。如图6所示，从上到下，我们展示了在CelebAMask-HQ、StanfordCars和AFHQ-cat数据集上分别训练的模型合成的图像。很明显，每一行的图像都展示了相似的纹理（例如人类的头发/面部颜色、灰色汽车、橙色猫）和不同的结构变化（例如视角、比例、形状、布局等）。这再次证明了CoordGAN学习到了一个解耦的表示，其中结构代码和纹理代码捕捉到了合成图像的不同属性。更多的可视化结果请参见补充材料。0解耦对应性0表3.结构调制的消融实验。我们展示了将结构调制纳入到良好的解耦和对应性能（通过IOU测量）中是必不可少的。04.4. 消融实验0我们对不同的架构进行了消融实验，关于结构0分支，即仅将对应关系映射（1）馈送到CoordGAN的第一层（w/ostruc-mod），或者（2）调制多层，如第3.3节所讨论的。这两个模型都是在CelebAMask-HQ数据集上合成分辨率为128x128的图像。表3显示了所提出的结构调制设计对于实现结构和纹理的良好解耦是至关重要的。这证实了需要一个非平凡的架构设计来嵌入结构信息，并强调了所提出的平衡结构和纹理调制的重要性。附录材料中还包括更多关于目标的研究。05. 讨论0结论。在这项工作中，我们展示了从生成模型中学习密集对应关系是可能的0训练GAN，以便密集对应关系可以自动出现。我们提出了一种新颖的解耦GAN模型Co-ordGAN，它通过一种新颖的坐标空间生成密集的对应关系映射。这通过GAN反演的编码器进行补充，它使得可以为真实图像生成密集的对应关系。实验结果表明，CoordGAN为各种类别生成准确的密集对应关系映射。这为以无监督方式从生成模型中学习密集对应关系打开了一扇新的大门。我们定性和定量地证明了CoordGAN成功地解耦了多个基准数据集上的结构和纹理。0局限性和未来工作。目前提出的0模型仅限于在同一类别内学习对应关系，因为它需要从相同的规范空间转换的坐标映射。虽然我们可以从坐标映射中推断出3D视点（如图4所示），但我们在表示中没有明确建模3D结构。这项工作的未来扩展可以是学习一个3DUV坐标映射，而不是一个3D映射来表示底层结构。0致谢。本工作部分得到了来自0NSF IIS-1924937，NSF IIS-2041009，NSFCCF-2112665（TILOS）以及Qualcomm和Amazon的赞助。[6] Yunjey Choi, Min-Je Choi, Munyoung Kim, Jung-Woo Ha,[7] Christopher B Choy, JunYoung Gwak, Silvio Savarese, and[8] Jia Deng, Wei Dong, Richard Socher, Li-Jia Li, Kai Li,[9] Jiankang Deng, Jia Guo, Niannan Xue, and Stefanos[10] Leon A. Gatys, Alexander S. Ecker, and Matthias Bethge.[11] Kai Han, Rafael S Rezende, Bumsub

下载后可阅读完整内容，剩余1页未读，立即下载