没有合适的资源?快使用搜索试试~ 我知道了~
任意尺度图像合成方法与生成对抗网络生成任意尺度和多尺度一致图像的研究
115330任意尺度图像合成0Evangelos Ntavelis 1,2 Mohamad Shahbazi 1 Iason Kastanis 2 Radu Timofte 10Martin Danelljan 1 Luc Van Gool 1,301 ETH Zurich计算机视觉实验室, 瑞士 2 CSEM机器人与机器学习, 瑞士 3 KU Leuven, 比利时0entavelis,mshahbazi,radu.timofte,martin.danelljan,vangool@vision.ee.ethz.ch0(a)我们训练的内容 (b)我们训练的目标 (c)我们可以在没有明确训练的情况下做到的事情0图1.(a)我们使用尺度一致的位置编码和修改后的生成器架构进行训练,使得(b)能够合成任意尺度和多尺度一致性。(c)我们展示了我们在训练过程中从未遇到的新配置的结果,如生成从未见过的尺度、空间变换(如扭曲和拉伸)的外推和编辑。0摘要0位置编码使最近的工作能够训练一个单一的对抗网络,可以生成不同尺度的图像。然而,这些方法要么限于一组离散的尺度,要么在模型没有明确训练的尺度上难以保持良好的感知质量。我们提出了设计与生成器层变换不变的尺度一致的位置编码。这使得即使在训练期间没有见过的尺度上,也能生成任意尺度的图像。此外,我们将新颖的尺度间增强和部分生成训练纳入我们的流程中,以促进在任意尺度上合成一致的图像。最后,我们展示了在各种常用的图像合成数据集上连续尺度的竞争结果。01. 引言0生成对抗网络(GAN)[9]是最常用的用于生成和操作图像和视频的范式[12, 24, 25, 29, 30, 35, 36]。有前景的0GAN取得的结果已经激发了计算机图形学和视觉内容生成的几个应用。理想情况下,GAN模型不仅能够生成与训练数据相似的图像,还能够在目标应用中对生成过程进行操纵和控制[13,27]。例如,用于动画和视频的GAN模型应该能够在不同的位置、尺度和视角生成对象,同时保持对象的其他属性的一致性。拥有一个能够控制不同对象属性的单一模型已经引起了研究界的广泛关注[7, 18,20]。然而,大多数现有的GAN模型仅限于其训练数据的位置先验,使其无法生成未见过的平移和尺度。0Xu等人[37]最近揭示了卷积GAN通过使用卷积中的零填充作为不完美和隐式的位置编码来学习其训练数据的位置先验。受到这一发现的启发,已经提出了显式的位置编码,使得GAN模型对不同的平移、尺度具有等变性。Multi-scale generation can be defined as the task of gen-erating images in different scales using a single model.MSG-GAN [19] can be seen as one of the earlier workson multi-scale generation. Inspired by ProGAN [14], theauthors propose an architecture that outputs an RGB imageat each layer of the generator, resulting in generating mul-tiple scales of the same image. This approach, however, isonly limited to the discrete resolutions up to the resolutionof the final output. A recent study called MS-PIE [37], pro-poses a padding-free fully-convolutional architecture capa-ble of multi-scale generation based on the input positionalencoding and the global latent code. The multi-scale gen-eration can be done by feeding different resolutions of thepositional encoding to the generator. To avoid shrinkagein the size of the padding-free feature maps, authors usebi-linear upsampling layers that generate feature maps with115340和分辨率[2, 6, 32,37]。位置编码使得可以获得一个单一的GAN模型,可以生成具有不同分辨率、不同对象尺度和位置的图像。然而,尽管最近的工作带来了新的机会,但现有的方法仍然仅限于离散分辨率下的多尺度生成。它们在不同尺度和分辨率之间存在对象不一致性。为了解决上述限制,我们旨在将使用单个生成器的多尺度生成任务扩展到任意连续尺度。为此,我们首先提出了一个更合适的位置编码公式。虽然这导致了任意尺度的生成,但仅靠这一策略不能保证在不同尺度上的一致性。因此,我们进一步提出了一种通过鉴别器中的尺度间增强来强制不同尺度和分辨率之间的一致性的方法。具体而言,我们从相同的潜在编码生成不同尺度的图像。然后,不同尺度的生成图像对通过通道混合和切割混合进行增强。最后,鉴别器将增强的图像分类为真实或伪造。这种方法鼓励生成器生成尺度一致的图像,使得图像在尺度间增强后仍然看起来真实。最后,我们的方法还可以以尺度一致的方式生成图像的部分分辨率,如图1所示。总结我们的贡献:0•我们设计了一种尺度一致的位置编码方案,使得完全卷积和无填充的生成器能够生成任意尺度的图像。0•我们引入了一组尺度间增强技术,推动生成器在不同尺度之间生成一致的图像。0•通过在训练流程中引入部分生成,进一步促进任意尺度之间的一致性。0我们在多个常用数据集上进行了实验,这些数据集具有不同的位置先验条件。我们的结果表明,引入的生成流程允许一致地生成任意尺度的图像,同时保持高视觉质量。02. 相关工作0生成对抗网络已经在各种应用中被应用于无条件生成[15],以及受条件限制的生成,例如图像[41]、语义类别[3,31]、语义布局[24,25]和文本[28]。作为本文的主要关注点,本节讨论了现有的关于部分生成和基于GAN的多尺度生成的方法。02.1. 部分生成0标准的GAN通常被训练成直接将潜在编码映射到完整的图像。而能够进行部分生成的模型通常独立地生成图像的不同部分,然后将它们聚合起来构建完整的图像。正如以前的研究所调查的,部分生成可以被表述为图像的分块式[5, 21, 22,33,42]或像素级[2]生成。部分生成的主要挑战是保持完整图像的全局结构和一致性。因此,使用隐式或显式位置编码的位置感知生成已经成为部分生成的关键组成部分。位置编码也在语义图像合成的背景下使用过[34]。COCO-GAN[21]生成图像的不同补丁,并将它们连接起来形成完整的图像。通过使用一个生成器,该生成器使用位置编码、全局潜在编码和一个评估连接补丁质量的鉴别器,来确保全局一致性。Infinity-GAN[22]是另一个基于补丁生成的模型,它将局部潜在编码与全局潜在编码和位置编码结合起来驱动生成。ALIS[33]利用补丁生成来生成在水平方向上无限扩展的图像。INR-GAN[32]和CIPS[2]与前述的方法不同,它们通过像素级的部分生成进行生成。它们不是使用卷积网络生成图像补丁,而是利用全连接的隐式神经表示(INR)根据坐标网格中的位置生成每个像素。每个图像的INR的样本特定参数由一个超网络生成,该超网络接收潜在编码作为其输入。与这些方法相反,我们的生成器通过生成较小分辨率的全帧图像并施加多尺度一致性目标来学习全局一致性。02.2. 多尺度生成115350额外的边界,弥补了位置编码的缺失。最近的一项类似研究[6]通过在生成器的每一层中提供位置编码来实现多尺度生成,同时保留零填充。我们证明,通过适当设计位置编码,仅将其作为输入使用就足以实现多尺度生成。此外,前述方法中没有一种解决在任意尺度上合成的问题,也没有解决多尺度输出是否一致的问题。CIPS[2]和INR-GAN[32]虽然是针对单一尺度进行训练的,但能够生成多尺度图像。然而,请注意,它们的单位置条件输入不包含任何关于它们要生成的尺度的信息。03.我们的方法0我们的目标是设计一个生成对抗网络,用于图像合成,能够实现:(a)全帧或部分图像生成,(b)任意分辨率的生成,以及(c)在不同尺度和部分之间的一致性。03.1. 图像作为连续空间0通过在连续坐标空间R2中查看图像Iz,图像生成被视为在这个连续空间的有限矩形区域内离散位置处对图像值进行采样。我们将采样图像的尺度s定义为采样周期,将其分辨率r =(rx, ry) ∈N2定义为采样点的数量。因此,连续空间中图像的尺寸(w,h)可以得到如下:0(w, h) = (rx * sx, ry * sy) ∈ R2. (1)0我们还需要一个参考位置来指定连续空间中矩形的位置。我们使用图像的中心坐标c = (cx, cy)。现在,元组a = (c, s,r)唯一地描述了一个采样图像Iz,a。因此,Iz,a[i, j] -在Iz,a中像素(i, j)的值是从连续图像中获得的:0Iz,a[i, j] = Iz(cx + sxi - w/2,0cy + syj - h/2) (2)0其中z是图像空间的语义标识符。每个不同的场景/肖像/照片都有其独特的z。03.2. 任意尺度合成的属性0基于卷积的生成器架构需要具备特定特征,以便以空间等变和尺度一致的方式进行任意尺度合成。本节将阐述关于用作引导的输入位置编码的这些属性。0位置引导的生成。生成器需要提供在图像空间中的位置(c)、分辨率(r)和尺度(s)的能力。我们通过位置编码penc(a) =penc(c, r,s)将这些信息传递给网络。类似于Iz的定义,penc的每个元素指定一个单独的位置。位置的采样周期定义了尺度,它们的数量和对齐方式定义了分辨率。penc与潜在编码z不同,可以被视为描述产生另一个图像空间的场景的描述。我们的生成器网络G将潜在编码z和位置编码映射到图像空间:0Iz,a = G(z, penc(a)), where a = (c, r, s) (4)0空间等变性可以如下定义:参考位置c →c'的平移应该导致图像空间中的类似平移。0Iz,a' = G(z, penc(a')) where a' = (c', r, s) (5)0同样,我们可以将尺度一致性定义为对尺度变换s →s'的等变性。0Iz,a'' = G(z, penc(a'')) where a'' = (c, r, s') (6)03.3. 设计一个尺度和平移等变生成器0我们的生成器网络G基于常用的StyleGANv2。首先,我们讨论实现空间和尺度等变性所需的修改。生成器的架构主要由一个学习到的常数输入、一个调制的3×3卷积层和L个块组成,每个块包含一个上采样层和两个调制的3×3卷积层。卷积层使用零填充,保持输入-输出特征图的分辨率不变。生成器中唯一改变大小的操作是上采样层。假设输入大小为n in × n in。输出分辨率由以下公式给出:0r L = n in * 2 L (7)0这意味着卷积生成器的输出大小与其输入大小成正比,并且只能具有以2L为增量的值。要合成一个全帧分辨率在两个连续值之间的图像,例如L1,L2,G需要处理部分合成。最终结果要么是修剪的rL2,要么是较小输出的拼接版本。尺度和平移等变性对于我们的目标至关重要。由于生成器架构是一个多步骤的过程,实施方程(5)和(6)在每个中间步骤都成立是一种自然的方式。卷积层通过设计是平移等变的。因此,我们在其余组件中解决这个属性:填充、上采样和位置输入。G115360全帧生成 部分生成0真/假0尺度一致性变换0D0Cut Mix G G0鉴别器和尺度一致性0风格代码0风格代码0图2.我们的训练流程。我们使用位置编码来指导生成。增加它们的数量会导致更大的分辨率,而改变它们之间的间距会改变尺度。灰色框表示对应于完整面部的位置。红点的数量是恒定的,并定义了用于补偿生成器中缺少零填充的位置填充。应用尺度间增强增强了尺度之间的一致性。0去除填充。零填充会破坏网络的平移等变性[22,37]。去除填充会剥夺网络的位置锚定。相反,位置编码引导图像的生成[6,37]。然而,没有填充,3×3卷积会导致输出特征图相对于输入特征图缩小。上采样时的陷阱。一种方法[37]来抵消零填充的这种收缩效应是将上采样操作更改为大于两倍的因子。这为特征图提供了过多的像素,随后被卷积所消耗。具体而言,上采样后应用两个卷积块,特征图从n in调整为2 * nin +4。然而,当应用于不同尺度时,这种方法会使空间发生不均匀的变换。4×4的输入将缩放3倍,而8×8的输入将缩放2.5倍。同样,在上采样操作和输入编码设计中,当使用对齐的角落进行调整时,也会发生空间的不均匀变换。固定位置的角落。Xi等人[37]认为,对于边缘位置编码使用固定值,对于每个尺度都相同,可以提供图像空间上的空间锚点。虽然这对于生成特定尺度的图像很有用,但它阻碍了我们的任意尺度和部分合成目标。对于平移等变性,编码指向像素中心而不是角落至关重要。这样,两个独立生成的补丁将由等间距位置特征来表征。在多尺度合成中,对齐的角落改变了不同尺度之间的采样周期,其中d n × n = (w/(n-1),h/(n-1))。或者,将所有位置编码采样为它们产生的补丁的中心位置,给出一个周期为d n × n = (w/n, h/n),因此2d2 n × 2 n = d n ×n。在不同层之间的位置基础之间的尺度不一致推动网络过度拟合。0因此,生成器无法合成介于其训练的规模之间的尺度。我们可以在图3的第一行中观察到这种效果。规模一致的位置编码。我们在位置编码的设计中解决了上述问题。我们使用网格坐标系统作为定义位置编码的一种自然和直接的方式。由于我们希望位置编码描述与采样图像Iz,a相同的区域,其中a= (c, s, r),输入分辨率为n×n,我们发现采样周期为s n×n= (w/n,h/n)根据(1)。为了抵消收缩效应,我们利用特征展开[4,22]。然而,对于多尺度合成,展开应该被用作辅助填充,并且在设计编码的采样周期时不考虑,以保持2d2n×2n =dn×n。因此,我们在每一侧通过常数n pad对位置编码进行外推。我们定义位置编码为,0p enc(a)[i, j] = (c x + s x (i + 0.5) - w/2,0c y + s y (j + 0.5) - h/2),0� i, j ∈ [-n pad, n + n pad) ∩ Z (8)0注意,n pad 不影响尺度 s。使用penc(a)作为输入到我们的基于StyleGAN2的架构中,中间特征图的分辨率为:0对于第一个卷积,n 0 out = n + 2n pad - 20对于每个上采样块,n l out = n l-1 out * 2 - 4 (9)0通过设置n pad = 3,我们得到:0对于每个上采样块,n l out = n in *2^l + 4 (10)0每个中间特征图的边缘额外的4个像素无论输入尺寸如何都存在。它们在保持方程(10)一致性方面起辅助作用。160128192Iz,asmall = G(z, penc(asmall))(11)Iz,alarge = G(z, penc(alarge))(12)115370a) 无规模一致PE b) 规模一致PE c) 规模一致PE和一致性训练0图3.不同位置编码和上采样技术的结果。生成器训练了两个输出分辨率:128和192。我们的位置编码使生成器能够在训练的规模之间生成,但不能产生一致的结果。添加规模一致的目标和部分合成训练可以缓解这个问题。0层。我们在网络末尾将它们移除,因此我们的输出分辨率与其零填充对应的公式相同(方程(7))。特征展开指定了一个比我们想要生成的区域更大的图像区域。上采样是在不改变区域的情况下将尺度加倍。卷积消耗了多余的区域,但是初始位置编码描述的区域在层之间不会改变。位置编码的偏移会导致图像的偏移。此外,改变它们之间的间距而不增加它们的数量将改变它们描述的区域的大小,并让我们生成连续的尺度。03.4. 规模训练0尽管前面描述的设计选择允许生成任意大小的图像,但不能保证从相同的潜在代码但不同尺度的图像之间的一致性。为了实现这一点,我们提出了一个尺度一致性目标。训练流程。为了训练多尺度目标,我们教导生成器合成不同尺度的图像。对于每个批次,我们随机选择输出分辨率r small和rlarge = 1.5 * rsmall,从预定义的集合中选择,符合方程(10)。假设一个具有6个上采样块的生成器,我们选择r small = 256和rlarge = 384。这给我们n small = 4和n large =6。然后,我们随机选择将要生成的图像的尺度s和其位置(cx, c y)。0最后,我们对潜在编码 z 进行采样。因此,我们得到,0类似地,我们根据 ( c x , c y )对真实图像进行裁剪和调整大小。尺度一致性。经典的对抗训练只能使图像在每个尺度上看起来逼真。我们需要定义一个目标,教导生成器匹配输出。一种直接的方法是在不同尺度生成的图像之间施加距离度量,如L1损失,并随后调整大小以匹配。然而,这可能会给网络带来冲突的激励。L1损失使不同的图像匹配,而不考虑它们的感知质量;两个均匀黑色的图像将达到完美的L1损失。我们提出了一种尺度一致性方法,旨在同时生成不同尺度的相似图像和逼真图像。为了实现这一目标,在鉴别器的训练过程中,我们在将 I z,asmall 和 I z,a large输入鉴别器之前使用了增强技术。首先,我们使用 Cut-Mix[ 39 ]在一个尺度上裁剪一个区域,并用另一个尺度生成的相同区域的调整大小的裁剪替换它。然后,我们使用 ChannelMix随机将图像的某些RGB通道替换为其调整大小后与之对应的图像的通道。鉴别器试图测量混合图像的真实性。在这个过程中,生成器学习将其合成的图像的身份与样式编码以及其位置和尺度与输入位置映射相关联。我们的方法的整个流程如图2所示。通过多尺度训练实现部分生成的全局一致性。结合部分和多尺度训练自然地解决了一个常见的部分合成问题:全局一致性。生成器可以在推理时创建一个一致的大分辨率全帧图像,而无需明确训练。网络通过被教导生成小分辨率全帧图像和高分辨率补丁的详细纹理来学习全局结构。在推理过程中处理注入的噪声。在公式(4)中,我们描述了一个简化的生成器公式,省略了每个卷积结束时注入的噪声。我们追求使用相同的潜在编码生成不同尺度的图像之间的一致性,但是随机采样注入的噪声与此目标相悖。强制尺度一致的位置编码可以实现一个实用的特性。我们知道每个中间特征图的每个像素的位置基础。这使我们能够对噪声进行位置感知的插值,以匹配不同尺度之间的对应像素。类似地,相同的技术可以用于平移等变合成。我们移动中间噪声16010.7666.2136.950.311.00.401926.0266.7046.160.390.381.00ScaleParty-noSC/Full1287.6270.2139.841.000.580.491607.4772.2339.440.551.000.671927.4067.8339.930.440.641.00Scaleparty1289.0870.5232.101.000.950.931607.9670.8732.070.941.000.951927.5268.1433.330.900.941.0016016.4563.8423.090.101.000.1219212.6558.1025.930.100.121.00ScaleParty-noSC/Full12811.4563.2625.421.000.670.5516010.8064.4825.770.641.000.7519211.5660.8726.640.500.731.00ScaleParty12810.1562.5020.631.000.940.921609.8564.1422.020.921.000.951929.9264.7721.100.890.941.00115380图4.FFHQ数据集在不同尺度下生成整个人脸的FID分数。连续的线表示可以生成任意尺度的方法。ScaleParty在单尺度模型中表现出竞争力。0Self-SSIM(5k) 方法:320 384 448 5120MSPIE [ 37 ] 0.1194 0.5929 0.3316 0.5785 MS-PE [ 6 ]0.9128 0.8687 0.8367 0.8112 CIPS-256 [ 2 ] 0.9991 0.99870.9985 0.9981 ScaleParty-noSC/Full 0.7154 0.6975 0.64890.6511 ScaleParty-Full 0.8637 0.8942 0.8266 0.8114ScaleParty 0.8802 0.8779 0.8568 0.84540表1. 不同尺度的5kFFHQ生成图像之间的Self-SSIM,调整大小并在分辨率256×256下进行比较。0根据位置编码的偏移,仅采样生成帧外部的图像部分。04. 实验结果04.1. 实现0我们的实现基于MS-PIE [37],使用基于PyTorch[26]构建的mmgeneration框架[8]。对于所有的上采样操作,我们使用双线性插值而不进行角点对齐。为了匹配网络的RGB分支的特征图,我们在上采样后移除了特征图的边缘像素。我们的模型使用非饱和逻辑损失进行训练,鉴别器使用R1梯度惩罚[23],生成器使用路径正则化[16]。我们使用StyleGAN2鉴别器[16]以及最后一个线性层之前的自适应平均池化层[10,37]。对于所有的实验,我们将h=w=2用于编码计算。04.2. 评估0数据集。我们使用三个不同的数据集进行评估:•Flick-Faces-HQ(FFHQ)[15]由70,000张多样的人脸图像组成。该数据集的特点是图像是从具有更大上下文的照片中裁剪和对齐的,基于面部标记。原始0方法 Res FID Prec Rec SelfSSIM (5k)0数据集:LSUN教堂0MSPIE [37] 128 6.67 71.95 44.59 1.00 0.32 0.430数据集:LSUN卧室0MSPIE [37] 128 11.39 66.45 26.97 1.00 0.10 0.100表2.LSUN教堂和卧室数据集上的评估指标[38]。这些数据集没有明显的位置先验,这增加了我们方法的性能提升。0图片的尺寸为1024×1024。我们通过裁剪然后缩小图像来在FFHQ上进行训练。0•LSUN数据集[38]由调整大小的图像组成,较小的一边为256像素。我们在数据集的两个子类别中测试我们的方法:LSUN卧室,包含300万张卧室图像;LSUN教堂,包含12.6万张多样的室外教堂照片。虽然每个数据集都描绘了类似的卧室和室外教堂场景布局,但图像的位置先验不像FFHQ那样强。为了进一步减弱它们的强度,我们在训练时随机裁剪图像的正方形区域,而不改变长宽比。0指标。我们依赖于常用的指标来衡量多尺度生成的两个方面。Frechet Inception Distance[11]评估每个尺度上的感知质量。它被证明与人类主观对图像的判断一致。改进的精度和召回率[17]用于衡量合成图像的可信度以及这些图像覆盖真实图像分布范围的程度。为了评估在不同尺度上生成的图像之间的一致性,我们使用SSIM指标。我们称之为SelfSSIM。请注意,一致性本身不应该是目标:两个同样糟糕的合成图像之间可能存在很高的保真度。SelfSSIM与FID一起使用,以评估生成的图像是否在感知上良好且一致。04.3. 定量结果0与FFHQ上最先进的模型进行比较。我们使用FFHQ数据集对多尺度生成的最先进方法进行比较分析。我们测试了针对多尺度合成设计的方法:0.775 0.800 0.825 0.850 0.875 0.900 0.925 0.950SSIM5.06.07.09.015.0FID=0.1=0.5=1=10p=0.2p=0.4p=0.2p=0.4p=0.2115390p=0.40L1ChannelMixCutMixBothMix None0图5.FFHQ上FID和SelfSSIM之间的权衡。强制更严格的尺度一致性会导致感知质量下降。λ表示应用于L1损失的权重,p表示将我们的尺度间增强应用于训练批次的概率。0MSPIE [37]和MS-PE[6]。从基于INR的方法中,我们与CIPS[2]进行比较,因为它的FID比INR-GAN[32]更好,并且它们的实现可以轻松处理任意尺度的合成。我们报告了两个模型的结果:一个训练用于256×256的图像,一个训练用于1024×1024的图像。最后,我们将单尺度StyleGAN2[16]模型的实例作为基准进行比较。在图4和表1中,我们分别报告了FID得分和SelfSSIM得分。为了计算这两个指标,我们没有使用截断技巧。ScaleParty与其他方法的比较。只有StyleGAN和MSPIE的FID得分始终优于我们的方法。然而,它们过度拟合了它们训练的尺度集合,无法在该集合之外进行良好的合成。CIPS在其训练的单一尺度上具有竞争力的得分,但随着远离该尺度,其得分迅速下降。CIPS具有最佳的SelfSSIM。请注意,CIPS是以不包含任何尺度信息的单个位置为条件。在更高的尺度上生成可以模拟天真的上采样方法,同样会产生几乎完美的SelfSSIM。因此,ScaleParty是唯一能够在保持高尺度一致性的同时实现低FID得分的方法。ScaleParty组件对FFHQ的影响。我们训练并与我们模型的两个版本进行比较,消融我们提出的元素:(a)ScaleParty-noSC/Full是使用我们提出的尺度不变的位置编码进行训练,但只使用离散尺度的全帧图像,并且没有一致性目标。(b)ScaleParty-Full是使用全帧图像进行训练,并且还具有额外的尺度一致性目标:在20%的批次中,我们生成一个多尺度图像对。相比之下,我们的完整模型ScaleParty同时使用尺度一致性目标和部分生成进行训练。在训练过程中,位置编码(和真实图像)分别以全帧的60-110%的尺度进行采样。我们发现增加尺度间一致性会导致0Self-SSIM(5k) 方法:279 307 341 3840随机 0.8648 0.8546 0.8310 0.8501 常数 0.86780.8558 0.8389 0.8479 GridSample 0.8960 0.88260.8603 0.87120表3.采样噪声方法对SelfSSIM-256×256的影响。我们提出的基于网格采样的方法根据每个中间特征图的每个像素的相对位置,相对于朴素方法,提高了0.02到0.03的效果。0在感知质量略微下降的情况下。如图4所示,与强制保持尺度一致性的配置相比,ScaleParty-noSC/Full产生了最佳的FID得分。部分生成训练生成器的不同尺度。虽然ScaleParty-Full在训练的完整图像分辨率上产生了更好的SelfSSIM,但我们观察到在网络未经训练的尺度上一致性下降。然而,通过视觉检查,我们注意到在没有部分合成训练的情况下生成的人脸存在不自然的扭曲,这在FID中没有反映出来,如附录材料的图4所示,适用于ScaleParty-noSC/Full和ScaleParty-Full。这种扭曲解释了未见尺度和训练尺度之间较低的SelfSSIM。ScaleParty组件对LSUN数据集的影响。与FFHQ不同,LSUN缺乏强大的位置先验知识。由于随机裁剪,这种差异被加剧。为了研究这种设置,我们将MSPIE作为基准进行训练,因为它也采用了无填充的生成器。此外,我们还训练了ScaleParty-noSC/Full以及我们的主要配置ScaleParty,以说明我们的尺度不变设计和尺度一致性目标的好处。在表2中,我们可以看到结果。MSPIE和ScaleParty-noSC/Full分别使用128×128和192×192的全帧图像进行训练,并以相等的机会进行采样。位置编码的不一致性阻碍了MSPIE将位置输入与输出相关联。噪声注入和不同尺度的生成导致生成图像的位置发生变化,导致SelfSSIM较差,即使FID较好。相比之下,我们的位置编码学习了关联,使得在160的未见分辨率下能够进行良好的合成。与位置结构化的FFHQ相比,MSPIE和ScaleParty-noSC/Full在LSUN数据集中表现出相对较高的SelfSSIM,但这些配置在一致性方面表现较差。相比之下,我们的ScaleParty显示出类似高的结果,甚至比面部数据集更高。我们参考附录材料以在FFHQ和LSUN数据集上进行视觉比较。尺度一致性方法的消融。我们研究了尺度一致性对生成图像感知质量的影响。我们从未应用此目标的ScaleParty-noSC/Full模型开始。我们尝试应用L1损失和我们建议的尺度间增强的组合:CutMix[39]和Chan-115400图6.位置编码的变换结果等同于输出图像的变换。虽然网络没有经过这种训练,但部分和多尺度训练使生成器能够推广到未见过的输入配置。0nelMix。对于L1损失,我们测试了λ值为0.1、0.5、1.0和10.然后,我们通过改变是否以及每次迭代应用的频率来对增强进行消融。在图5中,我们可视化了SelfSSIM和FID之间的权衡。为了简洁起见,我们计算了128×128分辨率图像的FID,并计算了128×128图像与缩小为192×192的图像之间的SSIM。与我们提出的增强方法相比,L1实验得到了更差的SelfSSIM,但感知质量相同。当一致性增加时,感知质量降低。ChannelMix相比于CutMix更加注重全局一致性,后者需要将两个图像拼接起来。增加尺度一致性批次的频率(p =0.2 vs p =0.4)会增加两个指标。如何采样注入的噪声。虽然我们的网络努力在不同尺度上产生一致的结果,但我们还没有解决的是卷积噪声的问题。我们尝试了三种不同的策略来在不同尺度上采样噪声。a)随机:在每个尺度的每一层中随机采样噪声。b)固定:只在最大尺度上采样噪声,并重复用于生成每个较小的尺度。c)GridSample:只在最大尺度上采样噪声。然后,我们利用尺度一致的位置编码对采样值进行插值,以得到较小的尺度。为了公平比较,我们运行了三次实验,并报告了平均的SelfSSIM。在不同策略之间共享了1000个样式编码。此外,对于Constant和GridSample,我们采样了一个单一的噪声图。图像被调整大小并在分辨率256×256下进行比较。如表3所示,所提出的网格采样方法优于其他方法。04.4. 应用0使用位置编码进行几何变换。多尺度和部分合成的训练要求卷积生成器学习解释各种位置编码配置。我们向其提供未见过的配置以测试生成器对位置输入的翻译能力。我们展示了对输入位置编码应用变换的定性结果。在图6和图1c中,我们可以观察到:(a)0图7.优化单个潜在编码以匹配左侧的两个真实图像。我们对位置编码进行几何变换,以根据推断的潜在编码生成各种图像。请注意,只有输入位置被变换,因此我们避免了这些变换在图像空间中产生的像素化效果。0纵横比的变换,(b) 弯曲,(c) 未见过的分辨率和 (d) 外推。0真实图像的投影。我们研究了我们的网络在其潜在空间中表示真实图像的能力。按照Abdal等人的方法,我们对调制网络的每一层的样式向量进行优化(W+空间)。我们的目标是在保持生成器权重不变的同时,最小化真实图像和生成图像之间的感知[40]和L2损失。0我们发现,优化单尺度图像的潜在编码会导致尺度过拟合。然而,通过同时优化两个尺度的相同潜在编码,我们能够在中间的所有尺度上生成图像。在图7中,我们使用前面小节中描述的变换集合对真实图像进行几何变换。05. 结论0我们提出了ScaleParty,一种利用单个生成对抗网络和位置引导进行任意尺度图像合成的新方法.我们展示了我们的尺度一致的位置编码使得无填充的生成器能够在各种尺度上产生感知良好的结果.此外,我们通过在将合成图像呈现给判别器网络之前应用尺度间增强来引入尺度一致性目标.在我们的流程中加入部分生成训练进一步提高了一致性.多尺度和部分合成训练的结合使生成器学习到了位置编码的密集表示.在推理过程中,可以利用这一点通过对位置编码应用变换(如扭曲或拉伸)来创建几何变换的图像.0致谢本工作部分得到CSEM和华为技术有限公司的赞助,以及ETH未来计算实验室(EFCL)的支持.[12] Seunghoon Hong, Xinchen Yan, Thomas E Huang, andHonglak Lee. Learning hierarchical semantic image manip-ulation through structured representations. In Advances inNeural Information Processing Systems, pages 2713–2723,2018. 1[13] Ali Jahanian, Lucy Chai, and Phillip Isola. On the ”steerabil-ity” of generative adversarial networks, 2020. 1[14] Tero Karras, Timo Aila, Samuli Laine, and Jaakko Lehtinen.Progressive growing of GANs for improved quality, stability,and variation. In Proceedings of the International Confer-ence on Learning Representations (ICLR), 2018. 2[15] Tero Karras, Samuli Laine, and Timo Aila. A style-basedgenerator architecture for generative adversarial networks.In Proceedings of the IEEE Conference on Computer Visionand Pattern Recognition (CVPR), 2019. 2, 6[16] Tero Karras, Samuli Laine, Miika Aittala, Janne Hellsten,Jaakko Lehtinen, and Timo Aila. Analyzing and improvingthe image quality of StyleGAN. In Proc. CVPR, 2020. 6, 7[17] Tuomas Kynk¨a¨anniemi, Tero Karras, Samuli Laine, JaakkoLehtinen, and Timo Aila. Improved precision and recall met-ric for assessing generative models. CoRR, abs/1904.06991,2019. 6[18] Oran Lang, Yossi Gandelsman, Michal Yarom, Yoav Wald,Gal Elidan, Avinatan Hassidim, William T. Freeman, Phillip
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Fisher Iris Setosa数据的主成分分析及可视化- Matlab实现
- 深入理解JavaScript类与面向对象编程
- Argspect-0.0.1版本Python包发布与使用说明
- OpenNetAdmin v09.07.15 PHP项目源码下载
- 掌握Node.js: 构建高性能Web服务器与应用程序
- Matlab矢量绘图工具:polarG函数使用详解
- 实现Vue.js中PDF文件的签名显示功能
- 开源项目PSPSolver:资源约束调度问题求解器库
- 探索vwru系统:大众的虚拟现实招聘平台
- 深入理解cJSON:案例与源文件解析
- 多边形扩展算法在MATLAB中的应用与实现
- 用React类组件创建迷你待办事项列表指南
- Python库setuptools-58.5.3助力高效开发
- fmfiles工具:在MATLAB中查找丢失文件并列出错误
- 老枪二级域名系统PHP源码简易版发布
- 探索DOSGUI开源库:C/C++图形界面开发新篇章
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功