无监督自监督生成对抗网络的文件摘要

52 浏览量更新于2023-10-17 收藏 12.64MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

proposed [4, 5, 6, 7, 8, 9, 10]. A major contributor to train-ing instability is the fact that the generator and discriminatorlearn in a non-stationary environment. In particular, the dis-criminator is a classiﬁer for which the distribution of oneclass (the fake samples) shifts as the generator changes dur-ing training. In non-stationary online environments, neuralnetworks forget previous tasks [11, 12, 13]. If the discrimi-nator forgets previous classiﬁcation boundaries, training maybecome unstable or cyclic. This issue is usually addressedeither by reusing old samples or by applying continual learn-ing techniques [14, 15, 16, 17, 18, 19]. These issues becomemore prominent in the context of complex data sets. A keytechnique in these settings is conditioning [9, 20, 21, 22]whereby both the generator and discriminator have access tolabeled data. Arguably, augmenting the discriminator withsupervised information encourages it to learn more stablerepresentations which opposes catastrophic forgetting. Fur-thermore, learning the conditional model for each class iseasier than learning the joint distribution. The main draw-back in this setting is the necessity for labeled data. Evenwhen labeled data is available, it is usually sparse and coversonly a limited amount of high level abstractions.1121540通过辅助旋转损失的自监督生成对抗网络0Ting Chen �0加利福尼亚大学洛杉矶分校0tingchen@cs.ucla.edu0Xiaohua ZhaiGoogle Brain0xzhai@google.com0Marvin RitterGoogle Brain0marvinritter@google.com0Mario LucicGoogle Brain0lucic@google.com0Neil HoulsbyGoogle Brain0neilhoulsby@google.com0摘要0条件生成对抗网络（CGAN）处于自然图像合成的前沿。这类模型的主要缺点是需要标记数据。在这项工作中，我们利用了两种流行的无监督学习技术——对抗训练和自监督学习，并在条件和无条件GAN之间架起了一座桥梁。特别地，我们允许网络在表示学习的任务上进行合作，同时在经典GAN博弈中进行对抗。自监督的作用是鼓励鉴别器学习有意义的特征表示，在训练过程中不会遗忘。我们通过实验证明了学习到的图像表示的质量以及合成图像的质量。在相同条件下，自监督GAN的性能与最先进的条件GAN相似。最后，我们展示了这种完全无监督学习方法可以扩展到在无条件IMAGENET生成中达到23.4的FID值。01. 引言0生成对抗网络（GANs）是一类无监督生成模型[1]。GANs通过在对抗博弈中训练生成器和鉴别器模型，使得生成器学习从所需数据分布中产生样本。GANs的训练具有挑战性，因为它涉及在高维参数空间中搜索非凸博弈的纳什均衡。在实践中，GANs通常使用交替随机梯度下降进行训练，这种方法通常不稳定且缺乏理论保证。因此，训练可能表现出不稳定、发散、循环行为或模式崩溃。因此，已经提出了许多稳定GAN训练的技术。训练不稳定的一个主要原因是生成器和鉴别器在非稳态环境中学习。特别地，鉴别器是一个分类器，而其中一个类别（假样本）的分布在生成器在训练过程中发生变化。在非稳态在线环境中，神经网络会遗忘先前的任务。如果鉴别器遗忘了先前的分类边界，训练可能变得不稳定或循环。通常通过重用旧样本或应用持续学习技术来解决这个问题。在复杂数据集的情况下，这些问题变得更加突出。在这种情况下的一个关键技术是条件化，即生成器和鉴别器都可以访问标记数据。可以说，用监督信息增强鉴别器有助于学习更稳定的表示，从而避免灾难性遗忘。此外，对每个类别学习条件模型比学习联合分布更容易。这种设置的主要缺点是需要标记数据。即使有标记数据可用，通常也很稀疏，只涵盖有限数量的高层抽象。0� 在Google完成的工作。1代码在https://github.com/google/compare_gan。0受到上述挑战的启发，我们的目标是展示，在不需要标记数据的情况下，可以恢复到条件性的好处。为了确保鉴别器学习到的表示更加稳定和有用，我们在鉴别器中添加了一个辅助的自监督损失。这样做可以减少鉴别器表示与生成器输出质量之间的依赖性，从而实现更加稳定的训练。我们引入了一种新颖的模型——自监督生成对抗网络（self-supervisedGAN），在这个模型中，生成器和鉴别器共同完成表示学习的任务，并在生成任务上进行竞争。0我们的贡献是提出了一种结合对抗训练和自监督学习的无监督生成模型。我们的模型恢复了条件GAN的好处，但不需要标记数据。特别是，在相同的训练条件下，自监督GAN填补了无条件模型和条件模型之间在自然图像合成方面的差距。在这种设置下，判别器的表示质量大大提高，这可能在迁移学习的背景下具有单独的兴趣。该模型的大规模实现在无条件IMAGENET生成上取得了有希望的结果，这是一个被社区认为困难的任务。我们相信这项工作是朝着高质量、完全无监督的自然图像合成的方向迈出的重要一步。The original value function for GAN training is [1]:121550180°0D 0°0假图像0真图像0真/假0旋转角度090°0270°0共享权重0D0图1：基于旋转自监督的判别器。判别器D执行两个任务：真假二分类和旋转角度分类。假图像和真图像都被旋转了0°、90°、180°和270°。彩色箭头表示只有正立的图像才被考虑用于真假分类损失任务。对于旋转损失，判别器根据图像的旋转角度对其进行分类。0在GAN训练中，原始的价值函数是[1]：02. 一个关键问题：判别器遗忘0V(G, D) = E 0+ E x � P G(x) [log(1 - P D(S = 0 | x))] (1)0其中P data是真实数据分布，PG是通过使用生成器给定的确定性映射将简单分布z �P(z)转换得到的分布，即x = G(z)，PD是判别器对标签（真或假）的伯努利分布。在原始的极小极大设置中，生成器最大化方程1关于其参数，而判别器最小化方程1。训练通常通过交替随机梯度下降进行。因此，在训练的第t次迭代中，判别器将样本分类为来自Pdata或P(t)G。随着G的参数变化，分布P(t)G也会变化，这意味着对于判别器来说是一个非平稳的在线学习问题。0这个挑战引起了很多关注，并且已经提出了明确的时间依赖性来改善这种情况下的训练[2, 15, 17,19]。此外，在非凸函数的在线学习中，已经证明神经网络会忘记先前的任务[11, 12,13]。在GAN的背景下，学习不同级别的细节、结构和纹理可以被视为不同的任务。例如，如果生成器首先学习全局结构，判别器自然会尝试构建一个表示，使其能够仅基于全局结构的差异或缺乏局部结构来有效地惩罚生成器。因此，训练的一个不稳定因素是，只要当前的表示对于区分类别是有用的，判别器就没有动力保持一个有用的数据表示。通过考虑生成器和判别器的收敛情况，可以收集更多的证据。事实上，Goodfellow等人[1]表明，最优判别器估计了生成数据分布和真实数据分布之间的似然比。因此，给定一个完美的生成器，其中P G = Pdata，最优判别器简单地输出0.5，这是一个常数，不依赖于输入。因此，这个判别器不需要保留有意义的表示。此外，如果应用正则化，判别器可能会忽略除了区分真实和假数据的次要特征之外的所有内容。我们在两种情况下展示了判别器遗忘的影响。（1）图3（a）中展示的一个简单场景，（2）在GAN的训练过程中，如图2所示。在第一种情况下，一个分类器按顺序对1-vs.-all进行训练0.050.100.150.200.250.300.350.400.450.50.60.70.80.9121560100k 200k 300k 400k 500k 600k 700k 800k 900k 1M0生成对抗网络训练迭代次数0准确性0生成对抗网络 SS-GAN0图2：在IMAGENET上训练的线性分类模型在鉴别器的最后一层提取的表示上的性能。Uncond-GAN表示无条件生成对抗网络。SS-GAN表示添加自监督的同一模型。对于Uncond-GAN，表示收集了关于图像类别的信息，准确性增加。然而，在500k迭代后，表示失去了关于类别的信息，性能下降。SS-GAN缓解了这个问题。更多细节请参见第4节。0在CIFAR10的十个类别中的每个类别上进行分类任务。在切换到下一个任务之前，每个任务训练1k次迭代。在10k次迭代时，训练周期从第一个任务重新开始。图3（a）显示了明显的遗忘现象，尽管任务相似。每次任务切换时，分类器的准确性大幅下降。经过10k次迭代后，任务周期重复，准确性与第一个周期相同。没有有用的信息在任务之间传递。这表明模型在这个非稳态环境中没有保留可推广的表示。在图2中展示的第二种设置中，我们观察到在生成对抗网络训练期间出现了类似的效果。每100k次迭代，鉴别器的表示在IMAGENET分类上进行评估；完整的协议在第4.4节中描述。在训练过程中，无条件生成对抗网络的分类增加，然后减少，表明关于类别的信息被获取然后遗忘。这种遗忘与训练的不稳定性相关。如下一节所述，添加自监督可以防止鉴别器表示中的类别遗忘。03. 自监督生成对抗网络0受到鉴别器遗忘的主要挑战的启发，我们的目标是赋予鉴别器一种机制，使其能够独立于当前生成器的质量学习有用的表示。为此，我们利用了最近在表示学习中的自监督方法的进展。自监督背后的主要思想是00 5k 10k 15k 20k 迭代次数（a）常规训练。0分类器准确性00 5k 10k 15k 20k 迭代次数（b）自监督训练。0图3：当底层类别分布在每1k次迭代中发生变化时，图像分类准确性。垂直虚线表示整个任务周期的结束，并在t =0时返回到原始分类任务。左：普通分类器。右：具有额外自监督损失的分类器。这个例子说明，在非稳态环境中，分类器可能无法学习到可推广的表示，但自监督有助于缓解这个问题。0通过预测图像块的旋转角度或相对位置等预文本任务来训练模型，然后从生成的网络中提取表示[23, 24,25]。我们建议在鉴别器中添加自监督任务。具体而言，我们应用基于图像旋转的最先进的自监督方法[26]。在这种方法中，图像被旋转，旋转角度成为人工标签（参见图1）。然后，自监督任务是预测图像的旋转角度。这个附加损失对图像分类任务的影响在图3（b）中是明显的：当与自监督损失相结合时，网络学习到可以在任务之间转移的表示，并且性能不断提高。从第二个任务循环开始，从10k迭代开始，性能得到改善。直观地说，这个损失鼓励分类器学习有用的图像表示来检测旋转角度，这对图像分类任务有所帮助。我们用基于旋转的损失增强了鉴别器，得到以下损失函数：0L G = - V(G, D) - α Ex � PG Er �R [log QD(R = r | xr)],0L D = V(G, D) - β Ex � Pdata Er �R [log QD(R = r | xr)],0其中V(G, D)是方程1中的值函数，r ∈R是从可能旋转的集合中选择的旋转。在这项工作中，我们使用R = {0◦, 90◦, 180◦,270◦}，与Gidaris等人[26]的做法相同。用r度旋转的图像x表示为xr，Q(R | xr)是判别器对样本的旋转角度的预测分布。CIFAR10Uncond-GAN19.73Cond-GAN15.60SS-GAN17.11SS-GAN (sBN)15.65IMAGENETUncond-GAN56.67Cond-GAN42.07SS-GAN47.56SS-GAN (sBN)43.87CELEBA-HQUncond-GAN23.77SS-GAN26.11SS-GAN (sBN)24.36121570协作对抗训练在我们的模型中，生成器和判别器在真实与伪造预测损失V(G,D)方面是对抗的，然而，它们在旋转任务方面是协作的。首先，考虑生成器的值函数，它将生成偏向于图像，当旋转时，判别器可以检测到它们的旋转角度。请注意，生成器不是有条件的，而只生成“直立”的图像，然后将其旋转并馈送给判别器。另一方面，判别器被训练来仅基于真实数据检测旋转角度。换句话说，判别器的参数仅基于真实数据上的旋转损失进行更新。这样可以防止生成器生成的图像很容易被检测到其旋转的不良协作解决方案。因此，生成器被鼓励生成在特征空间中与用于旋转分类的真实图像共享特征的可检测旋转的图像。在实践中，我们使用一个具有两个头的单个判别器网络来计算PD和QD。图1描述了训练流程。我们将真实和生成的图像旋转四个主要旋转。判别器在未旋转的图像上的目标是预测输入是真实还是伪造。在旋转的真实图像上，它的目标是检测旋转角度。生成器的目标是生成与观察数据匹配的图像，其在判别器的特征空间中的表示允许检测旋转。当α>0时，无法保证收敛到真实数据分布PG =Pdata。然而，在训练过程中将α逐渐减小到零将恢复这些保证。04. 实验0我们通过实验证明：（1）自监督改善了基线GAN模型的表示质量；（2）在相同的训练条件下，它导致了对于复杂数据集的改进的无条件生成，与有条件的GAN的性能相匹配。04.1. 实验设置0数据集我们主要关注 IMAGENET，这是最大且最多样化的图像数据集，通常用于评估GAN。到目前为止，大多数在IMAGENET上训练的GAN都是有条件的。IMAGENET包含130万张训练图像和5万张测试图像。我们将图像调整为128×128×3，与Miyato和Koyama[21]以及Zhang等人[9]的做法相同。我们还提供了对三个较小的数据集的额外比较，即CIFAR 10、CELEBA -HQ、LSUN -BEDROOM，其中无条件的GAN可以成功训练。LSUN -BEDROOM数据集[27]包含300万张图像。我们将这些图像随机分为一个包含约30,000张图像的测试集和一个包含其余图像的训练集。CELEBA -HQ包含30,000张图像[10]。我们使用128×128×3版本0数据集方法 FID0LSUN - 卧室 Uncond-GAN 16.02 SS-GAN13.66 SS-GAN (sBN) 13.300表1：在三个随机种子上获得的最佳FID。在这种设置下，所提出的方法恢复了大部分条件的好处。0通过运行作者提供的代码获得。2我们将3k个示例用作测试集，其余示例用作训练集。CIFAR10包含70k个图像（32×32×3），分为60k个训练实例和10k个测试实例。0模型我们将自监督GAN（SS-GAN）与两个表现良好的基准模型进行比较，即（1）Miyato等人提出的具有谱归一化的无条件GAN，简称Uncond-GAN，和（2）使用标签条件策略和投影条件GAN（Cond-GAN）[21]的条件GAN。我们选择后者是因为它已被证明优于AC-GAN[20]，并被最佳表现的条件GAN [9, 3,22]采用。我们使用ResNet架构作为生成器和判别器，就像Miyato等人[6]的工作中一样。对于Cond-GAN中的条件生成器，我们应用标签条件批归一化。相反，SS-GAN不使用条件批归一化。然而，为了对生成器产生类似的效果，我们考虑了SS-GAN的一个变体，其中我们应用不需要标签的自调节批归一化[7]，并将其称为SS-GAN（sBN）。我们注意到，标签仅对CIFAR10和IMAGENET可用，因此Cond-GAN仅应用于这些数据集。我们使用批量大小为64，并在所有四个方向上旋转批次中的16个图像来实现旋转损失。我们不添加任何新图像到批次中来计算旋转损失。对于真实与伪造的任务，我们使用Miyato等人[6]的铰链损失。我们将β设置为1作为自监督损失。对于α，我们进行了一次小的扫描02 https://github.com/tkarras/progressive_ growing_of_gans.100.00.9001188.52 ± 64.5428.48 ± 0.68227.04 ± 31.4585.38 ± 2.7229.11 ± 0.8527.74 ± 0.73227.74 ± 16.8280.82 ± 0.640.50.9991117.67 ± 17.4625.22 ± 0.38242.71 ± 13.62144.35 ± 91.44.3. Large Scale Self-Supervised GAN121580CIFAR 10 IMAGENET0类型 λ β 1 β 2 D I TERS U NCOND -GAN SS-GAN U NCOND -GAN SS-GAN0GRADIENT PENALTY01 0.0 0.900 1 121.05 ± 31.44 25.8 ± 0.71 183.36 ± 77.21 80.67 ± 0.43 2 28.11 ± 0.66 26.98± 0.54 85.13 ± 2.88 83.08 ± 0.38 0.5 0.999 1 78.54 ± 6.23 25.89 ± 0.33 104.73 ± 2.7191.63 ± 2.780SPECTRAL NORM 0 0.0 0.900 1 87.86 ± 3.44 19.65 ± 0.9 129.96 ± 6.6 86.09 ± 7.66 2 20.24 ± 0.62 17.88 ± 0.6480.05 ± 1.33 70.64 ± 0.31 0.5 0.999 1 86.87 ± 8.03 18.23 ± 0.56 201.94 ± 27.28 99.97 ± 2.750表2：在不同超参数设置下，无条件GAN的FID。均值和标准差是在三个随机种子上计算的。添加自监督损失可以降低GAN训练对超参数的敏感性。0α ∈ {0.2, 0.5, 1}，并选择α =0.2用于所有数据集（详见附录）。对于所有其他超参数，我们使用Miyato等人[6]和Miyato和Koyama[21]中的值。我们在单个P100 GPU上对CIFAR10、LSUN-BEDROOM和CELEBA-HQ进行了100k步的训练。对于IMAGENET，我们进行了1M步的训练。对于所有数据集，我们使用学习率为0.0002的Adam优化器。04.2. 样本质量比较0指标为了定量评估不同方法生成的样本，我们使用FrechetInceptionDistance（FID）[28]。在FID中，真实数据和生成的样本首先嵌入到预训练的Inception网络的特定层中。然后，将多元高斯分布拟合到数据，并计算距离，即FID（x，g）= || µx -µg || 2 2 + Tr（Σx + Σg - 2（ΣxΣg）12），其中µ和Σ分别表示经验均值和协方差，下标x和g分别表示真实数据和生成的数据。FID对于添加虚假模式和模式丢失都很敏感。样本质量的另一种替代近似度量是InceptionScore（IS）[2]。由于IS存在一些缺陷[31]，我们在这项工作中使用FID作为主要指标。0结果图4显示了CIFAR10和IMAGENET的FID训练曲线。表1显示了每个数据集和模型组合的三个随机种子中最佳运行的FID。无条件GAN在IMAGENET上不稳定，训练经常发散。条件GAN在很大程度上优于它。所提出的方法，即SS-GAN，在IMAGENET上是稳定的，并且性能明显优于无条件GAN。当配备自调制时，它与条件GAN的性能相匹配。在平均性能方面（图4），所提出的方法与条件GAN相匹配，在随机种子选择的最佳模型方面（表1），性能差距在5%以内。在CIFAR10和LSUN-BEDROOM上，我们观察到与无条件GAN相比有了显著的改进，并且与条件GAN的性能相匹配。自监督似乎对CELEBA-HQ的结果没有显著改善。我们认为这是由于CELEBA-HQ的多样性较低，而且旋转任务的信息量较少。04.3.大规模自监督GAN0超参数的鲁棒性GAN是脆弱的；超参数设置的改变对它们的性能有很大影响[30,32]。因此，我们评估不同的超参数设置来测试SS-GAN的稳定性。我们考虑两类超参数：第一类是控制鉴别器的Lipschitz常数的超参数，这是GAN文献中的一个核心量[6,33]。我们评估两种最先进的技术：梯度惩罚[5]和谱归一化[6]。梯度惩罚引入了一个正则化强度参数λ。我们测试了λ∈{1,10}两个值。第二类是变化Adam优化器的超参数。我们测试了两种常用的设置(β1, β2)：(0.5, 0.999)和(0,0.9)。以前的研究发现，在生成器步骤中进行多个鉴别器步骤有助于训练[1,2]，所以我们尝试了每个生成器步骤的1个和2个鉴别器步骤。表2比较了无条件模型在惩罚和优化超参数上的平均FID得分。我们观察到，所提出的方法能够稳定地提高性能。我们观察到，在无条件GAN崩溃的情况下（产生大于100的FID），自监督模型不会出现这样的崩溃。0我们通过扩大SS-GAN的训练来获得最佳的无条件IMAGENET生成的FID。为了做到这一点，我们增加了模型的容量以匹配模型01520253035040506070809010011012012159010k020k030k040k050k060k070k080k090k0100k0迭代0FID0无条件GAN条件GAN SS-GANSS-GAN（sBN）0(a) CIFAR 100100k0200k0300k0400k0500k0600k0700k0800k0900k01M0迭代0FID0无条件GAN条件GAN SS-GANSS-GAN（sBN）0(b) IMAGENET0图4：CIFAR10和IMAGENET的FID学习曲线。曲线显示了三个随机种子的平均性能。无条件GAN（Uncond-GAN）的性能明显较差，而条件GAN（Cond-GAN）的性能更好。无条件GAN在IMAGENET上不稳定，训练经常在500k训练迭代后发散。自监督（SS-GAN）的添加稳定了无条件GAN并提高了性能。最后，当我们在SS-GAN中添加额外的自调制批归一化（sBN）[7]，模拟无条件设置中的生成器调节，这个无条件模型的平均性能与条件GAN相同。0[22]中的方法进行训练。我们使用Google TPU v3Pod的128个核心进行500k步的训练，批量大小为2048。为了比较，我们还训练了没有辅助自监督损失的相同模型（Uncond-GAN）。我们报告了50k步时的FID，与在IMAGENET上报告结果的其他文献相当。我们使用不同的随机种子重复每个运行三次。对于SS-GAN，我们获得的FID为23.6±0.1，对于Uncond-GAN，我们获得的FID为71.6±66.3。自监督稳定了训练；随机种子之间的均值和方差大大减小，因为与常规无条件GAN不同，SS-GAN从未崩溃。我们观察到在随机种子之间的最佳模型上的改进，最佳的SS-GAN获得了FID为23.4。据我们所知，这是在IMAGENET上无条件训练取得的最佳结果。04.4.表示质量0我们通过实验证明自监督是否鼓励判别器学习有意义的表示。为此，我们比较从判别器的ResNet架构的中间层提取的表示的质量。我们应用了一种常见的表示学习评估方法，该方法由Zhang等人在[25]中提出。具体而言，我们对每个ResNet块的特征图进行逻辑回归分类器的训练，以在IMAGENET上执行1000类分类任务或在CIFAR10上执行10类分类任务，并报告Top-1分类准确率。我们使用Cond-GAN、Uncond-GAN和SS-GAN进行实验。0详细信息可以在https://github.com/google/compare_gan找到。0图5：自监督模型生成的无条件生成图像的随机样本。据我们所知，这是在IMAGENET上无条件训练取得的最佳结果。0IMAGENET。0和SS-GAN模型。我们还消除了SS-GAN中的对抗损失，得到一个纯粹基于旋转的自监督模型（Rot-only），该模型使用与SS-GAN判别器相同的架构和超参数。我们报告了平均准确率和标准差。0.050.100.150.200.250.300.350.400.45121600在具有不同随机种子的三个独立模型上进行的训练结果。逻辑分类器的训练细节在附录中。0结果表4显示了IMAGENET上经过100万次训练步骤后的表示质量。图6显示了IMAGENET上最终ResNet块的学习曲线。其他块的曲线在附录中提供。请注意，“训练步骤”指的是原始GAN的训练迭代次数，而不是线性分类器的训练迭代次数，线性分类器始终训练到收敛。总体而言，SS-GAN在所有块和训练迭代次数上都产生了最好的表示。我们在表3中提供了CIFAR 10上类似的结果。具体而言，IMAGENETResNet包含六个块。对于Uncond-GAN和Rot-only，Block3表现最好；对于Cond-GAN和SS-GAN，最后的Block5表现最好。Uncond-GAN的表示质量在500k步时下降，这与图4中的FID下降一致。总体而言，SS-GAN和Cond-GAN的表示优于Uncond-GAN，这与它们的样本质量改善相一致。令人惊讶的是，SS-GAN在训练300k步后超过了Cond-GAN。一个可能性是Cond-GAN过度拟合了训练数据。我们检查了Cond-GAN在训练集上的表示性能，确实看到了非常大的泛化性能。0Uncond. Cond. Rot-only SS-GAN (sBN)0Block0 0.719 0.719 0.710 0.721 Block1 0.762 0.7590.749 0.774 Block2 0.778 0.776 0.762 0.796 Block30.776 0.780 0.752 0.7990最佳0.778 0.780 0.762 0.7990表3：CIFAR10上的Top-1准确率。原始模型进行三次训练的平均分数。所有标准差均小于0.01，并在附录中报告。0方法无条件条件仅旋转 SS-GAN（sBN）0Block0 0.074 0.156 0.147 0.158 Block1 0.063 0.1870.134 0.222 Block2 0.073 0.217 0.158 0.250 Block30.083 0.272 0.202 0.327 Block4 0.077 0.253 0.1960.358 Block5 0.074 0.337 0.195 0.3830最佳 0.083 0.337 0.202 0.3830表4：IMAGENET上的top-1准确率。原始模型的三次训练运行的平均分数。除了Uncond-GAN的结果由于训练不稳定性而表现出高方差外，所有标准偏差都小于0.01。所有标准偏差在附录中报告。0100k0200k0300k0400k0500k0600k0700k0800k0900k01M0GAN训练迭代次数0最终块（块5）0无条件条件仅旋转SS-GAN0图6：通过鉴别器表示预测标签的IMAGENET top1准确率（三个种子的平均值）。X轴表示GAN训练迭代次数。0差距，表明过拟合。当我们去除GAN损失，只保留旋转损失时，表示质量显著降低。似乎对抗性和旋转损失在FID和表示质量方面互补。我们强调，我们的鉴别器架构是为图像生成而优化的，而不是表示质量。因此，仅旋转是一种消融方法，不是最先进的自监督学习算法。我们在表5中将SS-GAN的表示质量与最先进的已发表的自监督学习算法进行了比较。尽管架构和超参数都是为图像质量进行优化的，但SS-GAN模型在IMAGENET上取得了竞争性的结果。在这些方法中，只有BiGAN[34]也使用GAN来学习表示；但SS-GAN的表现要好得多（0.073准确率点）。BiGAN使用额外的编码器网络来学习表示，而SS-GAN则从鉴别器直接提取表示。最佳的方法是最近的DeepClustering算法[35]。该方法比SS-GAN领先0.027准确率点，并且需要每个训练周期后进行昂贵的离线聚类。总之，表示质量评估突出了表示质量与图像质量之间的相关性。它还确认了SS-GAN确实学习到了相对强大的图像表示。05. 相关工作0GAN遗忘：GAN训练不稳定性以前被认为是灾难性遗忘的主要原因。文献中提出的主要解决方法是以各种方式在训练算法中引入时间记忆。例如，Grnarova等人通过回放先前生成的图像来引入鉴别器记忆[19]。另一种方法是重用先前的模型：Salimans等人引入了检查点平均化，即保持每个玩家参数的运行平均值，而Grnarova等人在每个训练迭代中使用一个模型队列[19]。Kim等人通过添加记忆来保留有关先前样本的信息[18]。其他论文将GAN训练框架为连续学习任务。Thanh-Tung等人研究了鉴别器的灾难性遗忘和模式崩溃，将其与训练不稳定性联系起来[14]。Liang等人通过直接利用连续学习的技术（弹性权重共享[11]和智能突触[37]）来对抗鉴别器的遗忘[15]。121610方法准确率0上下文[24] 0.317 BiGAN[34, 36] 0.310 上色[25]0.326 旋转网络[26] 0.387深度聚类[35] 0.410SS-GAN（sBN）0.3830表5：通过IMAGENET上的top-1准确率与其他自监督表示学习方法进行比较。对于SS-GAN，给出了平均性能。0将时间记忆引入训练算法的各种方式被认为是解决GAN训练不稳定性的主要方法。例如，Grnarova等人通过回放先前生成的图像来引入鉴别器记忆[19]。另一种方法是重用先前的模型：Salimans等人引入了检查点平均化，即保持每个玩家参数的运行平均值，而Grnarova等人在每个训练迭代中使用一个模型队列[19]。Kim等人通过添加记忆来保留有关先前样本的信息[18]。其他论文将GAN训练框架为连续学习任务。Thanh-Tung等人研究了鉴别器的灾难性遗忘和模式崩溃，将其与训练不稳定性联系起来[14]。Liang等人通过直接利用连续学习的技术（弹性权重共享[11]和智能突触[37]）来对抗鉴别器的遗忘[15]。0条件GAN条件GAN是目前用于复杂数据集（如ImageNet）生成建模的最佳方法。AC-GAN是第一个为鉴别器引入辅助分类损失的模型[20]。AC-GAN和我们提出的方法的主要区别在于自监督GAN不需要标签。此外，AC-GAN生成器根据类别生成图像，而我们的生成器是无条件的，图像随后被旋转以生成人工标签。最后，鉴别器的自监督损失仅应用于真实图像，而AC-GAN同时使用真实图像和伪造图像。最近，Miyato和Koyama提出的P-cGAN模型[21]在每个类别中包含一个真/假头[21]。这种架构改进了AC-GAN的性能。在使用GPU[9]和TPU[22]训练的性能最佳的GAN模型在鉴别器中使用了P-cGAN风格的条件。我们注意到，条件GAN在生成器中也使用标签，可以通过与潜在向量连接或通过FiLM调制[38]来实现。0自监督学习自监督学习是一类通过解决替代任务来学习高层语义表示的方法，它已被广泛使用。0在视频领域[39, 40]、机器人领域[41, 42]和图像领域[24,35]中，我们在本文中专注于图像领域。Gidaris等人[26]提出了旋转图像并预测旋转角度的方法。这个概念上简单的任务为下游图像分类任务提供了有用的表示。除了尝试预测旋转外，还可以对给定的图像进行编辑，并要求网络预测编辑部分。例如，可以训练网络解决上下文预测问题，如不相交补丁的相对位置[24,43]或拼图游戏的补丁排列[44]。其他替代任务包括图像修复[45]、从灰度图像预测颜色通道[25]和预测无监督聚类类别[35]。最近，Kolesnikov等人[46]对现代神经架构进行了自监督学习的研究。06. 结论和未来工作0出于对抗鉴别器遗忘的愿望，我们提出了一种结合对抗学习和自监督学习的深度生成模型。由此产生的新模型，即自监督GAN与最近引入的自调制相结合，可以在图像合成任务上与等效的条件GAN相匹配，而无需访问标记数据。然后，我们展示了该模型可以扩展到达到23.4的FID值，用于无条件的ImageNet生成，这是一项极具挑战性的任务。0这一研究方向为未来的研究开辟了几个途径。首先，有趣的是使用最先进的自监督架构用于鉴别器，并优化以获得最佳的表示。其次，自监督GAN可以在半监督设置中使用，其中可以使用少量标签来微调模型。最后，可以利用最近引入的几种技术，如自注意力、正交归一化和正则化以及采样截断[9, 22]，在无条件图像合成中获得更好的性能。0我们希望这种将协作自监督与对抗训练相结合的方法能够为复杂数据的高质量、完全无监督的生成建模铺平道路。0致谢0我们还要感谢Marcin Michalski、Karol Kurach和AntonRaichuk对基础设施的帮助，以及对CompareGAN库的重要贡献。我们感谢与Ilya Tolstikhin、OlivierBachem、Alexander Kolesnikov、JosipDjolonga和Tian-shengYao进行的有益讨论。最后，我们感谢GoogleBrain团队其他成员在苏黎世的支持。121620参考文献0[1] Ian Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu,David Warde-Farley, Sherjil Ozair, Aaron Courville和YoshuaBengio.生成对抗网络。在神经信息处理系统（NIPS）上的进展，2014年。0[2] Tim Salimans, Ian Goodfellow, Wojciech Zaremba, VickiCheung, Alec Radford和Xi Chen.改进的GAN训练技术。在神经信息处理系统（NIPS）上的进展，2016年。0[3] Lars Mescheder, Andreas Geiger和Sebastian Nowozin.GAN的哪些训练方法实际上会收敛？在国际机器学习会议（ICML）上，2018年。0[4] Xudong Mao, Qing Li, Ha

下载后可阅读完整内容，剩余1页未读，立即下载