使用PixelGAN合成大规模ImageNet数据集

108 浏览量更新于2023-10-25 收藏 68.6MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

213300BigDatasetGAN: 使用像素级注释合成ImageNet0Daiqing Li 1 Huan Ling 1, 2, 3 Seung Wook Kim 1, 2, 30Karsten Kreis 1 Sanja Fidler 1, 2, 3 Antonio Torralba 401 NVIDIA 2 University of Toronto 3 Vector Institute 4 MIT0{daiqingl,huling,seungwookk,kkreis,sfidler}@nvidia.com, torralba@mit.edu0图1. 我们合成的像素级标注的ImageNet数据集。我们为每个ImageNet类别采样图像和掩码。0摘要0使用像素级标签注释图像是一项耗时且昂贵的工作。最近，DatasetGAN[78]展示了一种有希望的替代方法-通过利用一小组手动标注的GAN生成的图像，通过生成对抗网络（GAN）合成一个大型标注数据集。在这里，我们将DatasetGAN扩展到具有类别多样性的ImageNet规模。我们从在ImageNet上训练的类条件生成模型BigGAN[5]中获取图像样本，并为所有1k个类别仅手动注释5个图像。通过在BigGAN之上训练一个有效的特征分割架构，我们将BigGAN转化为一个带有标注数据的数据集生成器。我们进一步展示了VQGAN[18]也可以作为数据集生成器，利用已经注释的数据。我们通过标注额外的真实图像创建了一个新的ImageNet基准，并在各种设置中评估分割性能。通过广泛的消融研究，我们展示了在像素级任务上利用大型生成数据集来训练不同的有监督和自监督主干模型的巨大收益。此外，我们证明使用我们合成的数据集进行预训练相对于标准的ImageNet预训练在多个下游数据集（如PASCAL-VOC、MS-COCO、Cityscapes和胸部X射线）以及任务（检测、分割）上都有所改进。我们的基准将公开并维护一个这个具有挑战性任务的排行榜。项目主页：https://nv-tlabs.github.io/big-datasetgan/01. 引言0ImageNet数据集[65]是现代计算机视觉和深度学习的基石。它被用作大规模分类领域的创新测试平台，并在多年来取得了令人难以置信的进展[15, 29, 42,67]。重要的是，它也被用于比较不同方法的性能[15, 29,42, 67]。0用于预训练主干模型，可以是有监督的或最近的自监督预训练，在众多下游数据集和任务上几乎可以保证性能提升[24,77]。ImageNet包含1000个分类标签的一百万张图像。这种巨大的类别多样性使得预训练网络能够很好地推广到各种下游应用中。在本文中，我们的目标是通过像素级标签来增强ImageNet，以便进行大规模的多类别分割挑战，并为密集下游预测任务提供新的预训练策略的机会。然而，手动为100万张图像标注掩码是耗时且昂贵的，因此我们选择以较低成本合成高质量的标注数据。我们在DatasetGAN[78]的基础上进行了改进，该方法提出了一个简单的想法：用像素级标签手动注释一小组GAN生成的图像，并在GAN的特征图上添加一个浅层分割分支，该分支在这个小数据集上进行训练。研究表明生成器的特征图非常强大且语义有意义，并且允许分割分支为GAN的新随机样本生成非常准确的标签。这意味着GAN成功地被重新用作数据集生成器，以图像及其像素级标签的形式生成样本。作者表明，合成大型数据集并使用它来训练下游分割网络可以以较低的标注成本获得极高的性能。然而，DatasetGAN使用的是单类建模的StyleGAN[38]，存在一定的局限性。我们做出了几点贡献：(i)我们提出了一种新颖的数据集合成方法，以最小的人工标注工作量将DatasetGAN扩展到ImageNet规模。具体而言，我们采用了类条件生成模型BigGAN-Latent 𝒛 ∈ 𝑍BigGANGeneratorClass y ∈ 𝑌birdhathome applianceLatent 𝒛 ∈ 𝑍BigGANGeneratorClass y ∈ 𝑌ImagenetBigGAN-ImagenetVQGAN-Imagenet213310手动标注BigGAN生成的图像从BigDatasetGAN中抽取一个练混合数据集 3 4 10训练BigDatasetGANs 20下游数据集+任务0（预）训练0图2.BigDatasetGAN概述：（1）我们从BigGAN中抽取每个类别的少量图像，并使用遮罩对其进行手动标注。（2）我们在这些数据上训练了一个特征解释器分支，将这些GAN转化为带标签数据的生成器。（3）我们从BigGAN和VQGAN中抽取大型合成数据集。（4）我们使用这些数据集来训练分割模型。0GAN[5]可以为1k个ImageNet类别生成高质量的图像样本。通过手动标注每个类别的少量样本图像，使用单个专家标注员确保一致性和准确性，我们能够合成一个高质量的标记合成数据集。我们进一步展示了VQGAN[18]也可以作为数据集生成器，无需额外的注释。我们将像这样获得的ImageNet数据集生成器称为BigDatasetGAN。（ii）接下来，我们通过实验证明了利用合成数据集在各种下游密集预测任务和数据集上的好处。我们在PASCAL-VOC、MS-COCO、Cityscapes和胸部X射线上展示了显著的性能提升，例如目标检测和实例分割，利用了几种不同的主干模型。我们比较了几种监督和自监督方法，并且展示了当这些方法利用我们的合成数据集时性能显著提高。（iii）最后，我们对一部分保留的真实ImageNet进行像素级标注，并引入了一个新的语义分割基准。我们对该基准上的几种现有方法进行了广泛的分析。标注数据和我们的基准将在线上进行托管，并为一系列分割挑战保持排行榜。02. 相关工作0减少标注成本。降低标注成本可以通过多种方式实现，例如交互式人机协作标注[2, 50, 53, 64,73]，最近邻遮罩传输[26, 51, 63,70]，或者使用更便宜的标签形式进行弱监督，如物体框[7,43, 45]，涂鸦[48,69]或非常粗糙的遮罩[1]。本文不涉及对这些方法的全面回顾。与我们的目标最相关的是使用像素级注释标注ImageNet的现有工作。在[26]中，作者对每个类别标注了10张图像，对500个ImageNet类别进行了标注，并将这些标签迭代地传播到其他图像。在每个阶段，他们对最相似的图像进行分割传输，并在图形模型中定义各种潜力来推导最终的分割结果。虽然他们展示了有希望的分割传播性能，但他们没有展示出我们在我们的工作中展示的自动标记数据集的有用性。在这里，我们还利用了现代深度学习技术，特别是GAN，可能会产生更高质量的数据集。0合成数据集生成。通过依赖3D图形引擎渲染图像以及完美的注释，也可以减轻标注成本。通过这种方式已经创建了几个具有丰富标签的合成数据集[16, 22, 56, 58, 61,62]。然而，这些数据集通常在外观和内容方面与真实世界数据集存在领域差异。许多方法使用基于GAN的技术将渲染的图像转换为更真实的图像，以弥合外观差距[32]。最近的工作还提出了学习数据生成流程的参数以减少分布差距[14,36,46]。此外，通过图形方法创建类和实例多样性达到ImageNet级别的内容需要大量的3D内容获取工作。图像的生成模型可以被视为图形引擎的神经渲染替代方案。无条件GAN（如StyleGAN）可以生成高保真度的图像，通常是针对单个类别。BigGAN和VQGAN等条件生成模型在多个类别上展示了令人印象深刻的建模能力。最近的DatasetGAN和类似方法在利用GAN合成标记数据时，在像素级分割方面表现出很强的性能，只需要手动标注少量GAN生成的图像。像[23,47,71]这样的工作使用编码器将真实图像嵌入到GAN的潜空间中，并在GAN的特征之上训练分割分支，以生成真实图像的像素级标注。这些工作大多在单类别范围内操作，以StyleGAN作为骨干。在我们的工作中，我们将这些想法扩展到ImageNet规模，利用BigGAN和VQGAN这样的条件生成模型，并在这个设置中进行了广泛的分析。表示学习。预训练后微调是训练神经网络的一种有效范式。在大规模数据集（如ImageNet）上进行监督分类预训练可以在领域特定任务上进行微调时获得大幅度的性能提升。最近，无监督的自对比学习（CL）[9, 10, 57, 72,75]等方法已成为监督预训练的广泛应用替代方案。这些方法不需要任何标签，并且在某些情况下，对于密集下游任务的增益甚至超过了监督预训练[72]。我们的工作与这一领域的工作相辅相成，AB6HicbVDLTgJBEOzF+IL9ehlIjHxRHbRI9ELx4hkUcCGzI79MLI7OxmZtYECV/gxYPGePWTvPk3DrAHBSvpFLVne6uIBFcG9f9dnJr6xubW/ntws7u3v5B8fCoqeNUMWywWMSqHVCNgktsG4EthOFNAoEtoLR7cxvPaLSPJb3ZpygH9GB5CFn1Fip/tQrltyOwdZJV5GSpCh1it+dfsxSyOUhgmqdcdzE+NPqDKcCZwWuqnGhLIRHWDHUkj1P5kfuiUnFmlT8JY2ZKGzNXfExMaT2OAtsZUTPUy95M/M/rpCa89idcJqlByRaLwlQE5PZ16TPFTIjxpZQpri9lbAhVZQZm03BhuAtv7xKmpWyd1Gu1C9L1ZsjycwCmcgwdXUIU7qEDGCA8wyu8OQ/Oi/PufCxac042cwx/4Hz+AOqPjQI=SplitLinearResBlockResBlockResBlockNon-localClassConcatConcatConcatHigh-level featuresMid-level featuresLow-level featuresImageGenerator(BigGAN)Resize1x1 ConvUpsampleResize1x1 ConvConcatResize1x1 ConvConcatMix-ConvMix-ConvUpsample1x1 ConvFeature Interpreter213320z0图3. 基于BigGAN [ 5 ]的BigDatasetGAN架构。0我们分析了这些方法与我们合成数据集相结合时的有效性。03. BigDatasetGAN0在这里，我们详细描述了我们的数据集合成方法。我们将DatasetGAN [ 78]扩展为使用像素级标签合成ImageNet图像。具体而言，我们利用两个ImageNet预训练的有条件生成模型BigGAN [ 5]和VQGAN [ 18]，并使用一个称为特征解释器的分割分支对每个模型进行增强（第3.1节）。我们选择这两个模型主要是因为它们代表了广泛使用和高性能的图像条件生成模型。我们还希望比较它们，因为它们的架构和训练方法在很大程度上是不同的：BigGAN具有完全卷积的架构，纯粹通过标准对抗目标进行训练。VQGAN使用卷积编码器和解码器网络，并在压缩和向量量化的潜在空间中使用自回归变换器。我们从BigGAN中抽取一些样本，并手动标注它们的像素级注释，这个过程我们在第4节中描述。我们选择标注BigGAN的样本而不是VQGAN的样本有一个实用的原因：我们发现VQGAN能够以出色的重建保真度嵌入真实图像（和BigGAN的样本），因此使我们能够利用带注释的BigGAN样本。相比之下，迄今为止还没有令人满意的BigGAN编码器。使用带注释的BigGAN图像，我们然后训练特征解释器分支，以预测BigGAN和VQGAN的像素级分割标签，采用与原始DatasetGAN [ 78]类似的方法。最后，我们通过从BigGAN和VQGAN中抽取带标签的样本，使用过滤步骤确保最终数据集的高质量，如第3.2节所述，合成两个大型数据集。03.1. 数据集的生成模型0生成模型学习数据的分布，例如图像。在GAN框架中，生成模型G是一个将潜在变量z（通常从正态分布z�N（z；0，I）中抽取）映射到图像x的函数。有条件的GANs [ 5]将类别信息yc作为输入传递给生成器G（z，yc）。生成器G通常是一个卷积0分割0损失0投影0头部0投影0头部0q0k0预测0对比0损失0主干网络0FPN0图4. 为自监督表示学习器添加监督分割分支的简单架构。0lutional神经网络，具有在越来越高的空间分辨率上操作的子函数gi。我们可以正式地写成G（z，yc）=gl−1◦gl−2◦∙∙∙◦g0（z，yc），其中l是层数。如果我们将中间特征fi定义为gi的输出，则我们从所有中间层的输出获得GAN特征FG={f0，f1，∙∙∙，fl−1}。我们希望学习一个特征解释器函数S（FG，yc）→yd，它将生成器的特征FG和类别标签yc作为输入，并输出该类别的所有像素级标签yd的集合。G和S可以一起用于生成密集注释的数据集。接下来，我们将讨论两种不同的架构，BigGAN和VQGAN，并介绍它们之上的特征解释器的架构。0BigGAN . BigGAN [ 5]采用了一个卷积架构，如图3所示。给定随机噪声z和类别标签yc，我们从不同的层获得BigGAN的生成器特征FBigGAN。我们根据它们的语义含义将来自不同空间分辨率的特征分组为高、中和低级别。具体而言，我们将前三个ResBlocks分组为一个高级组，分辨率为8×8到32×32。我们将接下来的三个ResBlocks（包括一个注意力块）作为一个中级组，分辨率从64×64到128×128。图像输出层之前的最后两个ResBlocks被分组为一个低级组，分辨率为256×256到512×512。请注意，较低层的高级特征具有非常高的特征维度，即1536×8×8。DatasetGAN [ 78]将所有特征调整为最终分辨率，导致内存消耗很大。由于内存消耗很高，他们在学习基于MLP的解释器时需要随机采样像素级特征，而不是使用整个特征图。我们建议首先将同一组中的特征调整为组内最高分辨率，然后使用1x1卷积来降低特征维度，然后将所有特征上采样到下一级的分辨率。在上采样后，将来自较低层的特征与当前级别的调整特征进行连接，按照上述相同的操作进行。然后，通过mix-conv操作将两个级别的特征融合在一起，该操作包括两个3x3卷积操作，具有残差连接和条件213330(a) 真实标注 (b) 合成标注 (c) BigGAN-sim (d) VQGAN-sim0图5.我们数据集的示例：真实标注（手动标记的真实ImageNet子集），合成标注（手动标记的BigGAN样本）以及合成的BigGAN-sim，VQGAN-sim数据集。请注意合成样本标记示例的高质量。0图6. 我们BigGAN-sim数据集的平均形状。对于我们的100kBigGAN-sim数据集，每个类别大约有100个样本。我们从分割标签中裁剪掩码，并使用5个聚类来提取所选ImageNet类别形状的主要模式。0数据集统计图像质量标签质量几何分析0数据集大小IN MI BI MB FID-5k ↓ KID-5k ↓ FID-5k ↓ KID-5k ↓ PL SC SD0真实标注8k 1.91 0.315 0.501 0.581 0.0 0.0 0.0 0.0 3.89 34.4 7.98 合成标注5k 1.15 0.314 0.449 0.665 17.91 1.84 20.69 6.33 3.77 28.1 6.13BigGAN-sim 100k 1.33 0.261 0.403 0.606 16.98 1.17 39.69 22.37 3.65 33.9 6.67 VQGAN-sim 100k 1.52 0.375 0.615 0.583 27.20 11.32 51.5632.04 3.81 30.8 5.130表1.数据集分析。我们报告了我们数据集的图像和掩码统计数据（命名见图5）。我们使用FID-5k和KID-5k计算图像和标签质量，并使用真实标注数据集作为参考。IN：每个图像的实例计数，MI：掩码面积与图像面积的比率，BI：掩码的紧密边界框与图像面积的比率，MB：掩码面积与其紧密边界框的面积的比率，PL：多边形长度（多边形归一化为宽度和高度为1），SC：形状复杂度，通过简化多边形中的点数来衡量，SD：形状多样性，按类别计算并在类别间平均。0batchnorm操作与类别信息一起使用，类似于[5]。在低级组中重复相同的过程，并使用最终的1x1conv输出分割logits。与DatasetGAN相比，这种设计大大减少了内存成本，并且可以在mix-conv操作中使用上下文信息（见图3）。0VQGAN. BigGAN和VQGAN[18]之间一个显著的区别是VQGAN包含一个将真实图像映射到离散潜在空间的编码器。与BigGAN不同，这种能力使得VQGAN能够利用不一定来自VQGAN采样本身的标记图像数据集。除了编码器之外，VQGAN还有一个学习的类别条件自回归变换网络，该网络在编码器输出的离散索引上操作。具体来说，这个变换器用于学习离散潜在空间分布，并允许用户从模型中采样新的图像。卷积解码器用于在离散令牌上产生图像。对于我们的特征解释器，我们发现使用变换器的特征非常关键，因为它们包含有关输入图像的语义知识。具体来说，我们从编码器输出的每个空间位置（16×16）的每四个变换器层中收集特征。我们还使用所有解码器特征层。将所有内容组合起来得到0特征集FVQGAN的集合。然后，我们按照BigGAN的架构设计来获得输出分割图。3.2.合成标记数据0我们通过使用几个过滤步骤从BigGAN和VQGAN中采样大型数据集，以确保合成图像及其标签的高质量。示例请参见图5，数据集分析请参见第5.1节。过滤。对于BigGAN，我们使用截断技巧[5]，其中噪声z从截断正态分布中采样，截断值为0.9，以减少噪声样本。尽管较低的截断值会增加整体图像保真度和标签质量，因为样本更接近数据分布的主要模式，但样本多样性对于下游任务的性能也很重要。我们进一步使用拒绝采样[59]，其中使用预训练的图像分类器根据置信度对样本进行排名，以在样本多样性和质量之间实现更精细的控制。在我们的实验中，我们使用了0.9的拒绝率。由于每个类别平均只有5个图像进行了注释，分割分支很可能过拟合。为了缓解这个问题，我们遵循[78]的方法，训练了一个由16个分割头组成的集成模型，并使用Jensen-Shannon散度作为不确定性度量来过滤出最不确定的前10%的图像[3, 44, 54]。对于VQ-Sup.IN82.6 79.666.358.756.128.517.855.7+ BigGAN-off 85.8 81.267.564.662.329.322.859.0+ BigGAN-on87.0 83.269.566.162.829.524.660.4DenseCL [72]85.0 83.362.547.938.617.313.149.7+ BigGAN-sim 86.5 84.966.458.641.017.919.953.6+ VQGAN-sim 86.7 85.967.159.341.719.316.853.8213340对于GAN，我们使用top-200过滤和核心采样[31]，其中p =0.92，从概率质量的前p部分中采样，仅使用16k个索引中的前200个。0离线与在线采样。合成静态数据集会产生一次性的计算成本，并使我们能够在同一数据集上比较不同的分割方法。我们还探索了一种在线策略，在下游分割模型的训练过程中使用我们的BigDataset-GAN在线合成数据。这使模型接触到更多样化的数据，因为在训练过程中它从未看到相同的标记示例两次。在我们的实验中，与使用静态的100k大小的采样数据集相比，这种策略提高了我们的ImageNet分割基准任务的性能1-2%。与离线采样相比，使用在线采样进行训练收敛更快，如先前观察到的[55]。然而，它更慢，因为在每次训练迭代中需要运行生成模型。因此，我们仅在基于BigGAN的模型中探索这种方法，因为由于其自回归变换器组件，VQGAN采样特别慢。此外，在执行在线采样时，我们还放弃了昂贵的过滤方法，例如使用集成模型，以提高计算效率。我们在Tab.2中对所选方法的在线采样策略进行了分析，用BigGAN-off（离线生成的数据集）和BigGAN-on（在线采样）表示。除非另有说明，我们的实验使用离线采样策略。04. 使用像素级标签注释ImageNet0首要的选择是考虑手动标记哪些数据来构建我们的特征解释器的训练集。虽然GAN确保我们可以在低标签范围内操作，但标记所有1k个ImageNet类别仍然会产生成本，主要是在标记时间上，因为我们只使用一个注释者。由于BigGAN没有编码图像的能力，因此无法利用任何标记的数据 -与具有编码器的VQGAN相反，我们选择标记BigGAN的样本。请注意，BigGAN的样本大多非常逼真和多样化。值得一提的是，BigGAN生成样本的速度比VQGAN快150倍，因此更适合进行更大规模的实验。0从每个类别中，我们随机选择了10张图像进行注释，包括ImageNet和BigGAN生成的图像。对于每个1k类别，一个注释者对真实图像和合成图像进行分割。两个数据集都是连续进行注释，先是真实图像，然后是BigGAN图像，以便更容易识别合成图像。注释者平均每个类别和数据集标记了5张图像，忽略了质量低、无法识别的图像。在1k个类别中，只有8个类别的图像注释者无法识别BigGAN生成的任何图像。0方法狗鸟 FG/BG MC-16 MC-100 MC-128 MC-992 平均0监督预训练0Rand 56.4 35.7 44.7 13.9 4.0 3.6 2.3 22.90SupCon [ 40 ] 83.8 79.0 66.6 59.2 55.4 28.6 18.7 55.9 SupSelfCon [ 34 ] 84.481.8 67.6 63.1 60.0 28.3 18.9 57.8 + BigGAN-sim 87.0 83.2 69.5 66.1 62.832.8 29.7 61.6 + VQGAN-sim 86.7 84.4 71.1 68.1 64.7 30.4 25.8 61.60自监督预训练0SimCLR [ 9 ] 77.7 73.7 66.7 53.8 44.3 29.3 16.0 51.6 MoCo-v2 [ 10 ] 84.6 82.765.6 51.4 39.1 18.5 10.2 50.3 BYOL [ 25 ] 78.0 72.9 68.5 55.4 45.8 27.7 16.152.1 DINO [ 6 ] 77.8 72.7 66.1 50.5 41.2 23.2 12.7 49.20MoCo-v3 [11] 77.2 71.5 67.4 54.0 49.7 30.1 17.4 52.5 + BigGAN-sim 83.376.7 71.1 64.8 58.1 38.9 30.8 60.5 + VQGAN-sim 83.8 80.9 71.7 66.5 61.241.5 33.5 62.70表2.ImageNet像素级基准测试。我们在几个任务上比较了各种方法，包括有监督和自监督预训练。我们对所有方法都使用Resnet-50。我们消融了三种方法对合成数据集的使用。FG/BG评估了所有类别的二值分割；MC-N列评估了在N类别设置下的多类别分割性能。添加合成数据集显著提高了性能，BigGAN-off和BigGAN-on比较了离线和在线采样策略。05.分析和实验0在第5.1节中，我们对比了我们合成的数据集与真实标注的ImageNet样本，并通过分割技术揭示了ImageNet的新见解。在第5.2节中，我们评估了几种最先进的有监督和自监督表示学习方法，并在我们的（真实）像素级ImageNet基准测试上进行了消融实验，同时消除了我们合成数据集的使用。最后，在第5.3节中，我们展示了我们合成数据对于下游模型在各种数据集上进行预训练的好处。更多实验细节和分析请参见补充材料。05.1.数据集分析0我们首先在表1中研究了我们的四个不同数据集：（1）真实手动标注数据集（大小为8k），用作基准测试数据。（2）合成手动标注的BigGAN数据集（大小为5k），用作基准训练数据。以及两个合成数据集（3）BigGAN-sim（大小为100k）和（4）VQGAN-sim（大小为100k），分别由BigGAN和VQGAN生成。我们使用真实标注数据集作为参考，比较图像和标签质量的分布度量。我们还比较了各种标签统计信息，并对标记的多边形进行形状分析，以评估形状的复杂性和多样性。合成数据集与真实数据集的比较。与真实标注数据集相比，合成标注数据集在通过分割标签掩码采样的图像上的FID/KID [4,30]存在分布差距（表1，也可参见图5和图6）。我们在掩码图像上计算度量以避免噪声背景的影响。在合成数据集中，Synthetic Dataset Size (K)mIOU5055606570510501005001000BigGAN-simSupervised(2k human labels)mIOU5560657075100125150175200225SupervisedBigGAN-sim(100x synthetic data)500075001000012150001750020000225003540455055606570DenseCLBigGAN-sim-FPN213350红狼：97.7/0.8，黑熊：97.5/1.0，手表：95.8/1.0，梗犬：95.6/1.0，网站：95.4/1.00篮球：0.1/1.0，熊猫管：1.8/1.0，空格键：2.4/0.7，山谷：2.5/0.5，弓：3.9/1.00图7.ImageNet基准测试的Top-5分析。图像下方的文本表示：类别名称，FG/BG分割的mIoU，Resnet-50在ImageNet上预训练的分类准确率。顶部行：我们展示了在FG/BG任务上使用BigGAN-sim数据集训练的DeepLabv3的Top-5最佳预测结果，与地面实况注释（第三列）进行对比。底部行：我们展示了Top-5最差的预测结果。典型的失败案例包括小物体或细小结构。有趣的是，难以分割的类别，如篮球和弓，并不一定难以分类。0Imagenet分割性能0图8.去除合成数据集大小的影响。在这里，我们固定模型为Resnet50主干网络，并比较了当我们增加合成数据集大小时的性能。使用22k的合成数据集训练的模型优于使用2k的人工标注数据集训练的模型。当将合成数据集的大小从22k进一步增加到220k时，性能又提高了7个百分点。这里，2M是通过我们的在线采样策略合成的样本总数（参见第3.2节）。0模型参数大小（M）0Imagenet分割性能0图9.去除主干网络大小的影响。我们将主干网络从Resnet50扩展到Resnet101和Resnet152。我们使用了2k个人工标注的标签（红色）和我们的BigGAN-sim数据集（绿色）进行监督。BigGAN-sim数据集的监督效果更好，特别是对于更大的模型。0mIOU0图10.在Pascal-VOC上的分割性能收敛。我们在不同的训练迭代中评估验证集的语义分割。使用我们的合成数据集进行预训练的骨干网络显示出比仅使用对比学习训练的网络更快的收敛速度。彩色区域表示5次试验的方差。0BigGAN-sim在FID/KID方面相对于VQGAN-sim具有更好的图像和标签质量（19.45/3.47 vs.21.21/11.10）。然而，与BigGAN-sim相比，VQGAN-sim每个图像平均包含1.52个实例（IN）。这表明VQGAN能够更好地对个别图像中的多个对象进行建模。有趣的是，通过Douglas-Peucker算法[17]简化的多边形中的平均点数来衡量的形状复杂度（SC）得分对于BigGAN-sim的标签要比VQGAN-sim高（33.9 vs.30.8）。BigGAN的形状多样性（SD）指标也稍微好一些。请注意，我们可能正在看到在BigGAN的数据上训练VQGAN的一些效果。05.2. ImageNet分割基准0我们引入了一个基准测试，使用我们的合成注释数据集（5k）作为训练集，在我们的真实注释数据集（8k）上进行评估；请参阅表1以获取详细信息。具体而言，我们评估了（1）两个单独的类别（狗和鸟），（2）全1k类别的前景/背景（FG/BG）分割以及（3）各个类别子集的多类别语义分割。任务设置。狗和鸟评估二元分割。对于狗，我们将ImageNet1k中的118个狗类别分组，结果-0在657个训练图像中进行狗的分割。对于鸟类，我们将59个鸟类别分组，有366个训练图像。FG/BG任务评估所有类别的二元分割准确性，而MC-16是对一组16个常见对象（如船、汽车和椅子）进行的多类别分割，类似于PASCAL VOC[20]。MC-100也是对随机选择的100个ImageNet1k类别进行的多类别分割。任务MC-128基于WordNet[33]进行自上而下的分组，导致长尾类别分布，适用于测试类别不平衡的分割。MC-992是对所有992个ImageNet1k类别进行的多类别分割任务，我们过滤掉了BigGAN无法很好建模的8个类别。评估。我们比较的所有分割方法都基于DeepLabv3[8]和Resnet-50[29]。评估指标是平均交并比（mIoU）。比较。在表2中，我们比较了基于对比学习或知识蒸馏的最先进的自监督学习（SSL）方法。我们还比较了在ImageNet上进行监督预训练的性能。由于SSL方法不使用类别信息，我们还包括使用监督对比学习（SupCon）[40]和与分类一起联合训练的MoCo-v2（SupSelfCon）[34]进行预训练的骨干网络。我们观察到，每当使用我们的大型合成数据集进行训练时（而不仅仅使用手动标注的数据集），任务性能都会提高。具体而言，使用VQGAN-sim数据集进行预训练的MoCo-v3骨干网络在7个任务上的性能提高了10.2。在MC-16任务中，使用我们的合成数据集进行预训练的DenseCL[72]骨干网络的性能提高了11.4。VQGAN-sim vs.BigGAN-sim。在我们的基准测试中，VQGAN-sim和BigGAN-sim具有相同的100k标记图像数据集大小。在任务性能方面，使用VQGAN-sim进行训练的方法实现了更好的性能。然而，VQGAN是一个包括变压器在内的庞大模型，具有15亿个参数，而BigGAN只有1.1亿个参数。在推理速度方面，由于VQGAN是自回归采样，平均每张图像需要15秒，而BigGAN的推理速度约为0.1秒。对于VQGAN来说，采样一个2M的合成数据集几乎需要一整年，而对于BigGAN来说，只需要55小时就可以在单个GPU上完成。正如讨论的那样，在训练下游任务模型时，使用VQGAN的在线采样策略也是不切实际的。扩大数据集大小。生成模型的一个有用特性是能够合成大量的数据。在图8中，我们展示了当扩大数据集大小时任务性能的提高。使用来自BigGAN-sim的22k大小的合成数据集训练的模型优于使用2k人工注释标签训练的相同模型。当将数据集大小从22k扩大到220k时，我们观察到另外7个点的增益。在2M时，进一步但不太显著的提升也可以看到。扩大模型大小。我们还分析了模型大小的影响。在图9中，我们将使用2k人工注释标签训练的基线模型与使用100倍大的BigGAN-sim数据集训练的相同模型进行了比较。当利用我们的大型模拟数据集时，我们在所有模型大小上都观察到了大幅度的性能提升。分类与分割。此外，我们研究了难以分割的形状是否也难以处理。dataset) the task performance improves. Specifically, theMoCo-v3 pre-trained backbone trained using the VQGAN-sim dataset improves mean performance by 10.2 over the7 tasks. In MC-16, the DenseCL [72] pre-trained backboneimproves its performance by 11.4 with our synthetic dataset.VQGAN-sim vs.BigGAN-sim.In our benchmark,VQGAN-sim and BigGAN-sim have the same dataset sizeof 100k labeled images.In terms of task performance,methods trained with VQGAN-sim achieve overall betterperformance. However, VQGAN is a massive model with1.5B parameters including the transformer, while BigGANhas only 110M parameters. In terms of inference speed,since VQGAN samples autoregressively, it takes on aver-age 15 sec. per image, whereas BigGAN’s inference speedis around 0.1 sec. per image. Sampling a 2M syntheticdataset would take almost an entire year for VQGAN vs.55 hours for BigGAN on a single GPU. As discussed, thisalso makes it impractical to use the online sampling strategywith VQGAN during training of downstream task models.Scaling up dataset size. A useful property of generativemodels is the ability to synthesize large amounts of data.In Fig. 8, we show that task performance increases whenscaling up dataset size. A model trained with a 22k-sizedsynthetic dataset from BigGAN-sim outperforms the samemodel trained with 2k human-annotated labels. We observeanother gain of 7 points when scaling dataset size from 22kto 220k. A further but less significant boost is seen at 2M.Scaling up model size.We also analyze the effect ofthe model size. In Fig. 9, we compare a baseline modeltrained with 2k human-annotated labels with the samemodel trained with the 100x larger BigGAN-sim

下载后可阅读完整内容，剩余1页未读，立即下载