NoisyStudent: 自我训练提升ImageNet分类精度与鲁棒性

61 浏览量更新于2024-06-20 收藏 1.11MB PDF 举报

本文主要探讨了一种利用自我训练方法改进ImageNet分类的策略，特别是在提升模型的鲁棒性方面。作者团队提出了一种名为NoisyStudent的创新方法，该方法首先在ImageNet标记数据上训练一个EfficientNet模型，作为教师模型。教师模型在3亿未标记的图像上生成伪标签，这些图像来自Instagram等来源，且大多数与ImageNet训练集分布不符。伪标签生成阶段，教师模型保持清洁，尽可能地提供准确的信息，而学生模型则在学习过程中引入噪声，如通过RandAugment技术进行辍学、随机深度调整和数据增强。这样做的目的是让学生模型能够更好地泛化，从而在面对多样化的图像数据时表现出更强的鲁棒性。实验结果显示，这种方法显著提高了模型的性能：将ImageNet上的top-1准确率提升到了88.4%，在鲁棒性测试集上，ImageNet-Atop-1准确率从61.0%提升至83.7%，ImageNet-C的平均损坏错误从45.7下降到28.3，ImageNet-P的平均翻转率也从27.8降低到12.2。这种自我训练策略对于解决深度学习对大量标记数据依赖的问题具有重要意义，展示了如何利用未标记图像来提升现有模型的性能，并且在提升准确性的同时，显著增强了模型在现实世界中的鲁棒性。研究者们在GitHub上提供了模型和代码，以便其他研究人员可以进一步探索和应用这种自我训练技术。

10689

因此，在下文中，为了一致性，除非另有说明，否则

使用软伪标签报告结果。

实验

在本节中，我们将首先描述我们的实验细节。然

后，我们将展示我们的ImageNet结果与最先进模型的

结果进行比较。最后，我们展示了我们的模型在鲁棒

性数据集（如ImageNet-A，C和P）以及对抗性攻击下

的惊人改进

3.1.

实验细节

标记数据集。我们对ImageNet 2012 ILSVRC挑战预测

任务进行了实验，因为它被认为是计算机视觉中最重

要的基准数据集之一，并且ImageNet的改进转移到其

他数据集[44，66]。

未标记的数据集。我们从JFT数据集[33，15]中获得了

未标记的图像，该数据集有大约3亿张图像。尽管数据

集中的图像有标签，但我们忽略标签并将其视为未标

记的数据。我们从数据集中过滤Ima-geNet验证集图像

（参见[58]）。

然后，我们在这个语料库上执行数据过滤和平衡。

首先，我们在JFT数据集[33，15]上运行在Ima-geNet

[82]上训练的EfficientNet-B 0来预测每个图像的标签。

然后，我们选择标签置信度高于0.3的图像对于每个类

别，我们选择最多130K具有最高置信度的图像。最

后，对于少于130K图像的类，我们随机复制一些图

像，以便每个类可以有130K图像。因此，我们用于训

练学生模型的图像总数为130M（其中有一些重复的图

像）。由于重复，在这1.3亿张图像中只有81M张唯一

图像。我们不广泛地调整这些超参数，因为我们的方

法是高度鲁棒的。

架构我们使用EfficientNets [82]作为我们的基线模型，

因为它们为更多数据提供了更好的容量。在我们的实

验中，我们还进一步扩展了EfficientNet-B7并获得了

EfficientNet-L2。EfficientNet-L2比EfficientNet-B7更宽

更深，但使用更低的分辨率，这使它有更多的参数来

适应大量的未标记图像。由于模型尺寸较大，

EfficientNet-L2 的训练有关 EfficientNet-L2 的更多信

息，请参见附录A.1中的表7。

培训详情。对于带标签的图像，我们默认使用2048的

批量大小，当我们无法将模型放入内存时，会减小批

量大小我们发现，使用512，1024和2048的批量大小导

致相同的性能。

我们确定的训练步骤的数量和学习速率的时间表的批

量大小为标记的图像。具体来说，我们为大于

EfficientNet-B4（包括EfficientNet-L2）的模型训练了

350个epoch的学生模型，对于标记的批量大小2048，

学习率从0.128开始，如果训练350个epoch或每

4.8如果训练700个epoch，

我们对未标记的图像使用大批量，特别是对于大型

模型，以充分利用大量可用的未标记图像。将标记图

像和未标记图像连接在一起以计算平均交叉熵损失。

最后，我们应用最近提出的技术来修复EfficientNet-

L2的训练测试分辨率差异[84]。我们首先以较小的分

辨率执行正常训练350个epochs。然后，我们在未增强

的标记图像上用更大的分辨率对模型进行1.5个历元的

微调。与[84]类似，我们在微调过程中修复浅层我们

最大的模型EfficientNet-L2需要在Cloud TPU v3 Pod上

训练 6天，该Pod具有2048个核心，

如果未标记的批大小是标记的批大小的14倍。

噪声我们使用随机深度 [37] ， dropout [75] 和

RandAugment [18]来对学生进行噪声处理。这些噪声

函数的hyperparame- ters对于EfficientNet-B7和L2是相

同的。特别地，我们将最后一层的随机深度中的生存

概率设置为0.8，并对其他层遵循线性衰减规则。我们

将 dropout 应用到最后一层， dropout 率为 0.5 。对于

RandAugment，我们应用两个随机操作，其幅度设置

为27。

迭代训练。我们实验中最好的模型是这是三次反

复把学生放回新老师的结果。我们首先在ImageNet上

训练了一个EfficientNet-B7作为教师模型。然后，通过

使用B7模型作为老师，我们训练了一个EfficientNet-L2

模型，其中未标记的批次大小设置为标记批次大小的

14倍。然后，我们以EfficientNet-L2模型为老师训练了

一个新的EfficientNet-L2模型。最后，我们再次迭代并

使用未标记的批量大小为标记批量大小的28倍。三次

迭代的详细结果见第A.2节。

3.2.

ImageNet结果

我们首先报告了ImageNet 2012 ILSVRC挑战预测任

务的验证集准确度，如文献[45，79，30，82]中所述

（另见[66]）。如表2 所示，使用EfficientNet-L2 的

NoisyStudent达到了 88.4% 的 top-1准确率，明显优于

EfficientNet上报告的最佳准确率85.0%。3.4%的总增益

来自两个来源：使模型更大（+0.5%）和NoisyStudent

（+2.9%）。在

剩余14页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

NoisyStudent: 自我训练提升ImageNet分类精度与鲁棒性

NoisyStudent:pytorch实施“对有噪声的学生进行自我培训可以改善ImageNet分类”

以ImageNet数据集为基础，构建深度神经网络，演练图像分类或目标检测或图像分割问题的高分课程报告

Python-自我监督视觉表征学习的缩放和基准测试

SCNet:PyTorch正式执行CVPR 2020论文“使用自校准卷积改进卷积网络”

self-label:通过同时聚类和表示学习进行自我标记。 （ICLR 2020）

视觉表征无监督学习的对比方法再探讨_Revisiting Contrastive Methods for Unsupervise

基于剪枝的卷积神经网络压缩方法研究_靳丽蕾(硕)1

AI人工智能发展及介绍PPT.pptx

【GAN训练初探】：入门者必读指南

自我学习机制：大数据时代的人工智能算法创新

最新资源

self-label:通过同时聚类和表示学习进行自我标记。（ICLR 2020）