因此,在下文中,为了一致性,除非另有说明,否则
使用软伪标签报告结果。
3.
实验
在本节中,我们将首先描述我们的实验细节。然
后,我们将展示我们的ImageNet结果与最先进模型的
结果进行比较。最后,我们展示了我们的模型在鲁棒
性数据集(如ImageNet-A,C和P)以及对抗性攻击下
的惊人改进
3.1.
实验细节
标记数据集。我们对ImageNet 2012 ILSVRC挑战预测
任务进行了实验,因为它被认为是计算机视觉中最重
要的基准数据集之一,并且ImageNet的改进转移到其
他数据集[44,66]。
未标记的数据集。我们从JFT数据集[33,15]中获得了
未标记的图像,该数据集有大约3亿张图像。尽管数据
集中的图像有标签,但我们忽略标签并将其视为未标
记的数据。我们从数据集中过滤Ima-geNet验证集图像
(参见[58])。
然后,我们在这个语料库上执行数据过滤和平衡。
首先,我们在JFT数据集[33,15]上运行在Ima-geNet
[82]上训练的EfficientNet-B 0来预测每个图像的标签。
然后,我们选择标签置信度高于0.3的图像对于每个类
别,我们选择最多130K具有最高置信度的图像。最
后,对于少于130K图像的类,我们随机复制一些图
像,以便每个类可以有130K图像。因此,我们用于训
练学生模型的图像总数为130M(其中有一些重复的图
像)。由于重复,在这1.3亿张图像中只有81M张唯一
图像。我们不广泛地调整这些超参数,因为我们的方
法是高度鲁棒的。
架构我们使用EfficientNets [82]作为我们的基线模型,
因为它们为更多数据提供了更好的容量。在我们的实
验中,我们还进一步扩展了EfficientNet-B7并获得了
EfficientNet-L2。EfficientNet-L2比EfficientNet-B7更宽
更深,但使用更低的分辨率,这使它有更多的参数来
适 应 大 量 的 未 标 记 图 像 。 由 于 模 型 尺 寸 较 大 ,
EfficientNet-L2 的 训 练 有 关 EfficientNet-L2 的 更 多 信
息,请参见附录A.1中的表7。
培训详情。 对于带标签的图像,我们默认使用2048的
批量大小,当我们无法将模型放入内存时,会减小批
量大小我们发现,使用512,1024和2048的批量大小导
致相同的性能。
我们确定的训练步骤的数量和学习速率的时间表的批
量 大 小 为 标 记 的 图 像 。 具 体 来 说 , 我 们 为 大 于
EfficientNet-B4(包括EfficientNet-L2)的模型训练了
350个epoch的学生模型,对于标记的批量大小2048,
学习率从0.128开始,如果训练350个epoch或每
4.8如果训练700个epoch,
我们对未标记的图像使用大批量,特别是对于大型
模型,以充分利用大量可用的未标记图像。将标记图
像和未标记图像连接在一起以计算平均交叉熵损失。
最后,我们应用最近提出的技术来修复EfficientNet-
L2的训练测试分辨率差异[84]。我们首先以较小的分
辨率执行正常训练350个epochs。然后,我们在未增强
的标记图像上用更大的分辨率对模型进行1.5个历元的
微调。与[84]类似,我们在微调过程中修复浅层我们
最大的模型EfficientNet-L2需要在Cloud TPU v3 Pod上
训练 6天,该Pod具有2048个核心,
如果未标记的批大小是标记的批大小的14倍。
噪 声 我 们 使 用 随 机 深 度 [37] , dropout [75] 和
RandAugment [18]来对学生进行噪声处理。这些噪声
函数的hyperparame- ters对于EfficientNet-B7和L2是相
同的。特别地,我们将最后一层的随机深度中的生存
概率设置为0.8,并对其他层遵循线性衰减规则。我们
将 dropout 应 用 到 最 后 一 层 , dropout 率 为 0.5 。 对 于
RandAugment,我们应用两个随机操作,其幅度设置
为27。
迭代训练。 我们实验中最好的模型是 这是三次反
复把学生放回新老师的结果。我们首先在ImageNet上
训练了一个EfficientNet-B7作为教师模型。然后,通过
使用B7模型作为老师,我们训练了一个EfficientNet-L2
模型,其中未标记的批次大小设置为标记批次大小的
14倍。然后,我们以EfficientNet-L2模型为老师训练了
一个新的EfficientNet-L2模型。最后,我们再次迭代并
使用未标记的批量大小为标记批量大小的28倍。三次
迭代的详细结果见第A.2节。
3.2.
ImageNet结果
我们首先报告了ImageNet 2012 ILSVRC挑战预测任
务的验证集准确度,如文献[45,79,30,82]中所述
(另见[66])。 如表2 所示, 使用EfficientNet-L2 的
NoisyStudent达 到 了 88.4% 的 top-1准确 率, 明 显 优 于
EfficientNet上报告的最佳准确率85.0%。3.4%的总增益
来自两个来源:使模型更大(+0.5%)和NoisyStudent
(+2.9%)。在