自我训练改进ImageNet分类的方法及效果

185 浏览量更新于2023-10-23 收藏 1.11MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1使用Noisy Student进行自我训练可以改进ImageNet分类[1]张文辉1，张文辉1，张文辉1，张文辉2，张文辉1.Le11谷歌研究，大脑团队，2卡内基梅隆大学{qizhex，thangluong，qvl}@ google.com，hovy@cmu.edu摘要我们提出了一种简单的自我训练方法，在ImageNet上实现了88.4%的top-1准确率，比需要3.5B弱标记Instagram图像的最先进模型在鲁棒性测试集上，它将ImageNet-A top-1 准确率从 61.0% 提高到 83.7% ，将ImageNet-C 平均损坏错误从 45.7降低到 28.3 ，并将ImageNet-P平均翻转率从27.8降低到12.2。为了实现这一结果，我们首先在标记的ImageNet图像上训练一个EfficientNet模型，并将其用作教师，在3亿未标记的图像上生成伪标签。然后，我们训练一个更大的EfficientNet作为学生模型，结合标记和伪标记图像。我们重复这个过程，把学生放回老师。在伪标签的生成期间，教师不被噪声干扰，使得伪标签尽可能准确。然而，在学生的学习过程中，我们通过RandAugment向学生注入噪声，如辍学，随机深度和数据增强，以便学生比老师更好地概括。11. 介绍近年来，深度学习在图像识别方面取得了显着的成功[45，79，74，30，82]。然而，最先进的（SOTA）视觉模型仍然是用监督学习来训练的，这需要大量的标记图像才能很好地工作。通过只显示标记图像的模型，我们限制了自己使用大量的未标记图像来提高SOTA模型的准确性和鲁棒性。在这里，我们使用未标记的图像来提高SOTA Im-ageNet的准确性，并表明准确性增益对鲁棒性有巨大的为此，我们使用了一个更大的语料库，这项工作是在Google进行的。1模型可在https://github.com/tensorflow/tpu/tree/master/models/official/efficientnet 上获得。代码可在 https://github.com/google-research/noisystudent.标记图像，其中大部分图像不符合ImageNet训练集分布（即，它们不属于ImageNet中的任何类别）。我们使用自训练框架[70]训练我们的模型，该框架有三个主要步骤：1）在标记的图像上训练教师模型，2）使用教师在未标记的图像上生成伪标签，3)在标记图像和伪标记图像的组合上训练学生模型。我们把学生当作老师来重新标记未标记的数据并训练一个新学生，从而迭代这个算法我们的实验表明，这种方法在规模上工作良好的一个重要因素是，学生模型在训练过程中应该被噪声化，而教师在生成伪标签时不应该被噪声化。这样，伪标签尽可能准确，并且受噪声影响的学生被迫从伪标签中更加努力地学习。为了给学生加噪，我们在训练过程中使用RandAugment数据增强[18]，dropout [75]和随机深度[37]。我们称之为方法NoisyStudent，以强调噪声在方法和结果中所起的作用。使用NoisyStudent，以及3亿未标记的图像，我们将EfficientNet这个准确度比SOTA ImageNet的准确度高出2.0%，后者需要3.5B弱标记的Instagram图像。我们的方法不仅提高了标准ImageNet的准确性，还大幅提高了更难测试集的分类鲁棒性：ImageNet-A [32] top-1准确率从61.0%到83.7%，ImageNet-C [31]平均损坏错误（mCE）从45.7到28.3和ImageNet-P [31]平均翻转率（mFR）从27.8到12.2。我们的主要结果如表1所示。ImageNettop-1 acc.ImageNet-Atop-1acc.ImageNet-CmCEImageNet-PmFRPrev. SOTA百分之八十六点四61.0%45.727.8NoisyStudent88.4%83.7%28.312.2表1：与先前最先进模型相比的关键结果总结[84，55]。平均损坏误差（mCE）和平均翻转率（mFR）越低越好。1068710688不S∗2. 噪音学生：带噪声的迭代自训练算法1给出了NoisyStudent的概述该算法的输入是标记和未标记的图像。我们使用标记的图像来训练使用标准交叉熵损失的教师模型然后，我们使用教师模型在未标记的图像上生成伪标签。伪标签可以是软的（连续分布）或硬的（独热分布）.然后，我们训练一个学生模型，最小化标记图像和未标记图像的组合交叉熵损失最后，我们通过将学生放回教师来迭代该过程，以生成新的伪标签并训练新的学生。该算法也在图1中示出。需要：标记的图像{（x1，y1），（x2，y2），.，（xn，yn）}和未标记图像{x∈1，x∈2，.， xm}。1：学习最小化交叉熵的教师模型标记图像Xn`（yi，fnois ed（xi，t））ni=12：使用无噪声教师模型为未标记的图像yi=f（xi，t），i=1，· ··， m3：学习一个相等或更大的学生模型，它最大限度地减少了标记图像和未标记图像的交叉熵损失，并将噪声添加到学生模型该算法基本上是自训练的，这是半监督学习中的标准方法（例如，[70、94]）。关于我们的方法如何与先前的工作相关的更多讨论在第5节中。我们的主要区别在于为学生添加更多的噪声源，并使用与教师一样大（如果不是更大）的学生模型。这使得我们的方法不同于知识蒸馏[33]，其中添加噪声不是核心问题，并且通常将小模型用作学生以比教师更快。我们可以把我们的方法看作是知识扩展，我们希望学生比老师更好，通过给学生模型更多的容量和困难的环境来学习。Noising Student在我们的实验中，我们使用两种类型的噪声：输入噪声和模型噪声。对于输入噪声，我们使用RandAugment [18]进行数据增强。对于模型噪声，我们使用dropout [75]和随机深度[37]。当应用于未标记数据时，噪声具有在标记和未标记数据的决策函数中强制局部平滑的复合益处。不同的噪音有不同的影响。对于数据增强噪声，学生必须确保图像（例如，在翻译时）与未翻译的图像具有相同的类别这种不变约束鼓励学生模型超越教师学习，对更困难的图像进行预测当dropout和随机深度函数用作噪声时，教师在推理时的行为就像一个增强体（在此期间，它生成伪1Xnni=1`（yi，fnois ed（xi，ns））+1Xmmi=1`（yi，fnois ed（xi，s））标签），而学生的行为就像一个单一的模型。换句话说，学生被迫模仿一个更强大的整体模型。我们提出了一个消融研究，4：迭代训练：以学生为师，步骤2.算法一：NoisyStudent方法。钢拱桥独木舟……培训教师模型推断伪标签在未标记数据上的标记数据数据增强辍学列车等-或-具有组合数据和噪声注入的较大学生让学生A新老师Stochastic depth图1：NoisyStudent方法的说明。(All图片来自ImageNet）第四Other Techniques – NoisyStudent also works betterwith an additional trick: data filtering and balancing.具体来说，我们过滤教师模型具有低置信度的图像，为了确保未标记图像的分布与训练集的分布相匹配，我们还需要平衡每个类的未标记图像的数量，因为ImageNet中的所有类都有相似数量的标记图像。为此，我们在没有足够图像的类中复制图像对于我们有太多图像的类，我们以最高的置信度拍摄图像。2最后，在上文中，我们说伪标签可以是软标签或硬标签。我们观察到软赝标签和硬赝标签在我们的实验中都工作得很好特别是，软伪标签对于域外未标记数据的效果稍好2数据平衡的好处对于小模型很重要，而对于大模型则不太重要。更多详情见附录A.3110689因此，在下文中，为了一致性，除非另有说明，否则使用软伪标签报告结果。3. 实验在本节中，我们将首先描述我们的实验细节。然后，我们将展示我们的ImageNet结果与最先进模型的结果进行比较。最后，我们展示了我们的模型在鲁棒性数据集（如ImageNet-A，C和P）以及对抗性攻击下的惊人改进3.1. 实验细节标记数据集。我们对ImageNet 2012 ILSVRC挑战预测任务进行了实验，因为它被认为是计算机视觉中最重要的基准数据集之一，并且ImageNet的改进转移到其他数据集[44，66]。未标记的数据集。我们从JFT数据集[33，15]中获得了未标记的图像，该数据集有大约3亿张图像。尽管数据集中的图像有标签，但我们忽略标签并将其视为未标记的数据。我们从数据集中过滤Ima-geNet验证集图像（参见[58]）。然后，我们在这个语料库上执行数据过滤和平衡。首先，我们在JFT数据集[33，15]上运行在Ima-geNet[82]上训练的EfficientNet-B 0来预测每个图像的标签。然后，我们选择标签置信度高于0.3的图像对于每个类别，我们选择最多130K具有最高置信度的图像。最后，对于少于130K图像的类，我们随机复制一些图像，以便每个类可以有130K图像。因此，我们用于训练学生模型的图像总数为130M（其中有一些重复的图像）。由于重复，在这1.3亿张图像中只有81M张唯一图像。我们不广泛地调整这些超参数，因为我们的方法是高度鲁棒的。架构我们使用EfficientNets [82]作为我们的基线模型，因为它们为更多数据提供了更好的容量。在我们的实验中，我们还进一步扩展了EfficientNet-B7并获得了EfficientNet-L2。EfficientNet-L2比EfficientNet-B7更宽更深，但使用更低的分辨率，这使它有更多的参数来适应大量的未标记图像。由于模型尺寸较大，EfficientNet-L2 的训练有关 EfficientNet-L2 的更多信息，请参见附录A.1中的表7。培训详情。对于带标签的图像，我们默认使用2048的批量大小，当我们无法将模型放入内存时，会减小批量大小我们发现，使用512，1024和2048的批量大小导致相同的性能。我们确定的训练步骤的数量和学习速率的时间表的批量大小为标记的图像。具体来说，我们为大于EfficientNet-B4（包括EfficientNet-L2）的模型训练了350个epoch的学生模型，对于标记的批量大小2048，学习率从0.128开始，如果训练350个epoch或每4.8如果训练700个epoch，我们对未标记的图像使用大批量，特别是对于大型模型，以充分利用大量可用的未标记图像。将标记图像和未标记图像连接在一起以计算平均交叉熵损失。最后，我们应用最近提出的技术来修复EfficientNet-L2的训练测试分辨率差异[84]。我们首先以较小的分辨率执行正常训练350个epochs。然后，我们在未增强的标记图像上用更大的分辨率对模型进行1.5个历元的微调。与[84]类似，我们在微调过程中修复浅层我们最大的模型EfficientNet-L2需要在Cloud TPU v3 Pod上训练 6天，该Pod具有2048个核心，如果未标记的批大小是标记的批大小的14倍。噪声我们使用随机深度 [37] ， dropout [75] 和RandAugment [18]来对学生进行噪声处理。这些噪声函数的hyperparame- ters对于EfficientNet-B7和L2是相同的。特别地，我们将最后一层的随机深度中的生存概率设置为0.8，并对其他层遵循线性衰减规则。我们将dropout应用到最后一层，dropout率为0.5。对于RandAugment，我们应用两个随机操作，其幅度设置为27。迭代训练。我们实验中最好的模型是这是三次反复把学生放回新老师的结果。我们首先在ImageNet上训练了一个EfficientNet-B7作为教师模型。然后，通过使用B7模型作为老师，我们训练了一个EfficientNet-L2模型，其中未标记的批次大小设置为标记批次大小的14倍。然后，我们以EfficientNet-L2模型为老师训练了一个新的EfficientNet-L2模型。最后，我们再次迭代并使用未标记的批量大小为标记批量大小的28倍。三次迭代的详细结果见第A.2节。3.2. ImageNet结果我们首先报告了ImageNet 2012 ILSVRC挑战预测任务的验证集准确度，如文献[45，79，30，82]中所述（另见[66]）。如表2所示，使用EfficientNet-L2的NoisyStudent达到了88.4%的top-1准确率，明显优于EfficientNet上报告的最佳准确率85.0%。3.4%的总增益来自两个来源：使模型更大（+0.5%）和NoisyStudent（+2.9%）。在10690方法#Params额外数据Top-1 Acc.前5名Acc.ResNet-50 [30]26M-76.0%93.0%ResNet-152 [30]60M-77.8%百分之九十三点八DenseNet-264 [36]34M-百分之七十七点九百分之九十三点九[80]第八十话24M-78.8%94.4%Xception [15]23M-79.0%94.5%[78]第78话48M-百分之八十95.0%[78]第78话56M-百分之八十点一百分之九十五点一ResNeXt-101 [90]84M-80.9%百分之九十五点六[第98话]92M-81.3%百分之九十五点八SENet [35]146M-82.7%百分之九十六点二NASNet-A [102]89M-82.7%百分之九十六点二AmoebaNet-A [65]87M-82.8%百分之九十六点一PNASNet [50]86M-百分之八十二点九百分之九十六点二AmoebaNet-C [17]155M-83.5%96.5%GPipe [38]557M-84.3%97.0%[第82话]66M-百分之八十五百分之九十七点二[82]第82话480M-百分之八十五点五97.5%ResNet-500亿规模[91]26M81.2%96.0%[91]第91话193M829M3.5B图像标记标签百分之八十四点八-[55]第五十五话：85.4%百分之九十七点六[84]第84话最后一句话829M百分之八十六点四百分之九十八大转移（BiT-L）[43]来自JFT的928M87.5% 98.5%NoisyStudent（EfficientNet-L2）480M 300M来自JFT的88.4% 98.7%表2：NoisyStudent和ImageNet上先前最先进方法的前1名和前5名准确度。与以前的最先进模型相比，使用NoisyStudent训练的EfficientNets在准确性和模型大小方面具有更好的权衡。NoisyStudent（EfficientNet-L2）是多次迭代的迭代训练的结果。†：Big Transfer是一项并行工作，它从JFT数据集执行迁移学习。换句话说，使用NoisyStudent对精度的影响要比改变架构大得多。此外，NoisyStudent的表现优于FixRes ResNeXt-101WSL的86.4%的最先进的准确性[55，84]，需要35亿张带有标签的Instagram图像作为比较，我们的方法只需要300M的未标记图像，这可能更容易收集。我们的模型86B6NoisyStudent（EfficientNet-B7）B5 EfficientNet-B7B484AmoebaNet-AB3NASNet-A82ResNeXt-10180Inception-resnet-v2AmoebaNet-CSENet与FixRes ResNeXt-101 WSL相比，在参数数量上也大约小两倍。ImageNet Top-1准确度（%）10691Xception78ResNet-15276ResNet-50模型尺寸研究：NoisyStudent适用于EfficientNet B 0-B7，无需迭代训练。除了改进最先进的结果外，我们还进行实验以验证inception-V274NASNet-AResNet-340 20 40 60 80100 120140 160NoisyStudent可以使其他EfficienetNet模型受益。在以前的实验中，迭代训练用于优化EfficientNet-L2的准确性，但在这里我们跳过它，因为在许多实验中很难使用迭代训练。我们将模型大小从EfficientNet-B 0变化到EfficientNet-B7 [82]，并使用相同的模型作为教师和学生。我们将RandAugment应用于所有的EfficientNet基线，从而产生更具竞争力的基线.我们将未标记的批次大小设置为参数数量（百万）图2：NoisyStudent在EfficientNet的所有模型大小我们对教师和学生使用相同的体系结构，并且不执行迭代训练。除EfficientNet-B 0外，所有型号尺寸的标记图像的批量大小。对于EfficientNet-B 0，我们将未标记模型Top-1 Acc.高效Net-B 0噪音学生（B0）百分之七十七点三百分之七十八点一EfficientNet-B2NoisyStudent（B2）百分之八十81.1%10692批量大小与标记图像的批量大小相同。如图2所示，NoisyStudent使所有模型尺寸的一致性改进约为0.8%总的来说，带NoisyStudent的EfficientNets在模型大小和准确性之间提供了比以前更好的权衡。结果还证实，即使没有迭代训练，视觉模型也可以从NoisyStudent中受益3.3. ImageNet-A、ImageNet- C和ImageNet-P方法Top-1 Acc.前5名Acc.ResNet-101 [32]百分之四点七-ResNeXt-101 [32]（32x4d）百分之五点九-ResNet-152 [32]6.1%-ResNeXt-101 [32]（64x4d）百分之七点三-DPN-98 [32]百分之九点四-ResNeXt-101+SE [32]（32x4d）百分之十四点二-ResNeXt-101 WSL [55]61.0%-EfficientNet-L2百分之四十九点六78.6%NoisyStudent（L2）83.7%95.2%表3：ImageNet-A的稳健性结果。方法Res.Top-1 Acc.mCEResNet-50 [31]22439.0%76.7[23]第二十三话224百分之四十五点二69.3[51]第五十一话299百分之五十二点三60.4ResNeXt-101 WSL [55]224-45.7EfficientNet-L222462.6%47.5NoisyStudent（L2）22476.5%30.0EfficientNet-L2299百分之六十六点六42.5NoisyStudent（L2）29977.8%28.3表4：ImageNet-C上的稳健性结果。mCE是不同损坏的错误率的加权平均值，以AlexNet方法Res.Top-1 Acc.MFRResNet-50 [31]224-58.0低通滤波器合并[97]224-51.2ResNeXt-101 WSL [55]224-27.8EfficientNet-L222480.4%27.2NoisyStudent（L2）22485.2%14.2EfficientNet-L229981.6%23.7NoisyStudent（L2）299百分之八十六点四12.2表5：ImageNet-P的稳健性结果，其中图像是通过一系列扰动生成的。mFR测量模型在10693我们评估最好的模型，达到88.4%的顶部-1准确度，三个耐用性测试集：ImageNet- A、ImageNet-C和ImageNet-P。ImageNet-C和P测试集[31]包括具有常见损坏和扰动的图像，例如模糊，雾化，旋转和缩放。ImageNet-测试集[32]由困难的图像组成，这些图像导致最先进模型的准确性显著下降。这些测试集被认为是对于ImageNet-C和ImageNet-P，我们在分辨率为224 x224和299 x299的两个发布版本上评估模型，并将图像大小调整为EfficientNet训练的分辨率。如表3、4和5所示，与在3.5B弱标记图像上训练的先前最先进的模型ResNeXt-101 WSL [ 55，59 ]相比，NoisyStudent在鲁棒性数据集上产生了实质性增益。在ImageNet-A上，它将top-1的准确率从61.0%提高到83.7%。在ImageNet-C上，它将平均损坏错误（mCE）从45.7到28.3。在ImageNet-P上，如果使用224 x224的分辨率（直接比较），则平均翻转率（mFR）为14.2，如果使用299 x299的分辨率，则为12.2。3ImageNet-C和ImageNet-P中鲁棒性的这些显著提高是令人惊讶的，因为我们的方法没有针对鲁棒性进行自由优化。4定性分析为了直观地理解三个鲁棒性基准的显著改进，我们在图3中显示了几个图像，其中标准模型的预测是不正确的，而NoisyStudent模型的预测是正确的。图3a显示了来自ImageNet-A的示例图像和我们的模型的预测。带有NoisyS-tudent的模型可以成功地预测这些高难度图像的正确标签。例如，在没有NoisyStu- dent的情况下，模型预测第二行左侧所示图像的牛蛙，这可能是由水面上的黑荷叶引起的。使用NoisyStudent，模型可以正确预测图像的噪声。在左上角的图像中，没有NoisyStudent的模型忽略了海狮，并错误地将浮标识别为灯塔，而NoisyStudent模型可以识别海狮。图3b显示了来自ImageNet-C的图像和相应的预测。从图中可以看出3对于EfficientNet-L2，我们使用没有微调的模型，具有更大的测试时间分辨率，因为更大的分辨率会导致与数据分辨率的差异，并导致ImageNet-C和ImageNet-P的性能下降。4 请注意，我们的模型和 ResNeXt-101 WSL 都使用了与ImageNet-C中的损坏有小部分重叠的增强，这可能会导致更好的性能。具体而言，RandAugment包括增强亮度、对比度和清晰度。ResNeXt-101 WSL使用亮度和对比度增强。10694海狮灯塔潜水艇雪豹电鳐摆动式蚊帐板机架冰箱赛车车轮蜻蜓牛蛙海星残骸面包机药瓶长橇板架药箱赛车消防车秃鹰篮球停车计时器停车收费表真空大炮电视板架药箱赛车车轮(a) ImageNet-A(b) 图像网络-C(c) ImageNet-P图3：从鲁棒性基准测试ImageNet-A、C和P中选择的图像。来自ImageNet-C的测试图像经历了在ImageNet训练集中找不到的人工转换（也称为常见损坏）。ImageNet-P上的测试图像经历了不同尺度的扰动。在ImageNet-A、C上，带NoisyStudent的EfficientNet生成正确的前1预测（以粗体黑色文本显示），而不带NoisyStudent的EfficientNet生成不正确的前1预测（以红色文本显示）。在ImageNet-P上，没有NoisyStudent的EfficientNet经常翻转预测我们的模型与NoisyStudent作出正确的预测，在严重的腐败和扰动，如雪，运动模糊和雾的图像，而没有NoisyStudent模型在这些条件下受到极大的影响。最有趣的图像显示在第一行的右侧图片中的摆动几乎无法被人类识别，而NoisyStudent模型仍然可以做出正确的预测。10695图3c显示了来自ImageNet-P的图像和相应的预测。可以看出，我们的模型与NoisyStudent作出正确和一致的预测，因为图像经历了不同的扰动，而没有NoisyStudent的模型经常翻转预测。3.4. 对抗鲁棒性结果在测试了我们的模型对常见干扰和扰动的鲁棒性之后我们评估我们的 EfficientNet-L2 模型，有和没有NoisyStudent对FGSM攻击。这种攻击在输入图像[ 2 5 ]上执行一个梯度下降步骤，每个pi x el的更新设置为0。如图4所示，NoisyStudent导致了非常显著的准确性改进，即使模型图4：NoisyStudent提高了对抗FGSM攻击的对抗鲁棒性，尽管模型没有针对对抗鲁棒性进行优化。当λ=2时，精度提高了11%，并且随着λ的增大而提高没有针对对抗性鲁棒性进行优化。在具有10次迭代的更强攻击PGD下 [54]，在 k= 16 时， NoisyStudent将EfficientNet-L210696请注意，这些对抗性鲁棒性结果与之前的工作不可直接比较，因为我们使用了800x800的大输入分辨率，并且对抗性脆弱性可以随输入维度而扩展[22，25，24，73]。4. 消融研究：噪音在自我训练中的重要性在本节中，我们将讨论噪音的重要性。迭代训练的消融和我们方法的其他组成部分可参见附录A.2和A.3。由于我们使用从教师模型生成的软伪标签，因此当学生被训练为与教师模型完全相同时，未标记数据上的交叉熵损失将为零，并且训练信号将消失。因此，一个自然产生的问题是，为什么学生可以比老师更好地使用软伪标签。如前所述，我们假设，噪音的学生是必要的，使它不只是学习教师我们研究了噪声在两个sce- narios中的重要性，这些sce- narios具有不同数量的未标记数据和不同的教师模型精度。在这两种情况下，我们在训练学生模型时逐渐删除未标记图像的增强，随机深度和丢弃，通过这种方式，我们可以将噪声对未标记图像的影响与防止标记图像过拟合的影响隔离开来。此外，我们还比较了使用噪声教师和无噪声教师来研究在生成伪标签时是否有必要禁用噪声型号/未标记的套件尺寸1.3M130M高效网络-B5百分之八十三点三84.0%噪音学生（B5）百分之八十三点九百分之八十四点九学生w/o八月83.6%84.6%学生w/o Aug，SD，辍学83.2%84.3%老师W。8月，SD，脱落83.7%百分之八十四点四表6：噪声的消融研究。我们使用EfficientNet-B5作为教师模型，并研究了两种情况下，不同数量的未标记的图像和不同的扩增。对于1.3M未标记图像的实验，我们使用标准的增强，包括随机平移和翻转的教师和学生。对于130 M未标记图像的Aug和SD分别表示数据增强和我们去除未标记图像的噪声，同时保留标记图像的噪声这里，不使用迭代训练，并且未标记的批量大小被设置为与标记的批量大小相同，以节省训练时间。在这里，我们在表6中显示了证据，随机深度、丢失和数据增强等噪声在其中起着重要作用。在使学生模型比老师表现得更好方面起着重要作用去除噪声功能后，性能持续下降。然而，在具有130M个未标记图像的情况下，当与监督基线相比时，在去除噪声函数的情况下，性能仍然从84.0%提高到84.3%。我们假设这种改善可以归因于SGD，它将随机性引入训练过程。有人可能会说，使用噪声的改进我们验证，当我们使用130M个未标记图像时，情况并非如此，因为该模型不会过度拟合未标记的集合来自训练损失。虽然去除噪声导致标记图像的训练损失要低得多，但去除噪声导致未标记图像的训练损失下降较小。这可能是因为很难过拟合大型未标记数据集。最后，向生成伪标签的教师模型添加噪声会导致准确性降低，这表明拥有强大的无噪声教师模型的重要性。5. 相关作品自我训练。我们的工作是基于对自我训练（例如，[70、94、67]）。自训练首先用标记数据训练出一个好的教师模型，然后用教师模型对未标记数据进行标记，最后用标记数据和未标记数据联合训练出一个学生模型。在典型的教师-学生框架的自我训练中，默认情况下不使用对学生的噪声注入，或者噪声的作用没有被完全理解或证明是合理的。我们的工作和以前的工作之间的主要区别是，我们识别了噪音的重要性，并积极地注入噪音，使学生变得更好。自我训练以前用于将ResNet-50 的top-1 准确率从76.4%提高到81.2%[91]，这仍然远远低于最先进的准确率。Yalniz等人[91]在ImageNet-A，C和P的鲁棒性方面也在方法论方面，他们建议首先只在未标记的图像上训练，然后在标记的图像上微调模型作为最后阶段。在NoisyStudent中，我们将这两个步骤合并为一个，因为它简化了算法，并在我们的实验中获得了更好的性能。数据蒸馏（Data Distillation）[63]将图像的预测与不同的变换结合起来，以加强教师，这与我们削弱学生的方法相反。Parthasarathi等人[61]通过对未标记数据的知识解释，找到用于部署的小而快的由于不使用噪音，学生又小，很难使学生比老师更好。[68]中的域自适应框架是相关的，但对视频进行了高度优化，例如，预测在视频中使用哪个帧在[99]中，10697集合来自多个教师模型的预测，这比我们的方法更昂贵。Co-training [9]将特征分为两个不相交的部分，并使用标记数据用两组特征训练两个模型。它们的“噪声”来源是特征划分，使得两个模型在未标记的数据上并不总是一致。我们向学生模型注入噪声的方法也使教师和学生能够做出不同的预测，并且比分割特征更适合ImageNet自训练/协同训练也被证明可以很好地用于各种其他任务，包括利用噪声数据[85]，语义分割[4]，文本分类[40，77]。回译和自我训练已经导致机器翻译的显著改进[71，20，28，14，88，29]。半监督学习。除了自我训练，半监督学习[12，101]中的另一个重要工作是基于一致性训练[5，64，47，83、56、52、62、13、16、60、2、49、86、89、8、96、46、7]。这些作品将模型预测约束为对于注入到输入、隐藏状态或模型参数的噪声是不变的。虽然它们已经产生了有希望的结果，但在我们的初步实验中，一致性正则化在ImageNet上的效果不太好，因为ImageNet训练早期阶段的一致性正则化会将模型正则化为高熵预测，并阻止它达到良好的准确性。一个常见的解决方法是使用熵最小化或增加一致性损失。然而，由提升时间表和熵最小化引入的额外超参数使它们更难以大规模使用。与一致性训练[56，8，89]相比，自我训练/师生框架更适合ImageNet，因为我们可以使用标记数据在ImageNet上训练一个好老师。基于伪标签的作品[48，39，72，1]类似于自训练，但也存在与一致性训练相同的问题，因为它们依赖于正在训练的模型而不是具有高精度的收敛模型来生成伪标签。最后，半监督学习中的框架还包括基于图的方法[100，87，92，42]，利用潜变量作为目标变量的方法[41，53，93]和基于低密度分离的方法[26，69，19]，这可能会为我们的方法提供补充优势。知识蒸馏。当我们使用软目标时，我们的工作也与知识蒸馏中的方法有关[10，3，33，21，6]。知识提炼的主要用途是通过使学生模型更小来压缩模型。我们的方法和知识之间的主要区别是-创新之处在于知识蒸馏不考虑未标记的数据，也不以改进学生模型为目标鲁棒性一些研究，例如。[81，31，66，27]已经表明视觉模型缺乏鲁棒性。解决鲁棒性不足问题已成为近年来机器学习和计算机视觉领域的一个重要研究我们的研究表明，使用未标记的数据提高了准确性和一般的鲁棒性。我们的发现与使用未标记数据可以提高对抗鲁棒性的论点一致[11，76，57，95]。我们的工作与这些工作之间的主要区别在于，它们直接优化了未标记数据的对抗鲁棒性，而我们表明，NoisyStudent即使没有直接优化鲁棒性，也大大提高了鲁棒性。6. 结论以前的弱监督学习工作需要数十亿的弱标记数据来改进最先进的ImageNet模型。在这项工作中，我们表明可以使用未标记的图像来显着提高最先进的ImageNet模型的准确性和鲁棒性。我们发现，自我训练是一种简单而有效的算法，可以大规模利用未标记的数据。我们通过给学生添加噪音来改进它，因此命名为NoisyStudent，以学习超出教师实验结果表明，使用NoisyStudent和Effi-cientNet可以达到88.4%的准确率，比不使用NoisyStudent时提高了2.9%。该结果也是一种新的最新技术水平，比之前使用数量级更弱标记数据的最佳方法好2.0%[55，84]。我们工作的一个重要贡献是证明NoisyStudent增强了计算机视觉模型的鲁棒性我们的实验表明，我们的模型显着提高ImageNet-A，C和P的性能。确认我们感谢Google Brain团队、戴梓航、Jeff Dean、Hieu Pham 、 Colin Raffel 、 Ilya Sutskever 和 MingxingTan进行了富有洞察力的讨论，感谢Cihang Xie、DanHendrycks和A. Emin Orhan负责稳健性评估，Sergey Ioffe、GuokunLai、Jiquan Ngiam、Jiateng Xie和Adams Wei Yu负责草案反馈，Yanping Huang、Pankaj Kanwar、NaveenKumar、Sameer Kumar和Zak Stone负责TPU的大力帮助，Ekin Dogus Cubuk和Barret Zoph负责RandAugment的帮助，Tom Duerig 、Victor Gomes、Paul Haahr、Pandu Nayak、David Price、Janel Thamkul、ElizabethTrumbull、Jake Walker和Wenlei Zhou在模型发布方面提供帮助，Yanan Bao，Zheyun Feng和Daiyi Peng在JFT 数据集方面提供帮助， Ola Spyra 和 OlgaWichrowska在基础设施方面提供帮助。10698引用[1] Eric Arazo ， Diego Ortego ， Paul Albert ， Noel EO'Connor和Kevin McGuinness。深度半监督学习中的伪标记和确认偏差。arXiv预印本arXiv：1908.02983，2019。8[2] 本·阿西沃拉特昆，马克·芬齐，帕维尔·伊兹梅洛夫，还有安德鲁·戈登·威尔逊.对未标记数据有许多一致的解释：为什么要平均。在2018年国际学习代表会议上。8[3] 吉米·巴和里奇·卡鲁阿纳深网真的需要深吗？神经信息处理系统进展，第2654-2662页，2014年。8[4] Yauhen Babakhin ， Artsiom Sanakoyeu ，和 HirotoshiKita-mura.使用卷积神经网络的集成对地震图像中的盐体进行半监督分割。arXiv预印本arXiv：1904.04445，2019。8[5] Philip Bachman，Ouais Alsharif，and Doina Precup. 学习伪合奏。神经信息处理系统的进展，第3365-3373页，2014年。8[6] Anoop Korattikara Balan ， Vivek Rathod ， Kevin PMurphy和Max Welling。贝叶斯黑暗知识神经信息处理系统的进展，第3438- 3446页，2015年。8[7] David Berthelot 、 Nicholas Carlini 、 Ekin D Cubuk 、Alex Kurakin 、 Kihyuk Sohn 、 Han Zhang 和 ColinRaffel。Remixmatch：具有分布对齐和增强锚定的半监督学习。arXiv预印本arXiv：1911.09785，2019。8[8] Davi

下载后可阅读完整内容，剩余1页未读，立即下载