NoisyStudent: 自我训练提升ImageNet分类精度与鲁棒性

0 下载量 61 浏览量 更新于2024-06-20 收藏 1.11MB PDF 举报
本文主要探讨了一种利用自我训练方法改进ImageNet分类的策略,特别是在提升模型的鲁棒性方面。作者团队提出了一种名为NoisyStudent的创新方法,该方法首先在ImageNet标记数据上训练一个EfficientNet模型,作为教师模型。教师模型在3亿未标记的图像上生成伪标签,这些图像来自Instagram等来源,且大多数与ImageNet训练集分布不符。 伪标签生成阶段,教师模型保持清洁,尽可能地提供准确的信息,而学生模型则在学习过程中引入噪声,如通过RandAugment技术进行辍学、随机深度调整和数据增强。这样做的目的是让学生模型能够更好地泛化,从而在面对多样化的图像数据时表现出更强的鲁棒性。实验结果显示,这种方法显著提高了模型的性能:将ImageNet上的top-1准确率提升到了88.4%,在鲁棒性测试集上,ImageNet-Atop-1准确率从61.0%提升至83.7%,ImageNet-C的平均损坏错误从45.7下降到28.3,ImageNet-P的平均翻转率也从27.8降低到12.2。 这种自我训练策略对于解决深度学习对大量标记数据依赖的问题具有重要意义,展示了如何利用未标记图像来提升现有模型的性能,并且在提升准确性的同时,显著增强了模型在现实世界中的鲁棒性。研究者们在GitHub上提供了模型和代码,以便其他研究人员可以进一步探索和应用这种自我训练技术。