大规模预训练与迁移学习：弱监督的潜力与局限

195 浏览量更新于2024-06-20 收藏 596KB PDF 举报

"本文主要探讨了弱监督预训练在大规模预训练和迁移学习中的应用及其局限性，重点关注了使用社交媒体图像上的主题标签进行预训练的效果。Facebook的研究团队进行了实验，利用大型卷积网络预测大量社交媒体图像的主题，以此来增强模型的视觉感知能力。他们展示这种预训练方法可以提高图像分类和对象检测任务的性能，达到了ImageNet-1k单裁剪85.4%的top-1准确率和97.6%的前5名准确率。此外，文章还进行了广泛实验，深入研究了大规模预训练与迁移学习性能之间的关系，强调了在当前预训练策略的重要性以及扩大这一领域知识的必要性。尽管ImageNet是目前最常用的预训练数据集，但关于更大规模数据集预训练的效果研究相对较少，主要是由于数据收集和标注的困难以及计算资源的限制。" 在当前的计算机视觉领域，预训练已经成为提升模型性能的关键步骤，尤其是使用有监督的预训练，如在ImageNet数据集上的训练。ImageNet是一个包含数百万张图片及对应类别标签的大型数据集，被广泛用于训练卷积神经网络。然而，随着技术的发展和数据量的增加，人们开始探索使用更大规模的数据集进行预训练的可能性，以期进一步提升模型的泛化能力和适应性。 Facebook的研究团队在这个方向上迈出了重要的一步，他们利用社交媒体图像上的主题标签进行弱监督预训练，这些标签虽不如人工精细标注，但在数量上具有压倒性优势。通过这种方式，他们能够在未经精细化注解的海量数据上训练模型，有效地挖掘出模型的潜在能力。实验结果表明，这种方法不仅提高了模型在标准图像分类和对象检测任务上的性能，而且创下了新的ImageNet-1k准确率记录。同时，研究还揭示了大规模预训练与迁移学习之间的关联。尽管预训练通常被视为提升下游任务性能的有效手段，但关于其背后的机制和最佳实践仍然存在许多未知。作者通过一系列实验提供了新的经验数据，加深了我们对这两个领域之间关系的理解，这对于优化预训练策略和设计更高效的学习算法具有重要意义。这篇论文强调了继续探索大规模无监督或弱监督预训练的必要性，以及这种预训练方式对于推动计算机视觉领域的边界和发展的重要作用。尽管存在数据获取和处理的挑战，但研究者们正在努力克服这些障碍，以实现更高效、更强大的模型。未来的工作可能会集中在如何优化预训练策略，以及如何在没有大量人工标注数据的情况下，更好地利用大规模无标签数据来训练视觉模型。

Mahajan等人

程序未检出150个val-IN-50 k-1 k（0.30%），10个val-CUB-6 k-200（0.17%），

151 val-Places-37k-365（0. 41%）和6个val-C 0 C 0 - 5 k-80（0. 12%）重复;

我们会继续改善这个制度，因此，估计重复的数目可能会增加。在我们

的结果中，我们报告了我们的模型的观测精度;在补充材料中，我们通过

将所有重复标记为不正确来报告准确性的保守下限。鉴于重复的百分比

很小，它们不会影响我们的发现。

讨论我们的数据集有两个很好的属性：公众可见性和简单性。通

过使用可公开访问的图像，我们实验中使用的数据对每个人都是

可见的要查看它的外观，可以通过 www.example.com上的主题标签

https://www.instagram.com/explore/tags/浏览图像，然后再加上特定的

主题标签;例如https：//www

Instagram

com/explore/tags/brownbear显

示

带有#brownbear标签的图像。我们的数据也是从

“野生”，基本上是

这样，以最小的努力来消毒它。这使得数据集构建过程特别简单和透

明。

我们将这些属性与JFT-300 M数据集[17]进行了对比，JFT-300 M数

据集不是公开可见的，并且是专有收集过程的结果（“[JFT-300 M]图

像使用一种算法进行标记，该算法使用原始网络信号，网页之间的有

关收集JFT-300 M的更多细节尚未公开披露。尽管我们努力使数据集

内容和收集过程透明化，但我们承认，与JFT-300 M类似，其他研究

小组不可能确切知道我们使用了哪些图像，也不可能大量下载它们。

因此，其他人不可能在这个时候复制我们的结果。

然而，我们认为，如果我们进行这项研究并与社区分享结果，比不公

布结果更好。

2.2

ImageNet数据集

除了标准的IN-1 k数据集，我们还对更大的子集进行了实验完整的

ImageNet 2011版本，包含1420万张图像和22k个标签。我们构建了包

含5k和9k标签的训练集和验证集。对于5 k集合，我们使用[15]中提出

的现在标准的IN-5 k（6.6M训练图像）。对于9 k标签集，我们遵循用

于构建IN-5 k的相同协议，其涉及获取下一个最频繁的4k标签和所有

相关图像（10.5M训练图像）。在所有情况下，我们每个类使用50个

图像进行验证。

2.3

模型

我们使用具有分组卷积层的残差网络，称为ResNeXt [15]。我们的实

验使用ResNeXt-10132×

d，它有101层，32组，组宽度

为：4（8B乘

加FLOP，43 M参数），8（16 B，88 M），16（36 B，193 M），32

（87 B，466 M）和48（153 B，829 M）。我们的实施者-

匹配[19]。我们相信我们的结果将推广到其他架构[24，25，26]。

剩余15页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

大规模预训练与迁移学习：弱监督的潜力与局限

CNN-弱监督-迁移学习-exploring_the_limits_of_weakly_supervised_pretraini

ImageNet模型架构与迁移学习性能：深度关联与局限性

深度学习与迁移学习：如何利用预训练模型

使用预训练模型进行迁移学习的方法

迁移学习：从预训练模型到新任务

YOLO算法训练中的迁移学习：利用预训练模型，提升性能，节省时间

Keras迁移学习：利用预训练模型解决新任务

迁移学习在机器翻译中的效果与局限性

解读迁移学习：使用预训练模型进行图像分类任务

YOLO目标检测迁移学习技术：利用预训练模型，加速模型训练

最新资源