探索弱监督预训练的局限性及其在大规模预训练和迁移学习中的关系

185 浏览量更新于2023-10-13 收藏 596KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

探索弱监督预训练的局限性Dhruv Mahajan Ross Girshick Vignesh Ramanathan Kaiming He ManoharPaluri Yixuan Li Ashwin Bharambe Laurens van der MaatenFacebook抽象。用于各种任务的最先进的视觉感知模型依赖于有监督的预训练。ImageNet分类实际上是这些模型的预训练任务然而，ImageNet现在已经有将近十年的历史了，并且是由现代化和“小”组成的。因此，关于利用大多个数量级的数据集进行预训练的行为是相对已知的。原因显而易见：这样的数据集难以收集和注释。在本文中，我们提出了一项独特的迁移学习研究，该研究使用经过训练的大型卷积网络来预测数十亿社交媒体图像上的主题标签。我们的实验证明，针对大规模主题标签预测的训练导致了优异的结果。我们展示了几个图像分类和对象检测任务的改进，并报告了迄今为止最高的ImageNet-1 k单裁剪，top-1准确率：85.4%（前5名占97.6%）。我们还进行了广泛的实验，提供了新的经验数据的大规模预训练和迁移学习性能之间的关系1介绍几乎所有最先进的视觉感知算法都依赖于相同的公式：(1)在大的、手动注释的图像分类数据集上预训练卷积网络，以及（2）在较小的、任务特定的数据集上微调网络该公式[1，2，3]已广泛使用多年，并导致许多任务的显著改进示例包括：对象检测[1，4]，语义分割[5，6]，人体姿势估计[7，8]，视频识别[9]，单目深度估计[10]等。事实上，它是如此有效，以至于现在不使用监督预训练被认为是鲁莽的。ImageNet数据集[11]是事实上的预训练数据集。虽然有研究分析了各种ImageNet预训练因素对迁移学习的影响 [12， 13]）或使用与ImageNet大小相同的不同数据集（例如，[14，15]），相对而言，对大几个数量级的数据集的预训练知之甚少（[16，17]是迄今为止最大的研究）。原因有很多：很少存在这样的数据集，构建新的数据集是劳动密集型的，并且需要大量的计算资源来进行实验。然而，考虑到预训练的核心作用，扩大我们在这一领域的科学知识是很重要的。本文试图通过研究一个未开发的数据体系来解决这个复杂的问题：数十亿张在野外用社交媒体标签“标记”的图像这2Mahajan等人数据源的优点是庞大且持续增长，以及“自由”，因为它不是独立的，所以需要非常规的数据处理。然而，数据源也有潜在的缺点：主题标签可能噪声太大而不能用作有效的监督信号，并且图像分布可能以损害迁移学习的方式被偏置。在这些数据上进行训练将产生良好的迁移学习结果并不是先验的。本文的主要结果是，在没有手动数据集管理或复杂的数据清理的情况下，使用数千个不同的主题标签作为标签在数十亿张Instagram图像上训练的模型表现出出色的迁移学习性能。例如，我们观察到图像分类和对象检测的最新技术有所改进，其中我们在ImageNet-1 k图像分类数据集上获得了85.4%的单次裁剪，前1准确率，在COCO对象检测数据集上获得了45.2%的AP [18]，而在ImageNet-1 k上训练（或预训练）相同模型时分别为79.8%和43.7%。然而，我们的主要目标是提供关于这种以前未探索的制度的新的实验数据。为此，我们进行了许多实验，以恢复测试结果。对于示例，我们发现“具有给定值收集用特定主题标签子集标记的图像）是用于改进转移学习结果的有希望的新方向，大规模主题标签数据上的训练对标签噪声具有出乎意料的鲁棒性，并且所学习的特征允许简单的线性分类器在没有任何微调的情况下实现83.6%的最先进的ImageNet-1 k top-1准确度（与微调的84.2%相比）。2扩大监督预训练在我们的实验中，我们训练标准的卷积网络架构来预测多达35亿张公共Instagram图像上的主题标签为了使训练在这个规模的实际，我们采用了一个分布式同步实现随机梯度下降与大（8k图像）minibatches，以下Goyal等人。[19]第10段。我们在各种数据集上进行实验，我们将在下面描述。2.1Instagram数据集我们使用一个简单的数据收集管道：（1）我们选择一组主题标签。（2）我们下载的图片至少带有其中一个标签。(3)然后，由于多个主题标签可能涉及相同的底层概念，因此我们应用一个简单的过程，该过程利用WordNet [20]同义词集将一些主题标签合并为单个规范形式（例如，#brownbear和#ursusarctos合并）。(4)最后，对于每个下载的图像，我们用其规范形式替换每个主题标签规范主题标签用作训练和评估的标签。通过改变所选的主题标签和要采样的图像数量，我们可以构建各种不同大小和视觉分布的数据集表1总结了我们实验中使用的数据集每个数据集都被命名为探索弱监督预训练的局限性3名称模板描述train-IG-I-来自ImageNet-1 k的I图像和1.5k主题标签的1.5k Instagram训练集。train-IG-I-来自WordNet的8.5k Instagram训练集I图像和train-IG-I-来自WordNet的17 k Instagram训练集I图像和17 k主题标签。train-IN-1 M-1 k标准ImageNet-1 k ILSVRC训练集，包含1.28M图像。val-IN-50 k-1 k标准ImageNet-1 k ILSVRC验证集，包含50 k个图像。train-IN-I-L扩展的ImageNet训练集，包含I个图像和L∈{5 k，9 k}个标签。val-IN-I-L扩展的ImageNet验证集，包含I个图像和L∈{5 k，9 k}标签。train-CUB-6 k-200 Caltech-UCSD Birds-200-2011训练套件。val-CUB-6 k-200 Caltech-UCSD Birds-200-2011验证集。train-Places-1.8M-365 Places 365-标准训练集（高分辨率版本）。val-Places-37 k-365 Places 365-标准验证集（高分辨率版本）。列车-COCO-115 k-80标准COCO检测训练集（2017版）。val-COCO-5 k-80标准COCO检测验证套装（2017版）。test-COCO-20 k-80标准COCO检测测试开发套件（2017版）。表1：图像分类数据集的总结。每个数据集用模板role-source-I-L命名，该模板指示其角色（训练、验证、测试）、源、图像数量I和标签数量L。通过完成一个模板role-source-I-L，该模板指示其角色（训练、验证、测试）、源（IG用于Instagram，IN用于ImageNet等），图像数量I和标签数量L。我们使用近似的图像和标签计数来进行编码，以进行采样。“5 k我们省略了角色和图像计数，当它是从上下文清楚或没有用的。我们为Instagram数据设计了三个主题标签集：（1）一个1.5k的集合，其中包含来自标准1，000个IN-1 k同义词集合的主题标签（每个同义词集合包含至少一个同义词，因此主题标签比同义词集合多）。(2)一个17k集合，其中的主题标签是WordNet中任何名词同义词集中的同义词。和（3）一个8.5k的集合，其中包含17k集合中最频繁的主题标签。在将主题标签合并到它们的规范形式中之后测量主题标签集大小。我们假设第一组具有类似于IN-1 k的视觉分布，而另外两个代表更一般的视觉分布，覆盖细粒度的视觉类别。关于如何选择这些主题标签以及合并过程如何工作的详细信息，请参见补充材料。图像重复数据删除。在执行迁移学习时，理解并正确处理训练集和测试集之间的重叠重叠可能存在，因为图像可能来自相同的底层源（例如，Wikipedia，Flickr，Google）.例如，val-CUB-6 k-200集合[21]中约5%的图像也出现在train-IN-1 M-1 k和1中。val-IN-50 k-1 k集中78%的图像在JFT-300 M训练集中[17]。为了解决这个问题，我们执行了以下重复数据删除程序：我们使用ResNet-50模型计算所有候选图像的R-MAC特征[22，23]，并使用这些特征为我们的测试集中的每个图像找到k= 21个最近邻（更多细节请参见补充材料）。随后，我们手动检查所有图像及其最近的邻居以识别重复。虽然很难知道我们的重复检测系统的真实召回率，但这4Mahajan等人程序未检出150个val-IN-50 k-1 k（0.30%），10个val-CUB-6 k-200（0.17%），151 val-Places-37k-365（0. 41%）和6个val-C 0 C 0 - 5 k-80（0. 12%）重复;我们会继续改善这个制度，因此，估计重复的数目可能会增加。在我们的结果中，我们报告了我们的模型的观测精度;在补充材料中，我们通过将所有重复标记为不正确来报告准确性的保守下限。鉴于重复的百分比很小，它们不会影响我们的发现。讨论我们的数据集有两个很好的属性：公众可见性和简单性。通过使用可公开访问的图像，我们实验中使用的数据对每个人都是可见的要查看它的外观，可以通过 www.example.com上的主题标签https://www.instagram.com/explore/tags/浏览图像，然后再加上特定的主题标签;例如https：//www. Instagram. com/explore/tags/brownbear显示带有#brownbear标签的图像。我们的数据也是从“野生”，基本上是这样，以最小的努力来消毒它。这使得数据集构建过程特别简单和透明。我们将这些属性与JFT-300 M数据集[17]进行了对比，JFT-300 M数据集不是公开可见的，并且是专有收集过程的结果（“[JFT-300 M]图像使用一种算法进行标记，该算法使用原始网络信号，网页之间的有关收集JFT-300 M的更多细节尚未公开披露。尽管我们努力使数据集内容和收集过程透明化，但我们承认，与JFT-300 M类似，其他研究小组不可能确切知道我们使用了哪些图像，也不可能大量下载它们。因此，其他人不可能在这个时候复制我们的结果。然而，我们认为，如果我们进行这项研究并与社区分享结果，比不公布结果更好。2.2ImageNet数据集除了标准的IN-1 k数据集，我们还对更大的子集进行了实验完整的ImageNet 2011版本，包含1420万张图像和22k个标签。我们构建了包含5k和9k标签的训练集和验证集。对于5 k集合，我们使用[15]中提出的现在标准的IN-5 k（6.6M训练图像）。对于9 k标签集，我们遵循用于构建IN-5 k的相同协议，其涉及获取下一个最频繁的4k标签和所有相关图像（10.5M训练图像）。在所有情况下，我们每个类使用50个图像进行验证。2.3模型我们使用具有分组卷积层的残差网络，称为ResNeXt [15]。我们的实验使用ResNeXt-10132×C d，它有101层，32组，组宽度C为：4（8B乘加FLOP，43 M参数），8（16 B，88 M），16（36 B，193 M），32（87 B，466 M）和48（153 B，829 M）。我们的实施者-匹配[19]。我们相信我们的结果将推广到其他架构[24，25，26]。探索弱监督预训练的局限性5损失函数与ImageNet相比，我们的Instagram数据集可能包含每个图像的多个标签（因为用户指定了多个主题标签）。每个图像的主题标签的平均数量根据数据集而变化;例如，train-IG-1B-17 k每个图像包含<2个主题标签我们的模型使用softmax激活来计算词汇表中所有主题标签的概率，并经过训练以最小化预测的softmax分布和每个图像的目标分布之间的交叉熵。目标是具有k个非零条目的向量，每个条目被设置为1/k，对应于图像的k≥1个主题标签我们还试验了每个标签的sigmoid输出和二进制逻辑损失，但结果明显更差。虽然考虑到多标签数据，这些发现与[16]中的相似观察结果相匹配。sigmoid激活和逻辑损失的成功应用可能需要复杂的标签完成技术[17]和更多的超参数搜索。2.4预培训详情我们的模型通过同步随机梯度下降（SGD）在42台机器上的336个GPU上进行训练，其中包含8，064张图像的小批量每个GPU一次处理24个图像，并在这24个图像集上计算批归一化（BN）[27]训练时间表的长度，以处理的图像的数量（即，minibatch大小×总SGD更新）由启发式算法确定：我们选择两个训练极端（例如，1. 2e6图像和3上的2个时期。5e9个图像），并在它们之间线性地内插时间表，以设置每个实验处理的图像的数量。每个实验的时间表在补充材料中。我们的ResNeXt-101 32× 16 d网络花了大约22天的时间在350万张图像上进行训练。为了设置学习率，我们遵循[19]中描述的逐步预热的线性缩放规则。我们使用从0.1到0的预热。1/ 256× 8064，其中0.1和256是规范学习率和小批量大小[28]。在预热之后在ImageNet和Instagram数据上训练时使用相同的设置，除了在ImageNet上训练时，由于数据集大小较小，我们在16台机器上使用128个GPU（小批量大小为3，072），并且我们使用标准的学习率计划，其中包括三个等距减少因子0.1。所有其他初始化和培训细节与[19]匹配，并在补充材料中进行了总结。3实验在我们的实验中，我们对卷积网络进行了预训练，以进行标签预测，并将这些网络转移到各种任务中。有两个既定的协议用于判断预训练模型的质量（参见[29]§3的讨论）。两者都分析了如何在源任务上进行预训练，例如IN-1 k分类导致目标任务的增益（或损失），例如鸟类识别或物体检测。6Mahajan等人全网络微调将预训练视为复杂的权重初始化：预训练的成功通过在以任务特定的方式进一步训练网络权重（即，微调）。相比之下，特征转移使用预训练的网络作为特征提取器：它通过其特征对其他任务的有效性来判断网络的质量，而无需更新任何网络参数。这些协议是一个频谱的两个极端，沿着这个频谱，被微调的预训练权重的比例从全部到没有变化我们在实验中采用了这两种方案;有时一个比另一个更合适。通过从网络中移除特定于主题标签的全连接分类层并将其替换为随机初始化的然后使用具有动量的SGD来训练这个修改后的网络。我们为每个目标任务选择一个合适的验证集，通过网格搜索来选择微调学习率和调度。为此，我们随机保留一小部分训练集（参见补充材料）。这种做法确保了我们在标准验证集上的结果是干净的。通过使用SGD在目标任务的训练数据上训练L2正则化线性逻辑回归器来执行特征转移。由预训练网络产生的特征被用作分类器的输入。我们训练分类器，直到收敛到全局最优。3.1图像分类实验我们通过测量三个分类目标任务的分类精度来评估Instagram预训练：ImageNet [30]，CUB2011 [21]和Places365 [14]。我们对224×224中心裁剪图像进行推理，并研究了（1）主题标签词汇量，（2）训练集大小，（3）主题标签目标中的噪声量，以及（4）主题标签采样策略的影响。3.1.1 Instagram标签集如何影响准确性？我们的第一个实验改变了预训练中使用的Instagram主题标签集（1.5k，8.5k，vs. 17K），同时保持其他因素不变。我们在五个目标数据集上计算迁移学习结果作为前1分类精度： val-IN-1 k ， val-IN-5 k ， val-IN-9 k ， val-CUB-200 ， val-Places-365。对于基线模型，我们使用ImageNet分类作为源任务：我们在train-IN-1 k、train-IN-5 k和train-IN-9 k上训练网络，并在相应的验证集上评估它们（在这些情况下不需要微调）。对于val-CUB-200和val-Places-365，我们使用train-IN-1k作为基线源任务，并对train-CUB-200和train-Places-365进行微调。ResNeXt-10132× 16 d的全网络微调用于源和目标不相同的所有源-目标对。图1显示，主题标签预测的预训练大大提高了目标任务的准确性：在标准IN-1 k基准测试集上，在具有1.5k主题标签的近1B Instagram图像上预训练的网络实现了84.2%的最新准确性-比相同的模型架构提高了4.6%探索弱监督预训练的局限性784.283.483.679.6源任务ImageNet（target =source）Instagram（940M，1.5k tags）Instagram（1B，8.5ktags）Instagram（1B，17k55.255.655.856.053.548.448.248.546.0分类准确度（%）目标任务：ImageNet目标任务：CUB&地点90 9080 8070 7060 6050 5040 40301,0005,0009,00030CUB2011Places365目标任务中的类数（ImageNet）目标任务图1：在IG-1B上预训练的ResNeXt-101 32× 16 d的分类准确性，在IN-{1 k，5k，9 k}（左）和CUB 2011，Places 365（右）上具有不同的主题标签词汇表（紫色条）。基线模型（灰色条）在IN-{1 k，5 k，9 k}（左）上训练和IN-1k（右）。使用全网络微调越高越好。仅在IN-1 k上进行训练，比使用优化网络架构的现有技术提高了1.5%[31]Instagram预训练带来的性能提升在ImageNet任务之间有所不同：在1 k类任务中，使用IN-1 k对齐的1.5k主题标签集预训练的模型优于使用更大主题标签集训练的源网络随着目标ImageNet类数量的增加，这种趋势会发生逆转：在9k ImageNet目标类上，使用17k主题标签预训练的模型远远优于1.5k主题标签模型。在CUB2011和Places365目标任务中，使用最大的主题标签集训练的源模型表现最好，可能是因为17k主题标签跨越了更多的对象，场景和细粒度类别。这些模式是直观的，并且表明源标签集和目标标签集之间的对齐是一个重要因素。我们还在图1中显示了使用具有17k主题标签（深紫色条）的更大的3.5B图像集的结果，该图像集在所有目标任务中表现最好。此外，在[32]之后，我们在val-IN-1 k上测量了该模型的校正分类精度。我们将所有不正确的分类呈现给五位人类注释者，询问预测是否正确：如果至少有四个注释器访问该请求，则该模块的优先级将被忽略。而IN-1 M-1 k模型获得了87. 5%，我们的IG-3.5B-17 k预训练模型达到了90。4%。3.1.2 预训练图像集大小如何影响准确性？本实验研究了In-stagram预训练中使用的图像数量与目标任务分类准确率之间的关系对于这些实验，当转移到目标任务时，我们保持预训练的网络权重固定，并且仅为目标任务训练线性分类器我们做出这个选择是因为当预训练图像的数量相对于目标任务图像的数量较小时（例如，1M与7M），预训练的效果是87.987.588.189.284.0源任务ImageNet（1.3M，1klabels）Instagram（940M，1.5k tags）Instagram（1B，8.5k tags）Instagram（1B，17k tags）Instagram56.256.957.357.558.0ImageNet top-1准确率（%）8Mahajan等人ImageNet top-1准确率（%）目标任务：ImageNet-1 k90目标任务：ImageNet-5 k608555805075704565605550107源任务/ ResNext-101容量Instagram（1.5k标签）/32 x4 d40Instagram（1.5k tags）/32x8dInstagram（1.5k tags）/32x16dInstagram（17 k标签）/32 x4 d35Instagram（17 k标签）/32 x8 dInstagram（17 k标签）/32 x16 d30108 109107108109源任务中的训练图像数（Instagram）源任务中的训练图像数（Instagram）目标任务：ImageNet-9 k50目标任务：CUB20119045804070356030502520107108109源任务中的训练图像数量（Instagram）40107108109源任务中的训练图像数量（Instagram）图2：IN-{1 k，5 k，9 k}和CUB 2011目标任务的分类准确度，作为用于预训练的Instagram图像数量的函数，用于三种网络架构（颜色）和两个主题标签词汇表（虚线/实线）。只有线性分类器是在目标任务上训练的。越高越好。被大量的微调数据所掩盖（在源任务具有多个数量级的图像的先前实验中不是这种情况图2显示了ImageNet验证集（y轴）上的分类准确度，作为Instagram训练图像数量（x轴;注意对数标度）的函数，范围从350万到350万张图像。该图显示了预训练的模型的结果，这些模型预测具有三种不同容量（由不同颜色表示）的ResNeXt-101模型的1.5k主题标签（虚线）或17 k主题标签（实线）。1四个面板对应于ImageNet目标任务三个不同数量的类（1k，5k，9k）和CUB2011。与先前的结果[16，17]一致，我们观察到接近对数线性的行为：每次我们将训练数据量乘以因子x时，我们观察到分类精度中的固定增加y而行为的尺度是一致的11.5k主题标签集可用的最大图像数量为940M。ImageNet top-1准确率（%）ImageNet top-1准确率（%）准确度（%）探索弱监督预训练的局限性9在跨主题标签词汇大小和模型的情况下，准确度增加y对于更高容量的网络更大：在所有图中，ResNeXt-101 32× 16 d网络（紫色）对应的线比32×8d和32×4d模型对应的线更陡。这一结果表明，当在数十亿张训练图像上训练卷积网络时，当前的网络架构容易出现欠拟合。我们还观察到对数线性标度分解在两个方案中：(1)因为精度是有界的，所以不可能无限对数线性缩放。在IN-1 k和CUB2011等数据集上，天花板效应必然会产生子对数线性缩放。(2)我们观察到从1B到3.5B的图像制度中的对数线性缩放的偏差，即使在IN-{5 k，9 k}上没有明显的天花板效应。这些图还说明了主题标签词汇对转移任务准确性的有趣影响。在IN-1 k上，在目标任务对齐的1.5k主题标签上预训练的网络优于使用更大的主题标签词汇库训练的网络，因为选择了1.5k主题标签来匹配ImageNet同义词集。然而，随着主题标签词汇和目标类别之间的匹配消失以及转移任务中视觉多样性的增加，预先训练以识别大量主题标签的网络越来越优于在较少主题标签上预先训练的网络：在IN-9 k转移任务中，在1.5k和17 k主题标签上训练的网络之间的准确性差异为7%。在补充材料中，我们更详细地分析了弱监督预训练对识别单个IN-1 k类的影响val-IN-1 k的最高准确率为83.3%（来源：IG-940 M-1 k）和83.6%（来源：IG-3.5B-17 k），均使用ResNeXt-101 32× 16 d。这些结果是通过在固定特征上训练线性分类器获得的，但几乎与全网络微调一样好，证明了从主题标签预测中学习的特征表示的有效性。这些结果也具有低方差：我们对1B图像的两个不同随机样本的ResNeXt-101 32× 16 d架构进行了预训练，然后在IN-{1 k，5 k，9 k}上训练线性分类器，发现在所有情况下，top-1准确度的差异小于0.1%为了测试上述观察结果是否推广到细粒度分类，我们在CUB2011数据集上重复了实验，并在图2右下角显示了曲线显示，当训练数据有限时，1.5k主题标签数据集更好，但一旦训练图像的数量超过100M，则更大的17k主题标签数据集占上风，可能是因为它代表了更多样化的视觉分布，具有更细粒度的概念。3.1.3 标签噪声对模型精度有什么影响？主题标签监督与ImageNet等数据集中提供的标签之间的主要区别在于，主题标签监督本质上是嘈杂的：用户可能会应用与图像的视觉内容无关的主题标签，或者他们可能会遗漏视觉相关的主题标签[33，34，35]。由于这种标签噪声的准确表征是困难的，相反，我们研究了注入额外的标签噪声对我们的网络的准确性的影响为此，我们在IG-1B-17 k的一个版本上对ResNeXt-10132× 16 d网络进行了预训练，在该版本中，我们用从主题标签的边缘分布中采样的主题标签（不包括要替换的标签）随机替换了p%的主题标签10Mahajan等人82.181.5 80.276.1源任务无标签噪音标签噪音：10%标签噪声：25%标签噪声：50%52.651.7 50.346.1四十二点七四十一点九 40.636.6ImageNet top-1准确率（%）9090808070706060505040403030201,0005,0009,000201,0005,0009,000目标任务中的类数（ImageNet）目标任务中的类数（ImageNet）图3：ResNeXt-101 32× 16 d的分类准确度，在IG-1B-17 k上预训练，在val-IN-{1 k，5 k，9 k}上，在三个注入的标签噪声水平下。无标签噪声基线在原始主题标签上训练。只有线性分类器是在目标任务上训练的。图4：ResNeXt-101 32×4d的分类准确度，在IG-1B-17 k上预训练，在val-IN-{1 k，5 k，9 k}上针对三种不同的主题标签采样策略：自然抽样、均匀抽样和平方根抽样。只有线性分类器是在目标任务上训练的图3显示了在人工标签噪声的三个水平p下不同数量的类以及在预训练期间没有添加人工标签噪声的基线的ImageNet分类准确度。我们只在目标任务上训练最终的线性分类器，因为完全微调可能会掩盖预训练噪声造成的损害。结果表明，网络对标签噪声具有显著的弹性：p = 10%的噪声水平导致分类准确度损失小于1%，并且在p= 25%的标签噪声时，准确度降低约2%。这些结果表明，如果在数十亿张图像上训练网络，标签噪声可能是一个有限的问题3.1.4预训练数据的采样如何影响准确性？主题标签和ImageNet监督之间的另一个区别是，与语言建模一样，主题标签由Zipfian分布管理语言建模中的先前研究发现，重新采样Zipfian分布减少了单词分布的头部对整体训练损失的影响[36]。受这项工作的启发，我们进行了实验，在Instagram预训练中评估了三种不同类型的数据采样：（1）自然采样，其中我们根据它们在Instagram上出现的分布对图像和主题标签进行采样;（2）平方根采样[36]，其中我们取主题标签分布的头部的平方根，重新归一化，并根据结果进行采样。分布（由于实际考虑，我们的实现略有不同;参见补充材料）;以及（3）均匀采样，其中我们随机均匀地对主题标签进行采样，然后随机均匀地对具有与之相关联的主题标签的图像进行采样[16]。（除了这个实验，我们总是使用平方根采样对Instagram数据进行预训练和前面一样，我们只在目标任务上训练最终的线性分类器78.2七十六点七72.9类抽样自然平方根均匀四十八点九四十八点五43.639.0三十八点八分33.3ImageNet top-1准确率（%）探索弱监督预训练的局限性11图4显示了使用三种采样策略在IG-1B-17 k上预训练的网络的分类准确度与Im- ageNet类数量的函数关系。结果表明，为了获得到ImageNet图像分类任务的良好传输，对hashtag分布的重采样很重要：使用均匀或平方根采样导致精度提高5%到6%，而不管传输任务中ImageNet类的数量如何。与先前的结果一致，该图还显示，随着目标类的数量增加，更大的主题标签词汇表导致准确性提高3.1.5对于数十亿张图像，迁移学习模型的容量是否受限？现在，我们来看看当我们训练卷积网络时会发生什么，这些卷积网络比最近的研究（以及我们迄今为止的实验）中通常使用的卷积网络要大得多。特别是，我们使用IG-940 M-1.5k预训练 ResNeXt-101 32× 32 d 和ResNeXt-101 32× 48 d，它们的加法器浮点数分别是ResNeXt-101 32× 16 d的2.4倍和4.3倍。在32×16 d模型上，使用这些更新的模型将val-IN-1 k结果从top-1的84.2%分别提高到85.1%和85.4%（top-5的准确度：从97.2%提高8886848280782332 342 352 362 37模型容量（多加运算次数）图5：使用ResNeXt-101 32 ×{4，8 16，32，48} d，在IG-940 M-1.5k数据集上进行预训练和未进行预训练的情况下，val-IN-1 k的分类准确性。97.6%）。相比之下，当在IN-1 k上从头开始训练时，使用32× 16 d模型时，top-1准确率饱和在79.6%左右，并且使用更大的模型不会有意义地增加。图5中绘制的这些结果表明，通过大规模的Instagram标签训练，迁移学习性能受到模型容量的影响。3.2对象检测我们已经研究了需要图像分类的目标任务，但我们也有兴趣观察Instagram主题标签数据的预训练是否可以通过在COCO数据集上微调网络来改善对象检测和实例分割任务。我们使用Mask R-CNN [4，37]并使用三种不同容量的ResNeXt- 101 FPN [38]主链进行实验（见图6）。我们使用几种不同的预训练网络比较了2017年测试开发集的性能作为基线，我们使用IN-{1 k，5 k}预训练（IN-9 k的性能并不比IN-5 k好），并将其与IG-940 M-1 k和IG-1B-17 k进行比较。对于最大的模型（32× 16 d），我们还包括IG-3.5B-17 k的结果我们使用标准设置[37]进行端到端Mask R-CNN训练，但有一个例外：对于Instagram预训练模型，我们发现有必要在验证集上执行网格搜索以获得微调学习率。我们发现模型预先训练源任务ImageNet（target =source）Instagram（940M，1.5k tags）32x32d32x48d32x8d32x16d32X4d3232X4dx8d32x16d32x32d32x48dImageNet top-1准确率（%）12Mahajan等人源任务IN-1 k（1.3M，1 k标签）IG（1B，17 k标签）IN-5 k（6.6M，5 k标签）IG（3.5B，17 k标签）IG（940 M，1.5k标签）45.045.244.844.243.743.742.742.942.3 42.041.640.939.239.639.739.3 39.438.638.638.037.837.5 37.237.036.3COCO测试-开发掩码AP@50（%）COCO测试开发盒AP@50（单位：%）目标任务：COCO检测（箱AP）55目标任务：COCO检测（包装箱AP@50）70506545604055355030452532x4d32x8d32x16d4032x4d32x8d32x16dResNeXt-101容量（在Mask R-CNN中）ResNeXt-101容量（在Mask R-CNN中）目标任务：COCO检测（掩模AP）55目标任务：COCO检测（面罩AP@50）7050 6545 6040 5535 5030 452532x4d32x8d32x16d4032x4d32x8d32x16dResNeXt-101容量（在Mask R-CNN中）ResNeXt-101容量（在Mask R-CNN中）图6：转移到使用MaskR-CNN的对象检测和实例分割。我们使用各种源预训练任务比较三种不同能力的ResNeXt-101 FPN骨干越高越好。在Instagram数据上使用ImageNet模型需要微调学习率，比ImageNet预训练模型低4-10倍这一发现表明，为ImageNet预训练模型开发的微调配方不会转移到新的预训练集：更大量的预训练数据意味着需要更低的微调学习速率。图6显示了两个有趣的趋势。首先，我们观察到，当使用大量预训练数据时，检测是模型容量限制的：对于最低容量模型（32×4d），来自较大数据集的增益很小甚至为负，但随着模型容量的增加，较大的预训练数据集产生一致的改进。我们需要更大的模型来利用大规模的预训练数据。我们观察到的第二个趋势来自于比较COCO的default AP算法（在一个版本的前者强调精确定位，而后者强调精确定位。68.367.267.967.267.166.565.565.664.464.864.963.863.264.3六十四点四63.7六十三点七63.062.762.361.761.561.061.160.359.6COCO测试开发盒AP（单位：%）COCO测试开发掩码AP（%）探索弱监督预训练的局限性13稍后允许更宽松的定位。我们观察到超过IN的改进-IG-1B-1 k的{1 k，5 k}预训练在AP@50方面要大得多。因此，Instagram预训练的收益可能主要是由于改进的对象分类性能，而不是空间定位性能。进一步的证据来自使用Mask R-CNN进行关键点检测的实验，我们发现与IN-1 k预训练相比，IG-1B-1 k预训练导致更差的结果（65.3% vs.67.0%关键点AP）。这两个发现表明，Instagram标签分类的预训练可能会降低空间定位性能，同时提高分类。4相关工作我们的研究是在大型弱监督图像数据集上训练卷积网络的更大规模工作的一部分。Sun等人[17]在包含3亿张弱监督图像的JFT-300 M数据集上训练卷积网络。我们的Instagram数据集比JFT-300 M大一个数量级，收集它们所需的手动注释工作要少得多（参见第2节）。①的人。由于更大的训练集大小和更好的网络架构的使用，我们在传输任务上获得了实质上更高的准确性：例如，我们在ImageNet-1 k上获得了85.4%的top-1准确率，而在ImageNet-1 k上获得了79。[17]中报告了2%。其他先前的研究[16，39]训练卷积网络来预测1亿张Flickr照片和相应评论的评论中的单词或n元语法[40]。单词或n-gram监督比hashtag监督弱，因为它结构化程度较低，如[16]中报告的ImageNet的特征转移较差所反映的那样。其他工作[33，35]也训练网络来预测Flickr数据集上的标签，但与我们的研究不同，没有研究将所得网络转移到其他任务。除了Flickr标签之外[41]在与食物相关的Instagram标签上训练专家模型的硬混合物;我们的重点是标准识别网络和一般的标签。其他关于主题标签预测的研究[42]并不是从头开始训练卷积网络其他几项工作已经在网络规模的图像数据上训练了用于其他目的的模型，例如人脸识别[43，44]和相似性搜索[45，46]，但据我们所知，我们是第一个报告涉及从数十亿张图像上从头开始训练卷积网络的实验结果5讨论我们试图探索监督预训练的局限性除了在ImageNet-1 k基准任务（85.4%单次裁剪，前1名准确率; 97.6%单次裁剪，前5名准确率）和其他几个视觉任务上产生最先进的结果外，我们的研究还得出了四个重要的观察结果：1. 我们的研究结果表明，虽然增加预训练数据集的大小可能是值得的，但选择标签空间可能至少同样重要14Mahajan等人使源任务与目标任务匹配。我们发现，在设计用于匹配ImageNet-1k数据集中的类的标签词汇上训练的网络，在没有仔细选择标签的情况下，比在两倍多的图像上训练的网络表现更好（图2，左上）。这种观察为“标签空间工程”方法的设计铺平了道路这种标签空间工

下载后可阅读完整内容，剩余1页未读，立即下载