弱监督预训练模型的视觉感知能力

167 浏览量更新于2023-10-25 收藏 634KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

804再论视觉感知模型的弱监督预训练Mannat Singh Laura Gustafson Aaron Adcock Vinicius de Freitas Reis BugraGedikRajPrateekKaju DhruvMahajan RossGirshick PiotrDolla'r LaurensvanderMaatenMeta AIhttps://github.com/facebookresearch/SWAG摘要模型预训练是现代视觉识别系统的基石。虽然像ImageNet这样的数据集上的完全监督预训练仍然是事实上的标准，但最近的研究表明，大规模弱监督预训练可以优于完全监督方法。本文使用现代版本的残差网络和有史以来最大的图像和相应的主题标签数据集，重新审视了使用主题标签监督的模型的弱监督预训练。我们研究了结果模型在各种迁移学习设置中的性能，我们还将我们的模型与通过大规模自监督学习获得的模型进行了比较。We find our weakly-supervisedmodels to be very competitive across all settings, and findtheysubstantiallyoutperformtheirself-supervisedcounterparts.我们还调查了我们的模型是否学到了潜在的破坏性联想或刻板印象。总的来说，我们的研究结果为在视觉识别系统的开发中使用弱监督学习提供了一个令人信服的论据我们的模型，通过hashtAGs弱监督（SWAG），是公开的。1. 介绍大多数现代视觉识别系统都基于预先训练的机器学习模型，与系统旨在解决的下游任务不同的任务。这样的预训练允许系统利用比可用于下游任务的数据集大得多的（注释的）图像或视频数据集。可以说，最流行的预训练任务是在ImageNet和JFT等数据集上进行监督图像分类[20，42，76]，但最近的研究也探索了自监督[11 - 14，27，29，31，51 ]和弱监督[ 11监督[37，38，44，49，57]预训练任务在这三种类型的预训练之间存在权衡。完全监督的预训练受益于每个训练示例的强语义学习信号，但由于手动标记训练数据非常耗时，因此无法很好地扩展。相比之下，自监督预训练几乎没有接收到关于训练示例的任何语义信息，但可以相对容易地扩展到数十亿个训练示例[27，31]。弱监督方法介于两者之间：例如，与视觉数据相关的主题标签或其他文本通常提供嘈杂的语义学习信号，但可以相对容易地大规模获得[49，57]。继先前工作的成功[49]之后，本文使用hashtag监督对弱监督预训练进行了深入研究。我们在有史以来最大的图像和相关标签数据集上预训练现代图像识别模型，并在一系列迁移学习实验中评估所得模型。具体来说，我们将我们的模型转移到各种图像分类任务，并评估所产生的模型的性能。我们还评估了零次转移和少量转移设置中的模型[57]：也就是说，我们评估了这些模型的我们研究的总体目标是阐明完全监督，自我监督和弱监督预训练之间的权衡。在整个实验中，我们发现弱监督方法非常有竞争力：我们的最佳模型在一系列视觉感知任务上的表现与现有技术相当，尽管采用了相对简单的训练管道。弱监督预训练的一个潜在缺点是，模型可能会继承或放大来自底层监督信号的有害关联。我们进行了一系列的实验，旨在评估这种情况发生的程度。我们的研究结果并没有提供结论性的答案，但它们确实表明所涉及的风险可能没有语言建模那么大[6，9]。总的来说，我们相信我们的研究为视觉识别系统的弱监督预训练提供了令人信服的论据8052. 相关工作这项研究是关于视觉识别预训练模型的大量工作的一部分这项工作可分为三个主要组。完全监督的预训练是由[19，59]开创的，现在是各种视觉识别任务的事实上的标准方法，包括细粒度图像分类[30，62]，对象检测[61]，图像分割[62]。ImageNet-1 K数据集[63]是迄今为止最常用的预训练图像数据集，而Kinetics数据集[39]通常用于视频识别模型的预训练。最近的一些研究也使用了更大的JFT-300M [20]和JFT-3B [76]图像数据集，但公众对这些数据集知之甚少。监督预训练的有效性一直是许多研究的主题，特别是[1，42，60]分析了监督预训练模型的传输性能。自我监督的预训练在最近几年取得了巨大的进步。虽然早期的自监督学习器，如RotNet [26]或DeepCluster[10]在视觉预训练方面远远落后于其监督同行，但最近的方法已经变得相当有竞争力。这些方法学习预测聚类[11]，使用对比学习[13，31，51]，或使用学生-教师架构，其中教师是学生的指数移动平均值[12，14，29]。自我监督预训练的一个关键优势是可以轻松扩展到数十亿张训练图像：几项研究表明，缩放自监督学习可以导致实质性的性能改进[27，31]。弱监督预训练没有像其他两种预训练范式那样受到关注，但仍然表现出非常有前途的性能。虽然早期的研究通过预测图像标题中的单词[38]或n-gram [44]来预训练模型，但由于其训练数据的规模有限，因此竞争力不是很强，但最近的弱监督预训练方法在一系列视觉识别任务中更具竞争力[5，25，37，49，56，57]。特别是，ALIGN [37]和CLIP [57]在大量图像和相关字幕上预训练视觉和语言模型，并成功地执行零镜头转移到新的识别任务。我们的研究建立在[49]的基础上，[49]在数十亿张图像上训练卷积网络来预测相关的主题标签。与[49]相比，我们的研究：（1）在更大的数据集上使用更有效的卷积和Transformer架构训练更大的模型，（2）除了标准的迁移学习实验之外，还研究了零次迁移设置中所得模型的性能，（3）将我们的模型与最先进的自监督学习器进行比较，（4）对潜在的有害协会，模型可能会采取从薄弱的监督，他们收到。尽管我们的方法在概念上相似，但我们最好的模型实现了ImageNet-1 K验证准确率，比[49]中报告的高出3%3. 使用主题标签监督进行我们的弱监督预训练方法基于hashtag监督。我们训练图像识别模型来预测发布图像的人分配给图像的标签。主题标签预测作为预训练任务具有很大的潜力，因为主题标签被分配给图像以使它们可搜索，即，它们倾向于描述图像的一些显著的语义方面。虽然主题标签预测在概念上类似于图像分类，但它在几个关键方面有所不同[16，49，68]：1. 标签监督本质上是嘈杂的。虽然一些主题标签描述图像中的视觉内容（例如，、#cat），其他主题标签可以与视觉内容无关（例如，，#repost）。不同的主题标签可以用于描述相同的视觉内容，或者相同的主题标签可以用于描述不同的视觉内容。重要的是，主题标签通常不提供图像的视觉内容的全面注释，即，往往存在许多假阴性。2. Hashtag的使用遵循Zipfian分布[50];参见图1。这意味着学习信号遵循与ImageNet [63]等图像识别数据集中常见的分布非常不同的分布，这些数据集往往具有或多或少均匀的类分布。3. 主题标签监督本质上是多标签的：单个图像通常具有与之相关联的多个主题标签，这些标签都用作积极的分类目标。我们的数据预处理和模型预训练程序旨在（部分）解决这些问题。我们将在3.1节和3.2节中分别对它们进行更详细的描述。3.1. 主题标签数据集集合我们遵循[49]构建了一个公共Instagram照片和相关标签的数据集。我们采用以下四个步骤来构建预训练数据集：1. 通过选择经常使用的主题标签并将其规范化来构建主题标签词汇表2. 收集用至少一个所选主题标签标记的公开可用图像。3. 将生成的图像和相关的主题标签组合成可用于预训练的标记示例4. 重新采样得到的示例以获得所需的主题标签分布。接下来，我们将详细描述这些步骤中的每一个。标签词汇。我们选择美国用户在Instagram公开帖子中使用过不止一次的标签。接下来，我们过滤8060×·×|C|≈1 .一、0100. 870的情况。6100的情况。41030的情况。21010的情况。0的情况。01十万两百。200300000 40000. 04主题标签对帕蒂蒂广告尾他10. 六万五一万五080 20000 250001. 0Canonical主题标签我们注意到，这意味着在单个训练时期中，每个唯一的尾部图像出现多次。这意味着在一个时期中的唯一图像的数量和在该时期中处理的总样本的数量我们通过数据集中唯一图像的数量来标记数据集：我们的IG-3.6B数据集拥有236亿张独特的图像。然而，由于我们的重新采样过程，该数据集上的单个训练时期处理了150亿个样本这与我们所使用的其他数据集不同（例如，，JFT-300 M），其中图像的唯一数量等于在一个时期中处理的总样本。图1. Instagram图片的标签分发。左图：美国用户发布的公开图片中出现的所有标签的频率右图：来自所有国家的用户在公共图像中出现的过滤和规范化的标签的频率。我们-将头部细化为与超过5，000个图像相关联的规范主题标签的集合;剩余的主题标签形成尾部。使用WordNet同义词集将hashtags规范化[22]。有关此过程的更多详细信息，请参见附录A。这导致标签集C，其包含对应于一组1075k原始主题标签的1027k规范主题标签，其中多个主题标签可以映射到单个规范主题。标签（例如，、#dog和#canine）。当从上下文中可以明显看出“canonical”修饰符时，我们将其删除。由于数据集中的确切图像可能会随时间而变化，因此在实验中，规范主题标签的数量在27k和28k之间变化。主题标签选择和规范化减少了监控信号中的一些固有噪声。图像采集和标记。我们收集所有公开的In-stagram图像，至少有一个标签从我们的vocabulary。这些图像经过一系列自动过滤器处理，旨在去除潜在的攻击性内容。虽然肯定不是完美的，但这大大减少了困扰其他大型图像数据集的问题[8，55]。我们使用这些图像构建多标签数据集，将所有主题标签转换为相应的规范目标（请注意，单个图像可能具有多个主题标签）。词汇表中没有的标签将被丢弃。重采样。我们采用一种类似于到[49]来生成我们最终的预训练示例。重采样过程旨在在预训练任务中降低频繁我们通过根据主题标签频率的平方根倒数进行重采样来实现这一点。与[49]不同的是，我们额外地对具有至少一个不常见的hashtag的图像的长尾进行了上采样（使用替换）。在这里，我们将不频繁的主题标签定义为少于5000张图片的标签（见图1）。所得重采样数据集包括30%尾部图像和70%头部图像（更多详情见附录A1我们从所有国家下载图像，但排除了来自特定国家的用户的图像，以遵守适用的法规。3.2. 培训前程序在初步实验中（附录C.1），我们研究了图像识别模型，包括 ResNeXt [74] ， Reg- NetY [58] ， DenseNet[35]，EfficientNet [65]和ViT [20]。我们发现RegNetY和ViT模型最具竞争力，并专注于本文所述实验中的模型。在预训练期间，我们为模型配备了超过27k个类的输出线性分类器对于ViT，我们使用输出维度等于输入维度的附加线性层，类似于[20]。在[49]之后，我们使用softmax激活并训练模型，以最小化预测概率和目标分布之间的交叉熵。每个目标条目是1/K或0，这取决于对应的主题标签是否存在，其中K是该图像的主题标签的数量。我们所有的RegNetY模型都使用Nesterov动量为0的随机梯度下降（SGD）进行训练。9 .第九条。我们采用了半余弦学习率计划[48]，其中对于批量大小为256的基本初始值为0.1，最终值为0。我们使用了10 −5的权重衰减，但在批量归一化层中禁用了权重衰减：初步实验表明，批量归一化权重衰减在ImageNet-1 k上进行预训练时是有效的，但在IG- 3等较大数据集上会显着降低结果。第6B.我们的ViT模型使用AdamW [47]进行训练，β1= 0。9和β2= 0。九十五我们使用的初始学习率为410−4，批量大小为8，192，权重衰减为0。1.一、在[28]之后，我们在进行分布式训练时，将初始学习率与批量大小线性地缩放我们与[28]类似，我们发现批量大于8，192时性能会下降，因此我们没有进一步增加批量。我们使用混合精度训练来训练我们的模型，这些图像使用标准的随机调整大小裁剪然后随机水平翻转预处理为224 224在初步实验中，我们还评估了其他几种在ImageNet-1 k预训练中提供增益的训练方法[18，65]，包括指数移动平均[54]，mixup [77]，标签平滑[52]，数量的图像5807≤≤××××[15]和随机深度[36]。然而，我们没有发现这些方法导致性能改进;有些甚至恶化了性能。我们使用16个节点上的128个Nvidia V100 32 GBGPU训练了IG-3.6B数据集的2个时期（100亿个样本）的最大模型节点通过以太网连接，其中8个GPU/节点通过NVLink连接。4. 实验我们进行了一系列实验来测试我们基于主题标签的预训练策略的有效性。我们将迁移学习实验中的弱监督模型与现代监督模型（第4.2节）和自监督模型（第4.3节）以及零次迁移中的其他弱监督模型（第4.4节）进行了比较。4.1. 实验装置在我们的实验中，我们专注于不同类型的trans-fer学习到图像分类任务。具体来说，我们研究：（1）使用线性分类器的迁移学习，（2）使用微调的迁移学习，（3）零次迁移学习，（4）少次迁移学习。我们比较了我们的预训练策略与完全监督（4.2）和自我监督（4.3）预训练策略的有效性。数据集。我们进行实验，我们trans-在ImageNet-1 k（1.28M训练图像，50，000个验证图像，1，000个类）和ImageNet-5 k（6.57 M训练图像，250，000验证图像，5，000类），如[49，74]中所定义。我们还进行了实验，其中我们将预训练的模型转移到其他常用的图像分类基准，包括iNaturalist 2018 [67] ， Places 365-Standard [79] 和Caltech-UCSD Birds-200-2011（CUB-2011）[69]数据集。微调我们遵循[41]对下游任务的预训练模型进行微调。我们使用SGD微调模型，批量大小为512，半余弦学习率时间表[48]。通过网格搜索分别为每个模型-任务组合调整初始值。我们在微调时没有使用权重衰减。我们微调RegNetY和ViT B/16模型使用384 384的图像分辨率，ViT L/16和H/14模型分别使用更大的512512和518 518分辨率-更高的分辨率对这些模型有很大的帮助。对于Ef- ficientNets，我们使用预训练分辨率进行微调。对于“大”传输数据集（定义为具有N >500，000个示例的数据集），我们微调20，000个参数更新;对于<“中等”数据集（20，000 N 500，000个示例），我们微调10，000步; 2对于“小”数据集（N 20，000个示例），我们微调500步。我们使用mixup [77]，其中α= 0。1在所有数据集上进行微调期间。我们使用跨GPU的同步批量归一化，因为它可以提高传输性能（见附录）。对于ImageNet-1 k微调，我们还计算了训练过程中参数的指数移动平均值（EMA），衰减率为10−4，并使用平均权重进行推理[54]。我们发现这将我们最好的RegNetY和ViT模型的前1精度提高了0。百分之二。最后，我们在ImageNet-1 k上对ViT进行了28次微调，因为更长的时间表有助于提高性能。在评估期间，我们将图像的较小侧调整为最终分辨率，然后采取相同大小的中心裁剪（例如，将较小的边调整为224，然后调整为224，224中心裁剪）。这与标准实践[66]不同，但在ImageNet-1 k数据集上提高了0.1%至0.5%4.2. 与监督预训练的我们在迁移学习实验中将我们的弱监督RegNetY和ViT模型与最先进的监督EfficientNets [72，73]和ViTs[20，76]进行了五个数据集：（1）ImageNet-1k，（2）ImageNet-5k，（ 3 ） iNaturalist ，（ 4 ） Places365 ，和（ 5 ） CUB-2011。我们在传输数据集的训练分割上微调所有模型（见4.1），并在验证或测试分割上测量微调模型的分类准确性。表1给出了这些实验结果的概述。对于每个模型，该表显示了所使用的预训练数据集、预训练和微调期间使用的图像分辨率、模型的推理吞吐量、微调模型中的FLOP和参数的数量以及传输数据集的测试精度我们不报告当其预训练模型和预训练数据集不可公开时的方法的结果。在表中，我们采用的准确性从原始文件是资本化。对于ImageNet-1 k数据集，我们报告了原始论文中报告的结果和我们在复制模型时获得的结果对于每个数据集，我们用粗体显示最佳结果，并在次佳结果下下划线。表1将模型分为监督和弱监督。在这个分组中，我们认为JFT数据集上的预训练是监督式预训练，但我们承认对这些数据集是如何收集的知之甚少：[76]将JFT-3B数据集称为“弱标记”和“噪声”，但也指出使用半自动注释来收集它。这表明JFT数据集是手动管理和注释的，这就是为什么我们认为它们是监督的。2表1中的结果表明，我们的弱监督模型非常有竞争力：它们在所有五个传输数据集上实现最佳或次佳精度。我们注意到，在IN-1 k数据集上预训练的模型在预训练期间观察到5%的CUB测试数据[49]，因此其性能被高估。这使得我们的弱监督模型的强大性能（这些模型虽然我们的系统级评估妨碍了精确的比较，但我们的结果表明，弱监督IG-3.6B数据集提供的监督信号与监督JFT-300 M数据集相同。808×模型培训前解决方案IN-1 k精度分类精度吞吐量FLOPs参数Pre. 好吧次报告. Reprod.IN-5kiNat。地点CUB（图像/秒）（B）（M）有监督的预培训†[73]第七十三话公司简介47580088.488.3––––108479.9480.3[73]第七十三话公司简介475–88.288.061.886.559.491.2§293172.6480.3[73]第七十三话公司简介600–86.986.756.782.059.290.6§65238.466.3[73]第七十三话公司简介528–86.486.355.479.958.889.1§84919.543.0[72]第七十二话IN-1k672–85.585.254.881.358.689.3§48063.787.4[72]第七十二话IN-1k600–85.285.054.480.658.788.9§65238.466.3[72]第七十二话IN-1k528–84.884.753.679.158.588.5§84919.543.0[76]第76话JFT 3B22451890.5––––562826.11846.3[76]第76话JFT 3B22438488.5––––567191.5304.7[20]第二十话JFT 300M22451888.6––––1161018.8633.5[20]第二十话JFT 300M22451287.8––––255362.9305.2[20]第二十话IN-21k22438485.285.2–81.759.091.3§567191.5304.7[20]第二十话IN-21k22438484.084.2–79.858.290.8§1,16155.686.9[20]第二十话IN-21k22438481.381.5–74.657.788.7§1,43954.4306.6弱监督预训练ViT H/14IG 3.6B22451888.660.986.060.791.71161018.8633.5ViT L/16IG 3.6B22451288.159.084.260.791.6255362.9305.2ViT B/16IG 3.6B22438485.354.579.959.189.81,16155.686.9RegNetY 128GFIG 3.6B22438488.260.985.760.190.8307375.2644.8RegNetY 32GFIG 3.6B22438486.858.582.959.689.597695.1145.0RegNetY 16GFIG 3.6B22438486.057.281.459.288.31,40147.083.6表1.在指定的预训练数据集上预训练的模型的迁移学习准确性，然后在五个迁移数据集上进行微调和测试。采用原始文件的准确性用斜体表示。每个数据集上的最佳结果用黑体表示;次佳结果用下划线表示。我们的弱监督预训练模型在所有五个传输数据集上实现了最佳或次佳性能†不清楚为注释JFT数据集执行了多少手动策展。将训练前的训练数据作为有监督的预训练数据;JFT 300 M不带标签使用。§模型在IN-1 k训练集上进行了预训练，该训练集与CUB-2011测试集重叠。在训练期间看不到测试数据）特别值得注意。为了更深入地了解分类准确性和吞吐量的权衡，我们在图2中将一个绘制为另一个的函数。比较在相同IG- 3上训练的ViT和RegNetY模型。6B数据集，我们观察到视觉变换器获得最高的分类精度。在准确性-吞吐量权衡方面，RegNetY在中小型型号上表现出色。RegNetY 128GF模型在准确性和吞吐量方面与半监督EfficientNet L2模型非常相似，但在较小的规模上，RegNetY提供了更好的折衷。4.3. 与自我监督预训练的比较到目前为止，我们的实验表明，将弱监督预训练扩展到数十亿张图像的能力可以抵消每个训练示例获得的较低数量的学习信号。这就提出了一个问题，我们是否需要弱监督，或者现代自我监督学习者[10自监督学习比弱监督学习更容易扩展，先前的工作已经证明了自监督预训练的潜力[27，31]。我们在ImageNet-1 k上进行了迁移学习实验，将我们的弱监督学习器与Sim-1 k v2 [13]，SEER [27]和BEiT [3]进行了比较。与SEER的比较特别有趣：因为它是在类似的Instagram图像集合上训练的，我们可以很容易地[27]和我们的研究中使用的数据分布可能不完全相同。在相同的数据分布上比较两种学习范式。我们在两个迁移学习设置中进行实验：（1）将线性分类器附加在预训练模型之上并对生成的完整模型进行微调的设置，以及（2）在微调完整模型之前，使用第4.4节中描述的零触发传递方法（无Platt缩放）对该线性分类器进行微调的设置。根据之前的工作[13，27]，我们将用于微调的标记 ImageNet 示例的数量改变为原始ImageNet-1 k训练集的1%，10%和100%。We reportresults using images of size 224 224pixels.我们的实验结果见表2。SimCLRv 2、SEER和BEiT的结果来自[3、13、27];实验设置可能存在微小差异。我们的研究结果表明，弱监督学习大大优于当前的自我监督学习者，特别是在低拍摄传输设置，可能是因为我们的弱监督学习者收到更多的学习信号，每个样本。此外，我们的研究结果表明，弱监督学习者受益于低拍摄传输设置中的零拍摄初始化。我们注意到，如果自我监督学习器进一步扩展，我们的观察结果可能会改变。4.4. 零镜头转移弱监督模型的另一个潜在优势是，它们在预训练期间观察到各种各样的训练目标这可以帮助他们认识到新的同样，我们使用3.1节中描述的数据恢复方法。8091 .一、088岁588岁087岁587岁086岁。50的情况。886岁。0八十五5620的情况。66058560的情况。4六十岁。50的情况。2六十岁。0五十九5五十九0地点3658685848382818091. 591. 0九十5九十089岁。589岁。088岁5CUB 2011表2. ImageNet-1 k数据集上模型的迁移准确性是用于迁移学习的ImageNet-1 k训练样本百分比的函数。迁移学习使用标准微调或零触发（ZS）迁移初始化后进行微调来执行。每个设置中的最佳结果用黑体表示;次佳结果用下划线表示。强调了从原始论文中采用的Accu- racies。我们的弱监督预训练模型优于用现代自监督学习器预训练的模型†在微调期间，SimCLRv2访问率为100%ImageNet训练图像的k %，但标签的k%，而SEER和我们的方法访问了k%的训练数据。（这是统一的）。 Platt定标器由权向量w∈RC和偏置向量b∈RC，其中C是0的情况。00的情况。0三百六百。29001200406300600吞吐量（图像/秒）0的情况。980012001 .一、0类的数量。给定一个概率向量p∈C图2.迁移学习准确性作为预训练模型的吞吐量的函数，这些模型在五个数据集上进行了微调（完整结果请参见表1ViTs和EfficientNets实现了最高的顶线精度，但RegNetY模型在高吞吐量领域表现更好快速的视觉概念。我们测试了我们的模型的能力，学习和识别新的视觉概念迅速在零拍摄迁移学习设置。4在此设置中，我们直接使用预训练模型的输出层，无需任何微调。我们可以做到这一点，因为我们训练了来自WordNet的27 k主题标签[22]，允许我们为数据集定义主题标签和类标签之间的映射，例如ImageNet-1k，也构建在WordNet上。我们使用相同图像分辨率作为预训练，即，224×224像素。普拉特缩放。在我们的零触发迁移实验中，我们考虑了一种转换学习设置[24]，其中所有测试示例在测试时同时可用这使我们能够在测试数据上训练Platt scaler[53]，该测试数据可以校正主题标签（Zipfian）分布和目标任务中类分布的4一些先前的工作将这种学习设置称为零触发学习[37，57]。我们发现这个术语令人困惑，因为它不同于经典的零射击学习[43]。因此，我们采用零发射传输这个术语。RN152w3 + SKSimCLRv2† [13]IN-1kFinetune74.980.183.1RegNetY 128GFSEER [27]IG 1BFinetune57.576.783.8RegNetY 256GFSEER [27]IG 1BFinetune60.577.984.2ViT L/16BEiT [3]IN-1kFinetune––85.2准确度（%）ImageNet 1k模型自我监督的公关方法电子培训预训练转移精度百分之一百分之十百分百ViTRegNetYEfficientNet弱监督预训练RegNetY 128GF我们IG 3.6B- 初始化+英尺82.0 八十四点五87.8RegNetY 32GF我们IG 3.6B- 初始化+英尺79.4 82.086.5RegNetY 16GF我们IG 3.6B- 初始化+英尺77.6 八十点八85.7RegNetY 128GF我们IG 3.6BFinetune79.2 八十四点一87.9810对于C-单纯形，Platt定标器计算新的输出p′=softmax（ diag（w）p+b）。Platt scaler被训练为最小化p′的测试分布和C类上的均匀分布之间的交叉熵损失。请注意，这并不使用测试标签;它只鼓励预测在类上是一致的。从标签映射到ImageNet类。因为ImageNet和IG- 3中的目标。6B数据集是英语名词，我们可以在Instagram主题标签和ImageNet类之间构建多对多映射。为此，我们首先将hashtag和ImageNet类映射到WordNet同义词集，然后根据它们在WordNet中的相似性将hashtag映射到ImageNet类[22]。我们使用由此产生的主题标签和类之间的多对多映射我们用三种不同的聚合方法进行实验，并使用我们发现对每个模型最有效的方法;详见附录。结果我们的零转移结果如表3所示。该表显示了我们的模型在使用和不使用Platt缩放的四个类似ImageNet的测试集上的前1分类准确率我们将我们的模型的性能与CLIP [57]和ALIGN [37]进行了比较。这些实验是系统级的比较，其中许多因素是不同的：例如，CLIP接受了以下方面的培训811××−−一个包含4亿张图像和字幕的数据集，看起来比我们的更有条理，它在更高的分辨率下进行了微调，并且它通过提示引擎[9]执行零拍摄传输，这是已知的，可以提高识别精度[57]。 ALIGN使用不同的图像识别模型（即，，EfficientNet），并在10亿对网络图像和相应的替代文本上进行了训练[37]。表3展示了我们在四个类似ImageNet的数据集上进行零拍摄传输的结果。结果表明，我们的弱监督模型表现非常出色：在没有看到ImageNet图像的情况下，我们最好的模型达到了ImageNet top-1的75准确率。百分之三。结果还表明，Platt缩放对于使用我们的模型获得良好的零触发传输性能至关重要，因为它校正了主题标签和ImageNet类分布的差异。最后，我们发现，我们的ViT模型下，underperform我们的RegNetY模型在零拍传输设置。这并不奇怪，因为 ViTs 也在ImageNet-1 k上以224 224像素的图像分辨率进行了RegNetY微调。比较我们的模型与CLIP [57]，我们观察到，CLIP ViT L/14模型在向IN-1 k数据集的零发射传输方面略优于我们的模型;而较小的RN 50 64 CLIP模型表现不佳。在某些数据集上，ALIGN [37]模型的表现甚至略好。然而，结果并不完全一致：我们的模型确实在ImageNet-v2数据集上获得了最佳性能[60]。由于这些实验执行的是系统级比较，因此很难清楚地说明是什么导致了这些性能差异。尽管如此，我们的结果提供了进一步的证据，即弱监督方法，如我们的CLIP和ALIGN，为开发开放世界视觉识别模型提供了一条有前途的道路[33]。5. 更广泛的影响在未经策划的网络数据上对模型进行弱监督训练的一个潜在缺点是，它们可能会学习到反映攻击性刻板印象的有害关联[6，9]。此外，这些模型对于不同的用户群体可能效果不一样;例如，它们在非英语国家的效果不好[17]，因为我们使用英语标签作为训练模型的基础。我们进行了一系列实验，以更好地理解：（1）我们的主题标签预测模型与具有不同特征的人的照片之间的关联，以及（2）这些模型在非英语国家拍摄的照片上的表现如何。我们在这里总结了这些实验的结果，并参考附录了解更多细节。分析标签预测中的关联。我们进行了实验，分析了我们的Reg- NetY128 GF主题标签预测模型对包含具有不同明显肤色、明显年龄、明显性别和明显种族的人的照片的关联。前...模型Platt分类准确度IN-1kReaL-ININ-v2 物镜净[45]第四十五话夹RN50× 64 [57][37]第37话：我的世界RegNetY128GFRegNetY32GF RegNetY16GF RegNetY128GFRegNetY32GF RegNetY16GF ViT H/14ViTL/16ViTB/16ViT不适用35.2不适用73.676.4是是是否65.1 69.7 60.2 54.2否62.2 67.5 57.3 59.1否60.7 66.3 55.6 54.8是是是否62.8 67.3 57.7 52.4否62.1 66.6 56.3 51.1否58.4 63.6 52.3 48.9表3.基于WordNet类的四个数据集上的模型的零触发传输精度：（1）ImageNet-1 k数据集，（2）ReaL ImageNet [7]数据集，（3）ImageNet v2 [60]数据集，以及(4)ObjectNet [4]数据集。每个数据集上的最佳结果用黑体表示;次佳结果用下划线表示。引用原文的精确度用斜体表示。当使用Platt缩放，我们的弱监督RegNetY模型开箱即用。达到75。在ImageNet-1 k上实现了3%的零触发传输准确性，并优于CLIP [57]和ALIGN [37]在ImageNet v2 [60]数据集上。使用以下各项进行实验：（1）专有数据集，包含178，448张使用Fitzpatrick肤色量表注释的Instagram照片[23]和（2）UTK Faces数据集，提供明显的年龄，明显的性别和明显的种族标签[78]。我们发现，该模型已经学会了标签和肤色之间的几种联系;详见附录。例如，#红发更常被预测为浅色肤色的人的照片，而#黑色更常被预测为深色肤色的人。同样，一些标签预测与照片中人的明显年龄相关;详见附件。例如，我们的模型更常见地预测包含110岁的人的照片的#baby或#kid，并且更常见地预测80 - 90岁年龄组的#elder。在分析我们的性别刻板印象模型时，我们发现我们的模型相比之下，我们的模型更频繁地将包含女性的照片与#化妆和#比基尼联系起来;详见附录。我们观察到的最令人不安的关联来自对包含不同明显种族的人的照片的模型预测的分析特别是，我们的一些实验表明，我们的模型可能会更频繁地将包含黑人的照片与#mugshot和#prison相关联;见附录。然而，目前还不清楚这些观察结果是否是由于我们的模型制作812对评估数据集中的照片的不正确或有偏差的预测，或者它们是否是由于评估数据集包含有问题的有偏差的图像分布。特别是，更详细的分析揭示了评估数据集（而不是我们的模型）中存在令人不安的偏见：我们发现UTK Faces数据集[78]包含大量的面部照片，这些照片不成比例地描绘了黑人个体。总的来说，我们的研究结果表明，虽然我们的标签预测模型似乎比语言模型更少令人不安的预测[6，9]，但在我们的模型的标签预测可用于现实世界的场景之前，需要仔细分析和调整。受这一观察结果的激励，我们没有发布我们模型的最终主题标签预测层作为本研究的一部分分析标签预测的公平性。我们还分析了我们的标签预测模型在世界各地拍摄的照片上的效果。我们在Dollar Street数据集上重复了[17]的分析，并对包含数百万已知来源国图像的专有数据集进行了分析。类似于[17]，我们观察到我们的模型在不同国家的美元街照片上的准确性差异很大。我们对更大和更仔细收集的专有数据集的分析证实了这一结果，但表明效应量比[17]中报告的要小得多具体地说，我们发现，每个国家的准确度范围是在一个相对较窄的范围内的10.5%，即，我们的模型在数据集中的所有15个国家的每个国家的识别准确率在65%到70%总的来说，我们的研究结果表明，需要做更多的工作来训练在世界各地表现相同的模型。在未来的工作中，我们计划训练多语言标签模型[64]，因为这可能会导致模型在不同国家实现相同的识别准确度。6. 讨论在本文中，我们对图像识别的全监督、自监督和弱监督预训练进行了深入研究。结合相关工作[25，37，49，56，57]，我们的结果为在视觉感知系统的开发然而，我们的研究也揭示了这一研究的局限性。特别是，我们发现越来越难以进行系统的，对照实验比较不同的方法和技术。这有多种原因，包括使用通过不透明流程收集的专有数据5、使用的模型架构的多样性、训练配方的复杂性、5我们承认，虽然我们在实验中使用的数据是公开的，但其他人很难收集这些数据。然而，与其他研究不同的是，我们确实努力全面地描述我们的数据收集过程，因为我们的目标是最大限度地提高读者从我们的研究中学到的东西所使用的硬件和软件平台的异构性，所需的大量计算资源，以及并非所有研究都发布预训练模型的事实。总之，这创造了一种环境，在这种环境中，研究人员无法进行控制研究，测试一个变量的影响，保持所有其他变量固定。相反，他们只能进行系统级比较，就像我们在这项研究中所做的那样。这种比较提供了关于各种方法潜力的信号，但它们并不产生结论性的结果。这个问题由于我们测量的信号很小而加剧，因为常用评估数据集上的识别精度似乎饱和。为了创建一个专注于视觉系统大规模学习的蓬勃发展的研究社区，我们必须解决这些问题

下载后可阅读完整内容，剩余1页未读，立即下载