自监督视觉表示学习的20字中文标题：自监督视觉学习：扩展到大量数据的能力和评估基准

44 浏览量更新于2023-10-13 收藏 755KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

6391自监督视觉表示学习的Priya Goyal Dhruv Mahajan Abhinav GuptaIshan MisraFacebook AI Research摘要自我监督学习的目的是在没有明确的人工监督的情况下从数据本身学习表示。现有的努力忽略了自我监督学习的一个关键方面-扩展到大量数据的能力-因为自我监督不需要手动标签。在这项工作中，我们重新审视了这一原则，并将两种流行的自我监督方法扩展到1亿张图像。我们表明，通过在各个轴上进行缩放（包括数据大小和问题对这些方法进行缩放还提供了对当前自我监督技术和评估的局限性的许多有趣的见解。我们的结论是，目前的自我监督的方法是不够我们还介绍了一个跨9个不同数据集和任务的扩展基准。我们认为，这样的基准以及可比较的评估设置对于取得有意义的进展是必要的。代码位于：https://github.com/facebookresearch/fair_self_supervision_benchmark。1. 介绍计算机视觉已经通过高容量卷积神经网络（ConvNets）[39]和大规模标记数据（例如，ImageNet[10]）。最近[42，64]，在数亿张图像和数千个标签上进行的弱监督训练在各种基准测试中取得了最先进的结果。有趣的是，即使在这种规模下，性能也只会随着标记数据量的增加而呈对数线性增长.因此，可悲的是，在过去五年中对计算机视觉起作用的东西现在已经成为瓶颈：监督数据的大小、质量和可用性。克服这一瓶颈的一种替代方案是使用自监督学习范式。在判别式自监督学习中，这是本文的主要关注点*同等贡献工作时，模型在辅助或“借口”任务上进行训练，其中地面实况是免费的。在大多数情况下，借口任务涉及预测数据的一些隐藏部分（例如，预测灰度图像的颜色[11，37，74]）。每年，随着新任务的引入自我监督学习优于监督学习的希望是如此强烈，以至于一个重新设计的人甚至打赌gelato [1]。然而，即使在多年后，这一希望仍然没有实现。为什么会这样？在试图想出聪明的借口任务时，我们忘记了自我监督学习的一个关键原则：可扩展性。由于不需要手动标记，因此可以轻松地将训练从一百万扩展到数十亿张图像。然而，目前还不清楚当我们将自监督学习的规模扩大到超过Ima-geNet规模到1亿张或更多的图像时会发生什么我们还能看到性能的改善吗？我们是否学到了一些关于自我监督的深刻见解？我们是否超越了ImageNet的监督性能？在本文中，我们探讨了可扩展性，这是自我监督学习的核心原则。具体来说，我们沿着三个轴缩放两种流行的自监督方法（Jigsaw[48]和Colorization[74]）：1. 缩放预训练数据：我们首先将两种方法扩展到100倍以上的数据（YFCC-100 M [65]）。我们观察到像AlexNet [35]这样的低容量模型并没有显示出更多的数据带来的改善。这激发了我们的第二个扩展轴。2. 扩展模型容量：我们扩展到更高容量的模型，特别是ResNet-50 [28]，随着数据大小的增加，它显示出更大的改进。虽然最近的方法[14，33，72]使用了ResNet等模型50或101，我们探索模型容量和数据大小之间的关系，我们认为这对未来的自我监督学习至关重要。3. 扩展问题复杂性：最后，我们观察到，为了充分利用大规模数据和更高容量的模型，我们需要“更难”的借口任务。具体来说，我们衡量了观察到，较高能力的模型在“较难”的任务上表现出较大的改进6392任务数据集描述图像分类§6.1学生寮205场景分类。205节课。（线性分类器）VOC07COCO2014对象分类。20节课。对象分类。八十节课。低拍图像分类第6.2VOC07每类≤96件（线性分类器）学生寮205每类≤128个视觉导航§6.3（固定ConvNet）吉布森强化学习导航对象检测§6.4VOC0720节课。（冻结卷积体）VOC07+1220节课。场景几何体（3D）§6.5（冷冻转化体）NYUv2曲面法线估计。表1：第6节中用于基准测试的9个传输数据集和任务。另一个有趣的问题是：如何量化视觉表现我们观察到，由于缺乏一个标准化的评估方法，在自我监督学习，它已成为难以比较不同的方法和衡量的进步，在该地区。为了解决这个问题，我们提出了一个广泛的基准套件，使用一致的方法来评估表示。我们的基准基于以下原则：良好的表示（1）转移到许多不同的任务，以及（2）以有限的监督和有限的微调进行转移。我们仔细选择了9个不同的任务（表1），从语义分类/检测到3D和动作（具体来说，导航）。我们的研究结果表明，通过沿三个轴进行缩放，自监督学习可以在表面法线估计和导航的非语义任务上使用相同的评估设置来超越ImageNet监督预训练。对于语义分类任务，尽管缩放有助于优于以前的结果，但在评估固定特征表示（没有完全微调）时，与监督预训练的差距仍然很大。令人惊讶的是，无论是否进行全面微调，自监督方法在对象检测任务上都具有相当的竞争力。例如，在VOC 07检测任务中，没有任何花哨的东西，我们的性能与监督的Ima-geNet预训练模型相匹配。2. 相关工作无监督视觉表征学习是一个古老而活跃的研究领域。它有两种常见的建模方法：生成性和歧视性。生成方法试图直接对数据分布进行建模。这可以建模为最大化重建输入[43，51，67]的概率，并可选地估计潜在变量[29，58]或使用对抗训练[15，44]。我们的工作重点是区分学习。一种形式的判别式学习将聚类与手工制作的特征相结合，以学习视觉表示，例如图像补丁[13，62]，对象发现[57，63]。我们专注于直接从视觉输入中学习表征的一个大的por-这些方法被归类为术语标记生成可以是结构域不可知的[6，8，52，72]或利用结构域的结构特性，例如，图像的空间结构[12]。我们探索了这些方法大致可以分为两类--使用多模态信息的方法，例如：声音[53]和只使用视觉数据的方法（图像，视频）。多模态信息，例如来自传感器的深度[17]，视频中的声音[3，4，23，53]，自动驾驶车辆上的传感器[2，30，79]等。可以用于自动学习视觉表示而无需人类监督。人们也可以使用视频中的时间结构进行自我监督方法[21，27，41，46，47]。视频可以提供关于物体如何移动的信息[54]，视点之间的关系[69，70]等。在这项工作中，我们选择缩放基于图像的自监督方法，因为它们易于实现。已经为图像设计了许多借口任务，这些任务利用了图像的空间结构[12，48-这些借口任务模拟了图像的不同属性，并已被证明包含互补信息[14]。鉴于有大量这样的方法可以使用，在我们的工作中，我们专注于两种流行的方法，它们易于实现、直观且多样：[48][49]一个并行的工作[33]也探索了多个自我监督的任务，但他们的重点是建筑细节，这是对我们的补充。3. 预赛我们简要描述了我们在这项工作中研究的两种基于图像的自我监督方法[49，74]，并请读者参阅原始论文以获得详细解释。这两种方法都不使用任何监督标签。3.1. Jigsaw自我监督Norooziet al.[48]通过解决从输入图像创建的拼图游戏来学习图像表示该方法将输入图像I划分为N=9个不重叠的正方形块。然后通过随机地洗牌这些补丁来创建具体地说，每个补丁被馈送到一个具有共享参数的N路暹罗ConvNet以获得补丁表示。拼接表示被连接并用于预测用于创建谜题的排列实际上，作为排列总数N！可以大，一个固定的子集P的总数N！使用了Permutations。预测问题被简化为分类为以下之一|P|班6393拼图VOC07线性SVM7470666258彩色化VOC07线性SVM7470666258符号描述公司简介来自YFCC-100 M [65]数据集的图像。我们使用大小为X∈[1M，10M，50M，100M]的子集。ImageNet-22k完整的ImageNet数据集（22k类，14M图像）[10]。ImageNet-1kILSVRC2012数据集（1k类，1. [56]这是一个很好的例子。表2：本工作中使用的自监督预训练数据集列表。我们在这些数据集上训练AlexNet [35]和ResNet-50 [28]545450ResNet5050AlexNet46 46ResNet50从ConvNet（从[53]设置）获取我们特别1.0 10.050.0 100.0数量的图像||（10 6）1.0 10.0 50.0 100.0数量的图像||（ 10 6）选择性能最佳的层：AlexNet的conv4层以及最后一个res4块的输出（来自[26]的符号）图1：扩展预训练数据大小：每个数据的迁移学习在AlexNet的VOC07数据集上使用自监督方法和ResNet-50，因为我们改变了预训练数据的大小。我们保持问题的复杂性和数据域（YFCC-100 M的不同大小的子集）固定。更多详情见第4.1节。3.2. 彩色化自我监督Zhang等人[74]通过预测输入“灰度”图像颜色值来学习图像表示。该方法使用输入图像I的CIELab颜色空间表示，并训练模型以根据输入亮度L（由X表示）预测ab颜色（由Y表示输出ab空间被量化为一组离散仓Q=313，这将问题简化为|Q|- 方式分类-阳离子问题目标ab图像Y被软编码为|通过查看K个最近邻箱（默认值K = 10）来确定箱。 |bins by looking at the K-nearest neighbor bins(default value K = 10).我们用ZK明确地表示该软编码目标。因此，每个|Q|- 路分类问题具有K个非零值。ConvNet被训练来预测ZK从输入亮度图像X.4. 尺度自监督学习在本节中，我们将扩展当前的自我监督方法，并展示从中获得的见解我们首先将数据大小扩展到现有自监督方法中常用的大小的100倍然而，观察从最近的作品[31，42，64]表明，需要更高的容量模型，以充分利用大型数据集。因此，我们探索缩放的第二个轴：模型容量。此外，自我监督学习提供了一个有趣的第三个轴：借口任务的复杂性（硬度），它可以控制学习表示的质量。最后，我们观察这三个轴之间的关系为了研究这种行为，我们引入了一个简单的调查设置。请注意，此设置与广泛的我们在§6中提出的评估基准。调查设置：我们在PASCAL VOC 2007 [19]（表示为VOC 07）上使用图像分类任务。我们在固定的特征表示对象上训练线性SVM [7]（使用3折交叉验证来选择成本参数）ResNet-50我们在trainval分割上进行训练，并在测试分割上报告平均精度（mAP）。4.1. 轴1：调整预训练数据大小自监督学习的第一个前提是它需要但是，当前的自我监督方法是否受益于增加预训练数据大小？我们研究这两个拼图和着色方法。具体来说，我们在YFCC-100 M数据集-YFCC-[1，10，50，100]百万张图像的各个子集（见表2通过从YFCC-100 M数据集中随机采样相应数量的图像来收集这些我们专门创建这些YFCC子集，这样我们就可以保持数据域固定。此外，在自监督预训练过程中，我们保留了可能影响迁移学习性能的其他因素，如模型，问题复杂度（|P|=2000，K=10）等。固定.这样我们就可以隔离数据大小对性能的影响我们提供培训补充材料中的详细信息。观察结果：我们在图1中报告了VOC 07分类任务的迁移学习性能。我们看到，增加预训练数据的大小可以提高ResNet-50和AlexNet上Jigsaw和Colorization方法的迁移学习性能我们还注意到， Jigsaw方法比Colorization执行得更好。最后，我们做了一个有趣的观察，当我们将数据规模从1M增加到100M时，Jigsaw4.2. 轴2：扩展模型容量我们探讨了模型容量和自监督表示学习之间的关系具体来说，我们在预训练数据集大小的上下文中观察到这种关系。为此，我们使用AlexNet和更高容量的ResNet-50 [28]模型在相同的预训练第4.1节的子集。观察结果：图1显示了针对Jigsaw和Colorization方法的VOC 07分类任务的迁移学习性能。我们做了一个重要的观察，AlexNet和ResNet-50之间的性能差距（作为预训练数据集大小的函数）不断增加。这表明，更高容量的模型地图地图6394拼图VOC07线性SVM666258ResNet50AlexNet54彩色化VOC07线性SVM66625854YFCC拼图VOC07线性SVM74706662ImageNet拼图VOC07线性SVM747066625046100 701 2000 500010000排列数||50462 510204080160 313软编码中的数字K585450100 701 2000 500010000585450100 701 2000 500010000图2：扩展问题复杂性：我们评估迁移学习排列数||排列数||Jigsaw和Colorization方法在AlexNet和ResNet-50的VOC 07数据集上的性能，预训练数据固定在YFCC-1 M（§4.3），以隔离问题复杂性的影响需要充分利用更大的预训练数据集。4.3. 轴3：扩展问题的复杂性我们现在缩放自我监督方法的问题复杂性我们注意到，重要的是要了解借口任务的复杂性如何影响迁移学习的性能。拼图：排列的数量|P|（§3.1）决定了一个图像中所看到的谜题的数量。我们改变排列的数量|P| ∈[100，701，2k，5k，10k]来控制问题的复杂度.请注意，与[48]相比，这是复杂性的10倍着色：我们改变软编码（§3.2）的最近邻数K，这控制了着色问题的难度。为了隔离问题复杂性的影响，我们将预训练数据固定我们在补充材料中探索增加问题复杂性的其他方法。观察结果：我们在图2中报告了VOC07分类任务的结果。对于Jigsaw方法，我们看到随着置换集大小的增加，迁移学习性能有所改善ResNet-50显示了5点mAP的改善，而AlexNet显示了较小1.9改善点。彩色化方法应用于梨对问题复杂性的变化不太敏感。我们可以看到不同K值下的0.2点mAP变化。我们认为，一个可能的解释是在结构编码的表征的借口任务。对于着色，重要的是要表示关系-在语义类别和它们的颜色之间的关系，但细粒度的颜色区别并不那么重要。另一方面，随着问题复杂度的增加，Jigsaw编码更多的空间结构，这可能对下游传输任务的性能更重要。图3：扩展数据和问题复杂性：我们改变前-训练数据大小和拼图问题的复杂性，ResNet-50模型。我们在两个数据集上进行预训练：ImageNet和YFCC，并在VOC07数据集上评估迁移学习性能。4.4. 把它放在一起最后，我们探讨所有三个轴的缩放之间的关系我们研究如果这些轴是正交的，如果每个轴上的性能改进是复杂的。我们只在 Jigsaw 方法一致地执行Colorization方法时才显示这一点。此外，除了使用YFCC子集进行借口任务训练（来自§4.1）之外，我们还报告了Im-1的自监督结果。ageNet数据集（不使用任何标签）。图3示出VOC07任务上的迁移学习性能是数据大小、模型容量和问题复杂度的函数。我们注意到迁移学习的性能在所有三个轴上都有所提高，即，即使在100M数据大小下，不断增加的问题复杂度仍然因此，我们得出结论，三轴缩放是互补的。我们还做了一个重要的观察，即perfor-对于AlexNet来说，问题复杂性增加带来的效率增益几乎可以忽略不计，但对于ResNet来说要高得多。50.这表明我们需要更高容量的模型来利用自监督方法的难度。5. 预训练和转移域关系到目前为止，我们已经将预训练数据集和传输数据集/任务分别固定在YFCC和VOC 07。我们现在添加以下预训练和转移数据集/任务，以更好地理解预训练和转移性能之间的关系。预训练数据集：我们使用表2中的ImageNet [10]和YFCC数据集。虽然ImageNet数据集[10，56]有监督标签，但我们使用它们（没有标签）来研究预训练域的效果。传输数据集和任务：我们进一步评估Places205场景分类任务[77]。与以对象为中心的VOC07数据集相比，Places205是以场景为中心的数据集。在第4节的研究设置之后，我们保持ConvNets的特征表示不变。由于Places205数据集具有>2M图像，因此我们遵循[75]和[76]。ResNet50 YFCC-100MResNet50 YFCC-1MAlexNet YFCC-100MAlexNet YFCC-1MResNet50 ImageNet-22kResNet50 ImageNet-1kAlexNet ImageNet-22kAlexNet ImageNet-1k地图地图地图ResNet50AlexNet地图6395top-1访问top-1访问地图Jigsaw VOC07 - Linear SVM74拼图Places 205-线性分类器彩色化VOC 07-线性SVM74着色位置205-线性分类器70 47 704766 66434362 62583954ImageNetYFCC50 3558ImageNet54YFCC5039ImageNetYFCC35ImageNetYFCC1.0 10.050.0100.0数量的图像||（10 6）1.0 10.050.0100.0数量的图像||（10 6）1.0 10.050.0100.0数量的图像||（10 6）1.0 10.0 50.0 100.0数量的图像||（10 6）(a)（b）（c）（d）图4：预训练和转移域之间的关系：我们改变预训练数据域-（ImageNet-[1 k，22 k]，YFCC-100 M的子集），并观察VOC 07和Places 205分类任务的传输性能。预训练和迁移任务域之间的相似性对迁移性能有很大的影响。使用SGD训练线性分类器。我们使用256的批量，学习率为0。01在每40k次迭代之后衰减10倍，并训练140k次迭代。补充材料中提供了全部细节。观察结果：在图4中，我们显示了使用不同预训练数据集和传输数据集 / 任务的结果。比较图 4 （ a ）和（b），我们对Jigsaw方法进行以下观察：• 在VOC 07分类任务中，ImageNet-22 k（14 M图像）上的预训练以及在YFCC-100 M（100 M图像）上训练。• 然而，在Places 205分类任务中，YFCC-1 M（1 M图像）上的预训练以及ImageNet-22 k（14 M图像）上的预训练都是传输的。我们注意到着色问题的类似趋势，其中预训练ImageNet，而不是YFCC，在转移到VOC 07分类时提供了更大的好处（也在[8，12，31]中指出）。这种好处的一个可能的解释是ImageNet的域（图像分布）更接近VOC07（两者都是以对象为中心的），而YFCC更接近Places205（两者都是以场景为中心的）。这促使我们在各种不同的领域/任务上评估自监督方法，接下来我们提出了一个广泛的评估套件6. 用于自我监督的基准套件我们评估了9个任务（见表1）的不同集合上的自监督学习，从语义分类/检测，场景几何到视觉导航。我们选择这个基准的基础上的原则，一个良好的表示应该推广到许多不同的任务，有限的监督和有限的微调。我们将自监督学习视为学习特征表示的一种方式，而不是我们首先描述每一个方法ResNet-50 ImageNet-1 k监督Layer114.8Layer232.6Layer342.1第四层50.8第五层52.5ResNet-50 Places 205监督16.732.343.254.762.3ResNet-50随机12.916.615.511.69.0ResNet-50（NPID）[72]18.122.329.742.145.5ResNet-50Jigsaw ImageNet-1k15.128.836.841.234.4ResNet-50Jigsaw ImageNet-22k11.030.236.441.536.4ResNet-50Jigsaw YFCC-100M11.328.638.144.837.4ResNet-50 Coloriz. ImageNet-1k14.727.432.737.534.8ResNet-50 Coloriz. ImageNet-22k15.030.537.844.041.5ResNet-50 Coloriz. YFCC-100M15.230.438.645.441.5表3：Places 205数据集（§6.1）。带的数字使用不同的微调过程。所有其他模型均遵循Zhang等人的设置。[75]。对所有方法公平设置，对于跨自监督方法进行更容易和有意义的比较很重要。这对于隔离由于更好的表示或更好的传输优化而产生的改进至关重要1。通用设置（预训练、特征提取和转移）：基准任务的通用转移过程如下：• 首先，我们使用自监督的借口方法（ Jigsaw 或Colorization）对表2中的预训练数据集进行自监督预训练。• 我们从网络的各个层提取特征。对于AlexNet，我们在每个conv层之后执行此操作;对于ResNet-50，我们从ev的最后一层提取特征。每个剩余级，例如，res1、res2（来自[26]的符号）等。为了简单起见，我们使用术语层。• 然后，我们通过迁移学习来评估这些特征的质量（来自不同的自监督方法）即，在各种传输数据集和具有监督的任务上对它们进行基准测试。我们在表1中总结了这些基准测试任务，并在下面的小节中讨论它们对于每个小节，我们提供了训练设置的完整细节：模型架构，超参数等。在补充材料中。这些任务，并提出我们的基准。1我们发现以前的方法不一致（不同的方法）。一致性评估设置：我们相信拥有一个一致的评估设置，其中超参数是使作物成熟以用于评估、权重重新缩放、预处理、更长的微调时间表等）这会影响最终性能。地图6396方法学生寮205第1层第2层第3层第4层第5层VOC0780地点-205606040200 1248163264 96Num.标记样本40200 1248163264128Num.标记样本表4：Places 205数据集（§6.1）。[48][74]的数字来自[75]。带“0”的数字使用不同的微调时间表。图5：使用线性SVM对VOC 07和Places 205数据集进行低拍摄图像分类，这些SVM是在ResNet-50的最佳性能层的特征上训练的。我们改变用于训练分类器的标记示例（每个类）的数量，并报告测试集的性能。我们显示了五次运行的平均值和标准差（§6.2）。方法第1层第2层第3层第4层第5层FER任务解决语义图像分类问题。6.2.任务2：低拍摄图像分类人们经常认为，一个好的表示不应该需要很多例子来学习一个概念。因此，在[71]之后，我们探索了当每个类别的例子很少时特征表示的质量（与§6.1不同）。设置：我们改变正例的数量k（每个表5：ResNet-50线性SVMmAP对VOC 07分类（§6.1）。6.1.任务1：图像分类我们从自监督网络的各个层中提取图像特征，并在这些固定表示上训练线性分类器我们评估了三个数据集的分类任务的性能： Places205 、 VOC07 和COCO2014。我们在主要论文中报告了ResNet-50的结果; AlexNet结果在补充材料中。Places205：我们严格遵循Zhang等人的培训和评估设置。[75]这样我们就可以与现有的作品进行比较（并重新评估[8]中的模型）。我们使用256的批量，学习率为0。01在每40k次迭代后衰减10倍，并在训练分割上使用 SGD 训练 140k 次迭代。我们在表 3 中报告了ResNet-50和表4中AlexNet的val分割上的前1个中心裁剪精度。VOC 07和COCO 2014：对于适合内存的较小数据集，我们遵循[53]并在使用LIBLINEAR包的冻结特征表示[20]。我们在VOC07数据集的训练分割上进行训练，并在VOC07的测试分割上进行评估表5显示了ResNet-50的VOC 07结果。AlexNet和COCO2014 [40]结果见补充材料。观察结果：尽管我们进行了扩展，但我们看到自监督和监督方法之间存在显著的准确性差距。这是预期的，因为与自我监督的方法不同，监督的预训练和基准转换，类）并使用§6.1中的设置来训练线性SVM在Places205和VOC07数据集上。我们执行这个仅针对ResNet-50进行评估。对于k/数据集/方法的每个组合，我们报告了在固定测试集上评估的训练数据的5个独立样本的平均值和标准偏差（VOC07的测试分割和Places205的val分割）。我们在图5中显示了Jigsaw方法的结果;着色结果在补充材料中，因为我们绘制了相同的观察结果。观察结果：我们在图5中报告了VOC 07和Places 205上ResNet-50的最佳性能层res 4（来自[26]的符号）的结果。在补充材料中，我们表明，对于较低的层，类似于表3，在两个数据集的低拍摄设置中，自监督特征与其监督特征具有竞争力。然而，对于VOC07和Places205，我们观察到监督和自我监督设置在其“最佳”性能层之间存在显著差距在较低样本量时，该间隙要大得多，在k = 1时，对于位置205，它是30点，而在更高的值（表3中的全拍摄）时，它是20点。6.3. 任务3：视觉导航在这个任务中，智能体接收图像流作为输入，并学习导航到预定义的位置以获得奖励。代理在随机位置产生，并且必须构建上下文映射以便成功完成任务。设置：我们使用[59]中的设置，他们在Gibson环境中使用强化学习（PPO [60]）训练代理[73]。代理使用来自ConvNet的固定特征表示来执行此任务，并且仅更新策略网络。ImageNet-1 k监督Jigsaw ImageNet-22kJigsaw YFCC-100M随机-22kGenet随机奥伊玛夹具-100MYFCC拼图vised超级es205Plac地图AlexNet ImageNet-1 k监督AlexNet Places205监督22.423.234.735.637.539.839.243.538.044.8AlexNet随机15.720.818.518.216.6美国（公告牌成人另类歌曲榜）[48]19.726.731.932.730.9[74]第16.025.729.630.329.7美国（公告牌热门单曲榜）[75]21.330.734.034.132.5[49]第49话23.333.936.334.729.6[24]第24话21.531.035.134.633.7AlexNet（DeepCluster）[8]17.128.835.236.032.2AlexNetJigsaw ImageNet-1k23.733.236.636.331.9AlexNetJigsaw ImageNet-22k24.234.737.737.531.7AlexNetJigsaw YFCC-100M24.134.738.138.231.6AlexNet Coloriz. ImageNet-1k18.128.530.231.330.3AlexNet Coloriz. ImageNet-22k18.930.333.434.934.2AlexNet Coloriz. YFCC-100M18.430.033.434.834.6top-1访问ResNet-50 ImageNet-1 k监督24.547.860.580.488.0ResNet-50 Places 205监督28.246.959.177.380.8ResNet-50随机9.68.38.18.07.7ResNet-50Jigsaw ImageNet-1k27.145.756.664.557.2ResNet-50Jigsaw ImageNet-22k20.247.757.771.964.8ResNet-50Jigsaw YFCC-100M20.447.158.471.062.5ResNet-50 Coloriz. ImageNet-1k24.340.748.155.652.3ResNet-50 Coloriz. ImageNet-22k25.843.153.666.162.7ResNet-50 Coloriz. YFCC-100M26.142.353.867.261.46397方法VOC 07 VOC 07 +12ResNet-50 ImageNet-1 k有监督测试66.7±0.2 71.4 ±0.1ResNet-50 ImageNet-1 k受监督68.5±0.375.8 ± 0.2ResNet-50 Places 205监督65.3±0.3 73.1 ± 0.3ResNet-50Jigsaw ImageNet-1k 56.6±0.5 64.7 ± 0.2ResNet-50Jigsaw ImageNet-22k67.1± 0.373.0 ± 0.2ResNet-50Jigsaw YFCC-100M 62.3±0.2 69.7 ± 0.1表6：使用具有ResNet-50-C4的Fast R-CNN在VOC 07和VOC 07 +12上检测冷冻转化体的mAP（在5次试验中计算的平均值和标准值）。我们冻结所有模型的转换体数字[26]第二十六章：我的心所有其他模型都使用稍长的训练时间表（参见§6.4）。我们通过分别为这些设置训练代理来评估ResNet-50的层res 3，res 4，res 5（来自[26]的符号）的表示。我们使用[59]中的训练超参数，他们使用大小为512的卷展并使用Adam [32]进行优化。观察结果：图6显示了5次运行的平均训练奖励（和方差）。使用 res3 层的特征，我们观察到我们的JigsawImageNet模型提供了更高的训练奖励，并且比其监督的对应模型更具样本效率（更高的奖励，更少的步骤）。更深层次的res4和res5特征对于监督和自监督网络的表现类似。我们还观察到ImageNet域上的自监督预训练优于YFCC域上的6.4. 任务4：物体检测设置：我们使用Detectron[26]框架在VOC 07和VOC07 +12 [18]数据集上使用Selective Search [66]对象建议来训练Fast R-CNN [25]对象检测模型。我们在补充材料中提供了Faster R-CNN [55]的结果。我们注意到，我们对监督和自监督方法使用相同的训练时间表，因为它会显著影响最终的对象检测性能。由于Detectron不支持AlexNet，我们仅报告ResNet-50的5次独立运行的平均值和标准差结果。我们冻结Fast R-CNN的完整conv主体，只训练ROI头部（最后一个ResNet-50阶段res5）。我们遵循与Detectron相同的设置，只是将训练时间表稍微延长。具体来说，我们在2个GPU上训练VOC 07上的22k/8k调度和VOC 07 +12上的66k/14k调度（与VOC 07上的原始15k/5k调度和VOC 07 +12上的40k/15k调度相比）。这种变化提高了监督和自我监督方法的对象检测观察结果：我们在表6中报告了结果，并注意到，即使在检测任务中微调了较少的参数，自监督初始化也与VOC07数据集上的ImageNet预训练初始化具有竞争力。我们还强调，监督和自我监督初始化之间的性能差距非常低。6.5. 任务5：曲面法线估计设置：我们使用表面法线估计任务[22]，评估和数据集分割如[5，45，68]中所述。我们使用由室内场景组成的NYUv2 [61]数据集，并使用[36]计算的表面法线。我们使用最先进的 PSPNet [76] 架构（实现[78]）。这提供了一个更强的基线（我们的划痕模型优于[70]中报告的最佳数字）。我们对res5进行微调，并使用相同的超参数训练所有模型150个epoch。划痕模型（随机初始化）被训练400个时期。我们使用[78]中的训练超参数，即，batchsize为16，学习率为0。02以0的幂多项式衰减。9并使用SGD进行优化。观察结果：我们在表7中报告了Jigsaw的最佳测试集性能，并且在补充材料中提供了着色结果。我们使用[22]中的度量来测量预测的角距离（误差）以及地面真实值t◦内的像素百分比我们注意到，我们的Jigsaw YFCC-100 M自监督模型在所有指标上都优于两个监督模型（ImageNet-1 k和Places 205监督），例如， 5点增益补偿到Places205监督模型的t= 11内的像素数量。5米。因此，我们得出结论，自我监督的方法提供了更好的功能相比，监督方法的三维几何任务。角度距离t范围内平均值中值11.25 22.5 30（越低越好）（越高越好）ResNet-50 ImageNet-1 k监督26.417.136.1 59.268.5ResNet-50 Places 205监督23.314.241.8 65.273.6ResNet-50划痕26.316.137.9 60.669.0ResNet-50Jigsaw ImageNet-1k24.214.541.2 64.272.5ResNet-50Jigsaw ImageNet-22k22.613.443.7 66.874.7ResNet-50Jigsaw YFCC-100M22.413.144.6 67.475.1表7：NYUv2数据集上的表面法线估计。我们从res 5开始训练ResNet-50，并冻结下面的conv体（§6.5）。7. 旧任务和数据集为了完整性，我们还报告了以前的作品所使用的评估任务的结果。正如我们接下来所解释的，我们没有将这些任务包括在我们的基准测试套件中（第6节）。迁移学习的全面微调：该设置微调自监督网络的所有参数，并将其视为初始化方法。我们认为，这种观点不仅评估的质量表示，但也初始化和优化方法。为了完整起见，我们在补充材料中报告了 AlexNet 和ResNet-50对VOC 07分类的结果。VOC07具有全微调功能的目标检测：该任务微调用于对象检测任务的网络的所有权重。我们使用与§6.4和§ 6.4中相同的设置。6398res3Jigsaw ImageNet-22kJigsawYFCC-100MImageNet-1 k监督随机res4Res575311350 1024 2048 3072 4096步数（102）75311350 1024 2048 3072 4096步数（102）75311350 1024 2048 3072 4096步数（102）图6：视觉导航。我们在Gibson环境中训练一个智能体完成导航任务。该代理使用强化学习进行训练，并使用固定的ConvNet特征。我们展示了在监督和自监督设置下训练的ResNet-50的不同层特征的结果（§6.3）。方法VOC07 VOC07+12方法ImageNet-1k第1层第2层第3层第4层第5层表8：使用具有ResNet-50-C4的Fast R-CNN对V0 C 07和V0 C 07 +12进行完全微调的检测mAP（在5分钟内计算的平均值和标准值）∗审判）（§7）。号码与使用Detectron[26]默认训练计划。所有其他模型都使用稍长的训练时间表。在表8中报告监督和Jigsaw自监督方法的结果。在没有任何花哨的情况下，我们的自监督模型初始化与VOC07和VOC 07 +12上的监督初始化的性能相匹配。我们注意到ImageNet上的自监督预训练比YFCC表现更好（类似于§5）。使用线性分类器的ImageNet分类：虽然任务本身是有意义的，但我们没有将其包含在我们的基准测试套件中，原因有两个：1. 对于监督表示，广泛使用的基线是在ImageNet-1 k数据集上训练的。因此，在同一数据集（ImageNet-1 k）上进行

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

自监督视觉表示学习的20字中文标题：自监督视觉学习：扩展到大量数据的能力和评估基准

基于多层次特征优化的自监督视频表示学习_Enhancing Self-supervised Video Representati

半监督学习交通标识图像分类

BETA数据集和基准数据集

Flink机器学习基准

MDVRP问题的标准基准实例中数据都表示什么

MINIST数据集是什么

KITTI数据集测试

Moving MNIST数据集

面板数据的基准回归怎么理解

kitti数据集深度估计评估

视觉引导的基准的CCD逻辑

视觉transformer综述

gcn cora数据集

常用的ply 三维点云 数据集

如何评估知识图谱的准确性？

介绍PRONTO 基准数据集

oxford文本描述数据集

keras 印刷体 数据集

modelnet40数据集介绍

最新资源

常用的ply 三维点云数据集

keras 印刷体数据集