自监督学习的密集视觉预训练框架——DenseCL

163 浏览量更新于2024-01-24 收藏 1.28MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

视觉信息学7（2023）30研究文章DenseCL：一个简单的自监督密集视觉预训练框架王新龙a，张如锋c，沈春华a，b，刘晓波，孔涛da澳大利亚阿德莱德大学b中国浙江大学中国同济大学d字节跳动AI Lab.，中国ar t i cl e i nf o文章历史记录：2022年8月25日收到2022年9月9日接受2022年9月24日网上发售保留字：自监督学习视觉预训练密集预测任务a b st ra ct自监督学习旨在学习一种没有标签的通用特征表示。迄今为止，大多数现有的自监督学习方法都是针对图像分类而设计和优化的。由于图像级预测和像素级预测之间的差异，这些预先训练的模型对于密集预测任务可能是次优的。为了填补这一空白，我们的目标是设计一个有效的，密集的自监督学习框架，通过考虑局部特征之间的对应关系，直接在像素（或局部特征）级别工作。具体来说，我们提出了密集对比学习（DenseCL），它通过优化输入图像的两个视图之间像素级的成对对比（DIS）相似性损失来实现自监督学习。与有监督的ImageNet预训练和其他自监督学习方法相比，我们的自监督DenseCL预训练在转移到下游密集预测任务（包括对象检测，语义分割和实例分割）时表现出一贯的卓越性能。具体而言，我们的方法在PASCAL VOC对象检测上的2.0% AP，COCO对象检测上的1.1% AP，COCO实例分割上的0.9% AP，PASCAL VOC语义分割上的3.0% mIoU和Cityscapes语义分割上的1.8% mIoU上显著优于强MoCo-v2与MoCo-v2相比，AP和mIoU分别提高了3.5%和8.8%，与具有冻结主干评估协议的监督对等方代码和模型可在https://git.io/DenseCL上获得版权所有©2023作者。由爱思唯尔公司出版代表浙江大学和浙江大学出版社。公司这是一个在CC BY-NC-ND许可证下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍在许多注释数据有限的计算机视觉任务中，预训练已经成为一种成熟的范例，也是深度神经网络实现高准确性和鲁棒性的必要组成部分。在典型的预训练范例中，模型首先在大规模数据集上进行预训练，然后在目标任务上进行微调，训练数据较少。具体来说，有监督的ImageNet预训练多年来一直占据主导地位，其中模型经过预训练以解决图像分类问题，并转移到下游任务，包括密集预测任务，如对象检测和分割。然而，在图像分类预训练和目标密集预测任务（诸如对象检测（Everingham等人，2010;Lin et al. ，2014）和语义分割（Cordtset al. ，2016年）。前者侧重于将类别分配给通讯作者：澳大利亚阿德莱德大学。电子邮件地址：Chunhua@icloud.com（C. Shen）。https://doi.org/10.1016/j.visinf.2022.09.003输入图像，而后者需要在整个图像上执行密集分类或回归。例如，语义分割旨在为每个像素分配类别，对象检测旨在预测所有感兴趣对象实例的类别和边界框。一个简单的解决方案是直接对密集预测任务进行预训练然而，与图像级标记相比，这些任务另一种解决方案是在没有标签的数据上进行预训练近年来，无监督视觉预训练引起了广泛的研究关注，其目的是从大量未标记的图像中学习合适的视觉表示。一些方法（Heet al. ，2020; Chen等人，2020 b，a; Grill等人，2020年）显示了下游任务的有效性，与有监督的ImageNet预训练相比，这些任务实现了相当或更好的结果。然而，图像分类预训练和目标密集预测任务之间的差距仍然存在。首先，几乎所有的自监督学习方法都将学习公式化为使用全局特征的图像级预测。他们都可以2468- 502 X/©2023作者。由爱思唯尔公司出版代表浙江大学和浙江大学出版社。公司这是一个在CC BY-NC-ND许可证下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表视觉信息学期刊主页：www.elsevier.com/locate/visinfX. 王河，巴西-地 Zhang C.，中国古猿科 Shen等人视觉信息学7（2023）3031++图1.一、通过对对象检测和语义分割数据集进行微调来比较预训练模型。 IN '表示ImageNet上的监督预训练。'COCO'和'ImageNet'分别表示在COCO和ImageNet上训练的预训练模型。(A) ：在VOC trainval 07 +12上微调24 k迭代并在VOC test 2007上评估的Faster R-CNN检测器的对象检测结果 ;（B）：在VOCtrain_aug2012上微调20 k迭代并在val 2012上评估的FCN模型的语义分割结果。(C)：与（A）相同，除了用冷冻骨架进行微调。(D)：与（B）相同，除了用冷冻骨架进行微调。结果是5次独立试验的平均值被认为是将每个图像分类到它自己的版本中， I. 例如，实例歧视（Wu et al. ，2018年）。此外，实验方法通常在图像分类基准上进行评估和优化。然而，更好的图像分类并不能保证更准确的目标检测，如He等人所示。（2019年）。因此，自我监督学习，是为密集型预测任务定制的。至于无监督的预训练，不再需要密集的注释一种明确的方法是直接将预训练作为密集预测任务，从而弥合预训练和目标密集预测任务之间的差距。在本文中，我们提出了用于自监督视觉预训练的密集对比学习（DenseCL），其灵感来自于监督密集预测任务，例如。例如，在一个实施例中，语义分割，执行密集的每像素分类。DenseCL将自监督学习任务视为密集的成对对比学习，而不是全局图像分类。首先，我们引入了一个稠密投影头，它将主干网络的特征作为输入，生成稠密的特征向量。我们的方法自然地保留了空间信息，并构建了一个密集的输出格式，相比现有的全球投影头，适用于一个全球池的骨干功能，并输出一个单一的，全球的特征向量为每个图像。其次，我们通过提取视图之间的对应关系来定义每个局部特征向量的正样本。我们介绍了两种方法提取- ING密集的对应意见。在随机数据增广过程中，根据几何变换提取显式对应，而隐式对应则与数据预处理完全解耦，从主干特征图上。为了构建无监督的目标函数，我们进一步设计了一个密集的对比损失，它扩展了传统的InfoNCE损失（Oord et al. ，2018年）to a dense密集paradigm范例.通过上述方法，我们使用全卷积网络（FCN）密集地执行对比学习（Long et al. ，2015），类似于目标密集预测任务。因此，我们的主要贡献归纳如下。我们提出了一种新的对比学习范式，即。例如，密集对比学习，其在像素（或局部特征）级别执行密集成对对比学习通过提出的密集对比学习，我们设计了一个简单有效的自监督学习框架，专为密集预测任务量身定制，称为DenseCL，它填补了自监督预训练和密集预测任务之间的空白当将预训练模型转移到下游密集预测任务时，DenseCL的性能显着优于主要的监督ImageNet预训练，包括对象检测，实例分割和语义分割。例如， 6. 1% 的 AP 和 6. PAS-CALVOC对象检测和语义分割的1% mIoU，使用冻结主干评估协议（见图① 的人。DenseCL在以下方面实现了一致和显著的优效性：不同的预训练数据集，i.例如，COCO和ImageNet，以及不同的评估协议，即。例如，与最先进的自监督学习方法相比，它具有半监督、冻结主干和端到端微调的特点····X. 王河，巴西-地 Zhang C.，中国古猿科 Shen等人视觉信息学7（2023）3032×--2. 相关工作自我监督的预训练。一般来说，自我监督学习的成功（Wu etal. ，2018; He et al. ，2020;谢等人，2020; Zhao et al. ，2020;Han等人，2020; Grill et al. ，2020）可以归因于两个重要方面，即对比学习和借口任务。在许多方法中，用于训练视觉表示的目标函数是基于重建的损失函数（Doersch et al. ，2015; Pathak等人，2016; Goodfellow et al. ，2014），或测量多个视图的共现的对比损失（Tian et al. ，2019 a）。对比学习是大多数最先进方法的关键（吴等人，2018; He et al. ，2020; Chen等人，2020b;Xie et al. ，2020年），其中正对通常由同一图像（或其他视觉图案）的两个增强视图形成，而负对由不同图像形成。已经探索了广泛的借口任务，以学习良好的代表性。这些示例包括着色（Zhanget al. ，2016a）、上下文自动编码器（Doersch et al. ，2015）、内绘画（Pathak etal. ，2016年），空间拼图（Noroozi和Favaro，2016年）和辨别方向（Gidaris et al. ，2018年）。这些方法在计算机视觉中取得了非常有限的成功。突破性的方法是Simplified（Chen et al. ，2020b ），其遵循实例歧视借口任务，类似于Wu et al.（2018），其中每个实例的特征被从训练集中的所有其他实例的特征中提取出来。不变性是从低层次的图像变换，如裁剪，缩放和颜色抖动编码。对比学习和托词任务经常被结合起来形成一个表征学习框架。DenseCL属于自监督预训练范式，我们自然地使框架对密集预测任务（如语义分割和对象检测）友好。密集预测任务的预训练。预培训已-在许多密集的预测任务上，包括物体检测，都能得到令人惊讶的结果（Ren et al. ，2015; Redmon et al. ，2016）和语义分割（Long et al. ，2015）。这些模型通常是从ImageNet预训练模型中微调的，该模型专为图像级识别任务而设计。之前的一些研究已经表明，在网络架构的背景下，ImageNet预训练和密集预测任务之间存在差距（Li et al. ，2018; Kong et al. ，2016; Tan等人，2020; Sun et al. ，2019）。YOLO9000（Redmon和Farhadi，2017）提出在分类和检测数据上联合训练对象检测器 He等人（2019）证明，即使我们在非常大的分类数据集上进行预训练（例如，例如，在一个实施例中， Instagram（Mahajan et al. ，2018年），比ImageNet大3000），对象检测的传输改进相对较小。最近的作品（李等人。，2019; Zhou et al. ，2020）示出了利用对象检测数据和注释（例如，例如，在一个实施例中，MSCOCO（Lin et al. ，2014））与ImageNet预训练模型相比，可以在对象检测和语义分割虽然在DenseCL之前已经探索了密集预测任务的监督预训练，但很少有关于为密集预测任务设计无监督范式的工作。并行和独立的作品（Pinheiro et al. ，2020; Chai-tanya et al. ，2020）还发现，在局部特征水平上的对比学习很重要。它们的主要区别之一是根据几何变换来构造正对，而我们还提出了一种灵活新颖的根据视图间我们的方法与数据预处理完全解耦，因此能够快速灵活地进行训练，同时不知道使用什么样的增强以及如何对图像进行采样。视觉对应视觉对应问题是从两个图像中计算像素对，同样的场景（Zabih和Woodfill，1994），它是至关重要的许多应用，包括光流（Dosovitskiy等人，2004）。，2015）、运动恢复结构（Schonberger and Frahm，2016）、视觉SLAM（Kerl etal. ，2013）、3D重建（Geiger et al. ，2011）等。视觉对应可以被公式化为学习匹配块或点之间的特征相似性的问题。最近，提出了各种基于卷积神经网络的方法来测量跨图像的块之间的相似性，包括监督的（Choyetal. ，2016; Kim等人，2017年）和无监督的（张等人，2016 b; Halimi et al. ，2019）。以前的作品通常利用明确的监督来学习特定应用程序的对应关系。DenseCL学习可以在多个密集预测任务之间共享的一般表示初步结果出现在Wang et al. （2021年）。我们有延伸（Wang et al. 2021）如下。(1)我们已经扩展了所提出的DenseCL框架，以使用显式对应或隐式对应来构建正对，从而得到统一的框架。(2)我们在对象检测和语义分割方面进行了冻结主干微调实验(3)我们已经在对象检测、实例分割和语义分割方面进行了半监督学习实验(4)我们增加了微调完全卷积的一级物体检测器FCOS的实验，并证明了更大的改进。(5)我们增加了预训练更强骨干的实验，并证明了一致的优越性。3. 方法3.1. 背景对于自我监督表示学习，突破性的方法是MoCo-v1/v2（He etal. ，2020; Chen等人，2020a）和Simplified（Chen et al. ，2020b），它们都采用对比无监督学习来从未标记的数据中学习良好的表示。我们简要介绍了国家的最先进的自我监督的学习框架，抽象出一个共同的范式。渠道 . 给定一个未标记的数据集，实例判别（ Wu et al. ，2018），其中训练集中的每个图像的特征被从其他图像的特征中拉开。对于每个图像，通过随机数据增强生成随机“视图”。每个视图被馈送到编码器中，用于提取编码和表示整个视图的特征。编码器的核心部件有两个，一个是编码器，另一个是编码器. 例如，骨干网和投影头。投影头连接到骨干网络。骨干是预训练后要转移的模型，而投影头将在预训练完成后扔掉。对于一对视图，它们可以由相同的编码器编码（Chen et al. ，2020 b），或者单独地通过编码器及其动量更新的编码器（Heet al. ，2020年）。编码器是通过优化成对对比（dis）相似性损失来训练的，如下所述。整个流水线如图所示。2（a）.损失函数。遵循MoCo的原理（He et al. ，2020），对比学习可以被认为是字典查找任务。对于每个编码查询q，存在一组编码关键字k0，k1，. . . 其中单个正关键字k+匹配查询q。编码的查询和键是从不同的视图中生成的。对于编码查询q，其正关键字k+编码同一图像的不同视图，而负关键字编码不同图像的视图对比损失函数X. 王河，巴西-地 Zhang C.，中国古猿科 Shen等人视觉信息学7（2023）3033+∑=××+−--=-k−∈SS+t−−∑，图二. 表征学习的两种对比学习范式的概念说明。为了更简单的说明，我们使用了一对查询和键。主干可以是任何卷积神经网络。(A)：在全局投影头输出的单个特征向量之间计算对比度损失，全局特征层次;（B）：在局部水平上，在由密集投影头输出的密集特征向量之间计算密集对比度损失。功能. 对于这两种范例，两个分支可以是相同的编码器或不同的编码器，例如。例如，在一个实施例中，编码器和其动量更新的编码器。InfoNCE（Oord et al. ，2018）被用来将q拉近k，同时将其推离其他负键：从同一图像的另一个视图中提取向量。现在，让我们假设我们可以很容易地找到正密钥t+。了讨论Lq= − logexp（q·k+/τ）exp（q·k+/τ）+exp（q·k−/τ）（一）推迟到下一节。定义了稠密对比损失如：日志·+其中τ（2018表示如Wu等人中的温度超参数。1LrS2exp（rt/τ）-exp（rs·ts/τ）+∑s exp（rs·ts/τ）、（二）3.2. DenseCL管道我们提出了一个新的自监督学习框架，用于密集预测任务，称为DenseCL。DenseCL将现有的框架扩展和概括为一个密集的范式。与在3.1中回顾的现有范例相比，核心区别在于编码器和损失函数。给定一个输入视图，密集的特征图由骨干网络提取，e。例如，在一个实施例中，ResNet（He et al. ，2016）或任何其它卷积神经网络，并转发到下面的投影头。投影头由两个平行的子头组成，分别为全局投影头和密集全局投影头可以被实例化为任何现有的投影头，诸如He等人（2020），Chen等人（2020 b，a），其将密集特征图作为输入并为每个视图生成全局特征向量。例如，Chen et al. （2020 a）由全局池化层和MLP组成，MLP包含两个完全连接的层，在它们之间具有ReLU层。相比之下，密集投影头采用相同的输入，但输出密集的特征向量。具体地，移除全局池化层，并且用相同的11个卷积层替换MLP（Long et al. ，2015）。实际上，密集投影头具有与全局投影头相同数量的参数。骨干和两个平行的投影头端到端的训练，通过优化关节成对对比（DIS）的相似性损失在全局特征和局部特征的水平。3.3. 密集对比学习我们通过将原始对比损失函数扩展到稠密范例来执行稠密对比学习。我们定义一组编码密钥t0，t1，. . . 对于每个编码查询r.然而，这里每个查询不再表示整个视图，而是编码视图的局部部分。具体地，其对应于由密集投影头生成的ShSw特征向量之一，其中Sh和Sw表示所生成的密集特征图的空间大小。注意，S h和S w可以不同，但我们使用S hS wS用于更简单的说明。每个负关键字t是来自不同图像的视图的池化特征向量。正关键字t是根据提取的视图间对应关系来分配的，这是S2特征其中rs表示S 2个编码查询中的第s个。总的来说，我们的DenseCL的总损失可以用公式表示为：L=（1−λ）Lq+λLr，（ 3）其中λ用作平衡两项的权重λ设为0.5这在4.5节的实验中得到了验证。3.4. 视图间的密集对应本文介绍了两种提取视图间稠密对应关系的方法，即. 例如，显性方式和隐性方式。我们分别分析了它们潜在的问题，并提出了相应的解决方案。默认情况下，DenseCL是隐式对应的，因为它简单而灵活。第4.5节进行了实证研究。明显的对应关系。获得密集匹配的直接方法是在随机数据扩充期间根据几何变换提取显式对应，如图3（a）所示。对于一个视图水平翻转而另一个视图不水平翻转的最简单情况，第一视图上的位置及其在另一个视图上的匹配沿着中线对称。对于同一幅图像的两个视图的两组随机数据增强，我们提取显式对应并在每次增强后更新它。最后的显式对应用于定义正对并计算等式中定义的密集对比损失。（二）、然而，根据几何变换构造正对带来以下问题。(1)不灵活的数据扩充。对于每一种数据扩充都需要精心设计，以保持稠密匹配。（2）有限的应用场景。当两个视图之间的几何变换不可用时，它将失败例如，从视频剪辑中采样两个图像作为正对，这是从视频流中学习表示的情况。在这项工作中，我们进一步提出了一种新的隐式对应关系，它与数据预处理完全解耦，从而实现了快速灵活的训练，同时不知道使用了什么样的增强以及如何对图像进行采样。我们在实验中定量地比较了显式对应和隐式对应。隐含的对应关系。如示于图3（b），对于每个视图，骨干网络提取特征图FRH×W×K，密集投影头从中生成密集特征向量SX. 王河，巴西-地 Zhang C.，中国古猿科 Shen等人视觉信息学7（2023）3034∈×===∈==-∈=×××图三. 视图间两种密集对应关系(A)：根据随机数据扩充过程中的几何变换提取显式对应;（B）隐式对应从主干特征图F1和F2中提取。它与数据预处理完全分离。ΘRSh×Sw×E。请注意，Sh和Sw可以不同，但我们使用Sh Sw S进行简单说明。在两个视图的密集特征向量之间建立对应关系，即。例如，Θ1和Θ2。我们使用主干特征图F1和F2来匹配θ1和θ2。首先对F1和F2进行下采样以具有S的空间形状S通过自适应平均池化，然后用于计算余弦相似度矩阵RS2×S2。匹配规则是视图中的每个特征向量与另一视图中最相似的特征向量相匹配。具体地，对于Θ1的所有S2个特征向量，通过沿最后一个维度对相似度矩阵θ 2应用argmax运算来获得与Θ2匹配过程可以公式化为：ciargmaxsim（fi，f′j），（4）J其中fi是骨干特征映射F1的第i个特征向量，f′j是F2的第j个。sim（u，v）表示余弦相似性，其通过在归一化的u和v，i之间的点积来计算。例如，sim（u，v）uv/uv.所获得的ci表示从Θ1到Θ2匹配的S2中的第i个，这意味着Θ1的第i个特征向量匹配Θ2的第ci个。整个配对过程可能是通过矩阵运算有效地实现，从而引入可忽略的延迟开销。对于S1的最简单情况，匹配退化为全局对比学习中的匹配，因为两个全局特征向量之间自然存在单个对应关系，这是第3.1节中介绍的情况。根据提取的密集对应，在3.3节介绍的密集对比学习期间，可以很容易地找到每个查询r的正关键字t+。注意，如果没有全局对比学习项（即，例如， λ1），存在鸡和蛋的问题，即如果提取不正确的对应，则将无法学习好的特征，并且如果特征不够好，则将无法获得正确的对应。在我们的默认设置中，λ 0. 5、没有观察到不稳定的训练。除了在整个训练过程中设置λ（0，1）之外，我们还介绍了另外两种解决方案，它们也可以解决这个问题，详见4.6节。4. 实验我们采用MoCo-v2（Chen et al. ，2020 a）作为我们的基线方法，如表1所示，其显示了最先进的结果，并且在下游对象检测任务上以较大的幅度优于其他方法。它表明，它应该成为一个非常强有力的基线，我们可以在此基础上证明我们的方法的有效性。技术细节。我们改编了陈的大部分设置等人（2020a年版）。除非另有说明，ResNet-50（He et al. ，2016年）被采用为骨干。下面的全局投影头和密集投影头都有固定维的输出。前者为每个输入输出单个128-D特征向量，后者输出密集的128-D特征向量。具体地，密集投影头由自适应平均池化（可选）、11卷积、ReLU和11卷积组成。Chen et al. （2020 b，a），隐藏层的维度是2048，并且最终输出维度是128。每个归一化的特征向量表示一个查询或键。对于全局和密集对比学习，字典大小设置为65536。动量为0.999。Shuffling BN（He et al. 2020年），在培训中使用。在Eq.（1）Eq. （2）设为0.2。数据增强流水线由224 224像素随机调整大小的裁剪，随机颜色抖动，随机灰度转换，高斯模糊和随机水平翻转。4.1. 实验设置数据集。预训练实验在两个大规模数据集上进行：MS COCO（Lin et al. ，2014）和ImageNet（Deng et al. ，2009年）。在预训练期间仅使用训练集，其分别为118k 和128 万张 COCO 和ImageNet表示两种图像数据。前者更自然，更真实，包含了野外的各种场景。它是对象级和像素级识别任务的广泛使用和具有挑战性的数据集，例如对象检测和实例分割。而后者是经过精心策划的，精心构建的图像级识别。一个明确的和定量的比较是感兴趣的对象的数量。例如，COCO总共有123k张图像和896k个标记对象，平均每张图像有7.3个对象，这远远超过ImageNet DET数据集预训练设置。对于ImageNet预训练，我们密切关注-低MoCo-v2（Chen et al. ，2020 a），并使用相同的训练超参数。对于包括基线和我们的COCO预训练，我们使用初始学习率0.3而不是原始的0.03，因为前者在COCO预训练时在MoCo-v2基线中表现出更好的我们采用SGD作为优化器，并将其权重衰减和动量设置为0.0001和0.9。每个预训练模型在8个GPU上进行优化，余弦学习率衰减时间表和256.我们为COCO训练了800个epoch，总共是368k次迭代。对于ImageNet，我们训练了200个epoch，总共100万次迭代。评估方案。我们通过对目标密集预测任务进行端到端的微调来评估预训练模型。针对不同的目标任务，采用Chal-Challening和流行的数据集对主流算法进行微调。例如，VOC对象检测、COCO对象检测、COCO实例分割、VOC语义分割和Cityscapes语义分割。在评估对象检测时，我们遵循通用协议，即在VOC trainval 07+12集上微调更快的R-CNN检测器（C4-主干），并使用Wu等人的标准2x时间表。（2019）并在VOC测试2007集上进行测试。此外，我们评估对象检测和实例seg-通过微调Mask R-CNN检测器（FPN主干）进行分段X. 王河，巴西-地 Zhang C.，中国古猿科 Shen等人视觉信息学7（2023）3035×b×××++表1在PASCAL VOC上微调的对象检测。表2对象检测和实例分割在COCO上进行了微调50 75 50‘CC’ and ‘IN’ indicate the Pre-training models trained onCOCO 在相同数据集上预训练的模型具有相同的训练时期，即。例如， COCO 为 800 epoch ， ImageNet 为 200epoch。其他方法的结果来自其论文或第三方实现。所有的检测器都在 trainval07+12 上训练了 24k 次迭代，并在test2007上进行了评估。度量包括VOC度量AP50（i. 例如，IoU阈值为50%）和COCO式AP和AP75。结果是5次独立试验的平均值。a指重新执行。与上COCOtrain2017分裂（118K图像）与标准1时间表和评估COCO 5kval2017分裂。我们遵循Tian et al.（2020）中的设置。同步批处理归一化用于骨干，FPN（Lin et al. ，2017年）和培训期间的预测头。对于语义分割，FCN模型（Long et al. ，2015年）在VOCtrain_aug2012集（10582张图像）上微调20k次迭代，并在val2012集上进行评估。我们还通过在train_fine集（2975张图像）上训练FCN模型进行40k次迭代并在val集上进行测试来评估 Cityscapes 数据集上的语义分割。我们遵循mmsegmentation（OpenMMLab，2020）中的设置，除了前7 7卷积保持与预训练的模型一致。批量大小设置为16。使用同步批处理规范化VOC的裁剪尺寸为512（Everingham et al. ，2010）和769个城市景观（Cordts et al. ，2016年）。4.2. 主要结果PASCAL VOC对象检测。在表1中，我们报告了PASCAL VOC的目标检测结果，并将其与其他最先进的方法进行了比较。当在COCO上进行预训练时，我们的DenseCL比MoCo-v2基线高出2%AP。当在ImageNet上进行预训练时，MoCo-v2基线已经超过了其他最先进的自监督学习方法。DenseCL仍然产生1.7%的AP改进，强烈证明了我们方法的有效性。所有三个指标的收益都是一致的。应该注意的是，与AP50相比，我们在更严格的AP75上实现了更大的改进，这表明DenseCL在很大程度上有助于提高定位精度。与有监督的ImageNet预训练相比，我们实现了4.5%的AP增益。COCO对象检测和分割。COCO上微调Mask R-CNN的对象检测和实例分割结果如表2所示。对于目标检测，当在COCO和ImageNet上进行预训练时，DenseCL分别比MoCo-v2高出1.1%AP和0.5% AP对于实例分割，增益为0.9% AP和0.3% AP请注意，使用COCO预训练模型对COCO进行微调但明显的改善仍然显示了有效性。在表3中，我们通过微调FCOS（Tian et al. ，2019 b）COCO对象上的对象检测器'CC'和'IN'分别表示在COCO和ImageNet上训练的预训练模型。所有检测器均在train2017上进行训练，默认时间表为1，并在val2017上进行评估。度量包括边界框AP（AP）和掩码AP（APm）。表3FCOS物体探测器在COCO上进行了微调。预训练APAP50AP75随机初始化24.939.126.3super. 在39.458.442.4MoCo-v2 CC37.155.739.7DenseCLCC38.857.441.8MoCo-v2 IN38.957.442.0DenseCLIN39.758.342.9'CC'和'IN'表示在COCO和ImageNet上训练的预训练模型。检测器在train2017上使用默认1时间表进行训练，并在val2017上进行评估。侦测FCOS和DenseCL都是完全卷积密集的范例，类似于语义分割。如图所示，对于COCO和ImageNet预训练，DenseCL分别比MoCo-v2提高了1.7% AP和0.8% AP请注意，增益比微调Mask R-CNN更重要（COCO预训练的1.7% AP与1.1% AP）。这表明全卷积网络从DenseCL预训练中受益更多PASCAL VOC语义分割。我们展示了语义分割的最大改进。如表4所示，当在COCO上进行预训练并在VOC语义分割上微调FCN时，DenseCL产生3%的mIoU增益COCO预训练的DenseCL实现了与ImageNet预训练的MoCo-v2相同的67.5% mIoU请注意，与200 epoch的Ima-geNet预训练相比，800 epoch的COCO预训练只使用了101/ 10的图像和101/ 3的迭代。在ImageNet上进行预训练时， DenseCL 始终带来1.9% 的mIoU 增益。应该注意的是，ImageNet预训练的MoCo-v2与监督的对应物相比没有显示出转移优势（67.5% vs.67.7% mIoU）。但DenseCL的性能远远优于有监督的预训练，即。例如，1.7%的mIoU。城市景观语义分割。城市景观是一个基准与上述VOC和COCO有很大不同。它专注于城市街景。然而，在表4中，我们观察到使用DenseCL的相同性能提升。即使是COCO预训练的DenseCL也可以超过有监督的 ImageNet预训练模型1.9% 的mIoU。4.3. 半监督微调为了验证我们的预训练模型在半监督设置中的有效性，我们对下游任务的预训练模型进行了微调，只有10%的训练数据。语义分割我们对两个数据集进行半监督语义分割，即。例如，PASCAL VOC和城市景观。对于这两个数据集，我们只使用了10%的训练数据，即10k预训练APBAPBAPBAPmAPmAPm75随机初始化32.850.935.329.947.932.0super. 在39.759.543.335.956.638.6MoCo-v2 CC38.558.142.134.855.337.3DenseCLCC39.659.343.335.756.538.4辛伐他汀38.558.042.034.855.237.2自带38.457.941.934.955.337.5MoCo-v2 IN39.859.843.636.156.938.7DenseCLIN40.359.944.336.457.039.2预训练APAP50AP75随机初始化32.859.031.6super. 在54.281.659.8MoCo-v2 CC54.781.060.6DenseCLCC56.781.763.0Simplain（Chen et al. 、2020年b）51.579.455.6BYOLIN（Grill et al. ，2020年）51.981.056.5MoCoIN（He et al. ，2020年）55.981.562.6MoCo-v2IN（Chen et al. 、2020年a）57.082.463.6MoCo-v2 INa57.082.263.4DenseCLIN58.782.865.2X. 王河，巴西-地 Zhang C.，中国古猿科 Shen等人视觉信息学7（2023）3036====−表4基于 PASCAL VOC 和 Cityscapes 的语义分割。(A) Pascal VOC预训练Miou随机初始化40.7super. 在67.7MoCo-v2 CC64.5DenseCLCC67.5辛伐他汀64.3自带63.3MoCo-v2 IN67.5DenseCLIN69.4(B)城市景观预训练Miou随机初始化63.5super. 在73.7MoCo-v2 CC73.8DenseCLCC75.6辛伐他汀73.1自带71.6MoCo-v2 IN74.5DenseCLIN75.7'CC'和'IN'分别表示在COCO和ImageNet上训练的预训练模型。度量标准是常用的平均IoU（mIoU）。结果是5次独立试验的平均值。表5基于PASCAL VOC和Cityscapes的半监督语义分割。(A)Pascal VOC预训练Miou随机初始化30.7super. 在51.9MoCo-v2 CC46.4DenseCLCC50.7MoCo-v2 IN49.4DenseCLIN52.6(B)城市景观预训练Miou随机初始化56.1super. 在63.7MoCo-v2 CC63.0DenseCLCC65.1MoCo-v2 IN64.4DenseCLIN65.1在微调期间，仅使用10%的训练数据。'CC'和'IN'分别表示在COCO和ImageNet上训练的预训练模型。度量标准是常用的平均IoU（mIoU）。结果是5次独立试验的平均值。PASCAL VOC的图像和Cityscapes的300个图像。评估与完全监督设置相同。如表5所示，DenseCL预训练的优越性进一步增加。在COCO和ImageNet上进行预训练时，DenseCL分别比MoCo-v2获得了4.3%的mIoU和3.2%的 mIoU增益目标检测和分割。同样，我们在COCO数据集上进行半监督对象检测和实例分割。在微调过程中仅使用了100000张图像（10%）在COCO和ImageNet上进行预训练时，DenseCL分别比MoCo-v2高出1.3% APb和1.0% APb应该注意的是，增益比完全监督设置的增益更显著，该完全监督设置在处理期间使用所有的100118k图像微调例如，当在ImageNet上进行预训练时，MoCo-v2与监督预训练相当，而我们的表现明显优于ImageNet监督预训练的1.2% APb和0.8% APm。在标准的半监督学习设置中，使用不带标签的训练图像进行预训练，并对带标签的一小部分图像进行微调，COCO预训练的DenseCL已经击败了ImageNet监督预训练（见表6）。强骨干的收益也清楚地证明了我们的预训练方法的有效性（见表8）。4.4. 冻结主干微调与图像分类中的线性评估协议类似，我们对语义分割和对象检测执行冻结骨干微调，以评估预训练模型的学习表示。具体来说，预训练模型的权重被冻结，并且在下游微调期间不会更新。只有少数参数被更新，用于将提取的骨干特征转换为最终的密集预测。例如，在一个实施例中，每个像素的语义类别。如表7所示，ImageNet预训练的DenseCL在VOC语义分割上产生了63.0%的mIoU，显著超过了监督预训练与MoCo-v2相比，在COCO和ImageNet上进行预训练时，我们分别实现了8.8% mIoU和5.1%mIoU的改进4.5. 消融研究我们进行了广泛的消融实验，以显示每个组件如何我们报告了通过对COCO进行预训练和对VOC 0712对象检测进行微调的消融研究，如第4.1节所述。所有的检测结果都是在5次独立试验中平均的我们还提供了VOC2007 SVM分类的结果，继Goyal等人。（2019），Zhanet al. （2020），其使用从冻结主干提取

下载后可阅读完整内容，剩余1页未读，立即下载