监督预训练的可移植性：MLP视角

137 浏览量更新于2023-10-25 收藏 1.1MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

9183再论监督预训练的可移植性：MLP视角王一舟1，3张伟，唐世祥2，朱峰3，雷白2，赵瑞3，4，齐东联1，欧阳万里21浙江大学，2悉尼大学，3商汤科技，4中国上海交通大学清源研究院{yizhouwang，qidl} @ zju.edu.cn，stan3906@uni.sydney.edu.au，baisanshi@gmail.com，{zhufeng，zhaorui} @ sensetime.com，wanli. sydney.edu.au摘要预训练微调范式是视觉学习中的经典管道。无监督预训练方法的最新进展显示出优于有监督方法的迁移性能。本文重新审视了这一现象，并从多层感知器（MLP）的角度为理解无监督和监督预训练之间的可移植性差距提供了新的思路。虽然以前的工作[6，8，17]专注于MLP在无监督图像分类中的有效性，其中预训练和评估是在同一数据集上进行的，但我们发现MLP投影仪也是无监督预训练方法比监督预训练方法更好的可在此基础上，我们尝试通过在有监督预训练中的分类器之前添加MLP投影器来缩小有监督预训练和无监督预训练之间的可移植性差距。我们的分析表明，MLP投影仪可以帮助保留视觉特征的类内变化，减少预训练和评估数据集之间的特征分布距离，并减少特征冗余。在公共基准测试上的广泛实验表明，增加的MLP投影器显著提高了监督预训练的可移植性，例如。在概念泛化任务上的top-1准确率为+7.2%，在12域分类任务上的线性评估的top-1准确率为+5.8%，以及COCO对象检测任务的AP为+0.8%，使得有监督的预训练与无监督的预训练相当甚至更好。1. 介绍虽然交叉熵损失1（SL）的监督学习是计算机虚拟现实中事实上的预训练范式学习方法[3-这就提出了一个问题，为什么无监督预训练优于有监督预训练，即使有监督预训练使用具有丰富语义信息的注释。几项工作试图通过以下两个原因来解释无监督预训练比监督预训练更好的可移植性：（1）在注释中没有语义信息的情况下学习[16，37，45，53]，这使得骨架对语义标签的过拟合较少，以保留可能在转移任务中有用的实例特定信息，以及（2）对比损失的特殊设计[22，23，53]，这有助于学习的特征包含更多的低/中级信息，以便有效地转移到下游任务。这些作品从超视和损失设计的角度出发，为更好的可移植性提供了直观的在本文中，我们通过考虑多层感知（MLP）投影仪来理解可转移性。虽然以前的工作[6，8，17]验证了其在无监督图像分类任务中的有效性：在相同的ImagNet-1 K数据集上进行无监督训练和评估模型，但他们没有彻底和严格地探索其在传输任务中的有效性。如果没有严格的实验或理论分析的支持，将MLP在无监督图像分类任务上的有效性扩展到下游任务并不简单，因为当存在较大的语义差距时，预训练任务的性能并不总是预测转移任务的性能[16，35，43]。据我们所知，我们是第一个确定的MLP投影机的核心因素的可转移性与深入的实证和理论分析。根据这一新的观点，我们发现，一种简单而有效的方法，增加一个MLP投影仪，可以提高传统的可转移性[14，20，26，39]长期以来，最近无人监督1在本文中，我们专门使用符号“SL”来表示具有交叉熵损失的这项工作是在商汤科技实习期间完成的。†同等贡献。‡通讯作者。9184→具有交叉熵损失（SL）的监督预训练方法与代表性的非监督预训练方法相当或甚至更好具体来说，我们在ImageNet-1 K上使用概念泛化任务[37]，其中预训练和评估数据集具有很大的语义距离，作为分析不同模型可移植性我们的实验结果和相应的分析表明，无监督预训练方法中的出于这一观察，我们插入一个MLP投影机之前的分类SL，形成SL-MLP。添加的MLP可以提高监督预训练的可移植性，使监督预训练与无监督预训练相当甚至更好。SL和SL-MLP的实验结果显示了三个有趣的发现：1）添加的MLP保留了预训练数据集上的类内变化2）增加的MLP减少了预训练数据集和评估数据集之间的特征分布距离; 3）增加的MLP减少了预训练数据集中的特征冗余。我们还提供了理论分析如何保留类内变化和减少的特征分布距离，提高目标数据集上的性能，通过添加一个MLP投影仪。大量的实验结果证实，将MLP投影仪添加到监督预训练方法（SL）中可以始终如一地提高模型在各种下游任务上的可移植性。具体而言，在概念概括任务[37]中，与SL（55.9% 63.1%）相比，SL-MLP将前1名准确率提高了+7.2%。它的性能（ 64.1%）也优于Byol（62.3%），在300个epochs的预训练设置中+1.8%。在12个跨域数据集[22]的分类任务中，SL-MLP 平均将SL提高了+5.8%的准确度。此外，SL-MLP在COCO对象检测上显示出比SL更好的可转移性[25]，通过+0.8%AP。MLP投影仪带来的这些改进可以在很大程度上弥合监督和无监督预训练之间的可移植性差距，如第12节所述。五点二。本文的主要贡献有三个方面。(1)我们发现，MLP投影仪是现有的无监督和监督学习方法之间的可转移性差距的主要因素。（2）我们经验性地证明，通过添加MLP投影器，监督预训练方法可以具有与代表性的无监督预训练方法相当甚至更好的可移植性。(3)我们从理论上证明了MLP投影器可以通过保留类内特征变化来提高预训练模型的可移植性。2. 相关作品无监督学习方法中的MLP在编码器之后增加一个多层感知器（MLP）投影仪Simplified [6]中引入，随后是最近的无监督学习框架[3，7Simplified声称MLP可以减少由对比损失引起的信息损失，并且各种工作[6，8]已经验证了MLP投影仪可以增强无监督图像分类任务上无监督模型的区分能力，其中无监督训练和评估是在同一数据集上进行的然而，MLP和无监督学习方法的可移植性之间的关系尚未得到充分探讨。在本文中，我们发现MLP投影仪对于无监督学习的可移植性也很重要。监督学习方法中的MLP。典型的监督学习方法（SL）仅使用交叉熵损失，在各种迁移任务上表现出比最近的无监督学习方法更差的性能。受[15，48]的启发，最近的作品[22，23]将配备MLP投影仪的对比度损失引入SL以提高其可转移性。然而，这些研究忽略了MLP的消融，并将其良好的传递性能归因于损失中的对比机制。在本文中，我们通过实证和理论分析提出，MLP对于最近监督学习方法的改进可移植性很重要[22，23]。监督学习和非监督学习之间的可移植性差距。以前的作品将无监督学习的优越可移植性归因于缺乏注释[16，37，45，53]或对比的特殊设计。[22，23，40，53]。与这两个原因不同，我们通过考虑监督和无监督学习框架之间的架构差异来从这个角度来看，我们分析了MLP投影仪在监督和无监督学习方法中的作用，并且是第一个确定其对模型可移植性的关键3. 无监督和有监督预训练方法的可移植性分析3.1. 概念概括任务我们使用概念泛化任务[37]来分析无监督和监督预训练方法之间的可转移性差距数据准备Sariyildiz等人[37]评估了预训练和评估数据集具有语义距离时方法的可移植性。他们的实验结果表明，语义距离越大，不同预训练方法之间的准确率差异越大。因此，我们扩大了预训练和评估数据集之间的语义差距，以帮助我们比较不同的预训练方法。Sariyildiz等人[37]使用WordNet [29]中的结构，并将ImageNet-21 K [13]划分为六个具有不同语义距离的类独占数据集9185第五阶段分类器Stage1分类器Stage2分类器三级分级机第四阶段分类器Conv1Layer1Layer2第3层第4层图1.分阶段评估示意图我们从不同的阶段平坦十个中间特征图，然后用它们来训练阶段分类器。通过使用逐阶段分类器在eval-D中评估图像来报告前1准确度一个用于预培训，另一个用于评估。在不失一般性的情况下，我们基于ImageNet-1 K [36]构建了一个较小的预训练数据集（pre-D）和评估数据集（eval-D）Pre-D包含了652类生物，而eval-D包含了其他348类工具。可转移性评估。在[37]之后，为了评估可移植性，我们冻结了预训练骨干2中的所有参数，并使用eval-D中的ImageNet-1 K训练样本微调分类器，以报告eval-D中ImageNet-1 K验证样本的前1名准确度。3.2. 对现有方法受作品[22，50，53]的启发，我们通过评估中间特征图的可转移性（图1），对传统的监督预训练方法（SL）和现有的代表性非监督预训练方法（Mocov 1[18]，Mocov 2 [8]，Byol [17]）进行了全面的阶段调查在pre-D上对模型进行预训练后，我们冻结所有模型参数，并使用eval-D中提取的图像中间特征图来微调逐阶段分类器，以进行逐阶段线性评估。这些现有方法的评估结果描述于图2中（图例上加下划线）。我们的阶段性评估显示了两个新的发现，还没有被现有的工程报告。首先，在从阶段1到阶段4的阶段评估中，SL始终高于Byol、Mocov 1和Mocov2，这表明注释中的语义信息可以有益于低/中级特征图的可转移性。第二，在从阶段4到阶段5的阶段通过仔细检查这些方法，我们注意到SL、Mocov1图2.阶段评估的最佳准确性。所有方法都使用ResNet50作为其骨干，并在原始论文中设置了300个epoch。第4层合并特征的线性评价结果（见图1）在图例中报告。在 Byol 和 Mocov2 中的阶段 5 之后出现，这在 SL 和Mocov1中不存在。这种差异，连同图中的实验结果2，导致了一个新的假设，MLP投影仪可能是无监督预训练的理想可转移性的核心因素。3.3. MLP改进了无监督预训练方法的可移植性为了证实我们对非监督预训练方法的有效性的假设，我们使用阶段评估消除了现有非监督方法上的MLP具体来说，我们将Byol和Mocov 2中的MLP投影仪删除为Byol w/o MLP和Mocov 2 w/o MLP，并将MLP投影仪添加到Mocov 1中作为Mocov 1 w/ MLP。图2总结了这些消融的阶段评估结果。我们用实线表示有MLP投影仪的方法，用虚线表示没有的方法。这些消融结果为我们提供了两个观察结果。首先，当评估层4池化特征（在图例中描述）时，具有MLP投影器的无监督学习方法比它们的没有MLP投影器的变体实现了更好的可移植性，例如，Byol、Mocov 1 w/MLP、Mo-cov 2的准确度比Byol w/o MLP、Mocov 1和Mocov 2 w/o MLP高+23。百分之三，+5。1%和+3。7%，恢复正常。第二，在从阶段4到阶段5的逐阶段评估通过添加MLP投影仪的这些一致的改进经验地表明，MLP投影仪对于无监督预训练的可转移性是重要的。虽然可能存在一些其他的非线性结构，可以提高可转移性，我们只探讨从MLP的角度在本文中，因为它的简单性和证明的有效性。Mocov 2和Byol在阶段5之后：MLP投影仪在-3我们不直接比较Mocov1和Mocov2，因为Mocov22所有实验在SEC。3、第二。4.使用ResNet50。有更多的增强和不同的学习率时间表。最终分类器池化9186∈····(a) 迁移学习(b) 我们的SL-MLPMLP前DCE损失前DCE损失下游任务损失eval-D下游任务损失(i) SL(iii) SupCon（不含MLP）(v) Byol（不含MLP）图3. SL和SL-MLP的区别与SL相比，我们的SL-MLP在分类器之前添加了MLP。只有在这两种方法中的编码器用于下游任务。4. MLP可以增强监督预训练(ii)SL-MLP(iv) SupCon(vi) BYOL4.1. SL-MLP：将MLP投影仪添加到SL在SEC的实证结果的动机。3、一个值得注意的问题是，MLP投影器是否也可以促进监督预训练的可移植性我们尝试在SL分类器之前插入一个MLP投影仪，以获得更好的可移植性。我们将这种有监督的预训练方法表示为SL-MLP （见图2）。3、比较一下）。具体地，SL-MLP包括特征提取器f（）、MLP投影器g（）和分类器W。给定输入图像x，特征提取器输出特征f=f（x）。例如，当使用ResNet-50主干时，f（x）将图像x转换为2048维特征f。MLP投影器将f映射到投影向量g = g（f）。继Byol之后，MLP投影仪由两个完全连接的层组成，一个是批量归一化层，另一个是ReLU层，在数学上可以用公式表示为g（f）=fc2（ReLU（BN（fc1（f））））RDg，其中fc1和fc2是全连接层，MLP投影仪中的隐藏特征尺寸设置为4096，Dg设置为256.给定图像x的由y表示的标签，SL-MLP的目标函数可以用公式表示为：L（x）=CE（W·g（f（x）），y），（1）其中CE（）是交叉熵损失。与SL相同，只有学习的特征提取器f（）在监督预训练后用于下游传输任务。4.2. MLP在SL-MLPMLP投影仪避免了监督预训练中第5阶段的可转移性下降。我们作为SEC进行阶段性评估。3.2再次查看在SL-MLP中是否存在从阶段4到阶段5图如图6（a）所示，SL-MLP的可转移性从阶段1到5连续增加，避免了在阶段5作为SL的降低。此外，我们观察到SL-MLP的可转移性高于Byol从阶段1到4，这表明注释有利于中间特征图的可转移性。MLP投影器扩大了特征的类内变化。根据[22，53]，具有较大类内变化的特征可以保留更多的实例判别信息，这有利于迁移学习。我们揭示图4.不同方法的可视化与10个随机选择的类pre-D。不同的颜色表示不同的类。由没有MLP投影仪的预训练模型提取的特征（顶行）比由具有MLP投影仪的预训练模型提取的特征（底行）具有更少的类内变化。(i) SL（二）SL-MLP（三）Byol图5.pre-D和eval-D之间特征混合的可视化冷颜色表示从pre-D随机选择的5个类的特征，暖颜色表示从eval-D随机选择的5个类的特征添加MLP投影仪也可以扩大类内变化。我们比较了两种有监督的预训练方法，即，SL，SupCon [23]和一种无监督的预训练方法，即，Byol及其带有/不带有MLP的变体。定性地，我们在图4中通过t-SNE可视化他们在pre-D上学习的特征。SL-MLP、SupCon和Byol的特征的类内变异分别大于SL、SupCon w/o MLP和Byolw/o MLP。定量地，在LDA [1]之后，我们利用区分比率Ipre（Ipre）来测量pre-D的类内变化，其中Ipre表示pre-D（数学定义见第2.1节）。4.3）。较小的判别比通常意味着较大的类内变异4。比较图6（c）和图6（b），我们可以看到Byol和SL-MLP具有比SL更小的平均值（Ipre），但在eval-D上具有更高的准确性，这表明更大的类内变化可以有利于可移植性。此外，当仅检查SL时，我们可以看到eval-D的精度首先上升然后下降（210个epoch后）的过程，同时增加了Emax（Ipre）。这种现象可以在理论上解释。四点三。我们还在补充B.1中提供了不同预训练时期的类内变化的可视化MLP投影机减少了特征分布距离，4严格来说，较大的类内变异是相对于类间距离而言的，理论上定义为区分率。我们使用编码器编码器编码器eval-D编码器分类器任务头分类器任务头9187RR塞里河·.Ci=1。.C特征通道我和 JK. 作为605040302010第一阶段第二阶段第三阶段第四阶段第五（一）656055504550 100 150 200 250 300历元（b）第（1）款432150 100 150 200 250 300历元(c)图6. （a）对eval-D进行分阶段评价。（b）eval-D的线性评价精度。（c）前D上特征的鉴别率。在[17，19]之后，我们对SL，SL-MLP和Byol进行了300个epoch的预训练。0.90.80.70.60.50.4历元（一）0.060.050.040.03历元（b）第（1）款Byol 30062.3 0.037莫科夫1 300 54.1 0.069Mocov1，带MLP 30059.2 0.058300图7. （a）pre-D和eval-D之间的特征混合性。（b）在不同时期期间的预训练特征在[17，19]之后，我们对SL，SL-MLP和Byol进行了300个epoch的预训练。表1.预先训练的特征冗余。使用MLP的方法获得较低的信道冗余和更好的传输。在pre-D和eval-D之间。根据[2，27]，减小表示空间中pre-D和eval-D之间的特征分布距离可以有利于迁移学习。直观地说，当特征充分混合时，两组特征之间的分布距离很小（在补充A中提供可视化因此，我们比较了pre-D和eval-D中特征的混合性，以指示SL和SL-MLP之间的特征分布距离。在图形上，我们通过图5中的t-SNE可视化来自pre-D和eval-D的特征。我们观察到，与SL和SL-MLP相比，来自pre-D和eval-D的特征更加混合，表明MLP投影仪可以减轻pre-D和eval-D之间的分布距离。数量，我们-图7（a）中的时间点。SL的特征混合度逐渐减小，这表明SL会扩大pre-D和eval-D之间的差异。相比之下，SL-MLP和Byol显示出一致的高特征混合性，表明MLP投影仪可以减小pre-D和eval-D之间的距离。我们在补充B.2中可视化了特征混合性的演变MLP投影仪减少了功能冗余。受[52]的启发，高通道冗余限制了深度学习中特征表达的能力。在数学上，我们计算特征通道来评估特征冗余度R，即，DD在特征空间中的精细特征混合性，CevalC=d2|、|,ρ（i，j）=.Σn=1 fn，ifn，j. Σ1Σ。 top（i）Keval .i=1j=1Nn=1||2||2Nn=1||2||2（三）（二）=1 −。-，其中d=2048是特征维度，ρ（i，j）是Pear。SLByolSL-MLPSLByolSL-MLP5554180210240270300SLByolSL-MLPSLByolSL-MLPeval-D的前1准确度特征混合性（）特征冗余eval-D的前1准确度（Ipre）Σ0.09SLBYOL方法SLEP100顶部-1（↑）55.9R（↓）0.0780.08SL-MLPSL-MLP10063.10.0350.07SL30054.40.08750 10015020025030050100150200250SL-MLP30064.10.034Byol（不含MLP）30039.00.2479188K∈其中C=1000是ImageNet中的类总数-1 K，Ceval表示eval-D中的类数，topeval（i）表示在eval-D中找到的类的数量通过任意类i的前k个邻居搜索C. 以来从eval-D中找到样本的百分比（k最近）当pre-D和eval-D一致时，邻居是Ceval/C混合，特征混合性测量特征空间中当前和pre-D与eval-D之间的均匀混合分布我们检查SL，SL-MLP和Byol在不同预训练期间的如图7（b）所示，SL-MLP具有较低特征冗余度比SL，这表明MLP投影仪可以减少特征冗余在选项卡中。1、我们进一步确认，MLP投影仪可以减少特征冗余，通过消融MLP pro提高eval-D的准确性不同的预训练方法。4.3. 实证结果在这一节中，我们提供了一个理论分析，以揭示：1）最大化的判别比（Ipre）9189Σ→→C（C−1）j=1k=1，kJCj=1|Ij|（xi，yi）∈Ij距离，C是类的数量。µ（Ij）=我我121ΣΣ&（pre-D上的比率Rap（Ipre）导致eval-D上的辨别比率Rap（Ieval）降低（并且因此评估数据的准确性）。这种见解表明，当将模型转移到与预训练数据集具有更大语义距离的目标数据集时，我们应该图9.对可转移性的见解。Ipre）和Ieval）是判别比（等式10）。4）预训练和评估数据集。更高的可移植性（Ieval）表示更好的模型可移植性。绿线和蓝线分别显示了具有小语义差距和大语义差距的评估数据集上的性能曲线预训练数据集上的模型高于某个阈值将导致可转移性下降（图9中的蓝/绿线所示）; 2）当预训练数据集和评估数据集之间的语义间隙较大时，阈值较小（图9中的t1 ts）第9段）。在数学上，数据集I上的判别比λ（I）可以由LDA[1]定义为：D帧间（I）/D帧内（I），（4）其中Dinte r（I）=1CC||µ（Ij）−µ（I k）||2是的类间距离Dintra（I）=5. 实验5.1. 实验装置数据集。对于主干分析，我们继续使用第二节中描述的概念泛化设置第3.1条对于其他分类任务的通用化，我们遵循[22]中的设置，该设置在整个ImageNet-1 K数据集上预训练模型，然后评估来自不同领域的12个分类数据集[10-此外，COCO [25]数据集用于评估由ImageNet-1 K [36]预训练的SL-MLP在对象检测任务上的性能。续费对于SL和SL-MLP预训练，交叉熵被部署为损失函数。在SL-MLP中部署的MLP投影仪在第2节中描述4.1. 在[20]之后，我们使用具有余弦衰减学习率为0.4的SGD优化器Byol被用作COM的代表性方法，1摄氏度（1）||（2 ）内部类||2)istheintra-class骨干分析和对象检测中的型坯关注-ing [17]，我们使用具有余弦衰减的LARS优化器[51]1（x，y）∈Ifi是类别Ij中的特征的中心，并且f是Sec中的特征4.1. 较高的判别率意味着较高的分类精度。受文[26]的启发，我们分析了《论》第一章（补充C）中的“前”与“后”定理1给定ψ（Ipre）<（I pre），将批量大小设置为4096，并将初始指数移动平均参数τ设置为0.99。除了主干分析，我们使用ResNet50作为默认主干。不同主干和不同方法的更详细预训练设置见补充H.1。其中t是与特征分布距离负相关的阈值。对类内变化的见解。定理1揭示了当区分比Ipre大于t时，在预训练数据集上连续最小化类内变化（最大化区分比）将降低模型的可移植性。它解释了图6（b）和图6（c）中的观察结果，即具有超过210个时期的训练导致pre-D上的更好性能，但eval-D上的可移植性较差这种见解表明，在设计目标函数或网络架构时，我们不应该使预训练数据集上的类内变化太小（例如，添加MLP投影仪）。对特征分布距离与阈值t之间关系的见解。当预训练数据集和评估数据集之间的特征分布距离较大时，阈值t较小，在这种情况下，更容易产生增加区分度的不良效果。5.2. 实验结果概括具有不同主干的看不见的概念。我们使用具有不同骨架的概念概括任务验证了添加的MLP投影器在SL上的有效性。以下是第2节中提到的评估方法3.1中，我们用冻结的主干训练线性分类器100个epoch，并在表1中报告eval-D的前1名准确率。二、首先，SL-MLP在不同的骨干网中获得了比SL更好的性能具体来说，使用ResNet 50，SL-MLP将SL提高到63.1（+7.2%），而我们只对模型进行了100个epoch的预训练，这弥合了SL和Byol之间的性能差距。在300个epoch的设置中，SL的可移植性比100个epoch的设置有所下降（55.9%~ 54.4%），但SL-MLP的可移植性继续增加（63.1%~ 64.1%）。其次，当两者都训练了300个epoch 时， SL-MLP （ 64.1% ）的性能优于 Byol（62.3%）。实验结果见表1。2也证实了SL-MLP可以持续改善反式-语义鸿沟（学习率时间表和10个时期的预热，Ij训练网络。初始学习率设置为4.8。我们J9190×R表2.概念概括任务。我们报告了SL-MLP、Byol和SL在各种主链上的评估D的Top-1准确度。SL- MLP和Byol共用同一台MLP投影机。方法架构标签MLP Epochs Top-1（↑）SL ResNet 50 100 55.9SL-MLP ResNet 50网络100 63.1补充一。此外，通过比较SupCon、SL-MLP和SupConw/o MLP、SL，我们得出结论，MLP投影器而不是对比度损失在增加可转移性方面起关键作用。我们的结论与以前的工作[22，53]相反，因为他们忽略了对比损失之前的MLP投影仪。推广到物体检测。我们评估可转移性-Byol ResNet50SL ResNet50✓30062.3✓300 54.4利用MLP投影仪对COCO天体的亮度改善SL-MLP ResNet 50网络30064.1SL ResNet34 100 50.1SL-MLPResNet34✓ ✓10055.0BYOLResNet34✓30054.8SLResNet34✓30050.2SL-MLPResNet34✓✓30055.8SLResNet101✓10056.0SL-MLPSLResNet101ResNet101✓✓✓10030063.653.9SL-MLPResNet101✓✓30064.7SLSwin-tiny✓10058.9SL-MLPSwin-tiny✓✓10060.6SL高效Netb2✓10057.6SL-MLP高效Netb2✓✓10064.2表3.目标检测结果。所有方法都在ImagNet-1 K上进行预训练，然后使用基于Detectron 2的Mask-RCNN（R50- FPN）在COCO上进行微调[46]。辅助核算还有Unsup分别是监督学习和无监督学习的缩写。方法的结果来自[48]。方法辅助核算不好时代APAP50 AP75SL✓10038.959.6 42.7SL-MLP系列10039.760.443.1[47]第四十七话20037.457.640.6[30]第三十话20037.557.641.0SwAV [3]20038.560.441.4莫科沃[8]20038.959.442.4美国[17]30039.460.443.2SL系列30040.161.143.8SL-MLP系列30040.761.844.2SL在各种主链上的可传递性，例如，[20]第28话：“你是我的朋友，我是你的朋友。Swin-tiny由于其良好的特征混合度（0.86）而实现相对较小的增益（+1.7%第7（a）段。推广到其他分类任务。为了评估添加的MLP是否可以帮助SL在跨域任务中更好地传输，在[22]之后，我们在ImageNet-1 K上预训练模型，并在来自不同领域的12个分类数据集上评估可移植性。如Tab中所示。4、使用 MLP 投影器的监督预训练方法，即，[ 23 ][24][25][26][27][28][29 SL和SupCon w/o MLP在线性评价上的平均 Top-1 准确度分别提高 5.79% 和13.71%。在微调和少量学习设置中可以观察到一致的结果。多个结果检测任务我们遵循[18]中的设置，用1个时间表微调整个网络。在选项卡中。 3 ，我们使用 Mask-RCNN（R50-FPN）报告结果，如补充H中所详述。当两者都经过100个epoch的预训练时，SL-MLP在对象检测上的表现比SL（没有MLP）好+0.8 AP。如果监督和无监督预训练都使用MLP，则通过100个epoch预训练的SL-MLP比无监督预训练实现更好的性能（例如，SwAV和Mocov2），其用200个epochs预训练当两者都预训练超过300个epoch时，SL- MLP显示出比Byol更好的性能，具有+1.3 AP。5.3. 消融研究MLP中不同组件的有效性。在这一部分中，我们研究了MLP投影仪中不同组件的影响。我们将MLP的隐藏单元和输出维数设置为2048，以保持输出特征的维数与SL相同。通过递增地添加组件来构造变体：（a）无MLP投影器;（b）仅输入FC;（c）输入FC+BN+输出FC;(d) 输入FC+ReLU+输出FC;（e）BN+ReLU。所有实验都在pre-D上预训练超过100个时期。如Tab.所示。5、SL-MLP在所有变体中达到最佳精度。在补充D.3中，我们从定性和定量的角度分析了不同成分对前D的鉴别率、特征混合度、特征冗余度此外，我们还观察到一个有趣的现象。5（e）仅插入轻量级BN-ReLU也实现了良好的传输性能。由于这不是我们的主要关注点，我们将在未来的工作中对其进行研究时代和层次。图10（a）示出了添加一个MLP投影仪实现了最佳可转移性。此外，当增加一个MLP投影仪时，较大的预训练时期有利于SL-MLP的可移植性，但当使用多个MLP投影仪时，其影响不大。SL-MLP对批量大小不太敏感大多数无监督方法依赖于大的小批量来训练具有强可移植性的表示。为了研究SL-MLP对批量大小的敏感性，我们在300个时期内对Byol的批量大小从256到4096以及SL-MLP的批量大小从1024进行了实验如图10（b）所示，当批量减小时，Byol的可转移性下降。相比之下，SL-MLP的可转移性在批量大小变化时保持不变SL-MLP对增强不太敏感。无监督方法受益于更广泛的颜色空间等9191表4.在12个分类数据集上对固定骨干、全网络微调和少量学习性能进行线性评估，以获得最佳准确度。所有模型都使用相同的代码库预训练了300个epoch，除了SelfSupCon（Mocov2）使用[22]中所示的结果预训练了400个epoch。平均结果风格：最好，第二好。方法ChestX作物病害DeepWeedsDTDEuroSAT花102考科雷OmniglotResisc45草图SVHNISIC平均线性评价SL45.4596.8084.0266.2295.0783.6975.4064.1485.3667.8267.1379.5875.89SL-MLP49.8999.0287.8672.6196.6393.4681.1276.7391.6674.5175.1681.5381.68SupCon（不含MLP）41.3891.5273.1662.9389.8473.2366.3844.5476.5555.2161.4568.5467.06SupCon47.7198.7985.6674.2095.8392.2479.4273.4291.1476.8074.2679.7880.77SelfSupCon†48.0899.0687.8872.7196.9789.6281.6769.6690.8869.1269.9581.5179.70使用1000个训练样本SL40.8694.3186.9562.1294.0588.9478.2246.1680.3214.1782.1678.2870.54SL-MLP42.3494.4889.6463.9095.3090.2077.9846.6683.1317.3280.1978.8271.66SupCon（不含MLP）41.7293.5284.9558.0995.1588.2378.9545.6880.6314.3982.2577.9670.12SupCon41.8493.4688.7061.8194.5491.2878.3546.0281.6215.8481.8578.5171.15SelfSupCon†43.0993.9588.1062.9595.4788.9279.4145.3381.1410.5782.3778.2770.885-5路少炮分类SL25.6489.0754.3278.5882.9693.1446.1492.8284.1787.0638.0341.2267.76SL-MLP26.8993.4559.0883.0487.1696.8850.7795.7389.0089.8441.9646.7671.71SupCon（不含MLP）23.6275.6449.3473.0473.9082.1638.1067.8775.1881.0134.9235.1659.16SupCon26.1894.0959.3685.0287.9796.5551.0294.4989.0189.7541.6743.4871.55图10. (Left（a）不同预训练时期和MLP投影仪数量的Top-1准确率。（b）不同批量的Top-1准确度。（c）具有不同预训练增强的前1准确度。表5. MLP投影机结构设计的实证分析。我们对模型进行了100个epoch的预训练，并将输出维度设置为2048。报告了eval-D的前1准确度组件6. 局限性和结论在本文中，我们研究了监督和无监督预训练之间的可移植性差距。根据实验结果，我们确定MLP投影仪是一个关键Exp输入FC BN ReLU输出FC+参数Top-1无监督预训练方法的良好可移植性的因素。通过在监督预训练方法中加入MLP投影器，我们缩小了监督预训练和无监督预训练之间的差距我们的发现得到了对不同骨干网络和各种下游任务（包括概念泛化）的广泛实验的预训练期间的强化增强，当一些增强缺失时，这总是导致不期望的退化。仅使用水平翻转训练的监督模型可能表现良好[53]。我们将Byol的增强设置通过逐步去除增广，比较了SL-MLP和Byol算法SL-MLP和Byol的实验都是在它们的默认条件下构造的，只改变了增广。结果如图10（c）所示。我们发现，SL-MLP继承了SL的鲁棒性，并表现出一点精度下降与简单的增强。任务、跨域图像分类和目标检测。虽然MLP是一个简单的设计，更好的transferability，可能存在一些简单的设计的目标函数，我们留给未来的工作。7. 确认本工作得到了浙江省重点研发项目（ No.2022C01056 ）、浙江省自然科学基金（ No.LQ21F030017 ）、国家自然科学基金（No.62127803）和河套深港科技创新合作区（HZQB-KCZYZ-2021045）的资助(a)/55.9(b)4.196米56.6(c)澳门新萄京8.395M61.0(d)澳门新萄京8.391M60.1（e）价格0.004M60.5SL-MLP澳门新萄京8.395M62.59192引用[1] 苏雷什·巴拉克里希纳玛和亚拉文·甘纳帕提拉朱线性判别分析简明教程。信号与信息处理研究所， 1 - 8（1998）：1-8，1998. 四、六[2] John Blitzer，Koby Crammer，Alex Kulesza，FernandoPereira，and Jennifer Wortman.学习领域适应的界限神经信息处理系统进展，20：129-136，2007。5[3] Mathilde Caron ， Ishan Misra ， Julien Mairal ， PriyaGoyal，Piotr Bojanowski，and Armand Joulin.无监督学习视觉特征对比聚类分配。 arXiv 预印本 arXiv ：2006.09882，2020。一、二、七[4] MathildeCaron ， HugoTouvron ， IshanMisra ， Herve'Je'gou ， Julien Mairal ， Piotr Bojanowski ， and ArmandJoulin.自我监督视觉转换器中的新兴特性。arXiv预印本arXiv：2104.14294，2021。1[5] Kai Chen，Lanqing Hong，Hang Xu，Zhenguo Li，andDit-Yan Yeung. Multisiam：用于自动驾驶的自监督多实例连体表示学习。在IEEE/CVF计算机视觉国际会议论文集，第7546-7554页，2021年。1[6] 陈婷，西蒙·科恩布里斯，穆罕默德·诺鲁齐，和葛offrey Hinton.视觉表征对比学习的一个简单框架国际机器学习会议，第1597-1607页。PMLR，2020年。一、二[7] Ting Chen ， Simon Kornblith ， Kevin Swersky ，M

下载后可阅读完整内容，剩余1页未读，立即下载