自我监督：无监督FSL方法中的有效表示学习

17 浏览量更新于2023-11-30 收藏 793KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2255获取更多论文自我监督可以是一个很好的少数学习者卢宇宁1人，文良健2人，刘建庄2人，刘雅静1人，田新梅1人， 3人1中国科学技术大学2华为诺亚3合肥综合性国家科学中心人工智能研究院{lyn0，lyj123} @ mail.ustc.edu.cn，xinmei@ustc.edu.cn，{wenliangjian1，liu.jianzhuang} @ huawei.com抽象的。现有的少样本学习（FSL）方法依赖于使用大型标记数据集进行训练，这阻止了它们利用大量未标记数据。从信息论的角度来看，我们提出了一个有效的无监督FSL方法，学习表示与自我监督。遵循InfoMax原则，我们的方法通过捕获数据的内在结构来学习全面的表示具体来说，我们最大化的互信息（MI）的实例和他们的代表与低偏MI估计执行自我监督的预训练。我们的自监督模型对可见类的偏见较小，而不是监督预训练专注于可见类的可辨别特征我们解释了监督预训练和自我监督预训练实际上是最大化不同的MI目标。进一步进行了大量的实验，以分析他们的FSL性能与各种培训设置。令人惊讶的是，结果表明，在适当的条件下，自我监督的预训练可以优于监督的与最先进的FSL方法相比，我们的方法在广泛使用的FSL基准测试中实现了相当的性能，而无需任何基类标签。关键词：少镜头图像分类，自监督学习1介绍用有限的数据训练一个可靠的模型，也被称为少镜头学习（FSL）[22，43，48，53，59，65，71]，在计算机视觉中仍然具有挑战性FSL的核心思想是学习一个先验知识，可以解决未知的下游任务。尽管有各种动机，但大多数现有方法都是有监督的，需要一个大的标记（基础）数据集[61，75]来学习先验知识。然而，收集大规模的基础数据集在实践中是昂贵的。依赖于监管也不允许充分利用丰富的未标记数据。本工作是在华为诺亚方舟实验室实习期间完成的arXiv：2207.09176v1 [cs.CV] 2022年7+v：mala2255获取更多论文2Y. Lu等人一些无监督FSL作品[3，35，37，38，57]试图解决标签依赖性的问题。他们中的大多数都有应用现有元学习方法的类似动机（即，受欢迎的监督FSL解决方案）到无监督数据。这些方法不是利用类别标签，而是通过不同的无监督方式生成（Meta）训练任务（或情节），例如数据增强[37]或伪标签[35]。尽管他们有价值的尝试，他们仍然有很大的性能差距相比，顶级监督FSL方法。最近的工作[39]表明，元学习的情景训练是数据效率低下的，因为它没有充分利用训练批次。（监督）FSL的几项研究[10，19，28，71]也表明，简单的预训练-微调方法优于许多复杂的元学习方法。从信息论的角度，我们提出了一种有效的非监督FSL方法，即，用自我监督的预训练来学习表示。遵循InfoMax[46]的原则，我们方法的目标是在低维学习表示中保留有关高维原始数据的更多信息。与监督预训练[71]相反，自我监督预训练专注于捕捉数据的内在结构。它学习全面的表示，而不是关于基本类别的最具歧视性的表示。具体来说，我们的自我监督预训练最大化了同一实例的增强视图的表示之间的互信息（MI）。它是实例和其代表。许多对比学习方法[8，31，52]最大化MI通过基于噪声对比估计优化损失[29]（也称为InfoNCE [52]）。然而，最近的进展[56，66，77]表明，基于InfoNCE的MI估计具有较高的偏倚。我们也可以在MI神经估计[4]之后采用低偏倚MI估计来解决这个问题。实验在FSL中，证明了我们方法的有效性为了更好地理解FSL中的自我监督和监督，我们解释说，他们正在最大限度地提高不同的MI目标。我们进一步构建了综合实验来分析他们在不同环境下的FSL中的不同行为（即，主干、数据扩充和输入大小）。实验结果令人惊讶地表明，在适当的设置下，没有基础数据集任何标签的自我监督可以优于监督，同时表现出更好的网络深度可扩展性。我们认为，自我监督比监督学习更少的偏见对基类，从而更好地推广未知类的能力。通过这种方式，扩展网络深度可以学习更强大的表示，而不会过度拟合所看到的类。网络深度的可扩展性提供了在FSL中使用深度模型来指导浅模型学习的机会。我们制定了这个问题的无监督知识蒸馏最大化MI之间的表示不同的模型。因此，我们提出了一个简单而有效的损失进行知识蒸馏没有标签。据我们所知，现有的监督FSL方法[20，71]仅执行浅层模型之间的知识蒸馏。概括而言，我们的贡献是：+v：mala2255获取更多论文自我监督可以是一个很好的少数学习者3– 从信息论的角度来看，我们提出了一个有效的无监督FSL方法，学习表示与自我监督。我们的方法最大限度地提高了MI之间的实例和他们的代表与低偏MI估计。– 我们指出，自我监督的预训练和监督的预训练最大化不同的目标MI。针对FSL问题，我们构造了综合– 我们提出了一个简单而有效的自监督知识蒸馏无监督FSL，以提高一个小模型的性能– 大量的实验证明了我们的方法的优点。我们的无监督模型在广泛使用的基准测试中取得了与最先进的监督FSL模型相当的结果，即，迷你-ImageNet[75]和分层-ImageNet[61]，没有任何基类的标签。2 相关工作少镜头学习（FSL）。FSL的开创性工作可以追溯到贝叶斯方法[40，44]。近年来，一些论文[23，43，53，63，65，75]用元学习范式解决了这个问题，其中模型从一系列模拟学习任务中学习，这些任务模仿了真实的少数情况。由于其优雅的形式和出色的效果，它引起了人们的极大兴趣。然而，最近的研究[10，28，71]表明，使用分类损失（交叉熵）预训练嵌入模型是FSL中一个简单但难以击败随后，许多研究[13，47，49，55，67]关注如何学习好的嵌入，而不是设计复杂的元学习策略。虽然已经取得了相当大的进展，上述方法依赖于基类的注释，限制了它们的应用。此外，大多数现有的监督方法[10，22，43，51，53，65，71，75]通过相对较浅的主干实现其最佳结果，例如，ResNet-10/12。我们的论文表明，这是可能的，建立一个有效的和可扩展的少镜头学习器没有任何标签的基类。这表明，我们应该重新思考的基本数据集的标签信息的FSL的意义。FSL中的InfoMax原则最近的一些研究[5，19]从信息理论的角度解决了转换FSL的问题，其中未标记的查询样本用于下游微调。最相关的工作[5]引入了InfoMax原则[46]来执行转导微调。它在微调过程中最大化查询样本的表示与其预测标签之间的MI，而我们的方法在预训练过程中最大化基础样本与其表示之间的MI。自我监督学习（SSL）。自监督模型通过各种借口任务以无监督的方式学习表示，例如着色[41，83]，修复[54]和旋转预测[26]。最具竞争力的方法之一是对比学习[8，30，31，34，52，69]，它将来自同一实例的样本的表示（正对，例如，同一图像的两个增强视图对比学习的一个主要问题+v：mala2255获取更多论文s=1q=14岁。Lu等人是表示折叠，即，所有输出都是常数。一种解决方案是均匀性正则化，它鼓励不同的图像（负对）具有不同的表示。最近的工作[8，31]通常优化信息损失[29，52]以执行对齐和均匀性，这被认为是最大化不同视图之间的MI。由于InfoNCE可以分解为对齐和一致性项[9，76]，许多作品引入了新的形式的均匀性（和/或对齐），以设计新的目标。BarlowTwins[82]鼓励不同通道的表示不同，而不是不同样本。Chen和Li[9]建议显式匹配分布表示的先验分布的高熵作为一个新的均匀项。最近的一些作品[12，27，72]在正对的对齐中引入了不对称性，以在没有明确一致性的情况下学习有意义的表示使用SSL的FSL 在自然语言处理中，自监督预训练在少量学习中表现出优越的性能[7]。然而申请SSL在少拍图像分类中的应用仍然是一个悬而未决的问题。大多数作品[25，49，67]利用SSL的借口任务作为辅助损失来增强监督预训练的表示学习。这些方法的性能在没有监督的情况下急剧下降。另一种方法是无监督FSL[3，35，37，38，42，50，57]，其设置与我们的设置相同大多数这些作品[3，35，37，38，50，57]简单地将现有的监督元学习方法适应于无监督版本。例如，CACTU[35]使用聚类方法来获得样本的伪标签，然后应用元学习算法。它们的性能仍然受到下游元学习方法的限制，与顶级监督FSL方法有很大的差距。此外-因此，最近的工作[21]在跨域少数拍摄图像分类的基准[28]上评估了现有的自监督方法，其中在基础类和新类的数据之间存在较大的域偏移。与其他自我监督和监督方法相比，我们的方法还在此基准上获得了最先进的结果[28]（参见我们的补充材料）。此外，连续[24]和开放世界学习[18]中的类似工作也采用SSL来增强其性能，这可能与FSL有关，因为这些领域都旨在将学习的表示推广到新的分布。Chen etal. [16]表明，在转导环境中，现有的SSL方法（MoCo v2 [11]）可以实现与监督FSL方法竞争的结果。然而，他们的转换FSL方法需要测试类的数据进行无监督的预训练，这与FSL的动机有些矛盾3方法3.1预赛FSL设置。在少数镜头图像分类中，给定基础数据集Dbase={（xi，yi）}，目标是学习一个预先训练好的（或Meta）模型，有效地解决了下游的少数拍摄任务T，其中包括一个超级，Q点集S={（xs，ys）}NK用于适配，并且查询集Q={xq}用于+v：mala2255获取更多论文DD{}D{ }|带标签的基础数据监督预训练图像编码器丢失标签自我监督可以是一个很好的少数学习者5或预训练微调图1：FSL中预训练-&微调方法的概述。（左）在预训练阶段，编码器网络在具有监督（或自监督）损失的标记（或未标记）基础数据集上进行训练。（右）在微调阶段，线性分类器（例如，逻辑回归）是用冻结的预训练编码器在几个支持样本预测，其中ys是图像xs的类标签。作为N路K次射击分类任务T，K相对较小（例如，1或5通常）和N小说类别是不是在基地。带监督预训练的FSL。最近的工作[10，71]表明，一个简单的预训练&-微调方法是FSL的强大基线。这些方法预训练编码器（例如，卷积神经网络）。在下游FSL任务中，简单的线性分类器（例如，在我们的情况下，逻辑回归）在具有支持样本的固定编码器网络的输出特征上进行训练最后，使用具有自适应分类器的预训练编码器①的人。无监督FSL设置。与监督FSL（其中Dbase=（xi，yi））相反，只有未标记的数据集base = xi 在预训练（或元训练）阶段可用于无监督FSL。我们的自我监督预训练方法遵循上面讨论的标准预训练&-微调策略，除了基础数据集是未标记的（如图1所示）。请注意，为了进行公平的比较，我们的模型没有在任何额外的（未标记的）数据上进行训练。3.2FSL的自我监督预训练自我监督预训练和监督预训练最大化不同的MI目标。有监督的预训练旨在将基础数据集的分类损失减少到零。最近的一项研究[74]表明，在监督训练过程中存在普遍的神经崩溃现象，其中类内样本的表示崩溃到类均值。这意味着给定类标签Y的隐藏表示Z的条件熵H（Z Y）很小。事实上，Boudiaf等人。[6]指出，最小化交叉熵损失相当于最大化表示Z和标签Y之间的互信息I（Z;Y）。 Qin等[58]也证明了类似的结果。未标记基础数据自我监督预训练图像编码器丢失标签丢失分类器支持数据编码器图像+v：mala2255获取更多论文·∼i=1=− zz中国1zz/τj/τ+log（e），（3）我6岁。Lu等人最大化I（Z; Y）有利于在基类上识别。然而，由于FSL需要在新类上泛化的表示，对基类的过度拟合影响FSL的性能在本文中，遵循InfoMax原则[46]，我们的方法旨在尽可能多地保留学习表示中的原始数据从理论上讲，我们最大化另一个MI目标，即，表示Z和数据X之间的互信息I（Z; X），以学习FSL的有意义的表示。比较两个MI目标I（Z;Y）和I（Z; X），监督表示仅需要包含关于图像的关联标签的信息。相比之下，自我监督的表示被鼓励包含关于数据的全面信息，对基本标签的偏差较小实际上，I（Z;X）的计算是棘手的。我们最大化了一个替代MI目标I（Z1;Z2）=I（f（X1）;f（X2）），这是一个下界其中X1和X2是通过一些数据扩充获得的X的两个扩充视图，f是编码器网络。此外，我们的编码器f（·）=hp rojg（·）由一个bac k boneg（·）组成（例如，ResNet）和额外的预处理头hproj（）（例如，MLP）遵循对比学习方法[8，11]，如图3a所示。投影头仅在预训练阶段使用。在微调阶段，线性分类器在投影头之前的表示上进行训练接下来，我们介绍了两个MI估计I（Z1，Z2）和描述如何与他们一起进行自我监督的预训练使用I NCE和I MINE最大化I（Z1;Z2）。许多对比学习方法[8，52]使用[52]中提出的InfoNCE估计器最大化I（Z1;Z2）：I（Z1;Z2）=I（f（X1）;f（X2））（1）12C（x1，x2）1 2≥1E2[C（x，x）]−E1[log（E2[e[]）]，（2）p（x，x）p（x）p（x）其中p（ x1 ， x2）是联合分布（即，（x1 ，x2）p（x1，x2），并且（x1，x2）是正对），并且评价点C（x1，x2）由编码器f参数化，例如，C（x1，x2）=fT（x1）f（x2）/τ其中τ为温度。给了一批{xi}2B 其中xi和xi+B是位置对（i≤B），Simplified[8]基于INCE最小化对比损失1：LNCEB2B1TTB我i+B2Bi=1i=1j=i`Alignx`你不爱我，其中zi= f（xi）。尽管INCE在对比学习中取得了巨大的成功，但问题是INCE具有高偏差，特别是当批量大小很小而MI很大时。关于详细的讨论，我们请读者参阅[56，66]。1对齐：同一样品的两个视图之间的差异应最小化。均匀性：两种不同样品的代表性之间的差异应最大化。+v：mala2255获取更多论文−⊗=− zzΣzzj/τLLLLL=−（p SG（zΣzzj/τΣΣ自我监督可以是一个很好的少数学习者717.515.012.510.0图2：我们用分量相关ρ估计两个多变量高斯模型之间的MI（详见补充资料）。当7.55.02.5真正的MI很大，我我的我的NCE 相比之下，0.0我们的工作采用了另一种MI估计器IMINE，遵循MI神经估计[4]的最新进展，其偏差低于INCE[56，66]：我的（Z1;Z2）异戊烯p（x1，x2）[C（x1，x2）] log（ Ep（x1）p（x2）[eC（x1，x2）]），（4）其中p（x1）p（x2）是边缘分布的乘积。我们构造了一个简单的实验，在合成数据上比较INCE和IMINE的估计偏差，如图2所示。基于IMINE（Z1;Z2），我们可以进一步提出一种新的自监督预训练的对比度损失L矿B1TB我I+B2B/τ+ log（不ei），（5）i=1i=1zj∈Neg（zi）`Alignx`你不爱我，其中，Neg（zi）表示zi的负样本的集合。使用非对称对齐改进L MINE。我们可以分解两个MINE（Eq. 5）和NCE（等式3）分为两项：对齐项鼓励正对靠近，均匀项将负对推开。实际上，均匀性项是用于避免表示崩溃的正则化，即，所有样本的输出表示都是相同的[76]。或者，在没有均匀性项的情况下，最近的工作SimSiam[12]表明，暹罗模型可以通过在对齐项中引入不对称性来学习有意义的表示，并获得更好的结果。在我们的实验中（表1），当使用常见的数据增强策略[11，12]时，SimSiam略优于具有对比损失的模型（NCE或MINE）。然而，我们经验性地发现，当使用更强的数据增强时，SimSiam模型在FSL中无法稳定地学习。当正对的变化很大时，SimSiam中会发生维度崩溃现象[36]，即，嵌入空间的一部分维数消失（如图6所示）。相比之下，具有均匀正则化的模型不会遭受显著的维度崩溃。本文进一步改进了MINE的非对称对齐：L胺B1T2BiI+B不I+B2B（1）A（1）A（不ei），（6）i=1Asymmetricampaigngi=1zj∈Neg（zi）“Uniforx1.0 0.5 0.0 0.5 1.0我的INCE真MI互信息）+p`X+v：mala2255获取更多论文·L|−|proj8岁。Lu等人1对齐均匀性21预测1对准stopgrad均匀性21998年，投影对准伊什蒸馏1预测1对准stopgrad均匀性2投影投影投影投影（教师）投影投影Backbone骨干Backbone骨干骨干（教师）骨干（学生）骨干（学生）1212112图像处理(a) Simplified[8]图像处理(b) UniSiam图像处理(c) 自我监督知识提炼图3：（a）模拟[8]进行比较。（b）我们的UniSiam，用于自我监督的预培训。（c）我们自我监督知识蒸馏的架构其中λ是加权超参数， pi=hpred（zi）是附加预测头hpred（）的输出[12]，SG（停止梯度）操作指示梯度的反向传播在此停止与投影头类似，预测头仅用于预训练阶段。与SimSiam相比，我们的方法可以通过更强的数据增强来提高表示的不变性，从而使FSL具有更好的分布外泛化能力由于我们的模型可以被认为是具有均匀性正则化的SimSiam，因此我们将其称为均匀Siam（如图所示）3 b）。这样，我们得到最终的自监督预训练损失胺（Eq.（六）。我们可以通过最小化这个目标来训练我们的UniSiam模型。在自我监督预训练之后，预训练的骨干可以通过在输出嵌入上训练分类器来用于FSL任务（在第二节中讨论）。3.1）。请注意，在微调阶段，投影头和预测头被移除。接下来，我们将介绍如何使用预训练的UniSiam模型执行自监督知识蒸馏3.3无监督FSL一个大的模型（教师）训练的自我监督损失（方程。6）可用于指导学习的小型自监督模型（student）2.在[70]中，从教师模型到学生模型的知识转移被定义为最大化它们的表示之间的互信息I（Xs;Xt）。最大化目标等价于最小化条件熵H（XtXs），因为I（Xs;Xt）=H（Xt）H（XtXs）和教师模型是固定的.这意味着它们的输出之间的差异应该尽可能小。因此，简单地调整它们的输出就可以达到目的。特别地，如图3c所示，预浸茶的编码器为ft（·）（由backbonegt（·）和projectionheadht（·）组成）用于虽然较大的模型具有更好的性能，但训练较小的模型也很有意义，因为它可以更容易地部署在边缘设备等实际场景+v：mala2255获取更多论文··2BDistproj2B我我i=1自我监督可以是一个很好的少数学习者9指导培养学生骨干gs（），具有蒸馏头hdist（）。自监督蒸馏目标可以写为：L=−1<$（ds）Tzt，（7）其中，ds=hdistgs（x）是学生蒸馏头的输出zt=htgt（x）是教师模型的输出。最后结合蒸馏和预培训的总目标是：L=αL胺+（1−α）Ldist，（8）其中α是一个超参数。我们设α = 0。5、我们的实验给定一个由Eq.6，我们可以将其用作教师网络，通过最小化Eq.八、4实验4.1数据集和设置数据集。我们在两个广泛使用的少量图像分类数据集上进行实验，迷你ImageNet [75]和分层ImageNet [61]。 mini-ImageNet [75]是ImageNet [62]的一个子集，它包含100个类，每个类600个图像。我们遵循以前的作品中使用的分割设置[60]，分别随机选择64，16和20个类进行训练，验证和测试。分层-ImageNet[61]是ImageNet的一个更大的子集，有608个类，每个类大约1300个图像。这些类被分成34个高级类别，然后分为20个类别（351类）用于训练，6个类别（97类）用于验证，8个类别（160类）用于测试。实施细节。我们使用ResNet家族的网络[32]作为我们的骨干。UniSiam的投影和预测头是具有与SimSiam相同设置的MLP[12]，除了没有瓶颈块的ResNetResNet-18）在mini-ImageNet上使用512个输出维度来避免过度拟合。蒸馏头是一个5层MLP，每个隐藏层都应用了批量归一化。所有隐藏的全连接层都是2048-D，除了倒数第二层是512-D。我们发现，这种蒸馏头结构，类似于投影和预测的组合（如图3c所示），适合于知识蒸馏。投影、预测和蒸馏头的输出向量通过其L2范数进行归一化[79]。更多的实施细节可以在补充材料中找到。4.2自我监督与FSL中的监督预培训在本小节中，我们将探讨几个因素（网络深度、图像大小和数据增强）如何影响自监督和监督的FSL性能。+v：mala2255获取更多论文同时（不支持）SimSiam（unsup.））UniSiam（unsup.up.）交叉熵×10岁。Lu等人8282818180807979787877777676R10 R18 R34 R50骨干(a) 网络深度75160 224 288 384输入大小(b) 图像尺寸图4：网络深度和图像大小的影响。（a）与FSL中的监督预训练相比，自监督方法具有更好的网络深度可扩展性。（b）较大的图像尺寸提高了自监督方法的FSL性能。注意，无监督（unsup.）方法执行预训练，没有任何标签的基本数据集预培训。在mini-ImageNet上，我们将监督预训练（交叉熵损失训练[71]）与我们的自监督UniSiam和两个最近的SSL模型Simplified [8]和SimSiam [12]进行了比较。 Simplified是一种众所周知的对比学习方法，它优化了LNCE（等式2）。3），而SimSiam是我们UniSiam的相关基线（即，λ= 0，等式（六）。自我监督方法之间的更详细比较见第4.3节。为了公平比较，所有方法都使用相同的SGD优化，余弦学习衰减为400个epoch，批量大小为256。每个算法中的其他超参数使用网格搜索进行优化选择。为了评估它们在 FSL 中的表现，在对 mini-ImageNet的基础数据集进行预训练后（即，训练类的数据），我们为每个少量分类任务训练逻辑回归分类器（具有其固定表示），该分类器从mini-ImageNet的测试类报告的结果是每种方法在3000个任务上的准确度的平均值关于基线和评估的更多细节可在补充材料中找到请注意，我们的自我监督知识蒸馏在这个实验中没有网络深度。图4a比较了不同方法在不同ResNet深度下的性能（即，ResNet-10/18/34/50）。输入图像大小是224 224我们使用数据增强（DA）策略，广泛用于自监督学习[11，12]，称为默认DA。默认DA的详细信息在补充材料中描述。我们可以发现，当骨干较浅时（即，ResNet-10），与自监督方法相比，监督预训练具有优势。然而，在这方面，随着网络的深入，自监督方法逐渐优于监督方法。当主干网从ResNet10变为ResNet50时，自监督方法的性能提高大于4%。相比之下，监督预训练的性能下降了0.2%。交叉熵同时（不支持）SimSiam（unsup.）UniSiam（unsup.）5-5-Shot Acc. （%）5-5-Shot Acc. （%）+v：mala2255获取更多论文交叉熵同时（不支持）SimSiam（unsup.）UniSiam（unsup.）×× × ×××L自我监督可以是一个很好的少数学习者118280图五：效果的数据扩充78更强的数据增强可以大大提高自监督预训练的性能，相比于超第72话训练7068简单默认默认+RVF强数据增强图像大小。图4b示出了具有不同输入大小（160 160、224 224、288 288和384 384）的不同方法的性能。所有方法都使用ResNet-18作为默认DA策略的主干。我们发现，更大的图像尺寸是更重要的自我监督的方法。当图像大小是小的（即，160 160），不同方法的性能接近。然而，当图像尺寸增加时，自监督方法与监督预训练相比具有更大的性能增益。虽然更大的图像大小可以带来显著的性能提升，我们在其他实验中仍然沿用社区中的典型设置，使用224×224数据扩充。图5显示了具有不同数据增强水平的各种预训练方法的性能。所有方法都使用ResNet-18主干，输入大小为224224.在这里，我们介绍了两个有效的DA，FSL：随机垂直翻转（RVF）和随机增强（RA）[17]。我们将DA设置为4个级别（从轻微到严重）：（1）“简单”表示用于传统监督预训练的策略（包括 RandomResizedCrop ， ColorJitter 和RandomHorizontalFlip），（2）“默认”与上述默认DA相同，（3）“默认+RVT”表示默认DA加上RVF，以及（4）“强”表示默认DA加上RVF和RA。在简单DA情况下，监督预训练比自监督方法能带来更多的信息，而默认DA能显著提高自监督方法的性能，但对监督预训练的增益有限。此外，RVF可以进一步提高所有方法的性能。RA提高了大多数方法的性能，除了SimSiam。我们认为强数据扩充导致了维数的坍缩SimSiam，如下一节所示。4.3具有强增强的自我监督预训练我们比较了Simsiam、SimSiam和UniSiam在默认和强DA下的变体（见表1）。我们观察到，与SimSiam相比，具有均匀性项的自监督预训练从强DA获得了更大的改进。此外，L MINE的均匀性项比NCE的均匀性项有更显著的改善。非对称配向也可以比对称配向提高FSL性能5-5-Shot Acc. （%）7674+v：mala2255获取更多论文×12岁。Lu等人8UniSiam，默认DA6UniSiam，强力DASimSiam，默认DA4SimSiam，强大DA2024图6：嵌入空间的奇异值谱。均匀正则化描述了强DA下的维数坍缩。68025050075010001250150017502000奇异值排序指数R18 R50方法Align Uniform DefaultDA StrongDA DefaultDA StrongDA同时对称NCE（方程式3）78.34± 0.27 79.66± 0.27 81.42± 0.25 81.51± 0.26SimSiamasymm.-79.13±0.2679.85± 0.27 81.75± 0.24 79.66± 0.27对称MINE（Eq.5）78.04± 0.27 80.72± 0.26 81.45± 0.24 82.84± 0.24asymm.NCE（方程式3）78.95± 0.26 80.66± 0.26 81.51± 0.24 82.54± 0.24UniSiamasymm.MINE（Eq. 第五章）79.11± 0.2581.13±0.2681.93±0.2483.18±0.24表1：默认和强数据增强下的自监督方法的比较。我们在迷你ImageNet上报告了他们的5向5次射击准确率（%）。“symm”和“asymm”表示使用对称对齐（Eq. 3或Eq.5）和非对称对齐（等式5）。6）分别。为了进一步证明均匀性的重要性，我们在图6中可视化了SimSiam和我们的UniSiam在不同DA下的嵌入空间的奇异值谱。主干是ResNet-50。当使用默认DA时，SimSiam和UniSiam都具有平坦的奇异值谱。然而，当DA较强时，SimSiam的一些奇异值减少。这意味着SimSiam的特征落入一个低维子空间。这种现象被称为维度崩溃[36]。相比之下，UniSiam的奇异值谱即使在强DA下也是平坦的，这表明了均匀性的重要性4.4我们自我超越的知识蒸馏先前的工作RFS[71]采用标准知识蒸馏[33]来改进FSL中的监督预训练模型。然而，它是基于logits的，不能应用于无监督的FSL。我们使用标准知识蒸馏将知识从大型监督预训练模型转移到小型模型，作为我们自监督知识蒸馏的比较基线（如表2所示）。请注意，我们的方法在预训练和蒸馏阶段不使用任何标签。所有方法都使用默认DA，图像大小为224 224.我们可以看到，我们的知识蒸馏方法提高了较小网络的性能。虽然蒸馏损失允许有监督的预训练模型捕捉类之间的关系，以学习标签之外的信息，当主干较大时，我们的模型在蒸馏后仍然表现出色（ResNet-18和ResNet-34）。4.5与最新技术水平的我们在表3和表4中比较了最先进的FSL方法。我们的方法使用强DA和224×224的图像大小。此外，我们还-奇异值+v：mala2255获取更多论文[71]第71话79.05± 0.26UniSiam（unsup.） 81.93±0.24†‡自我监督可以是一个很好的少数学习者13师生ResNet-50蒸馏ResNet-10ResNet-18ResNet-34N79.25 ± 0.2678.12± 0.26 77.63± 0.27Y79.44 ± 0.2580.15± 0.2580.55 ± 0.26N76.94 ± 0.2779.11± 0.25 79.69± 0.26Y78.58 ± 0.2680.35± 0.2681.39 ± 0.25表2：我们自我监督知识蒸馏的效果。我们报告了mini-ImageNet数据集上的5向5次分类准确率（%）。骨干法1发5发[64]第64话59.969.7[78]第224章：你是谁？57.8± 0.8 72.8± 0.7[15]第224话59.14± 0.86 74.63± 0.74[20]第224话63.73± 0.62 81.19± 0.43[45]第四十五章：你是我的女人62.38± 0.72 78.16± 0.56ProtoNet+SSL[67]224支持+ ssl-76.6[47]第四十七章：我的世界62.33± 0.82 80.94± 0.59ResNet-18质心对齐[2]224 sup.59.88± 0.67 80.35± 0.73PSST[14] 224 sup.+ ssl 59.52± 0.46 77.43± 0.46[37]第37话：我的世界43.09± 0.35 53.42± 0.31[50]第224章：你是谁？50.90± 0.36 71.59± 0.29[8]第224话，我的世界62.58± 0.37 79.66± 0.27[12]第224话：我的世界62.80± 0.37 79.85± 0.27UniSiam（Ours）224 unsup.63.26± 0.36 81.13± 0.26UniSiam+dist（Ours）224 unsup.64.10±0.36 82.26±0.25[75]第224章：你是谁？53.20± 0.78 68.32± 0.66[65]第65话53.90± 0.83 74.65± 0.64[22]第二十二话51.46± 0.90 65.90± 0.79[68]第68话：我的世界51.74± 0.83 69.61± 0.67ResNet-34[10]第224话49.82± 0.73 73.45± 0.65基线++[10]224 sup.52.65± 0.83 76.16± 0.63[8]第224话，我的世界63.98± 0.37 79.80± 0.28[12]第224话：我的世界63.77± 0.38 80.44± 0.28UniSiam（Ours）224 unsup.64.77± 0.37 81.75± 0.26UniSiam+dist（Ours）224 unsup.65.55±0.36 83.40±0.24表3：与mini -ImageNet上以前的作品进行比较，使用平均5向分类准确率（%）和95%置信区间测试分成请注意，UniSiam+dist是由我们的自我监督知识蒸馏训练的（图1）。3c）ResNet-50是教师：从[10]中获得的结果。：结果来自我们的实现。使用知识蒸馏的模型用后缀“+dist“标记。在mini-ImageNet上使用相同的DA策略（强DA）补充两种无监督FSL方法（Prototype[50]和UMTRA[37]）更多基线细节见补充材料。在mini-ImageNet上，与其他使用ResNet-18和ResNet-34主干的监督方法相比，我们的无监督UniSiam也有一个显着的改进，比一些方法，包括自我监督的目标和监督的预训练（ssl”）。此外，我们的方法比以前的无监督FSL方法[37，50]有更大的优势。在分层ImageNet上，由于只有少数研究使用标准ResNet[32]作为其主干，我们还比较了一些使用其他主干的方法为了进行公平的比较，我们统计了不同骨干的参数和MAC的数量请注意，ResNet-12修改了ResNet的原始架构（例如，较大的通道尺寸）。它的计算开销比标准的要大+v：mala2255获取更多论文‡十四岁。Lu等人方法主干（#Params）大小Macs1发5发[43]第四十三话ResNet-12（8.0M）843.5G辅助核算 65.99± 0.72 81.56± 0.53RFS+dist[71] ResNet-12（8.0M）84 3.5G支持71.52±0.7286.03±0.49BML[84] ResNet-12（8.0M）84 3.5G支持68.99± 0.50 85.49± 0.34Roubst+dist[20] ResNet-18（11.2M）224 1.8G sup.70.44± 0.32 85.43± 0.21[2]ResNet-18（11.2M）224 1.8G sup.69.29± 0.56 85.97± 0.49Simplified[8]ResNet-18（11.2M）224 1.8G unsup.63.38± 0.42 79.17± 0.34SimSiam[12] ResNet-18（11.2M）224 1.8G unsup.64.05± 0.40 81.40± 0.30UniSiam（Ours）ResNet-18（11.2M）224 1.8G unsup. 65.18± 0.39 82.28± 0.29UniSiam+dist（Ours）ResNet-18（11.2M）224 1.8G unsup.67.01± 0.39 84.47± 0.28LEO[63] WRN-28-10（36.5M）84 41G sup.66.33± 0.05 81.44± 0.09CC+Rot[25] WRN-28-10（36.5M）84 41G sup.+ssl70.53±0.5184.98± 0.36FEAT[81] WRN-28-10（36.5M）84 41G sup.70.41± 0.23 84.38± 0.16UniSiam（Ours）ResNet-34（21.3M）224 3.6G unsup. 67.57± 0.39 84.12± 0.28UniSiam+dist（Ours）ResNet-34（21.3M）224 3.6G unsup.68.65± 0.39 85.70± 0.27UniSiam（Ours）ResNet-50（23.5M）224 4.1G unsup. 69.11± 0.38 85.82± 0.27UniSiam+dist（Ours）ResNet-50（23.5M）224 4.1G unsup.69.60± 0.3886.51±0.26表4：与以前在分层ImageNet上的FSL工作的比较，使用测试分割的平均5向分类准确率（%）。：结果来自我们的实现。ResNet-50是教师ResNet-18，即使输入尺寸较小。我们的方法是浅背-bone ResNet-18比分层ImageNet上的顶级监督FSL方法稍差。主要原因有两方面。一个是增加类的数量会消除分层ImageNet数据集上监督方法的过拟合问题。更重要的原因是现有的FSL方法利用各种技术来隐式地减轻过拟合问题到基类。例如，Robust+dist[20]训练了20个不同的网络来学习

下载后可阅读完整内容，剩余1页未读，立即下载