基于多因素聚类的半监督few-shot学习

188 浏览量更新于2023-10-25 收藏 12.63MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

practical problems, there exist objects that are rarely ob-served, such as the faces of the suspects, rare animal photos,and so on, which makes it difﬁcult to collect labeled data.With the inspiration of the human vision system, much at-tention has been paid to the development of few-shot learn-ing [29] [38] [27] [7], which can release the strong demandfor data used for training deep models to some extent.145640基于多因素聚类的半监督few-shot学习0凌杰1*，廖磊1*，杨猛1,2†，帅佳101 中山大学计算机科学与工程学院，中国广州 2 中山大学机器智能与先进计算教育部重点实验室0{ lingj8, liaolei3, shuaij } @mail2.sysu.edu.cn,yangm6@mail.sysu.edu.cn0摘要0标记数据的稀缺性和模型过拟合问题一直是few-shot学习中的挑战。最近，半监督few-shot学习已经发展起来，通过获取无标签样本的伪标签来扩展支持集。然而，在生成伪标签时，未标记数据和标记数据之间的关系没有得到很好的利用，其噪声将直接影响模型的学习。本文提出了一种基于聚类的半监督few-shot学习（cluster-FSL）方法来解决图像分类中的上述问题。通过使用多因素协同表示，设计了一种新颖的多因素聚类（MFC）来融合few-shot数据分布的信息，可以基于标记数据为无标签样本生成软伪标签和硬伪标签。我们利用MFC中的无标签样本的伪标签来扩展支持集，以获取更多的分布信息。此外，在微调阶段使用鲁棒的数据增强来增加标记样本的多样性。我们通过在三个流行的基准数据集miniImageNet、tieredImageNet和CUB-200-2011上与其他few-shot学习方法进行比较，验证了cluster-FSL的有效性。消融实验进一步证明了我们的MFC能够有效地融合标记样本的分布信息并提供高质量的伪标签。我们的代码可在以下网址获取：https://gitlab.com/smartllvlab/cluster-fsl01. 引言0基于神经网络的深度学习方法[34]在计算机视觉领域[15][32][23]取得了重大突破并得到了广泛应用。不幸的是，深度学习模型需要大量的标记数据来学习大规模参数。此外，现实生活中的场景复杂多样。例如，在一些实际问题中，存在很少被观察到的对象，如嫌疑人的脸部、稀有动物照片等，这使得收集标记数据变得困难。受到人类视觉系统的启发，对few-shot学习的发展引起了很多关注，它在一定程度上可以缓解用于训练深度模型的数据需求。0* 平等贡献，† 通讯作者。0few-shotlearning的目标是基于经验从非常少的样本中学习一个新的概念或行为。由于few-shotlearning的特殊性，如何减轻由于样本稀缺导致模型几乎无法适应类别分布的过拟合问题一直是few-shotlearning的关注和难点。随着few-shotlearning的发展，已经从模型、数据和学习算法三个方面提出了解决上述困难的方法。基于模型的方法[28][39]旨在通过设计适应few-shot情况的模型来学习样本之间的交互信息。至于数据，研究人员已经探索了各种方法来丰富训练数据，例如数据增强[28][1][48]，通过翻转、裁剪、平移、旋转和缩放对数据进行预处理。然而，数据增强需要昂贵的劳动成本，并且严重依赖领域知识，导致一些数据增强方法对数据集具有特定性。基于学习方法的few-shot图像分类[45][14][38]旨在通过使用元学习或迁移学习策略来提高模型的泛化能力，从而学习在不同子任务中共享的元知识或可转移知识。然而，few-shotlearning的性能仍然远远不令人满意，因为少量的标记数据无法为最新模型学习提供丰富和必要的信息。0当任务具有少样本标记样本和额外的新类别无标签数据时，一种直接的方法是利用无标签样本来缓解标记样本的稀缺问题。无标签数据已经被半监督学习方法有效地探索利用，包括弱数据增强和强数据增强的组合[37]，一致性正则化[16]，145650通过组合半监督学习和少样本学习（例如，挖掘无标签样本的伪标签），可以在一定程度上解决数据稀缺等问题，从而实现无需使用大量标注样本的非常令人兴奋的性能。最近的少样本图像分类结合半监督学习[31][22][38]侧重于提高对无标签样本的伪标签预测的准确性，并希望获得更多正确的伪标签以扩展训练集。然而，现有方法无法获得完全正确的伪标签。如何避免错误伪标签对模型训练的影响，以及如何利用样本分布信息辅助获取伪标签仍然是当前的挑战。为了解决上述问题，我们在图像分类中提出了一种基于聚类的半监督少样本学习（cluster-FSL）方法。通过将标记样本作为聚类的因素，并在多因素字典上表示无标签数据，我们提出了多因素聚类（MFC）来引导获取无标签样本的伪标签，结合标记和无标签样本的分布信息，以辅助聚类并获得更准确的伪标签。在微调阶段，我们设计了鲁棒的数据增强来增加支持集，并采用MFC模块预测查询样本的软标签，学习更具辨别力的特征分布。在测试阶段，我们使用MFC代替标签传播，为无标签样本分配更准确的伪标签，以扩展测试支持集。实验结果表明，我们的cluster-FSL在miniImageNet、tiered-ImageNet和CUB-200-2011上取得了最先进的性能（例如，当骨干网络为ResNet-12时，在5-way1-shot场景中改进了2.45%）。我们的主要贡献可以总结如下：1.提出了一种新颖的多因素聚类（MFC）算法，包括标记和无标签样本的因素，并通过多因素字典利用这些因素之间的分布信息，生成更准确的聚类结果。2.将提出的MFC以一种新的方式整合到微调阶段和测试阶段，有效地输出高质量的伪标签，以扩展查询和测试支持集。02. 相关工作02.1. 基于学习的少样本图像分类0基于学习的少样本图像分类算法旨在设计适用于少样本场景的训练和更新模式。迁移学习和元学习方法已成功应用于少样本分类。0最近，基于迁移学习的方法在大量基类数据上预训练模型，并将预训练模型适应于识别新类别的少样本学习任务。Kozerawski等人[14]学习了一个转移函数，将预训练模型提取的嵌入特征映射到分类决策边界。在[45]中，Yoo等人识别了深度网络每一层内共享相似激活模式的神经元组，并使用训练集进行逐组反向传播的微调。基于迁移学习的方法可以训练具有强大表示能力的特征提取器。为了利用这些方法，我们使用提出的MFC辅助微调预训练模型，以提高我们方法的性能。元学习方法，也称为学习如何学习，旨在学习一种可以适应使用少样本训练示例识别新类别的范式。研究人员从以下几个方面改进了基于元学习的方法：嵌入模块和共享距离测量方法[41][36][39]，模型参数的初始分布[4][25]，以及模型参数的更新策略和规则[21][30]。尽管这些方法在解决少样本分类任务方面取得了快速发展，但样本稀缺问题仍然是一个挑战。最近，Rodr´ıguez等人[33]提出了使用嵌入传播（EP）作为无监督非参数正则化器进行流形平滑，并将EP应用于传导分类器。然而，该方法对标记样本的扩展有限，限制了性能的进一步提升。为了解决EPNet[24]的问题，我们使用提出的MFC模块获取无标签样本的伪标签，可以有效缓解标记样本稀缺的问题。02.2. 基于伪标签获取的半监督Few-shot方法0将少样本图像分类方法与半监督学习相结合，通过获取无标签数据的伪标签来扩展标记数据，并缓解样本稀缺问题，例如在[31]中将类原型引入到无标签样本的分布中以预测伪标签，在[22]中使用标签传播获取伪标签，在[46]中使用预训练分类器预测伪标签，在[17]中利用标记和无标签数据分布的流形结构预测伪标签。在获取伪标签后，这些方法直接将它们用作模型微调和训练的标记样本。然而，它们忽略了错误伪标签数据对模型训练的影响。111133332222111133332222145660为了减少错误伪标签的影响，吴等人[44]在后续训练过程中优先选择信息量丰富的无标签样本，而孙等人[20]提出在每轮优化中限制选择的无标签样本数量，并优先选择具有高置信度的伪标签样本。黄等人[11]提出了一种伪损失置信度度量（PLCM），它将不同任务的伪标签数据映射到统一的度量空间，并根据其伪损失的分布组成置信度估计伪标签的置信度。然而，使用训练好的分类器逐个预测无标签样本的方法忽略了数据分布层面上的信息。未考虑无标签样本与伪标签获取的内类和间类关系以及无标签样本和标记样本的分布信息对伪标签获取的影响。最近，黄等人提出了基于泊松转移网络（PTN）的半监督Few-shot方法[10]。PTN模型改进了基于图的Few-shot学习中挖掘标记和无标签数据之间关系的能力，而我们的聚类-FSL也致力于增强这种能力。然而，我们提出的MFC利用多个因素构建特征字典，使整体聚类能够有效加强标记和无标签数据之间的关系，使聚类更加简洁和可解释。王等人[42]提出模型根据由实例可信度推断（ICI）测量的可信度迭代选择伪标签实例进行分类器训练。然而，如果伪标签的质量没有直接提高，无法减少错误伪标签对模型的影响。此外，ICI侧重于通过增加偶然参数的稀疏性和对伪标签实例进行排序来解决线性回归假设，而我们的MFC通过融合标记数据的分布构建字典，并在聚类时使用重构误差计算距离。03. 基于聚类的半监督Few-Shot Learning0获取具有高置信度的无标签样本的伪标签是半监督Few-shot学习模型需要解决的主要挑战。为了有效解决上述挑战，我们提出了一种新颖的基于聚类的半监督Few-shot学习模型（cluster-FSL），它使用多因素聚类来获取无标签数据的高质量伪标签。此外，我们提出的cluster-FSL利用鲁棒的数据增强和MFC模块学习更具辨别性的特征以提高性能。这里我们首先介绍一个多因素0聚类，然后详细介绍了聚类-FSL的三个阶段（例如，预训练、微调和测试）。03.1. 问题定义0在少样本分类任务中，数据集被划分为训练集、验证集和测试集，即 D = {D train, D val, D test}，其中 D train = {Xtrain, Y train} 包含所有的训练数据和对应的标签，D test ={X test, Y test}包含所有的测试数据和对应的标签。训练集和测试集中的所有类别分别用 C train 和 C test 表示，使得 C train ∩ Ctest = �。验证集中的类别与 C train 和 C test不重叠。参考序列学习，我们构建 n个独立的少样本任务来形成序列集 Γ = {T tr i, T test i} n i=1。对于每个训练任务 T tr i，我们从训练集中随机选择 N个类别，并从每个类别中随机选择 K个样本来构成训练支持集 S tr = {x s i, y s i} N × K i=1，其中 x s i ∈ X train，y s i ∈ Y train。从相同的 N个类别中，我们选择 q 个不重复的样本来构成训练查询集 Qtr = {x q i, y q i} N × q i =1，其中 x q i ∈ X train，y q i∈ Y train。验证集 D val用于确定最佳模型，选择在验证集上准确率最高的模型。对于每个测试任务 T test i，模型还会从测试集中随机选择 N个类别，并从每个类别中随机选择 K个样本来获得测试支持集 S test = {x s j, y s j} N × K j=1，并从每个类别中选择 q个不重复的样本来构成测试查询集 Q test = {x q j, y q j} N× q j =1。此外，我们还会从测试集中包含的 N个类别中随机选择 u 个样本，并移除标签以形成未标记集 Utest = {x u j} N × u j =1。01 2 3 多因素0未标记样本0图1.MFC的聚类过程。其中，黑点表示更新后的聚类中心，灰黑点表示更新前的聚类中心。03.2. 多因素聚类0给定一个标记集 L 和一个未标记集U，我们提出了一种称为多因素聚类（MFC）的聚类方法，通过使用样本与因素（例如聚类中心和˜βi = arg minβi||ui − F βi||22 + ϵ||βi||22(2)145670标记样本）。通过利用多个因素构建特征字典，并使用重构误差作为距离度量，我们的MFC适用于少样本场景，以获取未标记样本的伪标签。伪标签获取在少样本学习任务中有少量的标记样本，且类别数量已知。在 N-way K-shot的设置下，MFC中的聚类表示为 C = {C i} N i =1，其中 N是聚类的数量。每个聚类的中心通过标记样本的类内均值进行初始化，由0c * i = 10K0j =1 l i j (1)0其中 l i j ∈ L 是第 i 个聚类的第 j 个嵌入表示0类别标记样本和 c * i 表示第 i 个的中心0聚类。传统的聚类方法 [31]只考虑未标记样本与每个聚类中心之间的距离，而忽略了数据分布信息和属于同一类别的 K个标记样本的特征信息。我们将聚类的因素视为能够表示聚类的嵌入表示（例如聚类中心和一个标记样本），然后提出了多因素聚类（MFC），为每个聚类设置多个因素，并改进了从未标记样本到每个聚类的距离的计算方法。MFC中第 i个聚类的因素 F i 定义为 F i = [l i 1, ∙ ∙ ∙ , l i K, c *i]，其中包括一个聚类中心和标记集 L 中属于第 i个聚类的样本。为了解决小样本问题，提出的MFC将所有类别特定的因素作为字典，共同表示一个未标记样本 u i ∈U：0其中ε是正则化表示的常数，˜βi = [˜βi,1, ˜βi,2, ∙ ∙ ∙ ,˜βi,N]^T，˜βi,j∈R(K+1)×1是与第j个聚类相关的子系数向量。我们参考协作表示[47]中的解法来求解公式(2)中的˜βi。然后我们使用与每个聚类相关的重构误差作为未标记样本到聚类的距离，如图1所示。重构误差定义为：0˜βi = arg min βi ||ui − Fβi||^2 + ε||βi||^2(2)0计算这个重构误差考虑了所有类别的因素，使得不同的聚类因素竞争地表示未标记数据，输出更鲁棒的聚类结果。根据未标记数据ui到每个聚类的最小重构误差，得到聚类结果0di,j = ||ui − Fj˜βi,j||^2 (3)0输入：标记集合L = {li, yi} N × Ki=1，未标记集合U = {ui} N × ui=10算法1：多因素聚类的过程描述01: 循环开始 2: 对于每个未标记样本ui ∈U，进行以下操作0输出：未标记集合中样本的伪标签P = {pi, ˜yi} N × ui=104: 得到聚类结果αi = arg min 1 ≤ j ≤ N di,j03: 通过公式(3)计算重构误差di,j06: 结束循环05: 通过公式(4)更新聚类和聚类中心08: 通过公式(5)计算软伪标签pi和硬伪标签˜yi07:如果聚类中心保持不变，则010: 结束判断09: 跳出循环0αi = arg min 1 ≤ j ≤ N di,j。每个聚类通过以下公式更新：011: 结束循环0c�j = 10˜Cαi =Cαi ∪{ui}0|˜Cj|0其中c�j是第j个聚类中心，用于更新聚类因素。与只有一个因素相比，多个因素可以更准确地表示聚类的嵌入流形。经过多次迭代，当聚类和聚类中心不再变化时，将聚类表示为C= {C1, C2, ∙ ∙ ∙ ,CN}。我们使用最后一次迭代的聚类结果来为未标记数据获取软标签和硬标签。未标记样本ui的软标签pi = [pi,1, pi,2, ∙∙ ∙ , pi,N]定义为：0zk ∈ ˜Cj z0�Nk=1 e^(-log(di,k/τ)) (5)0pi,j = e^(-log(di,j/τ))03.3. 训练过程0其中τ是温度参数，pi,j表示未标记样本ui被预测为第j类的概率。因此，硬标签为˜yi = arg max jpi,j。MFC的具体过程详见算法1。145680嵌入传播特征提取器0� � �� 0EP0标签传播0软标签0支持样本查询样本0多因素聚类0软标签0支持样本查询样本0查询0设置0支持集合0数据增强0图2.微调阶段的框架。首先，我们使用更强大的数据增强来增加支持集。增强的支持集和查询集的样本经过特征提取和嵌入传播，得到特征˜z。然后基于支持集，MFC模块和标签传播模块获得查询集样本的软标签。03.3.1 预训练阶段0我们使用交叉熵损失将模型的分类预测与真实标签拟合。对于自监督学习，该模型还添加了一个预测图像旋转的分类器，与[33]相同。在这种情况下，预训练模型可以从图像中提取出用于少样本任务的代表性嵌入。03.3.2 数据增强和MFC的微调0如图2所示，在这个阶段，我们为支持集引入数据增强，并基于MFC的交叉熵损失来学习具有良好泛化能力的编码器，可以提取强大的嵌入。我们保留预训练模型的编码器，并丢弃其分类器，通过分集学习对编码器进行微调。对于一个训练任务T i ，它包含一个支持集S tr 和一个查询集Q tr。我们使用Randaugment[3]对支持集进行数据增强，以避免过拟合。由于少样本学习中支持集的大小太小，模型很容易过拟合少量数据。然而，Randaugment可以大幅改变图像，增加模型拟合数据分布的难度。增强的支持集为ag(S tr ) = { ag(x s i ), y s i } N ×K i =1。在模型提取增强支持集和查询集的所有样本的嵌入之后，我们使用嵌入传播[33]来处理这些特征：˜z i = ep(z i , Z)(6)0其中Z = { z 1 , z 2 , ∙ ∙ ∙ , z N × ( K + q ) }表示来自ag(Str )和Q tr 图像的嵌入集合。ep( ., .)是嵌入传播，可以增加平滑性。0通过嵌入之间的欧氏距离构建嵌入流形。我们构建了两个基于多因素聚类和标签传播[12]的交叉熵损失：0l ft = λ l MF C + (1 − λ ) l LP (7)0其中λ是超参数，l MF C是基于多因素聚类的交叉熵损失，lLP是基于标签传播的交叉熵损失。对于多因素聚类，ag(S tr)可以被视为标记集，Q tr可以被视为训练任务T i中的未标记集。我们可以通过MFC获得训练查询样本的软伪标签，然后使用真实标签计算交叉熵损失：0l MF C = −10q0i =1 log p i,y q i (8)0其中p i,y q i表示第i个查询样本被预测为MFC中的y qi类别的概率。概率pi,j的定义如公式(5)所示。类似地，基于标签传播的交叉熵损失定义为：0l LP = −10q0i =1 log ˜ p i,y q i (9)0其中˜p i,y q i是通过标签传播[12]获得的预测概率。03.3.3 在测试阶段通过MFC扩展支持集0如图3所示，在这个阶段，我们利用测试支持集S test和未标记集U test 推断0Expanded Support SamplesQuery SamplesSupport SamplesUnlabeled Samples145690标签0标签传播0多因素聚类0支持集0未标记集0查询集0嵌入传播0嵌入传播0图3.测试阶段的框架。在提取未标记样本和支持样本的特征后，使用MFC模块获得未标记样本的伪标签以扩展支持集。扩展的支持集用于使用查询集进行标签传播，从而获得查询集样本的标签。0与EPNet不同，我们使用MFC为未标记数据分配伪标签并扩展测试支持集，从而获得测试查询集中样本的类别。使用MFC的优势在于MFC能够为少样本任务中的未标记数据生成高质量的伪标签。我们从训练好的编码器中提取嵌入表示，对这些嵌入表示进行嵌入传播。将S test视为标记集，用于聚类U test中的未标记数据。0通过MFC选择具有高置信度伪标签的未标记数据，形成一个子集：0˜U test = { ( xui , ˜yi ) | xui ∈ U test }(10)0其中˜yi是通过MFC获得的xui的硬伪标签。测试支持集通过以下方式进行更新：0S' = S test ∪ ˜U test (11)0最后，我们根据扩展的测试支持集S'进行标签传播，预测Q测试数据的标签。04. 实验04.1. 数据集0miniImageNet数据集是由Vinyals等人从ImageNet数据集中提取的子集。我们的实验使用了该数据集中的所有60,000张图像，并根据传统的少样本学习方法的标准，将100个类别分为64个训练类别、16个验证类别和20个测试类别。0tieredImageNet是由Ren等人提出的用于少样本学习的数据集，是从ImageNet数据集中提取的子集。它包含34个超类，可以分为608个类别，共有779,165张图像。我们的实验使用了该数据集中的所有图像数据，并将这些超类分为20个训练超类（351个类别），6个验证超类（97个类别）和8个测试超类（160个类别），遵循传统的少样本学习方法。CUB数据集是基于CUB200的细粒度数据集，包含200个类别和11,788张图像，分为100个基础类别、50个验证类别和50个新颖类别。04.2. 模型设置0在预训练阶段，使用所有的训练类别和数据，对集群-FSL模型进行了200个时期的训练，批量大小为128。辍学率为0.1，权重衰减为0.0005，动量为0.9。使用随机梯度下降算法更新预训练网络，初始学习率为0.1。当模型达到验证损失连续10个时期没有改善的平台时，学习率乘以0.1。当特征提取器的结构为ResNet-12时，输出特征维度n为512。当结构为WRN-28-10时，输出特征维度n为640。在微调阶段，集群-FSL模型进行了200个时期的训练，迭代次数为600，权重衰减为0.0005，动量为0.9。使用随机梯度下降方法更新模型。学习率为0.001，当模型达到平台时，学习率乘以0.1。在测试阶段，集群-FSL模型进行了1000个时期的测试，将模型分类结果的准确率平均值作为评估结果。每个少样本任务中的类别数N为5。对于每个类别，支持样本数K为1和5，查询样本数q为15，未标记样本数u为100。超参数λ为0.8，温度参数τ为0.1，超参数ϵ为0.01。聚类过程的迭代次数为10。04.3. 比较实验0比较实验的基准模型是EPNet [33]，ICI[42]以及一些经典或最新的few-shot学习方法，包括TADAM [26]，MTL [38]，MetaOpt-SVM[18]，CAN [9]，LST [39]和LEO [35]；半监督few-shot学习方法，包括TPN [22]，TransMatch[46]和PLAIN [19]；以及基于图网络的方法wDAE-GNN [6]。此外，还对PTN[10]和Ren等人提出的聚类方法，如Soft K-Means，Soft K-Means+Cluster，Masked SoftK-Means进行了比较实验。我们使用定量分析和比较方法来测试cluster-FSL模型的分类准确率并评估模型的性能。我们在两种场景下进行实验，即5-way 1-shot和5-way5-shot，这是few-shot学习领域中的两种常见场景。使用ResNet-12和WRN-28-10作为骨干网络，在miniImageNet、tieredImage和CUB-200-2011数据集上得到了如表1、表2和表3所示的比较实验结果。在表1中，与miniImageNet数据集上最佳性能EPNet-SSL[33]相比，当骨干网络为ResNet-12时，cluster-FSL模型在1-shot和5-shot场景下分别提高了2.45%和1.48%。当骨干网络为WRN-28-10时，我们的cluster-FSL在1-shot和5-shot场景下分别提高了1.06%和0.73%。表2显示了tieredImageNet数据集上的比较实验结果。当骨干网络为ResNet-12时，我们的cluster-FSL在1-shot和5-shot场景下分别提高了2.10%和1.46%，达到了最先进的性能。当骨干网络为WRN-28-10时，我们的cluster-FSL在1-shot和5-shot场景下分别提高了1.04%和1.04%。在CUB-200-2011数据集上，表3显示了我们的cluster-FSL与EPNet [33]和ICI[42]相比的改进情况。比较实验的结果表明我们的ResNet-12TADAM58.50±0.30%76.70±0.30%MTL61.20±1.80%75.50±0.80%MetaOpt-SVM62.64±0.61%78.60±0.46%CAN67.19±0.55%80.64±0.35%LST70.10±1.90%78.70±0.80%EPNet66.50±0.89%81.06±0.60%TPN59.46%75.65%PLAIN74.38±2.06%82.02±1.08%EPNet-SSL75.36±1.01%84.07±0.60%cluster-FSL(our)77.81±0.81%85.55±0.41%WRN-28-10Soft K-Means50.09±0.45%64.59±0.28%Soft K-Means+Cluster49.03±0.24%63.08±0.18%Masked Soft K-Means50.41±0.31%64.39±0.24%LEO61.76±0.08%77.59±0.12%wDAE-GNN62.96±0.62%78.85±0.10%EPNet70.74±0.85%84.34±0.53%TransMatch62.93±1.11%82.24±0.59%ICI71.41%81.12%EPNet-SSL79.22±0.92%88.05±0.51%PTN81.57±0.94%87.17±0.58%cluster-FSL(our)82.63±0.79%89.16±0.35%ResNet-12MetaOpt-SVM65.99±0.72%81.56±0.53%CAN73.21±0.58%84.93±0.38%LST77.70±1.60%85.20±0.80%EPNet76.53±0.87%87.32±0.64%PLAIN82.91±2.09%88.29±1.25%EPNet-SSL81.79±0.97%88.45±0.61%cluster-FSL(our)83.89±0.81%89.94±0.46%WRN-28-10Soft K-Means51.52±0.36%70.25±0.31%Soft K-Means+Cluster51.85±0.25%69.42±0.17%Masked Soft K-Means52.39±0.44%69.88±0.20%LEO66.33±0.05%81.44±0.09%wDAE-GNN68.16±0.16%83.09±0.12%EPNet78.50±0.91%88.36±0.57%ICI85.44%89.12%EPNet-SSL83.68±0.99%89.34±0.59%PTN84.70±1.14%89.14±0.71%cluster-FSL(our)85.74±0.76%90.18±0.43%145700表1. cluster-FSL模型在miniImageNet数据集上的5-way1-shot和5-way5-shot场景中1000个few-shot任务的平均分类准确率。0方法 5-way 1-shot 5-way 5-shot0ods来测试cluster-FSL模型的分类准确率并评估模型的性能。我们在两种场景下进行实验，即5-way 1-shot和5-way5-shot，这是few-shot学习领域中的两种常见场景。使用ResNet-12和WRN-28-10作为骨干网络，在miniImageNet、tieredImage和CUB-200-2011数据集上得到了如表1、表2和表3所示的比较实验结果。在表1中，与miniImageNet数据集上最佳性能EPNet-SSL[33]相比，当骨干网络为ResNet-12时，cluster-FSL模型在1-shot和5-shot场景下分别提高了2.45%和1.48%。当骨干网络为WRN-28-10时，我们的cluster-FSL在1-shot和5-shot场景下分别提高了1.06%和0.73%。表2显示了tieredImageNet数据集上的比较实验结果。当骨干网络为ResNet-12时，我们的cluster-FSL在1-shot和5-shot场景下分别提高了2.10%和1.46%，达到了最先进的性能。当骨干网络为WRN-28-10时，我们的cluster-FSL在1-shot和5-shot场景下分别提高了1.04%和1.04%。在CUB-200-2011数据集上，表3显示了我们的cluster-FSL与EPNet [33]和ICI[42]相比的改进情况。比较实验的结果表明我们的0表2. cluster-FSL模型在tieredImageNet数据集上的5-way1-shot和5-way5-shot场景中1000个few-shot任务的平均分类准确率。0方法 5-way 1-shot 5-way 5-shot0表3. 在CUB-200-2011数据集上，集群FSL模型在5-way1-shot和5-way5-shot场景中进行了1000个few-shot任务的平均分类准确率。 ( ∙ )†表示该方法使用ResNet-12作为骨干网络，而 ( ∙ )‡表示该方法使用WRN-28-10作为骨干网络。0方法 5-way 1-shot 5-way 5-shot0EPNet† 82.85 ± 0.81% 91.32 ± 0.41%集群FSL(我们)† 87.36 ± 0.71% 92.17 ± 0.31% ICI‡91.11% 92.98% EPNet‡ 87.75 ± 0.70% 94.03 ±0.33% 集群FSL(我们)‡ 91.80 ± 0.58% 95.07 ±0.23%0表4. 在5-way5-shot设置中，基于集群FSL的不同伪标签获取方法的影响。0方法 miniImageNet tieredImageNet0标签传播 87.99 ± 0.37% 89.45 ± 0.45% Kmeans88.05 ± 0.40% 88.48 ± 0.53% MFC(我们) 89.16 ±0.35% 90.18 ± 0.43%0集群FSL在1-shot和5-shot情况下都具有出色的性能。此外，我们的MFC具有增强多个因素之间关系的能力。04.4. 消融实验0在本节中，我们对每个阶段的每个模块的作用进行了一系列完整的消融实验。MFC + LP××79.87±1.10%✓×80.88±1.07%×✓81.73±1.09%✓✓82.70±1.03%�82.779.58080.58181.58282.58300.10.20.30.40.50.60.70.80.91145710表5. 在5-way1-shot设置中，MFC和标签传播(LP)对集群FSL微调和测试阶段的影响。0设置微调0测试 LP 78.71% 79.32% 79.81%0表6. 在5-way1-shot设置中，数据增强和MFC对集群FSL微调阶段的影响。0数据增强 MFC 准确率0这些方法都使用WRN-28-10作为骨干网络，并在5-way1-shot或5-way5-shot下评估准确率。为了验证MFC在获取更高正确性的伪标签方面的有效性，我们在miniImageNet和tieredImageNet数据集上比较了不同获取伪标签的方法，如标签传播和Kmeans聚类，结果如表4所示。实验结果表明，与标签传播和Kmeans聚类相比，MFC模块在miniImageNet和tieredImageNet数据集上有所改进，这表明多个因素包含更多的样本分布信息，并提高了分类准确性。0为了验证MFC在获取更高正确性的伪标签方面的有效性，我们在miniImageNet和tieredImageNet数据集上比较了不同获取伪标签的方法，如标签传播和Kmeans聚类，结果如表4所示。实验结果表明，与标签传播和Kmeans聚类相比，MFC模块在miniImageNet和tieredImageNet数据集上有所改进，这表明多个因素包含更多的样本分布信息，并提高了分类准确性。0在模型的微调阶段，支持集通过数据增强进行扩展，查询样本通过MFC模块进行预测。因此，我们对这两部分进行了消融实验，结果如表6所示，显示了数据增强和MFC的效果。0准确率(%)0图4. 在5-way1-shot设置中，不同λ对miniImageNet数据集的影响。04.5. 参数分析0我们的聚类FSL模型有一个超参数λ，其中λ在公式（7）中用于控制MFC和标签传播在微调阶段的比例。参数分析实验在miniImageNet数据集上进行，使用WRN-28-10作为骨干网络，采用5-way1-shot设置。如图4所示，最佳准确率为0.8，可以达到82.70%。当λ的值为0或1时，对应于在模型的微调阶段不考虑MFC或标签传播在公式（7）中的影响。05. 结论0我们提出了一种新颖的基于聚类的半监督少样本学习（cluster-FSL）图像分类方法，有效缓解了样本稀缺的问题。在聚类FSL中，我们通过整合有标签和无标签数据的因素，提出了一种多因素聚类（MFC）算法，有效提高了伪标签的质量。此外，在模型微调阶段，我们使用更强大的数据增强方法进一步扩充数据集，并通过多因素聚类和标签传播的联合监督来学习模型。在三个基准数据集上，我们的聚类FSL方法具有比其他少样本学习方法更先进的性能。0限制：我们提出的聚类FSL需要引入额外的无标签数据，并假设无标签数据和有标签数据隐含地嵌入在流形中，以确保伪标签的生成。0致谢：本工作部分得到了国家自然科学基金（编号62176271和61772568）和广东省基础与应用基础研究基金（编号2019A1515012029）的支持。[1] Sagie Benaim and Lior Wolf. One-shot unsupervised crossdomain translation.In Proceedings of the 32nd Interna-tional Conference on Neural Information Processing Sys-tems, pages 2108–2118, 2018. 1[2] Wei-Yu Chen, Yen-Cheng Liu, Zsolt Kira, Yu-Chiang FrankWang, and Jia-Bin Huang. A closer look at few-shot classi-ﬁcation. In International Conference on Learning Represen-tations, 2019. 6[3] Ekin D Cubuk, Barret Zoph, Jonathon Shlens, and Quoc VLe.Randaugment:Practical automated data augmenta-tion with a reduced search space.In Proceedings of theIEEE/CVF

下载后可阅读完整内容，剩余1页未读，立即下载