半监督少样本学习的伪损失置信度

83 浏览量更新于2023-10-14 收藏 780KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

8671半监督少样本学习的伪损失置信度黄凯，耿杰*，温江*，邓欣阳，徐哲西北工业大学KaiHuangk@mail.nwpu.edu.cn，耿杰，姜文，信阳.邓@ nwpu.edu.cnalan. mail.nwpu.edu.cn摘要半监督少样本学习被开发用于训练分类器，该分类器可以适应具有有限的标记数据和固定数量的未标记数据的新任务。大多数半监督少样本学习方法通过任务特定的置信度估计来选择未标记集合中的伪标记数据。本文提出了一种基于任务统一的半监督少样本学习的置信度估计方法，称为伪损失置信度（PLCM）。该方法综合考虑多任务的特点，通过伪标签的损失分布来衡量数据的可信度具体地说，不同任务的伪标记数据映射到一个统一的度量空间的伪损失模型的装置，使它有可能学习的先验伪损失分布。然后根据伪标记数据伪损失的分布分量置信度估计伪标记数据的置信度。因此，选择高可靠性的伪标记数据来加强分类器。此外，为了克服伪损失分布漂移，提高分类器的有效性，提出了与类间距选择和类权重等类平衡措施相协调的多步训练策略。在4个常用基准数据集上的实验结果表明，该方法能够有效地选择伪标记数据，并达到最佳性能。1. 介绍深度学习在许多视觉识别任务中取得了长足的进步，其出色的表现甚至在某些场景中超过了人类[7]。然而，它总是依赖于大量的标记数据，这可能是现实中数据收集和维护的沉重负担[35]。如何摆脱标记样本的局限性，仅用一个或几个标记样本就能学习到一个新的类别由于少样本学习在人工智能领域的广泛应用具有重要意义，因此，少样本学习在人工智能领域具有重要的应用价值。*通讯作者。近年来，人工智能引起了学术界越来越大的兴趣作为一种典型的迁移学习方法，微调[5]是将积累的经验迁移到新任务的初步探索。然而，仅使用少量训练数据很难执行域自适应，其中有限的样本不能代表其类的分布[26]。基于情节的训练策略[6][39]阐明了少镜头学习问题，并已成为基础少数几种学习方法。特别地，每个片段学习特定的分类任务，其中每个类只有几个样本可用于训练。通过一系列事件数据计算绩效，以测试快速适应新任务的能力基于元的学习方法[6][31]采用元学习者来提高自己适应不同任务的能力度量学习方法[11][12]试图从许多情景任务中找到更有效的距离度量利用统一的度量公式，在度量空间中的类分布更加明显。近年来，半监督少样本学习（SSFSL）得到了广泛的研究，旨在通过利用一定数量的未标记数据来改进模型。预测未标记样本的伪标签并选择高置信度数据进行迭代训练是SSFSL的直接有效方法[20][40]。然而，任务特定的伪标签的置信度推理的缺点是缺乏足够的实例支持，在单一的任务。针对这一问题，本文提出了一种无任务可信度估计方法，通过建立统一的置信度空间来选择可信的伪标记数据。在本文中，我们专注于构建伪标记样本的可靠性估计，并提出了一种新的半监督少镜头学习方法称为伪损失置信度（PLCM）。完整的过程在算法1中示出并在图1中示出。首先利用伪损失模型将伪标记数据映射到伪损失空间，该模型能够反映当前分类器对带有伪标记的未标记数据的接受程度。一般来说，分类器往往会给出欺骗性的-8672VXSSRUW公司简介WDVN3WDVN2SVHXGR-ORVVPRGHOODEHOHG公司简介SVHXGR-ORVV补充映射ORRS培训VHOI-WUDiQiQJ伪标号WDVN1SVHXGR-ORVVGiVWUiEXWiRQVSDcHcRQIiGHQcHPHWUic公司简介图1.我们提出的框架概述。在训练过程中，我们根据多任务的伪损失模型然后，一个选择器和一个过滤器被开发来执行未选择的和选择的伪标记数据的置信度度量最后，采用自训练策略对混合集进行拟合。如果样本难以理解，则产生有效预测。在不可靠的预测下，极有可能产生噪声伪标签，其造成比正确伪标签更大的损失。在此基础上，我们建立了半监督高斯混合模型（ss-GMM）来拟合伪损失分布，并根据学习到的分布分配伪标签的可信度。与其他基于样本选择的SSFSL方法不同，我们的伪损失置信度是基于多集任务的统计，集中在通用性和统一性。一旦在训练过程中完成拟合，我们只通过快速推理来估计伪标签在评估过程中的可信度，而无需任何额外的训练。这项工作的主要贡献概括为：1) 提出了一种新的伪标记数据可靠性估计方法，称为伪损失置信度（PLCM）。与以前的工作不同，我们在一个统一的伪损失度量空间中评估伪标记数据的置信度，而不是在不同的任务之间分开。 2)我们设计多步训练策略，学习一个更灵活的伪损失分布来跟随分类器的训练，从而提供更稳定的置信度。3)在四个广泛流行的小样本学习基准数据集上的实验结果表明，与其他最先进的方法相比，该1.1. 相关工作少拍学习。现有的少量学习方法可以概括为三个方面：（1）度量学习方法更加关注对距离度量进行建模以更好地区分类别。匹配网络[39]用支持集的距离和在嵌入空间中设置查询原型网络[32]使用学习的映射函数搜索不同类的原型（2）Meta学习方法的目标是获得能够快速适应新任务的通用模型。MAML [6]根据多任务的梯度来优化模型参数，从而可以通过几个步骤来适应新任务。MetaOptNet [17]通过线性分类器学习特征嵌入，该线性分类器被维护为凸学习问题。(3)图网络方法探索支持集和查询集样本之间的标签结构或嵌入结构TPN [22]使用图构造模型实现了从标记实例到未标记测试实例的标签传播。DPGN [43]将分布级关系和实例级关系与对偶完全图网络相结合。半监督学习。半监督学习（Semi-supervised learning，SSL）是在标记数据少、未标记数据多的情况下发展起来的，希望获得与监督学习相似甚至相同的学习效果。现有的SSL方法可以大致归纳为三类：（1）自训练是应用最广泛的半监督方法，因为它简单有效。由最有信心的基本分类器类提供的伪标记[16]是一种典型的自训练方法。此外，协同训练[41]试图用多个视图来理解数据，以解决自我训练中出现的累积误差问题。(2)一致性正则化方法的主要目的是提高模型的鲁棒性，即使图像中含有噪声，也能保持图像的标签分布。π模型[15]引入图像增强作为输入噪声，并利用额外的一致性损失对其自身进行正则化。Mean Teacher[38]通过采用参数的指数移动平均来正则化模型。(3)混合方法试图结合目前占主导地位的方法VHOHcWRUIIOWHUcODVV iIiHU构建体8673CDCDD--{∈ C}DCDDUSQUQ×个SΣppU{}S{∈ C}k=1Σ如自训练、一致性正则化等，从而得到统一的SSL框架。MixMatch方法[3]使用MixUp混合标记和未标记数据，并提出了一种统一的损失组合一致性正则化和熵最小化。FixMatch方法[33]在一致性正则化和伪标记的帮助下展示了一个简单但强大的模型。2. 方法2.1. 问题公式化定义. 半监督少样本学习的目标是适应只有少量标记数据和一定数量未标记数据的任务。具体地说，对于一个S-shot、W-way、Q-query、U-unlabeled任务，来自W个类中的每个类的S 、 Q个W个样本作为用于评估的看不见的数据点构成查询集，并且来自W个类中的每一个的U个未标记样本构成未标记集。该模型需要在支持集的少量有标签样本的情况下对查询集进行分类，在无标签集的固定数量的无标签样本的情况下进行辅助。培训过程。给定具有一组类train的数据集train，train由标记的子集D1=（I，y），y火车和未标记子集unl=I unl，具有相同的类集合。我们可以用情节[37]对许多SS-FSL任务进行采样来训练模型。在每个事件，W类通过从训练中随机选择来确定。从子集D1中抽取每个类的（S+Q）个标记样本，以形成支持集和查询集。U个未标记的样本，每个类从子集unl构建未标记的集合。训练是通过不间断地向模型中输入支持集、未标记集和具有不同情节的查询集来进行的。评估过程。给出另一个数据集测试，用一组新颖的类进行测试.就像训练过程一样，我们用情景任务来评估模型。一旦从测试中抽取了一个欠评估的任务，模型就应该在支持集和未标记集的帮助下快速适应它最终的分类性能报告的平均结果查询集与一系列的情节任务。2.2. SSFSL的伪损失模型损失模型通常适用于带有噪声标签的数据的学习[2][18]。噪声样本在早期训练期间总是具有较高的损失，使得可以应用混合模型来从损失分布中区分干净样本和噪声样本。受此启发，我们将损失模型推广到半监督少样本学习，目的是从未标记集合中识别出可靠的伪标记样本，从而增强支持向量机的学习能力。考虑=（I s，y s），y s作为支持集训练=（I u）表示未标记集合。首先使用支持集来帮助分类器适应这个特定的任务。设θ s为支持度预热的分类器参数因此，我们使用分类器获得未标记集合的伪标签：yu= arg max（Pc（Iu;θs）），（1）当Pc是分类器的softmax输出时。具有参数θs和伪标签的分类器的预测之间的未标记集的伪损失被公式化为：L（U|θ s）={−y ulog（Pc（I u; θ s）），I u∈ U}，（2）类似地，具有噪声伪标记的样本Iu通常比具有干净伪标记的样本Iu具有更高的伪损失。因此，可以通过对伪丢失进行置信度度量来区分具有干净伪标签的未标记数据。2.3. 伪损失置信度伪损失空间。具体地，有噪声的伪标记数据和干净的伪标记数据倾向于具有不同的ent伪损失分布。在一定程度上，每个伪损耗分量近似遵循正态分布。考虑到学习数据通常比看不见的数据具有更低的损失，我们将伪标记样本分为两个分支：未选择集和选择集。不可避免地，两个集合都具有噪声伪标记数据和干净伪标记数据。因此，由未标记集合组成的伪损失空间由四个伪损失组成：P（U）={|ξ∈L（U|θs，FL，FI）}，（3）其中Fl指示其伪标签是干净的还是有噪声的，并且Fl指示该样本是否已经被选择。在训练过程中，我们通过将伪标签和查询集的地面真值相结合来引入标记的伪损失实例，帮助学习伪损失分布作为监督信息。选择器和过滤器。选择器的设计是为了学习未选择集的伪损失分布，并识别干净的标记数据。滤波器用于从被选择器错误选择的所选集合中筛选噪声伪标记数据。因此，四分量ss-GMM被构建来拟合伪损耗分布。两个组件用于选择器，另外两个用于过滤器。具有K分量高斯混合模型的伪损失I的概率密度函数为：Kp（lI）=πk gk（I;μk，Σk），（4）k=1其中π k指示服从π k彡0且Kπ k=1的第k个高斯分量的权重。对于给定的伪端口集通过学习其伪损耗分布。形式上，样本I的损失实例I，πk gk表示置信度8674DD{|联系我们ΣL我Σ|D||D ||D|U.Σ概率pg|其中g是高斯分量c混合不超过SSi=1pi=1我我.|ΣUUUsp的第k个高斯分量。假设伪损失实例由N个片段收集，来自N个片段的查询集合的标记伪损失实例为L，未标记集合的未标记伪损失指示为U。然后，我们最大化标记和未标记伪损失实例的对数似然，以寻求最大似然。ss-GMM模型的极大似然估计（MLE）：β=argmax[logp（{DL，DU}|β）]、（5）其中，β表示（πi，μi，Σi）1iK，loglike-lihood进一步表示为：logp（DL，DU |β）= λ|DL|i=1logP.yi|βΣp。L|yL，βΣ（六）+（1−λ）|DU|i=1洛格山口U|βΣ，图2.不同时间重选和再训练的伪丢失分布比较。(a)示出了仅一次用未标记的集合重新选择和用混合数据重新训练;（b）示出了仅一次用未标记的集合重新选择和其中λ是在[42]中引入的权重系数以平衡参数估计的标记信息和未标记信息，可用L/（L+U）计算。由于解析求解极大似然估计很困难，因此采用EM算法通过迭代求解局部最优解在E步中，i的后验概率为当前ss-GMM得到的第k个高斯分量pgki，并在M步中更新ss-GMM的估计参数。置信度在利用ss-GMM确定伪损失分布后，根据后验概率对伪标记数据IU使用干净的伪标签输入。伪标记数据后验概率高的样本更有可能拥有干净的伪标签，可以被选为扩充支持集的真实数据。然后用混合数据集重新训练分类器：每集任务进行5次再选择再训练。为了方便起见，该图仅示出了属于高斯分量g3和g4的伪损耗。再培训。如果仅使用初级ss-GMM而不进行任何处理，则可能产生冲突图2给出了归一化损失实例=0的示例。五十三仅具有一次重新选择和重新训练的分类器将该实例判定为难以置信的数据（参见图2a），而对于具有五次重新选择和重新训练的分类器，它实际上更可能是可靠的数据（参见图2b）。当学习的伪损失分布不能跟随分类器的训练时，置信度度量变得可疑。为了解决这个问题，我们调整ss-GMM的参数与多步训练策略，以捕捉伪损失分布的变化。我们拟合一个ss-GMM组，每个项目对应于用不同次数的迭代训练的分类器。更确切地说，火车-S=.. I i，yiΣΣ| S|∪..我我，y iΣΣ| Us|、（7）哪里s表示未标记集合的所选样本，并且yi是样本Ii的伪标记。自我训练。此外，为了尽可能充分地挖掘出未标记集的可用信息，我们通过重新训练分类器来更新未标记集的伪标记并重新计算其伪损失分布。一般来说，增广训练集的支持，以帮助分类器提供更可靠的伪标签。在未标记集合中选取更多重复进行重新训练和重新选择，直到所选择的实例的数量和预测的伪标签保持稳定。2.4. 实例选择在自训练过程中，未标记集的伪损失分布随着重新选择和训练的次数而变化。对每一个响应T情节任务每个步骤负责一个ss-GMM，Gt表示在第t步中学习的ss-GMM通过重新选择并重新训练t次的分类器来计算用于拟合Gt根据第k步生成的Gk重新选择第k（kt）次的可靠伪标记样本2.5. 类余额通常，从未标记集合中选择的补充数据在不同类别之间是不平衡的，这导致分类器的性能不稳定[19]。如果训练数据很少，特别是，两个可用的类平衡的方法是em..β值ℓℓUs过程被分成T个步骤，其包括：8675DD×个←×个×个×个G K|伊萨克×个←1ify¯q==k else0Kγi+（1−λ）Σγj.Σ我们的方法解决了这个问题。分类分离选择。选择伪标记数据的不平衡是导致类不平衡的原因出于这个原因，我们建议保持选定的样本大致相等每类的类分开的选择。具体地，考虑到伪标签的置信度与不同的类分离，选择未标记的样本而不是整个未标记的集合类权重。我们还采用分类器损失的类权重[13]来平衡不平衡的数据，当类分离选择效果随着替代样本的减少而减弱时通过ap-1算法，主类得到的权重较小，次类的样本在后向损失中得到的关注度较大在课堂上的重量。算法一：PLCM培训流程输入：数据集训练，步骤T，迭代N输出：ss-GMM组G对于t=1到T，做初始化：βt={π，µ，Σ}t，贝叶斯估计对于n=1到N，从训练中抽取情景任务样本迭代训练分类器Pc，Smixy¯u，y¯q←argmax（Pc（u，q;θs））¯u，y¯q← L（y¯q，yq|FL，FI）端当βt不收敛时¯γ=p。Gγqk=p| ℓ¯Σ←Σπkgk(ℓu;µk,Σk)3. 实验3.1. 数据集和设置uk k uKk=1λΣγi+（1−λ）Σγjπkgk（¯u;µk，Σk）πk←iqkjukλ|Q|+（1−λ）|u|3.1.1数据集λΣγi¯i+（1−λ）Σγjµ我QKJℓ¯jk←λΣγi+（1−λ）Σγjmini-ImageNet由100个类和600个样本组成λΣγi¯i，¯i−µ，2+（1−λ）Σγj¯j，Σ←iqkq qkΣjukuk ukuk尺寸84每类84个，选自ILSVRC-2012 [30]。 [39]这是一个随机的分类。分为64个培训班、16个验证班和20个评估班。tiered-ImageNet是ILSVRC-2012 [30]的一个更大的子集，它包含608个类，分为34个更高级别的cat-egory节点，具有由人类端Gtβt端iQKj英国生物。在[28]之后，我们将这些类别注释分为20个(351类）、6（97类）和8（160类）分别用于训练、验证和评估。所有图像的大小为84 84。CIFAR-FS是CIFAR-100的变体[14]，其具有低的分辨率它有100个对象类，每个对象类包含32个32色图像的600个样本。在[4]之后，数据集被划分为64、16和20个类别，分别用于训练、验证和评估FC 100也基于数据集CIFAR-100 [14]，该数据集提供了具有低分辨率和超类的更具挑战性的场景。在[25]之后，100个类被分成20个超类，12个超类（60个类）用于训练，4个超类（20个类）用于验证，4个超类（20个类）用于评估。3.1.2实验装置网络架构。为了公平比较，我们采用ResNet-12 [8]作为特征提取器，其由四个残差块组成，每个块具有三个3 × 3卷积层，随后是BatchNorm层和LeakyReLu激活。此外，一个2 - 2最大池层被应用到减少在每个块的末尾处的输出的大小在[17]之后，我们利用Dropout[34]来防止过度拟合。10%的输出在前两个块中被随机丢弃。在在最终块的结束处，应用均值池化层以重新细化输入图像的特征嵌入。基本分类器是具有L2正则化的Logistic回归。超参数。对于特征提取网络的训练，基本学习率初始设置为0.1，并且每30个时期延迟10次，总共120个时期。用于收集ss-GMM拟合的伪丢失实例的发作的数量在评估过程中，我们对实例的选择进行了10个步骤的再选择和再训练比较方法。主要从三个方面对本文算法与其他算法进行了（1）在基本的半监督设置方面，我们将我们的方法与最近推广的 SSFSL 替代方案进行比较： TPN[22]、 TransMatch [44] 、 LST [20] 、 EPNet [29] 和ICI[40]。由于未标记样本的数量是半监督少拍学习的关键因素，我们报告了在相同的半监督条件下的比较结果接下来[20]，5路1次激发的实验使用每个类30个未标记数据，50个用于5路5次激发。同时，我们进行了转换设置实验来验证我们的框架的有效性比较包括在transductive设置中应用的SSFSL方法[22] [40]和其他当前TFSL方法[9][10][27]。(2)在分心半监督设置方面，我们将我们的方法与其他SSFL方法进行了比较。iqk qjuku英国λ8676表1.5路少数镜头分类在mini-ImageNet和分层ImageNet上以95%的置信区间测试600集的准确性†表示它是由公共代码实现In. 是指在感应设置、Tran. 表示具有15个查询和Semi的转换设置。(30/50）是半监督设置，其中30个未标记用于5向1激发，50个未标记用于5向5激发。设置方法Backbonemini-ImageNet tiered-ImageNet48.70±1.84% 63.11±0.92%LEO[31] WRN-28-10 61.76±0.08% 77.59±0.12%53.31±0.89%71.16±0.87%BD-CSPN[21] WRN-28-10ICI[40] ResNet-1267.19±0.55% 80.64±0.35% 73.21±0.58%71.40± 0.50%81.20±0.40% 75.60±0.60%66.50±0.89% 81.06±0.60% 76.53±0.87%70.92±1.03%82.74±0.55% 82.61±1.08%60.02±1.02% 79.30±0.59% 72.19±1.27% 82.12±0.92%半(30/50）LST[20] ResNet-12 70.01±1.90% 78.70±0.80% 77.70±1.60% 85.20±0.80%EPNet† [29] ResNet-12 70.50±1.32% 80.20±0.77% 75.90±1.18% 82.11±0.62%ICI[40] ResNet-12 69.66±1.13% 80.11±0.72% 84.01±1.03% 89.00±0.67%PLCM（我们的）ResNet-1272.06±1.08% 83.71± 0.63%84.78± 0.96%90.11±0.57%表2. 5路少数镜头分类测试CIFAR-FS上具有95%置信区间的准确度。[4 ]这是一个经典的故事。突出显示最佳执行结果方法主干5-单向单射五向五射ProtoNet* [32] 4 CONV 55.50± 0.70% 72.00± 0.60%MAML* [6] 4 CONV 58.90± 1.90% 71.50± 1.00%R2D2[4] 4 CONV 65.30± 0.20% 79.40± 0.10%团队[27] ResNet-12 70.43± 1.03% 81.25± 0.92%MetaOptNet[17] ResNet-12 72.00± 0.70% 84.20± 0.50%ICI[40] ResNet-1276.51± 1.22%84.32± 0.70%PLCM （我们的）ResNet-1277.62±1.15%86.13±0.67%ODS在更现实的条件下，其中未标记集包含支持集[20][28]中排除的分心类。由于很少有研究者关注它，我们报告了LST整理的部分结果[20]，其余结果由公共代码执行[29][40]。在[28]之后，我们使用5路1次5次未标记和5路5次20次未标记来测试我们的方法，并使用具有相同未标记集样本的5个distracting类。(3)在变量-无标记半监督设置方面，我们比较了我们的方法的条件下，每个类别中的无标记样本的数目是不同的，这分别设置为15，30，50，80和100。比较结果主要来自LST [20]、ICI [40]、EPNet [29]和表3. 5路少数镜头分类测试准确度与95%的置信区间FC100。*表示在[17]中报告。突出显示最佳执行结果方法主干5-单向单射五向五射ProtoNet* [32] 4 CONV 37.50± 0.60% 52.50± 0.60%TADAM[25] 4 CONV 40.10± 0.40% 56.10± 0.40%MetaOptNet[17] ResNet-12 41.10± 0.60% 55.50± 0.60%MatchNet[39] ResNet-12 43.88± 0.75% 57.05± 0.71%SIB[10] WRN-28-10 45.20± 0.81% 55.90± 0.74%MTL[36] ResNet-12 45.10± 1.80% 57.60± 0.90%E3 BM[24] WRN-28-10 46.00± 0.60% 57.10± 0.40%Centroid[1] ResNet-1845.83± 0.48%59.74± 0.56%PLCM （我们的）ResNet-1248.35±1.00%62.75±0.82%他们的公共代码3.2. 实验结果基本半监督少拍设置。我们比较了我们的方法与几种当前的方法mini-ImageNet，分层ImageNet，CIFAR-FS和FC 100。从表1、2和3中，我们得到以下结论：（1）与其他现有SSFSL方法相比，所提出的PLCM显示出实质性的增益，并且实现了所有少数拍摄设置和数据集的最新性能。(2)我们的方法是优于其他现有的半监督少-5路1拍五向五射5路1拍五向五射[39]第39话MAML[6] 4 CONVIn.[45]第45话：我的世界43.56±0.84%49.42±0.78%65.91±0.82%55.31±0.73%68.20±0.66%82.41±0.56%-51.67±1.81%66.33±0.05%-70.30±1.75%72.69±0.74%81.44±0.09%86.03±0.58%[10]第10话交易。CAN+T[9]ResNet-12E 3 BM[23]WRN-28-1070.00±0.60%70.31±0.93%79.20±0.40%81.89±0.60%72.90±0.65%78.74±0.95%82.80±0.37%84.93±0.38%86.92±0.63%84.30±0.40%TPN[22] 4 CONV[29]第二十九话半→Tran.PLCM（我们的）ResNet-1255.51±0.86%66.80±1.10%69.86±0.65%79.26±0.68%59.91±0.94%80.79±1.11%73.30±0.75%87.32±0.64%87.92±0.69%89.47± 0.56%TPN[22] 4 CONVTransMatch[44] WRN-28-1052.78±0.27%66.42±0.21%55.74±0.23%71.01±0.17%8677··表4.5路少镜头分类测试精度与distraction半监督设置。*表示它是与他们的公共代码一起执行的。突出显示性能最佳的结果。方法小型分层表6.在mini-ImageNet上使用基本SSFSL设置和分散SSFSL设置的几个类平衡结果'CW'表示类权重，并且'CSS'表示类分离选择。我们的方法同时使用类权重和类分离选择，LST和ICI方法都已经使用了类分离选择。设置方法基本SSFL指示SSFL1发5发1发5发LST[20] 65.58 70.43 58.27 70.86+cw ICI[40] 64.42 73.81 57.29 69.29PLCM68.28 78.19 62.81 74.45表5.我们报告的比较结果，我们的模型没有或与选定的过滤器。为方便起见，本表仅示出了3至10个步骤。前一个结果步骤3456错误率（%）2.4/3.74.7/5.25.2/5.89.4/9.1准确度（%）80.5/80.182.0/81.282.2/81.181.7/81.8步骤78910错误率（%）13.2/10.716.0/12.618.1/12.820.4/13.2准确度（%）81.4/82.380.3/82.979.1/83.378.8/83.7858075706515 30 50 80 100分心半监督少镜头设置。实际上为了说明我们的方法的适应性，我们比较了PLCM与其他几个SS-FSL方法的分心半监督少镜头设置。比较结果见表4。很明显，我们的方法比其他现有的SSFSL方法更有效，并在所有distractive半监督少镜头分类设置中达到最高的准确率变量未标记半监督少镜头设置。为了验证我们的框架在各种未标记的半监督少数镜头设置下的鲁棒性，我们在mini-ImageNet上进行了5路1镜头和5镜头实验，具有不同数量的未标记样本。图3显示了随着未标记样品数量增加，测试准确度的变化。显然，我们的方法在所有品种未标记的半监督少镜头集上表现最好。与其他SSFSL方法只考虑特定任务的样本选择相比，PLCM利用多任务的伪损失分布来建立一个统一的未标记样本图3.在mini-ImageNet上对不同未标记样本进行半监督少镜头分类的比较结果。具有相同设置的镜头学习方法，特别是基于可信度样本选择的SSFSL方法，如LST [20]和ICI [40]。实验结果表明，该方法对伪标记数据的置信度估计更精确，能更有效地利用未标记信息。(3)实验结果表明，该方法在无标记数据和有标记数据的情况下也具有较好的性能，进一步证明了该方法的有效性和鲁棒性更充分、更稳定的选拔机制。3.3. 消融研究PLCM的有效性。图4显示了一个任务的样本选择过程。我们比较了我们的方法的选择性能与硬选择的LST方法，它只挑选出伪标记的样本具有高预测得分所采用的方法。很明显，我们的方法选择的样本比LST方法更集中和清晰。图4（a）示出了使用LST方法的选择是去分层的，并且更容易选择远离其类别聚类的样本。由于PLCM根据酉伪损失空间选择伪标记样本，我们可以挑选出五向五射5路1拍ICILSTEPNetOUR测试精度1镜头5次射击单次拍摄5次射击MS k均值[22]49.0%63.0%百分之五十一点四百分之六十九点一TPN[28]百分之五十点四64.9%百分之五十三点五百分之六十九点九TPN + MTL[20]百分之六十一点三百分之七十二点四71.5%82.7%LST[20]70.0178.7064.1277.39+CSSICI[40]69.6680.1165.3775.11PLCM71.7683.0367.7379.60+CSSLST[20]70.5579.1164.8277.95&ICI[40]70.0780.6065.9175.578678(a)（b）第（1）款图4. 5向5次50未标记任务的样本选择的t-SNE可视化。具有不同颜色的点指示具有不同类别的未标记的样本，并且圈出的点表示所选择的样本。为了方便起见，我们仅通过硬选择方法和我们的PLCM选择方法示出了第三循环上的样本选择（大约选择了75个未标记的样本85五向五射80755路1拍70656055有MSS无MSS平衡措施，并且我们的方法仍然获得有竞争力的性能。(2)类间距离选择和类权重不仅在我们的方法中起着积极的作用，而且在其他SSFSL方法中也起着积极的作用，证明了它在SSFSL中的重要性(3)由于类分离选择大致保持类平衡的所选样本和类权重提供了更详细的关注损失，我们的模型减少了类不平衡的影响到更大的程度，并获得了更高的精度。多步骤训练策略的影响。图5显示了我们的方法中的多步训练策略对mini-ImageNet的影响。随着步长或环路的增加，多步策略的性能明显优于常规环路策略由于自适应伪损耗分布拟合二四六八十十二十四十六许多措施图5.在mini-ImageNet上使用或不使用多步策略的模型结果。‘MSS’ denotes multi-step更可靠的补充数据，以提高决策边界的鲁棒性选定过滤器的影响。我们的目标是通过选择器收集具有高可信度伪标记然而，当选择器性能不佳时，分类器也可能适应错误的伪标记样本这些伪样本的伪丢失将更类似于正确标记样本，这进一步困扰选择器。因此，滤波器作为PLCM的一个重要组成部分，通过从选定的数据中挑出不正确的信息如表5所示，显然，滤波器可以减缓在多步训练期间所选样本的错误率的增加。利用更干净的补充信息，采用滤波器的模型取得了更好的效果。阶级平衡的影响。我们进一步分析了SSFSL中类平衡方法的效果。表6显示：(1)当我们弱化类步训练策略，我们的置信度度量同步分类器，更有效，更精确地工作。4. 结论在本文中，我们提出了一个任务统一的伪损失的信心度量的半监督少拍学习。该算法能有效地估计伪标记数据的质量，并利用有用的未标记数据来增强分类器的训练通过联合多任务构造了统一的伪损失空间作为置信度度量，证明了该度量可以选择性能优良的伪标记数据。此外，多步训练策略能够学习更可信的伪损失分布以跟随分类器的训练，这有助于置信度度量。在四种少镜头场景（包括转导场景、基础场景、分散场景和品种无标签半监督场景）上的实验表明，该方法优于其他算法。致谢。本研究得到了国家自然科学基金项目61901376和陕西省重点研发项目2021 ZDLGY 01 -04的部分资助。测试精度8679引用[1] ArmanAfrasiyabi，Jean-FrancoisLalonde，andChristianGagn e´. 用于拍摄图像分类的关联对准在ECCV，第12350卷，第18-35页，2020中。六个[2] Eric Arazo，Diego Ortego，Paul Albert，Noel E.奥康纳和凯文·麦吉尼斯无监督标签噪声建模和损失校正。在ICML，第312-321页，2019年。三个[3] 放大图片作者：David Berthelot，Nicholas Carlini，Ian J.Goodfellow ， Nico- las Papernot ， Avital Oliver ， andColin Raffel. Mixmatch：半监督学习的整体方法。在NeurIPS，第5050-5060页，2019年。三个[4] 放大图片作者：Luca Bertinetto，Joao F.亨里克斯，菲利普·托尔，安德里亚·维达尔迪.使用可微封闭形式求解器的元学习。2019年，在ICLR。五、六[5] Wei-Yu Chen，Yen-Cheng Liu，Zsolt Kira，Yu-ChiangFrank Wang，and Jia-Bin Huang.更仔细地观察少数镜头分类。2019年，在ICLR。一个[6] Chelsea Finn，Pieter Abbeel，Sergey Levine.用于深度网络快速适应的模型不可知元学习。在ICML，第1126-1135页，2017年。一、二、六[7] K.他，X。Zhang，S. Ren和J. Sun.深入研究整流器：在imagenet分类上超越人类水平的性能在ICCV，第1026-1034页，2015中。一个[8] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。CVPR，第770-778页，2016年。五个[9] 侯瑞兵，洪昌，马冰鹏，Shiguang Shan，陈西林。交叉注意力网络用于少数镜头分类。在NeurIPS，第4003-4014页，2019年。五、六[10] Shell Xu Hu，Pablo G Moreno，Yang Xiao，Xi Shen，Guil-laume Obozinski ，Neil D Lawrence ， and AndreasDamianou.基于合成梯度的经验贝叶斯转换元学习。在ICLR，2020年。五、六[11] W. Jiang，K.黄，J.Geng和X.邓小平更多尺度度量学习，用于少量学习。IEEE Transactions on Circuits andSystems for Video Technology，第1一个[12] L. Karlinsky，J. Shtok，S. Harary，E. Schwartz，A. 各位助手R.费里斯河Giryes和A. M.布朗斯坦Repmet：基于代表性的度量学习，用于分类和少量目标检测。在CVPR中，第51921[13] Gary King和Langche Zeng。罕见事件数据的Logistic回归。Political analysis，9（2）：137-163，2001. 五个[14] Alex Krizhevsky，Geoffrey Hinton，等.从微小的图像中学习多层特征。2009. 五个[15] Samuli Laine和Timo Aila用于半监督学习的时间集成在ICLR，2017。二个[16] 李东贤伪标签：简单高效的深度神经网络半监督学习方法。2013年，《国际反洗钱法》。二个[17] K.李，S。Maji，A. Ravichandran和S.索阿托可微凸优化的Meta学习。在CVPR中，第10649-10657页，2019年。二、五、六[18] Junnan Li ， Richard Socher ， and StevenC.H.HoiDividemix：使用带噪声标签的学习作为半监督学习。在ICLR，2020年。三个8680[19] Shoushan Li，Zhongqing Wang，Guodong Zhou，andSophia Yat Mei Lee.用于不平衡情感分类的半监督学习。在IJCAI，第1826-1831页，2011中。四个[20] Xinzhe Li，Qianru Sun，Yao Liu，Qin Zhou，ShibaoZheng，Tat-Seng Chua，and Bernt Schiele.学习自我训练半监督少镜头分类。NeurIPS，2019。一、五、六、七[21] 刘金露，宋良，秦永强。用于少量学习的原型修正。参见ECCV，第741Springer，2020年。六个[22] Yanbin Liu，Juho Lee，Minseop Park，Saehoon Kim，Eunho Yang，Sung Ju Hwang，and Yi

下载后可阅读完整内容，剩余1页未读，立即下载