没有合适的资源?快使用搜索试试~ 我知道了~
迭代标签清洗:一个用于直推式和半监督少次学习的新算法
8751用于直推式和半监督少次学习的迭代标签清洗Michalis Lazarou1Tania Stathaki1YannisAvritis21伦敦帝国理工学院2Inria,Univ Rennes,CNRS,IRISA摘要少量学习相当于学习表示和获取知识,使得可以在监督和数据都有限的情况下解决新的任务通过转导推理和半监督学习可以提高性能,其中转导推理可以同时获得整个测试集,而半监督学习可以获得更多未标记的数据。专注于这两个设置,我们引入了一个新的算法,利用标记和未标记的数据分布的流形结构来预测伪标签,同时平衡类,并使用有限容量分类器的损失值分布来选择最干净的标签,迭代地提高伪标签的质量我们的解决方案超越或匹配四个方面的最新结果载体S特征提取支持集扩充最近邻图标签清洗标签传播阶级平衡这些数据集包括mini ImageNet,分层ImageNet,CUB和CIFAR-FS,同时在特征空间预处理和可用数据量方面具有鲁棒性。公开的源代码可以在https中找到://github.com/MichalisLazarou/iLPC1. 介绍少次学习[61,56]正在挑战深度学习范式,因为不仅监督有限,而且数据也有限。尽管Meta学习[39,12]最初有希望,但迁移学习[10,59]在将表征学习与在有限数据上学习新任务脱钩方面越来越成功。半监督学习[30,5]是处理有限监督的主要方式之一,实际上,其少量学习部分[50,66]是微型版本,其中标记和未标记数据都按比例限制,而表示学习可以解耦。这些方法更接近于转导推理[36,51],这是深度学习之前半监督学习的支柱[8]。在未标记数据上预测伪标签[30]是半监督学习中最古老的想法之一[54]。基于图的方法,特别是标签传播[68,67],在转导推理中非常突出,并且通过预测伪图1. 所提出方法的概述。详情见正文标签[22]。然而,在表示固定的情况下,伪标签的质量在少量学习中至关重要[63,29]。同时,在使用噪声标签的学习中[3,21,57],通常基于小容量分类器的损失值统计来清理标签。在这项工作中,我们利用这些想法来改善trans-ductive和半监督的少镜头学习。如图1所示,集中于转换,给出了一组标记的支持示例S和未标记的查询Q,通过映射f在特征空间中表示。通过标签传播[67],我们获得了一个将示例与类相关联的矩阵。对应于未标记示例的子矩阵P使用Sinkhorn-Knopp算法[24]在示例和类上进行归一化,假设类上均匀分布。我们从P中提取伪标签,我们按照O2 U-Net [21]进行清理,每个类只保留一个示例。最后,受[26]的启发,我们将这些示例从Q移动到S并迭代直到Q为空。2. 相关工作和贡献2.1. 少数学习元学习这是一种流行的范例,其中训练集被划分为类似于struc.1236查询QF7次迭代548752X→X实现新的任务[12,25,56,39,61]。基于模型的方法依赖于特定模型架构的属性,例如循环和内存增强网络[39,53,40]。基于优化的方法试图学习能够在新任务中快速适应的模型参数[12,48,70,49,41,31,6]。基于度量的方法试图学习适合于比较的表示[56,25,58,61]。当然,度量学习本身就是一个研究领域[62,23],现代思想在少数学习中通常是有效的[34]。预测权重,数据增强也基于元学习,可以预测新的参数甚至数据。例如,通常学习预测最后一层(分类器)[13,45,47]或甚至中间卷积层[7]中的数据相关网络参数。或者,可以学习在特征空间[14]或输入(图像)空间[64,2]中生成新任务数据。质量可以通过翻译图像来提高,类似于风格转移[35]。这种学习数据增强是对其他想法的补充。最近,人们认识到,在整个训练集上学习一个强大的表示比采样类似于新任务的几个训练集更有效[13,10,59,38]。 在这样做时,可以使用标准损失函数[13,10],知识蒸馏[59]或其他常见的自我监督和正则化方法[38]。我们遵循这种迁移学习方法,它使我们能够将表示学习与核心少数学习思想解耦,并提供与竞争对手更清晰的比较。2.2. 使用未标记的数据利用未标记的数据是令人感兴趣的,因为容易获得这样的数据。两种常见的设置是转导推理和半监督学习。在这种设置中,所有新类未标记的查询示例都被假设在推理时同时可用[36,33,46,18,19,51]。这些示例给出了关于在标记的支持示例之上的新类的分布的附加信息常见的直推推理解决方案适用于少数分类,特别是标签传播[36]和嵌入传播[51],其平滑嵌入,如图像分割[4]。这两种操作也用于表示学习,如元学习。使用维度缩减,TAFSSL [33]学习对新任务具有高度判别性的任务特定特征子空间。元置信度转换(MCT)[29]元学习一个数据相关的缩放函数来规范化每个示例并迭代更新类中心。 PT+MAP [19]使用类似的迭代过程,但也在类之间进行平衡。交叉关注[16],除了通过以下方式对齐特征图之外相关性,通过迭代地进行预测并使用最有信心的预测来更新类表示来利用查询示例在这种情况下,给出了标记的新类支持示例和附加的未标记数据。可以在两者上学习分类器,以对新类别查询进行预测[50,63,66]。第一个贡献之一是使用未标记的示例来适应原型网络[56],同时区分干扰物类[50]。常见的半监督解决方案也适用于少量分类,例如学习自训练[32],其适应伪标 签[30]和 TransMatch [66], 这 是MixMatch [5]的 适应。实例可信度推理[63]预测伪标签,使用线性分类器选择最有可能正确的自适应子空间[55]是从标记和未标记的数据中学习的,产生了一个判别子空间分类器,它最大化了子空间之间的裕度。2.3. 贡献在这项工作中,专注于迁移学习范式来学习给定固定表示的新任务[59,38],我们做出了以下贡献:1. 我们将半监督学习中预测伪标签的能力[30,32]与从噪声标签中学习的标签清理[21]相结合。2. 根据流形假设,我们使用标签传播[67,36]来推断伪标签,同时平衡类[24,19]并在传播过程中迭代地重用伪标签[26,63]。3. 我们在转导和半监督的少拍学习方面都达到了新的技术水平3. 方法3.1. 问题公式化在表示学习中,我们假设访问标记数据集D库,每个示例在C库中的一个类中具有标签。 该数据集用于学习从输入空间到d维特征或嵌入空间的映射f:Rd。在表示学习时获得的知识用于解决新任务,假设访问数据集D新,其中每个示例与类C新中的一个相关联,其中C新与C基不相交。D小说中的例子可以被标记或不被标记。在少数镜头分类[61]中,定义了一个新的任务通过从D个新样本中采样支持集S,支持集S由N个类组成,每个类具有K个标记的样本,总共L=NK个样本。给定映射f和支持集S,问题是学习N路分类器,其使得8753∈×IJ∈∈i=1i=1∈联系我们联系我们×2∈∈×.我+×对未标记查询的预测也从Dnovel采样。查询彼此独立处理。这被称为归纳推理。在直推推理中,由M个未标记示例组成的查询集Q也从D novel中采样。给定映射f、S和Q,问题是对Q进行预测,而不需要学习分类器。在这样做时,可以利用Q中示例的分布,这很重要,因为假设M大于L。在半监督少镜头分类中,M个未标记样本的未标记集合U也从Dnovel中采样。给定f,S和U,问题是学习对来自D novel的新查询进行预测,如在归纳推理中。同样,M> L,我们可以利用U的分布。在这项工作中,我们专注于转导推理和半监督分类,给定f。f在归纳推理上的表现是我们的我们发展我们的和一个零向量。标签传播相当于求解N个线性系统Z:=(I−αW)−1Y,(4)其中α[0,1)是超参数。所得到的T N矩阵Z可以用于通过采取每行的最大元素来进行预测[67]。然而,在进行预测之前,我们需要对类进行平衡。3.4.阶级平衡重点研究了M×N子矩阵P:=ZL+1:T,:(5)(the最后M行)。我们首先执行逐元素幂变换用于转导推理解决方案。在半监督的情况下,我们遵循相同的解决方案,其中Q被U代替。我们-Pij←Pτ(六)在U上的预测,然后我们继续在归纳的情况下,用S∪U代替S。3.2. 最近邻图我们给出映射f,标记支持集S:={(xi,yi)}L和查询集合Q:={xL+i}M,其中因为我[M],j[N],其中τ >1,鼓励努力预测参数τ类似于尺度(或倒数在基于softmax的分类器[13,45,42]中,P的元素与类概率而不是logits成比例。受[19]的启发,我们将P归一化为给定的行方向和p∈RM和列式和q∈RN。每个元素y i[N]:=1、. . .、N. 我们将来自S和Q的所有示例嵌入到V=v1,. . .,vTRd和1-正规化,其中T:=L+M和vi:=f(x i),i[T]. 根据[22],我们构造了一个k-近邻图V中的特征,由稀疏T T非负表示亲和基质A,p的pi∈[0,1]表示e示例XL+i对于i ∈ [M]的置信度;它可以是P的第i行的函数或设置为1。q的每个元素qj≥0表示类j的权,其中j ∈ [N]。在没有这些信息的情况下,我们设置q:= 1(p1)1,(7)NM N[vvj]γ,如果i=j∧vi∈NNk(vj)0,否则对于i[T],j[N],其中NNk(v)是V中v的k-最近邻居,并且γ> 1是超参数。最后,我们得到对称T T邻接矩阵W:=1(A + A),并将其对称归一化为W:=D−1/2WD−1/2,(2)其中D=diag(W1T)是W的T×T度矩阵。3.3. 标签传播在[67]之后,我们将T×N标签矩阵Y定义为假设查询在类上均匀分布。归一化本身是P到具有行和p和列和q的非负M N矩阵的集合S(p,q)上的投影,S(p,q):={X ∈ RM×N:X1N= p,X1M=q}. (八)我们使用Sinkhorn-Knopp算法[24]进行该投影,该算法在重新缩放P的行以求和为p以及其列以求和为q之间交替,P←diag(p)diag(P1N)−1P(9)P←Pdiag(P<$1M)−1diag(q),(10)Aij:=(一).8754∈∈∈直 到 达 成 一 致 。 最 后 y, 对 于 每 个 查 询 xL+i , i[M],我们预测伪标签Yij := 1,如果i≤L∧yi=j0,否则(三)y(L+i:=argmaxPij(11)j∈[N]对于i[T],j[N]。矩阵Y每个类有一列,每个示例有一行,这是一个独热编码标签其对应于所得矩阵P的第i行的最大元素,其中i∈[M]。8755--∈−∈W3.5. 标签清洗预测的伪标签不一定是正确的,但是分类器可以对这种噪声是鲁棒的。当有足够的数据可用于调整表示[30,22]时,情况就是这样,使得伪标签的质量随着训练而提高。由于这里的数据是有限的,我们希望选择Q中最有可能正确的伪标记查询清理以每个类仅保留一个伪标记查询,我们将其从Q移动到支持集S。我们迭代整个过程,每次为每个类选择一个伪标记查询,直到Q为空,S被所有伪标记查询扩充。假设选择是正确的,想法是将它们视为在S中真正标记的,提高了伪标签的质量。将它们视为真正标记的,并将它们添加到支持集S。迭代该过程是改进伪标签的质量的替代方式我们将这个问题解释为利用噪声标签进行学习,利用标签清洁的最新进展[3,21,57]。假设分类器不过拟合数据,例如。在小容量、高学习率或很少迭代的情况下,原理是具有干净标签的示例比具有噪声标签的示例表现出更少的损失特别是, 给定标记的支持集S:={(x,y)}L以及伪标记查询集Q :=算法1:迭代标签传播和清理(iLPC)。输入:嵌入f输入:带标签的支持集S,|S|= L输入:未标记查询集Q,其中|Q|= M输出:增广支撑集S |S|= L + M1次重复2W ←GRAPH(f,S,Q;γ,k) ▷adjacency matrix(1),(2)3Y←LABEL(S)▷label matrix(3)4Z←LP(W,Y;α)随机标签传播(4)5P←ZL+1:L+M,:M未标记子矩阵(5)我ii=1M6个P ←幂(P;τ)▷幂变换(6)(xL+i,y(L+i)i=1,我们使用以下训练N- 路分类器g加权交叉熵损失7(p,q)←BALANCE(P)▷class balance(7)8个P ←SINKHORN(P;p,q)辛霍恩-克诺普(9),(10)9Y←PREDICT(P)▷pseudo-labels(11)L M10CLEAN(f,S,Q,Y,p)▷标签清洁(12),(13):=−Σlogg(xi)yi−Σpilogg(xL+i)yi=1i=1其中P1是e示例XL+1的置信度权重。这里,假设分类器g使用softmax产生类上的概率向量,并且g(x)y是指g(x)的元素y[N]。在实践中,它是通过在嵌入f之上的线性分类器获得的,可选地允许实现f的网络的最后层的适配。损失项 i:=对 应 于 伪 标 记 查询 xL +1 的 pilogg(xL+1)y(L+1)用于选择。根据O2 U-Net [21],我们使用大学习率并收集所有时期的平均损失li,因为i[M]. 在具有噪声标签的学习关于干净和嘈杂标签的这种损失的统计数据[3,57]。然而,这不能很好地与预测的伪标签[1]一起工作,因此我们选择具有最小平均损失的查询[21,1]。因为我们迭代了这个过程,所以我们采取了一个极端的情况,即每个类选择一个查询示例:我←11(S,Q)←增强垫块(S,Q,I)▷增强垫块支撑(14),(15)12 直到Q=▷预测所有查询算法1总结了该过程,称为迭代标签传播和清除(iLPC)。给定S、Q和嵌入f,我们构造由归一化邻接矩阵(1)、(2)表示的最近邻图,并且我们在当前标签矩阵Y(4)上执行标签传播聚焦于所得矩阵Z的未标记子矩阵P,我们执行幂变换(6)和行/列归一化以平衡类(9)、(10)。我们从标准化的P(11)预测伪标签Y,我们将其与S和Q一起用于训练线性分类器。f具有交叉熵损失(12)和循环学习率时间表[21]。我们选择在所有时期上具有最小平均损失的每个类的一个查询(13),我们将其从Q移动到S,如标记的(14)、(15)。重新定义Q,S,我们重复这个过程,直到Q为空。I:=arg minyL+i=j¯i:j∈[N]Σ.(十三)在终止时,所有数据以S标记。在原始查询上的预测标签是在转导推理的情况下的输出。在半监督分类中,我们最后,我们用所选择的查询及其伪标签来增强支持集S,同时从Q中移除所选择的查询:S←S∪{(xL+i,y(L+i)}i∈I(14)Q←Q\{xL+i}i∈I(15)3.6. 迭代推断虽然标签传播和类平衡对整个未标记查询集Q进行预测,但我们应用.8756使用S学习新的分类器并对新查询进行预测,如在归纳推理中。4. 实验4.1. 设置数据集我们使用四个常见的少量分类基准数据集,迷你ImageNet [61,49],分层ImageNet[9] ,CUB [10,15]和CIFAR-FS [10,27]。补充材料中提供了更多细节8757平均准确度联系我们INFEC项RES NET-12AWRN-28-10LP Balance iLC iProb1级-射击5-射击1发5发电感56.30±0.6275.59±0.4768.17±0.6084.33±0.43感应✓ 61.09±0.7075.32± 0.5074.24± 0.6884.09± 0.42感应✓ ✓ 65.04±0.7576.82± 0.5079.42± 0.6985.34± 0.43传导✓ ✓ 65.57±0.8978.03± 0.5478.29± 0.7688.02± 0.41感应†✓69.79±0.9979.82±0.5583.05±0.7988.82±0.42感应✓ 58.27±0.9174.11± 0.5680.75± 0.7687.62± 0.44感应✓ 68.79±0.9679.93±0.5682.04±0.7888.89±0.41表1.我们的方法iLPC在miniImageNet上的算法组件的消融研究归纳:仅使用支持示例的基线LP:标签传播。平衡:类平衡(7)。iLC:迭代标签清洗,没有它我们只输出预测(11)。iProb:迭代选择每个类别的顶级示例,直接作为P(5)的列最大值,而不是iLC。类:用于预测而不是LP的线性分类器,如[63]所示,平衡仍然应用于输出概率。t:iLPC的默认设置METHODNETWORKmini IMAGE NETtiered IMAGE NETCIFAR-FS CUB单次拍摄5次射击单次拍摄5次射击单次拍摄5次射击单次拍摄5次射击LR+ICI [63] ResNet-12A66.8079.2680.7987.9273.9784.1388.0692.53LR+ICI [63]* ResNet-12A66.85±0.9278.89±0.5582.40±0.8488.80±0.5075.36±0.9784.57±0.5786.53±0.7992.11±0.35iLPC(我们的) ResNet-12 A69.79±0.9979.82±0.5583.49±0.8889.48±0.4777.14±0.9585.23±0.5589.00±0.7092.74±0.35PT+MAP [19] WRN-28-1082.92±0.2688.82±0.13--87.69±0.2390.68±0.1591.55±0.1993.99±0.10PT+MAP [19]* WRN-28-1082.88±0.7388.78±0.4088.15±0.7192.32±0.4086.91±0.7290.50±0.4991.37±0.6193.93±0.32[63]* WRN-28-1080.61±0.8087.93±0.4486.79±0.7691.73±0.4084.88±0.7989.75±0.4890.18±0.6593.35±0.30iLPC(我方)WRN-28-1083.05±0.7988.82±0.4288.50±0.7592.46±0.4286.51±0.7590.60±0.4891.03±0.6394.11±0.30表2.转导推理,与LR+ICI [63]和PT+MAP [19]的比较* :我们的复制与我们的数据集上的官方代码00.5十一点五706560550 1 2 350平均损失平均损失0 100 200 300 400 500(a) 20%均匀(b)40%均匀尺寸图3. 在mini ImageNet上进行单次trassuctive推理,通过LR+ICI进行消融[63]预处理:PCA降维0 0.5 11.5平均损失0 0.5 11.5平均损失每个类别随机抽取15个额外的示例,即总共M=75个示例,这是文献中最常见的选择[36,32,66]。(c)任务1(d)任务2图2. (a,b)独立归一化的正确和不正确标记的示例的损失值(12)的分布。均匀标签噪声:(a)20%,(b)40%。由(11)预测的两个不同的1次转导迷你ImageNet任务(c,d)的伪标签。任务我们考虑N-路,K-杆分类任务与N = 5随机抽样的新的类和K1,5随机选择的例子,每类的支持集S,即L=5K的例子总数。对于查询集Q,我们在半监督设置中,未标记集合U包含每个新类的额外数量的随机采样示例。这个数字取决于K。我们使用两种设置,即30/50和100/100,其中第一个数字(30或100)表示1次拍摄,第二个数字(50或100)表示5次拍摄。同样,这是半监督少拍学习中最常见的两种选择[32,63,29,50,66]。除非另有说明,我们使用1000个任务,并报告测试集的平均准确度和95%置信区间竞争对手正如补充材料中所讨论的,在升的实验评估中有几个缺陷不正确纠正#示例#示例iLPCLR+I (我们的)CI8758方法网络迷你IMAGENET1发5发分层IMAGE网络1发5发CIFAR-FS1发5发LR+ICI [63]WRN-28-1082.38±0.8688.78±0.3988.59±0.7492.11±0.3986.39±0.7990.02±0.49PT+MAP [19]*WRN-28-1083.79±0.7188.94±0.3388.87±0.6492.01±0.3687.63±0.6690.15±0.46iLPC(我们的)WRN-28-1085.98±0.7490.54± 0.3190.02±0.7092.94± 0.3788.54±0.6890.92± 0.46表3.直推推理,每个类50个查询。* :我们的复制与我们的数据集上的官方代码方法mINt IN CIFAR-FS CUB±0.34iLPC(我们的)90.51±0.3593.61±0.3891.59±0.4494.75±0.26表4. 使用WRN-28-10的10次推断。mIN:miniImageNet. tIN:分层的ImageNet。* :我们的复制与我们的数据集上的官方代码。METHODPREmini ImageNettiered ImageNet1发5发1发5发PT+MAP[19]*48.57 ±0.81 75.67 ±0.82 49.67±0.77 88.32±0.50iLPC(我们的)78.89 ±0.90 86.80 ±0.46 86.52±0.47 91.07±0.47PT+MAP [19]*✓82.88 ±0.73 88.78 ±0.40 88.15±0.71 92.32±0.40iLPC(我们的)✓83.05±0.79 88.82±0.4288.50±0.7592.46± 0.42表5.通过PT+MAP [19]预处理进行转导推理、消融。PRE:幂变换、归一化、居中。* :我们的复制与我们的数据集上的官方代码。方法NETOWRKmini IMAGE NET1发5发MCT(instance,flip)[29] ResNet-12B 78.55±0.86 86.03±0.42MCT ( noscale ) [29]*ResNet-12B67.26±0.6081.90±0.43iLPC(我们的)ResNet-12 B75.58±1.1681.58 ±0.50iLPC(我们的)ResNet-12 A69.79 ±0.9979.82 ±0.55表6.转导推理,使用ResNet-12 B与MCT [29]进行比较* :我们在数据集上使用官方代码进行复制,没有增强和缩放。例如使用不同的网络、训练、数据集版本、维度和特征预处理。公平的比较是不可能的,除非使用公共代码在完全相同的设置下重现结果。在这项工作中,我们确实提供了与三种最先进方法的 再 现 结 果 的 完 全 公 平 的 比 较 : LR+ICI [63] 、PT+MAP [19]和MCT [29]。只有[63]出版,而其他两个是预印本。我们使用公开可用的预训练骨干卷积神经网络,这些神经网络在基类训练集上进行训练。我们对两个流行的网络进行了实验,即残差网络ResNet-12 [42]和宽残差网络WRN-28-10 [52]。特别是,与[63]相比,我们使用[63]提供的ResNet-12的预训练权重,我们称之为ResNet-12 A,以及官方公共代码1进行测试。与[19]相比,我们使用[38]2提供的WRN- 28-10的预训练权重,与[19]使用的相同,以及官方公共代码3进行测试。为了与[29]进行比较,我们使用官方公共代码4从头开始训练[29]使用的另一个版本的ResNet-12,我们称之为ResNet-12 B,以及相同的代码进行测试。特征 预处理每种方法都使用自己的特征预处理。LR+ICI [63]使用2-归一化和PCA将ResNet-12 A减少到5维。PT+MAP [19]使用WRN-28-10特征的逐元素幂变换、WRN-28-10归一化和MCT [29]使用ResNet-12 B的输出张量的平坦化,而不是空间池化。默认情况下,我们对WRN- 28-10和ResNet-12 B使用与[19,29]相同的选项。然而,对于ResNet-12 A,我们仅在转导推理上使用2-归一化,并且我们不使用任何降维。我们使用PyTorch [43]和scikit- learn [44]。标签清理基于f之上的线性分类器,通过压印每个类别的支持特征的平均值来初始化,然后使用(12)进行训练。我们使用SGD,动量为0.9,重量衰减为0.0005。我们使用η的学习率进行1000次迭代。对于电感(分别为semi-supervised) learning, we use logistic regression on support(resp.也是伪标记的)示例,使用scikit-learn学习[63]。行和p(9)固定为1。 补充材料包括更多的选择。它还包括推理时间比较。4.2. 消融研究超参数我们的超参数包括最近邻图中使用的γ和k(1),标签传播中的α(4),平衡中的τ(7)以及标签清洗的学习率η我们在每个数据集的验证集上优化它们。k和α的常见选择在[15,20]和[0]中。5,0。8),分别。我们设置γ=3,τ=3和η=0。1.一、补充材料中给出了每个数据集的更多细节和精确选择1https://github.com/Yikai-Wang/ICI-FSL2https://github.com/nupurkmr9/S2M2_fewshothttps://github.com/yhu01/PT-MAP4https://github.com/seongmin-kye/MCTLR+ICI [63]* 88.69±0.3891.88±0.4190.23±0.4593.66±0.28PT+MAP [19]* 89.9793.33±0.3491.30±0.4594.24±0.288759--N∈BALANCINGNETWORKmini IMAGE NETtiered IMAGE NETCIFAR-FS CUB单次拍摄5次射击单次拍摄5次射击单次拍摄5次射击单次拍摄5次射击没有一WRN-28-10 78.06±0.8287.80±0.4286.04±0.7390.74±0.4685.32±0.7689.64±0.4889.67±0.6492.98±0.31UniWRN-28-10 77.50±0.7883.68±0.3983.02±0.6786.17±0.4081.47±0.6984.83±0.4585.22±0.5787.99±0.28真WRN-28-1082.68±0.8289.07±0.4189.17±0.7092.67±0.4487.32±0.7490.92±0.4891.24±0.6094.14±0.30表7.使用我们的iLPC进行不平衡的转导推理 从10,..., 20块无:无平衡。Uni:均匀分布。True:真实分布。算法组件表1在存在或不存在单独组件以及使用替代组件的情况下消除了我们的方法。使用具有标签传播的查询给出了相对于归纳推理的转导增益,在1次拍摄中高达6%,而在5次拍摄中与线性分类器相当。在单次拍摄中,平衡和迭代标签清洁各自独立地带来4-5%的另一增益,而两者的组合带来8- 9%。迭代标签清洗的性能进一步证明了其优越的性能相比,选择基于P的例子代替。4.3. 标签清洁:损失分布为了说明我们的标签清洁,我们进行了两个实验,显示了损失值的分布(12)。在第一个中,如图2(a,b)所示,我们将标签噪声均匀随机地注入500个标记示例的20%(a)和40%(b)正确和不正确标记的示例具有非常不同的损失分布。重要的是,虽然之前关于噪声标签的工作[3,21,57]试图通过损失值的最佳阈值来检测干净的例子,但我们每次迭代只需要很少的干净例子。具有最小损失值的示例是干净的。第二个实验是两个新的1-shot transductive任务,如图2(c,d)所示。我们每个类使用50个未标记的查询,并根据(11)预测伪标签。这里的标签清洁更具挑战性,因为两个分布更加重叠。这是很自然的,因为即使预测是不正确的,预测也比一致的更有信息尽管如此,很大一部分干净的例子有一个较小的损失值比噪声的最小值。4.4. 阶级平衡为了显示我们的类平衡模块的有效性,我们进行了实验,在一个新的设置为不平衡的几杆转导推理。在该设置中,每个少数任务的每个类的查询的数量从10均匀地随机抽取。. . 20块我们不使用平衡,或者我们使用具有均匀类分布的平衡(7),或者,假设先验类分布uRN已知,我们用u代替(7)中的1N。如表7所示,平衡可以大幅提高精度,但前提是已知先验类别分布,否则是有害的。4.5. 转导推理表2比较了我们的iLPC与LR+ICI [63]和PT+MAP [19]在每个类15个未标记查询的标准设置下。真正公平的比较是与我们的再现,由 * 表示。除了默认网络,我们还使用WRN-28-10和LR+ICI [63],因为它更强大。在此设置下,我们的iLPC与PT+MAP [19]相当,并且在miniImageNet 1-shot上优于LR+ICI [63我们还对每个类进行了50个未标记查询的实验,或者总共M=250。 如表3所示,PT+MAP [19]的增益显着增加,在miniImageNet 1-shot上高达2%。这可以归因于PT+MAP [19]在欧几里得空间上操作的事实,而我们捕获了流形结构,这在存在更多数据的情况下表现出来。表4中示出了10次注射实验。收益在0.5%左右。表5显示PT+MAP [19]对特征预处理非常敏感,没有它会损失高达40%,而我们的iLPC更稳健,损失仅高达5%。类似地,图3显示LR+ICI [63]对降维敏感,仅在5维时效果最好。相比之下,我们的iLPC非常稳定,仅在2维时失效。表6比较了我们的iLPC与MCT [29]。我们通过使用官方代码从头开始训练ResNet-12 B来复制MCT结果,并且我们在没有数据增强(水平翻转)和没有元学习缩放功能的情况下测试了这两种方法。目的是在相同的骨干网络和相同的训练过程下比较两种转换方法,其明显优于ResNet-12 A。在这些设置下,MCT在5次拍摄中稍好,但iLPC在1次拍摄中大幅优于MCT。4.6. 半监督学习如表8所示,iLPC在所有设置中优于LR+ICI [63],其幅度甚至大于转导推断,例如在miniImageNet 1-shot中提高了近3.5%这可以归因于捕获数据的流形结构,因 为 在 这 种 情 况 下 存 在 更 多 的 未 标 记 数 据 由 于PT+MAP [19]不进行半监督学习实验,因此我们以与我们相同的方式调整它,使用默认的WRN-28-10,在大多数实验中表现优于它。8760††iLPC(我们的)表8. 半监督少次学习,与[63,19]的比较。* :我们的复制与我们的数据集上的官方代码。:我们适应半监督,基于官方代码。CUB 5-shot省略:没有一个类具有所需的70个示例。:有中心。METHODNETWORKmini IMAGE NETtiered IMAGE NETCIFAR-FS CUB一发五中一发LR+ICI [63]* ResNet-12A66.85 ±0.9278.89 ±0.5582.40 ±0.8488.80 ±0.5075.36 ±0.9784.57 ±0.5786.53 ±0.7992.11 ±0.35CAN+Top-k [16]ResNet-1267.19 ±0.5580.64 ±0.3573.21 ±0.5884.93 ±0.38-DPGN[65]ResNet-1267.77 ±0.3284.60 ±0.4372.45 ±0.51 87.24 ±0.3977.90 ±0.5090.20 ±0.4075.71 ±0.4791.48 ±0.33MCT(实例)[29]ResNet-12 B78.55±0.8686.03±0.4282.32±0.8187.36±0.5085.61±0.6990.03±0.46--EP [51] WRN-28-1070.74 ±0.8584.34 ±0.5378.50 ±0.9188.36 ±0.57-SIB [17]†WRN-28-1070.00 ±0.6079.20 ±0.4072.9082.8080.00 ±0.6085.3 ±0.40SIB+E3 BM [37] WRN-28-1071.40 ±0.5081.20 ±0.4075.60 ±0.684.30 ±0.4-[69]第69话74.86 ±0.1984.13 ±0.1480.18 ±0.2187.56 ±0.15-PT+MAP [19]* WRN-28-1082.88 ±0.7388.78 ±0.4088.15 ±0.7192.32 ±0.4086.91±0.7290.50 ±0.4991.37±0.6193.93 ±0.32iLPC(我方)WRN-28-1083.05±0.7988.82±0.4288.50±0.7592.46±0.4286.51±0.7590.60±0.4891.03±0.6394.11±0.30表9.归纳推理的现有技术。* :我们的复制与我们的数据集上的官方代码†:分层ImageNet,如[37]所报道方法NETWORKSPLITMINIMAGE NET1发5发LST [32] ResNet-12 30/5070.10±1.90 78.70±0.80LR+ICI [63] ResNet-12A 30/50 69.66 80.11MCT(instance)[29] ResNet-12B30/5073.80±0.70 84.40±0.50k-平均值[50]†WRN-28-10 100/100 52.35±0.89 67.67±0.65TransMatch [66] WRN-28-10 100/100 63.02±1.07 81.06±0.59PTN [20] WRN-28-10 100/100 81.57±0.94 87.17±0.58iLPC(我方)WRN-28-10 100/10087.62±0.6790.51±0.36表10. 半监督少次学习的最新技术水平。如[66]所述。4.7. 与最新技术表9和表10分别将我们的iLPC与更大的最近方法集合在传导和半监督设置上进行比较。即使网络和数据分割看起来是相同的,我们也承认我们的结果与除复制之外的任何方法都无法直接比较正如补充材料中所讨论的,这是由于参考书目中的选择非常多样化,例如网络版本、训练设置、数据集版本或预处理。例如,ResNet- 12不同于ResNet-12 A或ResNet-12 B。因此,我们专注于每种方法的最佳结果,包括我们的方法。用WRN-28-10进行实验的方法尽管如此,至少在这些设置中,iLPC在两种设置中表现最佳,最接近的第二佳设置是PT+MAP[19]。5. 结论我们的解决方案在概念上很简单,并以独特的方式结合了在与我们手头任务相关的问题中已经成功的想法。标签传播利用数据的流形结构,这在存在更多数据的情况下变得重要,同时在其他方面仍然具有竞争当某些类占主导地位时,类平衡在纠正预测方面提供了一个强有力的提示。标签清洗,最初引入的学习与嘈杂的标签,也是非常成功的清洗预测的伪标签。少量伪标签作为真实标签的迭代重用绕过了干净示例的单次检测的困难。重要的是,合理的基线,如通过分类器预测当在公平设置下进行比较时,我们的iLPC优于或与最先进的方法相当它还显著地更鲁棒地对抗其他方法所依赖的特征预处理。方法网络SPLIT迷你IMAGENET1发5发分层IMAGE网络1发5发CIFAR-FS1发5发幼崽单次拍摄 5次射击LR+ICI [63]ResNet-12A30/5069.6680.1184.0189.0076.5184.3289.5892.48LR+ICI [63]ResNet-12A30/5067.57±0.9779.07±0.5683.32±0.8789.06±0.5175.99±0.9884.01±0.6288.50±0.71-iLPC(我们的)ResNet-12A30/5070.99±0
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Fisher Iris Setosa数据的主成分分析及可视化- Matlab实现
- 深入理解JavaScript类与面向对象编程
- Argspect-0.0.1版本Python包发布与使用说明
- OpenNetAdmin v09.07.15 PHP项目源码下载
- 掌握Node.js: 构建高性能Web服务器与应用程序
- Matlab矢量绘图工具:polarG函数使用详解
- 实现Vue.js中PDF文件的签名显示功能
- 开源项目PSPSolver:资源约束调度问题求解器库
- 探索vwru系统:大众的虚拟现实招聘平台
- 深入理解cJSON:案例与源文件解析
- 多边形扩展算法在MATLAB中的应用与实现
- 用React类组件创建迷你待办事项列表指南
- Python库setuptools-58.5.3助力高效开发
- fmfiles工具:在MATLAB中查找丢失文件并列出错误
- 老枪二级域名系统PHP源码简易版发布
- 探索DOSGUI开源库:C/C++图形界面开发新篇章
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功