没有合适的资源?快使用搜索试试~ 我知道了~
面向少样本学习中的实例可信度推理方法
12836面向少样本学习王毅凯1,4徐成明1刘晨1张莉2付延伟1,3,4张伟1复旦大学2牛津大学工程科学系3复旦大学4复旦大学上海市智能信息处理重点实验室{yikaiwang19,cmxu18,chenliu18,yanweifu}@ fudan.edu.cn,lz@robots.ox.ac.uk摘要少镜头学习(FSL)的目标是识别每个类别的训练数据极其有限先前的努力是通过利用元学习范式或数据增强中的新原理来解决这个极其缺乏数据的问题。相比之下,本文提出了一种简单的统计方法,称为实例可信度推理(ICI),利用分布的支持,少数镜头学习的未标记的实例。具体来说,我们首先用标记的少数样本训练线性分类器,并使用它来推断未标记数据的伪标签。为了度量每个伪标记实例的可信度,我们提出通过增加附带参数的稀疏度来解决另一个线性回归假设,我们选择最值得信赖的伪标记的例子旁边的标记的例子重新训练线性分类器。这个过程被迭代,直到所有未标记的样本都被包括在扩展的训练集中,即,伪标记对于未标记的数据池是收敛的在两个少数镜头设置下的大量实验表明,我们的简单方法可以在四个广泛使用的少数镜头学习基准数据集上建立新的最先进的技术,包括miniImageNet,tieredImageNet,CIFAR-FS和CUB。我们的代码可从以下网址获得:https://github.com/Yikai-Wang/ICI-FSL1. 介绍从一个或几个例子中学习是人类的一种重要例如,孩子们只要看一眼书中的图片,或者听到它看起来像一只长脖子的鹿的描述,就可以毫无问题地形成“长颈鹿”的概念相比之下,最成功的识别系统[20,42,14,16]仍然很高*通讯作者。依赖于大量标记的训练数据。因此,这增加了稀有数据收集的负担(例如,自动驾驶场景中的事故数据)和昂贵的数据注释(例如,用于医学诊断的疾病数据),并且更根本地将它们的可扩展性限制到现实世界中的长尾类别的开放式学习。受这些观察结果的激励,最近对少拍学习的研究兴趣重新抬头[10,43,46,53]。它的目的是识别新的对象,而每个类别的训练数据极其有限。基本上,少量学习模型有机会访问具有许多标记训练实例的源/基础数据集以进行模型训练,然后能够推广到仅具有稀缺标记数据的将学习到的知识转移到新集合的最简单的基线是微调[57]。然而,这将导致严重的过拟合,因为一个或几个实例不足以对新类的数据分布进行建模。数据增强和正则化技术可以在这样的有限数据范围内缓解过拟合,但它们不能解决它。最近,通过在训练过程中模拟少拍场景,在利用学习来学习或元学习范式方面做出了一些努力[24]。然而,陈等人。[6]经验上认为,与具有线性分类器和深度特征提取器的简单基线相比,这种学习范式通常导致较差的性能给定这样一个有限的数据机制(每个类别一个或几个标记的为了解决这个问题,两种类型的策略诉诸于对传统归纳少次学习之外的新类别的数据分布进行建模:(i)半监督少射学习(SSFSL)[28,37,45]假设我们可以利用未标记数据(大约是标记数据的十倍)来帮助学习模型;此外,(ii)少数学习(TFSL)[28,34]的转导推理[ 18 ]假设12837ABCD标签B线性分类器扩展支持集标记未标记图像特征培养一CD推理选定子集残差子集伪标签更新未标记集图1.我们提出的框架的示意图。在N-way-m-shotFSL任务的推理过程中,我们嵌入每个实例,推理每个未标记数据,并使用ICI选择最可信的子集来扩展支持集。重复该过程,直到所有未标记的数据都包括在支持集中。我们可以访问所有的测试数据,而不是在推理过程中逐个评估它们。换句话说,少发射学习模型可以利用测试示例的数据分布自学[35]是利用未标记数据信息的最直接的方法之一。典型地,经训练的分类器推断未标记数据的标签,其被进一步用来更新分类器。尽管如此,推断出的伪标签可能并不总是值得信任的;错误标记的实例可能危害分类器的性能。因此,调查每个未标记实例的标记置信度是至关重要的。为此,我们提出一种简单的统计方法,称为实例可信度推断(ICI),以利用分布支持的未标记实例的少镜头学习。具体来说,我们首先训练一个线性分类器(例如,逻辑回归)与标记的少数样本,并使用它来推断未标记数据的伪标签。 我们的模型的目的是迭代地选择最值得信赖的伪标记的实例,根据他们的可信度所提出的ICI来增加训练集。因此,分类器可以被渐进地更新并且进一步推断未标记数据。我们重复这个过程,直到所有未标记的样本都包含在扩展的训练集中,即。对于未标记数据池,伪标记是收敛。示意图如图1所示。基本上,我们重新利用标准的自学学习算法,我们的ICI算法。如何选择伪标记数据来排除错误预测样本,即,排除了自学策略带来的噪音?我们的直觉是,样本选择算法既不能只依赖于标签空间(例如,基于由分类器给出的每个类的概率)也不是特征空间(例如,选择与训练数据最相似的样本)。相反,我们通过将每个实例(标记和伪标记)从特征回归到标签空间来引入线性回归假设,并增加附带参数的稀疏性[9],直到它消失。因此,我们可以用稀疏度作为伪标记实例的可信度,对伪标记实例进行排序。我们进行了大量的实验上ma-jor少数拍摄学习数据集,以验证我们提出的算法的有效性。本工作的贡献如下:(i)我们提出了一种简单的统计方法,称为实例信任推理(ICI),以利用未标记实例的分布支持进行少量学习。具体来说,我们的模型迭代地选择伪标记的实例根据其可信度所提出的ICI分类器训练。(ii)我们通过我们提出的ICI重新设计了标准的自学学习算法[35]。为了测量每个伪标记实例的可信度,我们通过增加偶然参数的稀疏度来求解另一个线性回归假设[9],并将稀疏度作为每个伪标记实例的可信度进行排序(iii)在两个少镜头设置下的大量实验表明,我们的简单方法可以在四个广泛使用的少镜头学习基准数据集上建立新的最先进的技术,包括迷你ImageNet,分层ImageNet,CIFAR-FS和CUB。2. 相关工作半监督学习 半监督学习(SSL)旨在提高学习性能,ICI特征提取器12838通过利用大量未标记数据来限制标记数据。传统的方法专注于在标记和未标记的数据中找到低密度分隔符[52,4,18],并避免从未标记的数据中学习“错误”的最近,具有深度学习模型的半监督学习使用一致性正则化[21],移动平均技术[48]和对抗扰动正则化[29]来训练具有大量未标记数据的模型。半监督学习和少样本学习的关键区别在某种程度上,SSL中广泛使用的低密度假设在少数场景中很难实现,使得SSFSL成为一个更困难的问题。自学学习[35],也称为自训练[55],是一种利用未标记数据来提高分类器性能的传统半监督策略[1,12]。通常,初始训练的分类器预测未标记实例的类标签;进一步选择具有伪标签的未标记数据来更新分类器。[22 ]第20段。当前基于自学学习的算法包括联合使用标记数据和伪标记数据训练神经网络[22],使用未标记数据和标记数据之间的混合来减少噪声的影响[2],使用基于最近邻图的伪标记的标记传播并使用熵测量可信度[17],以及基于特征空间上的聚类假设重新加权伪标记数据[40]。不幸的是,预测的伪标签可能不可信。 与以往的重新加权或混淆工作不同,我们设计了一个统计算法来估计每个实例的可信度,并为其分配相应的伪标签。只有最有信心的实例被用来更新分类器。很少有机会学习。最近在FSL方面的努力主要集中在以下几个方面。(1)度量学习方法,重点放在寻找更好的距离度量,包括加权最近邻分类器(例如. 匹配网络[53]),为每个类找到原型(例如,原型网络[43]),或学习每个任务的特定度量(例如,TADAM [33]);( 2 ) Meta 学 习 方 法 , 如 Meta-Critic [47] , MAML[10],Meta-SGD [27],Rep- tile [32]和LEO [39],优化模型以快速适应新任务的能力。(3)数据增强算法扩大可用数据,以缓解图像级别[7]或特征级别[37]中的数据缺乏此外,SNAIL [30]利用序列建模来创建新的框架。所提出的统计算法是正交的,但可能有助于改进这些算法使用未标记数据的少次学习。最近,方法通过求助于额外的未标记数据来解决少数学习问题。具体来说,在半监督少次学习设置中,最近的作品[37,28]使来自相同类别的未标记数据能够更好地处理每个类别的真实分布。此外,最近还考虑了转换设置。例如,LST [45]以Meta学习的方式利用自学学习策略。与这些方法不同的是,本文提出了一种概念简单的统计方法,它源于自学;我们的方法通过仅使用非常简单的分类器,例如,逻辑回归或支持向量机(SVM)。3. 方法3.1. 问题公式化我们在这里介绍了少数学习的公式。设一个基猫类集Cbase,一个非猫类集C b as e,设置C小说与C基Cnovel=小说。因此,基础n 个 数 据 集 为 Dbase={ ( Ii , yi ) , yi∈Cbase} ,Dnovel={(Ii,yi),yi∈Cnovel},分别为iv el y。在f-shot学习中,D基上的识别模型应该是生成的。在每个类中只有一个或几个训练示例的情况下,将其推广到小说C类小说为了进行评估,我们采用标准的N路m镜头分类[53]对D小说进行分类。具体来说,在每一集中,我们随机采样N个类L=Cnovel;并且在L中随机采样每个类的m和q个标记图像,以分别构建支持集S和查询集Q我这样|S|= N × m,|Q|= N × q。分类准确度在许多元测试片段的查询集Q上平均此外,我们还有小说类别Unovel={Iu}的未标记数据。3.2. 从未标记数据中自学一般来说,用于机器学习的标记数据通常很难获得,而未标记数据可以用于提高监督学习的性能 我们要学的,是一门学问。malism-最经典的半监督f-shot学习方法之一[ 3 5 ]。 明确地,假设f(·)是在基础数据集D基础上训练的特征提取器。可以在支持集S上训练监督分类器g(·),并且用分类 器 给 出 的 对 应 置 信 度 p i 伪标记未标记数据y=g(f(u))。的最可信的未标记实例将被进一步作为支持集中相应类的附加数据S. 因此,我们得到更新的简化分类器g(·)。为此,少镜头分类器需要额外的训练因此,它的性能可以得到改善。然而,如果在一次性情况下直接利用自学是有问题特别是,监督类-12839i=1我j=1FFi˜⊤˜F¨¨∂βΣn筛选器g(·)仅由fw个实例训练。高置信度的未标记实例可能无法正确分类。算法1算法的推理过程输入:支持数据{(X i,y i)}N×K,查询数据Xt=gorized,并且分类器将被一些错误的M更新i=1U实例.更糟糕的是,我们不能假设未标记的实例遵循相同的类标签或生成分布。{Xj}j=1,未标记数据Xu={Xk}k=1n:支持集(Xs,ys)={(Xi,yi)}N×K,fea.作为标记数据。也可以利用噪声实例或离群值来更新分类器。为此,我们提出了一个系统的算法:实例可信度推理(ICI)来减少噪声。3.3. 实例可信性推理为了度量预测标签在未标记数据上的可信度,我们通过将每个实例从特征空间回归到标签空间来引入线性模型的假设。特别是给定n实例的N类,S={(i,yi,xi),yi∈Cnovel},其中yi是基础真值当Ii来自支持集或伪标签时,当Ii来自未标记的集合时,我们采用简单的线性回归模型来yi=xβ+γi+i,(1)其中β ∈ Rd×N是分类系数矩阵;xi∈Rd×1是实例i的特征向量; yi是N维独热向量,表示实例i的类标签。真矩阵XN×K+U,d=[Xs;Xu],分类器重复:使用(Xs,ys)训练分类器;通过分类器获得Xu的伪标签y u;通过ICI排名(X,y)=(X,[ys;y u]);选择子集(X sub,y sub)到(X s,ys);直到收敛。推论:使用(Xs,ys)训练分类器;通过分类器得到Xt的伪标签yt输出t:推断标签yt={yj}M一般来说,它不足以分类。(2)β的估计也依赖于γ的估计。为此,我们采用Eq。3到L(·)中,并将问题求解为,arg min<$Y−H(Y−γ)−γ<$2+λR(γ),(4)γ∈Rn×NF斯坦斯岛注意,为了便于计算,我们-Pl o yPCA[50]以减少t。他说,.Σ†其中H=X X<$X X <$是X的帽子矩阵。我们图f(Ii)至d。其中,σ2是高斯噪声,进一步定义X=(I-H)和Y=X<$Y。然后,零均值和σ方差。 受偶然参数[9]的启发,我们引入γ i,j来修正实例i属于类yj的机会. <$γ i,j<$越大,将实例i归属于类y j的难度就越高。写出方程式1的矩阵形式,因此我们解决了以下问题:方程可以简化为¨ ¨2argmin<$Y<$−X<$γ <$+ λR(γ),(5)γ∈Rn×NF这是一个多响应回归问题。我们寻求.Σββ,γ=arg min<$Y−Xβ−γ<$2+λR(γ),(2)β、γ通过检查正则化路径来确定最佳子集,这可以通过Glmnet [ 4 1 ]中实现的分块下降算法轻松配置。特别是,我们有一个理论-其中,φ·φ2表示Frobenius范数。Y=[y] ∈Rn×Nλ的标准值¨¨max= max?X·iY? [41]第41话保证Σ⊤ΣI2n×d和X=xi∈R表示标签和特征输入分别 γ=[γi]∈Rn×N是伴随矩阵,罚函数R(γ)=<$γ<$。λ是系数Eq.的解5个全0。然后我们可以得到一个λs的列表从0到λmax。我们求解一个具体的Eq。5与每个λ,并得到γ的正则化路径沿途。特别是i=1i 2刑罚。要求解方程2,我们将函数重写为L(β,γ)= λY − Xβ − γ<$2+ λR(γ)。设L=0,我们有我们把γ看作λ的函数。当λ从0变到∞时,γ的稀疏性增加,直到它的所有元素都被强迫消失。 此外,我们的惩罚R(γ)en-勇气γ逐行消失,即,一个接一个的更进一步,惩罚将趋于使X的子集消失,β= .Σ†XXX(Y−γ),(3)12840具有最低的偏差,指示预测与地面实况之间的较小差异因此,我们可以通过它们的λ值对伪标记数据进行排序,当cor-其中(·)t表示Moore-Penrosepseudo-inverse。注意:(1)我们感兴趣的是利用γ来测量每个实例沿着其正则化路径的可信度,而不是估计ββ,因为线性回归模型响应γi消失。如图2中的一个玩具示例所示,红线表示的实例的γ值首先消失,因此它是我们算法中最值得信赖的样本12841图片大全根据[15]中的先前设置,我们使用100个类作为基本集,50个用于验证,50个作为新集。为了进行公平的比较,我们使用[51]提供的边界框裁剪所有CIFAR-FS是来自CIFAR- 100的低分辨率图像数据集[19]。它包含100个类,每个类有600个实例我们遵循[8]给出的划分,使用64个类来构建基本集,16个用于验证,20个作为新集。图2.十个样本上λ的正则化路径。红线对应于我们的ICI算法建议的最值得信赖的样本。3.4. 通过ICI因此,所提出的ICI可以很容易地集成到改进的自学学习算法。特别地,初始化后的分类器可以预测未标记实例的伪标签,并进一步采用ICI算法选择最可信的未标记实例子集,以更新分类器。整个算法可以迭代更新,如算法1中所总结的。4. 实验数据集。我们的实验是在几个广泛的少量学习基准数据集上进行的,用于一般对象识别和细粒度分类,包括迷你ImageNet [36],分层ImageNet [37],CIFAR-FS[8]和CUB [54]。miniImageNet由100个类组成,每个类中有600个标记实例。我们遵循[36]提出的分割,使用64个类作为基础集来训练特征提取器,16个类作为验证集,并报告由20个类组成的新集合的性能。分层ImageNet是一个比小型ImageNet更大的数据集,其类别选择具有层次结构,以在语义上分离基础数据集和新数据集。我们遵循[37]中引入的分裂,具有20个超类(351个类)的基本集合,6个超类(97个类)的验证集合和8个超类(160个类)的新集合。每个类平均包含1281个图像。CUB是一个包含200个鸟类类别的细粒度数据集,实验装置。 除非另有说明, 我们在实验中使用下面的设置和实现,以便我们的方法进行公平的比较。与[30,33,23]一样,我们在实验中使用具有4个残差块的ResNet-12 [13]作为特征提取器。每个块由三个3×3卷积层组成,每个卷积层后面都有一个BatchNorm层和一个LeakyReLu(0.1)激活。在每个块的末尾, 采用2×2最大池化层降低输出尺寸每个块中的滤波器数量为64、128、256分别为512。具体来说,参考[23],我们在前两个块中采用Dropout [44]来消除10%的输出,并在后两个块中采用DropBlock [11]来消除通道级10%最后,使用平均池化层来产生输入特征嵌入。我们从每列火车中挑选90%的图像分组类(例如,64个类别)来构建我们的训练集,用于训练特征提取器,并使用剩余的10%作为验证集来选择最佳模型。我们使用SGD和动量作为优化器,从头开始训练特征提取器动量因子和L2权重衰减设置为0. 9和1e-4。所有输入都调整为84×84。 我们将初始学习率设置为0。1,每30个历元后衰减10。总训练时期是120个时期。在我们所有的实验中,我们用L2范数对特征进行归一化,减少了fea,使用PCA [50]将真实维度设置为d=5。我们的模型和所有基线都在600集以上进行了评估,每个类别有15个4.1. 半监督少镜头学习设置. 在推理过程中,利用相应类别池中的未标记数据来帮助FSL。在实验中,我们给出了SSFSL的如下设置:(1)每个类使用15个与TFSL相同的未标记样本,比较我们的算法在SSFSL和TFSL设置下的性能;(2)我们在1次任务中使用30个未标记样本,在5次任务中使用50个未标记样本,与当前SSFSL方法相同[45];(3)我们使用80个未标记样本,以显示ICI与具有更大网络和更高分辨率输入的FSL算法相比的有效性。在表1中,我们将其表示为(15/15)、(30/50)和(80/80)。请注意,CUB是细粒度数据集,12842设置模型 miniImageNettiered ImageNet CIFAR-FS CUB1表1.在多个数据集上测试超过600集的准确性。 结果(·)2在[6]中报告,其中(·)在[45]中报告,3(·)4在[23]中有报道。(·)是我们用[28]的官方代码实现的。用(·)表示的表示具有输入的size224×224,而(·)†表示ResNet-18,输入大小为84×84。我们的方法和其他替代方法使用ResNet-12,输入大小为84×84。In.和Tran。分别表示感应和换能设置。半表示半监督设置,其中(·/·)显示1次和5次实验中可用的未标记数据的数量。所以每个类中有足够的样本,所以在后两种设置中的5次任务中,我们简单地选择5个作为支持集,15个作为查询集,其他样本作为未标记集(平均约39个对于所有设置,我们在每次迭代中为每个类选择5个样本。当每个类的最多五个实例从扩展的支持集中排除时,该过 程 结 束 。 即 , 共 选 择 ( 10/10 ) 、 ( 25/45 ) 、(75/75)个未标记的实例此外,我们利用逻辑回归(记为LR)和线性支持向量机(记为SVM)显示ICI对不同的线性分类器的鲁棒性竞争对手我们比较了我们的算法与当前的SSFSL的方法。TPN [28]使用标记支持集和未标记集每次将标签传播到一个查询样本。LST [45]还使用自学学习策略,伪标记数据并选择有信心的数据,但它们是通过以元学习方式训练的神经网络进行多次迭代来完成其他方法包括掩蔽软k均值[37]以及MTL与TPN和LST报告的掩蔽软k均值的组合。结果在表1中示出,其中表示为半。在第一列。从实验结果分析,我们可以发现:(1)将SSFSL和TFSL在相同数目的未标记数据下进行比较,可以看出我们的SSFSL结果只比TFSL结果减少了一点点甚至更少,这表明我们从未标记数据中得到的信息是鲁棒的,我们确实可以在实际中处理未标记数据的真实分布。(2)我们获得的未标记数据越多,我们的性能就越好这样,我们就可以学到更多的知识,1镜头5投1镜头5投1镜头5投1镜头5投基线[6]51岁7574岁27----六十五5182岁85基线++基线[6]51岁8775. 68----67岁0283岁58[53]第五十三话52岁91168岁881----七十二36183岁641[43]第四十三话五十四161七十三。681--七十二20383岁503七十一88187岁421[10]第10话四十九611六十五721----69岁。96182岁701In.[46]第四十六话52岁48169岁。831----67岁59182岁751AdaResNet [31]五十六88七十一94------Tap Net [56]61岁65七十六。3663岁08八十26----[25]第二十五话六十四12八十5168岁4184. 28----[23]第二十三话六十四09八十00六十五8181. 75七十二6084. 30--TPN [28]五十九4675. 65五十八68474岁264六十五89479岁。384--交易。[34]第三十四话六十岁。0775. 90--七十4381. 25八十1687岁17带MTL的62. 102七十三。60268岁6281. 002----TPN + MTL62. 70274岁202七十二10283岁302----12843几乎一致地使用线性分类器(例如,logistic回归)。当大量未标记数据可访问时,ICI在所有实验中都达到了最先进的水平,即使与使用更大网络和更高分辨率输入的竞争对手相比。(3)与其他SSFSL方法相比,ICI在几乎所有的任务和数据集上都取得了不同程度的改进。这些结果进一步表明我们的算法的鲁棒性与支持向量机相比,ICI的鲁棒性仍然保持。4.2. Transductive few shot learning设置. 在转换少镜头学习环境中,我们有机会在推理阶段访问查询数据。因此,未标记的集合和查询数据集是相同的。在我们的实验中,我们在每次迭代中为每个类选择5个实例,并重复我们的算法,直到包括所有预期的查询样本,即,每一类别最多可扩充15幅图像。我们还分别利用Logistic Regres- sion和SVM作为分类器竞争对手我们将ICI与当前的TFSL方法进行比较。TPN[28]构建一个图,并使用标签传播将标签从支持样本传输到查询图3.λ的正则化路径。红线是正确预测的实例,而黑线是错误预测的实例。ICI将选择左下角子集中的实例。样本并以元学习的方式学习他们的框架。TEAM [34]利用具有数据依赖度量的类原型来推断查询样本的标签。结果在表1中示出,其中表示为Tran。在第一列。跨四个基准数据集的实验表明:(1)与基本线性分类器相比,ICI算法具有持续的改进,特别是在标记数据极其有限的1次采样(1-shot)情况下,这种改进无论使 用 哪 种 线 性 分 类 器 都 是 鲁 棒 的 。 进 一 步 比 较miniImageNet和分层ImageNet的结果,我们可以发现ICI的改善幅度在相似的尺度上,表明ICI的改善并不依赖于基集和新集之间的语义关系。因此,ICI的有效性和鲁棒性在实践中得到了证实。(2)与目前的TFSL方法相比,ICI也达到了最先进的结果。4.3. 消融研究ICI的有效性。为了显示ICI的有效性,我们在图3中的一个推断过程中可视化了γ的正则化路径,其中红线是正确预测的实例,而黑线是错误预测的实例。很明显,大多数正确预测的实例位于左下角。由于ICI将选择其范数在较低λ中消失的样本。我们可以得到更多的正确预测的实例比错误预测的实例在一个高的比率。型号Tran.半1shot 5shot 1shot 5shotLR56. 0675.四三五六06 75. 43+ra59.0176. 3859. 四六七六。58+nn63. 2477. 6363.10777563. honor 2977. 9263. 5777 71第六十五章. 3278. 3064. 6077. 96表2.在几种设置下与miniImageNet上的基线进行比较。与基线比较。 为了进一步证明 在此基础上,将ICI与其他的样本选择策略进行了比较。一个简单的策略是在每次迭代中将未标记的数据随机抽样到扩展的支持集中,表示为ra。另一种方法是根据分类器给出的置信度选择数据,用co表示。在该策略中,分类器对一个样本越自信,该样本就越可信。最后一个是通过选择特征空间中每个类的最近邻来代替我们的计算可信度的算法,表示为nn。在这一部分中,我们为每个类提供了15个未标记的实例,并选择了5个实例通过不同的方法重新训练分类器。和Tran。MiniImageNet上的任务。从表2中,我们观察到ICI在所有设置中都优于所有基线。迭代方式的有效性。我们的直觉是,建议的ICI学习生成一组可信的unla-128446864ICI(3)ICI(5)60ICI(8)中文(简体)560 3 6 9 12 15每个类的图4.在miniImageNet上,随着选定样本增加超过600集,准确度会发生变化。“ICI (用于分类器训练的贝尔数据。一次性选择所有未标记数据不能考虑未标记数据的分布或可信度,从而产生更多的噪声标签,损害模型的性能因此,分类器用其预测进行训练,导致TFSL设置没有改进我们简单地将其验证为ICI(15)而ICI采用迭代选择方式获得了更好的精度例如,用两次迭代选择6个图像(ICI(3))优于在一次迭代中选择8个图像(ICI(8))。累积(%)0-1010-2020-3030-4040-50B/t0/00/01/316/23105/125累积(%)50-6060-7070-8080-9090-100B/t193/218171/18934/402/20/0表3.我们运行600集,每集训练一个初始分类器。我们将“Acc”表示为准确度区间;和“b/T”作为经历改进的分类器的数量,在此精度区间内的所有分类器。对初始分类器的鲁棒性。初始线性分类器的要求是什么?是否需要满足初始线性分类器的准确率高于50%甚至更高?答案是否定的。只要初始的线性分类器可以被训练,理论上我们的方法就应该起作用。因此,初始分类器如何影响是未来的一个开放问题。我们在表3中简要验证了它。我们运行了600集,每集训练一个具有不同分类精度的初始分类器表3显示,大多数分类器可以通过ICI得到改进,而不管初始精度如何(即使精度为30- 40%)。降维的影响。在这一部分中,我们研究了我们算法中降维d对5路1-shotmini ImageNet实验的影响本文给出了降维2,5,10,20,50和不降维的结果,d=512,见表4。我们的算法实现了更好的性能时,减少d累计(%)累积(%)26371± 1。[ 49 ]第四十九章:一个女人53±1。07356680± 1。[50]66.第50话80±1。0961066. 25± 1。[59]第五十九章:一个女人61 ±1。058206498± 1。[5]第五十九章. 99±0。9415061. 54± 0。[38]第六十七章:一个人的世界59 ±1。12051257. 41± 0。[3]第六十七章. 70±1。117表4.降维的影响因素及降维方法。维数远小于实例的数目(即,dn),这与理论结果一致。此外,我们可以观察到我们的模型达到了最佳的准确性66。当d=5时为80%。实际上,我们在模型中采用d=5降维算法的影响。 此外,我们还研究了ICI对不同降维算法的鲁棒性我们比较了Isomap [49],主成分分析[50](PCA),局部切空间对齐[59](LTSA),多维缩放[5](MDS),局部线性嵌入[38](LLE)和光谱嵌入[3](SE)对5路1次迷你ImageNet实验的影响。从表4中,我们可以观察到ICI在大多数降维算法(来自LTAS 64. 61%,67。7%)除外MDS(59. 99%)。我们采用PCA降维在我们的方法。5. 结论在本文中,我们提出了一个简单的方法,称为实例可信度推理(ICI),利用分布支持的未标记的实例少杆学习。该算法根据可信度有效地选择最可信的伪标记实例来扩充训练集。为了测量每个伪标记实例的稀疏性,我们提出通过增加附带参数的稀疏性来解决线性回归假设[9],并根据其稀疏度对伪标记实例进行排名。大量的实验表明,我们的简单方法可以在四个广泛使用的少量学习基准数据集上建立新的最先进的技术,包括迷你ImageNet,分层ImageNet,CIFAR-FS和CUB。谢 谢 。 本 工 作 得 到 了 国 家 自 然 科 学 基 金 项 目(U1611461,61702108)、上海市科学技术委员会项目(19511120700,19ZR 1471800)、上海市科技重大专项(2018SHZDZX01)和上海市研究与创新功能计划(17DZ2260900)的部分支持。测试精度12845引用[1] Massih-Reza Amini和Patrick Gallinari。半监督logistic回归在ECAI,2002年。[2] Eric Arazo , Diego Ortego , Paul Albert , Noel EO'Connor和Kevin McGuinness。深度半监督学习中的伪标记和确认偏差。arXiv预印本arXiv:1908.02983,2019。[3] 米哈伊尔·贝尔金和帕莎·尼约吉。用于降维和数据表示的拉普拉斯特征映射。神经计算,2003年。[4] Kristin P Bennett和Ayhan Demiriz 。半监督支持向量机。在NeurIPS,1999中。[5] 英格沃·博格和帕特里克·格罗宁 现代多维尺度:理论与应用。教育测量杂志,2003年。[6] Wei-Yu Chen,Yen-Cheng Liu,Zsolt Kira,Yu-ChiangFrank Wang,and Jia-Bin Huang.更仔细地观察少数镜头分类。2019年,在ICLR[7] Zitian Chen,Yanwei Fu,Yu-Xiong Wang,Lin Ma,Wei Liu,and Martial Hebert.用于一次性学习的图像变形元网络。在CVPR,2019年。[8] ArnoutDevos , SylvainChatel , andMatthiasGrossglauser.用可微封闭形式求解器再现元学习。2019年,在ICLR[9] 范建青,唐润龙,施晓峰。带有稀疏附带参数的部分一致性。arXiv预印本arXiv:1210.6950,2012年。[10] Chelsea Finn,Pieter Abbeel,Sergey Levine.用于深度网络快速适应的模型不可知元学习。ICML,2017。[11] Golnaz Ghiasi , Tsung-Yi Lin , and Quoc V Le.Dropblock:卷积网络的正则化方法。NeurIPS,2018。[12] Yves Grandvalet和Yoshua Bengio基于熵最小化的半监督学习。InNeurIPS,2005.[13] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。CoRR,2015年。[14] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在CVPR,2016年。[15] 内森·希利亚德,劳伦斯·菲利普斯,斯科特·霍兰德,阿特姆·扬科夫,考特尼·D·科利和内森·奥·霍达斯。使用与度量无关的条件嵌入的少次学习arXiv预印本arXiv:1802.04376,2018。[16] Gao Huang,Zhuang Liu,Laurens Van Der Maaten,andKilian Q Weinberger.密集连接的卷积网络。在CVPR,2017年。[17] Ahmet Iscen 、Giorgos Tolias 、Yannis Avritis 和OndrejChum。深度半监督学习的标签传播在CVPR,2019年。[18] 托尔斯滕·约阿希姆基于支持向量机的文本分类的直推推理。ICML,1999年。[19] Alex Krizhevsky,Geoffrey Hinton,等.从微小的图像中学习多层特征。技术报告,Cite- seer,2009年。[20] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络的图像网分类。InNeurIPS,2012.[21] Samuli Laine和Timo Aila用于半监督学习的时间集成在ICLR,2017。[22] 李东贤伪标签:简单高效的深度神经网络半监督学习方法。ICML研讨会,2013年。[23] KwonjoonLee,SubhransuMaji,AvinashRavichandran,and Stefano Soatto.可微凸优化的元学习在CVPR,2019年。[24] Christiane Lemke,Marcin Budka,and Bogdan Gabrys.满足学习:对趋势和技术的调查。人工智能评论,2015年。[25] Hongyang Li,David Eigen ,Samuel Dodge,MatthewZeiler,and Xiaogang Wang.通过类别遍历寻找用于少镜头学习的任务相关特征在CVPR,2019年。[26] 李玉峰和周志华。让未标记的数据永远不会受到伤害。TPAMI,2014年。[27] Zhengguo Li,Fengwei Zhou,Fei Chen,and Hang Li.Meta- sgd:学习快速学习,进行少量学习。arXiv预印本arXiv:1707.09835,2017。[28] Yanbin Liu,Juho Lee,Minseop Park,Saehoon Kim,Eunho Yang,Sung Ju Hwang,and Yi Yang.学习传播标签:用于少量学习的直推传播网络arXiv预印本arXiv:1805.10002,2018。[29] Takeru Miayto,Andrew M Dai,and Ian Goodfellow.用于半监督文本分类的虚拟对抗训练。2016年。[30] Nikhil Mishra , Mostafa Rohaninejad , Xi Chen , andPieter Abbeel.一个简单的神经专注元学习者。arXiv预印本arXiv:1707.03141,2017。[31] Tsendsuren Munkhdalai,Xingdi Yuan,Soroush Mehri,and Adam Trischler.有条件移位神经元的快速适应。arXiv预印本arXiv:1712.09926,2017。[32] Alex Nichol,Joshua Achiam,and John Schulman.一阶元学习算法。arXiv预印本arXiv:1803.02999,2018。[33] 鲍里斯·奥列什金、帕·罗德·雷格斯·洛佩斯和艾尔·亚历山大·拉科斯特.Tadam:Task Dependent Adaptive Metricfor Improved Few-Shot Learning。NeurIPS,2018。[34] Limeng Qiao , Yemin Shi , Jia Li , Yaowei Wang ,Tiejun Huang,and Yonghong Tian.用于少量学习的转导式逐段自适应度量。在ICCV,2019年。[35] Rajat Raina 、 Alexis Battle 、 Honglak Lee 、 BenjaminPacker和Andrew Y. Ng.自学:从未标记
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 平尾装配工作平台运输支撑系统设计与应用
- MAX-MIN Ant System:用MATLAB解决旅行商问题
- Flutter状态管理新秀:sealed_flutter_bloc包整合seal_unions
- Pong²开源游戏:双人对战图形化的经典竞技体验
- jQuery spriteAnimator插件:创建精灵动画的利器
- 广播媒体对象传输方法与设备的技术分析
- MATLAB HDF5数据提取工具:深层结构化数据处理
- 适用于arm64的Valgrind交叉编译包发布
- 基于canvas和Java后端的小程序“飞翔的小鸟”完整示例
- 全面升级STM32F7 Discovery LCD BSP驱动程序
- React Router v4 入门教程与示例代码解析
- 下载OpenCV各版本安装包,全面覆盖2.4至4.5
- 手写笔画分割技术的新突破:智能分割方法与装置
- 基于Koplowitz & Bruckstein算法的MATLAB周长估计方法
- Modbus4j-3.0.3版本免费下载指南
- PoqetPresenter:Sharp Zaurus上的开源OpenOffice演示查看器
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功