浅层贝叶斯Meta学习在真实世界少镜头识别中的应用

138 浏览量更新于2023-10-13 收藏 566KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

651基于浅层贝叶斯Meta学习的真实世界少镜头识别XuetingZhang1×，DebinMeng3×，Henr yGouk1，TimothyHospedales1，21University of Edinburgh，爱丁堡，英国2Samsung AI Centre，剑桥，英国3中国科学院大学，中国北京{xueting.zhang，henry.gouk，t.hospedales}@ed.ac.uk，mengdebin16@mails.ucas.ac.cn摘要在使用简单（例如，最近的质心）分类器。我们采取的方法是不可知的功能，并专注于元学习的最终分类器层。具体来说，我们引入MetaQDA，贝叶斯元学习概括的经典二次判别分析。该方法具有从业者感兴趣的几个益处：元学习是快速的并且存储器高效的，而不需要微调特征。它是不可知的现成的功能选择，因此将继续受益于未来的进步，在功能表示。从经验上讲，它在跨域少拍学习、类增量少拍学习中具有出色的性能，并且对于现实世界的应用至关重要的是，贝叶斯公式导致预测中的最先进的不确定性校准1. 介绍少镜头识别方法旨在用有限的标记训练数据解决大量的工作[62]。当代的少量识别方法的特征在于专注于深度元学习[23]方法，这些方法通过使用辅助数据来训练设计用于快速适应新类别的模型来提供新类别的数据有效学习[8，68]，或者以前馈方式合成新类别的分类器[38，43]。这些元学习方法中的大多数例如，许多人依赖于情景训练方案[52，59]，其中在每次迭代训练时模拟少量学习问题;微分优化器[3，30]，或新的神经网络模块[55，15]×Xueting和Debin对本研究做出了同等贡献，代码可用https://github.com/Open-Debin/Bayesian_MQDA以促进数据高效学习和识别。在这种背景下，最近的一些研究[61，14，4，37，64，60]已经推翻了深度Meta学习。例如，他们已经观察到，一个预先训练用于多类识别并与简单的线性或最近质心分类器相结合的良好调整的卷积网络可以匹配或优于最先进的元学习器。即使是自我监督的预训练[37]也导致了性能优于许多元学习器的特征提取器这些分析提出了一个问题：元学习真的有益吗？还是专注于改进传统的预训练就足够了？我们采取的立场是为少数识别的元学习为了理清元学习本身和上面讨论的特征学习的影响，我们将自己限制在固定的预训练特征上，并且在本研究中不进行它表明，元学习，即使是最浅的形式，也可以提高少量学习，超越预先训练的特征单独提供的任何东西我们采用摊销贝叶斯推理方法[15，21]来进行浅层元学习。在元测试期间，我们推断出给定支持集的分类器参数虽然最近在贝叶斯元学习中的有限工作是由摊销变分推理[15]支撑的，但我们的方法依赖于共轭[12]。具体来说，我们建立在经典的二次判别分析（QDA）[9]分类器的基础上，并将其扩展为贝叶斯先验，给定支持集的QDA参数后验的推理管道，以及基于梯度的元训练。我们将总体框架称为MetaQDA。MetaQDA对于实际部署有几个实际好处。首先，MetaQDA允许在没有端到端训练的情况下在资源受限的场景中进行元学习[24]，同时提供优于固定特征方法的性能[61，4，37]。此外，通过从分类器元学习中分解表示学习事实上，我们的实证结果表明，我们的功能不可知的战略利益652各种各样的经典和最新的特征表示。其次，随着计算机视觉系统开始部署在安全[28]或公平社会结果[5]受到威胁的高后果应用中，它们的校准变得与它们的实际准确性一样重要，甚至更重要例如，在一个示例中，模型必须可靠地报告低确定性的情况下，他们犯了错误，从而允许他们在这些情况下的决定进行审查。实际上，在许多高重要性应用中，适当的校准是部署的硬性要求[17，40]。至关重要的是，我们表明，我们的贝叶斯MetaQDA导致显着更好的校准模型比文献中的标准分类器最后，我们表明MetaQDA在现有方法较弱的跨域场景中具有特别好的性能[4]，但在实际应用中无处不在，其中总是没有足够的特定于域的数据来进行域内元学习[18]。此外，作为贝叶斯公式，MetaQDA本质上适合于高度实用，但难以实现增量[56，45]少次学习的设置，其中它实现了“开箱即用”的最先进性能总结我们的贡献：（i）我们提出了MetaQDA，一种新的和有效的贝叶斯分类器元学习方法的基础上共轭。（ii）我们经验性地证明了MetaQDA（iii）我们通过区分两者来阐明元学习与普通预训练的争论，并在各种固定特征表示中显示出元学习的明显优势2. 相关工作Few-Shot和元学习概述Few-Shot和元学习现在是一个广泛研究的领域，在这里太广泛了我们建议读者全面的介绍和审查最近的调查[62，23]。一般来说，这些程序分两个阶段进行：基于一个或多个辅助数据集元训练用于少次学习的策略;以及在目标数据集上进行元测试（学习新类别），这应该在元训练的知识下以数据高效的方式完成。常见方法的高级分类将它们分组为以下方法：（1）元学习如何在元测试期间执行快速基于梯度的自适应[8，68];以及（2）元学习前馈过程，以合成给定支持集嵌入的新类别的分类器[15，43]，其中基于度量的学习器包括在后一类别中[23]。元学习是必要的吗？最近的许多论文都质疑是否需要精心设计的元学习程序。SimpleShot [61]观察到预先训练的vanilla CNN特征，以实现接近SotA的识别性能当适当地归一化并用于平凡最近质心分类器（NCC）时。Chen等人[4]提出了简单但高性能的Baseline++，基于固定预训练的[14]观察到，尽管SotA元学习的深度特征在少量学习中表现出很强的性能S2 M2 [37]证明，在使用自监督学习和/或流形正则化香草分类预训练网络之后，通过简单地在所得表示上训练线性分类器来实现出色的少数识别[64]分析了著名的MAML算法是否是真正的元学习，或者只是预先训练一个强特征。我们表明，对于通过几种上述“现成”非元技术[61，37]预训练的固定特征这使我们能够得出结论，Meta学习确实增加了价值，因为替代香草（即，非Meta）预训练方法不影响最终分类器。我们将元学习与特征表示空间的vanilla预训练的相对优点的全面分析留给未来的工作。在经验性能方面，我们超越了所有基于固定预训练特征的现有策略，以及基于深度特征元学习的大多数替代方案固定特征元学习少数元学习研究，如[50，34]也建立在固定特征上。LEO [50]使用混合梯度和前馈策略为固定特征提取器合成分类器层并发URT [34]通过元训练一个模块来解决多域少量学习问题，该模块融合了一系列固定特征，并为新的域动态生成新的特征编码最终，URT使用ProtoNet [52]分类器，因此我们的贡献与URT正交事实上，我们经验表明，MetaQDA可以使用URT贝叶斯少镜头元学习文献中相对较少的方法采用贝叶斯方法进行少镜头学习。一些研究[16，65]专注于将MAML [8]理解为分层贝叶斯模型。Versa [15]将最终线性分类器层的权重视为元测试期间给定支持集的推断量它采取了一个amortized变分推理（VI）的方法，训练一个推理神经网络预测给定的支持集的分类器参数然而，与我们不同的是，它然后执行端到端表示学习，并且不是完全贝叶斯的，因为它最终没有集成分类器参数，正如我们在这里实现的那样。神经过程[11]采用高斯过程（GP）启发的方法来设计神经网络，但最终没有提供明确的贝叶斯模型。最近的DKT [42]通过端到端的GP实现了真正的贝叶斯元学习653不|,|py|x，&p&|D，p&t D t，t）=S.（一）在这两种情况下，我们都使用了正逆Wishart先验一旦获得了分布，就可以对查询样本进行建模，QS我我S[12]，因为它们与多变量高斯的共轭性导致有效的实施策略。Featur r elea r ning. 然而，尽管执行了可学习-（x-t，yt）eDt，但是使用位置优先级分布，然而，这些贝叶斯方法与更广泛的土地相比通常没有提供SotA基准性能i iQ|?DQ|竞争对手在发布时的情况一个经典p（Dt|Dt，0）=Jp（x→t，yt|&t）p（&t|Dt，ø）d&t.（二）研究[21]探索了线性回归的浅层学习-学习通过共轭性我们还利用共轭，但分类器的学习，并证明SotA的结果在沉重的板凳上。对于ir= t1的自然测量，针对0的拟合优度是期望的对数似然的少拍模型，利用共享先验，首次使用贝叶斯元学习标记任务M[L（|D S，D Q）]，（3）分类器层设计绝大多数少数镜头研究使用线性[37，15，7]，余弦相似性[43]或在一些距离度量下的最近质心分类器[61，52我们的分歧在于：（i）使用二次分类器，以及哪里DS，DQ~q，q~QDQL（ø|D S，DQ）=logp（x→i，yi|DS，0）。（四）(ii)采用虽然二次分类器潜在地提供了更强的然后，可以将主参数的过程形式化为风险最小化问题。拟合比线性分类器，其更大数量的参数将在几次/高维状态下灾难性地过拟合ø×=arg minøMDS，DQ~q，q~Q[−L（ø|D S，D Q）]。（五）这就是为什么很少有研究应用它们的原因，除了[1]不得不为它们精心手工制作正则化器我们的关键见解是使用共轭性来使二次分类器能够在有效地元学习之前，从而获得更好的拟合强度，同时避免过拟合。3. 概率元学习人们可以将传统的分类问题形式化为由输入空间X、输出空间5和X×5上的分布p组成，该分布定义了要解决的任务。少镜头识别是训练分类器以在稀疏数据制度中区分C个不同类别的问题，其中每个类别只有K个标记的训练实例可用元学习的目的是从多个相关的少镜头学习问题中提取相关知识，并将其转化为一组共享参数，以促进后续新的少镜头任务的学习。将分类问题的标准形式化扩展到元学习环境的最简单方法是考虑X×5上所有分布的集合P，每个分布代表一个可能的分类任务。然后可以假设存在分布QoverP [2]。从概率的角度来看，由元学习器推断的跨任务共享的参数（我们用k表示）可以被视为指定或诱导针对每个少数问题的任务特定参数的先验分布因此，元学习可以被认为是通过对相关任务的集合进行元训练来学习用于未来任务的先验模型的过程用&t表示任务t的任务特定参数，少次训练讨论先前的概率元学习者[15]关注于项（t），采用摊销变分推理观点Se，其将0视为神经网络的参数，该神经网络预测给定支持集Dt的线性分类器的参数&t上的分布。相比之下，我们的框架将使用QDA而不是线性分类器，然后利用共轭性来有效地计算给定支持集的QDA均值和协方差参数&t这是有效的和概率上更干净的，因为我们的模型包含适当的先验，而[15]没有。方程中的积分1和2是贝叶斯Meta学习的关键，但可以假定是难以解决的，[15]依赖于采样。我们的共轭设置允许积分计算精确地在封闭的形式，而不依赖于采样。4. 亚二次判别分析我们的MetaQDA提供了经典QDA分类器的元学习泛化[19]。QDA的工作原理是通过最大似然法构建与每个类别相对应的多元高斯分布&在测试时，通过计算查询实例在每个分布下的可能性，并使用贝叶斯定理获得后验（）来进行预测。而不是使用最大似然拟合元测试，我们引入了贝叶斯版本的QDA，这将使我们能够利用元学习的多元高斯分布的参数之前。两个贝叶斯策略的推理使用这样的先验探讨：1）使用最大后验（MAP）估计的高斯参数;和2）完全贝叶斯(aka支持）和测试（又名查询）集为D t 和D t，a将参数不确定性传播到贝叶斯模糊学习者应使用学习后验分布来确定模型参数的后验分布班级预测第一种方法在概念上比较简单，而第二种方法可以更好地处理由于|t）p（t|&ø&）|ø)S参数推断的完全贝叶斯性质。为Sp（Dt|&t）p（&t|ø）d &t（654jx→|μ→，Cjj|µ→，？哪里v+d+1i=1这个优化问题有一个方便的封闭形式Ki=1 N（x→j，i|µ→j，Zj）N SM（µ→j，Zj|m-，2，S，V）i=12i（vi−d+1）i=1（七2+K，2j=2+K，vj=v+K，j，im→j，2j（vj−d +1）Sj，vjD且wehve使用μ→j=i=1x→j，i.现在的情况是分类问题，Q为上.J 2j（vj−d+1）J J（十4.1. 基于MAP的QDA我们首先描述QDA的MAP变体。在传统的QDA中，属于类别eA的样本x→eRd的似然由N（Z）给出，并且经由与类别j相关联的支持集的子集上的最大似然估计（MLE）找到参数。K4.2. 贝叶斯QDA计算参数的点估计丢弃了可以帮助更好地校准模型的预测的潜在有用的不确定性信息。相反，我们可以在进行预测p（y=j）时将参数边缘化|x→）μ→，Z=a rgmax？N（x→Z）。（六）N（x→|µ j，Zj）NSM（µ→j，Zj|m→j，2j，Sj，vj）dµ→jdZjj jµ→，Zi=1j，i.C N（x→|µ i，Zi）NSM（µ→i，Zi|m→j，2j，Sj，vj）dµ→idZi解决方案：相关的样本均值和协方差支持集的子集。为了将先前的从相关的几次学习任务中学到的知识，我们参数并因此获得参数的后验每一个二重积分都有多元t-分布[39]，产生p（y=j|x-，m-，2，S，V）定义一个正态逆Wishart（NIW）先验[39]F.x→|m→，2j+1S，v−d+1Σ我我我p（μ→j，Zj|x-，m-，2，S，V）.C F.x→|m→，2i+1 S，v−d+1Σ。？K N（x→j，i|μ→，Z）NSM（μ→f，Zf|m→，2，S，v）dµ→fdZf4.3. 元学习The Prior让0=（m-，2，S，v），我们的目标是最小化培训这使我们能够充分利用当通过MAP推断来推断模型参数模型的负期望对数似然参数上的共享先验，如Eq. 五、对于基于MAP的QDA，对数似然函数由下式给出：KCKμ→j，Zj=a rgmax？p（μ→j，Zj|x-j，i，m-，2，S，V）。（八）i=1L（ø|DS，DQ）=，，logN（x→j，i|μ→j，Z，j），（15）哪里j=1i=1因为NIW是多元高斯分布，我们知道参数的后验分布采用以下形式：p（μ→j，Zj|x→，m→，2，S，v）=NSM（μ→j，Zj|m-j，2j，Sj，vj），（9）µ→j和Zj是通过以下方式计算的点估计值：中给出的MAP推理问题的封闭形式解决方案等式11.当使用QDA的完全贝叶斯变体时，我们有以下对数似然函数：L（ø|D S，D Q）CKm→+Kµ→KjK=，，logf.x→|2j+1− +1Σ，T（十）（十六）Sj=S+i=1（x→j，i−µ→j）（x→j，i−µ→j）+元训练我们通过对训练执行经验风险最小化来近似等式5中的优化22K（µ→j−m→）（µ→j−m→）T，使用情景训练的数据集。特别地，我们选择P+K1.KK是在所有可能的C路上的均匀分布的集合在模式下最大化，发生在μ→j=m→j，Zj=1Sj。（十一）J测试在计算参数的点估计之后，可以根据通常的QDA模型对来自查询集的实例进行预测。N（x→|μ→j，Zj）p（y=j）P，并且从每个qeP采样的过程导致平衡数据集，包含来自C班然后，情景训练由以下组成：对少量学习问题进行采样，使用支持集构建贝叶斯QDA分类器，计算查询集上的负对数似然，以及最后使用随机梯度下降更新0至关重要的是，共轭先验的使用意味着没有p（y=j|X-，m-，2，S，V）=。C. （十二）N（x→|μ→，Z）p（y=i）迭代优化程序必须执行时，注意，在类上的先验可以在假设类上均匀分布的标准少量基准中被丢弃。=（十=.µ→，Zm-j=j=1i=1.655在每一个情节中构造分类器相反，我们能够反向传播通过共轭更新，并直接修改先验参数的随机梯度下降。算法1中给出了整个学习过程。656j=1j=1算法1：用于偶发元学习的伪代码MetaQDA中的超参数1 要求：分销在任务Q上，迭代次数T，学习率α2 结果：先验参数øT3初始化：m=0，S=1，2=1，v=d}4，对于t=1至Tdo5样本任务，qt~Q;每类600个例子，摘自ILSVRC-12 [49]。图像大小调整为84×84 [20]。分层ImageNet是一个更具挑战性的基准[47]，由608个类（779，165个图像）和391/97/160个类组成，分别用于元训练/验证/测试折叠。图像大小调整为84×84。CIFAR-FS[3]是通过使用与miniImageNet相同的标准从CIFAR-100 [27]中随机抽样创建的（100个类，每个类 600 个图像，分为 64/16/20 倍的元训练/val/test）。图像大小调整为32×32。6样本支持与查询集，Dt，Dt~qt;特征提取器Conv-4（64-64 - 64 -64），如[52]所示。看到S Q7构建贝叶斯QDA模型详情见附录ResNet-18是标准的18层8块8如果MAP：t›{（μ→j，Zj）}C;//公式11在[61]中使用预先训练的权重的架构WRN-28-10是9如果Fu1 yBay es：t›{（m→j，2j，Sj，vj）}C;//等式10具有28个卷积层和宽度因子10的标准架构，以及来自[37]的预训练权重10更新之前11t› t−1− αAL（t−1|Dt，Dt）;//等式15或16竞争对手我们将竞争对手分为两类：1）12端部S Q 的直接竞争对手也利用“现成的预训练的网络，并且仅更新分类器以进行学习新的类别; 2）非直接竞争对手，为了学习有效的NIW分布，必须约束一些先验参数。特别地，S必须是正定的，2必须是正的，并且v必须严格大于d− 1。可以通过将有效范围之外的任何值修剪回最小允许值来对2和V强制约束我们根据其Cholesky因子来参数化尺度矩阵S=LLT，（17）其中L是下三角矩阵。在优化期间，我们通过在每次权重更新之后将对角线上方的所有元素设置为零来确保L保持下三角形5. 实验我们测量我们的模型在标准，跨域和多域的少拍学习和少拍类增量问题设置的功效MetaQDA是一个浅层分类器层元学习器，它对固定提取特征的选择不可知除非另有说明，我们报告MetaQDA的基于FB的变体的在Meta学习期间，我们在从训练集提取的片段上学习参数Φ=（m-，2，S，V）我们使用元验证数据集进行模型选择和超参数调整。在元测试期间，使用支持集来获得参数后验，然后根据等式12或等式14建立QDA分类器。所有算法都是在C-wayk-shot学习[52]上进行评估的，在测试片段中每个类有一批15个查询图像所有准确度均通过平均600个随机生成的测试任务计算，置信区间为95%5.1. 标准少次学习数据集miniImageNet[44]被分为64/16/20，分别用于元训练/val/test，包含100个类和100个测试。元学习针对少量学习优化的特征和/或在元测试期间更新功能Baseline++[4]修复了特征编码器，并仅在元测试阶段调整（余弦相似性）SimpleShot[61]使用具有不同特征编码器的NCC分类器，并研究不同的特征归一化。我们使用他们最好的报告变体，CL2N。S2 M2 [37]在自监督和/或正则化分类器预训练之后使用线性分类器SUR [7]也使用预先训练的特征提取器，但侧重于对从不同主干或同一主干的多个层提取的多个特征进行我们比较了他们报告的根据我们的多类分类训练的单个ResNet骨干的结果，但他们具有融合从多个层提取的特征的优势Unravelling [14]提出了一些用于vanilla骨干训练的新正则化器，这些正则化器可以在没有元学习的情况下提高少量学习的特征质量结果表 1-3 总结了 miniImageNet 、分层 ImageNet 和CIFAR-FS上的结果。MetaQDA的性能优于所有依赖于现成特征提取器的先前方法，也优于大多数元学习表示专门用于少数问题的方法我们没有努力仔细微调超参数，而是专注于展示我们的模型在具有各种主干的不同少数学习基准中具有强大的优势。固定特征方法（灰色）的关键益处是小的计算成本，例如，1小时的训练。相比之下，SotA端到端竞争对手（白色），如[30，13，67]需要超过10个小时。5.2. 跨领域少样本学习数据集CUB[22]包含200个细粒度类中的11，788个图像，分为100，50和50个折叠Cars[26，58]包含196个类，分别随机分为 98 ， 49 和 49 个类用于元train/val/test。657TADAM[30]第30话BASELINE++[37，4] WRN72.00± 0.70%84.20± 0.50%S2M2[37]WRN67.50± 0.64%80.08± 0.32%WRN74.81± 0.19%87.47± 0.13%表3：CIFAR-FS上的少发射分类结果。 +我们的METAQDA 75.83±0.88%88.79± 0.75%ResNet-12 58.50± 0.30%76.70± 0.30%MAMLO[8] Conv-4 48.70± 1.84% 63.11 ±0.92%PROTONET[52] Conv-4 49.42± 0.78%68.20 ±0.66%GNN[10] Conv-4 50.33± 0.36%66.41 ±0.63%METASSL[47] Conv-4 50.41± 0.31%64.39 ±0.24%相对含量[55] Conv-4 50.44± 0.82%65.32 ±0.70%METASGDO[33] Conv-4 50.47± 1.87%64.03 ±0.94%CAVIA[68] Conv-4 51.82± 0.65% 65.85± 0.55%TPN[35] Conv-4 52.78± 0.27%66.59 ±0.28%R2D2[3] Conv-4×51.90± 0.20%68.70 ±0.20%[67]第67话Conv-4 53.48± 0.78% 67.63 ±0.59%GCR[31] Conv-4 53.21± 0.40%72.34 ±0.32%METASSL†[47] Conv-4 52.39±0.44% 70.25±0.31%相对含量[35]Conv-454.48 ± 0.48% 71.31± 0.78%TPN†[35] Conv-4 59.91± 0.94% 73.30± 0.75%相关性NET2[67]Conv-460.58± 0.72% 72.42± 0.69%PROTONET[35] Conv-453.31± 0.89% 72.69± 0.74%简单热[61]转化率-451. 02 ± 0.20% 68.98± 0.18%METAQDAConv-458.11±0.48% 74.28±0.73%TAPNET[66] ResNet-12 63.08± 0.15% 80.26± 0.12%RELATIONNET2[67] ResNet-1268.58± 0.63% 80.65± 0.91%[30]第30话：一个人的世界 ResNet-12×65.81± 0.74% 81.75± 0.53%简单的热[61]ResNet-1869.09 ± 0.22% 84.58± 0.16%Versa[15]DYNAMIC FSL†Conv-4 53.40± 1.82%67.37 ±0.86%[13] Conv-4 56.20± 0.86%72.81± 0.62%METAQDAResNet-1869.97±0.52% 85.51±0.58%BASELINE++[4] Conv-4 48.24± 0.75%66.43 ±0.63%简单的热[61] Conv-4 49.69± 0.19%66.92 ±0.17%METAQDAConv-456.41±0.80% 72.64±0.62%SNAIL[51] ResNet-12 55.71± 0.99% 68.88± 0.92%DYNAMIC[4F1S]L[13]R esNe t-12 55.45±0.89%70.13±0.68%LEO[50][61]第六十一话S2M2[37]META QDAWRNWRN66.33± 0.05% 81.44± 0.09%WRN69.75 ±0.20%85.31 ±0.15%WRN73.71 ±0.22%74.33± 0.65%88.59 ±0.14%89.56± 0.79%表2：分层ImageNet上的少镜头分类结果。 †：CAML[25] ResNet-12 59.23± 0.99% 72.35± 0.18%AM3[63] ResNet-12 65.21± 0.49% 75.20± 0.36%MTL[54] ResNet-12× 61.20± 1.80%75.50 ±0.80%利用额外的未标记数据进行半监督学习或转导推理。灰色：使用固定的预先训练的骨干。TAPNET[66] ResNet-12 61.65±0.15% 76.36±0.10%[67 ]第67话ResNet-12 63.92± 0.98% 77.15± 0.59%模型主干1次5次R2D2[3]METAOPTOResNet-12 59.38± 0.31%78.15 ±0.24%[30] ResNet-12×64.09± 0.62%80.00± 0.45%MAML[37] Conv-4 58.90±1.90% 71.50±1.00%相对含量[37] Conv-4 55.50± 1.00%69.30± 0.80%RELATIONNET[4] ResNet-18 52.48± 0.86%69.83 ±0.68%PROTONET[4] ResNet-18 54.16± 0.82%73.68 ±0.65%DCEM[6] ResNet-18 58.71± 0.62% 77.28± 0.46%AFHN[32] ResNet-18 62.38± 0.72% 78.16± 0.56%SUR[7] ResNet-12 60.79± 0.62%79.25 ±0.41%UNRAVELLING[14]ResNet-12×59.37± 0.32%77.05 ± 0.25%BASELINE++[4] ResNet-18 51.87± 0.77%75.68 ±0.63%[61] ResNet-18 62.85± 0.20%80.02 ±0.14%S2M2[37] ResNet-18 64.06± 0.18% 80.58± 0.12%METAQDAResNet-1865.12±0.66% 80.98±0.75%PROTONET[37] Conv-4 55.50± 0.70%72.02± 0.60%R2D2[3] Conv-4 62.30± 0.20% 77.40± 0.10%简单S热+[61] Conv-4 59.35±0.89% 74.76±0.72%METAQDAConv-460.52±0.88%77.33±0.73%PROTONET[37] ResNet-12 72.20± 0.70%83.50± 0.50%METAOPT[30] ResNet-12×72.00± 0.70% 84.20± 0.50%[14]第十四话BASELINE++[4，37]ResNet-12×ResNet-1872.30± 0.40%59.67± 0.90%86.30± 0.20%71.40± 0.69%S2M2[37]ResNet-1863.66± 0.17%76.07± 0.19%表1：mini ImageNet上的少镜头分类结果。†：两步优化与关注。O：在元测试时需要基于梯度的优化。×：使用比标准和高维嵌入更宽的CNN。灰色：固定特征方法。竞争对手更好的少次学习方法在转移到新领域时应该降低得更少[4，58]。我们特别感兴趣的是将MetaQDA与使用现成功能的其他方法进行比较。特别是，我们考虑使用线性分类器的Baseline++[4]和S2M2[37]，以及 SimpleShot [61]的最近质心方法结果表4表明MetaQDA对结构域移位表现出良好的鲁棒性具体来说，我们的方法在所有数据集、支持集大小和特征组合上至少比其他方法高出2%-4%实施. 灰色：使用固定的预先训练的骨干。5.3. 多领域少样本学习数据集元数据集[57]是一个具有挑战性的大规模基准测试，涵盖10个图像数据集。在[48，1]之后，我们报告了使用前8个数据集进行Meta训练的结果（一些类保留用于“域内”测试性能评估），并完全保留剩余的2个（交通标志和 MSCOCO ）加上另外 3 个数据集（MNIST[29]，CIFAR10，CIFAR100[27]）用于看不见的“域外”绩效评估。请注意，元数据集协议是随机方式和拍摄。竞争对手CNAP [48]和SCNAP [1]元学习自适应特征提取器，其参数由采用当前任务数据集的自适应网络LEOO[50]PPA[43][61]第六十一话WRNWRN61.78 ±0.05%59.60 ±0.41%73.74 ±0.19%77.59 ±0.12%S2M2[37]META QDAWRNWRN63.50± 0.20%80.33 ±0.14%WRN64.93 ±0.18%67.83± 0.64%83.18 ±0.22%84.28± 0.69%模型骨干单次拍摄5次射击模型骨干单次拍摄5次射击METALSTM[44]Conv-443.44 ±0.77%60.60 ±0.71%MAML[35]Conv-451.67 ±1.81%70.30 ±1.75%658其中n是在binb中的predicbt=io1nNs的数目，N是型号骨干1-shot 5-shotMAML[42] Conv-4 34.01± 1.25%-相关性NET[42] Conv-4 37.13± 0.20%-DKT[42] Conv-4 40.22± 0.54%-PROTONET[42] Conv-4 33.27± 1.09%-BASELINE++[42，4]Conv-4 39.19± 0.12%-简单S热+[61] Conv-4 45.36± 0.75% 61.44± 0.71%METAQDAConv-447.25±0.58%64.40±0.65%MAML[4] ResNet-18-51.34± 0.72%RELATIONNET[4] ResNet-18-57.71± 0.73%LRP（CAN）[53]ResNet-1246.23± 0.42%66.58± 0.39%[53 ]第53话我的世界48.29± 0.51%64.44± 0.48%5.4. 少镜头类增量学习问题设置少镜头类增量学习（FSCIL）要求从少量标记样本[46，56]中增量学习新类[45]，理想情况下不会忘记。我们的固定特征假设在这方面提供了优点和缺点但是我们的MetaQDA自然适合增量学习，并且可以弥补任何缺点。在[56]之后，miniImageNet被分成60/40个基本/新类，每个类有500个训练图像和100个测试图像。每个元测试集都从一个基础LFWT[58]PROTONET[4]ResNet-1047.47± 0.75%66.98± 0.68%ResNet-18-62.02± 0.70%分类器，并在8个学习会话中进行，每个会话添加5路5次支持集。在每个会话之后，对到目前为止看到的完整类集合评估模型，从而在第9个会话中产生100路广义少数问题MetaQDA根据[56]，我们预训练ResNet18骨干（详见附录），然后在执行增量元测试之前在60个基类上元训练MetaQDAMetaQDA先验在元测试期间不更新LRP（CAN）[53]ResNet-1232.66± 0.46% 43.86± 0.38%[53 ]第53话我的世界32.78± 0.39% 46.20± 0.46%[58]第58话30.77± 0.47% 44.90± 0.64%[61]ResNet-1834.72± 0.67% 47.26± 0.71%METAQDAResNet-1837.05±0.65%51.58±0.52%S2M2[37] WRN 31.52± 0.59% 47.48± 0.68%简单S热+[61] WRN 33.68± 0.63% 46.67± 0.68%METAQDAWRN36.21±0.62%50.83±0.64%表4：从mini ImageNet到CUB和Cars数据集的跨域少拍分类结果。+我们的执行。灰色：使用固定的预先训练的骨干。作为输入。SUR [7]在一组元列车域特定特征中执行特征选择。并发URT[34]元学习Transformer，以在最近质心分类之前动态元训练数据集特征结果表6报告了具有随机5次激发发作的10次元测试发作的平均结果。显然，MetaQDA显著优于NCC和之前的SotA [56]。5.5. 模型校准在现实世界的场景中，在做出高重要性决策的情况下，机器学习模型的概率校准至关重要[17]。他们所犯的任何错误都应该伴随着相关的低置信度分数，例如，因此它们可以由另一个过程检查在[40，17]之后，我们计算具有和不具有温度缩放（TS）的预期校准误差（ECE）。ECE将每个预测分配给一个表示预测置信度的bin，该bin应反映其概率ProtoNet。我们将MetaQDA应用于固定的融合特征的相关性。IE：ECE=.BNB|acc（b）−con f（b）|、由URT学习，取代ProtoNet。结果表5报告了所有13个数据集上每个模型的平均等级和准确度。我们还在“域内”和“域外”数据集之间分解准确性（即，在元训练期间看到/看不到）。MetaQDA具有最好的平均排名和整体准确性。特别是它实现了强大的域外性能，这与我们上面的良好跨域结果一致。按数据集细分的详细结果见附录。Avg. 等级平均值精度bf的数目，并且acc（b）和conf（b）是binb的准确性和置信度。我们使用B= 20。温度缩放使用验证事件来校准softmax温度以获得最佳ECE。详情请参见[40，17]结果表7显示，与现有竞争对手相比，MetaQDA具有更好的不确定性量化。Vanilla QDA和SimpleShot的校准很差，证明了我们学习的先验知识的重要性更深的WRN尽管更准确，但校准也更差，但MetaQDA最终弥补了这一点。最后，我们看到我们的模型全面全面域内域外全贝叶斯（MetaQDA-FB，第4.2节）变体优于CNAP[48]4.565.9 ± 0.8%69.6± 0.8%59.8± 0.8%SCNAP[1] 2.9 72.2± 0.8%73.8± 0.8%69.7±0.8%SUR[7]3.272.7 ± 0.9%75.6± 0.8%68.1± 0.8%URT+PN[34]2.473.7 ± 0.8%77.2 ± 0.9% 68.1 ± 0.9%URT+MQDA1.874.3±0.8%77.7± 0.9%68.8 ± 0.9%表5：元数据集上的少镜头分类结果。平均准确度和跨事件和数据集的排名我们的MAP（MetaQDA-MAP，第4.1节）变体。5.6. 进一步分析讨论：为什么是QDA而不是其他分类器？原则上，人们可以尝试类似的贝叶斯Meta学习方法来其他分类器，但我们建立在miniImageNet→汽车miniImageNet→CUBBASELINE++[4][61]第61话ResNet-18ResNet-1842.85± 0.69%46.68± 0.49%62.04± 0.76%65.56± 0.70%META QDAResNet-1848.88± 0.64%68.59± 0.59%S2M2[37][61]第61话META QDAWRN警告警告48.24± 0.84%49.65± 0.24%53.75± 0.72%70.44± 0.75%66.77± 0.19%71.84± 0.66%[61]第61话META QDAConv-4Conv-429.52± 0.56%30.98± 0.66%39.52± 0.66%42.85± 0.68%659模型骨干模型会话0（60）第一次会议（65

下载后可阅读完整内容，剩余1页未读，立即下载