用于标签高效元学习的多维度信念量化

173 浏览量更新于2023-10-25 收藏 14.43MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Deep Shankar PandeyQi YuRochester Institute of Technology{dp7972,qi.yu}@rit.eduoped, which provide a promising approach to address thelabel scarcity problem for DL models.In recent successful few-shot learning approaches, themodel is trained from multiple few-shot tasks comprised offew labeled examples instead of one large dataset as in thetraditional setting. By learning from many similar tasks, themodel can accumulate the shared knowledge among tasks.After training, it uses the knowledge gained from similartasks as the prior knowledge to perform well on new un-seen few-shot tasks. Meta-learning is one popular approachfor few-shot learning where the model learns at two stages:rapid learning within a new task, which is guided by priorknowledge gained from gradual learning across tasks [30].In meta-learning, the model is trained on a large numberof few-shot tasks to learn the shared inter-task knowledge.The learned model is evaluated based on its generalizationcapabilities on unseen few-shot tasks.Few-shot tasks have limited data to learn from (in somecases just 1 example/class). So, some model predictionsmay not be reliable.For critical applications (e.g. au-tonomous driving), it is essential to quantify the predictionuncertainty. Some existing approaches indirectly provideuncertainty information of few-shot tasks by learning a pos-terior predictive distribution for testing data samples [7,10,12, 17, 28]. However, they usually suffer from a high com-putational cost and rely on assumptions/approximations thatmay be invalid in practice.Additionally, few-shot tasks used in meta training areusually sampled randomly from a task distribution formedusing a large pool of labeled data samples. Thus, meta-training for many optimization-based meta-learning ap-proaches is computationally expensive, requiring evaluationof the second-order derivative (i.e., Hessian) of the (global)model parameters over each of the sampled tasks. Further-more, the large number of tasks leads to high labeling costsin many real-world problems. However, not all the taskscontribute equally to the learning of the (global) model pa-rameters, and evaluating the Hessian over these tasks cansigniﬁcantly slow down the meta training process.In this paper, we present a novel Uncertainty-aware taskselection model for efﬁcient meta-learning (referred to as143910用于标签高效元学习的多维度信念量化0摘要0基于优化的元学习为许多实际计算机视觉应用提供了有希望的少样本学习方向。然而，从少样本中学习引入了不确定性，并且对于少样本预测的模型置信度的量化对于许多关键领域至关重要。此外，用于元训练的少样本任务通常是从任务分布中随机抽样的，用于迭代模型更新，导致元训练中的标记成本和计算开销很高。我们提出了一种新颖的用于标签高效元学习的不确定性感知任务选择模型。所提出的模型制定了一个多维度的信念度量，可以量化给定任务的已知不确定性并下界未知不确定性。我们的理论结果建立了冲突信念和错误信念之间的重要关系。该理论结果使我们能够估计任务的总不确定性，为任务选择提供了一个原则性的标准。进一步开发了一种新颖的多查询任务形式，以提高元学习的计算和标记效率。在多个实际少样本图像分类任务上进行的实验证明了所提出模型的有效性。01. 引言深度学习（DL）模型在许多计算机视觉应用中取得了最先进的性能。然而，DL模型的有效性受到一些专业领域（例如医学、生物学和安全情报）的挑战，这些领域的模型训练标记数据可能很少。与DL模型不同，人类可以通过利用大脑中存储的先前知识并将其应用于新任务来从有限的训练样本中高效学习。例如，一旦孩子学会区分狮子和老虎，他/她就可以快速推广这个概念来区分狮子和猫，而无需额外的训练。受到这种人类学习的启发，已经开发了各种少样本学习技术[6,24,37]。143920提供不确定性估计以量化少样本预测中模型的置信度的Units-ML模型。在主观逻辑理论[13]的基础上，我们提出了一种多维信念度量，包括虚无、冲突和错误的信念，可以量化给定任务的已知不确定性（KUN）和未知不确定性（UUN）。然而，评估错误的信念依赖于任务中查询集的标签，使得UUN在任务选择过程中无法访问。我们通过证明冲突信念和错误信念之间的新关系来解决这个问题，从而能够弥合与UUN之间的差距。因此，相应地设计了一种新的任务选择函数，该函数整合了KUN和UUN，用于面向信念的标签高效元学习。我们总结以下主要贡献：（1）一种新颖的计算和标签高效的元学习模型，可以估计少样本任务中的不确定性，（2）一种多维信念度量，用于量化给定任务的KUN并下界给定任务的UUN，（3）理论上证明冲突信念下界错误信念，从而可以在没有标签信息的情况下估计UUN，（4）一种基于不确定性的任务选择准则和一种新颖的多查询任务形式，以提高元学习的计算和标签效率。我们在多个现实世界的图像数据集上进行了大量实验，以证明所提出的Units-ML模型在准确的不确定性估计、计算有效的任务选择和在有限注释预算下的标签高效学习方面的有效性。02. 相关工作在元学习中，元模型旨在通过多个训练周期学习相关任务共享的（先验）知识，以便模型在新的少样本任务中表现良好。先验知识可以通过嵌入函数和相似度度量来学习，如度量模型[5,8,33,35,37]。先验知识也可以通过将训练数据集映射到任务特定元模型的参数的深度神经网络来捕捉，如基于模型的元学习方法[9,11,16,23]。在基于优化的元学习[29]中，通过优化过程从元数据集中学习任务特定的模型参数，使得模型能够仅使用来自新任务的少量示例快速适应。在模型无关元学习（MAML）[6]中，通过学习良好的全局初始化，模型可以使用少量数据样本和少量梯度下降步骤快速适应新任务。对MAML的一些改进包括MetaSGD[20]和MAML++[2]，它们有助于进一步改进MAML的泛化性和稳定性。还开发了一阶方法，如Reptile[26]，以解决MAML元训练中的高计算成本问题。最近，元学习已经成为0已扩展到贝叶斯设置[7,10,12,41]以开发不确定性感知。我们在附录中讨论了这些相关的不确定性感知元学习工作。最近的工作还试图展示元学习在强化学习问题中的任务选择的有效性[15,22]。在少样本分类问题的任务选择方面，MTL[34]和GCP[21]与我们的方法具有相似的动机。在MTL中，引入了一个两阶段的困难任务方案，其中模型首先在一批任务上进行训练，并维护一个基于查询集损失的失败类列表。在第二阶段，模型从使用导致更好泛化的失败类创建的困难任务中进行训练。在GCP中，开发了一种基于类对的任务采样方案，作为现有均匀采样的有效替代方法进行元学习。在GCP中，使用类对潜力矩阵来采样训练任务。GCP需要跟踪所有训练类之间的成对潜力，并且当训练类的数量较大或者在训练过程中引入新的训练类时，可能无法很好地扩展。这些方法可以作为我们方法的补充应用，因为它们侧重于确定最具信息量的类别（而不是我们模型中的任务），从中生成任务。使用这些方法，一旦确定了候选类别，我们的模型可以应用于制定多查询任务并选择最具信息的任务，以实现有效的元学习。我们的方法是一种基于优化的具有不确定性感知的元学习的实例，即我们的模型在少样本任务的预测中输出不确定性估计。与上述讨论的概率元学习方法相比，我们的方法不会增加任何显著的计算开销。此外，通过进一步利用预测的多维信念（即虚无、冲突和错误），我们进行基于信念的任务选择，以实现更快速和更好的收敛性，并辅以基于多维信念的不确定性量化。03. 方法论0在本节中，我们提出了用于高效元学习的基于信念的任务选择方法（Units-ML）。首先，我们描述了少样本学习的标准问题设置。然后，我们对 MAML的计算成本进行了分析，这激发了我们进行基于信念的任务选择的需求，为我们详细描述所提出的 Units-ML模型奠定了基础。0问题设置。我们关注少样本分类问题，并遵循[37]中引入的情节训练过程。具体而言，考虑从任务分布中采样的多个任务，每个任务包含一个支持集 S 和一个查询集 Q。具体而言，一个任务的T = {S, Q}S = {XS, YS} = {(x1, l1), ..., (xNs, lNs)}Q = {XQ, YQ} = {(x1, l1), ....., (xNq, lNq)}(1)θ1 = θ0 − α∇θ0L�f(θ0, XS), YS�...θM = θM−1 − α∇θM−1L f(θM−1, XS), YS(2)θnew = θβθf(θM, XQ), YQ(3)θnew = θ − β∇θLQM = θ − β∇θM LQM × ∇θ�θM�= θ − β∇θM LQM ×�1�m=M∇θm−1�θm]�× ∇θ�θ0�= θ − β∇θM LQM(I − HM−1).. × (I − H0) × I (4)̸̸143930N -way K -shot 分类问题定义为0支持集 S 共有 N s = N × K 个实例，每个类别有 K个样本，查询集 Q 有 N q 个新样本，属于 N个类别之一。在元训练过程中，支持集和查询集都用于训练模型；在元测试过程中，模型使用支持集进行适应，并在查询集上进行评估。除了上述的标准问题设置，我们还考虑只能对有限样本进行注释的情况，由于标注预算有限，目标是以节省标签的方式训练元模型。我们假设每个任务由具有有限标签样本的小支持集和具有不同大小的无标签查询集组成。我们希望元模型在从支持集的知识中学习后，能够在任何新样本的任务（即任何查询集）上表现良好。0MAML 的分析。MAML旨在使用上述支持-查询设置在多个元迭代中学习良好的初始化。在每个元迭代中，一批任务会更新模型的全局参数。MAML的更新可以总结为两个迭代步骤：使用支持集进行局部更新和使用查询集进行全局更新。对于每个任务，局部更新的过程如下：0θ 0 = θ [复制全局参数]0在这里，模型 f 基于参数 θ m , m ∈ [1 , M ] 对支持集输入X S 进行预测，支持集预测 f ( θ m , X S ) 和支持集真值 Y S用于计算损失 L ，第 m次局部更新基于该损失进行。在进行 M次局部更新之后，使用查询集输入 X Q 和查询集真值 Y Q来更新全局参数：0将查询集损失函数 L � f ( θ M , X Q ) , Y Q � 记为 L Q M，将支持集损失函数 L � f ( θ M , X S ) , Y S � 记为 L S M。在使用支持集 S 进行 M次局部更新之后，我们使用查询集 Q 来更新全局参数：0其中，� θ M L Q M 是与参数 θ 中参数数量相同的向量，I是单位矩阵，H m = � θ m � � θ m L S m � 是 Hessian矩阵。如上所示，全局参数的更新是通过查询集样本的损失函数 L Q M 进行的，其中 θ m隐式地捕捉了支持集的信息。为了实现标签高效的元学习，我们需要通过其查询集来量化任务的信息量。此外，全局参数更新涉及多个Hessian-梯度乘积，这在计算上是昂贵的。在标准元学习中，需要标记大量任务并用于情节训练以找到良好的全局参数。这不仅会产生高昂的注释成本，还需要很长时间才能收敛。提出的 Units-ML模型旨在选择最具信息量的任务，以实现高效的元学习，从而减少标签和计算成本。03.1.多维任务信念量化0我们利用主观逻辑（SL）[13]的形式主义，制定了一种新颖的基于信念的多维度度量方法，以量化元学习中不同类型的任务不确定性。SL考虑N个观点（对应于N个类别）并为每个观点（b1，b2，...bN）分配信念质量和整体不确定性质量u。信念质量表示模型的总证据，而不确定性质量表示空虚度（即缺乏证据），两个质量之和为1：0n = 1 bn + u = 1，�n：0 ≤ bn ≤ 1，0 ≤ u ≤1（5）0通过明确考虑不确定性质量并使用基于证据的度量（空虚度）对其进行量化，我们可以获得模型对给定任务的空虚信念。通过学习具有高空虚度的任务，模型可以获得缺失的知识。此外，我们还可以使用不和谐度（dis）捕捉由于冲突信念而产生的不确定性，它是空虚度（u）的补充：0dis =0N0n = 10bn0u0j≠nbjBal（bj，bn）0j≠nbj0（6）0Bal（∙，∙）=01-|bj-bn|00，否则（7）0其中Bal（∙，∙）是两个信念质量之间的相对质量平衡函数。通过学习具有高不和谐度的任务，模型可以纠正其已获得的冲突知识，以确保更准确的预测。关于SL的其他讨论见附录。SL理论可以方便地嵌入标准（非贝叶斯）神经网络中，使其具有计算吸引力。特别地，神经网络可以进行多项式分类观点的形成，通过将非负激活层替换为最终的softmax层，使其能够计算信念质量和空虚度。By setting αn = en+1, the probability of assigning x to theqqqibt ≥143940通过将最终的softmax层替换为非负激活层[31]，可以通过替换来自分类的多项式观点来形成多项式观点。因此，网络被训练为预测给定输入x的证据向量e=（e1，e2，...eN）。然后计算信念和空虚度如下：0bn = en0S，u = N0S，其中S =0n = 1（en +1），（8）0S。如果我们使用一组分类随机变量（p1，...，pN）�来表示类别分配概率，则α实际上是Dirichlet先验Dir[(p1，...，pN）� |（α1，...，αN）�]的集中参数。0任务不确定性量化的多维度信念。为了量化由支持集中有限标记实例和无标签查询集q组成的给定任务t的空虚信念（即空虚度）和冲突信念（即不和谐度），我们建议对每个抽样任务进行元测试。具体而言，模型首先通过使用支持集S来适应任务。然后，使用无标签查询集Q评估任务的空虚度和不和谐度。我们使用（8）和（6）计算任务查询集中每个数据样本的空虚度和不和谐度。任务t的空虚信念vbt和冲突信念cbt计算为查询集样本的空虚度和不和谐度的平均值：0vb t = 10q = 1 utq（空虚信念）（9）0cb t = 10q = 1 distq（冲突信念）（10）0在任务t中，u t q和dis tq分别表示第q个查询样本的空虚度和不和谐度。由于空虚度反映了模型对数据样本的证据缺乏，空虚的信念表明模型对任务的整体知识缺乏。因此，选择具有高vbt的任务并使用（4）进行元训练可以调整全局参数以有效学习缺失的知识。因此，预期模型在未来的类似未见少样本任务中表现良好。虽然空虚的信念捕捉了模型对任务的知识缺乏的一种不确定性来源，但是冲突的信念有助于识别困难的任务，即模型在不同类别之间混淆的任务。从这些任务中学习可以帮助调整全局参数，使模型能够纠正已获得的混淆知识。因此，预期模型能够更好地区分任务内的不同类别。0由于虚无信念和冲突信念都可以在不知道查询集的标签的情况下进行量化，它们是已知不确定性（KUN）的实例。还有另一种不确定性来源，称为未知不确定性（UUN），模型对此不知情。UUN通常导致高度自信的错误预测，在关键领域（例如自动驾驶）中可能导致更严重的后果。这种类型的不确定性实质上是由模型过拟合引起的，在将深度学习模型应用于少样本问题时可能非常常见。训练元学习模型以最小化未知不确定性至关重要，这样模型就可以避免在未来进行过拟合的预测。未知不确定性可以通过第三种类型的信念来捕捉，称为错误信念：0ib t = 10q = 1 || b t q ⊙ (1 - y t q) ||1（错误信念）（11）0其中 y t q =（y t q, 1，...y t q, N）T 是表示第 q个查询集样本的真实标签的独热向量，b t q =（b t q,1，...b t q, N）T 是 N 维信念向量，⊙表示逐元素乘法，||∙|| 1 是 l 1范数。直观地说，当模型错误自信时，即模型对与真实类别标签不同的类别放置了强烈的信念，它将贡献一个较大的错误信念分量。任务级别的错误信念将这些分量聚合起来，以反映任务的整体未知不确定性。然而，错误信念的一个关键限制是计算错误信念需要查询集标签，这使得它在标签高效元学习的任务选择中无法使用。我们通过以下定理中提出的一个重要的理论结果来解决这个问题。该定理建立了错误信念和冲突信念之间的重要关系，从根本上弥合了未知不确定性和已知不确定性之间的差距。0定理1（错误信念的下界）。考虑一个具有（未知的）错误信念 ib t 的无标签任务 t。0和冲突信念 cb t。然后，错误信念由同一任务上的冲突信念的一半作为下界。0其中 0 ≤ cb t ≤ 1，0 ≤ ib t ≤ 1（12）0证明概要。我们首先考虑模型输出 N维信念向量的任务内的一个样本。我们考虑冲突信念的解析表达式，简化信念之间的相对质量平衡，并展开冲突信念的不同信念项。展开和重新排列后，我们找到了冲突信念表达式中每个项的上界，证明了对于任何样本，错误信念都是冲突信念的一半的下界。最后，我们将这种关系推广到任何任务。143950由于空间限制，定理的完整证明在附录中提供。理想情况下，我们希望选择具有高错误信念的任务，以鼓励模型纠正模型的错误知识。由于冲突信念为错误信念提供了一个下界，它提供了一种估计错误信念（并减少未知不确定性）的方法，而无需标签信息，这对于主动任务选择非常重要。03.2. 信念导向的任务选择和训练0多维信念提供了一种有原则的方法来量化不同任务的已知不确定性和未知不确定性，而无需查询集标签。在这种情况下，最具信息量的任务是具有最大整体不确定性的任务，包括已知不确定性和未知不确定性。对于前者，它由两种不同类型的信念来捕捉：虚无和冲突。至于后者，我们可以通过冲突信念获得其下界。由于冲突信念用于量化已知不确定性和未知不确定性，我们提出了一个任务选择函数，将虚无信念（空洞）和冲突信念（不和谐）整合起来估计总任务不确定性：0unc t = λ ( vb t ) + (1 - λ )( cb t ) (任务不确定性) (13)0其中，λ是一个平衡项，用于确定这两种置信度的相对重要性。直观地说，具有高虚无置信度的任务代表模型无法对其进行自信预测的新/未知任务，而具有高冲突置信度的任务代表模型在对类别进行自信区分方面遇到困难的挑战性任务。在元学习的早期阶段，我们使用相对较大的λ，以便模型能够更好地探索任务空间以填补知识差距。然后，焦点将转移到冲突置信度上，以在更困难的任务或模型具有错误知识的任务上对模型进行微调。0多查询任务。根据上述选择分数（unct），我们提出使用一种新的任务形式策略进行基于标签效率的元学习，即不确定性感知任务选择。任务选择的一种直接方法是从任务分布 p ( T ) 中采样大量任务（例如 J个任务），并使用任务选择标准选择 I个任务进行标记和元学习。我们将此策略称为Units-ST（见图1）。在Units-ST中，对于每个被丢弃的任务，模型需要适应支持集以确定信息量，这是一种计算和支持集标签的浪费。为了进一步提高效率，我们提出了多查询任务的形式化，其中每个任务由一个共享的支持集和多个查询集组成。在这种新的形式化中，称为Units-ML（见图1），模型将适应任务中的支持集，并选择最具信息量的查询集进行标记。其他未标记的查询集将被丢弃并不使用。0对于元学习来说，这种多查询任务是有限预算现实世界少样本问题的理想选择。0置信度正则化模型训练。我们的目标是训练元模型学习一个良好的初始化，以便在新任务中，在从支持集的有限数据中学习之后，元模型能够进行预测并输出预测的置信度（不确定性信息）。为此，我们假设每个样本的标签是通过具有Dirichlet先验和多项式似然的生成过程获得的，这是通过SL框架指定的。Dirichlet先验的参数表示不确定性估计的虚无和置信度质量。此外，我们利用Dirichlet先验和多项式似然之间的共轭性。通过这样做，我们可以通过最小化多项式输出与真实标签之间的损失来学习这些参数。此外，虽然在任务选择阶段只能通过其下界来估计错误置信度，但一旦选择了任务，将收集其查询集的标签。因此，可以准确地量化错误置信度，这可以用于指导模型训练（最小化错误置信度）。为此，我们提出了一种置信度正则化损失函数。0L i = - ln � Mult ( y i | p i ) Dir ( p i | α i ) d p i + ηR ib(14)0R ib = b i ⊙ ( 1 - y i ) (15)0其中，L i 是第i个数据样本的损失，带有one hot标签 yi，R ib 是样本的错误置信度正则化项，η是一个正则化系数，用于平衡最小化错误置信度和最大化对数似然之间的关系。此外，模型输出N维的证据 ei，通过它可以得到置信度 b i 和Dirichlet参数 αi。由于篇幅限制，我们在附录中提供了SL的描述以及有关错误置信度正则化、损失函数、设计选择和超参数设置的其他详细信息。04.实验我们首先进行实验，以展示准确的多维置信度量化，从而经验性地验证我们的理论结果。然后，我们在现实世界的少样本图像分类任务上进行了大量实验，以展示Units-ML模型在准确的不确定性估计、有限标签预算下的快速收敛性以及在学习模型的泛化和根据模型置信度调整预测结果方面的竞争性元学习性能。为了证明所提模型的普适性，我们将MetaSGD模型扩展为具有不确定性感知能力，并且还进行了扩展01000.2.40.601000.00.2.40.6143960图1.左图显示了基于优化的元学习的思想，中间图显示了任务选择的思想（Units-ST），右图说明了我们提出的多查询任务选择方法的思想。前向箭头表示任务适应（2），后向箭头表示全局参数更新的计算（4）。0我们还在使用mini-ImageNet/CifarFS的任意样本分类和在Meta-Dataset[36]上进行多数据集设置的情况下进行了额外的实验，这是Bayesian TAML[19]提出的。由于篇幅限制，我们将这些结果与附录中的详细实验设置一起报告。数据集。我们在三个真实世界的基准图像数据集上评估我们提出的方法：Omniglot[18]，mini-ImageNet [37]和CifarFS[4]。数据集的详细信息总结在附录的表2中。04.1. 比较基准的详细信息0比较模型。我们的比较包括基于优化的元学习模型（MAML[6]，MUMOMAML [38]，CAVIA [42]，MetaSGD[20]，Rep- tile [26]，HSML[40]）和具有不确定性量化能力的模型（PLATIPUS[7]，VERSA [10]，BMAML [41]，LLAMA [12]和ABML[28]）。附录中提供了每个比较基准的描述。由于其中一些模型没有发布其源代码，我们参考现有的文献来报告它们的性能。因此，某些模型可能无法获得所有三个数据集的结果。0实验设置。我们在少样本分类问题上进行实验，考虑N路K-shot任务，查询集中每个类别有q个实例。在这样的设置下，任务是通过随机抽样N个类别，然后从每个类别中抽样K+q个实例来创建的。N×K个实例构成任务的支持集，查询集中有N×q个实例。模型使用Adam优化器进行训练，外循环学习率为0.001，并在600个验证集任务上进行评估。我们训练模型100个时期，每个时期包含500个元迭代，并在3个独立运行中对最终的测试集性能进行平均。在每个元迭代中，模型使用8个任务进行Omniglot训练，4个任务进行CifarFS[4]训练，4个任务进行5路1-shot mini-ImageNet训练。0和5路5-shot mini-ImageNet的2个任务。我们使用与ALFA[3]，Antoniou等人[2]类似的标准4模块卷积架构。对于有限的标签预算实验，我们训练模型50个时期，每个元迭代包含2个任务/批次（总共10,000个任务）的所有模型。在多查询任务中，每个任务有8个未标记的查询集共享相同的支持集。附录中提供了其他实现细节。04.2. 多维信念量化0Epoch0信念05路5-shot, = 8.00虚无正确不正确冲突0(a) 训练趋势0Epoch0信念05路5-shot, = 8.00虚无正确不正确冲突0(b) 验证趋势0图2. CifarFS数据集的多维信念趋势0我们在图2中展示了CifarFS数据集中5路5-shot情况下多维信念的训练和验证趋势。在初始训练阶段，平均虚无信念较低，不正确信念较高。这很可能是由于模型在有限的训练数据上过拟合造成的，这也可能表明在标签预算有限且过拟合更容易发生时，应用提出的多维信念来量化KUN和UUN的重要性。在早期阶段，由于模型了解较少，它也低估了虚无信念。在接下来的几个时期，模型开始对其多维信念进行准确调整，因为它接触到更多的样本。这导致正确信念增加，其他所有信念减少，符合预期。0.21.000.6.7.80.90.250.500.751.00Vacuity Threshold0.750.800.850.90Accuracy143970需要注意的是，在所有训练阶段的训练和测试任务中，冲突信念紧随错误信念。因此，这些图形从经验上验证了我们的定理，即冲突信念下界是错误信念的两倍。04.3. 不确定性估计性能0然后，我们进行实验评估提出的Units-ML模型在少样本学习中的不确定性估计的有效性。对于在支持集中适应后仍然对元模型是新的少样本，模型预测的虚度应该很高；否则，预测的虚度应该很低，反映出模型的高置信度。图3显示了5路1次Omniglot测试任务中查询集的预测虚度。随着查询集图像的旋转（由R表示的角度从0°到90°），模型开始出错（红色表示）并在其预测中变得更加不确定（由虚度表示）。此外，当使用MNIST字符作为分布外（OOD）样本进行测试时，模型准确地输出了较大的虚度，显示了它在少样本学习中用于OOD检测的潜力。图4显示了我们的模型在一个5路4次ImageNet测试任务中的性能，其中查询集中包含3个分布内图像、2个开放集/OOD图像（来自不同mini-ImageNet类的蛋糕图像和来自CUB数据集的鸟图像）。对于分布内样本，模型的预测是正确的，而预测的置信度（由虚度和不和谐度表示）是合理的。对于OOD/开放集图像，模型输出了较高的虚度，显示了我们的模型在OOD/开放集检测中的潜力。此外，所有OOD样本的置信度质量都贡献给了错误信念（即，对于OOD样本没有正确的信念）。我们的模型对于自信的正确预测输出低不和谐度，并对于令人困惑的样本输出较高的冲突信念（不和谐度），这是一个具有准确的不确定性意识的模型的高度理想特征。附录中提供了更多说明性示例和比较，展示了我们的模型在开放集/OOD检测中的潜力以及模型训练过程。我们进一步研究了虚度与查询集预测准确率之间的关系，以评估不确定性的可靠性。图5展示了使用CifarFS的5路1次和5路5次任务时，预测准确率如何随虚度变化。例如，在5路5次CifarFS中，通过将虚度阈值设置为0.2（考虑虚度小于0.2的样本的预测准确率），模型的预测准确率达到约85%，比不考虑虚度进行预测要好约10%。其他数据集和设置的结果在附录中展示了类似的趋势。这种灵活性可以有效避免产生不可靠的预测，这是在关键领域中促进决策的一个非常理想的特性。0图3. 5路1次任务中的不确定性预测0图4.5路4次mini-ImageNet测试任务中的不确定性预测，查询集中包含OOD/开放集实例。vb、cb和ib分别表示预测p的虚度信念、冲突信念和错误信念。0虚度阈值0准确率05路1次0（a）5路1次CifarFS05路5次0（b）5路5次CifarFS0图5. 不同虚度阈值下的预测准确率0以提供不太可靠的预测为目标，这是在关键领域中促进决策的一个非常理想的特性。04.4. 活动任务选择0接下来，为了展示我们提出的模型的标签效率，我们在有限的标注预算场景下进行实验。我们考虑模型可以访问小型标记的支持集，并且模型需要决定要标记的任务（有限的标记预算）。我们考虑了一个标注的场景，其中模型只能标记一部分任务，并且需要在给定的预算下最大化预测准确率。(a) 5-w 5-s CifarFS(b) 20-w 5-s OmniglotOmniglot20-way 1-shot(%)20-way 5-shot(%)MAML95.8±0.398.9±0.2Reptile89.43±0.1497.12±0.32VERSA97.66±0.2998.77±0.18Units-NTS91.96±0.4897.38±0.07Units-ML93.17±0.2597.72±0.18Units-ML 0.296.83±0.4899.04±0.13Units-ML 0.198.85±0.8399.42±0.25mini-ImageNet5-way 1-shot(%)5-way 5-shot(%)MAML48.70±1.8463.15±0.91MetaSGD50.47±1.8764.03±0.94MUMOMAML49.86±1.85-HSML50.38±1.85-CAVIA51.82±0.6565.85±0.55LLAMA49.40±1.83-PLATIPUS50.13±1.86-BMAML53.17±0.87-VERSA53.40±1.8267.37±0.86ABML45.0±0.6-Units-NTS51.38±0.3366.75±0.42Units-ML50.86±0.6768.16±0.72Units-ML 0.261.25±2.8980.70±0.93Units-ML 0.182.26±4.7791.07±0.26CifarFS5-way 1-shot (%)5-way 5-shot (%)MAML58.9±1.971.5±1.0MetaSGD∗57.77±0.1771.16±0.21Reptile55.86±1.0071.08±0.74VERSA∗60.6±0.6874.69±0.29Units-NTS59.80±0.3176.15±0.35Units-ML59.84±0.1176.69±0.44Units-ML 0.276.62±0.4283.54±1.73Units-ML 0.187.92 0.7190.46±1.82143980在任务预算为10,000的情况下，我们将我们提出的基于信念的任务选择与使用模型在查询集上预测的不确定性进行任务选择的不确定性感知Versa模型以及不具备不确定性感知的MAML模型进行比较，后者随机选择要标记的任务的查询集。我们的模型使用（13）中的一种新颖的任务不确定性评分来选择具有最大任务级不确定性的任务进行标记。图6显示了结果，在有限任务预算的情况下，我们的模型在元学习过程的早期阶段优于基线模型。例如，在20-way 5-shotomniglot实验中，我们的模型仅在1000次迭代后收敛到90%以上的准确性，而基线模型需要更长的时间才能达到类似水平。附录中还提供了其他结果。0图6. 有限标记预算下的元学习04.5. 元学习性能比较在三个数据集上的元学习性能以及与最先进的竞争模型的比较结果如表1所示。对于比较，我们提供了Units-ML（提出的任务选择）和Units-NTS（代表无任务选择）。可以看出，任务选择模型在几乎所有实验中都取得了比无任务选择更好的结果，只有在5-way 1-shotmini-ImageNet实验中，性能接近。我们还展示了具有不同不确定性阈值（例如，Units-ML0.2）的Units-ML，以展示预测不确定性的灵活性和有效性。例如，Units-ML0.2考虑了模型预测不确定性小于0.2的样本的预测性能。通过调整不确定性阈值仅考虑自信预测，我们的模型实现了显著更高的准确性，证明了不确定性阈值的有效性。05. 结论在本文中，我们提出了一种基于不确定性的优化型元学习模型，用于少样本学习。基于主观逻辑理论，提出的Units-ML模型成功地使用空洞度和不和谐度识别已知不确定性，并使用（错误的）信念质量识别未知不确定性。我们设计了一种新颖的任务不确定性评分来选择具有最大任务级不确定性的任务。0表1. 元学习性能比较0* 表示本地复现结果0对于元训练来说,我们的方法达到了与许多基于优化的元学习方法相当的性能.我们进一步展示了我们的模型在超出分布检测和标签高效任务选择方面的潜力. 此外, 通过调整不确定性阈值,Units-ML可以提供更可靠的预测性能,这对于支持关键领域的决策至关重要. 作为未来的工作,我们计划将我们的框架扩展到基于度量的和其他以情节方式训练的元学习方法.0致谢0这项研究部分得到了NSFIIS奖励IIS-1814450和ONR奖励N00014-18-1-2875的支持. 本文中的观点和结论仅代表作者本人,不代表任何资助机构的观点.我们还要感谢匿名审稿人的建设

下载后可阅读完整内容，剩余1页未读，立即下载