带有噪声标签的少样本学习的挑战

178 浏览量更新于2023-10-26 收藏 17.62MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

90890带有噪声标签的少样本学习0Kevin J Liang 1 Samrudhdhi B. Rangrej 2 Vladan Petrovic 1 Tal Hassner 101 Facebook AI Research 2 McGill University0kevinjliang@fb.com0摘要0少样本学习（FSL）方法通常假设在训练新类别时，支持集中的样本是准确标记的。然而，这个假设往往是不现实的：支持集，无论多么小，仍然可能包含误标记的样本。因此，对标签噪声的鲁棒性对于FSL方法的实用性至关重要，但这个问题令人惊讶地仍然很少被探索。为了解决FSL设置中的误标记样本问题，我们提出了几项技术贡献。（1）我们提供了简单但有效的特征聚合方法，改进了ProtoNet使用的原型。ProtoNet是一种流行的FSL技术。（2）我们描述了一种用于带噪声少样本学习的新型Transformer模型（TraNFS）。TraNFS利用Transformer的注意机制来权衡误标记和正确样本。（3）最后，我们在带有标签噪声的MiniImageNet和TieredImageNet上进行了广泛的测试。我们的结果表明，TraNFS在干净的支持集上与领先的FSL方法相当，但在存在标签噪声的情况下远远超过它们。01. 引言现代少样本学习（FSL）方法旨在仅使用少量示例为新类别学习分类器。然而，这些方法通常假设用于训练的少量支持集样本被精心选择以代表它们的类别。不幸的是，现实世界中很少能提供这样的保证。事实上，即使是经过精心注释和策划的数据集也经常包含误标记的样本[9,33,45,53]，这是由于自动弱监督注释、歧义或人为错误造成的。虽然有很多方法专门用于在许多样本的监督设置中处理噪声[1, 19, 20,25,31,51]，但在少样本设置中处理噪声的方法仍然相对较少。考虑到FSL方法在无法轻松提供人工监督的情况下的实用性，这种缺乏是令人惊讶的，例如在完全自动化的系统中学习许多新类别[12,43,56,57]，使得每个支持集的标签都进行人工策划是不现实的。图1展示了从少量、可能包含误标记的样本中学习的挑战。0图1. 带有误标记样本的少样本学习。MiniImageNet[48]图像的一个5-shot、5-way支持集。每一行显示一个新类别的支持集样本。每一行中的两个样本都通过对称标签翻转（第6.1节）进行了误标记。你能找出哪些是吗？请参阅补充材料以获取答案和更多示例。0误标记的示例。它展示了来自MiniImageNet[48]的一个5-shot、5-way支持集的样本。每一行包括五个类别中一个的支持集训练图像。每一行中的两个样本都被对称标签噪声（第6.1节）误标记。由于样本数量很少，即使对于具有相当先验知识的人类来说，发现误标记的图像也很困难，而这是FSL方法所缺乏的。正如我们后来通过实验证明的那样，FSL方法对这种标签噪声特别容易受到影响。当从少量样本进行训练时，每个样本对最终决策边界的贡献都很重要。因此，即使是一个噪声样本也可能对模型的准确性产生破坏性影响。我们在图2中说明了这一观察结果，图中报告了ProtoNet[40]在带有噪声标签的MiniImageNet上的性能。ProtoNet将每个类别的支持集的卷积特征平均到类别原型中。然后，通过查询样本与其最近邻原型的类别进行分类。图2显示了增加误标记样本数量与在删除误标记样本后进行训练的模型之间的效果对比。90900即较小但更干净的支持集）。两条曲线之间的差距越大，反映了在不考虑误标记样本时准确性的降低。我们通过进行一些技术创新来解决FSL方法对标签噪声的脆弱性。我们首先探索了ProtoNet[40]设计的简单但有效的替代方法。具体而言，我们用更稳健的方法替换了ProtoNet用于聚合支持集特征的均值运算符。我们评估了一个无权重的选项，即中位数，以及基于特征相似性对支持集样本进行加权的选项。我们表明这些改变已经提高了对标签噪声的鲁棒性。然后，我们介绍了我们的带噪声少样本学习的Transformer模型（TraNFS）。与以前的方法不同，TraNFS学习将支持样本聚合成类别表示。Transformer架构提供了一种自然的方法来处理可变数量的样本和方式，并具有置换不变性。通过利用修改后的Transformer的自注意机制[47]，TraNFS实现了对标签噪声的鲁棒性。我们在带有三种标签噪声添加方法的MiniImageNet[48]和TieredImageNet[38]的版本上对我们提出的方法进行了广泛测试。我们的结果表明，所提出的TraNFS（甚至是对ProtoNet的简单修改）在存在标签噪声的情况下远远超过了流行的FSL方法，而在不存在标签噪声的情况下，性能相当。总之，我们的贡献如下：•我们提出了中位数和相似性加权作为ProtoNet均值原型的简单而有效的替代方法。0•我们提出了TraNFS，一种适应于带有噪声标签的FSL的新型Transformer模型。0•我们对三种类型的支持集噪声污染（对称、配对和异常值）对许多流行的FSL方法进行了广泛的基准测试。02. 相关工作0少样本学习。FSL方法的领域是广泛的；我们参考综述以获得全面的概述[6,7]。基于度量的方法根据查询样本与每个类别的支持样本的相似性进行分类，学习一个可转移的嵌入空间，可以进行这样的比较。已经证明了余弦相似度[48]、欧氏距离[40]、马氏距离[6]和地球移动距离（EMD）[59]等度量方法的有效性。RelationNet[41]和Satorras等人[39]使用卷积和图神经网络分别学习相似度度量。TADAM [34]、FEAT [55]和TAFE-Net[50]提出了任务特定的嵌入适应方法。CrossTransformers[15]使用注意力实现了局部特征之间的空间感知相似度。0图2.错误标记样本数量与少样本学习准确性的关系。在Mini-ImageNet[48]上报告了10-shot、5-way分类的ProtoNet[40]的准确性。动物代表支持集嵌入，平均原型（星号）从干净类别（狗）分布中被拉出来，随着错误标记样本的增加。蓝色：如果已知并忽略错误标记样本的准确性。红色：使用完整的支持集而不移除错误标记样本的准确性。这两条曲线之间的差距反映了少样本学习对标签噪声的脆弱性。0基于优化的方法在少量支持样本上微调模型参数。MAML[2,16]学习了模型参数的初始化，使其可以在少量样本上进行快速微调。REPTILE[32]用一阶形式简化了MAML。MetaNet[30]引入了快速权重和慢速权重，用于快速参数化和快速泛化。Bertinetto等人[8]和MetaOptNet[23]提出了任务相关的Ridge回归、逻辑回归（LR）和支持向量机（SVM）的闭式解和可微求解器。Tian等人[42]展示了学习可泛化特征嵌入，用于训练新任务的线性分类器。0噪声标签和异常值。学习噪声转移矩阵的方法很常见[26,54,60]。然而，从一小部分可能被错误标记的样本中估计噪声转移矩阵是一个不适定的问题。其他方法[19,20,58]利用深度神经网络倾向于首先学习较容易（因此可能正确标记）的样本[4,44]来选择可靠的样本进行学习，但是当只有少量样本可用时，不能依赖这种行为。深度离群检测也得到了广泛的研究[10,14,37,49]，但这些方法通常专注于识别相对于训练集来说处于分布之外的测试时异常值。在FSL中，不相交的基本集和新颖集意味着所有的元测试样本都被认为是OOD，包括正确标记的支持集样本。最后，有几个工作采用元学习方法来学习噪声标签[24,52,61]，但这些方法通常假设已知的标签空间具有丰富的数据（即多样本），而不是我们的少样本设置。这些方法在只有少量训练样本的情况下会失败。0鲁棒FSL。在以前的工作中，噪声标签已经被广泛研究。p(c) = 1K�iF(x(c)i ).(1)y = argmincd(F(xq), p(c)).(2)L(p) =K�i=1��||p − hi||22 + ϵ2 − ϵ�,(3)p(t + 1) = p(t) − H−1(p(t)) · ∇L(p(t)).(4)∇L(p) =K�i=1p − hi�||p − hi||22 + ϵ2 ,(5)H(p) =� K�i=11�||p − hi||22 + ϵ2�ID×D − UU T ,(6)where D is the dimension of the vector space, ID×D is theidentity matrix, and U = [u1, u2, . . . , uK] is a D × K ma-trix formed by stacking vectors ui =p−hi2234 . As90910大部分FSL方法都忽视了噪声数据。RNNP[29]将数据增强与多次应用k-means相结合，以产生精细的原型，但这种无监督聚类隐含地假设噪声数据来自支持集类别之一。RapNets[28]提出了一种基于BiLSTM的注意力模块，以克服表示或标签噪声。RW-MAML[22]通过将MAML扩展到双层优化来学习对支持样本进行加权，但它考虑了在元训练期间混合OOD任务的不太现实的设置，而不是噪声少样本元测试。最后，还考虑了元学习器对抗攻击的鲁棒性[18]。03. 准备工作 FSL 分类任务通常被称为 K -shot N-way，其中 N 是要学习的类别数，K是每个类别要学习的标记样本数。这些 KN 个样本 S = { x(1) 1 , x (1) 2 , ..., x ( N ) K − 1 , x ( N ) K }通常被称为支持集。训练后，未标记的查询样本将被分类为这 N 个类别之一。为了从少量样本中产生有效的新类别 C n的分类器，FSL模型通常使用知识传递，利用具有丰富标记数据的基类别 Cb 的数据集。通常假设 C n中的类别事先是未知的，因此不在 C b 中（即 C b ∩ C n =�）。最近的 FSL方法通常采用元学习范式，通过元训练模型进行多个 K-shot N -way 任务的训练，优化每个任务的 N 个类别的 Q个查询样本的准确性，从而模拟所需的推理时间行为。ProtoNets 是一种相关的 FSL方法，即原型网络（ProtoNets）[40]。ProtoNets使用卷积特征提取器 F 将支持集中的每个样本转换为嵌入 h( c ) i = F ( x ( c ) i ) ∈ R D 。然后，这些嵌入被聚合成 N个类别的原型 p ( c ) ，每个类别 c的原型是嵌入的简单均值：0然后，根据嵌入空间中最近的原型对查询样本 x q进行分类：0尽管 ProtoNets的简单性使其成为一个强大的基准模型，并且其易于实现使其在大规模的实际应用中具有吸引力。然而，使用均值来聚合嵌入向量意味着对于错误标记的样本具有敏感性，特别是当只提供了少量样本时。实际上，正如我们在图2中所示，错误标记的样本很容易降低最终分类器的准确性。这是由于错误标记的样本将原型从类别的真实（未知）均值中拉开的结果。04. 均值的静态替代方法使用 ProtoNet [40]提出的均值作为聚合特征的方法并不是将嵌入组合成原型的唯一方式：当存在错误标记的样本时，其他聚合方法可能更适合。我们首先探索一些简单的均值替代方法，旨在使原型对错误标记的样本更加稳健，同时在所有标签正确的情况下保持准确性。04.1. 空间中位数原型中位数是在嘈杂环境中均值的一种自然替代方法。虽然中位数等有序统计量对于标量是明确定义的，但对于向量来说并非如此。对于标量，各种分布统计量（例如均值、中位数、众数）与适当的损失函数的最小化之间存在联系[5]。例如，经验均值最小化了均值与集合中的值之间的总平方误差。同样，经验中位数最小化了中位数与集合之间的总绝对误差，因此找到中位数等效于最小化总绝对误差。这种最小化在高维空间中具有很好的推广性。因此，我们定义一个成本函数，该函数是对于每个类别 c 中的嵌入向量 h ( c ) i ，i ∈ { 1 , 2 , ..., K } ，在集合中到嵌入向量的距离之和，并找到中位数向量 p ( c )0最小化这个成本。为了简洁起见，在接下来的推导中，我们省略了类别索引 c。为了使损失在所有点上可微分，我们使用了损失的平滑版本，通常称为伪-Huber 损失：0其中 K 是集合中的向量数，|| ∙ || 2 是 L 20矢量范数，ϵ是一个小常数。这个最小化问题没有闭式解，所以我们使用牛顿法进行迭代求解：0我们使用分子布局的矩阵微积分找到梯度�L ( p)和Hessian矩阵H ( p )，如下所示：0作为近似，我们可以忽略第二个非对角线项。p(t + 1) = p(t) −�Ki=1p(t)−hi√||p(t)−hi||22+ϵ2Ki=11√||p(t)−hi||22+ϵ2.(7)a(c)i= −1K − 1�i̸=j||h(c)i− h(c)j ||22.(8)a(c)i= −1K − 1�i̸=j|h(c)i− h(c)j |.(9)a(c)i=1K − 1�i̸=jh(c)i· h(c)j||h(c)i || ||h(c)j ||.(10)90920Hessian中的项，此时迭代变为：0请注意，使用小的常数ϵ的伪Huber损失的选择可以避免除以零，即使中位数估计恰好落在支持集中的一个向量上。04.2. 相似性加权原型0ProtoNet风格的均值聚合均匀加权类别支持集的所有样本。这种方案的明显扩展是非均匀加权，它抑制异常值并放大干净样本。当然，如果我们知道哪些样本被错误标记，我们可以将它们从支持集中删除，但这些信息通常是不可用的。相反，我们可以尝试根据支持集在特征空间中的排列方式来识别错误标记的样本。具体而言，我们假设训练良好的特征提取器F将正确标记的样本嵌入到彼此附近[21]，因此在引入的度量空间中平均而言比任何错误标记的样本更接近。然而，这个直觉对许多鲁棒估计器都是典型的，包括例如随机样本一致性（RANSAC）[17]。基于这个假设，我们提供以下相似性度量。平方欧氏距离。这个距离是ProtoNets最小化的距离，因此在尝试识别错误标记样本时是一个自然的选择。我们计算相似性分数如下：0较小的距离意味着更接近其他支持样本，因此我们对最终得分取平均距离的相反数。绝对距离。在少数特征维度中，L2范数可能会严重惩罚较大的距离：即使在所有其他维度中它们具有相似的值，只有少数维度的较大差异也可能导致特征之间的较大距离。因此，我们还考虑L 1 范数：0与欧几里得距离一样，我们使用一个因子-1，以便较低的距离产生较高的分数。余弦相似度。虽然不是一个合适的距离度量，但余弦角度是少样本文献中特征相似性的常见度量[11]。0由于输入已经归一化，余弦相似度对嵌入的幅度不太敏感。使用加权相似性聚合特征。一旦我们得到每个特征与同一支持集中其他特征的平均距离，使用上述其中一种得分，我们通过使用这些得分对支持样本进行加权，然后用softmax对结果进行归一化，得到一个聚合的原型。0w(c) i = e0j exp(a(c) j / T), (11)0p(c) = �0i w(c) i F(x(c) i), (12)0其中T是控制softmax扩散性的温度项。当T→0时，该方法选择与其他样本之间距离最小的支持样本作为类原型，而当T→∞时，这将减少到平均值（即ProtoNets[40]）。我们选择对支持样本进行软加权，而不是进行top-k选择或硬阈值，因为后两者要么需要知道噪声样本的数量，要么需要进行阈值调整，这可能会根据类别或支持样本分布而变化。05.学习原型聚合器在第4节讨论的聚合方法，无论是加权还是其他方式，都是硬编码的：它们不会根据支持集特征分布的差异进行调整。我们假设一个学习的机制，可以比较支持集嵌入的相似性并对其进行调整，可能会优于这些静态方法。关键是，在典型的FSL设置中，支持样本和类的数量和顺序是任意的。因此，任何学习的替代方法都必须在保持对两者都是置换不变的情况下处理任意数量的shots或ways。05.1.用于噪声FSL的Transformer模型鉴于这些要求，我们提出了一种用于噪声少样本学习（TraNFS）的Transformer模型（图3）。Transformer被设计用于处理任意长度的序列，同时提供置换不变性。值得注意的是，我们注意到Transformer的自注意机制[47]可以用于计算支持集样本之间的相似性，并在将它们聚合成原型时自然地对它们进行加权。为此，我们将支持集样本的卷积特征连接起来形成输入序列h =[h(1)1, h(1)2, ..., h(N)K−1,h(N)K]，然后对Transformer进行以下调整，使其能够处理典型的FSL支持集。类别标记。在BERT[13]的部分启发下，我们使用一组分类标记CLS(c)，c∈{1,..., N}来表示每个类的原型位置，并将[CLS(1), ...,CLS(N)]连接到支持集嵌入中。�90930图3. 我们提出的TraNFS架构的可视化，用于3-shot 3-way支持集示例输入/输出序列。0序列h的位置输出为CLS(c)的位置。0为了成为类c的原型p(c)的原型，我们激励变压器学习将所有支持集样本的信息聚合到该位置。实例化CLS(c)有多种选择，包括作为随机常数、类c的支持集嵌入的平均值（即平均原型）或可学习的嵌入。我们在补充材料中报告了这些变化的比较。0位置编码。在FSL中，shot和class的顺序通常是任意的，因此不应进行编码。然而，我们需要某种方式来通知变压器每个支持样本的类别身份。Vaswani等人[47]利用添加到输入序列的正弦位置编码来指示单词顺序。我们重新利用这个机制，并将其用于对输入序列中每个位置与类别c相关联的位置进行编码。具体而言，我们创建与特殊标记POS(c)，c∈{1, ...,N}相对应的ND维嵌入，并将每个POS(c)添加到所有支持样本嵌入h(c)i和类别标记CLS(c)中，如图3所示。通过将位置编码添加到输入序列中，变压器可以学习关注位置编码，将支持集嵌入和每个类的原型位置联系在一起。05.2. 优化我们元训练TraNFS以最小化标准的ProtoNet损失.logits的计算方式是模型在CLS令牌位置预测的原型与嵌入的查询样本F(xq)之间的负距离d:0L xent = -0c=1 yq ∙0exp(-d p(c), F(xq))0c' exp(-d p(c'), F(xq))0(13)其中∙是点积，yq是查询xq的独热真实标签.在元训练TraNFS时，我们发现将模型暴露于带有噪声样本的支持集对于模型的训练至关重要（第6.4节）.我们通过在支持集中人为引入标签噪声，使用标签o(c)i∈{0,1}来跟踪噪声样本的位置来实现这一点.这一步骤确保了变压器学习到了噪声拒绝机制.如果没有噪声样本，变压器就没有动力去学习除了通过平均支持样本重新创建ProtoNet之外的任何内容.0样本，变压器没有动力去学习除了通过平均支持样本重新创建ProtoNet之外的任何内容.0干净原型损失.除了优化模型预测原型与元训练查询样本的位置关系之外，我们还鼓励每个类别的预测原型接近于从支持集中正确标记的样本聚合得到的干净原型ˆp(c):0ˆp(c) =0K - �0i o(c)i0i 1 [o(c)i = 0] F(x(c)i), (14)0L clean =10c || p(c) - ˆp(c) || 2 2. (15)0我们选择均方误差，但其他替代方法如负余弦相似度也是可行的.0二进制异常分类损失.上述的ProtoNet和干净原型损失都隐式地鼓励对噪声样本进行识别.我们发现明确地训练模型将支持集样本分类为错误标记或非错误标记也是有帮助的.我们将二进制分类器实例化为应用于变压器在与支持集样本对应的位置的输出的全连接层B.我们在所有这些位置上共享B的权重，并使用以下损失项:0L bin = -10i,c o(c)i log σ(B(h'(c)i)), (16)0+ (1 - o(c)i) log � 1 - σ(B(h'(c)i)) � ,0其中σ是sigmoid函数，h'(c)i是与h(c)i对应的变压器输出.我们的最终优化目标结合了上述三个损失:0L = L xent + λ c L clean + λ b L bin, (17)0其中λc和λb是干净原型和二进制异常分类损失的权重项.90940表1. 对称标签交换噪声下的小样本学习. 5路5样本准确率 ± 95% CI 在MiniImageNet[48]和TieredImageNet[38]上.我们的TraNSF在0%噪声下与现有方法相当，在噪声水平增加时，优势逐渐增大. 最佳观看效果为彩色.0模型 \ 噪声比例 0% 20% 40% 60%0Oracle 68.18 ± 0.16 71.42 ± 0.18 66.08 ± 0.17 69.19 ± 0.19 62.60 ± 0.17 66.14 ± 0.20 56.89 ± 0.18 60.39 ± 0.210基准线0最近的 k = 1 55.91 ± 0.17 58.81 ± 0.20 47.27 ± 0.18 49.48 ± 0.19 38.68 ± 0.18 40.25 ± 0.19 29.20 ± 0.16 29.84 ± 0.17 最近的 k = 3 55.29 ± 0.18 58.44 ±0.20 48.43 ± 0.17 51.11 ± 0.19 39.14 ± 0.17 41.09 ± 0.18 29.66 ± 0.15 30.69 ± 0.15 最近的 k = 5 56.15 ± 0.18 59.22 ± 0.20 50.92 ± 0.17 53.75 ± 0.1942.12 ± 0.17 44.14 ± 0.19 32.62 ± 0.16 33.99 ± 0.17 线性分类器 66.65 ± 0.16 69.89 ± 0.18 58.41 ± 0.17 61.96 ± 0.19 47.23 ± 0.17 50.08 ± 0.19 34.04 ±0.16 35.75 ± 0.17 匹配网络[48] 62.16 ± 0.17 64.92 ± 0.19 56.21 ± 0.18 59.20 ± 0.20 46.18 ± 0.18 49.12 ± 0.20 34.66 ± 0.18 36.80 ± 0.19 MAML[16] 63.25± 0.18 63.96 ± 0.19 53.28 ± 0.18 54.62 ± 0.19 42.58 ± 0.18 43.71 ± 0.19 31.01 ± 0.17 31.74 ± 0.17 Vanilla ProtoNet[40] 68.27 ± 0.16 71.36 ± 0.18 62.43± 0.17 66.15 ± 0.19 51.41 ± 0.19 55.05 ± 0.21 38.33 ± 0.19 40.61 ± 0.21 Baseline++[11] 67.91 ± 0.16 71.24 ± 0.18 61.87 ± 0.17 65.58 ± 0.19 51.87 ±0.18 55.00 ± 0.20 38.36 ± 0.19 40.19 ± 0.20 RNNP[29] 68.38 ± 0.16 71.36 ± 0.18 62.43 ± 0.17 65.95 ± 0.19 51.62 ± 0.19 54.86 ± 0.21 38.45 ± 0.19 40.63± 0.210中位数 68.45 ± 0.16 71.28 ± 0.18 63.19 ± 0.17 66.65 ± 0.20 51.86 ± 0.19 55.09 ± 0.21 39.32 ± 0.19 41.94 ± 0.21 绝对值 68.24 ± 0.16 71.27 ± 0.1863.46 ± 0.17 66.87 ± 0.20 52.06 ± 0.20 55.26 ± 0.22 39.78 ± 0.20 42.54 ± 0.22 欧氏距离 68.32 ± 0.16 71.48 ± 0.18 63.02 ± 0.17 66.69 ± 0.19 52.09± 0.19 55.62 ± 0.21 39.33 ± 0.20 41.75 ± 0.21 余弦相似性 68.20 ± 0.16 70.59 ± 0.18 63.46 ± 0.17 66.62 ± 0.20 52.42 ± 0.20 55.78 ± 0.22 39.90 ±0.20 42.56 ± 0.220TraNFS-2 68.29 ± 0.17 70.92 ± 0.19 64.74 ± 0.18 67.33 ± 0.21 56.14 ± 0.21 58.76 ± 0.23 42.24 ± 0.23 44.17 ± 0.25 TraNFS-3 68.53 ± 0.17 71.17 ±0.19 65.08 ± 0.18 67.67 ± 0.20 56.65 ± 0.21 58.88 ± 0.23 42.60 ± 0.24 44.21 ± 0.2506. 实验 6.1. 实验设置0数据集。我们在两个常见的少样本学习数据集上进行实验：MiniImageNet [48]和TieriImageNet[38]。两者都包含84×84像素的图像。MiniImageNet包含64个训练类别、16个验证类别和20个测试类别，总共有60K张图像。TieriImageNet包含351个训练类别、97个验证类别和160个测试类别，总共有约0.78M张图像。标签噪声类型。我们探索了三种形式的标签噪声：0•对称标签交换噪声[46]从该任务的其他N-1个类中随机均匀地抽取错误标记的样本，但有一个限制，即噪声类别不能超过原始干净类别的数量。0•配对标签交换噪声[19]更具挑战性：我们总是从同一类中抽取错误标记的样本，通过为每个类分配一个噪声类对应物来模拟真实世界中将某些类别与其他类别混淆的倾向。我们在每个任务中随机生成这些分配，以防止模型在任务之间学习这些配对关系。0•异常值噪声是从N路任务之外的类中采样的。我们使用来自MiniImageNet和TieriImageNet之外的350个ImageNet类的每个类别的600个图像。我们将这些类别分为两半，用于元训练和元测试，以确保元测试中的异常值代表以前未见过的类别。0支持集中的噪声量以总样本数的百分比表示。我们只考虑可以合理识别干净类别的设置。因此，例如，我们只考虑50%以下的配对标签交换噪声，因为在50%的噪声及以上情况下，干净类别是模糊的或是少数类别。我们还排除了与相应的对称标签交换设置相同的配对标签交换设置（例如5路5样本的20%）。0表2. 带有配对标签交换噪声的少样本学习。5路5样本准确率 ±95% CI在MiniImageNet [48]和TieriImageNet [38]上。0模型 \ 噪声比例40%0理想情况 62.60 ± 0.17 66.14 ± 0.200基准0最近邻 k = 1 37.97 ± 0.17 39.40 ± 0.18 最近邻 k = 3 37.84± 0.16 39.70 ± 0.18 最近邻 k = 5 40.39 ± 0.17 42.17 ±0.18 线性分类器 44.49 ± 0.17 46.70 ± 0.18 匹配网络[48]43.53 ± 0.17 46.13 ± 0.19 MAML[16] 40.67 ± 0.18 41.66± 0.18 Vanilla ProtoNet[40] 47.77 ± 0.19 50.85 ± 0.21Baseline++[11] 47.82 ± 0.18 50.69 ± 0.20 RNNP[29]47.88 ± 0.19 50.91 ± 0.200中位数 48.81 ± 0.19 51.91 ± 0.21 绝对值 49.38 ±0.20 52.40 ± 0.22 欧氏距离 48.67 ± 0.19 51.90 ±0.21 余弦相似性 49.40 ± 0.19 52.72 ± 0.220TraNFS-2 50.63 ± 0.22 54.82 ± 0.24 TraNFS-353.96 ± 0.23 55.12 ± 0.240模型。我们的模型是基于PyTorch[35]实现的，使用learn2learn[3]作为起点。对于使用平方欧氏距离和绝对距离的相似性加权原型，我们设置T = 25，对于余弦相似性，我们设置T =0.2。对于TraNFS，我们使用2或3层具有八个头的transformerT，可学习的位置嵌入POS(c)，以及随机的恒定类令牌CLS(c)。我们在transformer之前和之后应用一个正交初始化的下投影和上投影权重矩阵，将transformer的维度降低到128。我们发现这些正交投影可以稳定训练[36]，同时也大大减少了transformer参数的数量。最后，我们将Eq.(17)的超参数设置为λb = 0.5和λc =5。详见补充材料中的超参数调整。请注意，虽然transformer必须进行元训练并用于在元测试期间生成稳健的原型，但在对单个查询样本进行推理时不使用它。因此，在推理期间的参数数量和计算成本与ProtoNet [40]等方法相似。0训练和测试。为了独立于方法的影响90950表3. 有异常噪声的小样本学习。5路5样本准确率 ± 95% CI在MiniImageNet [48]和TireedImageNet[38]上。我们的TraNSF在0%或低噪声时与现有方法相当，在噪声水平增加时，优势逐渐增大。最佳效果请参考彩色图。0模型 \ 噪声比例 0% 20% 40% 60%0Oracle 68.18 ± 0.16 71.42 ± 0.18 66.08 ± 0.17 69.19 ± 0.19 62.60 ± 0.17 66.14 ± 0.20 56.89 ± 0.18 60.39 ± 0.210基线0最近邻 k = 1 55.87 ± 0.18 58.89 ± 0.20 50.90 ± 0.18 54.57 ± 0.20 45.28 ± 0.18 49.45 ± 0.20 38.75 ± 0.18 43.20 ± 0.19 最近邻 k = 3 55.28 ± 0.18 58.38 ±0.20 50.53 ± 0.17 53.98 ± 0.20 44.40 ± 0.17 48.06 ± 0.19 37.03 ± 0.16 40.11 ± 0.18 最近邻 k = 5 56.34 ± 0.17 59.25 ± 0.19 52.32 ± 0.17 55.30 ± 0.1946.49 ± 0.17 49.34 ± 0.19 38.44 ± 0.16 40.56 ± 0.17 线性分类器 66.70 ± 0.16 69.60 ± 0.18 61.13 ± 0.17 64.58 ± 0.19 53.86 ± 0.18 57.57 ± 0.20 44.05 ±0.18 47.90 ± 0.20 匹配网络[48] 62.05 ± 0.17 64.99 ± 0.19 57.69 ± 0.18 60.74 ± 0.20 51.32 ± 0.19 54.28 ± 0.21 42.39 ± 0.19 44.93 ± 0.20 MAML [16] 63.21± 0.18 63.90 ± 0.19 57.35 ± 0.19 58.14 ± 0.19 50.00 ± 0.19 51.11 ± 0.20 40.90 ± 0.17 42.01 ± 0.20 Vanilla ProtoNet [40] 68.18 ± 0.16 71.42 ± 0.18 63.92± 0.17 67.58 ± 0.19 57.07 ± 0.18 60.97 ± 0.20 46.99 ± 0.20 50.29 ± 0.21 Baseline++ [11] 67.85 ± 0.16 71.29 ± 0.18 63.49 ± 0.17 67.07 ± 0.19 56.84 ±0.18 60.64 ± 0.20 46.96 ± 0.19 50.07 ± 0.21 RNNP [29] 68.17 ± 0.16 71.28 ± 0.18 63.80 ± 0.17 67.29 ± 0.19 56.97 ± 0.18 60.83 ± 0.20 46.92 ± 0.20 50.09± 0.210我们的0中位数 68.37 ± 0.16 71.28 ± 0.18 64.46 ± 0.17 67.79 ± 0.19 57.85 ± 0.18 61.63 ± 0.21 47.19 ± 0.20 50.63 ± 0.21 绝对值 68.13 ± 0.16 71.17 ± 0.1864.69 ± 0.17 68.00 ± 0.19 58.30 ± 0.18 61.98 ± 0.21 47.39 ± 0.20 50.59 ± 0.22 欧氏距离 68.51 ± 0.16 71.28 ± 0.18 64.57 ± 0.17 67.89 ± 0.19 58.01± 0.18 61.61 ± 0.20 47.25 ± 0.20 50.49 ± 0.21 余弦相似度 68.20 ± 0.16 70.79 ± 0.18 64.78 ± 0.17 67.94 ± 0.19 58.36 ± 0.18 62.37 ± 0.21 47.34 ±0.20 51.12 ± 0.220TraNFS-2 67.76 ± 0.17 70.83 ± 0.19 64.47 ± 0.19 67.52 ± 0.21 58.29 ± 0.20 61.76 ± 0.22 47.37 ± 0.23 51.40 ± 0.23 TraNFS-3 68.11 ± 0.17 71.13 ±0.19 64.96 ± 0.18 67.93 ± 0.20 59.03 ± 0.20 62.39 ± 0.22 47.69 ± 0.22 51.82 ± 0.230从学习到的特征中，我们对除了MAML[16]之外的所有模型都使用相同的冻结的4层卷积主干[48]，这些模型都是用ProtoNet目标进行训练的。我们选择了这个简单的主干来强调方法，而不是特征提取器。主干使用AdamW[27]进行训练，权重衰减为0.01，初始学习率为1×10^-3，每10K个episode衰减学习率×0.7进行100K个episode的MiniImageNet训练，每25K个episode衰减学习率进行250K个episode的TireedImageNet训练。我们使用元验证来选择准确性模型。我们的TraNFS同样进行了优化，初始学习率为5×10^-4，每25K个episode进行衰减，进行200K个episode的训练。对于所有模型，我们使用随机水平翻转、调整大小的裁剪和颜色扭曲作为数据增强。最后，每个元训练和元测试episode都有15个查询。我们报告了10K个元测试episode的平均准确率和95%置信区间。所有实验都在一块Nvidia V100 GPU上运行。06.2. 有噪声小样本结果我们将所有提出的有噪声小样本学习方法（Median、Absolute、Euclidean、Cosine和TraNFS）与几个基线方法进行比较（详见补充材料中的基线方法细节）。我们报告了在MiniImageNet和TireedImageNet上使用对称噪声（表1）、配对噪声（表2）和异常噪声（表3）的5路5样本1的结果。我们还报告了一个Oracle：ProtoNet[40]，它知道哪些样本被错误标记，并通过从每个支持集中删除它们来忽略它们，从而实现完美的噪声拒绝（图2中的蓝线）。毫不奇怪，噪声标签对所有方法都有负面影响。我们提出的中位数和相似度加权方法对ProtoNet的均值的影响较小，比基线方法更好，对于所有三种噪声类型都是如此。此外，我们基于Transformer的TraNFS明显优于其基线方法。例如，考虑具有挑战性

下载后可阅读完整内容，剩余1页未读，立即下载