数据稀缺情况下的集合函数学习

69 浏览量更新于2023-10-24 收藏 13MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

88080通过集合到集合函数进行嵌入适应的少样本学习0Han-Jia Ye �0南京大学0yehj@lamda.nju.edu.cn0HexiangHu USC0hexiangh@usc.edu0南京大学詹德川0zhandc@lamda.nju.edu.cn0Fei Sha †0USC & Google0fsha@google.com0摘要0有限数据学习是视觉识别的一个关键挑战。许多少样本学习方法通过从已知类别学习实例嵌入函数，并将该函数应用于具有有限标签的未知类别的实例来解决这个挑战。这种类型的迁移学习是任务不可知的：嵌入函数在未知类别上不是最优判别性的，其中在它们之间进行区分导致目标任务。在本文中，我们提出了一种新颖的方法，通过一种集合到集合的函数来调整实例嵌入，从而产生任务特定且具有判别性的嵌入。我们在实验中研究了各种此类集合到集合函数的实例化，并观察到Transformer是最有效的，因为它自然地满足我们所需模型的关键属性。我们将此模型称为FEAT（基于Transformer的少样本嵌入调整）并在标准少样本分类基准以及四个扩展的少样本学习设置（即跨领域、传导、广义少样本学习和低样本学习）上进行验证。它相对于基线模型和先前方法都取得了一致的改进，并在两个基准测试中建立了新的最先进结果。01. 引言0少样本视觉识别是解决利用有限注释学习新的视觉概念的挑战的一个有前途的方向。具体而言，它区分了两组视觉概念：已知和未知的。目标任务是构建视觉分类器，以识别来自未知类别的类别，其中每个类别只有很少数量的示例（“少样本”）。其主要思想是发现在已知类别中可转移的视观知识，这些类别具有充足的标记实例，并利用它来构建所需的分类器。例如，最先进的少样本学习方法0� 作者在USC担任访问学者时完成了大部分工作。† 从USC休假0通常在已知类别上学习一个具有区分性的实例嵌入模型，并将其应用于未知类别的视觉数据。在这个共同的嵌入空间中，非参数分类器（例如，最近邻）被用来避免从少量示例中学习复杂的识别模型。0这种方法存在一个重要的限制。假设存在一个共同的嵌入空间意味着在已知类别上发现的知识 - 区分性的视觉特征 -对于任何构建在任意一组未知类别上的分类任务都同样有效。具体而言，假设我们有两个不同的目标任务：区分“猫”和“狗”以及区分“猫”和“老虎”。直观地说，每个任务使用不同的一组区分性特征。因此，最理想的嵌入模型首先需要能够同时为这两个任务提取区分特征。这可能是一个具有挑战性的方面，因为当前的方法对这些“下游”目标任务是不可知的，并且可能意外地减弱了选择未来使用的特征。其次，即使提取了两组区分性特征，它们也不一定导致特定目标任务的最佳性能。对于区分“猫”和“老虎”最有用的特征可能与区分“猫”和“狗”的任务无关且带有噪声！0当前的少样本学习方法缺少的是一种适应策略，将从SEEN类中提取的视觉知识调整为目标任务中的UNSEEN类。换句话说，我们希望有单独的嵌入空间，其中每个嵌入空间都是定制的，使得视觉特征对于给定任务最具有区分性。为此，我们提出了一种基于模型的少样本嵌入适应方法，调整从SEEN类派生的实例嵌入模型。这种基于模型的嵌入适应需要一个集合到集合的函数：一个将少样本支持集中的所有实例作为输入，并输出适应的支持实例嵌入集合的函数，其中集合中的元素相互协同适应。然后，这些输出嵌入被组装为每个视觉类别的原型，并作为最近邻分类器。图1定性地说明了嵌入适应步骤的FEAT如何将支持嵌入从杂乱中分离出来，并推向它们自己的聚类，使其更好地适应其类别的测试数据。MalamuteAntSchool busGolden retrieverTheater curtainAdaptationLionSchool busHourglassVaseTrifleAdaptationTrifleScoreboardGolden retrieverDalmatianVaseAdaptationGolden retrieverNematodeLionDalmatianMalamuteAdaptation88090（a）准确率↑：40.33% → 55.33%（b）准确率↑：48.00% → 69.60%（c）准确率↑：43.60% → 63.33%（d）准确率↓：56.33% → 47.13%0图1：基于模型的嵌入适应过程的定性可视化（使用FEAT实现）在测试任务上（有关更多详细信息，请参见§5.2.2）。每个图显示了PCA投影的支持嵌入（类原型）在FEAT适应之前和之后的位置。下面的值是适应之前和之后的1-shot5-way分类准确性。有趣的是，FEAT的嵌入适应步骤将支持嵌入从杂乱中分离出来，并推向它们自己的聚类，使它们能够更好地适应其类别的测试数据。（最佳视图以颜色显示！）0嵌入适应过程的定性可视化（作为我们最佳模型的结果）。这些类原型在嵌入空间中向每个类别的样本聚类扩展，表明嵌入适应的有效性。在本文中，我们使用各种函数逼近器实现了集合到集合的转换，包括双向LSTM[12]（Bi-LSTM）、深度集合[49]、图卷积网络（GCN）[16]和Transformer [24,41]。我们的实验结果（参见§5.2.1）表明，Transformer是最具参数效率的选择，同时最好地实现了所需的集合到集合转换的关键属性，包括上下文化、置换不变性、插值和外推能力（见§4.1）。因此，我们选择使用Transformer实例化的集合到集合函数作为我们的最终模型，并将其称为FEAT（具有Transformer的少样本嵌入适应）。我们进一步对FEAT进行了全面的分析，并在许多扩展任务上进行了评估，包括少样本领域泛化、传导式少样本学习和广义少样本学习。我们的总体贡献有三个方面。•我们将少样本学习形式化为基于模型的嵌入适应，使实例嵌入具有任务特定性，通过使用集合到集合的转换。0•我们使用各种函数逼近器实例化这种集合到集合的转换，验证和分析它们的少样本学习能力、任务插值能力和外推能力等。我们的模型（FEAT）使用Transformer作为集合到集合函数。•我们在各种扩展的少样本学习任务上评估我们的FEAT模型，在这些任务中，与强基线方法相比，它取得了更好的性能。02.相关工作0专门为少样本学习设计的方法主要分为两类。第一类是控制如何构建目标任务的分类器。0一个富有成果的想法是元学习框架，其中分类器被优化，以期望未来来自新任务的数据的更新在该任务上表现良好[2, 3,9, 10, 21, 27, 31,35]，或者分类器本身直接由新任务数据进行元预测[30,47]。另一种方法的重点是学习可推广的实例嵌入[1, 4, 5,13, 17, 26, 37, 40,43]，并将这些嵌入用于简单的分类器，如最近邻规则。关键假设是嵌入捕捉到所有必要的数据判别表示，使得简单的分类器足够，从而避免在少量标记实例上过拟合的危险。早期的工作，如[17]，首次验证了嵌入在一次性学习中的重要性，而[43]则提出使用软最近邻目标来学习嵌入，遵循元学习例程。最近的进展利用了不同的目标函数来学习这样的嵌入模型，例如考虑类原型[38]、决策排序[40]和相似性比较[39]。最近，[36]利用图卷积网络[16]统一了嵌入学习。我们的工作遵循第二种思路。主要区别在于，我们不假设在SEEN类上学习的嵌入对于那些任务来说是必然具有区分性的。相反，我们提出使用集合到集合的函数为每个目标任务调整这些嵌入，使得转换后的嵌入与这些任务中所需的判别能力更好地对齐。我们通过实验证明，这种任务特定的嵌入比任务不可知的嵌入表现更好。MetaOptNet [20]和CTM[23]遵循相同的思路，通过明确优化目标任务或使用聚焦器和投影器使距离度量任务特定来学习任务特定的嵌入（或分类器）。03. 学习任务无关的 FSL 嵌入0在标准的少样本学习（FSL）[ 9 , 43 ] 的表述中，一个任务被表示为一个 M-shot N -way 的分类问题，其中Classification ScoresCNNCNNCNNCNNSoft Nearest NeighborClassification ScoresEmbedding AdaptationCNNCNNCNNCNNSoft Nearest NeighborTrain InstanceTest InstanceTask AgnosticEmbeddingTask Specific Embeddingf ∗ = arg minf(xStest,yStest)∈DStest88100(a) 实例嵌入0(b) 嵌入适应0集合到集合函数0图 2: 提出的 F ew-Shot E mbedding A daptation T ransformer( FEAT ) 的示意图。现有方法通常对所有任务使用相同的嵌入函数E 。我们提出使用集合到集合函数（如Transformer、BiLSTM、DeepSets 和GCN）将嵌入适应到每个目标少样本学习任务。0N 类别的分类问题，从视觉概念集合 U 中采样 M(训练/支持)每类样本。我们将训练集（文献中也称为支持集）表示为 D训练 = { x i , y i } NM i =1 ，其中实例 x i ∈ R D，独热编码标签向量 y i ∈ { 0 , 1 } N。在本文中，我们将“支持集”和“训练集”互换使用。在FSL 中， M 通常很小（例如 M = 1 或 M = 5）。目标是找到一个函数 f ，通过 f ( x 测试 ; D 训练 ) ∈{ 0 , 1 } N ，将测试实例 x 测试进行分类。给定少量的训练实例，构建复杂的分类器 f ( ∙ )是具有挑战性的。为此，学习算法还提供了额外的数据，包括大量带有标签的实例。这些额外的数据来自于视觉类别 S，不与 U重叠。我们将原始任务称为目标任务，该任务区分 N个未见过的类别 U 。为了避免混淆，我们将来自已见类别S 的数据称为 D S 。为了使用 D S 学习 f ( ∙ )，我们通过元学习的方式合成了许多 M -shot N -way FSL任务，通过采样数据。每个采样产生一个任务，通过 f ( ∙ )将测试集实例 x S 测试分类为 N个已见类别之一，其中测试实例集合 D S 测试由与 D S训练相同分布的带有标签的实例组成。形式上，函数 f ( ∙ ) 被学习以最小化这些采样任务的平均误差0ℓ ( f ( x S 测试 ; D S 训练 ) , yS 测试 )0(1) 其中损失函数 ℓ ( ∙ )衡量预测结果与真实标签之间的差异。为了简化，我们假设只合成一个带有测试集 D S 测试的任务。最优的 f �然后应用于原始目标任务。我们考虑基于学习嵌入的 FSL方法 [ 38 , 43 ]（见图 2 (a) ）。特别地，分类器 f ( ∙ )由两个元素组成。第一个是嵌入函数 φ x = E ( x ) ∈ Rd ，将实例 x 映射到表示空间。第二个元素是0算法 1 嵌入适应的训练策略0要求：已知类别集合 S01: 对于所有 iteration = 1,...,MaxIteration 执行02: 从 S 中采样 N -way M -shot ( D S 训练 , D S 测试 )03: 计算 φ x = E ( x ) ，对于 x ∈ X S 训练 ∪ X S测试 4: 对于所有 ( x S 测试 , y S 测试 ) ∈ D S 测试05: 使用等式 3 通过 T 计算 { ψ x ; � x ∈ X S 训练 }06: 使用等式 4 预测 ˆ y S 测试07: 使用等式 1 计算 ℓ (ˆ y S 测试 , y S 测试 )08: 结束循环09: 计算 � E , T �0( x S 测试 , y S 测试 ) ∈D S 测试 ℓ (ˆ y S010: 使用 SGD 更新 E 和 T 以及 � E , T011: 结束循环012: 返回嵌入函数 E 和集合函数 T 。0nent 在该空间中应用最近邻分类器：0ˆ y 测试 = f ( φ x 测试 ; { φ x , � ( x , y ) ∈ D 训练 } ) (2)0∝ exp � sim ( φ x test , φ x ) � ∙ y , � ( x , y ) ∈ D train0请注意，只有嵌入函数通过优化公式1中的损失来学习。出于下面将要明确的原因，我们将此嵌入函数称为任务不可知的。04. 为任务特定的FSL调整嵌入0接下来，我们描述了我们的少样本学习（FSL）方法。我们首先描述主要思想（§4.1，也在图2中说明），然后介绍集合到集合适应函数（§4.2）。最后是学习（§ 4.3）和实现细节（§ 4.4）。04.1. 适应任务特定的嵌入0我们的方法与传统方法的关键区别在于学习任务特定的嵌入。我们认为嵌入φ x不理想。特别是，嵌入不一定突出显示特定目标任务的最具区分性的表示。为此，我们引入了一个适应步骤，其中嵌入函数φx（更准确地说，其在实例上的值）被转换。这种转换是一种上下文化的集合到集合函数，用于启用每个项目的强协同适应。实例函数无法具有这种协同适应性质。此外，集合到集合函数接收实例作为袋子或无序集合，要求函数输出经过改进的实例嵌入的集合，同时具有排列不变性。具体来说，0{ ψ x ; � x ∈ X train } = T ( { φ x ; � x ∈ X train } ) (3)0= T ( π { φ x ; � x ∈ X train } ))Graph Convolutional Networks (GCN) [16, 36] propa-gate the relationship between instances in the set. We ﬁrstconstruct the degree matrix A to represent the similarity be-tween instances in a set. If two instances come from thesame class, then we set the corresponding element in A to1, otherwise to 0. Based on A, we build the “normalized”adjacency matrix S for a given set with added self-loopsΦt+1 = ReLU(SΦtW) , t = 0, 1, . . . , T − 1(6)qkdand V:,k is the k-th column of V . In the standard FSL setup,we have Q = K = V = Xtrain.88110其中X train是目标任务训练集Dtrain中的所有实例的集合。π(∙)是一个集合上的排列操作符。因此，如果我们对输入嵌入集合应用排列，适应嵌入的集合不会改变。通过适应嵌入ψ x ，可以通过计算相对于Dtrain 的最近邻来对测试实例x test 进行分类：0ˆ y test = f ( φ x test ; { ψ x , � ( x , y ) ∈ D train } ) (4)0我们的方法通常适用于不同类型的任务不可知嵌入函数E和相似度度量sim(∙，∙)，例如，（归一化的）余弦相似度[43]或负距离[38]。嵌入函数E和集合转换函数T都是通过从D S中抽样的合成FSL任务进行优化的，如算法1所示。它与传统FSL的主要区别在于第4到第8行中的嵌入转换。04.2. 通过集合到集合函数进行嵌入适应0接下来，我们将解释各种选择作为集合到集合嵌入适应函数的实例化。双向LSTM（BILSTM）[12，43]是实例化集合到集合转换的常见选择之一，其中每个BILSTM单元的输入和隐藏层输出之间的加法导致适应的嵌入。值得注意的是，BILSTM的输出应该依赖于输入集合的顺序。请注意，使用BIL-STM作为嵌入适应模型与完全条件嵌入[43]类似但不同，后者同时上下文化训练和测试实例嵌入，从而产生一种转导设置。DeepSets[49]本质上是一种排列不变的转换函数。值得注意的是，DEEPSETS将集合中的实例聚合成一个整体的集合向量。我们考虑两个组件来实现这种DeepSets转换，一个以实例为中心的集合向量与一个集合上下文向量。对于x ∈ X train ，我们通过以下方式定义其补集集合x �。然后我们通过以下方式实现DEEPSETS：0ψ x = φ x + g ([ φ0x i ′ ∈ x � h ( φ x i ′ )]) (5)0在公式5中，g和h是具有ReLU激活的两层多层感知器（MLP），它们将嵌入映射到另一个空间并增加了嵌入的表示能力。对于每个实例，其补充集中的嵌入首先被组合成一个集合向量作为上下文，然后将该向量与输入嵌入连接以获得适应嵌入的残差部分。这个条件化的嵌入考虑了集合中的其他实例，并保持了“集合（置换不变）”的属性。在实践中，我们发现使用公式5中的最大运算符比[ 49]中建议的求和运算符效果更好。02 . I 是单位矩阵，D是对角矩阵，其元素等于A +I的相应行中元素的和。令Φ 0 = { φ x ; � x ∈ X train }，则实例之间的关系可以基于S进行传播，即。0W是特征转换的投影矩阵。在GCN中，集合中的嵌入根据公式6进行多次转换，最终的Φ T 产生了{ ψ x }。0Transformer. [ 41 ] 我们使用Transformer架构[ 41]来实现T。具体来说，我们使用自注意力机制[ 24 , 41]来将每个实例嵌入与其上下文实例相关联。请注意，它自然满足T的期望属性，因为它输出了经过改进的实例嵌入并且是置换不变的。我们将其称为具有Transformer的Few-Shot嵌入适应（FEAT）。Transformer是以(query Q，keyK和valueV)形式存储三元组的。为了计算接近度并返回值，这些点首先被线性映射到某个空间K = W � K � φ x k ; � x k ∈ K � ∈ Rd ×|K|，对于Q和V也是如此，分别使用W Q和WV。Transformer计算查询点的正确值是什么-查询x q ∈Q首先与一系列键K匹配，其中每个键都有一个值V。然后，最终值作为所有值的加权和返回，权重由键与查询点的接近度决定，即ψ x q = φ x q + �04.3. 集合到集合函数的对比学习0为了促进嵌入适应的学习，除了一般目标外，我们还应用了对比目标。它旨在确保适应后的实例嵌入与相同类别的邻居相似，并与不同类别的实例不相似。具体来说，嵌入适应函数T应用于D S train ∪ D S test中每个N类的实例，从而产生了转换后的嵌入ψ ′ x和类中心{c n } N n =1。L(ˆytest, ytest) = ℓ(ˆytest, ytest)(7)+λ · ℓ softmax sim(ψ′xtest, cn) , ytest88120然后我们应用对比目标，确保训练实例比其他中心更接近其自己的类中心。总目标函数（与公式1一起）如下所示：0这种对比学习使得集合转换能够提取出相同类别实例的共同特征，从而保持类别间的相似性。04.4. 实施细节0我们考虑三种不同类型的卷积网络作为实例嵌入函数E的主干：1）4层卷积网络（ConvNet）[ 38 , 40 , 43 ]，2）[20]中使用的12层残差网络（ResNet），以及3）宽残差网络（WideResNet）[ 35 , 48]。我们对主干进行额外的预训练阶段，以优化我们重新实现的方法。为了获得更精确的嵌入，我们在嵌入适应之前对训练集中的同类实例进行平均。我们使用Adam [ 15]和SGD分别优化ConvNet和ResNet变体。此外，我们对四个集合到集合函数（BiLSTM [ 12 ]，DeepSets [ 49]，图卷积网络（GCN）[ 16 ]和Transformer（FEAT）[ 41]）遵循最标准的实现。有关每个集合到集合函数的完整细节和消融研究，请参阅补充材料（SM）。我们的实现可在https://github.com/Sha-Lab/FEAT上找到。05. 实验0在本节中，我们首先在标准FSL中评估各种嵌入适应模型（§5.2）。结果表明，FEAT（使用Transformer）是不同实例中最有效的方法。接下来，我们在§5.2.2中进行消融研究，以详细分析FEAT。最后，我们对许多扩展的少样本学习任务进行FEAT评估，以研究其普适性（§5.3）。这项研究包括少样本领域泛化、传导式少样本学习、广义少样本学习和大规模低样本学习（请参考SM）。05.1. 实验设置0数据集。Mini ImageNet[43]和TieredImageNet[33]数据集是ImageNet[34]的子集。MiniImageNet总共包含100个类别，每个类别有600个示例。我们遵循[31]提供的设置，使用64个类别作为SEEN类别，16个和20个类别作为两组UNSEEN类别用于模型验证和评估。Tiered ImageNet是一个大规模数据集，有0更多类别，其中包括351个、97个和160个类别用于模型训练、验证和评估。除此之外，我们还调查了Of�ceHome[42]数据集，以验证FEAT在领域间的泛化能力。Of�ceHome有四个领域，我们选择了其中两个（“Clipart”和“RealWorld”），其中包含8722张图片。在随机分割所有类别后，25个类别用于训练模型，剩下的15个和25个类别用作两个未见过的类别进行评估。更多细节请参考SM。0评估协议。以前的方法[9, 38,40]通常遵循[43]的原始设置，在600个采样的目标任务（每个类别15个测试实例）上评估模型。在后来的研究中[35]，有人提出这样的评估过程可能会引入较高的方差。因此，我们遵循新的、更可靠的评估设置，在10000个采样的任务上评估基线模型和我们的方法。我们报告平均准确率（以%表示）以及95%的置信区间。0基线和嵌入适应方法。我们重新实现了原型网络（ProtoNet）[38]作为任务无关的嵌入基线模型。当骨干架构较深时，即残差网络[11]时，这被认为是一种非常强大的方法[7]。如[28]所建议，我们仔细调整标量温度，以便在我们的重新实现中缩放两种方法的逻辑。如前所述，我们使用四种不同的函数逼近器实现了嵌入适应模型，并将它们表示为BILSTM，DEEPSETS，GCN和FEAT（即Transformer）。每个模型的具体细节包含在SM中。0骨干网络预训练。我们采用了[30,35]中建议的额外预训练策略，而不是从头开始优化。骨干网络附加了一个softmax层，用交叉熵损失训练以对所有SEEN类别进行分类（例如，在MiniImageNet中有64个类别）。通过对模型验证集中从采样的1-shot任务的倒数第二层嵌入进行分类性能评估，选择最佳的预训练模型，然后使用其权重来初始化少样本学习中的嵌入函数E。05.2. 标准少样本图像分类0我们将我们提出的FEAT方法与实例嵌入基线以及先前的方法在标准的Mini ImageNet[43]和TieredImageNet[33]基准上进行比较，然后对消融模型进行详细分析。我们在SM中还包括了与CUB[44]数据集的其他结果，该数据集具有类似的观察结果。05.2.1. 主要结果0与先前的最新技术的比较。表1和表2显示了我们的方法和其他方法在MatchNet [43]43.40-51.09-MAML [9]48.70-63.11-ProtoNet [38]49.42-68.20-RelationNet [39]51.38-67.07-PFA [30]54.5359.6067.8773.74TADAM [28]-58.50-76.70MetaOptNet [20]-62.64-78.63CTM [23]-64.12-80.51SimpleShot [45]49.6962.8566.9280.02BILSTM52.1363.9069.1580.62DEEPSETS54.4164.1470.9680.93GCN53.2564.5070.5981.65FEAT55.1566.7871.6182.05ProtoNet [38]53.31 ± 0.8972.69 ± 0.74RelationNet [39]54.48 ± 0.9371.32 ± 0.78MetaOptNet [20]65.99 ± 0.7281.56 ± 0.63CTM [23]68.41 ± 0.3984.28 ± 1.73SimpleShot [45]69.09 ± 0.2284.58 ± 0.16Instance embeddingProtoNet68.23 ± 0.2384.03 ± 0.16BILSTM68.14 ± 0.2384.23 ± 0.16DEEPSETS68.59 ± 0.2484.36 ± 0.16GCN68.20 ± 0.2384.64 ± 0.16FEAT70.80 ± 0.2384.79 ± 0.165101520Number of categories per task010203040506070Mean accuracy (in %)52.536.829.324.655.038.630.625.853.237.129.524.955.139.131.326.4MethodsRandomBILSTMDeepSetsGCNFEAT5101520Number of categories per task01020304050607052.135.527.522.954.436.927.320.654.137.930.125.355.139.131.126.2MethodsRandomBILSTMDeepSetsGCNFEAT(a) Way Interpolation(b) Way ExtrapolationBILSTMDEEPSETSGCNFEATConvNet25K82K33K16KResNet2.5M8.2M3.3M1.6M88130表1：Mini ImageNet上的少样本分类准确率。�CTM [23]和SimpleShot[45]使用ResNet-18。（完整的带置信区间和WRN结果的表格请参见SM。）0设置 → 1-Shot 5-Way 5-Shot 5-Way 骨干网络 →ConvNet ResNet ConvNet ResNet0实例嵌入 ProtoNet 52.61 62.39 71.33 80.530嵌入适应0Mini ImageNet和TieredImageNet。首先，我们观察到最佳的嵌入适应方法（FEAT）在两个数据集上都优于实例嵌入基准，表明学习任务特定的嵌入空间的有效性。同时，FEAT模型在MiniImageNet数据集上表现明显优于当前最先进的方法。在TieredImageNet上，我们观察到ProtoNet基准已经优于一些基于12层ResNet骨干的先前最先进的方法。这可能是因为在Tiered ImageNet上的预训练阶段的有效性，因为它比MiniImageNet更大，并且完全收敛的模型本身可以非常有效。基于此，所有的嵌入适应方法在几乎所有情况下都进一步改进了ProtoNet，其中FEAT在所有方法中表现最好。请注意，这里我们的预训练策略与PFA[30]中使用的策略最相似，同时我们还进一步微调了骨干网络。在微调预训练权重时，对数的温度缩放对性能有很大影响。此外，我们列出了一些最近使用不同骨干架构（如ResNet-18）的方法（SimpleShot [45]和CTM[23]）作为参考。0嵌入适应模型的比较。在四种嵌入适应方法中，BILSTM在大多数情况下表现最差，有时甚至比ProtoNet还差。这部分是因为BILSTM无法轻松实现所需的置换不变性属性（也在[49]中显示），这会混淆嵌入适应的学习过程。其次，我们发现DEEPSETS和GCN具有0表2：TieredImageNet上使用ResNet骨干的少样本分类准确率和95%置信区间。0设置 → 1-Shot 5-Way 5-Shot 5-Way0嵌入适应0图3：从“way”角度插值和外推少样本任务。首先，我们在1-shot20-way（a）或5-way（b）分类任务上训练各种嵌入适应模型，并在具有不同类别数量（N = {5, 10, 15,20}）的未见任务上评估模型。结果显示，FEAT在方式插值和外推能力方面优越。0表3：每个集合到集合函数引入的参数数量，除了骨干网络的参数。0适应具有判别性任务特定嵌入的能力，但在MiniImageNet上使用ConvNet骨干时，并未实现对基准ProtoNet的一致性性能改进。一个可能的解释是，这样的模型与骨干模型一起联合学习时，可能使优化过程更加困难，导致最终性能的变化。相反，我们观察到FEAT在所有情况下都能持续改进ProtoNet和其他嵌入适应方法，而无需额外的花哨技巧。这表明，作为集合到集合函数的Transformer能够在实例之间实现丰富的交互，从而提供了高度的表达能力来建模嵌入适应过程。DrillBedTVFlowerScrewdriver!"#$%& from “Clipart”!"'(" from “Real World”ClassifyTest SetTrain SetTrain SetTest Set!"#$%& from “Clipart”!"'(" from “Real World”BedCurtainsRefrigeratorSneakersDrillClassifyIn this section, we evaluate FEAT on 3 different few-shotlearning tasks. Speciﬁcally, cross-domain FSL, transductiveFSL [25, 33], and generalized FSL [6]. We overview thesetups brieﬂy and please refer to SM for details.88140分类方式的插值和外推。接下来，我们研究不同的集合到集合函数在插值和外推不同分类方式的能力。为此，我们使用1-shot 20-way和1-shot5-way任务训练每个嵌入适应函数的变体，并测量性能随测试时间中类别数量的变化。我们报告在N = {5, 10, 15,20}类别上评估的平均准确率，并在图3中显示结果。令人惊讶的是，我们观察到FEAT在外推和插值场景中几乎达到相同的数值性能，进一步显示了它学习集合到集合转换的强大能力。同时，我们观察到DEEPSETS在插值方面表现良好，但在外推方面失败，随着N的增大，其性能显著下降。相反，GCN在外推方面表现出色，但在插值方面效果不如其他方法。BILSTM在两种情况下表现最差，因为它的设计不是置换不变的，并且可能已经适应了实例之间的任意依赖关系。参数效率。表3显示了每个集合到集合函数引入的额外参数数量。从中我们观察到，FEAT在使用ConvNet和ResNet骨干网络时引入的参数数量最少，同时在各个方面取得最佳性能（如上述结果），突出了它的高参数效率。综上所述，我们得出以下结论：1）使用集合到集合模型学习嵌入适应对于少样本学习中建模任务特定嵌入非常有效；2）FEAT是最具参数效率的函数逼近器，同时具有良好的置换不变性和强大的插值/外推能力。0FEAT是最具参数效率的函数逼近器，同时具有最佳的实证性能，具有良好的置换不变性和强大的插值/外推能力。05.2.2. 消融研究0我们在MiniImageNet数据集上使用ConvNet骨干网络对FEAT及其消融变体进行分析。嵌入适应的定性表现如何？我们随机选择了四个少样本学习任务，并使用测试数据的实例嵌入学习了一个主成分分析（PCA）模型（将嵌入投影到2D空间）。然后，我们将这个学习到的PCA投影应用于支持集的预适应和后适应嵌入。结果显示在图1中（本文开头）。在四个示例中，FEAT的后适应嵌入在性能上优于前适应嵌入。有趣的是，我们发现FEAT的嵌入适应步骤有推开支持嵌入使其远离杂乱的趋势，从而更好地适应其类别的测试数据。在后适应退化性能的负例中，我们观察到嵌入适应步骤将两个支持嵌入“GoldenRetriever”和“Lion”推得太近。这定性地显示了适应对于获得优越性能至关重要，并有助于与任务不可知的嵌入进行对比。0图4：FEAT的少样本领域泛化的定性结果。正确分类的示例显示为红色框，错误分类的示例显示为蓝色框。我们可视化了FEAT成功的一个任务（顶部）和失败的一个任务（底部）。0在本节中，我们在3个不同的少样本学习任务上评估了FEAT。具体而言，跨领域FSL，传导FSL [25, 33]和广义FSL[6]。我们简要概述了设置，请参阅SM获取详细信息。05.3. 扩展Few-Shot学习任务0FS DomainGeneralization假设UN-SEEN支持集和测试集中的示例可以来自不同的领域，例如，从不同的分布中采样[8,14]。该任务的示例可以在图4中找到。它要求模型识别对象的内在属性而不是纹理，并且实际上是类比识别。0传导式FSL。标准FSL和传导式FSL之间的关键区别在于测试实例是逐个到达还是同时到达。后一种设置允许利用未标记的测试实例的结构。因此，预测将依赖于来自UNSEEN类别的训练（支持）实例和所有可用的测试实例。0广义FSL。先前的工作假设测试实例仅来自未见类别。与它们不同，广义FSL设置考虑来自SEEN和UNSEEN类别的测试实例[32]。换句话说，在模型评估期间，虽然支持实例都来自U，但测试实例来自S∪U，并且分类器需要对SEEN和UNSEEN类别进行预测。05.3.1. 少样本领域泛化0我们展示了FEAT学习适应任务的内在结构，并在领域间进行泛化，即预测Supervised34.38±0.1629.49±0.16ProtoNet35.51±0.1629.47±0.16FEAT36.83±0.1730.89±0.17FEAT57.04 ± 0.2072.89 ± 0.16Random1.56 ±0.00 20.00±0.001.45±0.00ProtoNet 41.73±0.03 48.64±0.2035.69±0.03FEAT43.94±0.03 49.72±0.2040.50±0.03SEEN set U, but also on all available SEEN classes from S.To do so, we hold out 150 instances from each of the 64seen classes in MiniImageNet for validation and evaluation.Next, given a 1-shot 5-way training set Dtrain, we considerthree evaluation protocols based on different class sets [6]:UNSEEN measures the mean accuracy on test instances onlyfrom U (5-Way few-shot classiﬁcation); SEEN measures themean accuracy on test instances only from S (64-Way clas-siﬁcation); COMBINED measures the mean accur

下载后可阅读完整内容，剩余1页未读，立即下载