嵌入式类模型的少量学习和无镜头Meta训练

38 浏览量更新于2023-10-12 收藏 979KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1嵌入类模型的少镜头学习和无镜头Meta训练AvinashRavichandran亚马逊网络服务ravinash@amazon.com亚马逊网络服务bhotikar@amazon.com斯特凡诺·索亚托Amazon Web Services和UCLAsoattos@amazon.com摘要我们提出了一种用于学习嵌入的方法，该方法适用于任何数量的镜头（无镜头）。我们不是将类原型固定为样本嵌入的欧几里得平均值，而是允许它们生活在更高维的空间（嵌入式类模型）中，并随着模型参数一起学习原型。类表示函数是直接定义的，它允许我们用一个简单的恒定大小的架构来处理每个类类嵌入包含度量学习，这有助于添加新类，而不会占用类表示空间。尽管是通用的，没有调整到基准，我们的方法实现了国家的最先进的性能，在标准的几杆基准数据集。图1.一张蘑菇（Muscaria）的图像可能足以在野外识别它（左）;在其他情况下，在可食用的（Russula，如图中所示）和致命的（Phalloides，如图中所示）之间可能存在更微妙的差异，但仍然很少有样本足以用于人类。1. 介绍考虑图1：给出一个或几个鹅膏菌（左）的图像，人们可以很容易地在野外认出它。鉴定红菇（中）可能需要更多的样本，足以将其与致命的鹅膏菌（右）区分开来，但可能不需要数百万个样本。我们称之为少镜头学习。这种能力来自于在不同的环境、不同的光照条件下、局部的条件下看到和触摸过数以百万计的其他物体。以及其他滋扰。我们称之为Meta学习。我们希望利用大型注释数据集的可用性来元训练模型，以便它们可以从少量样本或“镜头”中学习我们将其称为用于少量学习的元训练。在本文中，我们开发了一个用于Meta训练（从大型注释数据集中学习潜在的大量类）和少量学习（使用学习的模型从少量样本中训练新概念）的框架，设计具有以下特征。开集：在“开集”或“开域”设置中容纳未知的、不断增长的、可能无限数量的新类文献中可用的一些更简单的方法，例如基于固定嵌入的最近邻[15]，在理论上是这样做的。然而，在这些方法中，没有实际的少量学习本身，因为所有可学习的参数都是在Meta训练时设置的。连续：能够利用少量数据来改进模型参数，即使是在元训练期间推断的参数虽然每个类可能只有很少的样本，但随着类的数量增加，少量训练集可能会变大。我们需要一个足够灵活的模式，以实现免拍摄：为每个新类别提供可变数量的拍摄。有些类可能只有几个样本，有些则有几百个;我们不想为不同数目的镜头元训练不同的模型，也不想像许多最近的工作那样将我们自己限制在具有相同数目的镜头的所有新类。这可能是可用基准测试的副作用，这些基准测试只测试镜头和“方式”（类）的几种组合嵌入式类模型：学习类的表示，它不限于与数据的表示位于同一空间。所有已知的用于少次学习的方法都选择一个显式函数来计算类代表（也称为类代表）。“prototypes” [通过将数据（特征空间）与类（类嵌入）解耦，我们将后者释放到一个更丰富的空间中，在那里它们可以打赌-331332i=1j=1它们代表复杂的分布，并可能随着时间的推移而增长为此，我们的贡献如下：δ（k-yi）.在训练集之外，我们用下式近似这个概率：exp（−φw（x）k）• Shot-free：一种元学习模型和采样方案，适用于任何数量的P w（y=k|x）：= 0Kexp（−φw（一）(x) k）方式和任何数量的镜头，并可以在一个开放的宇宙，终身的环境。当我们像在基准测试中那样修复镜头时，我们实现了基本上最先进的性能，但模型要灵活得多。其中判别式φw：X→RK是a的元素，充分丰富的参数类的函数与参数-ters或经验交叉熵损失定义为：ΣK• 嵌入式身份：我们将身份抽象到与特征不同的空间，从而能够捕获更复杂的类。• 隐式类表示：我们班代表着-L（w）：==k=1（xi，yi）∈BΣ（xi，yi）∈B−P（y = k|x i）log P w（y =k|x i）-log P w（y i|（2）tation函数具有可变数量的参数，课堂上的投篮而不是固定的拍摄数量，或选择一个复杂的架构来处理变量数字，我们表明，学习类函数的隐式形式，使无缝的Meta训练，而需要一个相对简单的优化，最小化，其等于最大化iP w（y i|x i）。如果B是i.i.d.，这会产生最大-li k估计值w，它取决于数据集B并近似于φw<$（x）y≃llogP（y|X）。我们写交叉熵作为判别式的函数，问题需要在短时间内解决。我们既不使用强加人工排序的递归架构，也不使用复杂的集合函数。ΣL（w）=（xi，yi）∈B（φw）(xi) yi）（3）• 度量学习被纳入我们的模型，使我们能够添加新的类，而不会拥挤的类表示空间。在第（2）款中，如给予豁免，则以下述方式取代第（1（vi）：= −vi+ LSE（v）（4）• 性能表现：由于没有基准来显示我们模型的所有特性，我们使用现有的其中log-sum-expLSE（v）：= log. ΣKΣk=1exp（vk）。用于少数样本学习的基准测试，将方法和镜头的数量固定为少数样本。一些性能最好的方法是根据基准量身定制的，针对不同的拍摄次数训练不同的模型，这并不具有可扩展性，并且无法处理标准情况，即每种方式都有自己的拍摄次数。我们的方法，虽然没有调整到任何基准，实现国家的最先进的性能，是更普遍的。在下一节中，我们提出了一个普通分类的形式主义，虽然有点学究气，但它允许我们将其推广到终身的、开放的宇宙、Meta训练和少数训练。通用模型使我们能够分析现有的工作下一个共同的语言，并强调限制，激励我们提出的解决方案在节。2.31.1. 背景，符号;普通分类在一般的分类中，我们称B={（xi，yi）}M，其中yi ∈{1，. . .，B}“大规模”训练集;（x j，y j）<$P（x，y）来自同一分布的样本。如果它在训练集中，我们正式写为P（y = k|x i）=接下来，我们介绍几次射击和生命的一般形式长时间的学习，后来用于分类文献中不同方法的建模选择。1.2. 一般少拍学习设F={（x j，y j）}N（k）为少镜头训练集，k ∈ N为类或“路”，N（k）为“镜头”或每个类的样本。我们假设Meta镜头数据和少镜头数据xi、x j存在于相同的域中（例如，，自然图像），而Meta镜头类和少镜头类是不相交的，我们用y ∈ B+{1，. . . ，K}。1在元训练期间，我们从数据集B中学习数据φw（x）的参数表示（特征或嵌入），以便稍后用于少量训练。在几次-镜头训练，我们为每个新类别使用N（k）个1路数K是先验未知的，并且可能是无界的。它的范围通常从几个到几百个，而N（k）从一个到几千个不等元训练集通常具有以百万计的M和以千计的B大多数基准测试都假设每种方式的拍摄次数相同，因此只有一个数字N，这是一个人为的和不必要的限制。假设类是不相交的，这并没有失去一般性，因为与元训练集共享的少量类可以合并到后者中。333k > B以训练分类器，其中k潜在地无限增长（终身学习）。首先，我们定义与标准分类不同，2.1. Meta训练一般来说，在用于少量学习的元训练期间，人们解决了某种形式的Σ节中，这里我们不知道提前类的数量，所以我们需要一个比K维向量φw更一般的表示。为此，考虑两个附加-w=argminW（χw（zi，ci））（xi，yi）∈B联系我们L（w，c）主要成分：给出了类c k（iden-实体、原型、代理），以及通过其代表性的Ck将数据xj关联到类k的机制。因此，我们有三个函数，原则上都是可学习的，因此由参数w索引。数据表示φw：X→RF将每个数据映射到固定维向量，可能是归一化的，z= φ w（x）。（五）我们还需要一个类表示，它映射N（k）特征zj共享相同的身份yj=k，对于一些代表，S. t. z i= φ w（x i）; c i= φ w（{zj|y j= i}）。隐式类表示函数：代替（6）中的显式形式，可以隐式地推导出函数ω w：设r =minwL（w，ω w）是上述优化问题的最小值。如果我们考虑c={c1，. . .，c B}作为L（w，c）中的自由参数，方程r=L（w，c）将c隐式地定义为w，w的函数。然后，可以简单地通过求解ΣB通过一个函数RfN（k）→ RC，对每个k = B+1，. . . 、B + Kc k=w（{z j|y j= k}）（6）w，c=argminw、ck=1我|yi=kn（xw（φw（xi），ck））（9）其中zj=φw（xj）。请注意，λ的公式具有可变维数。最后，可以基于数据属于某个类的后验概率来确定类成员，用指数族中足够丰富的参数函数类来近似，就像我们对标准分类所做的那样，exp（−χw（zj，ck））这等价于前面的问题，即使没有类表示的显式函数形式。正如我们将看到的，这简化了元学习，因为不需要设计一个具有可变数量输入的单独架构，而是需要在少量学习期间解决（简单的）优化。这与所有其他已知的少次学习方法不同，这些方法在元学习期间学习或修复错误，并在此后保持其固定。P w（y = k|xj）：= 0exp（−χ（七）（z，c））KWJK其中χw：RF×RC→R类似于（1）。交叉熵损失（2）可以写为：远不是一个限制，隐式解决方案有七个-其他优点，包括绕过需要显式定义具有可变数量输入的函数（或集合函数）。它还使标识表示能够L（w）=B+KN（k）n（xw（zj，ck））（8）存在于与数据表示不同的空间中，再次不同于现有的假设简单函数形式k=B+1j =1其中k由（4）给出，ck由（6）给出。当χw∈（zj，ck）=1ogP（yj=k）时，损失最小|xj）的函数。然而，请注意，这种损失也可以应用于元训练集，通过将外部总和更改为k= 1，. . . ，B的子集，或或两者的任何组合，通过选择{1，. . . ，B + K}。不同的方法，以少数拍摄学习不同的选择模型M和混合的Meta和少数拍摄训练集使用在一个迭代的参数更新，或训练2. 少样本学习模型从迄今为止描述的最一般形式的少镜头学习开始，我们限制模型，直到没有少镜头学习，以捕获文献中的建模选择。比如平均值。2.2. 几杆训练终身学习：一旦完成元训练，就可以使用（9）中相同的损失函数（k > B）来实现终身，少次学习。虽然每个新的类别k > B可能具有很少的样本N（k），但在聚合中，样本的数量必然会增长超过M，我们可以利用这一点来更新嵌入φw、度量χw和类函数ck=λw。度量学习：一个更简单的模型包括固定数据表示形式的参数，并使用相同的损失函数，但对k > B求和，以从中学习几个镜头Nk新类代理ck，并随着类表示空间变得拥挤而改变度量χw如果我们修正数据表示，在少量训练334阶段，我们解决w，c=argminw、cB+KΣ（χw（φ一个低维空间这些算法大多适应φw（x），并在少量测试时使用普通分类器。对于每个少量训练集，都有一个不同的φw（x），几乎没有重用或任何持续学习。k = B +1 j|yj=k其中，对元训练阶段的依赖性是通过φ1，并且w1和c2都取决于f-shot数据集F。新的类标识：一个进一步的简化步骤是也固定度量χ，只留下类代表待估计在度量学习方面，[20]使用注意力机制[22]训练加权分类器，该注意力机制应用于在基集上训练的特征嵌入的输出。这种方法需要在Meta镜头和少镜头训练匹配。原型网络[15]使用情景采样和基于应用于最接近平均值分类器[19]的性能的损失函数进行训练。c=argminCB+KΣφ（x（φ（xj），ck））.（十一）几发子弹的训练器材[4]基于特征提取器，使用基础k = B +1 j|yj =k上面是参数函数的隐式形式，参数w=c，如前所述因此，计算ck=c（{zj|yj=k}）需要求解优化问题。没有少数镜头学习：最后，人们甚至可以明确地修正函数，放弃少量学习和简单的计算ck=（{φ（xj）|yj=k}），k>B（12），它依赖于B到φk，以及F到Yk。在回顾了文献中最常见的方法之后，我们在下一节中阐述了我们的建模和采样选择。2.3. 相关前期工作大多数当前的方法都属于这种情况（12），因此不涉及少量学习，放弃终身学习的可能性，并通过限制原型生活在同一空间来施加额外的不适当的的特征。许多是原型网络的变体[15]，其中只有三个组件之一，学习该模型：将k固定为平均值，因此ck：=训练集最后，[1]将岭回归纳入一种端到端的方式转化为深度学习网络。这些方法学习一个φw（x），它在几次训练任务中重复使用。然后通过先验定义的函数（如[15]中的样本均值）、注意力核[20]或岭回归[1]获得类恒等式。在少杆训练中，运动员的平均体重和χ的形式没有改变。[10]使用特定于任务的自适应网络来简化自适应嵌入网络，其输出在任务相关的度量空间上。在该方法中，χ和φ的形式是固定的，φ的输出是基于少拍训练集调制的。接下来，我们描述我们的模型，据我们所知，它是第一个也是唯一一个学习模型每个组件的模型：嵌入φ w，度量χ w，并实现类表示φ w.3. 该模型使用Sect的形式主义。2我们描述了我们的建模选择。请注意，模型类M中存在冗余，因为可以固定数据表示φ（x）=x，并将所有建模能力移交给EML，反之亦然。选择取决于应用程序上下文。我们概述了我们的选择，受到先前工作的限制。1|Y k|j∈Yk zj和χ（z，c）=<$z−c<$2是欧几里得双嵌入φw：与最近的工作一致，我们选择了一个深度钱。唯一的学习发生在元训练中，模型φw的可训练部分是传统的神经网络。此外，用于训练的采样方案其他工作可分为两大类：基于梯度[11，3，9，14]和基于度量[15，20，10，4]。在第一种方法中，元学习者被训练来适应网络的参数以匹配少量训练集。[11]使用基本集合来学习长短期记忆（LSTM）单元卷积网络该架构的细节是在节。4.第一章类表示函数Ck：我们通过将类表示ck与权重w一起作为参数来隐式地定义它。正如我们之前看到的，这意味着在少量训练中，我们必须解决一个简单的优化问题（11）来找到新类的代表，而不是像原型网络及其变体中那样计算均值Σ[6]它用来自少数几个-射击训练器材MAML [3]学习网络参数的初始化，可以通过梯度下降进行调整ck= argminCJ|yj=k（χw（φ（十三）在几个步骤。LEO [14]类似于MAML，但使用特定于任务的初始条件，并在请注意，类估计值取决于参数w在χ. 如果少量学习是资源受限的，那么可以335WQ仍然在Meta训练期间隐式地学习类表示，并且在少数拍摄阶段期间用固定函数（诸如均值）来近似它们。度量χ：我们选择由类表示空间中的欧氏距离引起的判别式，数据表示通过可学习的参数矩阵W映射到该判别式：χ（zj，ck）=<$Wφ<$（xj）−ck<$2（14）一般来说，我们选择c的维度大于z的维度，以使得能够捕获复杂的多模态身份表示。请注意，此选择包含度量学习：如果Q=Q T是一个表示内积变化的对称矩阵，则可以通过简单地选择权重W=QW来捕获。由于权重和类代理都是自由的，在增加度量参数Q时没有一般性的增益。当然，W可以被任何非线性映射代替，通过以下方式有效地χw（zj，ck）=<$f<$w（φ（xj））−ck<$2（15）对于诸如深度神经网络之类的某个参数族fw。4. 执行嵌入φw（xj）我们使用两种不同的体系结构。第一个[15，20]是四个卷积块，每个块有64个3×3滤波器，然后是批量归一化和ReLU。这通过2×2内核的最大池化来传递。按照[4]中的约定，我们称这种体系结构为C64。另一个网络是修改后的ResNet [5]，类似于[10]。我们称之为ResNet-12。此外，我们还将嵌入规范化，使其在单位球面上，即φ（x）∈Sd−1，其中d是嵌入的维数。这个标准化被添加为一个层，以确保特征嵌入在单位球体上，而不是在事后才适用由于梯度的缩放较差，这在元训练期间增加了一些复杂性[21]，并且在归一化之后通过单个参数层来解决测试时不需要此层。类别表示：如前所述，这在元训练中是隐含的。为了显示框架的灵活性，我们增加了类表示的维数。我们选择特征空间中的角距离，这是d-超球面：χ（zj，ck）=<$Wzj−ck<$2=2s2（1−cosθ），（16）其中s是训练期间使用的缩放因子，θ是归一化参数之间的角度。当表示z=φw（x）被归一化时，类条件模型是Fisher-Von Mises（球面高斯）。然而，当Wφw（xi）∈Sd−1时，我们需要W φw∈Sd−1。在元训练期间，我们也将相同的归一化和缩放函数应用于隐式表示。P w （ y=k|x ） <$exp <$Wφ w （ x ）， ck<$（ 17）直到归一化常数。采样在元训练期间的每次迭代中，来自训练集B的图像以片段的形式呈现给网络[20，11，15];每个片段由从K个类中采样的图像组成。通过首先从B中采样K个类，然后从每个采样类中采样N个图像来选择图像。损失函数现在被限制到片段中存在的K个类，而不是元训练时可用的整个类集合。此设置允许网络学习更好的嵌入，用于开集分类，如[2，20]与使用情节采样的现有采样方法不同[11，15]，我们不会将情节内的图像拆分为元训练集和元测试集。例如，原型网络[15]使用元训练集中的元素来学习类表示的均值[11]学习优化的初始条件这需要一个训练“镜头”的概念，首先，我们注意到损失函数（9）有一个退化解，其中所有的中心和嵌入都是相同的。在这种情况下，P w（y=k|x j）=P w（y=k′|xj）对于所有k和k′，即，P w（y=k′|x（j）是均匀分布。对于这种退化情况，熵是最大的，所以我们使用熵来使解偏离平凡解。我们还在元训练期间在嵌入φw （x ）之上使用Dropout [16]即使当使用情节采样时，在没有丢弃的情况下，嵌入也倾向于在基集上过拟合我们不使用这个在少数拍摄训练和测试时间。图2总结了Meta训练期间损失函数的架构。它有一些只用于训练的层，比如scale层、Dropout层和loss层。在少量训练中，我们只使用学习到的嵌入式φ w（x）。5. 实验结果我们在三个数据集上测试我们的算法：miniImagenet [20]、tieredImagenet [12]和CIFAR Few-Shot [1]。miniImagenet数据集由从ILSVRC [13]数据集的100个类中采样的大小为84×84的图像组成，336图2.我们的元训练损失流：蓝色表示的层是元训练后剩余的层而绿色层仅用于训练。这里，m·m表示L2归一化层，s（·）表示缩放层2000集的rithms，每集每点30个查询类。在少量训练中，我们尝试将类标识设置为隐式（优化）或平均原型（固定）。后者可能是必要的，当少数拍摄阶段是资源受限的，并产生类似的性能。为了比较计算时间，我们使用固定平均值。请注意，在所有情况下，类原型都是在元训练期间隐式学习的。比较结果见表1。从这个表中我们可以看到，对于5次拍摄的5路情况，我们的表现与原型网络相似。然而，对于单次拍摄的情况，我们看到所有三个数据集都有显着的改进。此外，当训练和测试镜头发生变化时，原型网络的性能会下降。表1显示，当我们使用5次射击设置测试模型并使用1次射击训练时，性能显着下降注意，从表中可以看出，我们的方法能够保持相同的每班600张图片。我们使用了[11]中概述的数据分割，其中64个类用于训练，16个类用于验证，20个类用于测试。我们也使用tieredImagenet [12]。这是ILSVRC的一个更大的子集，由779，165张大小为84×84的图像组成，代表608个等级，分为34个高级等级。该数据集的分割确保了34个高级类的子类不会分布在训练集、验证集和测试集上，从而最大限度地减少了训练集和测试集之间的语义重叠。结果是351类448，695幅图像用于训练，97类124，261幅图像用于验证，160类206，209幅图像为了公平比较，我们使用与[12]中相同的训练，验证和测试分割，并使用层次结构最低级别的类。最后，我们使用 CIFAR Few-Shot （ CIFAR-FS ）[1]，其中包含大小为32×32的图像，这是CIFAR-100 [8]数据集的重组版本。我们使用与[1]中相同的数据分割，将100个类分为64个用于训练，16个用于验证，20个用于测试。5.1. 与原型网络的比较最近的许多方法都是原型网络的变体，因此我们与原型网络进行了详细的比较我们保持训练过程，网络架构，批量大小以及数据增强相同。因此，性能的提高完全是由于我们的方法的改进我们使用ADAM [7]进行训练，初始学习率为10−3，衰减因子为0。每2,000吨5国家。我们使用验证集来确定最佳模型我们的数据增强包括均值相减，标准差归一化，随机裁剪和随机翻转训练过程中。在训练过程中，每个片段包含每个类15个查询样本在我们所有的实验中，我们设置λ=1，并且没有调整这个参数。除非另有说明，我们总是测试少数镜头算法-性能因此，我们只训练一个模型，并在不同的拍摄场景中测试它，因此绰号5.2. 阶级认同类恒等式ck可以存在于与特征嵌入不同维度的空间中。这可以通过两种方式来完成：通过将嵌入提升到更高维度的空间中，或者通过将类恒等式投影到嵌入维度中。如果类恒等式的维度发生变化，我们还需要根据（14）修改χ。权重矩阵W∈Rd×µ，其中d是嵌入的维数，µ是类标识的维数，可以在元训练期间学习。这相当于添加一个全连接层，类标识在规范化之前通过该层传递。因此，我们现在学习φw、φk和χW。我们在表2中显示了在miniImagenet数据集上使用C64架构的实验结果。在这里，我们测试了类恒等式的维数是嵌入维数的2倍、5倍和10倍。从这个表中我们可以看出，增加维度可以提高性能。然而，这种增加在2×嵌入空间的维度处饱和。5.3. 与最新技术为了与最先进的方法进行比较，我们使用ResNet-12基础架构，使用带有Nesterov动量的SGD训练我们的方法，初始学习率为0。1，重量衰减为5e-4，动量为0。每批9和8集。我们的学习率下降了系数为0。每次验证错误在1000次迭代中没有改善。我们没有根据数据集调整这些如前所述，我们训练一个模型，并在不同的镜头中进行测试。我们还比较了我们的方法与类恒等式在一个空间的两倍的嵌入尺寸。最后，我们比较了我们的方法，k ·k2φw（x）W，{ci}s（·）辍学损失337数据集测试场景训练场景我们的行动[15]我们的方法单次5路单次5路43.88± 0.4049.07± 0.43miniImagenet五射五路单次5路58.33± 0.3564.98± 0.35五射五路五射五路65.49± 0.3565.73± 0.36单次5路单次5路41.36± 0.4048.19± 0.43tieredImagenet五射五路单次5路55.93± 0.3964.60± 0.39五射五路五射五路65.51± 0.3865.50± 0.39单次5路单次5路50.74± 0.4855.14± 0.48CIFAR少镜头五射五路单次5路64.63± 0.4270.33± 0.40五射五路五射五路71.57± 0.3871.66± 0.39表1.比较我们的方法与我们使用C64网络架构实现的原型网络[15]的结果。该表显示了我们的方法在不同数据集上平均超过2，000个事件的准确性和95%百分位数置信区间请注意，我们的方法没有镜头的概念，在这里，当我们暗示通过不同的镜头进行训练时，我们的意思是批量大小与规定的方法相同。尺寸1x2x5x10x性能49.0751.4651.4651.32表2.我们的方法在miniImagenet上的性能，类身份维度作为嵌入维度的函数，该表显示了2，000次事件的平均准确度。使用ResNet的变体，我们将过滤器大小从（64，128，256，512）更改为（64，160，320，640）。我们对miniImagenet的比较结果如表3所示。模经验波动，我们的方法表现在国家的最先进的，在某些情况下超过它。我们希望指出，SNAIL [9]，TADAM[10，17]，LEO [14]，MTLF [17]预训练网络，用于miniImagenet上的64路分类任务和tieredImagenet上的351路分类。然而，所有为我们的方法训练的模型都是从头开始训练的，不使用任何形式的预训练。我们也不使用元验证集来调整任何参数，而是使用该集合上的错误来选择最佳训练模型。此外，与所有其他方法不同的是，我们不必训练多个网络并针对每种情况调整训练策略最后，LEO[14]使用非常深的28层Wide-ResNet作为基础模型，与我们较浅的ResNet-12相比。一个公平的比较将涉及到用相同的基本网络训练我们的方法然而，我们包括这种比较是为了完全透明。我们的方法在tieredImagenet上的性能如表4所示。这张表显示，我们是每-表3.我们的方法的4种变体在miniImagenet上的性能与最先进的方法相比。该表显示了2，000次事件的平均准确度。我们的方法在CIFAR Few-Shot数据集上的应用。我们在这个数据集上展示了结果，以说明我们的方法可以跨数据集推广。从这个表中我们可以看出，我们的方法对于CIFAR Few-Shot表现最好。5.4. 选择对培训作为最后一句话，在文献中没有关于少数镜头训练和测试范例的有太多的变量会影响性能。为了说明这一点，我们展示了几个训练选择的效果。一射五向和五射五向的成型方法。我们在这个数据集上进行测试，因为它要大得多，并且在Meta训练和少量训练之间没有语义重叠，尽管这个数据集与miniImagenet的基线较少。表4中还显示了性能-优化算法的效果在原型网络的原始实现中 [15]，ADAM [7]被用作优化算法。然而，大多数新诸如[10，4]的算法使用SGD作为其优化算法。这一结果使用不同的优化铝-算法单次拍摄5向5次射击5向10杆5向Meta LSTM [11]43.4460.60-匹配网络[20]44.2057.0-MAML [3]48.7063.1-原型网络[15]49.4068.2-[18]第十八话50.4065.3-R2D2 [1]51.2068.2-蜗牛[9]55.7068.9-Gidaris等人[4]美国55.9573.00-TADAM [10]58.5076.780.8MTFL [17]61.275.5-LEO [14]61.7677.59-我们的方法（ResNet-12）59.0077.4682.33我们的方法（ResNet-12）2x dims。60.6477.0280.80我们的方法（ResNet-12变体）59.0477.6482.48我们的方法（ResNet-12变体）2x dims60.7177.2681.34338算法单次拍摄5向5次射击5向10杆5向tieredImagenetMAML [3]51.6770.30-原型网络[12]53.3172.69-[18]第十八话54.4871.32-LEO [14]65.7181.31-我们的方法（ResNet-12）63.9981.9785.89我们的方法（ResNet-12）2x dims。66.8782.6485.53我们的方法（ResNet-12）变体63.5282.5986.62我们的方法（ResNet-12）变体2x dims66.8782.4385.74CIFAR少镜头MAML [3]58.971.5-原型网络[15]55.572.0-关系网55.069.3-R2D2 [1]65.379.4-我们的方法（ResNet-12）69.1584.7087.64表4.我们的方法在tieredImagenet和CI-FAR Few-Shot数据集上的性能与最新技术相比。CIFAR Few-Shot的性能数据来自[1]。表中显示了2，000次发作的平均准确度。请注意，先前工作的培训设置是不同的。租值见表 5 。在这里，我们使用 ResNet-12 模型在miniImagenet数据集上展示了我们的算法的性能。从该表中我们看到，虽然对于1次5路拍摄，ADAM的结果优于SGD，但我们看到，对于5次5路拍摄和10次5路拍摄场景，情况并非如此。这表明SGD比ADAM更适合我们的算法。优化算法单次拍摄5向5次射击5向10杆5向亚当59.4176.7581.33SGD59.0077.4682.33表5.我们的方法在miniImagenet上的性能使用ResNet-12模型，选择不同的优化算法。该表显示了2，000次事件的平均准确度。每次迭代的任务数的影响。 TADAM [10]和Gidarisetal. [4]每次迭代使用多个片段。他们将其称为TADAM[10]中的任务，其中使用2个任务进行5次拍摄，1个任务进行10次拍摄，5个任务进行1次拍摄。我们没有执行任何此类调优，而是根据Gidaris等人的研究将其默认为每次迭代8集。[4]的文件。我们还尝试了每次迭代16集然而，这导致了所有测试场景的性能损失表6显示了使用ResNet-12架构的miniImagenet数据集的性能数据，并使用ADAM [7]作为优化算法进行训练。从这个表中我们可以看到，对于所有场景，每次迭代8集，更好的表现。选择单次拍摄5向5次射击5向10杆5向每次迭代8次发作59.4176.7581.33每次迭代16次发作58.2274.5378.61表6.我们的方法在miniImagenet上的性能使用ResNet-12模型，每次迭代有不同的情节选择。该表显示了2，000次事件的平均准确度。即使所有主要因素如网络架构、训练过程、批量大小保持不变，诸如用于测试这些方法的查询点的数量的因素也会影响性能，并且现有文献中的方法使用15-30个点之间的任何地方进行测试，并且对于一些方法，不清楚该选择是什么。这就需要更严格的评估协议和更丰富的基准数据集。6. 讨论我们已经提出了一种用于少量学习的元学习方法，其中学习了问题的所有三个成分：数据φ w的表示、类φ c的表示以及度量或隶属函数χ W。与现有方法相比，该方法具有若干优点。首先，通过允许类表示和数据表示空间不同，我们可以为类原型类型分配更多的表示能力。其次，通过隐式地学习类模型，我们可以处理可变数量的镜头，而不必求助于复杂的架构，或者更糟的是，训练不同的架构，每个镜头数一个。最后，通过学习隶属函数，我们隐式地学习度量，这允许类原型在少量学习期间重新分布。虽然由于基准测试有限，其中一些好处并不明显，但改进的通用性使我们的模型能够扩展到持续学习的环境，其中新类的数量随着时间的推移而增加，并且可以灵活地允许每个新类都有自己的拍摄数量我们的模型比基准测试中一些表现最好的模型更简单单个模型在少数镜头设置中表现得相当或更好，并提供了额外的通用性。引用[1] LucaBertinetto，J oaoF. 菲利普·H·亨里克斯S. T或r，还有安德里亚·维达尔迪。使用可微封闭形式求解器的元学习CoRR，abs/1805.08136，2018。四五六七八[2] Wei-Yu Chen，Yen-Cheng Liu，Zsolt Kira，Yu-Chiang Frank Wang，and Jia-Bin Huang.仔细一看339在少数镜头分类。在2019年国际学习代表会议上5[3] Chelsea Finn，Pieter Abbeel，Sergey Levine.模型不可知元学习，用于快速适应深度网络。ICML，2017。四、七、八[4] 斯派罗·吉达里斯和尼科斯·科莫达基斯动态的小镜头视觉学习不会忘记。在CVPR，2018年。四五七八[5] Kaiming He，Xiangyu Zhang，Shaoying Ren，andJian Sun. 用于图像识别的深度残差学习。在CVPR，第770IEEE计算机学会，2016年。5[6] SeppHochreiter和JürgenSchmidhube r. 长短期记忆。神经元计算，9（8）：17354[7] Diederik P. Kingma和Jimmy Lei Ba。- 你好一种随机优化方法。2015年国际学习代表会议。六七八[8] 亚历克斯·克里热夫斯基从微小的图像中学习多层特征。技术报告，多伦多大学，2009年。6[9] Nikhil Mishra，Mostafa Rohaninejad，Xi Chen，and Pieter Abbeel.一个简单的神经专注元学习者。在ICLR，2018年。四、七[10] 鲍里斯·N.奥列什金，保罗·罗德里格斯，亚历山大·拉科斯特.改进了带有任务条件和度量缩放的少次学习。在NIPS，2018年。四五七八[11] 萨钦·拉维和雨果·拉罗谢尔。优化作为一个模型的少镜头学习。在ICLR，2017。四、五、六、七[12] Mengye Ren，Eleni Triantafillou，Sachin Ravi，JakeSnell ， KevinSwersky ， JoshuaB.Tenenbaum，Hugo Larochelle，and Richard S. 泽梅尔半监督少镜头分类的元学习。 CoRR，abs/1803.00676，2018。五六八[13] Olga Russakovsky，Jia Deng，Hao Su，JonathanKrause ， Sanjeev Satheesh ， Sean Ma ， ZhihengHuang ， Andrej Karpathy ， Aditya Khosla ，Michael Bernstein，Alexander C.伯格和李飞飞。Imagenet大规模视觉识别的挑战。国际计算机见， 115（3）：211-252，十二月。2015. 5[14] 安德烈 ·A. Rusu 、 DushyantRao 、 JakubSygnowski 、 Oriol Vinyals 、 Razvan Pascanu 、Simon Osindero和Raia Hadsell。具有潜在嵌入优化的元学习。 CoRR ， abs/1807.05960 ， 2018 。四、七、八[15] Jake Snell，Kevin Swersky，and Richard S.泽梅尔用于少镜头学习的原型网络。参见NIPS，第4080-4090页，2017年。一、四、五、七、八[16] NitishSrivastava ， GeoffreyHinton ， AlexKrizhevsky ， IlyaSutskever ， andRuslanSalakhutdinov.Dropout：一种防止神经网络过度拟合的简单方法。J.马赫学习. Res. ，15（1）：1929-1958，Jan. 2014. 5[17] Qianru Sun，Yao Liu，Tat-Seng Chua，and BerntSchiele.用于少量学习的元迁移学习。CoRR，abs/1812.02391，2018。7[18] 宋洪洪，杨永新，李章，陶翔，菲利普H. S. Torr和Timothy M.医院学习比较：关系网络用于少量学习。在IEEE计算机视觉和模式识别会议，2018年6月。七、八[19] RobertTibshirani、TrevorHastie、Balasubramanian Narasimhan和Gilbert Chu。通过基因表达的收缩中心诊断多种癌症类型。Proceedings of the National Academy of Sciences，99（10）：6567-6572，2002. 4[20] OriolVinyals 、 CharlesBlundell 、 TimothyLillicrap、Koray Kavukcuoglu和Daan Wierstra。匹配网络进行一次性学习。在NIPS，2016年。四、

下载后可阅读完整内容，剩余1页未读，立即下载