基于GNN去噪自编码器的少样本学习分类权值生成

129 浏览量更新于2023-10-18 收藏 842KB PDF 举报

文件分类

少样本学习

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1基于GNN去噪自编码器的少样本学习分类权值生成Spyros Gidaris1，2和Nikos Komodakis11University Paris-Est，LIGM，Ecole des Ponts ParisTech2valeo.ai网站摘要给定一个初始识别模型，一组基本类，这项工作的目标是开发一个用于少量学习的元模型。元模型，作为输入，一些新的类，每个类很少的训练样本，必须适当地适应现有的识别模型到一个新的模型，可以正确地分类在一个统一的方式，新的和基本类。为了实现这一目标，它必须学会为这两种类型的类输出适当的分类为了构建我们的Meta模型，我们使用了两个主要的创新：我们提出使用去噪自动编码器网络（DAE），该网络（在训练过程中）将一组被高斯噪声破坏的分类权重作为输入，并学习重建目标判别分类权重。在这种情况下，在分类权重上注入的噪声起到正则化权重生成元模型的作用。此外，为了捕获我们的元模型的给定任务实例中不同类为了验证我们方法的有效性，我们在基于ImageNet的少数基准测试中对其进行了广泛的评估，并报告了最先进的结果。1. 介绍在过去的几年里，深度学习在各种视觉理解任务上取得了令人印象深刻的结果，例如图像分类[19，35，38，15]，对象检测[29]或语义分割[5]。然而，它们的成功很大程度上依赖于应用基于梯度的优化例程的能力例如，在图像分类的情况下，需要具有可用的数千或更多个图像。每个类有数百个训练示例，优化例程消耗数百个GPU天。此外，基于深度学习的模型可以识别的类集合在训练后保持固定。在需要识别新类的情况下，通常需要为每个类收集数千/数百个训练示例，并在这些新类上重新训练或微调模型。更糟糕的是，后一个训练阶段将导致模型相比之下，人类可以从一个或几个例子中快速学习一个新的视觉概念，并在以后可靠地识别它。快速获取知识的能力被认为与人类大脑中的元学习过程有关，该元学习过程在学习新的视觉概念时利用关于世界的过去经验。更重要的是，人类在学习新的视觉概念时不会忘记过去的视觉概念。用机器模仿这种行为是一个具有挑战性的研究问题，具有许多实际优势，也是这项工作的主题对这个问题的研究通常被称为少镜头目标识别。更具体地说，少镜头对象识别方法解决了学习识别一组类的问题，这些类只允许访问其中每个类的几个训练示例。为了弥补训练数据的稀缺性，他们采用元学习策略，学习如何有效地识别一组训练数据很少的类，方法是在这种少数任务（由训练期间可用的数据集形成）的分布上进行训练，这些任务与测试时遇到的少数任务相似（但不相同）[39]。少次学习也与迁移学习有关，因为学习的元模型通过利用先前通过解决不同的类似任务集获得的知识来解决新任务。存在广泛的一类少次学习方法，其中包括学习测试示例和训练示例之间的距离度量的基于度量学习的方法[39，36，18，42，41]，通过访问存储器模块来学习将测试示例映射到类标签的方法，2122存储该任务的训练示例[8，22，32，16，23]，学习如何在访问新类的最少可用训练数据的情况下为新类生成模型参数的方法[9，25，10，26，12]，学习如何快速使模型适应给定的最少可用训练数据的基于梯度下降的方法[27，7，2]，镜头识别任务通过少量的梯度下降迭代，和训练数据幻觉方法[14，41]，学习如何在访问其少量训练数据的情况下幻觉更多的类的例子。我们的方法。在我们的工作中，元模型，其与已经在类集合上训练的识别模型相关联（这些类在下文中将被表示为基类）。我们的目标是训练这个元模型，以便学习使上述识别模型适应一组新的类别，对于这些类别，只有很少的训练数据可用（例如，一个或五个示例），同时保持对基本类的识别性能。请注意，除了少数例外[14，41，9，25，26]，大多数关于少数学习的先前工作都忽略了满足第二个要求。为了实现这一目标，我们遵循从少量数据生成模型参数的一般范式[9，25，10，26]。更具体地说，我们假设识别模型有两个不同的组件，一个特征提取器网络，它（作为输入的图像）计算特征表示，和一个特征分类器，它（作为输入的图像的特征表示在这种情况下，为了能够识别新的类别，必须能够为它们生成分类权重向量。因此，我们工作的目标是学习一个Meta模型，它完全可以完成这个任务：即，给定一组新类，其中每个新类具有很少的训练示例，以及基本类的分类权重，它学习输出一组新的分类权重向量（对于基本类和新类两者），然后可以从特征分类器使用该组新的分类权重向量，以便以统一的方式对两种类型的类进行分类。基于DAE的模型参数生成。学习执行这样的元学习任务，即，推断一组类别的分类权重是一个困难的元问题，其需要大量的训练数据以便可靠地解决。然而，并非总是能够获得如此庞大的数据库;或者换句话说，可用于学习这种元任务的训练数据可能永远不够。为了克服这个问题，我们基于去噪自动编码器网络（DAE）构建了我们的元模型。在训练过程中，该DAE网络以一组被加性高斯噪声污染的分类权重作为输入，并被训练以重建目标区分性分类权重。基于DAE的图1：一些类（例如，野猫动物、鸟类或海洋生物）在语义上或视觉上是相似的。因此，假设它们的分类权重向量之间存在相关性是合理的，可以利用这些相关性来为它们中的每一个重构更具区分性的分类权重向量参数生成元模型有助于学习过程的正则化，从而允许我们避免对训练数据过度拟合的危险此外，由于[1]中提供的DAE的理论解释，我们的基于DAE的元模型能够通过计算输入权重和重建权重之间的差异来近似给定可用训练数据的分类权重的条件分布的对数的梯度[1]。因此，从分类权重的初始（但不是非常准确的）估计开始，我们的元模型能够执行梯度上升步骤，其将分类权重朝向更可能的配置移动（当以给定的训练数据为条件时）。为了在少量学习的背景下正确应用DAE框架，我们还对其进行了调整，以便遵循通常用于少量学习的情景公式[39这通过迫使参数生成元任务重构更具区分性的分类权重来进一步提高参数生成元任务的性能。将模型参数DAE构建为图神经网络。重建分类权重仅以少数训练数据为条件，每个类一个训练在我们的上下文中，实现这一点的一种方法是允许DAE模型学习必须在每个实例上重建的整个分类权重集的结构（即，#21453;的任务）我们认为，这种方法是更有原则的，可以重建更多的分类权重向量的区分比重建每个类的分类权重独立。例如，考虑到一些类（在其分类权重向量必须由给定任务实例中的DAE模型重构的类中）在语义上或视觉上相似，诸如儒艮Stingray水肺潜水员珊瑚礁海洋实体狮子捷豹老虎野生猫科动物小山雀杰伊Junco喜鹊鸟23i=1对于不同种类的鸟类或种子生物（参见图1），假设它们的分类权重向量之间存在相关性是有意义的，可以利用这些相关性来为它们中的每一个重建更具区别性的分类权重向量。为了捕获不同类之间的这种相互依赖关系（在我们的元模型的给定任务实例中），我们将DAE模型实现为图神经网络（GNN）。这是一系列深度学习网络，旨在处理与图G相关联的无序实体集（在我们的情况下是一组类），使得它们在对其进行预测时考虑它们的实体间关系（在我们的情况下是类间关系）[11，34，20，6，37]（对于最近的一个研究，关于图上的深度学习的模型和应用的研究也参见Bronstein et al. [4]）。与我们的工作相关，Gidaris和Komodakis [9]也试图在少量学习的背景下捕获这种类依赖性，通过注意力机制将每个新类的分类权重与之相反，我们考虑所有类之间存在的依赖关系，包括新类和基类（而不是像[9]中那样具有基类的新类），并试图通过GNN架构以更有原则的方式捕获它们，与[9]中提出的简单注意力机制相比，GNN架构更具图神经网络也被Garcia和Juan用于少量学习[8]。然而，在他们的工作中，他们将标记的训练示例和少数问题的未标记的测试示例作为GNN的输入，并训练它来预测测试示例的标签。与此同时，在我们的工作中，我们向GNN提供了我们想要学习的类的分类权重的一些初始估计，并训练它们来重建更具区分力的分类权重。最后，图神经网络已被应用于一个不同但相关的问题，即零次学习[40，17]，用于回归分类权重。然而，在这方面的工作中，他们将GNN应用于外部来源提供的知识图（例如，词实体层次结构），而对于新类给予GNN的输入是其词嵌入。与之相反，在我们的公式中，我们不考虑任何边信息（即，知识图或词嵌入），这使得我们的方法对可以解决的问题的领域以及这种知识图的存在更加不可知综上所述，我们的贡献是，（1）去噪自编码器在少数学习背景图2：给定一些新类的一些训练数据，我们的元模型适应现有的识别模型，这样它就可以通过为两种类型的类生成分类权重，我们学习通过采用去噪自动编码器（DAE）进行分类权重向量来执行此任务。具体地，给定注入加性高斯噪声的分类权重的一些初始估计，DAE被训练以重建目标区分性分类权重，其中注入的噪声起到正则化权重生成元模型的作用此外，为了捕获不同类之间的相互依赖关系（在我们的元模型的给定任务实例中），我们使用图神经网络（GNN）架构实现DAE模型。在以下部分中，我们在§2中描述了我们的分类权重生成方法，在§3中提供了实验结果，最后在§4中得出结论。2. 方法我们定义为C （F（·|θ）|w）识别模型，其中F（·|θ）是具有参数θ的网络的特征提取器部分，并且C（·|w）是具有参数w的特征分类部分。分类器的参数w由N个分类权向量组成，w={wi}N，其中N是网络能够识别的类别数，wi∈Rd是第i个类别的d给定图像x，特征提取器将输出d维特征z = F（x|θ），然后分类器将计算分类得分[s1，.， s N]=[z∈w1，.， zwN]：=C（z|w）的N类。在我们的工作中，我们使用基于余弦特征分类器[9，25]1，其已被证明在转移到少量识别任务时表现出更好的性能，并且更适合于执行基本类和新类的统一识别。因此，为了使上述公式有效，我们假设特征提取器的特征z和分类权重wi∈w的分类器都已进行了L2归一化。根据Gidaris和Komodakis的公式[9]，我们假设识别网络已经被训练成使用训练集Dbs来识别Nbs个基本类的集合。对应的分类权重向量(2)使用图神经网络架构的树BSBSNBS分类权重生成任务，以及（3）在ImageNet- FS [13]和MiniImageNet [39]数据集上对我们的模型进行详细的实验评估，并在 ImageNet-FS ， MiniImageNet 和分层MiniImageNet [28]数据集上实现最先进的结果对于那些Nbs类，定义为w={wi}i=1。我们的目标是学习一个参数r-生成函数g（·|φ），给定作为输入的基的分类权重wbs，这实际上意味着特征z和分类权重Wi∈W是L2正规化的24trtrtri=1树K类，和一些训练数据D=SNbs+N{x}K能力和培训实例。方向（r（w）-w）tri=Nbs+1k我k=1对于N个新类别，它将能够输出一组新的分类权重向量w={wi}N=Nbs+Nbs= g（D bs，wbs|φ）（1）对于基本类和新类，其中K是每个新类的训练示例的数量，xk，i是第i个新类的第k个训练示例，N=Nbs+Nfs是类的总数，并且φ是权重生成函数的可学习参数。这组新的分类权重w将从分类器C（·|w）对于recog-从现在开始，基地和指向w的更可能的构型。因此，DAE学习指向输入数据所在流形的向量场。这些理论结果与自动编码器的参数化无关。应用DAE生成分类权重。在我们的例子中，我们感兴趣的是学习DAE模型，给定分类权重向量w的初始估计，该模型将提供指向以训练为条件的w的更可能配置数据Dtr={Dtr，Dbs}。因此，我们对Atr tr小说类DAE模型学习估计：参数生成功能包括一个用于分类权重向量的Denois-ing Autoencoder，该分类权重向量使用图神经网络实现（参见图2，了解对数p（w|Dtr）∂w1≈σ2·（r（w）-w），（3）概述）。在本节的剩余部分中，我们将更详细地描述我们如何精确地实现这个参数生成函数。2.1. 用于模型参数生成的去噪自动编码器其中p（w|D tr）是给定D tr的w的条件分布，并且r（w）是分类权重的DAE。因此，在针对分类权重r（w）训练DAE模型之后，我们可以在log p（w）中执行梯度上升|D tr），以便（迭代地）达到估计的条件分布p（w|D tr）：在我们的工作中，我们执行的任务，通过采用去噪自动编码器（DAE）的分类权重向量生成分类权重注入的噪音w← w+·对数p（w|Dtr）∂w=w+r·（r（w）−w），（4）DAE框架规定的分类权重起到正则化权重生成模型g（·|φ），从而（如我们将在实验部分中看到的）提高其性能。此外，DAE公式化允许执行权重生成任务，如（iter.主动地）改进一些初步（但不是很准确）的估计其中，R2是梯度上升步长。分类权重的上述迭代推断机制需要具有对它们的可用初始估计。该初始估计是使用新类和现有分类的训练数据D*权重wbs={wbs}Nbs 的基础类。具体地说，i i=1把权重移到更有可能配置（当以可用的训练数据为条件时）。请注意，g（·）中的可学习参数φ|φ）是指所采用DAE 模型的可学习参数。在本节的其余部分中，将简要介绍有关DAE模型的一些说明，然后解释它们如何对于基本类，我们通过使用在WB中已经可用的分类权重来建立该初始估计，并且对于新类，通过对它们中的每一个平均它们的几个训练示例的特征向量来建立该初始估计：.如果i是一个基类，在我们的案子中被利用了wi=iΣK1k=1F（x k，i|θ），否则、（五）关于DAE的评论去噪自动编码器是一种神经网络，在给定被噪声破坏的输入时，它被训练来重建它们的“干净”版本。通过接受这项任务的训练，他们学习了应用它们的数据的结构。已经证明[1]，DAE模型在被加性高斯噪声破坏的输入上训练时，可以估计其输入w的密度p（w）的能量函数的梯度：其中xk，i是新类i的第k个训练示例。总而言之，我们的权重生成函数g（D∈，wbs|通过首先通过应用等式（5）产生新分类权重的初始估计（对于等式（5），其使用Dmax和wbs），然后通过使用分类权重DAE模型r（w）应用等式（4）的权重更新规则来细化那些初始估计（参见图3中的该过程的概述）来实现。最大对数p（w）∂w1≈σ2·（r（w）-w），（2）分类权重DAE模型的情景训练对于培训，DAE框架规定应用Gaus-其中σ2是训练期间注入的高斯噪声量，r（·）是自动编码r。当σ→0时，近似是精确的，并且自动编码器足够给定25在一些目标权重上模拟噪声，然后训练DAE模型r（·）来重建它们。然而，在我们的情况下，更有效的方法是遵循一个培训程序，26m=1i=1i=1i=1i=1我现有的基类识别模型一种新颖基类的自适应识别模型分类分数试验例基类分类得分试验例基础小说类产品特点萃取器Base class基础小说权重类权重初始重量w重构权重r训练新类赤班特征提取器绿色课堂元模型：调整识别模型以识别基类和新类εr去噪自动编码器分类器分类器特征均衡化处理图3：元模型（底部）如何在测试时应用，以正确适应现有的识别模型（左上角）转换成一个新的模型（右上角），它可以以统一的方式对新类和基类进行分类（其中在测试时只为新类提供少量训练数据）。非常接近于模拟DAE模型在测试期间的使用方式。因此，我们建议使用基于训练的学习过程来[39]第39话更具体地说，在训练过程中，我们通过对N个v“fak e”n v el类进行采样来形成训练片段。从训练数据Dbs中的可用Nbs2.2. 基于图神经网络的去噪自动编码器在此，我们将介绍如何实施DAE模型。重建的分类权重的新类，其中训练数据是稀缺的，是一个不明确的问题。提高DAE重建性能的一种方法并使用剩余的Nbs=Nbs−Nbbs类作为基一个。我们称抽样小说类为它们实际上属于基类集合，但在此训练片段期间被视为新类。因此，对于每个我们还从“假”小说和剩余的基类中抽取了M个训练样本该训练片段的验证集D val={（x m，y m）}M，其中（xm，y m）是第m个验证示例的图像x m和标签y m。然后，我们产生样本的分类权重的初始估计w类（˜˜其中ε<$N（0，σ）. 我们给允许其在重构一组类的分类权重时考虑类间关系。鉴于一组类中的无序性质，我们选择使用图神经网络（GNN）来实现DAE模型在本小节的其余部分，我们将描述如何使用GNN进行重建任务，以及我们使用了什么类型的GNN架构。GNN是多层网络，通过根据图的连通性构造它们的计算来对图G=（V，E）进行操作。也就是说，在每个GNN层，节点的特征响应基于由邻接图定义的相邻节点来计算（参见图4a的说明）。在我们的例子中，我们将类的集合Y={i}N（我们想要重建它们的分类，w作为DAE模型的输入，以便输出重建的权重w={wi}N。在计算出w_i之后，我们向它们应用目标权重的平方重建损失w_i ={w_i}N_i和该训练片段的M个验证示例的分类损失阳离子权重）与图G=（V，E），其中每个节点vi∈V对应于Y中的类i（基础类或新类）。为了定义图的边集（i，j）∈E，我们将每个类i与它的J2个最近类按照余弦连接起来，它们的分类权重向量的初始估计的相似性（在注入高斯噪声之前）。边缘1公斤wΣMloss（xm，ym|w），（6）通过对余弦相似性应用softmax运算来计算每个边缘（i，j）∈E的强度aij∈[0，1N i=1M m=1它的邻居N（i）的分数{j，n（i，j）∈E}，因此，Σinga=13。我们定义为h（l）={h（l）}N的损失（x），y|w）=−zw+log（N=N）ezwi）j∈N（i）iji i=1MMm ymMi=1表示N个图节点的特征向量的集合（即，是第m个验证示例的交叉熵损失且zm=F（x m|θ）是第m个示例的特征向量。注意，目标权重w是已经通过识别学习的对应的基类权重向量模型N类）在GNN的第1级。在这种情况下，GNN的输入集合h（0）是分类权重2在我们的实验中，我们使用J= 10个类作为邻居。3对于这个softmax操作，我们使用了逆温度值5。127i=1JN（i）我(a) GNN层的一般架构。发送器和接收器节点两者的特征向量的非线性参数函数。具体来说，给定两个输入向量，q（l）通过相同的全连接线性层转发它们中的每一个，将它们的输出相加，然后应用BatchNorm + Dropout + LeakyReLU单元（参见图4b）。注意，在此实现中，两个节点之间消息。s，独立于o。f的方向，消息，即，q（l） h（l），h（l）=q（l）h（l），h（l）.i j j i更新功能。隐藏GNN层的更新函数实现为：h（l+1）=Σh（l）;u（l）.Σh（l）;h（l）ΣΣΣ我我我N（i）、（10）其中[α;β]是向量α和β的级联，并且（l）u 是作为输入的非线性参数函数(b) 我们工作中隐藏的GNN层的架构。图4：（a）GNN层通常由两个功能组成，一个聚合功能，对于感兴趣的节点（例如，图中的节点A）聚集来自其相邻节点的信息，一个向量，通过一个完全连接的线性层然后是BatchNorm + Dropout + LeakyReLU +L2-归一化单元（参见图4 b）。对于最后一个预测GNN层，更新函数被实现为：更新状态的更新功能（即，该节点的特征）δw，o.=u（L−1） h（L−1）;h（L−1）通过考虑该节点的状态和来自其邻域的聚集信息（b）GNN层架构我我我N（i）、（11）我们在工作中使用的方法将聚合功能实现为一个小型的B-Net网络[33]。成对函数q（·，·）中的两个线性层是相同的（即，共享参数）。向量w={wi}N=h（0），GNN模型将其中u（L−1）（·）是一个非线性参数函数，给定一个输入向量，输出两个d维向量δwi和oi。u（L−1）（·）被实现为一个完全连接的线性层，后面是一个用于δwi输出的L2归一化单元和一个用于oi输出的Sigmoid单元最终输出精炼每个GNN层接收集合h（l）作为输入，并且输出新的集合h（l+1）为：GNN的计算采用以下操作：h（l）N（i） =骨料.Σ{h（l），n∈N（i）}、（7）wi=wi+oiδwi.（十二）可以看出，我们选择了剩余的预测，h（l+1）=UPDATE.h（l），h（l）Σ 、（8）由于这种类型的操作更适合于细化/去噪类型，i iN（i）其中AGGREGATE（·）是参数函数，其对于每个节点i聚合来自其节点邻居N（i）的信息，必须由我们的DAE型号执行我们的特定实现使用门控向量oi来控制残差δwi对输入权重wi的贡献量。为了生成消息特征h（l），，而UPDATE（·，·）是我们将这种基于GNN的 DAE模型命名为权重重-参数函数，对于每个节点i，该参数函数将作为输入构造wDAE-GNN模型。另外，我们还特征h（l），h（l）并计算新的特征探索了一种更简单的DAE模型，该模型的实施目的是重新iN（i）这个节点的向量h（l+1）企业简介基于聚集功能通常，聚合函数被实现为从节点邻居接收的消息向量的构造每个分类权重向量（在给定任务我们的元模型的实例）独立于MLP网络（wDAE-MLP模型）。更具体地，wDAE-MLP模型用与GNN的那些层类似的层来实现，这些层仅包括更新功能部分而不包括聚合功能部分。所以，它只包括h（l）Σ=aij·q（l）.Σh（l），h（l）、（9）连接层和跳过连接（即，2次和第3图4b的更新功能部分中的框）。N（i）.I jj∈N（i）Σ3. 实验评价其中q（l）h（l），h（l）是一个函数，它计算在本节中，我们首先将我们的方法与先前的方法进行比较。图G =（V，E）一图神经网络层输入状态一输出状态一CBB国汇聚消息DE邻C节点D聚合函数更新功能图神经网络层与基于聚合函数的神经网络更新功能输入状态一CONCAT线性层+激活函数输出状态CONCATA基于网络的聚集函数B邻国C节点Dq（A，B）q（A，C）、汇聚消息+一成对函数q（.，.）线性层+激活输出功能D线性层28Sage向量节点i从其邻居h接收i v。博尔河Ins pronounced在§3.2中工作，然后在§3.3中我们执行详细的实验-通过关系网络[33]，我们实现了q（l）h（l），h（l）as心理分析。I j29数据集和评估指标。我们在三个数据集上评估了我们的方法，ImageNet-FS [13，41]，MiniImageNet [39]和分层MiniImageNet [28]。 ImageNet-FS是一个少量的基准测试，它将ImageNet类[30]分为389个基类和611个新类;193个基本类和300个新类用于验证，其余196个基本类和311个新类用于测试。在该基准测试中，基于（1）311个测试新颖类的识别性能311路分类任务），以及（2）识别所有507个类（即，196个测试基类和311个新类;更多的细节，我们参考[13，41]）。我们报告每个新类K=1，2，5，10或20个训练样本的结果。对于每一个K-shot设置，我们采样100个测试集（其中每个集包括每个新类采样K个训练样本，然后在ImageNet的验证集上进行评估Mini- ImageNet由从ImageNet中随机挑选的100个类组成，每个类600张图像。这100个类被分为64个基本类，16个验证新类，和20个测试小说类。MiniImageNet中的图像大小为84×84像素。MiniImageNet由ImageNet608个类组成，分为351个基本类，97个验证类和160个测试类。总共有779，165张图片，尺寸为84×84。在MiniImageNet和分层MiniImageNet中，评估模型在几个5路分类任务上（即，测试片段）通过首先从可用的测试新类中随机抽样5个新类，然后K=1，或者每个新类5个训练示例和M=15个为了报告结果，我们使用20000个这样的测试事件，并计算所有事件的平均精度请注意，在学习新类时，我们还将基类提供给我们的wDAE-GNN模型，以便考虑新类和基类之间的类依赖性。3.1. 实现细节特征提取器架构。对于ImageNet-FS实验，我们使用ResNet-10 [15]架构，给定大小为224×224的图像输出512 维特征向量。对于 MiniImageNet 和分层 -MiniImageNet在实验中，我们使用了一个 2 层宽残差网络 [43]（WRN-28-10），它接收大小为80×80（从84 ×84调整大小）的图像并输出640维特征向量。wDAE-GNN和wDAE-MLP体系结构。在我们所有的实验中，我们使用具有两个GNN层的wDAE-GNN架构。在ImageNet-FS（MiniImageNet）中，所有GNN层的q（l）（ ·， ·）参数函数和隐藏GNN层输出特征的u（ l ）（·）参数函数1024（320）频道所有dropout单元都是0。7（0. 95）的丢失率，DAE中高斯噪声的σ为0的情况。08（0. ①的人。wDAE-MLP中使用了类似的体系结构，但没有聚合功能部分。对于训练，我们使用动量为0的SGD优化器。9和重量衰减5e−4。我们只在1次拍摄设置上训练我们的模型，然后将它们用于所有的K次拍摄设置。在测试期间，我们仅应用分类权重的初始估计的1个细化步骤（即，更新规则（4）的仅1次应用）。在ImageNet-FS中，更新规则（4）的步长ε被设置为1。0，1。0，0。6，0。4和0的情况。对于K=1、2、5、10和20次发射设置，分别为2在MiniImageNet中，ε被设置为1。0和0。K=1和K=5设置分别为5。所有超参数在数据集的验证分割我们提供的执行代码在https://github.com/gidariss/wDAE GNN FewShot3.2. 与先前工作的在这里，我们将我们的wDAE-GNN和wDAE-MLP模型与ImageNet-FS，MiniImageNet和分层MiniImageNet数据集上的先前工作进行了比较。更具体地说，在ImageNet-FS（见表1）上，所提出的模型在大多数情况下实现了比现有方法更优越的性能-特别是在每个新类具有少于5个训练示例的挑战性和有趣的场景中（即，K≤5）。例如，wDAE-GNN模型改进了对于先前最先进的新型类别，1次射击精度[9]提高了约1 。 8 个准确点。在 MiniImageNet 和分层上 -MiniImageNet（分别参见表2和表4）所提出的模型在所有设置上都超过了先前的方法，并且获得了新的最先进的结果。此外，对于MiniImageNet，我们在表3中提供了新颖类和基类的分类准确性，并与LwoF [9]之前的工作进行了再次，我们观察到，我们的模型超过了以前的工作。3.3. 分析我们的方法DAE框架的消融研究。在这里，我们在ImageNet和MiniImageNet数据集上对DAE框架的各个方面进行了消融研究（参见表1和表2中的相应结果）。具体地，我们检查以下情况：（1）训练没有噪声的重建模型（具有后缀No Noise的条目），（2）在训练期间，将必须重建的目标分类权重的噪声版本作为输入提供给模型（具有后缀Noisy Targets的条目作为输入），（3）训练模型而没有验证示例上的分类损失（即，仅使用损失的第一项（6）;带后缀No Cls的条目。损失），以及（4）在验证示例上训练仅具有分类损失而没有重建损失的模型（即，仅使用损失的第二个术语（6）;条目带有后缀No Rec. Loss）。（5）我们还提供了分类权重向量的初始估计的识别性能，而无需通过我们的DAE模型进行改进。30方法K=12新颖类51020K=12所有类51020先前工作LwoF [9]60.03 ±0.14%76.35 ±0.11%55.70 ±0.08%66.27±0.07%wDAE-GNN61.07 ±0.15%76.75 ±0.11%56.55 ±0.08%67.00 ±0.07%wDAE-MLP60.61 ±0.14%76.56 ±0.11%56.07 ±0.08%67.05 ±0.07%表3：在95%置信区间下，新的和所有类别的Mini-ImageNet测试集上的前1名准确率。我们wDAE-GNN的烧蚀研究MAML [7]（来自[21]）[36]第三十六话[ 42 ][43][44][45][46][47][48][49][4[21日]LEO [31]LwoF [9]（我们的实现）Conv-4 - 64Conv-4 -6451.67 ±1.81%53.31 ±0.89%54.48 ±0.93%57.41 ±0.94%66.33 ±0.05%67.92 ±0.16%70.30 ±0.08%72.69± 0.74%71.32 ±0.78%71.55 ±0.7481.44± 0.09%83.10 ±0.12%表1：小说和所有类别的前5名准确率ImageNet-FS基准测试[13]。为了报告结果，我们使用100个测试集。对于我们所有的模型，95%的置信区间wDAE-GNN（我们的）WRN-28-1068.18 ±0.16%83.09 ±0.12%表4：分层MiniImageNet测试集的新类别上的前1名准确率，置信区间为95%在K = 1、2、5、10和20的设置下，其值为（约）±0。二十一岁±0。15，±0. 08，±0. 06和±0. 05分别为小说类和±0。13，±0. 10，±0。05，±0. 04和±0. 03、所有班级模型骨干单次拍摄5次射击先前工作MAML [7]Conv-4-6448.70 ±1.84%63.10 ±0.92%[36]第三十六话Conv-4-6449.42 ±0.78%68.20 ±0.66%LwoF [9]Conv-4-6456.20 ±0.86%72.81 ±0.62%[42]第四十二话Conv-4-6450.40 ±0.80%65.30 ±0.70%GRN [8]Conv-4-6450.30%66.40%R2-D2 [3]Conv-4-6448.70 ±0.60%65.50 ±0.60%R2-D2 [3]Conv-4-51251.20 ±0.60%68.20 ±0.60%TADAM [24]ResNet-1258.50 ±0.30%76.70 ±0.30%Munkhdalai等人[23日]ResNet-1257.10 ±0.70%70.04 ±0.63%蜗牛[33]ResNet-1255.71 ±0.99%68.88 ±0.92%Qiao等人[26]WRN-28-1059.60 ±0.41%73.74 ±0.19%LEO [31]†WRN-28-1061.76 ±0.08%77.59 ±0.12%LwoF [9]（我们的实现）WRN-28-1060.06 ±0.14%76.39 ±0.11%我们wDAE-GNNWRN-28-1061.07 ±0.15%76.75 ±0.11%wDAE-MLPWRN-28-1060.61 ±0.15%76.56 ±0.11%wDAE-GNN†WRN-28-1062.96 ±0.15%78.85 ±0.10%wDAE-MLP†WRN-28-1062.67 ±0.15%78.70 ±0.10%wDAE-GNN的烧蚀研究初始估计WRN-28-1059.68 ±0.14%76.48 ±0.11%wDAE-GNN -无噪声WRN-28-1060.29 ±0.14%76.49 ±0.11%wDAE-GNN -作为输入的WRN-28-1060.92 ±0.15%76.69 ±0.11%wDAE-GNN -无Cls。损失WRN-28-1060.96 ±0.15%76.75 ±0.11%wDAE-GNN -无记录损失WRN-28-1060.76 ±0.15%76.64 ±0.11%wDAE-MLP的消融研究wDAE-MLP -无噪声WRN-28-1060.16 ±0.15%76.50 ±0.11%wDAE-MLP -作为输入的WRN-28-1060.43 ±0.15%76.49 ±0.11%wDAE-MLP -无Cls。损失WRN-28-1060.55 ±0.15%76.62 ±0.11%wDAE-MLP -无记录损失WRN-28-1060.45 ± 0.15%76.50 ±0.11%表2：MiniImageNet测试集新类别的前1名准确率，95%置信区间。†：也使用验证类进行训练。（初步估计）。我们观察到，对DAE模型进行的每一次消融都会导致更差的少数发射识别性能。其中，在输入上没有噪声的情况下训练的模型性能最差，这证明了DAE公式化的必要性。GNN架构的影响。通过比较表1和表2中的wDAE-GNN模型与wDAE-MLP模型的分类性能，我们观察到，实际上，考虑到所提出的GNN架构的类间依赖性对少数镜头识别性能是有益的具体地，GNN架构提供了一个小的（例如，在1次注射的情况下大约0.40个百分点），但是根据表1和2的置信区间，在几乎所有情况下都是统计学上显著的一致改善。4. 结论我们提出了一个用于少量学习的元模型，该元模型将一组新的类作为输入（每个类都有很少的训练示例），然后为它们生成分类权重向量。我们的模型是基于使用去噪自动编码器（DAE）网络。在训练过程中，作为DAE网络输入的分类权重上的注入噪声在训练之后，DAE模型用于改进初始分类权重集，目的是使它们相对于手头的分类任务更具区分力。我们通过使用图神经网络架构来实现上述DAE模型，以便允许我们的元模型正确地学习（并利用）必须在每个实例上重建的整个元学习任务（meta-learning task）。我们在ImageNet-FS [13]和MiniImageNet [39]数据集上的详细实验揭示了（1）我们的DAE公式对于训练能够生成分类权重的元模型的重要性，以及(2) GNN架构设法在少数镜头分类精度上提供一致的改进。最后，我们的模型在所有探索的数据集上都超过了先前的方法新颖类所有类模型单次拍摄5次射击单次拍摄5次射击Prototypical-Nets（来自[41]）39.3 54.466.3 71.2七十三点九49.561.0 69.7 72.9七十四点六匹配网络（来自[41]）43.6 54.066.0 72.5七十六点九54.461.0 69.0 73.7七十六点五逻辑回归[13]38.4 51.164.8 71.6七十六点六40.849.9 64.2 71.9七十六点九逻辑回归w/ H [13]40.7 50.862.0 69.3七十六点五52.259.4 67.6 72.8七十六点九[13]第十三话- -54.362.1 71.3 75.8七十八点一模型骨干单次拍摄5次射击wDAE-GNN48.059.770.3 75.077.859.166.373.276.1 77.5wDAE-MLP47.6 59.270.0 74.8七十七点七59.066.1 72.9 75.8七十七点四初步概算45.4 56.968.9 74.5七十七点七57.064.3 72.3 75.6七十七点三wDAE-GNN -无噪声47.6 59.070.0 74.977.860.066.0 72.9 75.8七十七点四wDAE-GNN -作为输入的47.8 59.470.1 74.8七十七点七58.766.0 73.1 76.0七十七点五31引用[1] G. Alain和Y.本吉奥。正则化的自动编码器从数据生成分布中学习到什么。The Journal of Machine LearningResearch，15（1）：3563-3593，2014。二、四[2] M. Andrychowicz，M. Denil，S. Gomez，M. W. 霍夫曼D. Pfau，T. Schaul和N. de Freitas通过梯度下降来学习。在NIPS，第3981- 3989页，2016年。2[3] L.贝尔蒂内托F.恩

下载后可阅读完整内容，剩余1页未读，立即下载