MetaNODE：原型优化作为少镜头学习的神经ODE

3 浏览量更新于2023-12-01 收藏 795KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

+v：mala2255获取更多论文MetaNODE：原型优化作为少镜头学习的神经ODE张宝泉，李旭涛，叶云明，冯珊珊，叶瑞哈尔滨工业大学，深圳zhangbaoquan@stu.hit.edu.cn摘要少镜头学习（FSL）是一项具有挑战性的任务，即，如何用较少的例子识别新类基于预训练的方法通过预训练特征提取器并且然后经由具有基于均值的原型的最近邻分类器预测新的类来有效地解决该问题然而，由于数据的稀缺性，基于平均值的原型通常是有偏差的。在本文中，我们将其视为一个原型优化问题，以减少尽管现有的元优化器也可以应用于优化，但它们都忽略了关键的梯度偏差问题，即，基于平均值的梯度估计也基于稀少的数据。因此，我们认为梯度本身作为元知识，然后提出了一种新的原型型优化为基础的元学习框架，称为MetaNODE。具体来说，我们首先把基于均值的原型作为初始原型，然后把原型优化的过程建模为由神经常微分方程（Neu- ralODE）指定的连续时间梯度流推理网络被精心设计，以学习估计原型动力学的连续梯度。最后，利用龙格-库塔法求解神经常微分方程，得到大量的实验表明，我们提出的方法获得了优越的性能比以前的国家的最先进的方法。我们的代码将在接受后公开提供。1. 介绍凭借丰富的注释数据，深度学习技术已经在许多应用中显示出非常有前途的性能图像分类[17]。然而，准备足够的注释样本是非常耗时、费力的，或者在某些情况下甚至是不切实际的，例如，冷启动建议[47]和医疗诊断[28]。少样本学习（Few-Shot Learning，FSL）通过模仿人类对新任务的灵活适应能力来解决这一问题它的主要原理是学习Meta-从具有足够标记样本的基本类中获取元知识，然后使用元知识对具有稀缺示例的新类进行类预测[21]。先前的研究主要使用元学习的思想来解决FSL问题，即，在基类上构建一个大的少数任务集合，以学习任务不可知的Meta知识[15，22，42]。最近，Chen等人将特征表示视为元知识，并提出了一种简单的预训练方法[9]，该方法提供了更有前途的性能。在该方法中，他们首先在所有基类上预训练特征提取器，然后通过特征空间中基于均值的原型执行新的类预测。然而，该方法存在原型偏倚问题，因为稀缺的标记样本无法为原型提供可靠的平均估计值[25]。为了解决这个缺点，一些研究试图从大量的少量任务中学习一步原型类型的校正函数[25，41，44]。然而，用一步函数表征偏差太粗糙，无法获得准确的原型（如我们将在第4.4节的表3中看到的）。在本文中，我们将偏差减少视为一个原型优化过程，并试图将其建模为连续动态，而不是学习一步校正函数特别是，由预先训练的特征提取器提供的基于均值的原型被视为原型优化的初始解，然后利用神经常微分方程（神经ODE）[7]来建模优化动态。特殊的建模方案受到以下事实的启发：传统的梯度下降优化（GDO）公式实际上是ODE的基于欧拉的离散实例化[5]。因此，我们引入了一个神经ODE来学习基类中的连续优化动态，并将此元知识应用于新类以获得更可靠的原型。在此基础上，我们提出了一个新的基于原型优化的元学习框架MetaN-ODE。具体来说，我们首先在所有基类上预训练一个分类器，以获得一个特征提取器。然后，给定一个少数镜头的任务，我们平均提取的所有标记样本的特征，作为每个类的初始原型作为续作，这些原型将进一步优化，以减少原型arXiv：2103.14341v1 [cs.CV] 2021年3月+v：mala2255获取更多论文bias.即使现有的基于优化的Meta学习方法（元优化器）[3，30，32]可以用于此目的，它们都遭受共同的缺点，称为梯度偏差问题。问题出现是因为所有现有的元优化器都仔细地对超参数（例如，初始化[30]和正则化参数[3，15]）作为元知识，但是用非常少的样本以平均方式粗略地估计梯度，这显然是不准确的。考虑到梯度估计是非常有偏差的，更准确的超参数是没有意义的，并且不能导致可靠的原型型优化。因此，我们设计了一种新的神经ODE的元优化器，通过处理梯度本身作为元知识。在元优化器中，设计了梯度流最后，通过使用Runge-Kutta求解器[2]求解神经常微分方程，可以获得最优原型，然后使用所获得的最优原型执行我们的主要贡献可归纳如下：• 我们提出了一种新的基于原型优化的元学习框架来解决原型偏差问题，同时发现了现有元优化器的一个关键问题，即，梯度偏差问题。• 为了解决这个问题，我们提出了一个基于神经ODE的元优化器，通过建模的原型演化为神经ODE，这为我们的框架提供了卓越的学习能力，以优化原型。此外，我们的框架可以工作在电感和transductive FSL设置。• 我们在miniIma-genet、tieredImagenet和CUB-200-2011上进行了综合实验。结果表明，我们的方法获得了优越的性能比以前的国家的最先进的方法。2. 相关工作2.1. 归纳少镜头学习归纳FSL假设来自测试数据的信息在分类新类样本时不能被利用。最近，已经开发了许多方法，这些方法可以大致分为三类。1）基于度量的方法。这一系列工作的重点是学习一个任务不可知的度量空间，然后通过具有欧几里得或余弦距离的最近质心分类器来预测类[18，16，22，27，37]。例如，Li等人。[22]提出了一个类别遍历模块来查找任务相关的特征，旨在对低维和紧凑度量空间中的每个样本进行（2）基于优化的方法。其核心思想是在元学习框架[15，20，31，35]，这被称为元优化器。为例如，MAML [14]，MetaLSTM [32]和ALFA [3]介绍了元学习器来学习设计优化算法的初始化，更新规则和权重衰减。（3）基于训练的方法。这类作品主要采用两阶段训练的方式快速适应新任务[13，24，29，38，43，45，46]，即，预训练和微调阶段。例如，Chen等人。[9]提出从所有基本类中训练特征提取器，然后通过具有余弦距离的最近邻分类器对少数任务进行在本文中：1)我们专注于原型偏差问题，并尝试以基于优化的方式来解决它; 2）我们通过将梯度本身视为原型优化的元知识来设计新颖的连续元优化器。2.2. Transductive Few-Shot Learning与归纳FSL不同，转导FSL假设所有的测试数据都可以访问，以预测新的类。近年来，转译FSL技术引起了人们的广泛关注，可分为两大类。1）基于图形的方法。这组方法试图通过为每个FSL任务构建实例图[26，42例如，在[42]中，为FSL设计了一个分布式传播图网络，它探索了标签传播的分布级关系。（2）基于训练的方法。这类研究仍然集中在两阶段培训范式[11，1]。与归纳FSL方法不同，这些方法进一步探索未标记的样本以训练更好的分类器[4，19，40，48]或构建更可靠的原型。类型[25，41，44]。例如，Liu et al.[25]提出了一种标签传播和特征转移策略，用于更可靠的原型估计。在本文中，我们还旨在获得一个可靠的原型。与现有方法不同的是，本文将其视为一个优化问题，提出了一种新的元优化器来求解，并且该方法具有更大的灵活性，既适用于直推式FSL，也适用于归纳式FSL。2.3. 神经常微分方程神经常微分方程是一种连续时间模型，其目的是通过用神经网络表示状态的梯度流来捕捉状态的演化过程最近，它已成功地用于各种领域，如不规则时间序列预测[34]，知识图预测[12]，MRI图像重建[6]，图像去雾[36]。然而，据我们所知，没有以前的工作来探索它的FSL问题。在本文中，我们提出了一种新的基于神经ODE的Meta优化器来填补这一空白。它的优点是，+v：mala2255获取更多论文Dti=0∈ CCDtt=0∇−∇∈SD{}| ·|∇DDO（p）∇可以以连续的方式捕获演化动力学，这产生了FSL的更精确的原型。3. 方法3.1. 问题定义对于一个N路K杆问题，给出了两个数据集：一个基类数据集base和一个新类数据集novel。基类数据集base=（x i，y i）B由大量的标记样本组成，其中每个样本x i用基类y ibase标记（base表示基类的集合）。新的类数据集由两个子集组成：具有少量标记样本的训练集S（称为支持集）和由未标记样本组成的测试集Q（称为它被看作是常微分方程（ODE）的欧拉离散化也就是说，dp（t）dt=− <$L（p（t），t），（3）其中dp（t）被称为原型p（t）的连续时间梯度流。注意，与Eq不同1时，原型就变成了连续时间变量，而不是离散序列，因此记为p（t）。受此启发，我们把原型优化问题看作是一个常微分方程的初值问题，其中初始和最终状态分别是初始和最优原型。为了减小 Eq. 2. 提出了一种梯度流推理网络（GradNet）fθ（），查询集）。这里，支持集S由N个类组成从C类小说集中抽取小说，每个类支杆Oθo（在3.4节中描述）作为元学习者，仅包含K个标记的样本。注意，基类集合和新类集合是不相交的，即， Cbase= Cnovel= C。学习推断其梯度流，然后ODE变成神经ODE，即，dp（t）=f θ（p（t），t）.因此，亲-我们的目标是在给定支持集S和基类数据集D的基础上，为查询集Q学习一个好的分类器。3.2. 深入了解优化原型优化的过程可以描述为：给定初始原型p（0）作为t=0时的初始条件，GradNetfθo（），最优原型可以通过在最后一个时间点t=M评估神经ODE来求解，在介绍MetaNODE之前，我们首先回顾Gra-也就是说， p（M）= p（0）+Mfθo（p（t），t），其中积分梯度下降优化算法（GDO）。梯度偏差形式上，令L（p）是具有原型p的可微损失函数，并且L（p）是其梯度，即，L（p）=Δ p。按照GDO的标准方法，通过执行M迭代，假设初始原型为p0。也就是说，pt+1=pt−η<$L（pt），（1）其中t=0，1，...， M1和η是学习率。GDO已显示出优越的性能与足够的样本。然而，最近的研究[32]表明，由于数据稀缺，它往往在FSL中过度拟合。为了解决这个问题，各种方法通过学习其初始化[14，30]，更新规则[32]，学习率[23]或权重衰减[3]来扩展FSL的GDO。在所有这些方法中，以平均方式估计梯度L（pt），标记的样品。也就是说，项可以通过ODE求解器计算。也就是说，p（M）=ODESolve（fθo，p（0），M），（4）其中ODESolve（）表示ODE求解器，例如，Runge-Kutta方法[2]。我们将基于神经ODE的优化方法称为基于神经ODE的元优化器。这种元优化器的优点是可以以连续的方式捕获原型演化动态，从而为FSL生成更准确的原型。3.3. MetaNODE框架在本节中，我们将介绍如何训练和利用基于神经ODE 的元优化器来解决 FSL 问题。如图 1 所示，MetaNODE框架由三个阶段组成，即，预训练、元训练和元测试。接下来，我们将分别对它们进行阐述。预培训。在[33]之后，我们首先构造卷积--基于神经网络（CNN）的模型，该模型由1L（pt）=公司简介（xi，yi）（pt），（2）特征提取器、线性类别分类器和线性|S|（xi，yi）∈S哪里表示集合的大小，L（xi，yi）（pt）是样本（x i，y i）的梯度。这种估计在少数拍摄场景中显然是不准确的，因为可用的标记样本的数量（例如，K=1或5）远小于预期的量。因此，现有方法的优化性能是有限的。这正是引言中提到的梯度偏差问题关于优化的动态观点。最近的研究[5]发现，方程中描述的迭代过程1可以旋转分级机然后，我们通过最小化两个交叉熵损失，即，标准分类损失Lce和辅助旋转损失Lro，旨在获得旋转不变的图像表示。选项。最后，我们可以得到一个具有参数θ f的特征提取器fθf（），该特征提取器fθf（）将在以下阶段被冻结。Meta-T降雨。在特征提取器fθf（）上，我们通过下面的[ 9 ]为每个少镜头任务使用最近邻分类器。在这里，它的原型是通过两个阶段获得的：1）通过平均少量标记样本的特征来初始化它; 2）通过利用+v：mala2255获取更多论文CD∈Q∈ QDtp'（t）Σ efθf（xi），p'c（t）>·γΣO图1. MetaNODE的整体框架，它包含了一个神经ODE模型的原型优化动力学。基于神经ODE的元优化器。接下来，我们详细介绍如何训练我们的元优化器，以情景训练的方式优化原型[14]。如图1所示，我们首先从基类datasetbase中构造一些N路K-shot任务（称为episodes）。对于每一集，我们从基类base中随机抽取N个类，每个类的K个图像作为支持集S，每个类的M个图像作为查询集Q。之后，在每一集，我们采取以下三个步骤，训练我们的元优化器。步骤3：为了有效地学习动态，我们提出了一种新的基于优化路径的元目标，它由分类损失L cl和动态损失L dl组成。分类损失Lcl旨在学习最优原型以分类每个查询样本xi。具体地说，我们将t=M时刻的原型p（M）作为最优原型，然后通过计算p（M）与每个样本fθf（xi）之间的余弦相似度来评估类概率。也就是说，e·γ步骤1. 我们平均所有标记样本的特征，P（y=k|xi，S，θf，θo）=C、（7）e·γ类k作为它的初始原型pk（0）。也就是说，<其中表示两个向量的余弦相似性，1pk（0）=θf (xi) 、（五）γ是尺度参数。在[8]之后，使用γ= 10。|（xi，yi）∈S k|(xi,yi) ∈Sk其中Sk表示从类别k中提取的支持集。是-我们把原型集{pk（t）}N−1表示为原集，最后，分类损失Lcl被定义为平均值，所有查询样本的负对数似然，即，1L=−lo g（P（y|x，S，θ，θ））。cl i i fo类型分类器的数量，也就是，k=0N−1。|Q|（八）p（t）t p（t）={pk（t）}k=0（xi，yi）∈Q步骤2：为了消除Eq.5，我们首先考虑p（0）（即，t=0）为初始条件，将原型演化过程看作是一个连续时间的动力学过程。然后，基于神经ODE的元优化器被设计来模拟这种动态，它由梯度流推理网络（GradNet）和ODE求解器组成。前者的目的是推断原型动力学的梯度流，它是由一个神经网络fθo（）实现的动力学损失Ldl考虑约束神经ODE以拟合原型演化路径。具体地，给定初始原型（即， p′（0）= p（0））和每个查询样本xi的标签yi，我们可以通过执行M-步骤GDO算法，以最大化每个样本（xi，yi）∈ S ∈ Q的似然估计。也就是说，参数θo（更多详情请参阅第3.4节）最大值e·γlog（），（9）C[2]的文件。最后，原型p（t）可以表示为NeuralODE，即，dp（t）=f θ（p（t），t），通过求解t =1，2，…，M分别表示。也就是说，p（1），.， p（M）= ODESolve（f θo，p（0），（1，.，（M））、（6）其中M表示积分时间。我们根据经验发现，当M为25时，神经常微分方程可以收敛。1. 预训练集2. 元训练3.元目标步骤2：基于神经ODE的元优化器步骤1p（0）是说p（1CNN颂求解p（MLCLLDLFCCNNFCLce+LQro3. 元测试步骤2：基于神经ODE的元优化器特征空间是说步骤1 p（0）步骤3p（MCNN颂求解y基类数据集Q270180900余弦分类器动态损失分类损失梯度流推理网络梯度流推理网络...tails）。后者用于求解神经常微分方程以获得最优原型，如Runge-Kutta方法（xi，yi）∈S <$Q+v：mala2255获取更多论文--DLNMKK1ΣΣ其中在t=1，2，...，M被认为是原型演化路径的基础真值，即，p′（1），p′（2）...，p′（M）.因此，动态损失Ldl可以被定义为它们的均方误差（MSE），{p′（1），p′（2），.， p′（M）}和{p（1），p（2）...，p（M）}：N−1ML=MSE（p（t），p′（t）），（10）k=0t=1+v：mala2255获取更多论文多模块增强机制GKH推断模块L，聚合器wk，l，0wk，l，iwk，l，i......输出层......估计器gk，l，0......这是什么？gk，l，iH' k，l，i...氧化皮层......交互层hk，l，i嵌入层......pkx1......这是什么？xi.PKK'X1你们...Xi你们...1我OSǁ⊗OE·θθoOEk=0ǁk=0ooθΣeαc，l，i/ooeα c，l，i.oo计算缩放特征和原型之间的差向量。也就是说，gk，l，i=fθf（xi）<$fθl（fθf（xi）<$pk）−pk，（12）其中是两个向量的级联运算，表示逐元素乘积运算。聚合器。根据估计的梯度流gk，l，i由于每个样本（xi，yi）的贡献，我们讨论了如何将它们合并。直觉上，不同的样本对原型pk的梯度流预测有不同的贡献。为此，我们设计了一个聚合器来预测它们的权重，它由一个嵌入层fθl（），一个相互作用层fθl（）和输出层fθl（），其中θl，θl，和pSQ大乌大爱K图2.梯度流推理网络的图解其中MSE（）表示两个向量之间的MSE损失。最后，我们通过最小化两个损失函数定义在方程。8和10。也就是说，minE（S，Q）∈TLcl+λLdl，（11）其中T表示N路K次任务的集合，λ为l分别表示它们的参数。接下来，我们将分别详细介绍这三个组件。1) 嵌入层。我们首先通过计算pk与fθf（xi）的逐元素乘积来融合它们的特征。然后，这些特征和由它们的标签k和yi变换的它们的独热向量（注意，我们将未标记样本的独热向量替换为值为1 /N的N -dim向量）被级联为嵌入层f θl（）的输入。因此，可以获得嵌入hk，l，i超参数调整分类损失Lcl和dy，hk，l，i=fθl（k′<$pk<$yi′<$fθ（xi）<$pk<$fθ（xi）），（13）动力学损失Ldl.在本文中，使用λ = 1。欧法元测试。它的工作流程类似于元训练阶段。关键的区别是我们去掉了损失评估-定义在Eqs。8-11，并通过以下等式直接对新类别执行少镜头分类。507.3.4. 梯度流推理网络在本节中，我们将详细介绍GradNetMetaNODE中使用的f θo（）。我们的概念是将支持集S、查询集Q和原型p（t）={p k（t）}N −1视为输入，并将估计的梯度流g（t）={g k（t）}N −1视为其中k′和yi′表示标签k的独热向量，yi，分别;以及是一个连接操作。2) 交互层。作为由Eq. 13没有利用样本之间的相关性，我们在这里引入交互层来对此进行建模。基于嵌入hk，l，i，我们采用基于多头的注意力机制[39]来对这些样本对之间的关系进行因此，增强的可以得到嵌入h′k，l，i输出，然后构建梯度流推理网络h′=fl（{hk，l，i}|苏富比|−1）+hk，l，i，（14）采用多模块集成机制，如图-k，l，iθoii=0ure2.我们设计了多个具有相同结构的推理模块来估计g（t），而不是执行单个推理模块。这里，每个推理模块由估计器和聚合器组成该估计器的目的是预测每个样本（xi，yi）∈ S ∈ Q的贡献梯度。其中我们注意到，还引入了残余连接，其可以提供更鲁棒的表示。3) 输出层。我们首先将增强的嵌入h′k，l，i作为输出层fθl（）的输入，来预测每个样本xi的权重αk，l，i，即αk，l，i=汇总账户用于评估以下方面的贡献：每个样本，然后将估计的梯度与加权平均值组合。为了清楚起见，我们省略了符号t并取fl（h′k，l，i）. 然后，softmax函数和归一化函数用于获得归一化权重wk，l，i：推理模块L和类K作为例子来详细说明它们。eαk，l，i|− 1| −1eαk，l，i（十五）Ci=0C估计。由于我们采用了基于余弦的分类器，原型有望接近所有的角中心，+v：mala2255获取更多论文OSk，lΣΣwk，l，i=ΣOS每个班级的样本为了消除向量范数的影响，我们首先采用带有参数的尺度层f θl（）最后，我们应用权重wk，l，i对估计的梯度gk，l，i进行积分，然后获得聚合gardentµk，lL 将每个样本的特征（xi，yi）变换为an及其方差σ2：适当的比例，并通过逐元素乘积获得比例特征然后，我们通过下式估计梯度流gk，l，i：µk，l=wk，l，igk，l，i我2k，l=wk，l，i我（gk，l，i- µk，l ）2、（十六）θ，σ+v：mala2255获取更多论文l=0--k，ll=0ΣΣΣ ΣΣ不QSQS∼∼∼∼∼--其中μ k，l是由模块l对类k估计的梯度。多模块包围机制。在这一部分中，我们将讨论如何通过利用所有推理模块的变量来组合这些梯度µk，lH−1σ2H−1，其中H表示推理模块的数量。直觉上，方差反映了由所有样本贡献的梯度，即，较大的变化意味着较大的不确定性。因此，为了获得更可靠的梯度流，我们将方差作为权重来组合这些梯度。也就是说，具有小方差的梯度被分配有大权重，如：尺度层，嵌入层采用具有512维输出的单层感知器，交互层采用具有8个ELU [10]用作激活函数。训练细节。在[9]之后，我们使用SGD优化器来训练100个epoch的特征提取器。在元训练阶段，我们使用Adam训练基于神经ODE的元优化器50 epoch，学习率为0.001和0.0005的权重衰减，其中学习率分别在时期15、30和40衰减0.1。评价在[9]之后，我们在gk=βH−1l=02k，l）−1−1H−1l=02k，l）−1µk，l，（十七）600个随机采样的事件（5路1次/5次设置），并报告平均准确度和95%置信区间。其中gk表示原型pk的估计梯度流，β表示随时间t指数衰减的项，即，β=β0<$−M（β0和<$是超参数，分别设置为0.2和0.5）。在上述过程中，同时利用了来学习梯度流。因此，它可以被认为是一种转导FSL方法。对于归纳FSL，推理工作流类似于等式2中定义的上述过程。1217唯一的区别是删除了查询集，并且仅支持给定集合和原型p（t）作为GradNet的输入，以估计原型pk的梯度流gk。4. 绩效评价4.1. 数据集和设置迷你影像网该数据集来自ImageNet数据集。它由100个类组成，每个类包含600个图像。按照[9]中的标准划分，我们将数据集分为64类，16类和20类，分别用于训练，验证和测试。TieredImagenet. 该数据集是一个更大的数据集，包含608个来自ImageNet的类，每个类包含1200个图像。在[9]之后，数据集被分为20个用于训练的高级语义类别，6个用于验证的高级语义类别和8个用于测试的高级语义类别。CUB-200-2011。该数据集是具有200个类的细粒度鸟类识别数据集。它包含约11，788个图像。按照[8]中的标准划分，我们将数据集分为100个类，50个类和50个类，分别用于训练，验证和测试。4.2. 实现细节网络详细信息。我们使用ResNet12 [9]作为特征提取器。在我们的元优化器中，我们使用4个推理模块来估计梯度流。对于每个模块，我们使用具有512维隐藏层的两层MLP用于4.3. 实验结果我们评估 MetaNODE 和各种国家的最先进的approaches一般和细粒度的少数拍摄任务。通用的少镜头图像识别。表1显示了miniImagenet和tieredImagenet上的各种评估方法的结果。与最先进的方法相比，MetaNODE始终在两个数据集上实现最佳这证明了MetaNODE的优越性。在归纳FSL设置中，MetaNODE的性能超过了最先进的方法，特别是在单次任务上，提高了2%-4%。具体而言，与基于度量的方法（RestoreNEt，CTM和CAN）的最佳结果相比，MetaNODE可以实现1%-4%的高精度。与这些方法不同，我们引入了一个预训练阶段来学习图像表示和一个新的元优化器来打磨原型基于优化的方法也集中于以元学习方式对少量标记样本的优化算法建模然而，与它们不同的是：1）我们将梯度流视为Meta知识; 2）我们专注于优化原型而不是整个模型。结果验证了该方法的优越性。最后，与基于预训练的方法相比主要原因是我们减少了原型通过引入元优化器来优化原型。在转导FSL设置中，还可以发现MetaNODE优于最先进的方法（例如，TIM-GD和BD-CSPN），约1%-5%。具体而言，与这些基于图和预训练的方法不同，我们的方法利用未标记样本来推断原型进化的梯度流，而不是提升图像表示或作为训练分类器的正则化。值得注意的是，我们的方法也击败了BD-CSPN，SRestoreNet和SIB，它们也试图获得更具代表性的与之不同的是，我们专注于原型动力学建模，而不是恢复原型或推断未标记样本的丢失。（σ（σ+v：mala2255获取更多论文∼表1.在miniImageNet和tieredImageNet上的实验结果最佳结果以粗体突出显示设置方法类型骨干miniImagenettieredImagenet5路1拍五向五射5路1拍五向五射RestoreNet [41]度量ResNet1259. 28 ±0。百分之二十62岁05 ±0. 百分之五十五63岁85 ±0。百分之四十八43. 44 ±0。百分之七十七58. 37 ±0。百分之四十九52. 3 ±0。百分之八59. 74 ±0。百分之四十九63岁17 ±0。百分之二十三63岁85 ±0。百分之八十一59. 88 ±0。百分之六十七51. 87 ±0。百分之七十七- 78. honor63 ±0。06%79. 44 ±0。百分之三十四六十60 ±0。百分之七十一69岁76 ±0。百分之四十六68岁。4 ±0。占6%七十七。96±0。百分之四十一79. 26 ±0。百分之十七81岁。57 ±0。百分之五十六八十。35 ±0。百分之七十三七十五。68±0。百分之六十三- 第六十四章. 78 ±0。百分之十一69岁89 ±0。百分之五十一- ± − %58. 58 ±0。百分之四十九五十七2 ±0。百分之九64岁62 ±0。百分之四十九68岁。62 ±0。百分之二十七- 第六十九章. 29 ±0。百分之五十六- ±−%- 81. honor05 ±0. 百分之五十二84. 23 ±0。百分之三十七- 71. honor24 ±0。百分之四十三71岁。4 ±0。占7%82. 48 ±0。百分之三十八83. 29 ±0。百分之十八- 85. howdo youknow？97±0。百分之四十九- ±−%澳门[22]度量ResNet12加拿大[18]度量ResNet12MetaLSTM [32]优化Conv4MAML [14]优化ResNet12在Warp-MAML [15]优化Conv4归纳的ALFA [3]优化ResNet12新基线[9]预训练ResNet12[24]第二十四话预训练ResNet12[24]第二十四话预训练ResNet18基线++[8]预训练ResNet18元节点预训练ResNet1266.52±0.88%81.94±0.55%72.88±0.91%84.94±0.70%民主党国民大会[42]图ResNet1267岁。77 ±0。百分之三十二66岁50 ±0。百分之八十九65岁77 ±− % 73. 72.第七十二章11 ±0。百分之十九31 ± 0。百分之九十三61. 14 ±0。百分之二十二七十。0 ±0。占6%84. 60 ±0。百分之四十三81岁。06 ±0.百分之六十78岁85.第八十五章82.第82章31 ± 0。81. honor 89±0。百分之六十- ±−%79. 2 ±0。百分之四72. 45 ±0。百分之五十一76岁53 ±0。百分之八十七八十。79.第79集78.第七十八章98 ± 0。78. babybaby 74 ±0。百分之九十五- ±−%- ±−%87岁24 ±0。百分之三十九87岁32 ±0。百分之六十四87岁88.第八十八章. 86.第八十五章39 ±0。86.honey，honey 92±0。百分之六十三- ±−%- ±−%EPNet [33]图ResNet12ICI [40]预训练ResNet12TIM-GD [4]预训练ResNet18反式[48]第四十八话BD-CSPN [25][41]第四十一话预培训Pre-training预训练ResNet18WRN-28-10ResNet18[第十九话]预训练WRN-28-10元节点预训练ResNet1277.46±0.98%85.12±0.61%84.08±0.94%87.98±0.64%表2. CUB-200-2011上的实验结果设置方法Cub-200-20115路1拍五向五射归纳地RestoreNet [41]MAML [14][24]第二十四话[24]第二十四话基线++[8]74岁32 ±0。百分之九十一五十五92 ±0。百分之九十五72. 66 ±0。百分之八十五74岁22 ±1。09%67岁。02 ±0.百分之九十- 72.hotwater 09 ±0.百分之七十六89岁40 ±0。百分之四十三88岁65 ±0。百分之五十五83. 58 ±0。百分之五十四元节点80.45±0.74%91.80±0.40%反式民主党国民大会[42]EPNet [33]ICI [40]TIM-GD [4][48]第四十八话BD-CSPN [25]RestoreNet [41]七十五。71±0。百分之四十七82. 85 ±0。百分之八十一87岁百分之八十七82. 2 ±−%八十。百分之九十六87岁百分之四十五91. 48 ±0。百分之三十三91. 32 ±0。百分之四十一92. 百分之三十八九十。8 ±−%88岁百分之六十八91. 百分之七十四- ±−%76岁85 ±0。百分之九十五元节点91.33±0.74%93.48±0.37%细粒度少镜头图像识别。CUB-200-2011的结果见表2。类似对于表1，我们观察到MetaNODE显著优于最先进的方法，实现了2%-6%的高准确度分数。这进一步验证了MetaNODE在细粒度FSL任务中的有效性，其表现出比一般FSL任务更小的类差异。4.4. 统计分析MetaNODE能消除原型偏差吗？在表3中，我们报告了初始（最佳）原型之间的余弦相似性 p （ 0 ）（ p（M））和相应的类集中在miniImagenet的5路1次任务上注意+v：mala2255获取更多论文通过平均所有标记和未标记样本的特征来获得类中心。报告的结果是1000次发作的平均值。我们选择BD-CSPN和SRe- storeNet作为基线，因为它们也试图减少原型偏差。结果表明，MetaNODE将其视为一个原型优化问题，从连续动力学的角度进行求解，得到的原型比它们更精确MetaNODE能消除梯度偏差吗？在表4中，我们从miniImageNet中随机选择了1000集，然后计算平均（推断）和真实梯度之间的余弦相似度。这里，平均梯度通过等式（Eq.2的梯度，并利用GradNet对梯度进行估计。此外，通过使用所有标记和未标记的样本，通过以下等式估计真实梯度。二、我们选择SIB作为基线，它通过推断未标记样本的损失值来估计梯度。可以观察到，MetaNODE可以实现比SIB更高的余弦相似性，这意味着MetaNODE获得更准确的梯度估计。这是因为：1) MetaNODE从动力学角度对梯度流进行建模; 2）设计了一个基于优化路径的元目标来捕获原型动力学。我们的元优化器能收敛吗？在图3（a）中，我们从miniImageNet中随机选择了1000个事件，然后报告它们的测试准确性和从积分时间t=1到30的损失。可以观察到，当t=25时，我们的元优化器可以收敛到稳定的结果。因此，M=25是我们方法中的默认设置。我们的元优化器是如何工作的？我们想象原始的-+v：mala2255获取更多论文∼∼表3.在miniImagenet上进行原型偏差实验方法初始原型最佳原型BD-CSPN [25]0.640.75[41]第四十一话0.640.85元节点0.640.94表4.miniImagenet上的梯度偏置实验方法平均梯度推断梯度[第十九话]0.04370.0659元节点0.04370.1706表5. miniImagenet上元优化器的消融研究。QS表示来自查询集Q的未标记（查询）样本。方法5路1拍五向五射（一）（二）（三）（四）（五）（六）基线+ ANIL [30]+ MetaLSTM [32]+ ALFA [3]+ 神经常微分方程+ 神经ODE + QS61.22 ±0.84%60.67 ±0.81%63.85 ±0.81%64.37 ±0.79%66.52 ±0.88%77.46 ±0.98%78岁72 ±0。百分之六十77.98 ±0.59%79.49 ±0.65%八十。75 ±0。百分之五十七81.49 ±0.55%85. 12 ±0。百分之六十一表6.miniImagenet上元目标的消融研究0.90.80.70.60 5 10 15 20 2530积分时间(a) 性能(b) 特征空间表7.miniImagenet上系综机制的烧蚀研究方法5路1拍五向五射（一）（二）w/合奏w/o合奏77.46 ±0.98%76.04 ±0.93%85.12 ±0.61%83.96 ±0.57%图3.在miniImagenet上实现原型动力学的可视化在miniImagenet上的特征空间中，5路1次任务的类型动态，如图3（b）所示。请注意，由于每个类中只有一个支持示例，因此将其特性用作初始原型。我们发现，最初的原型类型标记的广场流到最佳原型标记的明星，更接近类中心。这种可视化表明元优化器有效地学习了特征空间中的代表性原型。4.5. 消融研究我们的元优化器有效吗？在表5中，我们进行了一项消融研究，以分析我们的Meta优化器的有效性。具体来说，在归纳FSL设置中，（i）我们将元优化器作为基线，然后我们的模型退化为具有基于均值的原型的预训练方法[9];（ii）我们删除基于均值的原型并在（i）上添加基于ANIL的元优化器[30]以学习良好的初始分类器;（iii）我们在（i）上添加基于MetaLSTM的元优化器[32]以优化原型;（iv）我们用基于ALFA的元优化器替换MetaLSTM[3]关于（iii）;（v）与（iv）不同，我们用我们的元优化器替换MetaLSTM，然后获得MetaNODE;以及(vi)我们进一步探索（v）上的未标记样本。根据（i）的结果，(v)，我们观察到：1）性能（v）的性能超过（i）大约2% 5%，这意味着利用基于优化的方法来优化原型是有帮助的; 2）（v）的性能超过（ii）（iv）大约1% 6%，这证明了我们的元优化器的优越性。这是因为我们的元优化器将梯度本身视为元知识，而不是hy。76726864损失准确度损失测试准确度（%）方法5路1拍五向五射（一）（MetaNODEw/oLcl不含Ldl77.46 ±0.98%75.45 ±1.07%75.92 ±1.06%85. 12 ±0。百分之六十一83.72 ±0.55%83.85 ±0.64%+v：mala2255获取更多论文∼∼像权重衰减这样的预参数[3]。最后，比较（v）和（vi）的结果，我们发现引入未标记的样本可以显着增强我们的元优化器。是Eq中描述的元目标。11有效？在表6中，我们评估了两种损失的影响，即，Lcl和Ldl。具体来说，在元训练阶段：（i）我们包含所有元目标来训练我们的模型;（ii）我们在（i）上删除Lcl;（iii）我们在（i）上删除Ldl。可以发现，当去除Lcl和Ldl时，MetaNODE的分类精度下降了1%~ 2%。这表明，将这两种损失合并考虑是有益的。集体机制是否有效？在表7中，我们评估了系综机制的效果。具体而言，（i）我们使用GradNet上的机制，即，H=4;（ii）我们将其移到（i）上，即，H=1.我们发现，当去除它时，性能下降了1%~ 2%，这一结果表

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

MetaNODE：原型优化作为少镜头学习的神经ODE

ODE的示例程序

Matlab中求微分方程数值解的函数有七个：ode45，ode23，ode113，ode15s，ode23s，ode23t，ode23tb，说明他们区别具体体现在什么地方

neural ode

用matlab做：分别用命令ode23,ode23t和ode45求贝塞尔方程的数值解，并作出数值解曲线．

bp神经网络求解常微分方程的数值解解，结合改进欧拉数值法，与ode45 比较，使其精度高于ode45，运用激活函数，最后绘制精确解比较图的matlab

matlab ode求解器

用matlab编写：分别用命令ode23,ode23t和ode45求贝塞尔方程的数值解，并作出数值解曲线． x^2y"+ xy '+(x^2-0.025) y =0,y(pi/2)=2，y'(pi/2)=2/pi)

神经网络可以解常微分方程吗

ode15i或ode15s函数无法收敛。

物理引擎 ode 安装

ode45 ode15s

用机器人运动的横坐标替代ode45的时间范围用ode45求解变刚度阻尼双足机器人动力学方程

matlab求解微分ode

matlab解微分方程 ode45

odearguments(FcnHandlesUsed, solver_name, ode, tspan, y0, options, varargin);

ode45函数Matlab

ode45和ode89哪个好

matlab中ode函数用法

最新资源