具有难度意识的不平衡领域序列上的Meta学习

198 浏览量更新于2023-10-13 收藏 1.12MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

8947具有难度意识的不平衡领域序列上的Meta学习王振义，段铁航，乐芳，索秋玲，高明晨，纽约州立大学布法罗分校计算机科学与工程系1{zhenyiwa，tiehangd，lefang，qiulings，mgao8}@ buffalo.edu摘要在进化的环境中，通过从少量标记的示例中学习来识别新对象对于现实世界的机器学习系统获得良好的泛化能力当前Meta学习算法的典型设置假设在元训练期间任务分布是固定的。在本文中，我们探索了一个更实际和具有挑战性的设置，任务分布随时间变化的域转移。特别是，我们认为现实的scenar-ios任务分布是高度不平衡的域标签在性质上不可用。我们提出了一个基于内核的方法域变化检测和困难意识的内存管理机制，共同考虑不平衡的域大小和域的重要性，不断学习跨域。此外，我们在Meta训练过程中引入了一种有效的自适应任务采样方法，该方法在理论保证的情况下显著降低了任务梯度方差最后，我们提出了一个具有挑战性的基准与不平衡的域序列和不同的域难度。我们已经进行了广泛的评估建议的基准，证明了我们的方法的有效性。1. 介绍从少量标记样本中学习新任务的技能以个性化自动驾驶系统中的物体识别为例[10]。学习每个用户该系统首先部署在小城市罗切斯特。公司后来将市场扩展到纽约。纽约的用户群比罗切斯特的用户群大得多此外，在适应纽约用户之后，从罗切斯特学到的用户当学习在一系列不同语言上解决NLP任务时，也会出现类似的情况[13]，这些语言具有不同的不平衡资源图1：在一系列不平衡域上进行少量拍摄对象识别的Meta学习的图示。重点讨论了领域变化检测、如何管理记忆以及如何对记忆任务进行采样以实现与流任务的联合语言Meta学习是一种很有前途的方法来解决这样的少数拍摄学习问题。当前模型的一个常见假设是任务分布在Meta训练期间是固定的。然而，现实世界的场景（例如上述自动驾驶系统）更加复杂，并且通常涉及跨不同领域（环境）的学习，具有诸如以下的挑战：（1）任务分布在不同领域之间变化;（2）当在新领域上训练时，来自先前领域的任务通常不可用;（3）来自每个领域的任务的数量可能高度不平衡;（4）结构域难度在结构域序列之间在性质上可以显著变化。图1中示出了示例。将当前的Meta学习模型直接应用于这样的系统不适合于解决这些挑战，例如，Meta学习神经网络目标识别精度8948D D DTMMD dd12N不k=1TT {T T}在适应新环境后，通常会在先前的环境中显着恶化[23，46，63]。在这项工作中，我们通过考虑来应对这些挑战-2. 问题设置一系列小批量训练任务T，T，. . . ，Tar-设置一个更现实的问题：（1）在一系列域上学习;（2）任务流中存在显著的域大小不平衡;（3）域标签和边界在训练和测试期间都保持不可用;（4）在域序列上，域难度是不均匀的。我们把这样的问题设置为Meta学习序列的不平衡域与不同的难度（MLSID）。MLSID要求Meta学习模型既能适应新的领域，又能保持从以前的领域识别对象的能力。为了解决这个具有挑战性的问题，我们采用基于重放的方法，即，来自先前域的少量任务被保持在存储器缓冲器中。因此，有两个主要问题需要解决：（1）如何确定哪个任务应该被存储到存储器缓冲器中以及哪个任务要被移出。针对这一问题，本文提出了一种基于领域分布和难度的自适应内存管理机制，使得内存缓冲区中的任务能够最大限度地利用先前领域的知识;（2）Meta训练过程中如何确定从内存中抽取哪些任务我们提出了一种有效的自适应任务采样方法，以加速Meta训练和减少梯度估计方差根据我们推导出的最佳任务采样分布。我们的直觉是，对于不同迭代的联合训练，并非所有任务都同等重要。因此，期望动态地确定哪些任务要采样并且要与当前任务联合训练以减轻每次训练迭代时的灾难性遗忘。我们的贡献概述如下：• 据我们所知，这是Meta学习在一系列不平衡域上的第一项工作。为了方便评估不同的模型，我们提出了一个新的具有挑战性的基准组成的不平衡域序列。• 我们提出了一种新的机制，顺序驱动，可能发生的域转移流，即，任务流可以由连续的潜在域1，2，. . .，L.t表示在时间t到达的小批量任务。在Meta训练和测试期间，与每个任务相关联的域标识保持不可用。域边界，即，指示当前域已经结束并且下一个域即将开始的信息是未知的。这是一种更实用和更通用的设置。每个任务分为训练和测试数据训练、测试。假设train由K个示例组成，（xk，yk）K，其中，在对象识别中，xk是图像数据，yk是对应的对象标签。我们假设代理在每个域中连续停留一段时间。此外，我们考虑一个简化的设置，代理将不会返回到以前的域，并把相反的情况下到未来的工作。我们提出的学习系统保持一个内存缓冲区存储少量的训练任务，从以前的领域重放，以避免忘记以前的知识。在训练过程中，旧的任务不会被重新访问，除非它们被存储在记忆中。处理的任务总数远远大于内存容量。在Meta训练结束时，我们从每个潜在域1，2，.随机抽取大量看不见的少数任务。. .，L用于Meta测试。模型性能为所有抽样任务的平均准确度。3. 方法3.1. 常规油藏取样方法及其局限性水库抽样（RS）[57，15]是一种随机抽样方法，用于在单次通过中从数据流中选择k个样本，而无需事先知道项目总数的实际值这里直接采用RS是为了维护固定的内存并从任务流中统一采样任务。流中的每个任务被分配到移动到存储器缓冲区中的相等概率n有着领域分布和难度意识的其中nN是内存容量大小，N是总在一些实施例中，可以使用“存在性• 我们提出了一种有效的自适应任务采样方法在Meta训练，这显着降低梯度估计方差与理论保证，使元训练过程更稳定，提高模型的性能。• 我们的方法与特定的Meta学习方法正交，并且可以与它们无缝集成。基于梯度和基于度量的Meta学习方法在所提出的基准上进行了大量的实验，证明了我们的方法的有效性。到目前为止看到的任务数。但是，它不适合前面描述的实际场景，有两大缺点：（1）当输入任务流在我们的设置中高度不平衡时，存储器中的任务分布可能偏斜。这导致少数群体领域的代表性不足;（2）每项任务的重要性各不相同，因为有些领域比其他领域更难学习。RS也没有考虑这个因素为了解决上述问题，我们建议首先检测输入任务流中的域变化，以将每个任务与潜在域标签相关联。然后，我们提出了一种新的机制，称为记忆管理与领域分布和难度意识，利用相关的潜在8949−VUVB···UV {···}- -不不空间ot=fθ（T列）=1Kfθ（{xk}），其中K是KRBF核k（x，x′）=exp（−||x−x′||2/2σ2）。(a) 储层取样（b）建议的存储器管理图2：（a）水库采样和（b）提出的内存管理方法的一个例子，当对来自三个潜在域的任务流进行Meta学习时，联合考虑域分布和难度。每个任务的域标签为了简单的说明，我们构建一个不平衡的输入任务流从Miniimagenet，Omniglot和飞机如图2所示。显然，由此产生的存储任务与RS的分布是高度不平衡的，并显着影响的输入任务流分布。相比之下，我们的内存管理机制平衡的三个域的比例，共同考虑域的分布和难度。模型概述：我们首先在第3.2节中说明我们的域变化检测组件，其用于（1）通过结合任务难度（在第3.4节中定义）来管理和平衡存储器缓冲区中的任务，以确定是否应将新传入任务移入存储器以及在第3.3节中应将哪个旧任务移出存储器;（2）从存储器缓冲区中自适应采样任务。在Meta训练期间，通过根据第3.4节中用于减轻灾难性遗忘的任务梯度来动态调整记忆中每个任务的采样概率。3.2. 在线域名变更检测在线域变化检测是一个困难的问题，因为：（1）少数镜头任务在单个领域内是高度多样化的;（2）在领域内存在不同程度的变化用图像嵌入法对图像类别进行词嵌入我们把这个方向作为有趣的未来工作。为了减少不同的少数任务之间的差异并捕获一般域信息，我们计算任务嵌入O t的指数移动平均值Ot=αot+（1α）Ot−1，其中常数α是加权乘数，它编码当前任务嵌入和过去移动平均值之间的相对重要性。滑动窗口存储过去的m（ m 是一个很小的数字）步移动平均，Ot−1 ，Ot−2，，Ot−m，它们用于形成低维投影向量zt，其中zt的第i维元素是ot和Ot−i之间的距离，d（ot，Ot−i）。投影的m维向量Zt捕获跨越多个连续任务的较长上下文相似性信息。在线域变化检测在每个时间t，我们利用上面构造的投影空间进行在线域变化检测。假设我们有两个窗口，用于预测先前任务的嵌入{zt−2B，zt−2B+1，· · ·，zt−B−1}，分布为Q和B =zt−B，zt−B+1，，zt，分布R，其中B是窗口大小。换句话说，B表示投影空间的最近窗口（测试窗口），并且B表示先前窗口的投影空间（参考）。事件窗口）。B和B是非重叠窗口。为了符号清楚和呈现方便，我们使用另一符号来表示 UB ={u1，u2 ， ... ， uB} 和 VB={v1 ， v2 ， ... ， vB} ，即，ui=zt−2B+i−1和vi= zt−B+i−1。我们的一般框架是首先测量两个分布Q和R之间的距离d（Q，R）;然后，通过设置阈值b，当d（Q，R）> b时检测到域变化。在这里，我们使用最大平均离散度（MMD）来衡量分布距离。在[37]之后，Q和R之间的MMD距离被定义为：MMD[F ，Q，R]：=sup{EuQ[f（u）]−EvR[f（v）]}（1）f∈FU-统计量[25]可用于估计MMD2：WB=MMD2[UB，VB] =1Σh（u，u，v，v）跨越序列的边界。在我们的初步研究中，我们发现，这是不够的，设置阈值的变化小批量任务损失值检测领域的变化。因此，我们构建了一个低维的投影空间，并在这个空间上进行在线域变化检测。不并且h（·）被定义为：B（B−1）i=ji j iJ（二）投影空间T问Tt一个映射到公共训练数据的数量和fθ不是CNN的嵌入-h（ui，uj，vi，vj）=k（ui，uj）+k（vi，vj）k（ui，vj）k（uj，vi）（三）其中k（·，·）是RKHS内核。本文假设丁网任务嵌入可以进一步重新通过结合图像标签，例如，级联在时间t的检测统计量是WB。如果Q和R是接近，WB预计是小的，这意味着小概率-不不k=1不8950不不不不不不不不不0不不不不不不lΣLM→TTt−1不不我我我域变化存在的可能性如果Q和R是显著不同的分布，则预期W B是大的，这意味着更高的域移位的机会。因此，WB表征在时间t处的畴移位的机会。然后，我们在W B> b的条件下进行测试，以确定是否发生域变化，其中b是阈值。每个任务t与潜在域标签Lt相关联，L0= 0。如果W B> b，则Lt=Lt−1+ 1，即，新的域到达（注意，实际的域变化可能发生在几步之前，但为了简单起见，我们可以假设域变化发生在时间t）;否则，Lt= Lt-1，即，当前域继续。我们离开更一般的情况下与域重访作为未来的工作。如何设置阈值是一项重要的任务，将在下文中进行描述显然，设置阈值b涉及两个方面之间的权衡：（1）当没有域改变时WB>b的概率;（2）当存在域改变时WB>b的概率因此，如果领域相似性和难度变化很大，那么在整个训练过程中简单地设置固定阈值是非常不够的。换句话说，需要b的自适应阈值在我们提出自适应阈值方法之前，我们首先在下面展示表征检测统计量WB算法1在线域变化检测（ODCD）。要求：检测统计流WB;常数ρ;所需分位数（显著性水平）δ;初始化µ0= 0和µ（2）= 0[50，30]。我们可以观察到W_B渐近地服从由独立正态分布的加权线性组合形成的分布根据Lindeberg因此，问题简化为估计其均值µt和σt。根据[30]，自适应阈值b可以通过在线近似估计，b=µt+δσt，其中δ是常数，并设置为正态分布的所在算法1中示出了用于在线域变化检测的这种自适应方法。3.3. 具有域分布和难度意识的在本节中，我们设计了内存管理机制，用于确定哪些任务要存储在内存中，哪些任务要移出。该机制，命名为内存管理与域分布和困难的意识（M2D3），共同考虑的难度和分布的少数拍摄任务，在我们的设置。M2D3首先估计当前任务t被移动到存储器中的概率然后，该模型将确定在发生新任务移入的情况下要移出的任务为了提高效率，我们利用所获得的与每个任务相关联的潜在域信息（如前一部分所述）来在对单个任务进行采样之前首先在集群级别估计该移出概率，如图3所示。1：函数ODCD（WB，p，δ）2：d=False; //域移位3：µt=（1−ρ）µt−1+ρ（WB）24：µ（2）=（1−ρ）µ（2）+ρ（WB）4不不5：σt=√µ（2）−µ26：如果WB> µt+δσt，则7：d=T_rue; //在时间t处存在磁畴移位8：如果结束9：返回d10：结束函数定理1假设zi是独立同分布的。从Q。什么图3：内存管理过程的图示。每个彩色圆圈表示缓冲区中的一个群集，并且假设EQ||k（z，·）||4<∞。设置µdef= EQk（z，·）和每个点表示一个任务。“def”K（z，z）=∠k（z，·）−µ，k（z，·）−µ∠。设K的特征值λ1和特征向量λ2满足λ1≥0，在这里，我们定义了以下方法描述中涉及的符号。存储器中的每个任务Tt都是关联的EQ2∞使得K（z，z′）=l≥1ξll（z）l（z′）且<具有潜在域标签Lt的所有任务⟨ ϕl，ϕl′⟩ =1l=l′. 然后，WB→βΣξZ2D不L L（四）潜在域标记形成一个簇。 i表示由存储器M中具有潜在域标签i的所有任务形成的集群，|M|表示M中的任务数，并且l≥1Dn= |M|表示内存中的任务总数，表示聚类Mi的重要性分数。其中均值收敛于分布，（Zl）l≥1是无限个独立的标准正态随机变量的集合，β是一个常数。定理和证明如下当新任务t到达时，估计t被存储在存储器中的机会，其基本原理是8951不不不niITni=1Σ不不MTPTM{}不M ← M∪TTM←M∪TMLt−1i=1n我我我t带来的增量知识越多，t被存储的概率就越高这取决于当前潜在域的难度和流行程度。我们提出了一种方法，在这个原则的顶部，以估计这种概率。Tt的评分函数定义为：nL在存储器中，我们执行分层采样方法。我们首先在集群级别执行采样，然后关注单个任务，如图3所示。估计的概率与内存中每个簇的大小及其重要性相关每个聚类的因子i定义为：其中TS新=（1-t）Tn（五）Ai∝ −（1−i）I⑶t表示t的重要性，其在第3.4节中被定义为任务特定的梯度范数。表示当前潜在域集群的任务数然后将每个聚类的移出概率定义为i在时间t在内存缓冲区中。 nLt 表示当前ieAi记忆中潜在域Ii表示聚类Mi的重要性，其被定义为聚类特定梯度Pt=Σi=Lt−1eA（九）在3.4节中的范数Gi（计算是共享的，并且对应的项仅计算一次）。内存任务的重要性定义为Ms=1Lt−1niIi。算法2中总结了完整的机制。3.4. 用于训练的自适应记忆任务采样记忆任务的得分函数定义为：nL在Meta训练期间，对一小批任务进行采样并与当前任务Smem=tMs（6）n来减轻灾难性的遗忘从记忆中直接均匀抽样任务会导致高方差，并导致不一致。将Tt移动到存储器中的概率为：eS新闻Pin=eSnew+eSmem（七）稳定训练[31，9]。另一方面，我们对非均匀任务采样机制的直觉是，任务对于保留来自先前领域的知识并不同等重要承载更多信息的任务更多这种任务选择机制最大化了增量将每个任务的知识添加到内存中。算法2具有域分布和难度感知的存储器管理（M2D3）。要求：小批量训练任务Tt;记忆任务M;域标签Lt−11：函数M2D3（，t）2：计算将t移动到存储器中的概率，如等式7 .第一次会议。计算WB的检测统计3：d=ODCD（WB，p，S）;通过Alg检测结构域变化。1.一、有利于模型记住以前的域，并且应该更频繁地采样为了实现这一目标，我们提出了一个有效的自适应任务采样计划，在内存中，加速训练和降低梯度估计方差。如图 4 所示，基于该方案调整和增加了Miniimagenet和Aircraft的采样概率，表明这些领域的重要性高于Omniglot的重要性。4：如果d，则5：Lt=Lt−1+ 16：Lt=7：如果结束8：如果存储器M未满，则9：LtLtt10：其他11：如果Tt通过等式11被移动到存储器中，7然后12：计算每个聚类Pi并且根据等式（1）对聚类j进行采样。第8和第9条。13：从j中取出样本任务以移出内存。14：将 t 移动到存储器中LtLtt十五：end if16：如果结束图4：统一任务采样的简单示例和我们的自适应内存任务采样方法，用于在Meta训练期间从内存缓冲区中采样任务。17：返回更新的存储器缓冲区第18章：意外与的任务具体损失函数Lθ（Ti）=P（T）检验|θ，T列）。时间t的优化目标被定义为最小化新的MM我8952MΣHLT现有任务移出内存的概率提高删除当前任务的效率任务和记忆任务（θ）=01 -02t）+Ti ∈MLθ（Ti）.8953我[2014 -05 -23]M MT不我NQ不我i=1我不12nθTi ∈ MMMt2 2-||−||− ||−||在时间t，我们提出的自适应采样机制。采样方案是首先对聚类索引进行给每个任务分配一个概率qt，使得i=nqt= 1，然后根据分布对Ti进行qt=（qt，qt，···，qt）。我们暂时省略下标根据Eq. 14，然后从指定的集群中随机抽样任务。我们将此任务命名为抽样方案作为自适应存储器测试采样（PETS）。（上标）t表示下面的定理，以便于记法清楚。定理2设p（T）为存储器M中任务的分布。然后，当量图14示出了原始采样分布每个簇的重要性（由存储器缓冲器中的每个簇的频率测量）通过由梯度范数Gi测量的每个簇的相应重要性来加权。在实践中，计算效率可以进一步提高。Ep（T）θ Lθ（T）=Ep（T）q（T）q（T）θLθ （T）]=Ω（10）通过计算每s的采样分布来改进在每个时间间隔期间具有相同分布的步骤。算法3中总结了PETS。设Vq[Ω]表示上述估计量的协方差与Q有关然后，Vq[Ω]的迹通过以下最优q*最小化算法3自适应记忆任务采样（PETS）。要求：一系列小批量训练任务T1，T2，. . . ，TN;温度（T）||θLθ（T）||2模型参数θ;q（T）=温度（T）||L（T）||.（十一）一曰：对于t= 1到N，做2：对于M_do中的每个集群M_j特别是，如果没有关于任务分布，从内存中均匀采样任务采用且p（T）=1，q*（T）=Σ ||θLθ（Ti）||二、因此，在本发明中，3：对集群j中的小批量任务进行采样并计算梯度范数Gj对于j。4：结束niw（Ti）=p（Ti）=lnj=1 ||2||25：计算来自每个聚类的任务抽样分布如在等式中的Mj十四岁q（Ti）nq（Ti）6：根据分布Zt从M中采样任务B为证据见附录C。参数更新为：由方程式十四岁7：通过Tt∪ B上的Meta训练来更新θθt+1 =θt -ηwiθtLθ（Tit）（12）8：存储器任务更新=M2D3（，t）9：结束其中η是学习率，wt=1t。类似于我标准SGD分析[24]，我们将Meta训练的收敛速度定义为两次连续迭代之间距离到最佳参数 θ * 的收缩 C=Eq[θt+1θ∗2θtθ∗2]。在[29，1]之后，它可以表示为：C= 2η（θt−θ*）Ω−η2ΩTΩ−η2Tr（Vq[Ω]）（13）定理2说明用于减小梯度方差的最优任务采样分布与每个任务的梯度范数成比例最小化梯度方差（等式（1）中的RHS的最后一项）。13）也加速收敛（最大化C）作为副产品。然而，计算该分布在计算上是禁止的。因此，我们提出有效的近似。根据第3.2节，每个记忆任务都与潜在聚类标记。利用这个属性，我们可以首先从每个集群中采样R个（小）任务，然后计算每个集群的梯度范数作为Gi。通过这样做，将显著提高最优任务采样分布的计算效率每个聚类的抽样概率计算如下：4. 相关工作Meta学习：Meta学习[49]专注于通过学习大量类似的任务来快速适应看不见的任务。代表作品包括[56，51，19，20，22、48、7、41、6、40、36、60、45、52、64]等。所有这些方法都适用于简化的设置，其中任务分布在Meta训练期间是固定的。完全不同于这些作品，我们专注于更具挑战性的设置任务分布是非平稳和不平衡的。在线Meta学习[21]将所有先前的任务存储在在线设置中，以避免忘记少量任务。[27]使用Dirichlet过程混合物（DPM）来建模潜在任务结构并扩展网络。相比之下，我们的重点是减轻灾难性的遗忘与单一模型时，Meta学习不平衡的域序列，只有有限的访问以前的域。多域Meta学习[53，54，58]假设来自所有域的任务在元训练期间可用。我们专注于在一个不平衡的域序列中的每个域顺序到达的情况持续学习：持续学习（CL）的目的是Zt=0 niGij=Ltn Gθ28954（十四）当学习具有分布偏移的顺序到达的数据时，保持先前的知识很多作品都聚焦于j=1j j8955×减轻学习过程中的灾难性遗忘。代表作品有[38，14，47，62，33，42，连续少拍学习[8]（CFSL）专注于记住单个领域中先前学习的少拍任务。据我们所知，持续学习的不平衡流设置的基于重放的方法仅在[5，17，32]中被考虑。与这些专注于学习少量任务并旨在推广到以前的任务的工作不同，我们的工作专注于模型学习大量具有域转移和不平衡的任务的设置，并旨在推广到以前领域中看不见的任务，而不是记住特定任务而不是灾难性遗忘渐进式和连续式少镜头学习：Incre- mental few-shotlearning [23，46，63]旨在学习新类别，同时保留单个域中旧类别的知识，并假设对基本类别的访问是无限的。相比之下，本文需要很好的概括，在以前的领域和访问以前的领域看不见的类别是有限的。Continual-MAML [12]旨在在线快速适应新任务，同时积累旧任务的知识，并假设以前的任务可以无限重新访问。MOCA[26]在在线学习中工作，并从以前的数据中学习经验，以改进顺序预测。相比之下，我们的重点是推广到以前的域时，学习大量的任务，顺序域转移和有限的访问以前的域。5. 实验我们的方法与特定的Meta学习模型正交为了说明，我们在代表性的Meta学习模型上评估我们的方法，包括（1）基于梯度的元学习ANIL[43]，其是MAML [20]的简化模型 ; （ 2 ）基于度量的元学习原型网络（PNet）[51]。扩展到其他Meta学习模型是简单的。基线：（1）顺序训练，在没有任何外部机制的情况下顺序学习潜在域并展示模型遗忘行为;（2）储层采样（RS）[57];（3）联合离线训练，其在多域Meta学习设置中联合学习所有域;（4）独立训练，对每个领域进行独立训练。其中，联合线下培训和独立培训作为性能上限。此外，由于持续学习（CL）方法只适用于少量的任务，直接将CL方法应用于我们的设置与大量的任务（超过40K）是不可行的。相反，我们结合了几个有代表性的CL方法与Meta学习基础模型。我们修改和适应GSS[5]，MIR[3]，AGEM[14]和MER[47]到我们的设置，并将它们与Meta学习基础模型相结合，作为强大的基线。我们将这些基线表示为PNet-GSS、ANIL-GSS等。为了模拟现实的不平衡域序列，我们构建了一个新的基准，并收集了6个具有不同程度相似性和困难性的域，包括 Quickdraw[28] ， AIRCRAFT[39] ，CUB[61] ， Miniimagenet[56] ， Omniglot[34] ，Necessitiesfrom Logo-2K+ [59]。我们将所有图像调整为相同大小的八四八四所有的方法进行了比较，为5路1-shot和5路5-shot学习。所有数据集都是公开的，更多细节见附录A。我们计算的平均准确率看不见的测试任务，从所有的领域进行评估的目的。对于基于ANIL的[43]基线，在[7]之后，我们使用具有48个过滤器和一个完全连接层的四层CNN作为Meta学习器。对于基于PNet [51]的基线，我们使用具有64个内核大小为3的过滤器的五层CNN进行Meta学习。在[51]之后，我们不对基于PNet的模型使用任何全连接层。在现有的Meta学习文献中通常使用类似的架构。我们不使用任何预训练的网络特征提取器，这些特征提取器可能包含许多预训练图像类的先验知识，因为这会使我们的问题设置成为未来领域知识是完全未知的。我们在不同的域排序上进行实验，默认的排序是Quickdraw，MiniImagenet ， Omniglot ， CUB ， Aircraft 和Necessities。为了模拟流设置中的不平衡域，该序列上的每个域分别在5000、2000、6000、2000、2000、24000步上训练。在此设置中，储层采样将代表大多数域。所有实验在三次独立运行中取平均值。更多实施细节见附录B。我们在https ：//github上公开了代码。com/joey-wang123/Imbalancemeta.git。5.1. 与基线的我们将我们的方法与基线进行比较。内存维护300批（2）任务。结果示于表1和2中。我们可以观察到，我们的方法显著优于基线，幅度很大，为5。21%用于5杆学习和4。对于基于PNet模型的一次性学习，95%对于基于ANIL的基线，我们的方法优于基线4。60%用于5杆学习和2。19%为1次学习。这表明了我们的方法的有效性。5.2. 记忆容量我们探讨了记忆容量对基线性能的影响和我们的方法。表3和4分别显示了存储容量（批次）为200、300和500的结果我们的方法显着优于所有的基线在每个容量的情况下。8956表1：与基于PNet的基线的5路1次5路5次算法ACCACCPNet-Sequential31.82± 0。5648. 21 ±0。50PNet-RS34. 68± 1。9653 69± 0。76第三十六章. 15± 1。5955 16±0。7234. honeymoon 07± 1。7152.61± 0。6834. honeymoon 53± 1。4553 91±0。56第35章. 82± 1。69 54 28± 0。6141. honeymoon 10± 0。四二六37± 0。3252 .第五十二章96± 0。4568 56±0。3758.第五十八章25± 0。三十六七十二。23± 0。29表2：与基于ANIL的基线的5路1次5路5次算法ACCACCANIL-Sequential30.68± 0。674139 ±0。3732. honeymoon 11± 0。904872±0。79ANIL-GSS31. 78± 1。0848. 93± 0。8332.第三十二章23± 1。214856±0。9131. honeymoon 85± 0。九七四十八。34± 0。7232.第三十二章72± 1。0649. 05±0. 9634.第三十四章91± 0。7353. 65±0。5652 .第五十二章37± 0。七二六六21± 0。6156.第五十六章52± 0。5769 67± 0。53表3：基于PNet的基线5路1次5路5次算法ACC ACCPNet-RS（n = 200）34. 12± 1。125329± 0。42PNet-Ours（n = 200） 40. 11± 0。七三五九86± 0。27PNet-RS（n = 300）34. 68± 1。9653 69± 0。7641.第41章. 10± 0。四二六37± 0。32PNet-RS（n = 500）35. 67± 0。8255 95± 0。7941.第41章. 82± 0。90 6105± 0. 60表4：基于ANIL的基线5路1次5路5次算法ACC ACCANIL-RS（n = 200）31. 03± 0. 9745。96± 0。81ANIL-我们的（n = 200）32. 83± 0。 7148.21± 0。61ANIL-RS（n = 300）32. 11± 0。904872± 0。79ANIL-我们的（n = 300）34. 91± 0。7353.65± 0。56ANIL-RS（n = 500）39. 35± 0。7653 86± 0。68ANIL-我们的（n = 500）42. 79± 0。675923± 0。495.3. 域排序我们还比较了其他两个排序：必需品、CUB、Omniglot、飞机、MiniImagenet、Quickdraw;8957和 Omniglot ，飞机，必需品， CUB ，Quickdraw，MiniImagenet。结果见附录D。在所有情况下，我们的方法大大优于基线。5.4. 不同畴为了探索不同的域比率如何影响模型性能，我们分别在每个域上进行了另一组4K，4K，3K，4K，4K，22K步的迭代实验结果见附录表85.5. 域重访为了研究域重访对基线的影响详细信息和结果见附录中的表7我们目前假设没有域修订，正确处理域重访是留给有趣的未来工作。5.6. 消融研究为了验证第3.3节中提出的M2 D3的有效性，附录中的表9分别示出了没有M2 D3（PNet-RS）和有M2 D3（PNet-Ours（没有PETS））的我们使用M2D3的方法显著优于基线4。1%和4。2%。每个潜在域的内存比例如附录中的图5所示。对于RS基线，每个域的记忆比例高度不平衡。相反，我们的内存管理机制，使每个领域的内存比例是相对平衡的，证明了我们的方法的有效性。为了验证3.4节中提出的PETS的有效性，我们比较了均匀采样和我们的自适应任务采样方法的梯度方差，训练期间的梯度方差如附录中的图6我们可以看到，我们的自适应任务采样实现了更少的梯度方差，特别是在训练更长的迭代时。附录中的表9显示，使用PETS，性能提高了2。2%和2.4%，分别为1杆和5杆学习。6. 结论本文研究了在非平稳和不平衡任务分布的Meta学习中的遗忘问题。为了解决这个问题，我们提出了一种新的内存管理机制，以平衡每个域在内存缓冲区的比例此外，我们引入了一个有效的自适应记忆任务采样方法，以减少任务梯度方差。实验证明了我们提出的方法的有效性。对于未来的工作，自动Meta学习每个域的比例致谢本研究部分由NSF通过拨款IIS-1910492支持8958引用[1] Guillaume Alain 、 Alex Lamb 、 Chinnadhurai Sankar 、Aaron Courville和Yoshua Bengio。用分布重要抽样法减小sgd中的方差。https://arxiv.org/abs/1511.06481，2016年。6[2] RahafAljundi ， FrancescaBabiloni ， MohamedElhoseiny，Marcus Rohrbach，and Tinne Tuytelaars.记忆感知突触：学习什么（不）忘记。2018年欧洲计算机视觉会议（ECCV）。7[3] Rahaf Aljundi 、 Lucas Caccia 、 Eugene Belilovsky 、Massimo Caccia 、 Min Lin 、 Laurent Charlin 和 TinneTuytelaars。在线持续学习与最大干扰检索。神经信息处理系统进展，2019。7[4] Rahaf Aljundi、Klaas Kelchtermans和Tinne Tuytelaars。无任务的持续学习。IEEE计算机视觉与模式识别会议论文集（CVPR），2019年。7[5] Rahaf Aljundi，Min Lin，Baptiste Goujaud，and YoshuaBen- gio.基于梯度的在线持续学习样本选择。在神经信息处理系统的，2019。7[6] 放大图片作者：Marcin Andrychowicz，Misha Denil，Sergio Gomez，Matthew W. Hoffman，David Pfau，TomSchaul，Brendan Shillingford，and Nando de Freitas.通过梯度下降来学习。神经信息处理系统进展，2016年。6[7] Antreas Antoniou，Harrison Edwards，Amos Storkey.如何训练你的妈妈。2019年学习表征国际会议。六、七[8] Antreas Antoniou 、 Massimiliano Patacchiola 、 MateuszOchal和Amos Storkey。定义持续的少量学习的基准。https://arxiv.org/abs/2004.11967，2020年。7[9] Se'bastienArnold 、 Pierre-AntoineManzagol 、 RezaBa-banezhad Harikandeh 、 Ioannis Mitliagkas 和 Nicolas LeRoux。通过传输过去的梯度来减少在线优化中的方差。神经信息处理系统进展，2019。5[10] I. Bae，J.Moon，J.Jhung，H.Suk，T.Kim，H.Park，J.车J. Kim，D. Kim和Shiho Kim像人类驾驶员而不是机器人一样自动驾驶：自动驾驶汽车的个性化舒适NeurIPS2019工作-车间：自动驾驶的机器学习，2020年。1[11] E. Belouadah和A.波佩斯库Il2m：类增量学习与双内存。在2019年IEEE/CVF计算机视觉国际，第583-592页7[12] Massimo Caccia ， P. 罗德里格斯岛放大图片作者：Ostapenko，Fabrice Normandin，Min Lin，L.伊萨姆？卡恰拉腊吉岛Rish，Al e xandeLacoste，D.V a'zquez和LaurentCharlin。在线快速适应和知识积累：持续学习的新途径。神经信息处理系统的进展，2020。7[13] Giuseppe Castellucci，Simone Filice，Danilo Croce，andRoberto Basili.学习用越来越多的语言解决NLP任务。2021年第59届计算语言学协会年会论文集。1[14] Arslan Chaudhry，Marc有效的终身学习与一个宝石。2019年学习表征国际会议论文集。7[15] 放大图片创作者：Margaret K.菲利普·多卡尼亚S. Torr和Marc 不断学习，只保留小片段记忆。https://arxiv.org/abs/1902.10486，2019年。2[16] Wei-Yu Chen，Yen-Cheng Liu，Zsolt Kira，Yu-ChiangWang，and Jia-Bin Huang.更仔细地看几个镜头分类。在2019年国际学习代表会议上。12[17] Aristotelis Chrysakis和Marie-Francine Moens。从不平衡的数据中在线持续学习。在2020年第37届机器学习国际会议上。7[18] Sayna Ebrahimi ， Franziska Meier ， Roberto Calandra，Trevor Darrell，and Marcus Rohrbach.对抗性的持续学习。2020年欧洲计算机视觉会议（ECCV）。7[19] H. Edwards和A.史托基成为神经统计学家。2017年学习表征国际会议6[20] Chelsea Finn，Pieter Abbeel，Sergey Levine.用于深度网络快速适应的模型不可知元学习。2017年机器学习国际会议。六、七[21] Chelsea Finn ， Aravind Rajeswaran ， Sham

下载后可阅读完整内容，剩余1页未读，立即下载