METANAS：用于少样本学习的元神经架构搜索方法

74 浏览量更新于2023-10-25 收藏 820KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

12365用于少样本学习Thomas Elsken1，2，Benedikt Staffler1，Jan Hendrik Metzen1和Frank Hutter2，11博世人工智能中心，2弗莱堡大学{thomas.elsken，benediktsebastian.staffler，janhendrik.metzen}@de.bosch.com，fh@cs.uni-freiburg.de摘要神经架构搜索（NAS）的最新进展然而，NAS应用的一个先决条件是大量的标记数据和计算资源。这使得其应用程序在少数学习场景中具有挑战性，其中需要学习许多相关任务，每个任务的数据量和计算时间有限 Thus, few-shot learning is typically done with a fixedneural architecture.为了改进这一点，我们提出了META NAS，这是第一种将NAS与基于梯度的元学习完全集成的方法。META NAS优化了元架构以及元训练期间的元权重。在元测试期间，架构可以通过任务优化器的几个步骤来适应新的任务，即：任务自适应在计算上变得便宜，并且每个任务仅需要很少的数据。此外，META NAS是不可知的，因为它可以与任意模型不可知的元学习算法和任意基于梯度的NAS方法一起使用。在标准的少镜头分类基准上的经验结果表明，META NAS与DARTS和REPTILE的组合产生了最先进的结果。1. 介绍神经架构搜索（NAS）[14]在各种计算机视觉任务上取得了显著的进展，例如图像分类[58，40，7]，对象检测[20]，语义分割[8，30，35]和视差估计[43]。这种成功的一个关键先决条件是为相应的任务提供大量不同的（标记的）数据集。此外，NAS需要相当多的计算资源来优化目标任务的神经架构。这使得在不关注单个任务但对大的任务集（分布）感兴趣的用例中应用NAS变得困难。为了在这种情况下有效，学习必须不需要大量的数据，固定架构的Meta学习应用于Meta学习的神经结构搜索神经结构Meta学习图1：我们提出的方法META NAS和相关工作的说明。灰色突出显示任务学习，蓝色Meta学习，橙色突出显示NAS组件.上图：具有固定架构的基于梯度的元学习，如MAML[16]或REPTILE [36]。中间：将NAS应用于元学习，如自动Meta [24]。下图：建议使用METANAS进行架构和权重的联合元学习。由于架构在任务学习过程中进行了调整，因此所提出的方法可以学习特定于任务的架构。计算每一项任务，但应该像人类一样，能够通过建立经验来快速适应新的任务计算Meta损失更新Meta权重Meta learning个权重任务学习更新任务权重任务计算任务损失计算NAS损失更新神经网络网络架构神经架构搜索计算Meta损失更新Meta元学习权重个权重任务学习更新任务权重任务计算任务损失Meta learning计算权重的更新Meta权重Meta丢失元体系&结构任务学习任务结构任务计算任务损失神经网络架构体系结构搜索空间体系结构搜索空间12366相关任务[26]这种从经验和相关任务中学习的概念被称为元学习或学习学习[45，49，21]。在这里，我们考虑少次学习的问题，即，从几个例子中学习新的任务。先前的工作已经提出了针对该问题的元学习方法，这些方法是模型不可知的[16，36]，并且允许固定神经架构的元学习权重（参见图1，顶部）。在这项工作中，我们通过提出META NAS将元学习与NAS完全集成META NAS允许仅通过基于梯度的任务优化器的几个步骤，基于几个数据点调整架构以适应新任务。这允许METANAS生成任务特定的架构，这些架构分别适用于每个任务（但来自联合元学习元架构）。这与先前将NAS应用于多任务或少次学习的工作形成对比，其中单个神经架构被优化以在所有任务中平均工作良好[24，38]（见图1，中）。此外，我们的方法直接为这些特定于任务的架构提供训练权重，而不需要像并发工作中那样对它们进行Meta重新训练[29]。我们的方法的概念图示如图1底部和图3所示。这项工作的主要贡献如下：1. 我们表明，与模型无关的基于梯度的Meta学习方法（如[16]）可以非常自然地与最近提出的基于梯度的NAS方法（如DARTS [32]）相结合。这不仅允许权重的联合元学习（对于给定的固定架构），还允许架构自身的元学习（第3节，参见图1）。2. 我们提出了METANAS，一个元学习算法，可以快速适应元架构的任务依赖的架构。任务架构的这种优化可以使用很少的标记数据点和任务优化器的几个步骤进行（参见图3中的说明）。3. 我们扩展了DARTS，使得任务相关架构不需要（Meta）重新训练，这在具有数百个任务的任务相关架构的少数学习设置中是不可行的（需要数百次重新训练）。我们通过将基于温度退火的新型软修剪机制引入DARTS来实现这一点（见图2）。这种机制让架构参数收敛到在DARTS结束时通过硬修剪获得的架构，同时给予权重时间来适应这种修剪。正因为如此，修剪不再导致准确性的显著下降，这也可能是标准单任务设置的兴趣所在。我们在第4节中给出更多细节。META NAS是不可知的，因为它是兼容的，可以使用任意的基于梯度的模型无关Meta学习算法和任意的基于梯度的NAS方法，其采用架构搜索空间的连续松弛已经与简单的元学习算法REPTILE[36]和NAS算法DARTS[32]相结合，META NAS在标准的少数分类基准Omniglot和MiniImagenet上产生了最先进的结果。本文的结构如下：在第2节中，我们回顾了少数学习和神经结构搜索相关工作。在第3节中，我们展示了模型不可知的、基于梯度的元学习可以自然地与基于梯度的NAS相结合。在第4节中介绍了软修剪策略，以获得任务相关的架构，而无需重新训练。我们在第5节中对标准的少样本学习数据集进行了实验，并在第6节中进行了总结。2. 相关工作通过元学习进行少次学习少镜头学习是指学习解决任务的问题（例如，一个分类问题）。这个问题与深度学习相结合具有挑战性，因为神经网络往往是高度过度参数化的，因此在只有很少数据可用时容易过度拟合先前的工作[39，16，18，19]通常通过元学习或学习来学习[45，49，21]，其中一个目的是从各种学习任务中学习，以便比其他方式更快地学习新任务[50]。有各种方法来进行少量学习，例如，学习将新样本与以前看到的样本进行比较[47，51]或者元学习跨任务共享但在任务学习期间固定的权重子集[57，19]。在这项工作中，我们专注于一类特殊的方法，称为模型不可知的元学习[16，17，36，1，18]。这些方法元学习神经网络的初始权重集，可以通过几步梯度下降快速适应新任务。为此，元学习目标被设计为通过将任务训练过程并入元目标来明确地然后，通常通过基于梯度的方法来优化该元目标。我们的方法扩展了这些方法，不仅元学习给定的固定架构的初始权重集，而且元学习架构本身。由于我们的方法可以与任何模型无关的元学习方法相结合，因此这些方法的未来改进可以直接用于我们的框架中。神经结构搜索神经结构搜索（NAS），自动设计神经网络架构的过程[14]，最近已经成为一种流行的方法。12367OOOOOO这是深度学习的一种方法，因为它可以取代繁琐的人工架构设计，同时在各种任务上实现最先进的性能[58，40，9，43]。我们简要回顾了主要的方法，并参考了Elsken等人最近的调查。[14]更全面的文献综述。研究人员经常将NAS框定为强化学习问题[2，58，56，59]或采用进化算法[48，34，41，40]。不幸的是，这些方法中的大多数都非常昂贵，因为它们需要从头开始培训数百甚至数千名架构师。因此，最近的工作重点是开发更有效的方法，例如，通过网络形态[12，6，13，46]，权重共享[44，5，4]，或多个保真度优化[3，15，28，55];然而，它们通常仍然局限于相对较小的问题。为了克服这个问题，刘等。[32]提出了体系结构搜索空间的连续松弛，其允许经由基于梯度的方法来优化体系结构这是通过对每一层使用可能的候选操作的加权和来实现的，其中实值权重然后有效地参数化网络搜索，因为概念上的相似性基于梯度的元学习，如MAML [16]，这将使我们能够结合这两种方法。元学习的神经架构搜索那里最近有一些关于NAS和Meta学习相结合的工作。Wong等人[52]通过多个任务的强化学习来训练自动机器学习（AutoML [22]）系统，然后使用迁移学习来加速通过新任务的学习系统搜索超参数和架构。他们的工作更侧重于超参数而不是架构;所考虑的架构搜索空间仅限于选择少数预训练架构之一。最接近我们的工作是[24，29]。Kim等人[24]围绕元学习进行神经架构搜索，如图1（中）所示。他们将渐进式神经架构搜索[31]应用于少量学习，但这需要在NAS算法的每次迭代中从头开始运行整个元训练;因此，他们的方法需要大量的计算成本，实际情况如下：x（j）= ΣΣi j o∈Oi，jo.Σx（i），wi，jGPU天。该方法还限于搜索适合于少量学习的单个架构，而不是学习任务依赖的架构，我们的方法Σ=：I j.混合操作x（一），wi，ji，（一）支持. 在一项并行工作中[29]，作者提出将基于梯度的NAS和元学习结合起来，以找到任务依赖的架构，类似于我们的工作。然而，在这方面，哪里αi，j为exp（αi，j）Σi、j归一化混合因为他们采用了DARTS的硬修剪策略，性能显著下降，则需要重新运行o′∈Oexp（αo′）和为1的权重，x（j）和x（i）表示网络中的特征图，O表示一组候选操作（例如，3×3卷积，5×5卷积，3×3平均池，.）用于将先前的特征图转换为n∈w，w=（wi，j）i，j，o表示运算的正则权重，α=（αi，j）i，j，o用作该体系结构的实值、无约束参数化。候选操作的混合被表示为混合操作，并且包含所有混合操作的模型通常被称为单次模型。然后，DARTS通过分别对训练和验证损失交替梯度下降来优化单次模型w和架构参数α的权重。在搜索阶段之后，通过为每个中间体选择预定义数量（通常为两个）的最重要的传入操作（具有最高操作权重因子αi，j 的那些操作）来获得离散体系结构节点j，而所有其它节点都被修剪。这种硬修剪-teriorates性能[53，54]：例如，Xie等人[53]报告性能从88%（一次性模型因此，修剪后的模型需要重新训练w。我们将在第4节中讨论这一缺陷。在我们的工作中，我们选择DARTS作为神经架构针对每个任务相关架构（可能有数百个）的元训练，使得新任务的评估昂贵。相比之下，我们的方法不需要重新训练任务相关架构，因此单次Meta训练就足够了。3. Marrying Gradient-based Meta-Learningand Gradient-based NAS我们的目标是建立一个元学习算法，产生一个元学习架构αmeta与相应的元学习权重wmeta。然后，给定一个新任务Ti，both αmeta and wmeta shall quickly adapt to Ti based on少量标记样本。为了解决这个问题，我们现在推出METANAS，一种自然地将基于梯度的元学习方法与基于梯度的NAS相结合的方法，并允许元学习αmeta和wmeta。在第4节中，我们将描述由αmeta编码的元架构如何快速专用于新任务，而无需重新训练wmeta。3.1. 少数镜头分类的问题设置在经典的监督式深度学习环境中，目标是通过最小化来找到神经网络的最佳权重。O12368火车火车火车火车火车火车火车无稀疏稀疏混合作业稀疏化操作和输入节点Conv3x3 Conv5x5 MaxPool图2：搜索后单次模型的稀疏性说明。左：vanilla DARTS（根本没有强制稀疏性）。中间：在混合操作上强制稀疏性。右：另外在输入节点上强制稀疏性（这里每个节点只有一个输入）。给定单个大任务，计算损失函数LTtrain（w）T=（D训练，D测试），具有相应的训练和测试数据相比之下，在少次学习中，我们给出的是一个分布在小训练任务Ttrain上的分布。wk=wk=Φk（w，α通过一步更新固定我不是火车ptrain（T）和test tasksTtestpathptest（T）。我们通常会-sidern-way，k-shot任务，意味着每个任务是一个分类问题，每个类有n个类（通常n∈ {5，20}）和k个（通常k∈ {1，5}）训练样本。结合元学习，训练任务用于元学习如何从测试任务分布中改进新任务的学习。wj+1=Φ（wj ，DTi）：=wj−λtask<$wLT（wj ，DTi）的方式w0=w。相比之下，我们选择Φk作为DARTS [ 32 ]启发的基于梯度的神经架构搜索的k步，其中权重学习率λ任务和架构学习率λ任务：.Σwj+13.2. 基于梯度的神经网络αj+1=Φ（wj，αj，DTi）建筑.wj−λ=任务队列长度测试（wj，αj，DTiΣ（3））的情况。与MAML在权重空间中的元学习策略类似αj−task<$αLT（wj，αj，DTi ）因此，Φk不仅优化了任务权重w，相应的权重，其能够快速适应新的权重，任务根据MAML，我们通过最小化元目标来LMeta（w，α，ptrain，Φk）而且优化了任务结构αTi。注意我们使用相同的数据集，以更新ωj和αj（等式3），相信刘等人。[32]由于少数拍摄设置中的数据量有限，不允许分成训练和Σ=Tip列车Σ=LTiL.Φk（w，α，DTi. （wθ，αθ），DTi我不是Σ测试Σ每个任务的验证。此外，使用相同的数据集还允许用单个向前和向后传递更新两组参数，参见Lian等人。[29]第10段。当我们使用TiTi测试α的实值参数化和基于梯度的任务Tip列车优化器，元目标LMeta（公式2）不同-（二）关于神经网络架构的实值参数化α和对应的权重w。对于w和α是成立的。这意味着我们可以使用任何基于梯度的元学习算法，不仅可以用于w，还可以用于架构α。例如，可以我不是火车我不是测试）表示从以下采样的训练任务：火车使用MAML [16]作为元学习算法，它运行训练任务分配P不（T），LT是相应的─元目标上的SGD，产生元更新的任务损失，并且Φk（w，α，Di）的任务学习al-出租m或简单的任务学习者，其中k是指kiter-学习/权重更新的阶段（例如，SGD）。012301230123得双曲余切值.）、DTi=（D得双曲余切值.）12369W=（αWMeta以前的工作[16，36，24]认为是一个固定的，预定义的architec-.i+1Meta+1fifteenMAML iMeta我Meta，ptrain，Φ k）真α固定并选择Φk作为优化器，如SGD，.我= Meta-λMeta_wLMeta我Meta我Meta，ptrain，Φk）重量：我Meta— 苯并[a]芘我Meta，ptrain，Φk）α，w（wα，α，α12370火车（w（a）W=（αW（w（a）我∗我我算法1METANAS：神经架构的元学习1：输入：在任务p（T）上的分布，算法2使用DARTS和REPTILE对神经结构进行元学习1：输入：在任务p（T）上的分布，任务学习者Φk（w，a，DTi）#例如：DARTS[32]任务损失函数元学习者w，a#例如REPTILE [36]第二章：初始化wMeta，αmeta第三章：而不收敛4：示例任务T1，. - 是的- 是的，Tnfromp（T）5.ForAllIDo第二章：初始化wMeta，αmeta第三章：而不收敛4：示例任务T1，. - 是的- 是的，Tnfrom p（T）5.ForAllIDo6：wTi←wmeta6：w，α←Φk（wMeta，αmeta，DTi）7：αT ←αMetaTiTi7：结束。8：wMeta←w火车ΣwMeta，{w，α，Ti}n我8：对于j ← 1，. - 是的- 是的，k do9：wT←wT−λ任务<$wLT（wT，αT，DTi）.TiTii=1Σ我我我我训练9：αmeta←α αmeta，{w，α，Ti}n10：αT←αT— 作业任务<$αLT（wT，αT，DTi）10：结束时11：returnwMeta，αmetaTiTii=1我我11：结束12：结束我我训练Σ13： wMeta←wmeta+λmetaTiTiMeta）或者，作为替代方案，可以使用REPTILE [36]，它简单地计算更新为14： αMeta←αmeta+αmeta15：结束while∗TiTiMeta）.i+1Meta+1fifteen爬行动物iMeta我Meta，ptrain，Φk）16：returnwMeta，αmeta.我=MetaΣ∗+λMetaTiTiiΣMeta）。3. 这与之前的工作形成对比，我Meta 公司Meta∗TiTiMeta）（四）在元测试期间总是固定的[16，36]。此外，使用NAS进行元学习的先前工作[24]搜索单个ar-我们选择REPTILE进行我们所有的实验，因为它的概念简单和计算效率与MAML一致。注意，我们也可以对wmeta和αmeta使用不同的元学习算法。然而，为了简单起见，我们将自己限制为相同的元学习算法。我们参考算法1以获得我们提出的元学习神经架构框架的通用模板，并参考算法2以获得使用DARTS作为任务学习和REPTILE作为元学习算法的具体实现。通过将NAS算法直接合并到Meta学习算法中元学习算法的单次运行，而先前的工作[24]需要在架构搜索过程中对数百个提议的架构进行完整的元学习。我们强调算法1是不可知的，因为它可以与任何基于梯度的NAS方法和任何基于梯度的元学习方法相结合。4. 任务相关的体系结构自适应使用NAS算法作为任务优化器不仅允许将架构搜索直接合并到元训练循环中，而且还允许在元学习之后将找到的元架构适配到新任务（即，例如，在元测试期间）。也就是说，它允许在原则上找到一个任务相关的架构，比较算法-w-αα，w-wα-α12371然后在所有任务之间共享的架构。不幸的是，DARTS任务优化器获得的任务相关架构是非稀疏的，也就是说，αTi不会导致混合权重严格为0 或1，请比较图 2（左）。如第2 节所述，DARTS通过硬修剪策略解决了这个问题，结束架构搜索以从单次模型获得最终架构（算法3中的第8行）。由于这种硬修剪严重降低了性能（参见附录A.1），因此修剪后的架构需要重新训练。这在少量学习设置中尤其成问题，因为它需要Meta重新训练所有任务相关架构。这是[29]遵循的方法，但不幸的是，它增加了元测试期间单个任务训练的成本，从任务优化器的几个步骤到基本上是具有固定架构的MAML/REPTILE的完整元训练运行。我们现在提出一种方法，通过提出对DARTS的两个修改来消除对重新训练的需要，这两个修改基本上重新参数化搜索空间并且实质上减轻由硬修剪导致的性能下降这是通过在任务训练期间强制混合操作的混合权重αk缓慢地修剪为0或1，同时给予操作权重时间以适应这种软修剪来实现的。12372OOJ初始Meta体系结构Meta学习架构∗任务相关体系结构+1个Conv3x3 Conv5x5 MaxPool图3：META NAS不同阶段的架构概念图。左图：初始化单次模型后。中间：元学习架构。右：基于元架构的架构适应于各自的任务。边缘的颜色（红色，蓝色，绿色）表示不同的操作（分别为Conv3x3，Conv5x5和MaxPooling）。边的线宽可视化架构权重α的大小（即，大线宽对应于大α值）。算法3在元学习之后学习新任务（即，元测试）。1：输入：新任务T=（D训练，D测试）元学习架构和权重αmeta，wmeta2：wT←wMeta3：αT←αMeta4：对于j ← 1，. - 是的- 是的，k do5：wT ←wT−λtask<$wLT（wT，αT，Dtrain）在可能的输入节点之间进行简化（即对它们进行软修剪），而不是仅仅对它们求和（如等式1中所做的），参见图2（右）的说明。4.2. 输入节点上混合数据的软剪枝也稀疏化输入的自然选择将是也引入输入的权重βi，j，并且通过在任务训练的过程中将温度τ β退火到0，以与操作的权重相同的方式6：αT ←αT −n任务<$αLT（wT，αT，D序列）第七章：端8：α<$T←PR UNE（αT）9：用α<$T，wT评估DtestΣx（j）=0I jexp（βi，j/τβ）k jexp（βk，j/τβ）.混合操作xΣ.（六）4.1. 混合运算的软剪枝第一个修改稀疏的混合权重不幸的是，这将导致只选择一个输入而不是预定数量的输入（例如，文献默认2 [59，53，32]）。相反，我们对k个输入的每个组合进行加权，以允许任意数量的输入-这些操作形成将节点i变换为节点j的混合操作。我们通过将等式1中混合权重αi，j的归一化改变为putsk：x（j）=i ={i1，...，ik}∈I.exp（βi，j/τβ）Σ·k∈Iexp（βk，j/τβ）Σ（7）变得越来越稀疏，那就是：更像是一个对每个i，j.为了实现这一点，我们添加了一个温度τα，该温度在任务过程中退火到0.混合操作x（i1）.+···+混合操作x（ik）不适用，培训：αi，j（o）= exp（αi，j/τα）.（五）其中，I ={{i1，. - 是的- 是的，ik}|{i1，. - 是的- 是的，ik}{0，. - 是的- 是的，j − 1}}denotes the set .o大小为k的输入的所有组合。ταexp（αi，j/τ）这就引入了k每个节点的附加参数，o′∈OO′α对于j ≤ 5的实际设置可以忽略不计。在-[53]和[11]在通过Gumbel分布[23，33]放松离散分布的背景下提出了类似的方法。请注意，这会在单个混合操作中产生（近似）独热混合权重（参见图2（中间））;然而，在所有j-1个可能的输入节点0，. - 是的- 是的，j-1仍然是非稀疏的，这意味着节点j仍然连接到所有先前节点。由于DARTS只选择前k个（默认情况下k=2）输入节点，因此我们还需要spar-放置权重βk，j与操作的权重α一起被优化注意，在算法3中，我们简单地将α和β代入α。通过这两个修改，我们现在不仅可以找到任务相关的最佳权重（给定元权重），而且还可以找到任务相关的架构（给定元架构），其可以在性能没有显著下降的情况下被硬修剪，并且因此无需再训练。我们指参见附录A.1，以比较三种不同的∗∗+1个Meta learning任务自适应0123012300112233（一）12373OmniglotMiniImagenet参数架构单镜头，20路5发，20路单镜头，5路5次拍摄，5路爬行动物86岁。7 ±0。38九十七4 ±0. 04四十六岁。5±0。3363岁3 ±0。330kAutoMetaMETA NAS89岁。0 ±0。5292. 2± 0。04九十六。7±0。13九十八8±0。05四十九8±0。55四十九7±0。4六十四5±1。3662. 1 ±0。9爬行动物九十0 ±0。14九十八0 ±0。06四十八0 ±0。44六十五4 ±0.31100kAutoMetaMETA NAS九十六。2±0。22九十六。2±0。16九十九。2±0。08九十九。2±0。0750块1 ±0。16五十三2±0。466岁。3±0。467岁8± 0。7表1：不同数据集和不同少量任务的结果（3次独立运行的平均值±标准差）。对于所有架构，REPTILE被用作元学习算法，所有结果都是使用相同的训练管道获得的，以确保公平的比较。准确度（%）。在CIFAR-10（单任务）上的标准NAS设置上讨论的修剪策略。虽然在理论上我们现在可以强制混合操作以及输入节点上的独热编码，但我们经验地发现，有时不选择太小的最小温度而是允许几个（通常不超过两个）大于0的在每个任务学习结束时，我们都可以模拟-层保持所有操作和具有对应权重α的输入节点大于某个阈值（例如， αε≥0。01），而所有其他的修剪。5. 实验我们在n路k次设置（如[51]所提出的）中在标准的少数拍摄图像识别基准Omniglot [25]和MiniImagenet（如[39]所提出的）上评估我们提出的方法，这意味着少数拍摄学习任务是通过从Omniglot或MiniImagenet中随机采样n个类以及n个类中每个类的k个示例来生成的。我们参考[51]以了解更多细节。5.1. 同一元下的比较学习。我们首先比较了原始REPTILE [36]论文和AutoMeta[24] 中的架构，使用相同的元学习算法（即REPTILE）这确保了公平的比较，并且性能差异可以清楚地归因于体系结构的我们用自己的训练管道重新训练了来自REPTILE和AutoMeta的架构30，000个元epoch（我们发现这足以应用REPTILE论文的结果），以进一步确保所有架构都在相同的条件下训练。包括所有超参数的实验装置的详细描述可以在补充材料中的Ap-附录A.2对于我们的方法，我们考虑以下基于DARTS和AutoMeta的搜索空间：我们寻找一个正常的和减少的细胞（这是在NAS文献[59，32，53，7，54]中的常见做法）。两个细胞都是COM-由三个中间节点构成（即，隐藏状态）。候选操作的集合是MaxPool 3x 3、AvgPool 3x 3、SkipConnect、Conv 1x 5 - 5x 1、Conv 3x 3 、SepConv 3x 3、Dilat-edConv 3x 3。我们的模型由4个细胞组成，第一个和第三个细胞是正常细胞，第二个和第四个细胞是还原细胞。滤波器的数量在整个网络中是恒定的（而不是每当空间分辨率降低时使滤波器加倍）;它被设置为使得修剪后的模型与REPTILE和AutoMeta模型的大小（在参数数量方面）相匹配，以确保公平的比较。我们考虑30，000个参数和100，000个参数的模型.请注意，与DARTS相比，我们还在训练数据（而不是验证数据）上优化了架构参数，因为在少数镜头设置中数据量非常有限，不允许每个任务进行验证分割。结果总结于表1中。在1次拍摄、20路Omniglot实验中，META NAS在小模型的情况下实现了卓越的性能，而在大型号METANAS的情况与Au-toMeta相当，而两者都优于REPTILE。在Omniglot 5-shot，20路上，所有方法与META NAS和AutoMeta的表现相似，与REPTILE相比略有优势。在MiniImagenet 1-shot，5路上，AutoMeta和META NAS都优于REPTILE。在5张5路设置中，META NAS在较大型号的情况下也优于AutoMeta，而在小型号的情况下略差。总之，METANAS几乎总是优于原始REPTILE模型，而在几乎所有情况下，它都与AutoMeta相当或略优于AutoMeta。我们强调，META NAS实现了这一点，同时比AutoMeta效率高出10倍;AutoMeta作者报告的计算成本约为100GPU天，而META NAS在单个GPU上运行约一周。此外，META NAS发现特定于任务的架构;最常见的电池见图4，另外两种常用的（还原）电池见图5，它们在操作和连接性上有很大的不同。12374(a) 正常细胞（b）还原室。图4：META NAS发现的用于第5.2节评价的最常见正常细胞和还原细胞。5.2. 扩展架构并与其他Meta学习算法进行比较。我们现在比较其他元学习算法在固定的架构设置;也就是说：我们使用的META NAS不是任务相关的架构，而是在运行META NAS后提取的单一固定架构。为此，我们提取了最常用的任务相关架构（参见图4），并通过使用更多的通道和单元来扩展它。我们重新训练产生的架构，其具有大约100万个参数，用于具有更强正则化（权重衰减和DropPath[59]）的更多元时期，这是NAS文献中的常见实践[59，40，32，53，7]。详情请参阅附录A.2。请注意，由于[39，16]报道的过拟合，在没有正则化的情况下天真地扩大用于少数学习的模型不会提高性能。结果见表2。同样，METANAS改进了标准REPTILE架构和Au- toMeta。与元学习初始参数集（第一块）的其他方法相比，METANAS显著优于MiniImagenet上的所有其他方法，并实现了新的最先进的性能。在Omniglot上，META NAS与MAML++不相上下。由于MAML++ 作为元学习算法优于 REPTILE ，因此将MAML++与META NAS结合使用可能会进一步改善我们的结果。此外，与其他元学习方法（第二块）相比，METANAS与它们不相上下或优于它们，同时采用了一个显着更小的架构（META NAS的100万个参数，而TADAM [37]，LEO [42]和MetaOptNet [27]的参数超过1000万个）。6. 结论我们已经提出了METANAS，第一种方法，它完全集成了基于梯度的元学习与神经架构搜索。METANAS允许元学习神经架构以及权重，并基于少量标记的数据点和仅几步梯度下降使其适应任务相关架构。我们还提出了DARTS的扩展[32]，它减少了硬修剪期间产生的性能下降，1我们报告的结果没有标签平滑，也没有在验证集上进行训练，因为这在我们的工作中也没有使用。表2：与其他元学习算法的比较。的第一个块包含的方法，与我们的方法类似，学习一组初始参数，快速适应新任务。第二块包含其他元学习方法。这里我们列出了其他论文中提到的数字。METANAS表示我们提出的方法在增加模型大小、正则化和更长的元训练期准确度（%）。这可能是独立的利益。标准少拍学习基准测试的实证结果显示，相对于目前为止主要用于少拍学习的简单CNN而言，它具有优越性。METANAS与其他将NAS应用于少量学习的方法相当或更好，同时效率更高。在扩展发现的架构后， M ETA NAS 显着提高了MiniImagenet的最新技术水平，达到61。7%的准确性，在1杆，5路设置和78。在5杆，5路定位球中的命中率为8%。由于我们的框架对于Meta学习算法以及可微分架构搜索方法是不可知的，因此我们的经验结果可能会通过使用更复杂的元学习方法（如MAML++[1]）和更复杂的可微分架构搜索方法（如ProxylessNAS [7]）来改进。在未来，我们计划将我们的框架扩展到其他多任务问题。致谢作者感谢欧洲研究委员会（ERC）在欧盟地平线2020研究和创新计划下通过第716721号资助和BMBF资助DeToL的MiniImagenetOmniglot方法#参数单镜头，5路5次拍摄，5路单镜头，20路MAML[16]30k四十八7±1。863岁1 ±0。9九十五8 ±0。03MAML++[1]-52岁2 ±0。368岁3 ±0。4九十七65±0。05[29]第二十九话27k五十四1±1。469岁。6 ±0。9-REPTILE[36]30k50块00 ±0。366岁。0 ±0。689岁。43 ±0。14[24]第二十四话100k五十七6±0。274岁7 ±0。2-12375引用[1] Antreas Antoniou，Harrison Edwards，Amos Storkey.如何训练你的MAML在2019年国际学习代表会议上。二、八[2] Bowen Baker 、 Otkrist Gupta 、 Nikhil Naik 和 RameshRaskar。使用强化学习设计神经网络架构。在2017年国际学习代表会议上3[3] Bowen Baker ， Otkrist Gupta ， Ramesh Raskar ， andNikhil Naik.使用逐行预测加速神经结构搜索.在NIPS元学习研讨会上，2017年。3[4] Gabriel Bender，Pieter-Jan Kindermans，Barret Zoph，Vijay Vasudevan，and Quoc Le.理解和简化一次性架构搜索。2018年国际机器学习会议。3[5] Andrew Brock，Theo Lim，J.M.里奇和尼克·韦斯顿SMASH：通过超网络进行一次性模型架构搜索在2018年学习代表国际会议上。3[6] Han Cai，Tianyao Chen，Weinan Zhang，Yong Yu，andJun Wang.通过网络变换进行有效的体系结构搜索。在AAAI，2018。3[7] 韩才、朱立庚、宋涵。ProxylessNAS：在目标任务和硬件上直接搜索神经架构2019年国际学习表征会议。一、七、八、十二[8] 陈良杰、麦克斯韦·柯林斯、朱玉坤、乔治·帕潘德里欧、巴雷特·佐夫、弗洛里安·施洛夫、哈特维格·亚当和乔恩·施伦斯。寻找用于密集图像预测的有效多尺度架构。In S. Bengio，H. Wal-lach，H.拉罗谢尔湾格劳曼Cesa-Bianchi和R. Garnett，编辑，神经信息处理系统进展31，第8713-8724页。Curran Associates，Inc. 2018. 1[9] Liu Chenxi，Chen Liang Chieh，Schroff Florian，AdamHartwig，Hua Wei，Yuille Alan L.还有飞飞利。自动deeplab：语义图像分割的分层神经结构搜索。在计算机视觉和模式识别会议上，2019年。3[10] TristanDeleu ， TobiasWuürfl， MandanaSamiei ，JosephPaulCohen ， and Yoonge Bengio.Torchmeta ：PyTorch 的元学习库，2019 。可从以下网址获取：https://github.com/tristandeleu/pytorch-meta。12[11] 董轩逸和杨毅。寻找一个强大的新-在四个GPU小时内完成的Ral架构。在IEEE计算机视觉和模式识别会议论文集（CVPR）中，第1761-1770页，2019年。6[12] Thomas Elsken，Jan Hendrik Metzen，and Frank Hutter.简单高效的卷积神经网络架构搜索在NIPS元学习研讨会上，2017年。3[13] Thomas Elsken，Jan Hendrik Metzen，and Frank Hutter.通过拉马克进化的有效多目标神经结构搜索。在2019年国际学习代表会议上。3[14] Thomas Elsken，Jan Hendrik Metzen，and Frank Hutter.神经架构搜索：一个调查。Journal of Machine LearningResearch，20（55）：1-21，2019。一、二、三[15] Stefan Falkner Aaron Klein和Frank Hutter BOHB：大规模鲁棒高效超参数优化。在 Jennifer Dy 和 AndreasKrause，编辑，第35届国际机器学习会议论文集，机器学习研究论文集第80卷，第1437PMLR。3[16] Chelsea Finn，Pieter Abbeel，Sergey Levine.用于深度网络快速适应的模型不可知元学习。在Doina Precup和Yee Whye Teh 编辑的 Proceedings of the 34 thInternationalConferenceonMachineLearning ，Proceedings of Machine Learning Research 第 70卷，第1126澳大利亚，2017年8月6日至11日。PMLR。一二三四五八[17] Chelsea Finn、Kelvin Xu和Sergey Levine。概率模型不可知元学习。In S. Bengio，H. Wallach，H.拉罗谢尔湾格劳曼Cesa-Bianchi和R. Garnett，编辑，神经信息处理系统进展，第9516-9527页Curran As

下载后可阅读完整内容，剩余1页未读，立即下载