联合优化神经结构和权重的元学习方法

77 浏览量更新于2023-10-25 收藏 711KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

129通过联合优化神经结构和权重来学习丁亚东1于武2黄成跃1唐思良1*易阳1龙辉伟3庄月婷1齐田41浙江大学2普林斯顿大学3中国科学技术大学4华为云AI{dyadongcs，hcyue，siliang，yangyics，yzhuang}@zju.edu.cn，yuwu@princeton.edulonghuiwei@pku.edu.cn，huawei.com摘要元学习使模型能够通过一些训练示例快速适应新的环境。当前基于梯度的元学习方法集中于为学习器找到良好的模型不可知初始化（元权重）。在本文中，我们的目标是获得更好的元学习者的结构和元权重同时进行协同优化现有的基于NAS的元学习方法应用两阶段策略，即，首先搜索架构，然后在搜索到的架构上重新训练元权重然而，这种两阶段策略将打破架构和元权重的相互影响，因为它们是单独优化的。随后，我们提出了渐进式连接合并，逐层固定架构，其中具有最大权重值的层将首先固定。通过这种方式，我们可以联合搜索架构并在固定层上训练元权重此外，为了提高搜索到的元学习器在所有任务上的泛化性能，我们提出了一种更有效的协同优化规则，即连接自适应元学习（CAML）。通过只搜索一次，我们可以获得自适应架构和元学习的元权重。大量的实验表明，我们的方法实现了最先进的性能与3倍的计算成本，揭示了我们的方法1. 介绍作为少数学习问题1的流行解决方案，元学习开发了深度学习模型，能够仅使用少数训练示例来适应看不见的任务[6，30，37]。特别是，基于梯度的元学习方法，如MAML [6]，试图找到一组模型权重（元权重）的初始化该模型与Meta-*唐思良为通讯作者。1N路K次任务表示来自每个类的K个样本，N在几个镜头学习类。权重可以在看不见的任务上快速地产生良好的泛化性能，而仅需要几个梯度步骤。此外，为了获得优化的元权重，找到更好的擅长元学习的与以前建立在手工制作的架构上的方法不同，我们的目标是通过神经架构搜索（NAS）丰富架构的灵活性来获得更好的元学习者在这项工作中，我们的目标是找到最佳的架构和元权重的元学习器，可以快速适应新的任务与一些训练样本。我们表示候选操作（例如，conv和pooling）作为连接。它们中的每一个都由同一层中所有候选操作的注意力值加权，这被称为连接参数。较大的值意味着更重要的操作/连接，我们将每一层因此，自适应结构由元连接组成，训练过程可以看作是连接参数和网络权值的协同优化问题最近有一些工作集中在探索元学习中的架构影响[10，15]。然而，这些工作大多陷入困境，打破了结构和元权重之间的相互影响或优化学习器与偏见的更新规则。首先，Auto-Meta [10]和Auto-MAML [15]都应用了两阶段训练策略，分别获得架构和元权重，即首先搜索体系结构，然后使用搜索到的体系结构重新训练元权重，如图1（b）所示。正如彩票假设[7]中提到的，从超网2 中修剪出来的子网络不能得到有效的优化，除非它们用超网的网络权重进行初始化它启发我们，架构和网络权重相互影响。因此，在基于NAS的元学习中，我们需要保留架构之间的相互影响2超网是一种神经网络，其层由多个候选操作组成（例如，卷积、池化）。当搜索结束时，每一层都被修剪，最多只留下一个特定的操作。130…渐进式连接合并Meta连接训练元权重中级特征图元权重训练架构搜索元权重训练(a) MAML固定架构（b）基于NAS的元学习(c)我们的方法图1.（a）MAML侧重于模型不可知的元权重。（b）现时以NAS为基础的元学习方法包括两个阶段。固定结构和它们的元权重是单独获得的，忽略了它们之间的相互影响（c）通过共同优化架构和元权重，我们的方法可以同时为所有看不见的任务获得自适应架构和元权重，需要3倍的计算成本。和元权重。然而，在搜索阶段，Auto-Meta [10]和Auto-MAML [15]只能获得具有不匹配元权重的架构。在第二阶段（重新训练阶段）中，基于搜索到的架构来获取匹配的元权重因此，现有作品的架构和元权重是逐个训练的（单独），而不是联合优化，打破了架构和元权重之间的相互影响。其次，为了共同优化架构参数和网络权重，Auto-MAML [15]提出了一种简单的解决方案，称为基于单传播NAS的元学习（OPML）[5，15]，如图3所示。为了简单起见，OPML平等地对待连接参数和网络然而，由于学习速率的不相等，元学习器的实际更新方向与计算的元梯度不平行，这可能会为了保持架构和元权重之间的相互影响，我们提出了渐进式连接合并，如图1（c）所示。在搜索过程中，我们对超网进行逐层修剪，其中连接权值最大的一层将首先被合并。随着连接逐渐固定，我们可以在这些合并的连接上训练作为回报，元权重将进一步影响其他未固定连接的更新。通过这种方式，我们在整个训练阶段持续保持元连接和元权重的相互影响。与此同时，我们删除了修剪连接和权重的更新，避免了从头开始重新训练派生结构，节省了66%的计算成本。更新元学习者，我们提出了连接自适应元学习（CAML），如图2所示。（b）.通过两次反向传播和交替更新，CAML可以分别使用与元梯度相同的更新方向来优化连接因此，CAML提高了搜索到的元学习者我们的贡献总结如下：• 为了解决两阶段策略• 我们提出了一种更有效的方法，即连接自适应元学习（CAML），它可以提高泛化性能的最佳结构和元权重的所有任务。• 大量的实验表明，我们的方法在各种设置下在FC100和Mini-Imagenet数据集上都达到了最先进的性能，计算成本降低了3倍，揭示了我们方法的有效性和2. 相关工作2.1. 元学习元学习（学习学习）[2，6，8，13，20，22]方法从一系列学习任务中学习，使神经元学习成为可能。131DDDD{T}{T}DT{T}{T}{T}Q我我θθiT {T}我我网络能够快速适应新数据和新任务。近年来，元学习已被证明在少数分类任务中是有效的，这需要神经网络在只有少数训练样本的情况下解决新的任务元学习方法可以分为三大类：记忆网络[3，25]，度量学习[28，31，31]和基于梯度的方法[1，6，20]。在基于梯度的方法中，学习称为Meta学习器的优化器以对新任务执行快速适应[9]。模型不可知Meta学习（MAML）[6]试图找到一组参数（元权重）来初始化元学习器，而不是使用学习的优化器通过几步梯度下降，Meta学习器可以快速适应新任务。然而，以前的方法集中在寻找良好的模型无关的初始化。2.2. 神经架构搜索神经架构搜索（NAS）[4，14，16，19，29，35，38]旨在自动设计神经网络架构，以减少人类专家NAS方法搜索的架构在许多不同的任务中已经超过了手工设计的架构，例如图像分类[19，35，39]，语义分割[17，26]和对象检测[32，34]。大多数NAS方法可以分为三类：基于进化算法[18，23，24]，基于强化学习[39，40]和基于梯度的方法[19，33，36]。在基于梯度的NAS方法（如DARTS [19]）中，可以基于梯度下降联合因此，基于梯度的NAS方法能够在一个GPU天内完成搜索然而，现有的NAS方法仅针对单个特定任务的搜索架构。但是，当转向多个任务或多个数据集时，他们遇到了麻烦。2.3. 使用神经架构搜索的最近，已经有一些作品将NAS和元学习结合起来，以获得更好的元学习者[10，15]。然而，在每次搜索迭代中，Auto-Meta [10]需要执行整个元训练过程，而我们具体架构。基于贝叶斯推理，提出了BASE [27]来为每个元测试任务设计任务相关的架构。MetaNAS [5]采用Reptile [20]作为其骨干，并在搜索过程中对所有层采用软修剪策略。T-NAS [15]试图通过MAML [6]学习通用元架构。然后，MetaNAS和T-NAS都为新的测试任务执行架构适配软修剪不会修剪不太重要的操作。因此，MetaNAS仍然需要对最终架构（如T-NAS）进行一次性修剪。然而，这些方法需要从头开始训练每个特定于任务的架构，这在计算上是昂贵的。此外，这些特定于任务的方法也使用两阶段策略，忽略了连接和元权重的相互影响。3. 方法在介绍我们的方法之前，我们回顾了模型不可知元学习（MAML）[6]和可扩展架构搜索（DARTS）[19]，这将有助于我们更好地理解我们的方法。然后我们在3.3节中介绍渐进式连接合并。和CAML在第3.4节中。3.1. MAML在MAML [6]中，整个任务数据集被分成三个子集，即：Meta-trainMeta-train、Meta-valMeta-val和Meta-testDatasetMeta-test，如补充材料中所示。它们中的每一个都由两个任务集组成，支持集以及查询集合Q。在元训练阶段，MAML从任务分布p中抽取一组任务，在元训练中。从% s采样的任务用于优化内部学习器[19]，而从q采样的用于优化元学习者MAML的主要目标是为元学习器找到好的初始化权重θi，它可以快速适应从pT中提取的新任务。在第i个元训练任务中，用于更新内部的基于梯度的学习规则学习器可以被公式化为：m+1ms只训练元学习者一次。因此，Auto-Meta需要112个GPU天才能收敛，而我们的方法只需要112个GPU天。θi=θi−βinnerθmL（fθm;Ti），（1）其中m表示内部更新步骤，Ts是第i需要0.7 GPU日。更重要的是，目前的方法将体系结构搜索和元权重训练分离，从{Ts}采样的任务。我βinner是内部学习率，权重θ0是θ1的副本。fθm是参数化函数ing. 他们首先搜索架构，然后重新训练Meta其中参数θm，而L表示损失函数。后基于搜索到的架构的权重。不幸的是，在qq在这种两阶段策略中，元权重被忽略了，采用架构搜索，打破架构与元权重的相互影响。在我们的方法中，体系结构和元权重可以相互受益，梯度下降的M步，任务i从用于通过以下规则更新元学习器θ=θ−β满足θL（fM;T），（2）Q更好的整体优化。此外，有些工作集中在设计任务-Tip（ T）132DO奥ΣΣOLLDD我D不DD我我塞吉我其中βMeta表示权重的外部（元）学习率。在元训练阶段之后，模型学习良好初始化的权重，这有助于元学习者在梯度下降优化的几个步骤内适应元测试中的在候选集合中使用零操作来表示缺乏连接。e是层e的相关连接参数。因此，层e的层置信度被定义为非零操作的最大关注值：经验值eo（五）3.2. 飞镖SLC=OMax∈O，o=零 Σo′∈O exp（n），为了获得连续的架构搜索空间，DARTS [19]对所有可能的操作候选应用softmax。softmax将一个特定操作的分类选择放宽为软操作。每一层的输出是所有操作输出的期望，在我们的实验中，我们应用层置信度来确定每个层固定一个连接的过程可以分解为两个步骤。首先，我们计算所有层的层置信度SLC选择具有最大SLC的层其次，对于选定的层，我们只保留具有最大权重值的操作，并删除其他操作。（x）=o∈O经验值o′∈Oexp（O′）o（x），（3）呃。保持的操作称为元连接。随着连接逐渐被修剪，其中x是输入，是候选操作集，并且是对操作o的softmax关注。在DARTS收敛时，仅保留具有相对最大注意力值的操作存在一个双层优化问题，其中连接参数和网络权重需要联合优化。DARTS通过交替更新连接参数θ和权重θ来解决冲突：固定连接将进一步影响其它非固定连接的搜索的更新基于元学习器的收敛性，我们同时得到了自适应的结构和相应的元权重我们认为这样的学习者可以从任务分配中学习知识pT更高效、更有效。3.4.连接自适应元学习我们的方法的主要目标是找到元学习者=（四）具有自适应架构和元权重。然而，如DARTS [19]中所述，存在双层优化问题。我们无法优化连接参数其中train和val是训练数据集和验证数据集的损失函数。α和β分别是连接参数和网络权重是内部优化学习率，是获得最小学习率的代理，在我们的工作中设置为03.3. 渐进式连接合并为了增强体系结构的灵活性，我们在体系结构搜索过程中使用了一个超网，而我们最终的Meta学习器是从超网中修剪出来的一个子网络。请注意，在我们的方法中，我们将每层的候选操作因此，架构搜索就是学习每一层彩票假设[7]揭示了架构和网络权重之间的相互然而，以前的工作，如T-NAS [15]，采用两阶段策略，即：首先搜索架构，然后基于搜索到的架构重新训练元权重。这种两阶段训练将打破相互作用，因为两个目标是单独优化的。为了保持相互影响并建立更好的协同优化，我们提出了渐进连接而不考虑网络权重θ。如图2所示，在MAML [6]中，他们需要在初始网络权重和任务上解决另一个双层优化问题[19]。因此，我们需要解决基于NAS的Meta学习中的4级优化问题。在MAML和DARTS之后，在每次迭代中，我们使用两种不同的反向传播来优化迭代，θ，分别。换句话说，我们的CAML更新了交替使用θ和θ的元学习者。由于我们联合优化了连接参数和权重，我们有四个学习器，即。其中，θ的元学习器、θ的元学习器、θ的内学习器和θ的内学习器是最优的。在连接参数θ的内部更新期间，网络权重θ是固定的。遵循NAS方法[12，19]中的常见设置，我们将元列车分为元列车分裂拱和元列车分裂权重（如补充材料所示），其中元列车分裂拱用于更新连接参数θ，而另一个用于优化网络权重θ。请注意，每个分裂都有支持集和查询集[31]。给定从元训练分裂拱的支持集采样的第i个任务分裂拱，s，迈兹·阿比，合并（PCC），逐层修剪超网m+1=mL（f;T裂拱，s），（6）层的信心。层e由来自候选操作集合O的所有操作组成。[19 ]第19话我们其中αinner是元连接的内部学习率，m是内部更新步长。fθ，θ表示参数化.我在搜索过程中。我们定义层置信度如下：内m，θ133LDInput：DDJJ我Qθ˜Jθ的元学习者。我（十）16用公式9更新一步的θ我我M，θi分块配重D更新内学习者01更新元学习器梯度下降阿萨姆（100m，100m）在任务队列中&(a) 模型不可知的元学习（b）连接自适应元学习图2.是损失函数。内学习器对θm、θn和θm进行更新，元学习器对θ0、θ1和θ1进行优化。（a）.MAML[6]使用与元梯度相同的更新方向优化元权重。（b）.我们的CAML分别使用与元梯度相同的更新方向来优化连接参数θ和网络权重θ函数的连接数为（0=），网络权重为θ。我在M个内部更新步骤之后，更新连接以适应具体任务。我们根据下面的公式优化学习器算法1：CAML输入：元训练数据集split-arch元训练-split-arch输入：元训练数据集分割权重元列车分重。学习率α内，αMeta，β内，β元。ϕ˜=ϕ˜−α遇到一个女的T裂拱，q），（7）我1随机初始化网络权值θ和连接参数θ。其中，αMeta是meta（外部）学习率。我们使用优化θ的内部学习器和Meta学习器的类似规则如下：2 虽然没有终止3任务样本批次{Tsplit-arch}来自D元列劈裂拱;m+1m分块配重4对于T分裂拱∈ {T分裂拱}doθj=θj −βinne r<$θmL（f<$m，θm;Tj），（8）我劈裂拱θ=θ−βJ（f）J;T分权，q），（9）获取数据点Ti，从支持集。M其中，βinner和βMeta是M步的公式6。）. 分权，q和分块配重，第7节从查询集获取数据点Tsplit-arch， qθθj=θTjTji是来自元训练分割权重的任务。在Meta学习器的收敛性方面，我们得到了一个自适应的结构和元权重。我们通过两组双层优化来简化我们的方法作为近似。我们的CAML的完整算法在Alg.1.一、最近，T-NAS[15] 和 MetaNAS [5] 提出了一种名为 One-PropagationNAS-Based Meta-Learning（OPML）的组更新规则，的元学习者。端89用公式7更新一步的时间10个任务样本批次{Tsplit-weights}来自D元训练分裂权重;11对于T分裂权重∈ {T分裂权重}，12从支持集获取数据点T13用公式8更新网络权重θmΣϕm+1;θm+1Σ=[m; θm]−η我我我我我˜我−[˜˜˜L（f;Ts），我]LT），M步。分权，qΣ Σ ΣΣ内[λm，θm]i14从查询集中获取数据点Tjθi=θiηMetaθM，θM（f;i）15末端其中ηinner =[αinner; βinner]，ηMeta =[αmeta; βmeta]。 F表示参数化函数，Ts和Tq相同。17如果在此迭代中需要修剪，则18修剪网络架构和权重。（101，10'$）&（2001年，2000年）（��100，100）��m*+a安达克杰）（m*+a）平行平行∇ ℒ（2001（（m*+a）平行）在任务队列中&JMetaθM6更新体系结构参数我与5134从元火车上跳下来。换句话说，他们把联系参数和网络权重相等，并在一次传播，如图3所示。我们还进行我们的实验基于OPML，定量比较，可在表3中找到。4. 实验为了验证该方法的有效性，我们在小样本学习环境下进行了实验，19终20end一些流行的数据集，例如，Omniglot [11]，FC 100 [21]和[22]第二十二话我们的实验包括架构搜索和评估。我们寻找一个元学习者，具有自适应架构和元权重在训练阶段。然后我们评估搜索的Meta-135±（2016 -05-23）在任务中，（100，100）∇ℒ参数（24.2K对26.1K），验证了我们的方法的优点。此外，我们的方法可以节省至少66%的搜索成本相比，其他国家的最先进的NAS为基础的方法。因此，我们最终获得一个自适应结构和元权重的元学习器，通过共同优化连接参数和网络权重的同时。我们还与其他特定于任务的方法（如BASE [27]，T-NAS [15]和MetaNAS [5]）进行了比较，图 3.在以前的作品中（例如：， T-NAS [15] 和 MetaNAS[5]），连接参数和网络权重被同等对待，并通过一次反向传播更新。由于学习速率不等，元学习器勒纳最后，我们做了一些消融研究来证明我们的CAML和PCC的有效性。4.1. 架构搜索我们将 DARTS [19] 中的基本搜索设置应用于CAML。表示为有向非循环图的单元[40]由计算节点的有序序列组成。我们寻找两个细胞组成的正常和减少细胞的推广和效率。然后，我们堆叠两个单元来构建整个网络架构。因此，体系结构由{\displaystyle{\normal}，{\displaystyle {\ reduce }确定。候选操作集。对于候选操作集，我们使用与DARTS[19]相同的集合，其包含8种操作：（1）零，（2）恒等，（3）3*3最大池化，（4）3*3平均池化，（5）3*3深度分离卷积，（6）3*3扩张深度分离卷积，（7）5*5深度分离卷积。（8）5 × 5扩大的深度方向分离卷积。其他详细的检索设置和检索的体系结构总结在补充材料中。4.2. 小样本学习数据集在搜索阶段之后，获得具有自适应结构和相应元权重的元学习器在评估过程中，我们对搜索到的元学习者进行了100个时期的训练，每个时期有1200个独立的任务注意，与DARTS [19]不同，我们训练搜索的架构而不进行任何修改（例如，通道和体系结构）。我们使用 Adam 优化器（余弦衰减）， Meta 学习率 βmeta=0。001Meta更新内部学习率β inner=0的普通SGD。01用于优化内部学习器。我们还报告了通过从随机初始化的权重训练自适应架构的模型所有结果均来自三个不同的实验，其中1个标准差作为误差条。在Mini-Imagenet和FC 100上的实验结果示于表1中。在补充材料中可以找到关于Om-niglot的实验结果。在所有数据集上，我们的方法以更少的计算成本实现了最佳性能。CAML的性能优于基线Auto-MAML 4.0%（68.1%对64.1%），如表2所示。与那些依赖于任务的方法相比，我们的CAML可以用更少的参数达到相当的性能。T-NAS [15]对每个元测试任务使用两阶段策略，以获得52.8%的更高准确率，并且还报告了215倍的搜索成本。4.3. 消融研究CAML和PCC的贡献。我们评估了由我们的方法的两个组成部分，即CAML和PCC所做的对比。结果如表3所示。在基于NAS的单传播元学习和CAML中，渐进连接合并（PCC）都起着至关重要的作用，它有助于发现具有更高性能的元学习者。PCC加强了体系结构与网络权值之间的协同优化和相互因此，搜索的权重显示出更显着的潜力比一个随机初始化的衍生架构与PCC。在没有PCC的CAML中，我们在搜索结束时执行一次性修剪此外，CAML取得了更好的性能比OPML从两个初始化条件，证明了我们的方法的有效性。此外，CAML可以很好地配合渐进式连接合并，以提供进一步的改进。CAML与 OPML。在现有的工作中（例如：，T-NAS[15]），连接参数和网络权重被同等对待。因此，通过反向传播一次来优化θ和θ。我们将更新规则称为基于NAS的元学习（OPML），如第3.4节所述。如表3所示，虽然OPML可以很好地与PCC合作CAML性能提高的一个潜在原因可能是学习器的并行在MAML [6]中，他们设计了元梯度的更新方向来更新元学习器，如图2所示。（一）.并行更新方向使元学习器但在OPML中，由于θ和θ的学习速率通常不相等，因此元学习器类似于MAML，我们的方法将导致与元梯度相同的更新方向，这有助于找到更好的元学习者。比较不同的搜索空间。 MetaNAS [5]在其搜索空间（命名为S1）中考虑了一组不同的操作，因此结果不能直接比较。到$（）*α$（）*（美元）∇'ℒ∇ ℒ（2001年，2001年）α$（）*α$（）*不平行136±数据集方法Params（K）FLOPS（男）搜索成本(GPU天）准确度（%）1发5发10发迷你影像网[第10话]自动MAML [15]我们28.026.124.2-27.215.011220.749.651.252.2±0.2±1.8±0.465.164.168.1±0.2±1.1±0.3---FC100自动MAML [15]我们26.118.43.93.920.738.839.2±1.8±0.452.253.6±1.2±0.257.557.7±0.8±0.4表1.在Mini-Imagenet和FC 100上与基于NAS的方法进行5向分类精度的比较方法Params（K）搜索成本(GPU日）准确度（%）1发5发[27]第27话1200-49.752.8--±0.4±1.465.466.262.167.9±0.7±0.7±0.9±0.9[27]第27话1200-MetaNAS [5]30.07T-NAS [15]26.5150我们24.20.752.2 ±0.468.1 ±0.3表2.与Mini-Imagenet上基于任务特定NAS的方法进行5向精度比较使用从头开始训练的元学习器（随机初始化）来构建模型。我们还将模型与硬修剪标准[19]而不是我们的PCC进行了比较。我们训练OPMLCAML✓44.9K20.0K61.0±0.464.2±0.262.6±0.162.8±0.4从随机初始化中硬修剪的架构和保持的用于评估的网络权重结果CAML 24.2K 67.4±0.568.1±0.3表3.Mini-Imagenet上的平均5向5次射击精度OPML是One-Propagation基于NAS的元学习，在第3.4节中提到，并在一次反向传播中更新θ和θ没有PCC的架构意味着我们只在搜索结束时进行一次性修剪，就像以前的作品[5，15]一样。请注意，没有修剪的超网在220.0K参数下达到了57.6 ± 1.2%的准确率。搜索空间方法参数（K）GPU天精度（%）1发5发S1S1MetaNAS [5]我们≈3016.870.749.7±0.462.1±0.950.4±0.465.4±0.1表4.Mini-Imagenet上的平均5向精度比较在S1的搜索空间中，我们的方法也能以较少的参数和较少的搜索代价获得更好的性能。更好地说明我们的方法的有效性，我们进行实验，评估我们的方法使用的搜索空间的S1上Mini-Imagenet。实验结果如表4所示。显然，我们的方法也可以实现更好的性能，更少的参数和更少的搜索成本使用搜索空间的S1，证明了我们的方法的有效性。从保留的元权重训练与从头开始训练我们提出了渐进式连接合并（PCC），以解决架构逐渐在搜索阶段。为了验证保持的网络权重总结在图5中。我们的方法从与随机初始化相比，从保持初始化更有效地分配任务此外，没有我们的PCC，保持权重并不比随机权重表现得更好。这表明我们的PCC有助于增强架构和元权重之间的相互作用。为了更好地验证我们的动机，我们对模型的第一层进行了采样，并在图4中显示了分布。我们搜索到的元权重的分布更接近优化目标，证明了协同优化的有效性。图4（b）还显示了先前的两阶段训练策略导致弱Meta学习器，其权重分布远离训练目标。不同剪枝策略的比较为了证明我们的层信任度为基础的修剪策略的有效性，我们还修剪超网与固定的顺序，如向前序列或向后。此外，我们还尝试了两种不同的剪枝策略，即基于方差的策略和基于熵的策略。基于方差的策略选择其操作的结构参数方差最大的层结果总结于表5中。显然，在我们的PCC中，基于层此外，我们还可以观察到-更新规则PCCParams从零开始训练从保持重量开始训练OPML✗51.3K59.0±0.359.1±0.61370.30从零开始0.30从搜索权重0.30从搜索权重0.250.250.250.200.200.200.150.150.150.100.100.100.050.050.050.001.000.750.500.250.000.250.500.75一元权值0.001.000.750.500.250.000.250.500.75一元权值0.001.000.750.500.250.000.250.500.75一元权值(a) 没有PCC，从头开始训练。(b) 在没有PCC的情况下，从搜索的权重进行训练(c) 使用PCC，从搜索的权重进行训练。图4.评估期间第一卷积层的网络权重分布在没有PCC的情况下，搜索的权重并不比随机初始化更接近训练目标。PCC缩小了搜索权重和训练目标之间的分布差距。请注意，训练目标不同，因为它们是从具有不同架构和初始化的经过良好训练的元学习器派生的。0.700.65Mini-Imagenet上的5路5次测试精度序列火车从Train from（K）临时搜索权重0.600.550.50前向后向基于熵基于方差34.027.725.126.861.0±1.0 66.0 ± 0.163.6±0.6 64.5 ± 0.266.7±1.0 67.7 ± 0.166.9±0.2 67.8 ± 0.10.450.400 1020训练时期30 4050SLC基于24.2 67.4± 0.1 68.1± 0.2表5.通过CAML的五种修剪策略，在Mini-Imagenet上实现了平均5路、5次射击准确率。 SLC表示层置信度。很显然，图5.评价期间，Mini-Imagenet上的5次拍摄、5向元测试准确度搜索的权重可以更好地配合最终的架构比随机初始化PCC。方法Ours + MAML [6][20]第二十话准确度（%）1发5发52.2±0.468.1±0.3我们的+MAML++[1] 53.4±0.369.1±0.551.6±0.368.5±0.3表6.不同元学习方法在Mini-Imagenet上的平均5向准确率比较以搜索到的网络权值为初始值，提高了算法的效率，证明了该方法不同元学习方法的比较。为了进一步评估NAS对元学习的影响，我们将CAML与其他元学习方法（如Reptile[20]和MAML++ [1]）一起应用。结果示于表6中。如表所示，我们的方法可以与其他元学习方法（例如，爬行动物[20]）。MAML++[1]中的一些技术可以直接用于我们的方法，进一步提高了性能。5. 结论在这项工作中，我们专注于探索元学习中的架构影响我们的目标是找到一个具有自适应架构和元权重的Meta学习器，在所有五个阶次中，基于SLC的策略优于其他的平截策略。因此，在PCC中，我们修剪了超网的层，LC的降序。可以在多个类似的任务中表现出色目前的两阶段解决方案是低效的，并且忽略了架构和元权重的协同优化。针对现有的问题，提出了一种新的渐进式连接合并算法（PCC）.通过在搜索过程中逐层固定架构，PCC保留了架构和元权重之间的相互影响此外，我们还提出了CAML算法，在一次迭代中通过两次不同的反向传播同时更新网络结构参数和网络权值，从而大量的实验表明，我们的CAML和渐进式连接巩固都有助于元学习者的成功。我们的方法在所有少数镜头数据集上实现了最先进的性能，计算成本降低了3倍。确认本工作得到了国家重点研发计划（2018AAA0101900）、浙江省国家自然科学基金会（LR21F020004）、国家重点实验室（2018年）、浙江省自然科学基金会（2018年）等的部分支持。浙江省科技攻关项目（编号：2021C01013），中国工程科技知识中心。|t）P目标（Pinit|806DKL=0.6离子亚利萨特初始化目标随机序列搜索初始化训练目标D KL（P初始化||P目标）=0.5279搜索初始化训练目标D KL（P初始化||P目标）=0.2444没有PCC列车从头没有PCC列车从保持重量PCC列车从头开始PCC从保持的重量训练概率测试精度概率概率138引用[1] Antreas Antoniou，Harrison Edwards，Amos Storkey.如何训练你的MAML在2019年国际学习代表会议上。三、八[2] DavidBrüggemann ， MenelaosKanakis ， AntonObukhov，Sta- matios Georgoulis，and Luc Van Gool.探索多任务密集预测的关系上下文。在IEEE/CVF计算机视觉国际会议论文集，第15869-15878页，2021年。2[3] 齐彩，潘英伟，姚婷，严成刚，梅涛。一次图像识别的记忆匹配网络。在IEEE计算机视觉和模式识别会议论文集，第4080-4088页，2018年。3[4] Xiangning Chen ， Josen Wang ， Minhao Cheng ，Xiaocheng Tang，and Cho-Jui Hsieh.Dr{nas}：Dirichlet神经结构搜索。2021年，在国际学术会议上发表。3[5] Thomas Elsken，Benedikt Staffler，Jan Hendrik Metzen，and Frank Hutter.用于少量学习的神经架构的元学习。在IEEE/CVF计算机视觉和模式识别会议论文集，第12365-12375页，2020年。二三五六七[6] Chelsea Finn，Pieter Abbeel，Sergey Levine.用于深度网络快速适应的模型不可知元学习。在第34届机器学习国际会议论文集，第1126-1135页，2017年。一二三四五六8[7] 乔纳森·弗兰克尔和迈克尔·卡宾。彩票假说：寻找稀疏、可训练的神经网络。在2019年国际学习代表会议上1、4[8] Fred X Han ， Di Niu ， Haolan Chen ， Weidong Guo ，Shengli Yan，and Bowei Long.网络规模查询概念化的元学习第26届ACM SIGKDD知识发现数据挖掘国际会议论文集，第3064-3073页，2020年。2[9] Sepp Hochreiter，A Steven Younger和Peter R Conwell。学习使用梯度下降。在人工神经网络国际会议上，第87Springer，2001. 3[10] Jaehong Kim ， Sangyeul Lee ， Sungwan Kim ， MoonsuCha ， Jung Kwon Lee ， Youngduck Choi ， YongseokChoi，Dong-Yeon Cho，and Jiwon Kim. Auto-meta：基于梯度的自动元学习者搜索。arXiv 预印本arXiv ：1806.06927，2018。一、二、三、七[11] Brenden Lake ， Ruslan Salakhutdinov ， Jason Gross 和Joshua Tenenbaum。简单视觉概念的一次性学习。在Proceedings of the annual meeting of the cognitive sciencesociety，第33卷，2011年。5[12] Guohao Li ， Guocheng Qian ， Itzel C Delgadillo ，Matthias Muller ， Ali Thabet ， and Bernard Ghanem.Sgas：顺序贪婪架构搜索。在IEEE/CVF计算机视觉和模式识别会议论文集，第1620-1630页，2020年。4[13] Juncheng Li，Xin Wang，Siliang Tang，Haizhou Shi，Fei Wu，Yueting Zhuang，and William Yang Wang.无监督用于导航的可转移元技能的强化学习在IEEE/CVF计算机视觉和模式识别会议论文集，第12123- 12132页，2020年。2[14] Ting Li，Junbo Zhang，Kainan Bao，Yuxuan Liang ，Yexin Li，and Yu Zheng.Autost：用于时空预测的高效神经架构搜索第26届ACM SIGKDD知识发现数据挖掘国际会议集，第794-802页，2020年。3[15] Dongze Lian，Yin Zheng，Yintao Xu，Yanxiong Lu，Leyu Lin，Peilin Zhao，Junzhou Huang，and ShenghuaGao.通过Meta学习实现神经结构的快速适应。在2020年国际学习代表会议上一、二、三、四、五、六、七[16] Bill Ychen Lin，Ying Sheng，Nguyen Vo，and SandeepTata.Freedom ： A transferable neural architecture forstructured information extraction on web documents.自由：一个用于Web文档结构化信息提取的可转移神经架构。在第26届ACM SIGKDD知识发现数据挖掘国际会议论文集，第1092-1102页3[17] Chenxi Liu ， Liang-Chieh Chen ， Florian Schroff ，Hartwig Adam，Wei Hua，Alan L Yuille，and Li Fei-Fei.Auto-deeplab：用于语义图像分割的分层神经架构搜索。在IEEE计算机视觉和模式识别集，第823[18] Hanxiao Liu ， Karen Simonyan ， Oriol Vinyals ，Chrisantha Fernando，and Koray Kavukcuoglu.用于高效体系结构搜索的分层表示。 arXiv 预印本 arXiv ：1711.00436，2017。3[19] 柳寒笑，凯伦西蒙尼扬，杨一鸣。 DARTS ：Differentiable Architecture search。在2019年国际学习代表大会上。三、四、六、七[20] Alex Nichol，Joshua Achiam，and John Schulman.一阶元学习算法。arXiv预印本arXiv：1803.02999，2018。二、三、八[21]

下载后可阅读完整内容，剩余1页未读，立即下载