神经结构搜索中的可转移方法——Arch-Graph

67 浏览量更新于2023-10-25 收藏 1.13MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

11881Arch-Graph：用于任务可转移神经结构搜索黄敏斌1黄志坚1李长林3陈欣4徐航2李振国2梁晓丹1*1中山大学深圳校区2华为诺亚3ReLER，AAII，UTS4香港大学{huangmb5，huangzhj56mail2.sysu.edu.cn @changlinli.ai gmail.comcyn0531@connect.hku.hk，www.example.com，chromexbjxh@gmail.com，李振国@ huawei.com，xdliang328@gmail.com摘要神经架构搜索（NAS）旨在为多个任务找到有效的模型。除了为单个任务寻找解决方案之外，人们对跨多个任务传输网络设计知识的兴趣也在激增。在这条研究路线中，有效地建模任务相关性是至关重要的，但却被高度忽视。因此，我们提出了Arch-Graph，一种可转移的NAS方法，它可以预测特定于任务的最优架构。它通过将其嵌入作为预测器输入的一部分来利用多个任务之间的相关性，以我们还将NAS表示为一个体系结构关系图预测问题，将候选体系结构视为节点，将其成对关系视为边来构造关系图。为了执行一些基本属性，如在关系图中的无环性，我们添加了额外的约束优化过程中，转换- ING NAS的问题，找到一个最大加权无环子图（MWAS）。然后，我们的算法努力消除循环，并且只有在排名结果可信的情况下才在图中建立边通过MWAS，Arch-Graph可以有效地对每个任务的候选模型进行排名，只需少量预算来微调预测器。通过在TransNAS-Bench-101上的大量实验，我们展示了Arch- Graph在众多任务上的可移植性和高样本效率，击败了许多为单任务和多任务搜索设计的NAS方法。它能够在两个搜索空间中找到平均0.16%和0.29%的架构，而预算仅为50个模型。11. 介绍神经架构搜索（NAS）方法[2，40]有可能使深度学习民主化，并降低成本。*通讯作者。1代码：https://github.com/Centaurus982034/Arch-GraphFinetune建筑师......成对关系预言家.........架构关系图目标任务极大权无圈子图源任务产出排序图1.我们的Arch-Graph概述，它在源任务上训练成对关系预测器，并通过微调转移到目标任务。基于成对关系预测器构造体系结构关系图。在选择架构关系图的MWAS后，Arch-Graph可以对不同的候选架构进行适当的人工设计神经网络。通过自动搜索最佳体系结构，许多NAS方法已经发现在各种任务上超过人类设计的模型。然而，许多NAS解决方案在计算上是昂贵的，因为它们需要在大量候选架构上进行训练在需要多个任务的网络的情况下，搜索每个任务的架构需要从头开始重复运行NAS方法以找到性能最好的网络，从而丢弃在搜索过程中积累的潜在有价值的知识最近有许多尝试[15，34]通过挖掘任务相关性来研究不同任务上的可转移NAS问题。例如，[15]提出使用元学习来为给定的新任务生成架构。然而，它强烈假设每个预训练任务的最佳性能架构的信息总是可用的，这可能会限制其用例。[34]提出使用任务嵌入来通知RNN控制器任务信息，并将NAS框架为强化学习（RL）问题，这继承了RL的样本效率低下问题。权重分担11882技术[16-基于预测器的NAS方法[23，28，33，35，37]通过对架构-性能对进行采样并拟合代理准确度预测器以降低计算成本来缓解这些问题。然而，训练大量的架构以拟合良好的预测器也可能在计算上具有挑战性。此外，这种方法最终将NAS转换为回归问题，这可能很难解决，因为模型空间通常是高度非凸的，使得准确识别顶级表现者非常困难。在本文中，我们认为，与其他方法相比，将NAS作为一个排名问题可以带来许多额外的好处，这主要是因为它增加了提供额外学习信号的约束。这个关键的观察促使我们开发一个预测器，捕捉体系结构之间的成对关系，并将NAS公式化为图排序问题。我们的方法，拱图，对待架构的节点和订单信息的有向边缘，这样的边缘指向从拱a到拱b表示拱a在其性能相比，拱b的优越性。我们建议使用成对关系预测器来构建这个图。该预测器以找到图中节点的正确成对顺序为目标进行优化，与以前直接预测体系结构性能的逐点预测器相比，大大提高了数据效率和预测精度。为了允许在不重新训练预测器的情况下在不同任务之间转移，在预测器训练过程期间表示任务的另一个关键成分任务嵌入稳定了以前关于任务嵌入的工作主要集中在分类任务[1]上，而我们提出的任务嵌入方法更通用，可以应用于许多其他视觉领域，如自动编码和语义分割。在通过成对预测器构建关系图之后，架构选择可以被表示为该图上的拓扑排序问题。在这种设置下，强制图遵循偏序的基本属性是至关重要的，例如无环性，它禁止循环排序（A> B> C而C> A）。因此，我们工作的一个核心组成部分是定义一个最大加权无环子图（MWAS）问题与信任得分，以确保构造的图遵循非自反，传递，反对称性质的偏序。我们提出了一个近似的解决方案，它通过迭代应用最大MAS算法。我们在TransNAS-Bench-101上的实验证明了这种方法的有效性。Arch-Graph的有效性，在宏观和微观搜索空间上分别识别平均排名为5.24（前0.16%）和12.2（前0.29%）的架构，仅随机采样50个架构，在其他方法中至少节省37.5%的样本以获得可比结果。最后，我们工作的贡献可以总结如下：• 我们提出了Arch-Graph，一个任务可转移的NAS方法，从一个新的角度制定NAS：一个图排序问题，并解决这个问题，通过训练成对关系预测器，这是更有效的数据，节省至少37.5%的训练样本。• 我们将任务嵌入推广到任何类型的任务，并通过预测任何给定的任务嵌入上的架构关系，进一步实现任务可转移的• 为了消除预测器构造的关系图中的错误边，我们定义了最大加权无环子图问题，并提出了一个近似算法来解决它。• 大量的实验表明，Arch-Graph可以在很大程度上击败许多现有的可转移NAS方法，在两个搜索空间上找到前0.16%和0.29%的2. 相关工作基于预测器的NAS。NAS在过去的几年中取得了许多突破性进展。它的早期作品利用了再强化学习[30，38，39，41]和进化算法，Rithms [20，26，27，29，36]，并发现许多高性能的架构在高计算成本。后来的工作，然后努力降低搜索成本，同时提高perfor-曼斯。在众多的方向，预测为基础的NAS方法是最相关的我们的工作。他们试图准确有效地预测给定神经结构的性能。这些方法通常包括两个步骤：1）对体系结构及其精度进行采样，以及2）学习精度预测器。拟合预测器的目标可以被视为回归[33]或排名[23，37]问题，并且预测器的选择范围很广[9，21，22，32]。Shi等人[28]采用贝叶斯sigmoid回归作为贝叶斯优化（BO）的代理模型来选择候选人。由于在整个搜索空间上应用BO是困难的，[35]用一组较弱的预测因子替换了一个强预测因子，得到了过于简化的BO。与这些复杂的工作不同的是，我们提出了两两关系预测器，并将NAS问题表示为一个图排序问题，其中图由预测器给出。可转移NAS。NAS的迁移学习主要关注在同一搜索空间内的任务之间以及特定任务的搜索空间之间的迁移。最近提出了一些跨任务NAS基准测试11883−成对关系预测训练源任务体系结构关系图排序Finetune标记关系预测关系图2.我们提出的Arch-Graph的框架在成对关系预测器训练阶段，给定源任务和感兴趣的架构，我们对少量架构进行采样以拟合预测器，然后在目标任务上对其进行微调在架构关系图排序阶段，我们根据预测结果构造一个关系图，将每个架构作为一个节点，有向边作为排序信息。为了从关系图中得到正确的排序，我们将与置信度相关的权重分配给边，并选择最大加权无环子图，并从关系图中得到有向无环图（DAG）。最后，我们评估的拓扑排序的DAG给出的顶级架构。[7，31]用于提高NAS算法的可移植性和可推广性虽然在与单任务NAS的兼容性方面相对被忽视CAS [24]基于权重共享策略对多任务架构搜索应用连续学习，试图找到可以很好地推广到看不见的任务的单个单元结构Catch [4]将元学习与RL相结合，以快速适应新任务。不同于[22]的单任务，Leeet al. [15]提出以元学习风格从数据集生成图形，以使方法在多个数据集上很好地通用。然而，它需要在训练过程中使用性能最好的架构来学习好模型的特性，这可能会导致高计算成本。与此相反，我们的方法只通过随机抽样来实现可观察的结果。3. Arch-Graph可迁移NAS方法旨在重用源任务中的架构选择知识，并在目标任务中找到性能最佳的架构。与此设置一致，Arch-Graph算法由两部分组成：成对关系预测器训练和架构关系图排序，如图所示二、我们训练成对关系预测器（Sec.3.1）在源任务上使用采样架构对和任务嵌入（第3.1节）。3.2），然后在目标任务上进行微调。在使用微调预测器构建架构关系图之后，我们通过找到最大加权无环子图（MWAS）（第12节）来对架构进行排名。3.3）。3.1. 成对关系预测器对于基于预测器的NAS算法，模型的预测排名可能比模型性能预测的绝对数量更重要，因为我们只关心排名靠前的那些。许多基于预测器的NAS方法集中于直接预测模型的准确性[33]或通过排序损失对所有感兴趣的模型进行排序[23，37]。然而，由于模型空间通常是高度非线性的，这些预测器通常不能被训练成具有高准确度。此外，这些方法不是数据有效的，因为它们需要大量的样本来拟合复杂模型空间上的预测器。我们建议从一个新的角度来研究NAS，这是制定它作为一个架构关系图排序问题。我们的主要观察结果是，尽管对所有模型进行排名可能会有问题，但仅在两个模型之间进行比较要容易得多此外，正如以前的工作[8，10]所示，当受到有限可用数据的挑战时，学习成对关系可以产生比许多常见回归方法更高的分类器性能这是因为当我们只有n个标记的样本时，我们可以这在获取标签的计算成本很高的设置中非常有用，例如NAS。这启发了我们使用一个训练有素的成对关系预测器来获得搜索空间中模型的排名因此，在我们的环境中正确定义关系是至关重要的，其中最相关的概念是偏序。定义1（偏序）一个集合P上的（强）偏序是一个既非自反又可传递又反对称的关系，也就是说，对于a，b，c∈P：1. 非自反的：不是一个反身的。2. 传递性：如果a=b且b=c，则a=c。3. 反对称：如果a是b，则b不是a。定义2（全序）全序是集合P上的偏序，使得对于a∈a，b ∈ P，a ∈ b或b ∈ a。如果一个训练良好的预测器定义了偏序，那么排序模型的问题就归结为将偏序（定义1）扩展到全序（定义2），这在现有文献中已经得到了广泛的研究在那里-塔吉特塔斯克MWAS选择拱关系图权重矩阵预训练11884−∈G→→Σ←⊙不2不G不12不← −←← ⌊⌋因此，我们的预测器被训练来定义模型空间上的偏序。给定一个源任务τs，我们首先从τs中随机选取m个模型，并对它们进行全面评估，以获得它们在测试数据集上的性能通过这种方式，我们通过形成成对关系获得了m2m个样本成对关系预测器的细节在图1中示出3 .第三章。（arch a，arch b）是随机采样的架构，首先作为图卷积网络（GCN）[14]预测器的输入。然后，GCN预测器生成两个嵌入来表示这两个架构。接下来，这些嵌入与任务嵌入相连接，任务嵌入是通过将全连接层应用于第2节中描述的特征提取器而生成的。3.2.它们一起被馈送到softmax函数中以构造简单的概率分布p=（pa，pb）R2，其中pa> pb指示archa优于archb。然后将所产生的概率分布与地面真值标签{[0，1]T，[1，0]T}进行比较。目标是最小化双-随机采样结构对预计算任务嵌入级联全连接层SoftmaxGCN编码器图3.我们提出的成对关系预测器的详细结构。预测器将架构对（archa，archb）和任务嵌入作为输入，并产生概率向量pa，pb，其中pa> pb指示archa优于archb。算法一曰：计算的近似MWAS输入：A：（循环）图的邻接矩阵;S：边权重矩阵;：阈值，通过||一||1，seg=b−a;零交叉熵损失（BCE）具体来说，我们包括（arch，arch）pairs和（arch，arch）pairs都要当seg>1时，AT←max-MAS（A，r）;a b b a如果测试勇气反对称。如果a b和b a都不存在，我们简单地将它们标记为不可比较，这在偏序中是允许的在源任务上训练成对关系预测器之后，我们通过在一组t个目标任务{τ，τ，.，带着一个小花蕾-找到较大的r：r←r+1;else将区间的左端点移到r：a←r;计算得分：s（ATS）ij;i、j如果R（AT）≠ 0且s> s0，则<记录最大评分：s0←s;从每个目标任务中选择b个架构更具体地，用于微调预测器的结构，以及端A（best）←AT;用于成对关系验证的BV架构我们选择具有最高验证精度的预测器作为最终结果。然后，在微调的预测器之上对τi执行架构关系图排序端将间隔长度减半：segseg;r rseg;将区间的右端点移到r：b r;端3.2. 任务嵌入当跨任务传输架构知识时，重要的是告知NAS方法目标任务因此，我们遵循[1]，它只为分类任务生成任务嵌入，扩展它以生成其他任务的嵌入。任务当预训练模型在任务τ i上进行微调时，它实际上是向网络的权重添加了一些扰动w′=w+δw，并且我们可以测量原始输出分布p w（y）之间的平均KL偏差。|x）和扰动的一个pw′（y|X）。它可以通过ExpKL（pw′（y|x）||pw（y|x））=δwF δw（1）其中F是Fisher信息矩阵（f）：输出：A（最佳）作为MWAS的近似值然后，该图指示对于解决当前任务而言信息量更大的特征图的集合。我们使用ImageNet预训练的ResNet-50作为编码器，然后使用随机初始化的解码器为每个任务训练编码器-解码器网络。通过这种方式，ResNet-50编码器的参数根据每个任务的特征进行调整。编码器本质上是一个任务特征提取器，我们只需为这个特征提取器计算一个k。然后，将该向量用作每个任务的任务嵌入，这是一个固定维度的向量。3.3. 体系结构关系图排序关系图构造在获得目标任务τk上的微调的成对关系预测器之后，我们F=Ex，yp（x）pw（y|x）Σ∇wlog p w(y|x）wlog p w（y|x）Σ可以用邻接矩阵构造有向图τk好吧。从节点a到节点的有向边的存在性(2)Gτk中的b表示结构拱a是维护具有最大得分的子图：11885IJn→ →→|V|G V EB|| ||−||−||G∈ XX → Y||−||G比architectureB好。也就是说，=1指示茨维特科维奇等人将其表述为以下优化在任务τk中，拱门a具有比拱门b更高的性能。由于预测器在成对关系上可能容易出错，因此图中可能存在大量噪声边缘。这可能会导致循环违反部分问题（见S. M.）2）：minρ（X）S.T.X ∈ B（A，r）（三）顺序，这可能会影响模型的排名。(as在图2中，A3一个2一个5A3形成一个循环）。理想情况下，我们我想得到一个有向无环图（DAG），其中它的边共同定义了一个偏序，它的拓扑排序定义了节点的排序。最大加权无环子图（MWAS）基于我们上面的观察，我们的目标是找到一个满足以下性质的子图：a）边以高置信度存在; b）子图中没有圈; c）子图尽可能接近原始图。这就引出了我们对最大加权无环子图（Maximal Weighted Acyclic Subgraph，MWAS）的定义：定义3（最大加权无环子图，MWAS）给定一个有向（循环）图=（，），=n，具有邻接矩阵A和非负边权矩阵S，MWAS是找到G的具有邻接矩阵AT的非循环子图T=（V，ET），使得分p（T）=Se=ATS最其中ρ是光谱半径，（A，r）是以A为中心的L1球。因此，他们通过整数二分法找到最小的r，使得目标函数值等于零（有向图是无环的，当且仅当它的谱半径为零，见S. M.2）。我们将关于r的解表示为max-MAS（A，r）。我们注意到，在我们的关系图中，有大量的边是干净的，即使r不够小，max-MAS（A，r）也能在AT A的度量下返回合理的解AT假设目标任务验证集上的精度τ t为Acc（τ t），在r从A1到0的整数等分过程中，我们经验性地保存边丢弃率R（AT）小于1Acc（τ t）的max-MAS（A，r）。使用不同的近似值，我们计算这些近似值的信任得分，并选择具有最高信任得分的一个选择过程的细节在算法1中描述。在获得MWAS之后，我们可以应用传递性约简-然后拿一个哈塞数字图拓扑排序并最小化||.||.e∈ETi、j很容易在Hasse Digram上找到，因此该任务的模型的预测排名由下式确定：直观地说，最大化p（T）强制执行，如果边缘存在，则网络对其正确性具有高置信度。最小化AT A会使子图尽可能多地保留边.如Guoet al.如[11]所述，来自分类器的原始置信度值可能校准不好，并且对于确定分类器本身的置信度是不可靠的。因此，我们采用[12]中定义的信任得分来为边分配权重，我们应该相信Gτk中的一个边。定义4（信任分数）给定测试样本x以及训练的分类器h：，设ypred是x的预测类，yn是与拓扑顺序。3.4. 训练和推理在迁移学习设置中，我们首先从源任务中随机抽取一小部分m个模型，并对其进行全面评估。在源任务上训练成对关系预测器之后，我们在每个目标任务上对它进行微调，以获得另一个小预算的b模型。在找到每个任务的 Arch-Graph 的 MWAS 之后，我们评估MWAS为每个任务提供的前p个4. 实验ypred，则信任得分由d（x-yn）定义。3d（x-ypred）4.1. 数据集和实施详细信息根据这个定义，我们计算图G中每条边的信任得分，得到边权重矩阵S。最大无环子图（MAS）问题是R.Karp提出的21个NP完全问题中的一个。[13 ]第10段。茨维特科维奇等人对与MAS问题密切相关的max-MAS问题（定义5）提出了一种算法解决方案[5定义5（最大MAS问题）寻找最小整数r，使得给定的图邻接矩阵A可以通过从每个顶点切割最多r个引入边而成为非循环的。TransNAS-Bench-101.TransNAS-Bench-101（TB101）[7]是一个基准数据集，提供了七个视觉领域的架构性能，包括分类、回归、像素级预测和自我监督任务。它提供了机会，以评估可转移的NAS方法之间的不同任务。3在这个基准测试中有两种类型的搜索空间，即，被广泛研究的基于小区的搜索空间包含4096个结构，而基于残差块的宏骨架搜索空间包含3256个结构。[2]根据Lucazet al.[8]我们下午两点补充材料。3更多详情请参见补充材料11886Avg. 秩度量Acc. ↑Acc. ↑SSIM↑SSIM↑mIoU↑L2丢失↓Acc. ↑RS [3]46.8556.5070.0660.7028.3759.3596.7859.26REA [26]47.0956.5769.9860.8828.8758.7396.8841.03单个NASBONAS [28]46.8556.4774.4561.6228.8259.3996.7633.37WeakNAS [35]47.4056.8872.5462.3729.1857.8696.8610.49Arch-Graph-single47.3556.7771.3262.7829.0958.0596.7012.68DT45.4854.9659.3558.6026.2162.0795.37534.31[4]第四季47.2956.4970.3660.8528.7159.37-37.72REA-t [26]46.9856.6073.4161.0228.9058.18-28.98传输NAS[第28话]47.0656.8671.4161.4428.7658.35-27.87NSGANETV2 [19]46.8656.2973.7761.4128.7359.07-34.39[35]第三十五话47.1356.8373.5961.8629.0758.55-15.43Arch-Graph-Zero47.4256.7875.5163.3929.1758.15-7.83Arch-Graph47.4456.9875.9064.3529.1957.75-5.24全球最佳47.9657.4876.8864.3529.6656.2897.021↑表示越高越好，↓表示越低越好，粗体表示最佳结果。表1.在我们的Arch-Graph上对不同NAS方法在宏级搜索空间上的性能比较。对于TransferNAS方法，Jigsaw结果被省略，因为它被用作预训练任务。将TransNAS-Bench- 101中的边上操作设置更改为节点上操作设置，并将每个架构编码为具有表示不同操作的固定邻接矩阵和节点特征矩阵的图。NAS-Bench-201。NAS-Bench-201（NB 201）[6]是一个包含15，625个架构的基准它提供了三个分类任务（包括CIFAR-10、CIFAR-100和ImageNet-16-120）上这些架构的完整请注意，我们的Arch-Graph也可以应用于单任务设置。为了进一步验证我们的Arch- Graph的有效性，我们对一个名为Arch-Graph-single的单任务变体进行了实验，通过简单的预训练和微调同一任务的预测器。成对关系预测器。为了匹配[7]中的实验，我们在耗时最少的任务jigsaw上预训练成对关系预测器（其他任务的预训练2），限制在m=50个模型的固定预算。然后，我们对另一个b=30的模型的每个剩余任务进行微调，使用bf=20进行训练，bv=10进行验证。因此，我们使用每个任务的预测有向边构建Arch-Graph，并使用它们来获得架构的排序。架构关系图排序。在我们获得目标任务的架构关系图之后，我们首先使用一种朴素的方法对关系图上的架构进行排序，命名为Arch-Graph-zero4。通过使用微调的成对关系预测器作为比较操作器，我们实现了模型空间的插入排序算法。由于存在无法比较的元素和噪声边缘（循环），因此会混淆比较运算符，因此我们只需跳过4与基于比较器的排序算法的更多比较可以在第2节中看到。5、补充材料比较，直到我们可以找到一个地方插入尚未排序的架构。这给了我们一个模型空间的粗略排名。由于获得MWAS的高复杂性，我们不计算整个Arch-Graph的MWAS相反，我们选择由Arch- Graph-zero的粗略预测给出的前500个模型随后在该图上进行排序。在找到MWAS（算法1）之后，我们评估了由这些节点的拓扑排序给出的前p=20如果为最终评估选择的任何模型已经被采样，我们只需跳过它并评估下一个模型，直到我们评估了p个模型。宏观级搜索空间和微观级搜索空间的结果可以在选项卡中找到。1和Tab。二、4.2. 与最先进的NAS的单任务NAS。在TB101上，我们使用随机搜索（RS）[3]和正则化进化算法（REA）[26]，以50个时期为基线。然后，我们进行实验，使用两个国家的最先进的预测为基础的NAS方法，[28][35]每个人都有自己的责任。每种方法的总预算设置为50个随机选择的模型。平均模型排名是六个目标任务的平均值。在Tabs。1和2，weakNAS是最好的单任务设置和 Arch-Graph-single 实现可比的结果，weakNAS。在NB 201上，我们在CIFAR- 100上进行了实验3）并将预算设定为150个模型。优于REA和RS，Arch-Graph的平均性能为73.38%，优于BONAS。虽然略低于 weakNAS ，但 Arch-Graph 的 kendall-rank 系数（0.67）远大于weakNAS（0.49），表明更好任务Cls.O.Cls.S.自动。正常Sem等隔离区房间拼图11887Avg. 秩度量Acc. ↑Acc. ↑SSIM↑SSIM↑mIoU↑L2丢失↓Acc. ↑RS [3]45.1654.4155.9456.8525.2161.4894.4785.61REA [26]45.3954.6256.9657.2225.5261.7594.6238.50单个NASBONAS [28]45.5054.4656.7357.4625.3261.1094.8134.31WeakNAS [35]45.6654.7256.7757.2125.9060.3194.6320.03Arch-Graph-single45.4854.7056.5257.5325.7161.0594.6622.15DT42.0349.8051.2055.0322.4566.9888.95935.12[4]第四季45.2754.3856.1356.9925.3860.70-63.49REA-t [26]45.5154.6156.5257.2025.4661.04-40.14传输NAS[第28话]45.3854.5756.1857.2425.2460.93-55.30NSGANETV2 [19]45.6154.7556.4757.2425.3661.73-34.89[35]第三十五话45.2954.7856.9057.1925.4160.70-35.73Arch-Graph-Zero45.6454.8056.6157.9025.7360.2114.7Arch-Graph45.8154.9056.5858.2725.6960.08-12.2全球最佳46.3254.9457.7259.6226.2759.3895.371↑表示越高越好，↓表示越低越好，粗体表示最佳结果。表2.不同的NAS方法和我们的微级搜索空间上的Arch-Graph之间的性能比较。对于TransferNAS方法，Jigsaw结果被省略，因为它被用作预训练任务。整个模型空间的排序。可转移任务的NAS。weakNAS和BONAS的转移版本也在jigsaw上进行了预训练，预算为50个模型。在初始化预测器之后，我们在搜索空间中移植模型排名，在6个目标任务中取平均值（Tab. （3）第三章。当从预先训练的预测器中转移知识时，我们的Arch-Graph显示出比单任务方法和可转移NAS方法更高的优越性，超过weakNAS [35]，在宏观搜索空间上的平均模型排名为10.19，在微观搜索空间上为23.53。其他方法至少需要60%的额外样品才能获得可比结果，见表1。3 .第三章。为了更好地说明我们的Arch-Graph的有效性，在图4中，我们展示了两个任务在宏观搜索空间中预测的前50个模型其他任务的搜索结果的更多可视化可以在S.M.中找到。二、我们首先使用t-SNE将模型投影到二维空间中，并使用颜色表示模型属性。颜色越浅，模型越强。在这个预测中，每个任务的顶级模型往往会形成局部集群。WeakNAS和Arch-Graph-zero都可以趋于局部最优，而Arch-Graph4.3. 消融研究任务嵌入。一些关于可转移NAS的工作[34]也提出在面对不同任务时使用任务嵌入来指导搜索。然而，他们随机RS [3]71.80--REA [26]72.70--NB201BONAS [28]72.840.430.60WeakNAS [35]73.420.490.56Arch-Graph73.380.670.79表3.在TransNAS-Bench- 101和NAS-Bench-201基准上比较不同方法。τ、ρ分别为Kendall秩相关系数、Pearson相关系数#budgets表示在宏级搜索空间中找到前0.3%架构的方法的架构数量。初始化嵌入以表示每个任务，并且它与NAS模型的参数联合学习我们验证了我们的任务嵌入定义的有效性。3 .第三章。我们将我们的任务嵌入与每个任务嵌入的随机初始化我们显示了6个目标任务的平均架构排名，实验在Tab中的5个随机种子4.第一章使用随机初始化任务嵌入的性能是高度不稳定的，导致更大的方差（0.63 vs 692.03）和显著低于Task2Vec（5.24）的平均性能（24.13），表明随机初始化任务嵌入MWAS。求最大值的近似值方法τ↑ρ ↑#预算↓方法Acc.↑τ↑ρ↑任务Cls.O.Cls.S.自动。正常Sem等隔离区房间拼图对另外50个模型进行采样，以微调GCN嵌入TB101WeakNAS [35]0.360.5180提取器和贝叶斯Sigmoid回归，[35]第三十五话0.160.24100weakNAS中目标任务上的弱预测器集合。Arch-Graph-Zero0.580.7660除了搜索模型Arch-Graph0.610.7950BONAS [28]0.260.38100人以上[第28话][第19话]0.240.190.340.28100人以上100人以上11888最优预测Top5最佳预测Top5最佳预测Top5最佳任务：自动编码器80WeakNASArch-Graph-ZeroArch-Graph1602004020600020100040601400任务：class_scene8060WeakNASArch-Graph-ZeroArch-Graph1800402200200260020403000603256图4.对象分类和自动编码任务的网络搜索空间的可视化。对于每个算法，我们将其预测的前50个模型着色，并将其他所有模型灰我们使用三角形标记每个算法平均秩我们的随机是说5.2424.13方差0.63692.03表4.在Arch-Graph上通过两种嵌入方法搜索网络加权无环子图问题是我们改进图构造模型的核心部分。为了展示其相对于Arch-Graph-zero的优势，我们首先在每个任务上挑选20个微调的预测器，这些预测器在bv验证架构中具有最高的验证准确度。然后，我们比较了Arch-Graph-zero和Arch-Graph之间的预测精度。Arch-Graph可以识别比Arch-Graph-zero更好的模型，这在宏观和微观搜索空间上平均提高了3.14和5.28的这些顶级型号的更多详细差异可以在选项卡中找到。1和2.Arch-Graph-single. 为了验证从源任务到新目标任务的知识转移效果，我们比较了Arch-Graph和Arch-Graph-single的性能，并将总预算固定为50个模型。与从预训练的预测器传输知识相比，Arch-Graph-single比Arch-Graph更差，如Tabs所示。1和2.它显示了在先前任务上训练的预测者的知识转移的有效性5. 结论和讨论在这项工作中，我们提出了Arch-Graph，一个任务可转移的NAS方法，将NAS表示为图排序问题。LEM架构关系图。该图的有向边是通过训练一个具有知识转移的两两关系预测器通过大量的实验，我们证明了Arch-Graph潜在的负面社会影响。我们没有发现任何潜在的负面社会影响。我们使用的所有数据集都是公开的，符合道德标准。限制和未来的工作。使用Arch-Graph-zero，可以在MWAS计算之前排除真实全局最优值未来的工作可以沿着这个方向进行探索，并更有效地构建子图进行排名。例如，成对关系预测器训练和MWAS计算可以以迭代方式完成，以便我们可以逐步缩小搜索空间并提高性能。6. 确认本工作得到了国家重点研发计划项目（项目编号：2020 AAA 0109700）、国家自然科学基金项目（项目编号：61976233）、广东省基础与应用基础研究（区域联合基金 - 重点）项目（项目编号： 2019B1515120039）、广东省杰出青年基金项目（项目编号：2021 B1515020061）、深圳市基础研究计划项目（项目编号：RCYX 20200714114642083、项目编号：JCYJ 20190807154211365）的部分资助。最优6040200204060预测Top5最优6040200204060预测Top5最优6040200204060预测Top5最优6040200204060秩11889引用[1] Alessandro Achille ， Michael Lam ， Rahul Tewari ，Avinash Ravichandran，Subhransu Maji，Charless C.福克斯，斯蒂法诺·索阿托，还有皮埃特罗·佩罗纳.Task2vec：元学习的任务嵌入。在2019年IEEE/CVF国际计算机视觉会议，ICCV 2019，韩国首尔（南），2019年10月27日至11月2日，第6429-6438页。IEEE，2019。二、四[2] Bowen Baker 、 Otkrist Gupta 、 Nikhil Naik 和 RameshRaskar。使用再强化学习设计神经网络架构。在第五届国际会议上学习表示，ICLR 2017，土伦，法国，2017 年 4 月 24 日至 26 日，会议跟踪程序。 OpenRe-view.net，2017年。1[3] James Bergstra和Yoshua Bengio。超参数优化的随机搜索。 J. 马赫学习. Res. ，13：281六、七[4] Xin Chen，Yawen Duan，Zewei Chen，Hang Xu，ZihaoChen ， Xiaodan Liang ， Tong Zhang ， and ZhengguoLi.CATCH：用于可转移架构搜索的基于上下文的Meta强化学习。在Andrea Vedaldi，Horst Bischof，ThomasBrox和Jan-Michael Frahm，编辑，计算机视觉-ECCV2020-第16届欧洲会议，格拉斯哥，英国，2020年8月23日至28日，会议记录，第XIX部分，计算机科学讲义第12364卷，第185- 202页。Springer，2020年。三六七[5] 亚历山大·茨维特科维奇和弗拉基米尔·于。普罗塔索夫极大无圈子图与最近稳定矩阵。SIAM J. Ma-J. Appl. ，41（3）：1167-1182，2020. 5[6] 董轩逸和杨毅。Nas-bench-201：扩展可再现神经结构搜索的范围。第八届国际学习代表会议，ICLR 2020，埃塞俄比亚亚的斯亚贝巴，2020年4月26日至30日。OpenRe-view.net，2020年。6[7] Yawen Duan ， Xin Chen ， Hang Xu ， Zewei Chen ，Xiaodan Liang ， Tong Zhang ， and Zhengguo Li.Transnas-bench-101：提高跨任务神经架构搜索的可转移性和可推广性。在IEEE计算机视觉和模式识别会议上，CVPR 2021，虚拟，2021年6月19日日，第5251-5260页计算机视觉基金会/ IEEE，2021年。三五六[8] LukaszDudziak，ThomasChau，MohamedAbdelfattah ， Royson Lee ， Hyeji Kim ， and NicholasLane. Brp-nas ：使用 gcns 的基于预测的 nas 。 In H.Larochelle，M.兰扎托河哈德塞尔M.F. Balcan和H.林，编辑，神经信息处理系统的进展，第33卷，第10480-10490页Curran Associates，Inc. 2020. 三、五[9] 放大图片作者：Thomas C.P. 穆罕默德·周Abdelfat-tah，Royson Lee，Hyeji Kim，and Nicholas D.巷BRP- NAS：使用gcns的基于预测的NASIn Hugo Larochelle，Marc2[10] 雷锋、舒森林、南璐、韩波、徐苗、牛刚、保安、杉山正志。点态二进制分类两两置信度比较。在Marina Meila和Tong Zhang编辑的第38届国际机

下载后可阅读完整内容，剩余1页未读，立即下载