基于图的神经网络结构搜索中的分层操作自适应预测器

170 浏览量更新于2023-09-26 收藏 1.14MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

10508并非所有操作的贡献都相等：用于神经网络结构搜索的分层操作自适应预测器陈子叶1、2詹一兵2于宝生3龚明明4*博都1*1人工智能研究所多媒体软件国家工程研究中心武汉大学计算机学院多媒体与网络通信工程湖北省重点实验室，武汉2JD Explore Academy，中国3悉尼大学，澳大利亚4澳大利亚墨尔本大学数学与统计学院ziyechen@whu.edu.cn，zhanyibing@jd.com，baosheng. sydney.edu.au，mingming.unimelb.edu.au，dubo@whu.edu.cn摘要基于图的预测器最近在神经架构搜索（NAS）上显示出有希望的结果。尽管它们的效率，当前基于图的预测器平等地对待所有操作，导致细胞架构的有偏见的拓扑知识。直观地说，在将信息从这些操作聚合到另一个操作时，在转发传播期间，并非所有操作都为了解决上述问题，我们提出了一个层次化的操作自适应预测器（HOP）的NAS。HOP包含一个操作自适应注意模块（OAM），通过在迭代聚合期间学习单元架构中操作的相对重要性来捕获操作之间的不同知识此外，通过整合来自OAM的每次迭代的单元信息，单元分层门控模块（CGM）进一步细化和丰富所获得的单元架构的拓扑知识实验结果与国家的最先进的预测表明，我们提出的HOP的能力。1. 介绍最近，神经架构搜索（NAS）由于其自动化神经网络的能力而引起了极大的兴趣。*通讯作者。这项工作得到了国家自然科学基金项目61822113、湖北省科技重大专项（下一代人工智能技术）项目2019AEA170和项目62002090的部分支持。GM得到了澳大利亚研究委员会项目DE210101624的支持。于宝生博士得到ARC项目FL- 170100117的支持。这项工作是由陈子烨在中国JD Explore学院实习时完成的。建筑工程过程[43，17]。NAS在各种任务（如图像分类[18，28]、对象检测[31，25]和语义分割[10，38]）中获得了与手工构建的体系结构相比具有竞争力的结果。当前的NAS算法可以大致分为四类：基于强化学习的方法、基于进化的方法、基于梯度的方法和基于预测器的方法。基于强化学习的方法[48，2]通过导出具有验证准确性的离散组件作为奖励来构建架构。基于进化的方法[12，14]利用组件的突变和组合来生成架构。基于梯度的方法[13，34]构建了一个连续的搜索空间，其中架构共享超网络中的参数。然而，上述三种类型的方法要么耗时要么占用空间。相比之下，基于预测器的方法旨在训练预测器，该预测器直接预测给定网络架构的关于网络架构的拓扑知识的性能基于预测器的方法由于其灵活性和低计算成本而受到越来越多的关注。当前基于预测器的方法主要有两种类型：基于序列的预测器[16，30]和基于图的预测器[6，24]。我们专注于探索基于图形的预测细胞搜索。基于图的预测器将细胞架构建模为有向非循环图（DAG）[8，18]，并且因此使用图神经网络（GNN）[22]来编码架构的拓扑知识。然而，当前基于图的预测器通常同等地对待所有操作因此，它们无法捕捉体系结构细节中的各种知识，在将信息从这些操作聚集到另一个操作时，在转发传播期间并非所有操作都同等重要。10509为了解决上述问题，我们提出了一个层次化的操作自适应预测（HOP）的NAS。HOP的主要贡献在于三个方面：• 在HOP中，我们设计了一个操作自适应注意模块（OAM），用于学习操作的相对重要性，当聚合信息流从这些操作到一个给定的节点。OAM在网络体系结构的前向传播期间自然地对信息流过程进行建模通过它，每个操作的不同知识被有效地聚合在相应的节点嵌入。据我们所知，这是NAS第一次讨论操作的相对意义的• HOP提出了一个单元分层门控模块（CGM），用于集成来自OAM的不同迭代的通过对相应迭代中的节点嵌入求平均来获得单元嵌入。集成的知识全面捕获的拓扑知识，并用于性能预测。CGM可以有效地细化和丰富所获得的拓扑结构知识，从而提高性能。• 我们对常用的基准测试进行了广泛的实验实验结果表明，HOP达到了新的国家的最先进的。具体而言，我们比较了GATES [18]（一种代表性的基于GCN的预测器）和HOP的性能。GATES是最先进的基于图的预测器，不考虑操作之间的相对重要性。实验结果表明，HOP算法的性能明显优于GCN算法，这说明了考虑操作相对重要性的必要性。此外，实验还表明，HOP具有较高的解释性的细胞架构，可能会启发新的网络架构的设计。2. 相关工作2.1. 神经架构搜索神经架构搜索（NAS）可自动设计最先进的神经网络。早期的NAS方法主要基于强化学习（RL）[47]和进化学习（EA）[21]。基于RL的方法[48，2]应用策略网络来顺序地引导架构组件的选择。基于EA的方法[12，14]以相应的验证准确度作为适应度来进化初始化架构的群体然而，基于RL的方法和基于EA的方法都消耗大量的计算资源，因为大量的计算资源被消耗。候选体系结构需要被训练用于评估。为了降低计算成本，在[19]中引入了参数共享，其中候选架构是大型计算图的子图，因此迫使所有架构共享参数。但是架构搜索仍然是低效的，因为架构是在离散的搜索空间上搜索的，需要大量的架构评估。基于梯度的方法[13，44]基于参数共享将搜索空间放宽为连续的，因此可以通过梯度下降来优化架构的有效性损失。然而，参数共享可能导致超网和完全训练的子网之间的性能不一致[24，34]，并且候选架构的预测排名可能远离真实排名[37，15]。基于梯度的方法的结果也可能对初始化敏感[24]，这阻碍了可再现性。基于预测器的方法[8，9]利用性能预测器对值得评估的架构进行采样，这可以提高搜索和评估效率，而不会影响NAS的有效性。在这项工作中，我们专注于基于预测的NAS。2.2. 体系结构性能预测器编码方案对于架构性能预测器是重要的。存在不同种类的编码方案，其主要包括基于贝叶斯的编码方案[9，1]、基于序列的编码方案[16，30]和基于图的编码方案[24，18]。对于基于贝叶斯的方法，[9]从贝叶斯的角度学习性能预测器，其中架构及其性能之间的相关性由高斯过程（GP）的核函数和均值函数建模。对于基于序列的方法，[16]基于LSTM和完全连接的层构建了一个准确度预测器，该层将架构扁平化为字符串，其中架构的拓扑信息只能隐式建模。对于基于图的方法，[24]利用基于GCN的预测器作为贝叶斯优化的代理模型，以在每次迭代中选择多个相关架构。然而，它将操作建模为图节点，这不能应用于操作在图边缘上的搜索空间。[18]提出了另一种基于GCN的预测器，该预测器将数据信息建模为图节点，并将操作视为数据节点的变换，这可以更合理地建模神经架构中的数据处理然而，由于预定义的图结构，GCN无法对不同操作和不同图层的相对重要性进行建模，这激励了我们的分层操作自适应预测器（HOP）方法。10510GG {V E}∥Σ2.3. 图神经模块有许多应用涉及以图形形式表示的数据，例如视觉关系检测[41，40]，场景图形生成[26，45]和图像检索[32，42]。图神经网络（GNN）[22]是递归神经网络的推广，可直接在图上操作。图卷积网络（GCN）[7]是学习节点表示的典型结构，它通过聚合图[36，3]上局部邻域中的节点特征来进行空间卷积。然而，GCN中的图卷积被限制在预定义的图结构中，这使得GCN无法对不同节点的相对重要性进行建模，从而限制了GCN的表示能力。图注意力网络（GAT）[27]利用掩蔽的自注意力层来解决GCN的缺点，这使得节点能够通过在特征聚合期间向邻域中的不同节点分配不同权重来关注其邻域GAT已成功地应用于许多应用中。[29]提出了一种用于基于方面的情感分析的关系GAT，[46]提出了一种用于车辆重新识别的结构化GAT，[39]提出了一种用于查询-POI匹配的时空双GAT。在这项工作中，受GAT的启发，我们设计了一个操作自适应注意模块（OAM）来编码神经架构。3. 分层操作自适应预报器如图1所示，我们提出的分层操作自适应预测器（HOP）由两个模块组成：操作自适应注意模块（OAM）和单元分层门控模块（CGM）。具体地，对于小区架构，HOP首先使用OAM通过迭代来获得操作的然后，CGM是运营边ei-j表示从节点vj到节点vi的信息流。因此，相邻矩阵A被定义为A ij = aij。如果vi从vj获得信息流，则通过HOP计算aij，否则将aij设置为0。我们使用Ne i表示v j的集合，其中aij0。搜索空间。有两种常用的搜索单元空间：节点操作（OON）和边操作（OOE）[18]。对于OON搜索空间，在DAG的节点上执行操作，而对于OOE搜索空间，在DAG的边缘上执行操作。这就要求HOP具有处理两种情况下的小区搜索的能力。3.2.操作自适应注意力模块基于图的NAS预测器的关键是理解和捕获单元的拓扑知识。然而，以前的基于图的预测器忽略了不同的知识或每个操作的相对重要性。它们通常利用GCN，GCN是有效的，但不能通过DAG中从一些节点到另一个节点的操作来对信息流的相对重要性进行建模。因此，以前的方法仍然获得有偏见的拓扑知识，并提供次优的预测细胞架构为了解决上述问题，我们设计了一个操作自适应注意模块（OAM），它利用注意力来探索细胞架构中操作的各种知识。具体地，对于给定的小区架构，OAM首先生成每个节点 vi 的嵌入（或特征图）和每个对应操作的嵌入。如果两个操作包含相同的操作类别，则它们的操作嵌入被设置为相同。对于OON的节点嵌入在OON的搜索空间中，操作是在节点上执行的，因此，OAM首先从不同的节点获得信息。exp（mij）采用集成单元表示的不同的迭代的最终拓扑知识和性能预测。在剩下的小节中，我们首先解释哪里aij= Σk∈Nei exp（mik）、（1）几个初步的。然后，我们介绍了OAM和CGM的细节，顺序。3.1. 初步图形表示。代替搜索整个网络架构，更可行的策略是搜索可重复的结构[48]，其通过单元和块分解搜索空间。为了简单起见，本文仅在[8]之后进行单元搜索.具体地，为了描述单元中的拓扑知识，HOP将给定架构的单元表示为有向无环图（DAG）=，。注意，DAG中的每个节点/边对应于一个特定操作（例如，Conv3x3）。我们还将输入和输出视为mij=Leak yReLU（Wa[WxxiWxxj]），（2）其中Ne，i是可以将信息传递到节点v，i的节点v，j的集合。 W是可学习的变换矩阵。是级联操作。我们使用LeakyReLU（负斜率为0。（2）[27]。我们使用注意过程，因为它可以自动注意到操作之间的相对OON搜索空间中第i个节点的新嵌入是通过对来自相应操作的信息流进行该过程定义如下：x′i=σ（Woj∈Nei10511我Σ我图1. 分层操作自适应预测器（HOP）的框架。所提出的方法包括两个模块。首先，操作自适应注意模块（OAM）通过学习单元中操作的相对重要性来获得节点嵌入然后，细胞分层门控模块（CGM），以获得全面的拓扑知识的细胞架构，通过加权集成的细胞嵌入的OAM。其中oi是应用于第i个节点的运算，其由可学习的权重矩阵Wo∈RCx×Co变换，哪里mij=Lea k yReLU（Wa[xizi j]）。（六）并由sigmoid函数σ激活以生成软操作。屏蔽为了全面分析，我们通过迭代获得节点的分层水平嵌入。假设xt然后，通过对来自不同操作的信息流进行加权聚合来获得第i个节点在OOE搜索空间中的嵌入，如下所示：表示节点vi的嵌入更新为xt′=xt+1。我在t-迭代中。然后，x′i=αijj∈Neizi j.（七）用于OOE的节点嵌入。在OOE的搜索空间中，在边缘上执行操作。与OON搜索空间的过程不同，OAM首先通过相应的操作对来自不同节点的信息进行转换。因此，OAM定义了用于节点vi和vj之间的对应操作的嵌入式i，j。该过程定义为：zij=σ（Wo（四）然后，OAM将来自不同操作的信息流聚合到目标节点。我们首先通过注意力网络计算操作的相对重要性该过程定义为：利用等式（1）中的学习的注意力系数aij，（1）和方程（5），OAM能够在聚合从这些操作到下一节点的信息流时重新评估不同操作上述方式对转发传播进行建模是合理和实用的，从而提高了HOP捕获单元结构拓扑知识的能力。3.3. 单元分层门控模块注意，OAM仅提供小区的节点嵌入。尽管每个节点嵌入捕获了操作的各种知识，但仍然缺乏一种有效的机制来合并所有节点嵌入以用于单元的最终知识。以前的方法通常使用堆叠的GNN的最后一次迭代进行预测。然而，在这方面，exp（mij）（五）这种方式忽略了拓扑的分层细节aij=Σ10512k∈Nei、exp（mik）图的实际知识，关于每个迭代10513一一一∥YS S ∪ S Y Y ∪ Y∈S--不||N我设Y =。0KM|我不是|我NJ堆叠的GNN只能捕获细胞的有限特征[33，4]。基于上述分析，我们提出了一个单元分层门控模块来全面描述单元结构。细胞嵌入。在我们提出的CGM中，我们首先获得OAM的每次迭代的单元嵌入。OAM的每个迭代的细胞嵌入被视为整体细胞architectures的拓扑知识的特定视图。单元嵌入计算如下：h=1Σi=1算法一：预测器的搜索过程-基于NAS的HOP输入：搜索空间（OON或OOE），P：性能预测器HOP，T：迭代次数，N：随机抽样的体系结构数量，K：使用预测器选择的架构的数量。1初始化迭代计数器t=0、架构集合S=0以及对应的真实性能其中，N是节点的数量，并且t指示第t次迭代。分层门控融合。为了获得更强大的性能，我们采用了一个门控模块融合所有的单元嵌入。该过程定义为：s=MLP（Σβ2 而tT做<3从搜索空间随机采样N个架构。4选择架构S⑴={a⑴，… a（t）}，其中P来自S而没有重复。St t不哪里5评估（一）通过培训获得相应的地面实况性能集合Yt={y（t），…y（t）}。B=Sigmoid（ MLP（ht）），（10）6将S（t）合并到S中和合并KY（t）进入Y在哪其中βt是B的第t个元素，它包含不同层的权重。MLP（.）是多层感知器。 ht表示所有单元格嵌入的串联。在Eq. （9）为每个特征层分配了一个关注度权重，该关注度权重表示其对架构性能预测的重要性，从而很好地处理了不同层的重要性，全面描述了架构的拓扑知识，从而提高了预测器的性能。3.4. 损失函数我们介绍了建议的预测HOP的优化过程。由于我们的目标是获得准确的相对排名顺序的架构，而不是绝对的性能值，我们采用排名损失，而不是回归损失一样MSE更好的排名相关性预测。具体来说，我们用铰链成对排序损失训练预测器，如下所示：M=（t）和 =（t）。7使用训练架构集和地面实况性能集优化P。8t=t+1。9端部输出：输出具有最佳对应真实性能y*∈Y的架构a*。3.5. 基于HOP的在Alg中总结了具有我们提出的HOP的基于预测器的NAS搜索过程。1. 具体地，基于预测器的神经架构搜索过程包括三个步骤：1）用预测器进行结构采样，2）对具有训练的采样架构的评估，以及3）对性能预测器的训练。对于架构采样的步骤，我们从搜索空间A中随机采样N个架构，然后选择L=1Σ1ΣMax（0，m−（s −s））（11）其中，最好的一个性能评价结果对于架构评估步骤，我们通过训练来评估每个采样架构其中Ti=j：yi>yi。表示第i个输入体系结构的性能得分。并且每个架构i与每个其他架构j匹配，并且Ti是仅保持yi> yi的对的集合，其中yi是第i个架构的真实性能;Ti是集合T i的大小，M是一批训练架构的数量，m是设置为0的比较裕度。1在我们的实验中获得其真实性能，这是一个计算昂贵的过程。最后，我们用采样的架构及其相应的地面实况性能来训练预测器。重复这三个步骤，直到获得准确的预测器。与带训练的体系结构评估相比，带预测器的体系结构评估更有效，只需要一次前向传递。假设前-Si=1j∈Ti10514×个×× ×× ××预测器0.05% 0.1% 0.5% 1% 10% 50% 100%MLP[30]0.39710.52720.64630.73120.85920.87180.88930.8955LSTM[30]0.55090.59930.71120.77470.84400.85760.88590.8931[第24话]0.53430.57900.79150.82770.86410.87470.89180.8950盖茨[18]0.76340.77890.84340.85940.88410.89220.90010.9030HOP（w.o.CGM）0.77730.80410.85120.87060.89220.89590.90350.9063HOP（CGM）0.78190.81340.85730.87920.89770.89940.90570.9086表1.在NAS-Bench-101数据集上的不同预测器的Kendall训练样本的比例从0. 05%（190）至100%。在少量训练样本上的性能表明了预测器的泛化能力。该预测器具有准确性和良好的泛化能力，只需少量的训练结构就能很好地预测未知结构的性能，从而大大提高NAS的搜索效率。预测器0.05%（190）0.01%（381）N@5N@10N@5N@10MLP[30]--5758LSTM[30]--17151715[第24话]2477140420251362盖茨[18]83832222HOP（w.o.CGM）353533HOP（CGM）212121表 2. NAS-Bench- 101 数据集上的不同预测器的 N@5 和N@10，其中所有预测器都是在0上训练的。05%（190）和0.1%（381）架构。4. 实验我们评估的性能提出的层次操作自适应预测（HOP）的神经架构搜索（NAS）通过广泛的实验上的OON和OOE搜索空间。首先，我们介绍了两个搜索空间上的代表性数据集和评价指标。接下来，我们在这些数据集上验证了HOP的准确性和泛化能力。最后，在ENAS的搜索空间上，用HOP算法对NAS的搜索效率进行了改进。4.1. 数据集和评估指标NAS-Bench-101[35]是OON搜索空间上用于提高再现性的典型数据集它包含423，624个独特的神经网络架构，这些架构是从一个固定的基于图的搜索空间中生成的，该搜索空间包括7个节点和3个可能的操作：Conv 33，conv 11和最大池化33.第三章。它提供经过培训和评估的性能CIFAR-10数据集上的这些架构。NAS-Bench-201[5]是OOE搜索空间，总共包括15，625个架构，并提供了每个架构在CIFAR-10，CIFAR-100和ImageNet-16-120数据集上的性能。它由4个节点和5个可能的操作组成：置零、跳过连接、conv 11、conv 3 3、平均池化3 3。我们在实验中使用CIFAR-10的性能。我们使用两个指标的预测器的性能进行评估。第一个是Kendall两个相同排序的Kendall另一个度量是N@K，它表示使用预测分数选择的前K个架构中的最佳真实排名。4.2. OON搜索空间我们使用NAS-Bench-101评估OON搜索空间在[18]之后，前90%（381，262）的架构被用作训练数据，其余10%（42362）的架构被用作测试数据。我们使用不同比例的训练数据，从0. 05%（即，190架构）到100%，以评估预测器的泛化能力。HOP中的图形层的数量L被设置为5。方程中的铰链成对损失的裕度（11）被设置为0。1.一、优化由Adam完成，学习率设置为0的情况。001。该模型被训练200个epoch，批量大小设置为512。我们将所提出的HOP与基于序列的预测器（MLP，LSTM）[30]，基于GCN的预测器（操作作为节点，特征作为节点）[24，18]进行比较。为了进行公平比较，所提到的训练设置对于所有预测因子都是相同的。结果如表1和表2所示，与各种基线预测因子相比，HOP在NAS-Bench-101的测试集上与不同的训练比例一致地达到最高的Kendall提出的OAM和CGM模块都带来了性能的提高。当训练样本较少时，HOP的预测性能优于其他预测因子10515表3.NAS-Bench-201数据集上的不同预测因子的Kendall训练样本的比例从1%（78）到100%不等。预测器1%（78）10%（781）N@5N@10N@5N@10MLP[30]--1538224LSTM[30]--250234盖茨[18]191911HOP（w.o.CGM）2111HOP（CGM）1111表 4. NAS-Bench- 201 数据集上不同预测因子的 N@5 和N@10，其中训练样本的比例为1%（78）和10%（781）。具体而言，与基于GCN的预测器GATES相比，HOP显示出1的改进。Kendall’s Tau为85%，N@5为62个位置，N@10为62个位置。05%（190）架构用于培训; 3.第三章。 Kendall’s Tau 为 45% ， N@5 为 20 个位置，N@10为21个位置。1%（381）的体系结构用于训练。这表明HOP具有良好的泛化能力，这使得它能够很好地预测看不见的架构，即使在少量架构上训练。这提高了NAS效率，因为仅需要训练几个架构以获得准确的预测器。4.3. OOE搜索空间实现细节我们用NAS-Bench-201评估OOE搜索空间在[18]之后，我们使用前50%（7，813）的架构作为训练数据，其他50%的架构作为测试数据。训练样本的比例从1%（即，78个建筑物）至100%。除了预测器的编码方案之外，其他模型和训练设置与OON搜索空间上的实验相同。将操作视为图节点的基于GCN的预测器不包括在本节的实验中，因为它们不能直接应用于OOE搜索空间。结果如表3和表4所示，与基线相比，HOP在不同训练比例下分别在Kendall’s Tau、N@5和N@10上获得最佳结果HOP的性能改善更显着，特别是当只有少数训练架构时。例如，仅用78个训练架构，HOP将Kendall的Tau提高了2。12%，N@5乘18表5.具有不同数量的图形层的NAS-Bench-101和NAS-Bench-201数据集上的H 0 P预测器的肯德尔Tau，其中NAS-Bench-101上的训练架构的比例为0。05%（190），NAS-Bench-201上的训练样本比例为1%（78）。融合方法肯氏NAS-Bench-101NAS-Bench-201无融合0.77730.7562是说0.77040.7523CGM0.78190.7613表6.使用不同层融合方法在NAS-Bench-101和NAS-Bench-201数据集上的HOP预测器的Kendall Tau，其中NAS-Bench-101上的训练架构的比例为0。05%（190），并且NAS-Bench-201上的训练样本的比例为1%（78）。位，与基于GCN的预测器GATES相比，N@10乘184.4. 消融研究OAM层数我们研究了OAM层数对预测器性能的影响从表5中可以看出，性能随着OAM层的增加而提高这表明OAM可以通过学习操作的相对重要性来有效地聚合每个操作的不同知识。虽然增加更多的OAM层可以带来一致的性能改善，但考虑到NAS的搜索效率，我们将OAM层的数量设置为5层融合方法研究了图层融合方法对预测器性能我们尝试了三种不同的融合方法，即，无融合方法，它只利用细胞嵌入，从最后一个OAM层的预测，平均值的方法，平均的细胞嵌入从所有OAM层，CGM方法，它适用于门控方式集成的细胞嵌入从所有OAM层。如表6所示，CGM实现了最佳性能，这表明CGM可以有效地细化和丰富所获得的体系结构的拓扑知识。然而，直接平均所有OAM层不提高性能，甚至恶化它。这是因为不同OAM层的重要性对于预测是不同的，平均所有OAM层将降低具有有价值信息的OAM层的重要性。预测器7813个训练样本1% 5% 10%50% 100%MLP[30]0.09740.39590.53880.82290.8703LSTM[30]0.55500.64070.72680.87910.9002盖茨[18]0.74010.86280.88020.91920.9259HOP（w.o.CGM）0.75620.86930.89330.92400.9297HOP（CGM）0.76130.87570.89720.92910.9348层数肯氏NAS-Bench-101NAS-Bench-20160.78520.765950.78190.761340.77460.742330.72910.633720.64400.576410516†图2.通过HOP预测的体系结构的不同个体操作之间的注意力系数的可视化4.5. OAM中操作注意力的可视化为了证明操作的相对重要性，我们选择了HOP预测的两对架构来显示。如图2所示，除了一个操作之外，每对中的架构具有相同的结构对于左边一对中的架构，它们的真实性能非常接近。HOP预测的结果与地面实况一致。然而，基于GCN的预测器预测的结果是完全不同的。这是因为改变的操作在给定的体系结构中并不重要。因此，相应的注意力系数较小，这使得HOP不受操作的影响右对的情况相反，其中改变的操作是重要的。由于转移的注意力，HOP的预测仍然是准确的，而基于GCN的预测器由于固定的图结构而失败。4.6. ENAS搜索空间实现细节我们在ENAS搜索空间上使用HOP预测器进行神经架构搜索，ENAS搜索空间是比NAS-Bench大得多的OOE搜索空间。201.根据Alg。1，我们首先随机抽取600个架构，并对它们进行80个epoch的训练。然后，我们使用这些架构获得的地面实况性能来训练HOP预测器。接下来，我们使用经过训练的HOP预测器从10k个随机采样的架构中对具有最高预测分数的200个架构进行采样。然后，我们对这200个架构进行80个epoch的训练，并选择具有最佳验证精度的架构作为所选架构。最后，我们将通道和层增强应用于选定的架构，并从头开始训练600个epoch。如表7所示，HOP实现了2的前1误差。在CIFAR-10的测试集上，该算法的性能优于将参数共享或连续松弛应用于超网训练的一次性NAS算法。与其他基于采样的方法相比，HOP需要完全训练少得多的体系结构来发现具有相当性能的体系结构。这方法前1位错误（%）参数（M）阿奇·伊娃NAONet-WS[5]3.532.5-ENAS†[19]2.894.6-[13]第十三话2.763.3-[20]第二十话2.552.827000[47]第四十七话2.653.320000PNAS[11]3.413.21160NAONet[15]2.9828.61000盖茨†[18]2.584.1800HOP†2.523.9600表7.在CIFAR-10上使用不同NAS算法搜索的体系结构的性能意味着应用剪切作为数据增加。由于一次性NAS方法（第2行）不会逐个探索架构，因此未报告评估的架构数量。实验结果表明，HOP预测器精度高，泛化能力强，提高了NAS的搜索效率。5. 结论在本文中，我们提出了一个层次操作自适应预测器（HOP），以提高搜索效率的预测为基础的NAS考虑之间的相对重要性的神经架构。HOP包含操作自适应注意模块（OAM）以捕获操作之间的不同知识，以及单元分层门控模块（CGM）以进一步细化和丰富所获得的单元架构的拓扑知识。在不同的搜索空间上进行的大量实验证明了所提出的HOP的有效性和效率。10517引用[1] 还有Camero，HaoWang，EnriqueAlba，和Thomas Béck. 使用无训练性能度量的贝叶斯神经结构搜索arXiv预印本arXiv：2001.10726，2020。[2] Xin Chen，Yawen Duan，Zewei Chen，Hang Xu，ZihaoChen，Xiaodan Liang，Tong Zhang，and Zhengguo Li.Catch：基于上下文的Meta强化学习，用于可转移架构搜索。欧洲计算机视觉会议，第185-202页。Springer，2020年。[3] Xiaolin Chen ， Xuemeng Song ， Guozhen Peng ，Shanshan Feng，and Ligen Nie.用于用户身份链接的对抗增强混合图网络。在 The International ACM SIGIRConference on Research and Development in InformationRetrieval，第1084-1093页中。ACM，2021年。[4] 陈晓林，宋雪萌，任瑞阳，朱磊，程志永，聂立强.细粒度隐私检测与图形正则化分层注意表示学习。ACMTransactions on Information Systems（TOIS），38：1[5] Xuanyi Dong，Lu Liu，Katarzyna Musial，and BogdanGabrys. Nats-bench：对架构拓扑和大小的nas算法进行基准测试。IEEE Transactions on Pattern Analysis andMachine Intelligence，2021。[6] 郭勇，尹正，谭明奎，陈奇，剑尘，赵沛林，黄俊洲。Nat ： Neural architec- ture Transformer for accurate andcompact architectures. 神经信息处理系统进展，第32卷，第735-747页，2019年[7] Thomas N Kipf和Max Welling使用图卷积网络的半监督分类。arXiv预印本arXiv：1609.02907，2016。[8] Wei Li，Shaogang Gong，and Xiatian Zhu.用于神经结构搜索的神经图在AAAI人工智能会议论文集，第34卷，第4707-4714页[9] Zhihang Li，Teng Xi，Jiankang Deng，Gang Zhang，Shengzhao Wen，and Ran He. Gp-nas：基于高斯过程的神经结构搜索。在IEEE/CVF计算机视觉和模式识别会议论文集，第11933-11942页[10] Chenxi Liu ， Liang-Chieh Chen ， Florian Schroff ，Hartwig Adam，Wei Hua，Alan L Yuille，and Li Fei-Fei.自动deeplab：用于语义图像分割的分层神经结构搜索。在IEEE/CVF计算机视觉和模式识别会议论文集，第82[11] Chenxi Liu，Barret Zoph，Maxim Neumann，JonathonShlens，Wei Hua，Li-Jia Li，Li Fei-Fei，Alan Yuille，Jonathan Huang，and Kevin Murphy.渐进式神经架构搜索。在欧洲计算机视觉会议（ECCV）的会议记录中，第19-34页[12] Hanxiao Liu ， Karen Simonyan ， Oriol Vinyals ，Chrisantha Fernando ， and Koray Kavukcuoglu. 分层表示，有效的体系结构搜索。在2018年国际学习代表大会上[13] 柳寒笑，凯伦西蒙尼扬，杨一鸣。Darts：差异化架构搜索。在2018年国际学习表征会议[14] Zhichao Lu ， Kalyanmoy Deb ， Erik Goodman ，WolfgangBanzhaf ， andVishnuNareshBoddeti.Nsganetv2：进化的多目标代理辅助神经架构搜索。欧洲计算机视觉会议，第35-51页。Springer，2020年。[15] Renqian Luo，Tao Qin，and Enhong Chen. 理解并改进单次神经架构优化。arXiv预印本arXiv：1909.10815，44，2019。[16] Renqian Luo，Fei Tian，Tao Qin，Enhong Chen，andTie-Yan Liu.神经结构优化。神经信息处理系统进展，第31卷，2018年。[17] 马奔腾，张静，夏勇，陶大成。汽车学习注意力神经信息处理系统的进展，33，2020。[18] 宁雪飞、郑银、赵天辰、王宇、杨华中。一个通用的基于图的神经架构编码方案预测为基础的nas。arXiv预印本arXiv：2004.01899，2020。[19] Hieu Pham，Melody Guan，Barret Zoph，Quoc Le，andJeff Dean.通过参数共享的高效神经架构搜索。国际机器学习会议，第4095-4104页。PMLR，2018。[20] Esteban Real ， Alok Aggarwal ， Yanping Huang ， andQuoc V Le.用于图像分类器架构搜索的正则化进化。在AAAI人工智能会议论文集，第33卷，第4780-4789页[21] Esteban Real 、 Sherry Moore 、 Andrew Selle 、 SaurabhSaxena、Yutaka Leon Suematsu、Jie Tan、Quoc V Le和Alexey Ku- rakin 。图像分类器的大规模进化。在International Conference on Machine Learning，第2902-2911页中PMLR，2017年。[22] Franco Scarselli、Marco Gori、Ah Chung Tsoi、MarkusHa-genbuchner 和 Gabriele Monfardini 。图神经网络模型。IEEE Transactions on Neural Networks，20（1）：61[23] 普拉纳布·库马尔·森基于kendall τ的回归系数估计。美国统计协会杂志，63（324）：1379[24] Han Shi ， Renjie Pi ， Hang Xu ， Zhenguo Li ， JamesKwok，and Tong Zhang.使用bonas弥合基于样本的神经架构搜索和一次性神经架构搜索之间的差距。神经信息处理系统进展，第33卷，第1808-1819页，2020年[25] Mingxing Tan，Ruoming Pang，and Quoc V Le.有效日期：可扩展且高效的对象检测。在IEEE/CVF计算机视觉和模式识别会议论文集，第10781-10790页[26] Kaihua Tang，Yulei Niu，Jianqiang Huang，Jiaxin Shi，and Hanwang Zhang.从有偏训练生成无偏场景图。在IEEE/CVF计算机视觉和模式识别会议论文集，第3716-3725页[27] Pet arVelicˇko vic´，GuillemCucurull，ArantxaCasanov a，Adriana Romero，Pietro Lio，and Yoshua Bengio.图at-tension网络。arXiv预印本arXiv：1710.10903，2017。10518[28] 万晓亮，张培昭，何子健，田远东，谢赛宁，吴碧晨，余修，徐涛，陈侃，等. Fbnetv2：空间和通道维度的可区分神经架构搜索。在IEEE/CVF计算机视觉和模式识别会议论文集，第12965-12974页[29] 王凯、沈蔚州、杨云逸、权小军、王瑞。用于基于方面的情感分析的关系图注意网络。在计算语言学协会第58届年会的会议记录中，第3229-3238页[30] Linnan Wang ， Yiyang Zhao ， Yuu Jinnai ， YuandongTian，and Rodrigo Fonseca.Alphax：用深度神经网络和蒙特卡洛树

下载后可阅读完整内容，剩余1页未读，立即下载