高斯过程的神经结构搜索

68 浏览量更新于2023-10-25 收藏 646KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1GP-NAS：基于高斯过程的神经结构搜索李志航2人，滕曦3人，5人，邓建康4人，张刚3人，温胜照3人，何冉1人†1NLPR CEBSIT，CAS2 NLPR AIR，CAS3百度公司计算机视觉技术部（VIS）4伦敦帝国学院5清华大学计算机科学与技术系电子邮件：{zhihang.li，rhe} @ nlpr.ia.ac.cn，imperial.ac.uk{xiteng01，zhanggang03，wenshengzhao} @ baidu.com，xiteng@mail.tsinghua.edu.cn摘要神经架构搜索（NAS）通过自动化深度神经网络的设计，在本文中，我们旨在解决NAS中的三个重要问题：（1）如何衡量体系结构与其性能之间的相关性？(2)如何评估不同架构之间的相关性？（3）如何用少量样本学习这些为此，我们首先从贝叶斯的角度对这些相关性进行建模。具体而言，通过引入一种新的基于高斯过程的核函数也是可学习的，以实现对不同搜索空间中的此外，通过结合基于互信息的采样方法，我们可以在理论上确保高性能的架构，只有一个小的样本集。在解决了这些问题后，对GP-NAS进行一次训练，就可以直接预测不同场景下的任何架构的在图像分类和人脸识别任务上的实验验证了该算法的有效性。1. 介绍NAS旨在自动化深度神经网络的设计。它促进了各项工作的显著进展，包括图像分类[55，31，38，53，16，45]，对象检测[19]和语义分割[29，34，51]。然而，传统的早期NAS方法是基于强化学习（RL）[55]和进化-*同等缴款。本文的工作是作者在百度公司计算机视觉技术系实习时完成的†通讯作者元算法（EA）[38]通常是计算密集型的，每次只搜索指定的架构以执行目标任务。最近的许多工作都集中在通过权重共享来加速NAS [35，5，52，13]，并取得了很大的改进。但性能与神经网络结构之间的关系还不够明确，这可能导致超网模型与完全训练的独立模型之间众所周知的性能不一致问题。此外，它们需要重复采样，以获得针对不同任务和硬件平台的高效网络我们的目标是学习一个高效率的性能预测器，并确定有效的模型，具有高性能的不同平台，而无需重复的搜索过程。该性能预测器将具有以下特性：（1）它可以模拟建筑与相应性能之间的相关性。因此，它可以推断给定搜索空间中任何深度模型的性能（无需重新训练）。(2)预测器可以用一小组样本来学习。因此，训练过程在计算上是高效的。(3)它可以测量不同体系结构之间的相关性，从而可以很容易地找到具有相似性能的体系结构。它还可以提供一些关于什么样的微观或宏观架构对学习有益的见解。为此，我们提出了一个NAS的理论建模框架.具体来说，我们的高斯过程（GP）的给定架构的性能条件下在此框架下，性能和架构之间的相关性可以通过GP中的均值函数来建模不同体系结构之间的相关性也通过核函数来度量。此外，核函数是可学习的，以测量不同搜索空间中的复杂相关性。为了加快搜索过程中，我们提出的方法，我们进一步提出了一个有效的互信息为基础的采样方法。这种采样方法直观地扩大了所获得的样本之间的距离。我们从理论上1193311934证明了在给定的搜索空间中，只需少量样本就可以得到具有高精度的普适性能预测器GP-NAS可以以交替估计的方式求解，该方式递归地更新可学习超参数的后验分布，并使我们能够接近给定架构条件下的性能的最佳分布。这进一步确保了我们的GP-NAS框架的良好可转移例如，我们通过实验验证了在更新CIFAR-10数据集上的超参数后，我们可以将它们用作ImageNet数据集上学习问题的先验先验知识使得超参数的分布能够在样本较少的情况下快速适应新问题。此外，GP-NAS框架与现有的NAS方法是正交的除了直接从搜索空间中采样架构并训练它们以获得性能之外，我们的GP-NAS方法可以与现有的可区分架构搜索方法和一次性方法一起工作。GP-NAS将这些场景中的训练和搜索过程分离开来.因此，GP-NAS可以确保针对不同任务和不同平台有效部署有效的深度模型，而无需重新训练和重新搜索过程。最后，我们的贡献有四个方面：• 我们提出了一个理论框架，可以在给定的搜索空间中推断并为不同的任务和平台产生有效的深度模型，而无需重新训练。• 据我们所知，这是第一次以建筑为条件的性能分布，采用高斯过程建模，明确地描述了性能与体系结构之间的关系以及不同体系结构之间的相关性。• 我们提出了一种有效的采样方法，可证明确保我们的GP-NAS可以学习只有一小部分样本。• 实验结果表明，GP-NAS搜索的网络的提出的抽样策略比随机抽样可使学习过程加快25倍。在人脸识别方面，我们也取得了有竞争力的成绩。2. 相关工作现有的NAS方法可以大致分为三类：基于RL的方法[54，2，1，53，43]，EA基于方法[31]和基于GD的方法[33，32，46，10，9，15]。这些方法的核心思想是，在训练集上训练子网络，并在验证集上评估子网络，而代理从子网络接收性能作为奖励，并学习生成更有可能实现更高性能的网络架构尽管上述NAS方法取得了成功，但大多数现有方法需要从头开始训练大量的子网络，这在大规模数据集上是耗时且昂贵的。为了加速搜索过程，[3，36]依赖于共享权重策略，其中单个大型网络被训练，包括所有候选架构。在评估每个抽样子网络时，只需将一些操作归零就足够了，而不需要重新训练。另一种直观的方法是通过施加一些约束来减少搜索空间。[32，48]搜索最佳单元或块而不是整个网络，并将它们堆叠以构建完整的网络。此外，最近的方法[4，48]提出了生成网络权重或直接通过HyperNet [20]预测性能的替代方案。然而，训练权重或性能预测器需要大量的地面实况。不可避免地要花费大量的时间对大量的子网络进行采样。因此，非常需要有效的采样策略互信息是两个分布之间差异的度量，已广泛用于表示学习，例如。会话响应[50]，解纠缠特征[18，8，21]，RL [22]等。我们引入互信息来衡量采样的信息增益，并试图用最少数量的采样网络结构来估计模型的超参数。贝叶斯估计是一种用于评估黑盒函数的全局优化算法，已应用于机器学习中的模型选择[25，42，26]。高斯过程（GP）是一种灵活的非参数函数推理框架，因其灵活性和易处理性而成为贝叶斯估计中应用最广泛的方法之一。为了对网络体系结构下的性能分布进行建模，我们尝试对GP进行扩展，设计了一个专门针对NAS的内核函数。3. 方法在本节中，我们首先介绍了如何使用GP对NAS进行建模，其中介绍了专门为NAS设计的内核函数。然后，详细描述了如何将互信息嵌入到GP框架中。最后，我们推导了超参数的一个封闭形式的解决方案，并提出了一个交替估计算法递归更新的超参数。3.1. GP NAS高斯过程[37]是一个非参数框架，用于对定义在域X上的函数f进行推理，11935i=1不、我..我我我我已经被广泛用作数据重建的非线性回归技术。GP可以完全由其均值μ：X →R和协方差（ker-1）nel）函数k：X2→R. 给定t个观测样本其中mt（s）是网络体系结构s在t处的平均性能。由于网络结构对网络性能有很大的影响，因此平均函数mt（s）应该依赖于网络结构s。注意sDt={（xi，yi）}t，后突仍然是GP，可能是一个简单的编码网络，meanµt和协方差kt。由于GP可以使用观察来预测未观察到的数据，因此我们利用它来推断基于采样网络的任何网络架构的性能。在NAS的上下文中，域被定义为网络区域的空间结构S，函数f是网络在训练集上训练后在验证集上的性能。在时间t∈ T，观测值st是时间t之前的采样结构，ut是未观测的样本，其中n=st<$ut表示结构空间的泛集.设xt（s）是网络结构s在时间t的性能，xs∈n，xt∈ T.根据[28]，我们将每个神经架构编码为向量s=[s1，s2，. . .，sk]T，其中si∈ S是第i层中的所选操作。S表示所有操作的全集。因此，在本发明中，|S|在时间t对神经结构进行采样，并且它们的性能形成如下的向量：网络进行一些变换。这里我们取一个线性平均值作为简洁的例子：mt（s）= wTs，εs ε n，εt ∈ T.（五）其中w =[w1，w2，. - 是的- 是的，w|S|]T是待估计的超参数。直觉上，核函数kt（s，u）测量两个网络s，u之间的相似性。当kt（s，u）较大时，两个网络的性能接近。然而，定义两个网络之间的合理距离并不简单，因为网络编码向量中的每个项表示不同类型的操作，并且它们通常不具有可比性，例如通道和ker的数量nel size.因此，我们将操作S按类型分成多个组：[hΣ ΣTx（s）= x（s），x（s），. . .，x（s），S=Si，（6）i=1tt1t2T|S|t∈T，si∈s，|S|}，sn.（一）在GP中，假设不同网络架构的性能其中，Si是一种操作类型，例如通道数或内核大小。h是搜索空间中的类型数然后，定制的核函数kt（s，u）被公式化为：Σnx（ s）2Tkt（s，u）=（σi）exp（−（l·（s-u））（（s-u）·li）），2019 - 04 -2500：00：00不t，不不不不tt），i=1xt（ ut）mt（ut）Kt（ut，st）Kt（ut，ut）n∈T，（7）n=n\st，n∈T，（2）其中，N（？是高斯分布的概率密度函数，协方差矩阵Kt（st，ut）表示为：其中，li是第i种操作的掩码，其定义如下：l=l1，l2，. -是的-是的，lkT，K= |S|，lj1= 1，lj1∈Si，lj2= 0，lj2∈/Si，我我Kt（ st， ut）=kt（s1，u1）kt（s2，u1）. - 是的- 是的kt（s|St|，u1）j1，j2∈ {1，2，···，n}.（八）等式7中的σi是待估计的超参数。kt（s1，u2）kt（s2，u2）. - 是的- 是的kt（s|St|，u2）。-是的-是的根据[37]中的结果，条件概率-.预测后验分布（Predictive posterior distribution）kt（s1，u|ut|）kt（s2，u|ut|）. . .kt（s|St|，u|ut|）si∈ st，i∈ {1，2，···，|St|}，ntn，ut=n\st，uj∈ut，j∈{1，2，···，|ut|}，n∈T，11936（3）其中，核函数kt（s，u）描述了s和u在t处的协方差，其中s，u∈n。等式2中的平均向量mt（st）和mt（ut）表示为：未采样网络架构xt（ut）由下式给出：pt（xt（ut））|xt（st））= N（µt（ut|st），Kt（ut|st）），st其中，条件均值向量µt（ut|st）和条件协方差矩阵Kt（ut|st）如下：µt（ut|st）=Σ ΣTm（s）= m（s），m（s），. - 是的-是的，m（s），m（u）+K（u，s）K（s，s）−1（x（s）−m（s）），t t1t2不|S|tt t ttt不不不tttt不s|S|}，（4）stn，ut=n\st，t∈T，（10）11937WW不不WW不WWWt tt2K t（u t| s t）=K（ u， u）− K（ u， s） K（ s， s）−1 K（ s， u），其中Φ（s）和et（s）表示为：Σ ΣTt tttt不不不不不ttΦ（s）=s，s∈s，卢塞恩，（16）n = n\s t，n t ∈ T.（十一）然而，训练大量的采样网络和ob-sample网络，Σ ΣTe（s）=ε（s），s ∈ s，εs<$n，εt ∈ T.（十七）训练他们的表现是非常耗时的。最t t当前的工作[55，3]集中在减少单个采样网络的训练时间，例如训练更少的时期，在小数据集上搜索，用更少的块学习，设pt（w）是w的先验分布[41]，其中pt（w）= N（w|µt，t）。（十八）W W重量分担从一个新的角度来看，我们的目标是迷你-测量采样时间。为了实现这一目标，我们从信息论的角度对抽样策略进行了优化.互信息用于测量两个分布之间的相互依赖性[18，8，21]。在时间t，采样网络架构xt（st）和未采样架构xt（ut）形成为两个分布。在公式18中，µt是w的先验均值向量，µt是在t采样之前w的先验协方差矩阵。然后，xt（s）的概率密度函数由下式给出：Σnp（x（s）|w）=N（x（s）|wTs，（σi）2），n∈ n，n ∈ T，t t这里我们试图通过最大化它们的互信息来使M（ xt（st），xt（ut））逼近xt（st）通过这种方式，我们可以选择一个承载高信息的神经结构，tti=1（十九）每一次采样的增益。基于等式11，M（xt（st），xt（ut））通过下式获得：（1）（1）（2）（3）（4）（|Kt（ut，ut）|）的情况下，其中σi可以递归地估计，σi∈ {1，2，···，n}。此外，xt（s）的概率密度函数由下式给出：不t tt2|K（u|个）|pt（xt（s）|w）= N（xt（s）|wTs，Kt（s，s）），<$s<$n，<$t ∈ T.tt tst哪里|Kt（ut，ut）|和|Kt（ut|t）|表示确定，令σi为估计的超参数r，其中：（二十）Kt（ut，ut）和Kt（ut）的乘积|st）。所限σ1，σ2，···，σn=argmaxp（x（s）|w），n ∈s n，n∈t ∈ T.更多详情请参阅[12]。总之，我们利用采样网络的性能来估计超参数。而且我们t t tt tσ1，σ2，···，σn（二十一）采用有效的抽样策略，通过使用相互输入-让我们而且，是后验均值向量和协方差-阵要估计的目标超参数是σi和w，σi ∈ {1，2，···，n}。在下面的部分中，我们将详细讨论如何估计这些超参数。3.2. GP NAS的超参数估计在本节中，我们将介绍如何使用最少数量的采样网络架构来估计GP-NAS的超级参数。根据等式2中GP-NAS的定义，我们得到：其中εt（s）服从高斯分布，并且在t采样后更新w的概率矩阵。然后，任何网络架构s的预测性能，x∈t（s），可以通过下式估计：xt（s）=Φ（s）μt，μsμn，μt∈T.（二十二）值得注意的是，tp时w的后验均值向量和协方差矩阵变为w的先验均值向量和协方差矩阵，其中tp是t的前一采样时间。根据定理1的结果，我们可以递归地更新w的平均向量.定理1. 在t采样后，w的后验均值向量µΔt可以更新如下：nµp（ε（s））= N（ε（s））|0，k（s，s））= N（ε（s）|0，W W WtW（σi）。11938不t t t不i=1不（十四）（xt（s）− Φ（s）μt），μ sμ n，μt ∈ T.（二十三）证据令pt（w|xt（s））是后验分布[41]然后，以矩阵形式：xt（s）=Φ（s）w+et（s），ε sεn，εt∈T，（15）w，pt（w|xt（s））pt（xt（s））|w）pt（w），n ∈s<$n，n∈t∈ T. （二十四）11939WWWWWttWWWWW WWWtW这导致以下对数似然函数：L（w，s），ln p（x（s）|w）p（w）此外，我们有：J（w）= −E[2ln p（x（s）|w）p（w）]tt t t tt|+的|S|1 1|11= Φ（s）T（K（s，s））−1Φ（s）+（λt）−1，（33）=− ln2π−2ln|Kt（s，s）|−2ln|Σt|tW2-1（w−µt）T（μt）−1（w−µt）21不值得注意的是，在等式33中，期望值为：关于W。根据[6]，在线性高斯条件下，- （x（s）− Φ（s）w）（K（s，s））−1（x（s）− Φ（s）w）.W2t t t（二十五）是一个最好的线性无偏估计，可以实现Crame'r-Rao下界J（w）。因此，我们有：w的后验平均向量μt可以通过以下公式计算拉克莱特=J（w）−1=（Φ（s）T（K（s，s））−1Φ（s）+（Kt）−1）−1，（34）t =arg max L（w，s），s n.（二十六）WtW这证明了定理2。取对数似然函数对w的导数，得到：L（w，s）w=Φ（s）T（K（s，s））−1（x（s）−Φ（s）w）−（μt）−1（w−μt），值得注意的是，我们可以很好地估计w。下面的定理3说明了我们可以预测任何网络架构的性能。定理3. 期望均方误差（MSE）为t tW事实真相和估计之间的差距是可以得到的。s（二十七）通过将等式（27）设为零，我们得到：由等式35得出。E（x（s）−x（s））T（x（s）−x（s））μt=μt+Φ（s）Tμt（K（s，s）+Φ（s）TμtΦ（s））−1=Φ（s）tΦ（s）T+Kt（s，s），（35）W W WtW（xt（s）−Φ（s）µt），sn，t∈ T，（28）它证明了定理1。定理2展示了我们如何递归地更新w的协方差矩阵.其中n∈T，n ∈ T。证据如前所述，w和xt（s）条件为W是高斯分布，根据：pt（w）=N（w|µt，µt），（36）W W第二章. 的后验c0方差矩阵，可以通过公式29进行更新。拉克莱特 =（Φ（s）T（K（s，s））−1Φ（s）+（Kt）−1）−1。（二十九）Pr oof. 根据BayesianCram-Rao界[47]，均方误差矩阵从下到上，11940WWWW..pt（xt（s）|w）= N（xt（s）|Φ（s）w，（Kt（s，s）），（37）其中n∈T，n∈ T。然后，基于仿射变换的性质，多元高斯分布[44]，w和xt（s）的联合分布由下式给出：..Σ。- 是的 Σ ΣFisher信息矩阵J（w）的逆，其中pt（w，xt（s））=Nwxt（s）.t. Φ（s）µt，拉克莱特 =E[（w−µt）（w−µt）T]，（30）..Σ。.t ΣΣW W W和W=Nxt（s）.公司简介. x（s），、（三十八）J（w）=E[−<$2lnp（x（s），w）]（31）哪里Wt t.K（s，s）+（t）−1−Φ（s）T（Kt（s，s））−1Σ−1其中，λ2表示二阶微分或拉普拉斯算子tWW关于W的运算符然后，我们有−（Kt（s，s））−1Φ（s）（Kt（s，s））−1.Σ拉克莱特 ≥J（w）−1。（三十二）拉克莱特=Φ（s）温度TΦ（s）TΦ（s）T+K（s，s）、（三十九）W W Wt11941WW不W不不WWWW算法1：AEA初始化W的先验均值向量和协方差矩阵，µt和，当算法不收敛时，在t根据公式12。训练采样网络st\stp，并获得性能作为奖励xt（st\stp）。根据公式21估计h超参数σi首先，所提出的GP-NAS在CIFAR-10上搜索最佳CNN架构以进行图像分类。给出了搜索空间和训练细节接下来，我们通过在ImageNet上评估CIFAR-10上学习的最佳架构的可移植性然后，我们分析了GP-NAS的预测精度。最后，我们寻找适合人脸识别任务的定制网络。端哪里其中，W设为µt。将方程7中的核函数的超参数σi设置为σi，i∈{1，2，···，n}.根据定理1，估计W的后验均值向量，μt。估计W的后验方差矩阵，根据定理2。根据定理3，估计地面实况和估计之间的期望MSE矩阵将t更新为下一个采样时间，并将先验分布设置为tp时的后验分布。K（s，s）= Φ（s）T（K（s，s））−1Φ（s）。（四十）4.1. CIFAR 10的体系结构评估数据集CIFAR-10 [27]是一个标准的图像分类数据集，由 50 ， 000 张训练图像和 10 ， 000 张大小为32×32×3的测试图像组成。搜索空间继 [11] 之后，我们的搜索空间基于MobileNetV 3-large[23]。具体地说，我们搜索了每个反向瓶颈块的核大小k∈ {3，5，7}，膨胀率n∈ {3，6}以及压缩和外压缩是否存在。是否启用引用机制。在实践中，我们保留了与Mo-bileNetV 3相同的层数和激活函数。因此，搜索空间包含1214个子架构，这太大而无法枚举。培训在架构搜索过程中，子网络-tt因此，我们有：E（x（s）−x（s））T（x（s）−x（s））在V100 GPU上训练10个epoch。学习-率为0。1.一、一半的训练数据用于超参数估计。最终的网络被训练了300个epoch。我们将学习率设置为0。05余弦衰减t t战略我们利用SGD来优化网络权值=Φ（s）tΦ（s）T+Kt（s，s），s这证明了定理3。在此基础上，提出了一种交替估计算法（AEA）来估计GP-NAS的超参数。算法1给出了AEA的伪代码。首先，根据等式12，我们可以得到待估计的最佳编码网络架构。然后，我们训练采样的网络结构并获得性能。基于性能，我们将w冻结为es-根据公式21估计h超参数σi，动量为0。9，衰减系数为3×10−4。批量为128。数据扩充涉及剪切和混合。评估为了验证GP-NAS的性能，我们将我们的方法与最先进的NAS方法进行了比较，包括基于RL的方法[55，1]，基于EA的方法[38，31，17]，基于GD的方法[32，46]和其他方法。ods [30、4、35、48]。表1显示了不同方法的测试误差、参数和搜索成本。虽然大多数NAS方法在测试集上使用moderate参数实现了相当的性能，但基于RL和基于EA的方法的计算量要多三个数量级设置资源（NASNet为1800GPU天，3150 GPU天{1，2，···，n}。另一方面，我们冻结σt以估计µΔW和µΔ t根据定理1和定理2。最后，我们估计期望均方误差（MSE）矩阵根据定理3，地面实况和估计之间的关系。如果期望MSE矩阵满足设定阈值，则AEA收敛并停止。否则，将t处的先验分布更新为tp处的后验分布。然后，AEA递归地估计超参数。因此，采样架构的最终数量由定理3确定。4. 实验在本节中，我们对CIFAR-10 [27]，ImageNet [39]数据集和人脸识别[14]任务进行了实验。AmoebatNet）。这些结果表明，在基于RL的NAS中训练控制器需要大量的网络候选者，这是消耗资源的。虽然已经提出了一些策略[31，30]来加快搜索速度，但搜索成本仍然远远落后于其他方法（PNAS为225GPU天）。或者，SMASH[4]和GHN[48]通过训练超网络来减少每个子网络的训练时间，该超网络可以直接生成网络的权重或基于架构预测性能通过这种方式，可以避免子网络的训练。因此，SMASH[4]在1.5 GPU天内完成神经搜索，但参数增加到16M。同时，在ENAS[35]中提出了权重分担策略，11942方法测试错误Params搜索成本（%）（男）(GPU天）NASNet-A [55]2.653.31800NASNet-B [55]3.732.61800NASNet-C [55]3.103.591800AmoebaNet-A [38]3.34 ±0.063.23150AmoebaNet-B [38]2.55 ±0.052.83150[31]第三十一话3.75 ±0.1215.7300PNAS [30]3.41 ±0.093.2225Macro NAS + Q-Learning [1]6.9211.2100SMASH [4]4.0316.01.5ENAS [35]2.894.60.45[32]第二届世界杯足球赛2.942.91.5[32]第32话2.83 ±0.063.44SNAS（单节段）+轻度限制[46]2.982.91.5GHN Top-Best，1K（F=32）[48]2.94 ±0.075.70.84柠檬酸[17]2.5813.1-ProxylessNAS [5]2.08-4.0GP-NAS-rdm3.984.223GP-NAS3.793.900.9表1.GP-NAS和最先进的图像分类器在CIFAR-10上的分类错误方法FLOPs准确度信息和贝叶斯估计，以有效地估计超×106前1前5parameter with minimum sampling networks. 这样一来NASNet-A [55]56474.091.6大大减少了训练子网络的数量NASNet-B [55]48872.891.3为了验证GP中互信息的有效性NASNet-C [55]55872.591.0NAS，我们取代采样策略Eq。12in算法AmoebaNet-A [38]55574.592.01随机抽样，称为GP-NAS-rdm。虽然AmoebaNet-B [38]55574.091.5GP-NAS-rdm的成本约为23GPU天，它仍然可以实现AmoebaNet-C [38]57075.792.43 .第三章。98%的测试误差为4。2M参数。因此，这是有道理的-PNAS [30]58874.291.9能够了解网络[32]第32话59573.191.0由专门设计的GP架构。当我们领养孩子的时候SNAS（轻度限制）[46]52272.790.8基于最大化相互信息的抽样策略[48]第48话最后一次56973.091.3我们的GP-NAS只需要0。9GPU天，ProxylessNAS（GPU）[5]46575.192.5比GP-NAS-rdm快25倍。此外，GP-GP-NAS22573.491.3NAS也实现了相当的性能3. 79%测试GP-NAS系列22575.892.8错误只有3。9M参数。表2.与ImageNet-Mobile.xml上最先进的NAS方法进行比较，结果表明使用更大的批量和时期训练的结果。子网络份额权重，这与我们的工作正交。微分结构搜索[32]将离散搜索空间转换为连续搜索空间，并充分利用梯度下降的效率。DARTS （一阶）可以在1.2GPU天。很明显，这些方法中的大多数都试图通过减少每个子网络的训练时间来加快神经结构搜索。与他们不同的是，我们的GP-NAS结合了相互的信息，4.2. ImageNet学习结构的可移植性为了验证GP-NAS 的有效性，我们还在包含1的ImageNet 数据集上对其进行了评估。 2800 万训练224×224图像。在[48，32]之后，ImageNet移动设置将模型大小限制为非600MFLOPS。通过在性能和模型大小之间进行权衡，我们将在CIFAR-10数据集上搜索的GP-NAS的网络结构转移到ImageNet数据集上。最终的模型训练了150个epoch，批量大小为256。初始学习率为0。045与余弦衰减策略。我们报告了前1名和前5名的交流-11943验证集上的精确度。如表中所示。2、GP-NAS达到73.4%，91。Top1和Top5的准确率为3%，与其他先进方法相比具有竞争力。同时，GP-NAS搜索到的体系结构只有225MFLOP，只有DARTS和SNAS等方法的一半。当批量和历元分别增加到4096和360时，GP-NAS得到75。8%，92。Top1和Top5的准确率为8%图1.预测与不同型号CIFAR-10的真实精度图2.最终型号与智能体模型在CIFAR-10上的准确性4.3. 预测性能相关性在本节中，我们通过GP-NAS在CIFAR-10数据集上评估子网络的预测性能。在完成超参数估计之后，我们随机抽取子网络，并在搜索阶段按照训练策略训练它们训练后的网络在验证集上进行评估，该验证集被视为真值准确性，而它们的性能则由GP-NAS直接预测。图1显示了预测准确度和真实准确度。我们展示了50个网络，以便清楚地说明。可见，GP-NAS具有较好的预测精度此外，我们还以独立的方式完全训练选定的模型图2显示了独立模型与代理模型我们观察到，独立和代理模型的性能有很高的相关性。4.4. 人脸识别的体系结构研究人脸识别是计算机视觉中的一项基本任务。为了评估GP-NAS的泛化能力，我们在这个识别领域寻找了一个神经网络结构。在[7]之后，我们在CASIA-Webface数据集上搜索网络结构，并在LFW数据集上评估人脸验证的准确性.我们的搜索空间基于MobileFaceNet[7]宽度乘数为0。75.我们搜索了每个块的膨胀率n∈{2，4，6}以及压缩和激发机制是否搜索空间包含6个15个子网络。表. 3显示了每种方法的FLOP、参数和准确度。Com-通过MobileFaceNet的支持，GP-NAS搜索的模型获得了更高的性能99. 17%，只有151M FLOPs和0。83M参数。当宽度乘数设置为0时。6、我们可以搜索更紧凑的网络。方法FLOPsParamsAcc.[24]第二十四话-3.2M百分之九十八点六三[40]第四十话-2.1M百分之九十八点五八ShuffleNet（1×，g=3）[49]-0.83M百分之九十八点七MobileNetV2-GDConv-2.1M98.88%移动FaceNet [7]223M0.98M百分之九十九点一五GP-NAS151M0.83M百分之九十九点一七GP-NAS系列130M0.61M百分之九十九点一三表3.在LFW上测试的移动模型之间的性能比较表示宽度乘数为0.6。5. 结论在本文中，我们提出了基于高斯过程的神经结构搜索（GP-NAS），一个理论模型的NAS。结合互信息和贝叶斯估计，我们可以用最少的样本网络来估计GP-NAS我们还提出了一种交替估计算法（AEA），以循环更新的超参数。学习的GP-NAS能够推断任何网络架构的性能。最后，我们证明了GP-NAS在分类和人脸识别任务上取得了有竞争力的性能。鸣谢：本研究得到了北京市自然科学基金项目（批准号：200000000）的资助。JQ18017）和山东省重点研11944究发展计划（重大科技创新项目）（编号：2019JZZY010119）。11945引用[1] Bowen Baker 、 Otkrist Gupta 、 Nikhil Naik 和 RameshRaskar。使用强化学习设计神经网络架构。在ICLR，2017。二六七[2] Irwan Bello，Barret Zoph，Vijay Vasudevan，and QuocV Le.神经优化器搜索与强化学习。ICML，2017。2[3] Gabriel Bender，Pieter-Jan Kindermans，Barret Zoph，Vijay Vasudevan，and Quoc Le.理解和简化一次性架构搜索。在ICML，2018。二、四[4] Andrew Brock、Theodore Lim、James M Ritchie和NickWeston。通过超网络的一次性模型架构搜索在ICLR，2018年。二六七[5] 韩才、朱立庚、宋涵。Proxylessnas：在目标任务和硬件上直接进行神经结构搜索。2019年，在ICLR。1、7[6] 詹姆斯·V·坎迪贝叶斯信号处理：经典，现代和粒子滤波方法。John Wiley Sons，2016. 5[7] 盛晨、杨柳、向高、甄寒。移动-面板：在移动设备上进行精确实时人脸验证的高效cnn。在CCBR，2018年。8[8] Xi Chen，Yan Duan，Rein Houthooft，John Schulman，Ilya Sutskever，and Pieter Abbeel. Infogan：通过信息最大化生成对抗网络进行可解释的表示学习。InNeurIPS，2016. 二、四[9] 辰昕、邪灵犀、君无邪、齐天。渐进式可区分体系结构搜索：缩小搜索和评估之间的深度差距。2019. 2[10] Yukang Chen， Gaofeng Meng ，Qian Zhang ，ShimingXiang，Chang Huang，Lisen Mu，and Xinggang Wang.雷纳斯：增强进化神经结构搜索.在CVPR，2019年。2[11] Xiangxiang Chu，Bo Zhang，and Ruijun Xu. Moga：搜索 - ing beyond mobilenetv 3. arXiv 预印本 arXiv ：1908.01314，2019。6[12] Thomas M Cover和Joy A Thomas 信息理论的要素。JohnWiley Sons，2012. 4[13] Jiequan Cui， Pengguang Chen ， Ruiyu Li ， Shu Liu ，Xiaoyong Shen，and Jiaya Jia.快速实用的神经结构搜索。在ICCV，2019年。1[14] 邓健康，贾国，薛念南，Stefanos Zafeiriou。Arcface：用于深度人脸识别的附加角度余量损失。在CVPR，2019年。6[15] 董轩逸和杨毅。通过自评估模板网络进行一次性神经结构搜索。在ICCV，2019年。2[16] 董轩逸和杨毅。在4个GPU小时内搜索一个强大的神经结构。在CVPR，2019年。1[17] Thomas Elsken，Jan Hendrik Metzen，and Frank Hutter.通过拉马克进化的有效多目标神经结构搜索。2019年，在ICLR。六、七[18] Shuyang Gao，Greg Ver Steeg，and Aram Galstyan.特征选择的变信息最大化。InNeurIPS，2016. 二、四[19] Golnaz Ghiasi，Tsung-Yi Lin，Ruoming Pang，and QuocV Le. Nas-fpn：学习用于对象检测的可扩展特征金字塔架构。2019. 1[20] David Ha，Andrew Dai，and Quoc V Le.超网络在ICLR，2017年。2[21] R Devon Hjelm 、 Alex Fedorov 、 Samuel Lavoie-Marchildon 、 Karan Grewal 、 Adam Trischler 和 YoshuaBengio。通过互信息估计和最大化来学习深度表示。2019年，在ICLR。二、四[22] Rein Houthooft，Xi Chen，Yan Duan，John Schulman，Filip De Turck，and Pieter Abbeel.Vime：变分信息最大化探索。InNeurIPS，2016. 2[23] Andrew Howard ， Mark Sandler ， Grace Chu ， Liang-Chieh Chen，Bo Chen，Mingxing Tan，Weijun Wang，Yukun Zhu，Ruoming Pang，Vijay Vasudevan，Quoc V.Le和Hartwig Adam。正在搜索mobilenetv3。在ICCV，2019年。6[24] 安德鲁·霍华德、朱梦龙、陈波、德米特里·卡列尼琴科、王伟军、托比亚斯·韦安德、马可·安德烈托和哈特维希·亚当。Mobilenets：用于移动视觉应用的高效卷积神经网络。2017. 8[25] Frank Hutter，Holger H Hoos，and Kevin Leyton-Brown.基于顺序模型的通用算法配置优化。InLION，2011. 2[26] Kirthevasan Kandasamy 、 Willie Neiswanger 、 JeffSchneider、Barnabas Poczos和Eric P Xing。神经结构搜索与贝叶斯优化和最佳运输。NeurIPS，2018。2[27] 亚历克斯·克列日夫斯基和杰弗里·辛顿从微小的图像中学习多层特征。技术报告，Cite- seer，2009年。6[28] 李欣，周一鸣，潘郑，冯佳世。偏序剪枝：以在神经架构搜索中获得最佳速度/准确度折衷。在CVPR，2019年。3[29] Chenxi Liu ， Liang-Chieh Chen ， Florian Schroff ，Hartwig Adam，Wei Hua，Alan Yuille，and Li Fei-Fei.自动deeplab：用于语义图像分割的分层神经结构搜索。2019. 1[30] Chenxi Liu，Barret Zoph，Maxim Neumann，JonathonShlens，Wei Hua，Li-Jia Li，Li Fei-Fei，Al

下载后可阅读完整内容，剩余1页未读，立即下载