FreeREA：基于演化的免培训架构搜索

神经网络

PDF格式 | 695KB | 更新于2025-01-16 | 4 浏览量 | 举报

1493

FreeREA：基于演化的免培训架构搜索

Niccolo`Cav agnero，LucaRobbiano，BarbaraCaputo，

GiuseppeAverta

Politecnico di Torino，意大利

{

niccolo.cavagnero，luca.robbiano，barbara.caputo，giuseppe.averta

}

@ polito.it

摘要

在过去的十年中，机器学习的大多数研究都有助于

改进现有模型，目的是提高神经网络解决各种不同任

务的性能。然而，这样的进步往往是以增加模型内存

和计算需求为代价的。这代表了在现实环境中研究成

果的可部署性的一个重大限制，在现实环境中，成

本，能源消耗和框架的复杂性起着至关重要的作用。

为了解决这个问题，设计师应该寻找最大化性能的模

型，同时限制其占地面积。达到这一目标的典型方法

要么依赖于手动程序，这不能保证最终设计的最优

性，要么依赖于神经架构搜索算法来自动化该过程，

代价是极高的计算时间。本文提供了一种快速识别神

经网络的解决方案，最大限度地提高模型的准确性，

同时保留典型的微小设备的大小和计算限制。我们的

方法，名为

FreeREA

，是一个自定义的基于细胞的进

化

NAS

算法，利用一个优化的组合训练免费指标排名

architectures

在搜索过程中，因此不需要模型训练。我

们的实验，进行了共同的基准标记

NAS-Bench-101

和

NATS-Bench

，证明，

）

FreeREA

是一种快速、高效、有效的模型自动设计

搜索方法

; ii

）在所有考虑的数据集和基准测试中，它

优于最先进的基于训练和无训练的技术，

iii

）它可以

很容易地推广到受限场景，代表了通用受限应用中快

速神经架构搜索的竞争解决方案。该代码可在

https

：

github.com/ NiccoloCavagnero/FreeREA

上获得。

介绍

近年来，我们观察到机器学习在几个领域的影响急

剧扩大然而，这一突破性的技术进步存在一个重大缺

陷，即对能源消耗产生重大影响，从而影响气候变

化。例如，最近的一项研究表明，与普通自然语言处

理模型的单次训练相关的碳足迹是标准美国公民一年

日常生活影响的两倍多当神经架构搜索（NAS）算法

用于搜索最佳模型时，该数量增加了十倍[28，3]。这

些观察结果强烈呼吁减少机器学习模型在所需资源方

面的影响出于这个原因，当前和未来的研究趋势可能

会包括开发可以在非常小的设备上运行的模型。这代

表了机器学习研究的重大范式转变实际上，当硬件资

源有限时，设计者应该更多地关注模型如何使用这些

资源。要做到这一点，神经结构搜索[9]似乎是获得可

以充分利用可用预算的模型的最佳选择，同时对人类

专家的时间浪费最小。

然而，标准NAS方法基于算法，在搜索期间，需要

训练和测试所有候选者以评估其性能。因此，NAS管

道在计算时间和资源方面通常非常昂贵，使得标准机

器学习用户很难利用它们，无法访问超级计算资源。

作为额外的缺点，值得一提的是，基于标准训练的

NAS算法的能量消耗将使设计微小模型的努力成为徒

劳[28，3]。

由于这些原因，在大规模上有效开发微小神经网络

需要实现高效的NAS算法，这些算法不需要训练所有

可用的神经网络。

1494

最佳

REA

REINFORCE

RSPS飞镖

（1）GDAS

ENAS

NASWOT

TENAS

NASI

GA-NINASWOT

EPE-NAS

FreeREA

时间[s]

图1：在NATS-Bench [5]的ImageNet 16 - 120上的平均

测试准确度与时间[s]X轴为对数标度。基于训练的方

法的准确性和时间来自原始的NATS-Bench论文[5]。

可以为其他数据集绘制类似的图，为了空间起见，这

里省略了这些图。

didates 为了解决这个问题，研究界最近一直专注于采

用代理来在初始化时对架构进行评分[21，2，1]，从

而避免繁重而缓慢的训练阶段，即使在有限的硬件资

源下也能实现一致的加速。然而，到目前为止提出的

无训练NAS算法与基于训练的方法不具有竞争力，并

且通常也不考虑包括硬件驱动的约束（诸如模型占用

空间和FLOP）的机会。

本文弥合了这一差距，并提供了一个自定义约束进

化论的方法，名为FreeREA，利用最佳组合的指标，

作为代理模型的准确性。我们展示了我们使用的指标

如何有效地替代模型训练，从而能够在短短几分钟的

搜索中自动识别高性能模型。我们在两个流行的小模

型NAS基准测试上测试了我们的解决方案，并展示了

我们的方法在无约束情况下如何优于最先进的方法我

们还首次采用免培训方法，在受限场景中进行了实

验，为未来的工作设定了非常有竞争力的基线。

总之，本文提出了以下贡献的最新技术：

用于模型排名的无训练度量的优化组合，其可以

完全替代NAS算法中的训练阶段;

一种改进的进化搜索算法，充分利用排名策略，

在几分钟的搜索时间内识别出非常准确的模型;

一些实验来证明无训练方法如何有效地取代基于

训练的方法。

NAS方法，即使在硬件受限的环境中。

相关工作

神经架构搜索首先在[37]中引入，其中采用具有

LSTM [11]控制器的强化学习方法REIN-FORCE [33]来

生成高性能神经网络。整个搜索使用了超过 800个

GPU，历时28天，总计22400个GPU小时，需要对超过

12k个不同架构进行部分（35个epochs）训练。在这项

开创性的工作之后，研究界专注于开发更有效的方法

[22，6，25，17]，目的是减轻NAS算法的巨大计算需

求。

在这个方向上的第一次尝试集中在参数共享[22，

6，17]，其中新发现的架构从先前发现的架构继承其

权重。虽然[22]仍然采用强化学习方法，但NAS文献

中出现了另外两种搜索范式：微分搜索和进化。第一

个[17，6]从目的出发，使整个搜索可微，以便可以通

过梯度下降算法进行优化，从而导致显著的加速w.r.t.

原始方法[37]。另一方面，基于进化的策略实现起来

非常简单，并且自然地允许从父代继承参数，但性能

较低[18，26]。在REA [25]中，作者实现了一种规则化

的锦标赛选择搜索算法，该算法被证明是第一个能够

超越人工构建架构的基于进化的NAS。但这些方法并

不能完全解决核心问题，还需要对成千上万的候选人

进行培训和评估。

出于这个原因，研究界最近专注于采用指标来在初

始化时对不同的架构进行评分，完全避免了训练和评

估阶段，这构成了NAS算法的真正瓶颈。提出的第一

个度量标准是线性区域（NASWOT）[21]，它测量架

构的表达能力，并允许在几秒钟内搜索竞争候选者。

然而，这些网络仍然不如标准NAS算法所发现的网络

准确。因此，这种方法的使用仅限于经典搜索的初始

化。后来，GA-NINASWOT [34]采用了线性区域和遗

传算法，而EPE-NAS

[20]提出了对基本指标的改进。然而，这些方法都没

有表现出与基于培训的方法相竞争的能力从NASWOT

[21]中获得灵感，

[2]作者将线性区域的变化与神经切核（NTK）度量[12]

相结合，以在搜索中对候选者的可训练性进行编码由

于NTK计算的复杂性，NASI [27]提出了一种

测试精度

1495

∂

该度量的近似获得显著的加速。有关这些和其他免训

练指标的详细分析，感兴趣的读者可以参考[1]。

方法

在本文中，我们介绍了FreeREA，一种创新的NAS

方法，它利用免训练指标来提供满足FLOP和参数数量

约束的高性能架构。事实上，在以前的工作中，无训

练阶段无法与标准搜索方法竞争，因此通常仅用于初

始化经典NAS算法的种群[21]。相反，在我们的实现

中，我们表明，适当选择指标，结合优化的进化搜

索，可以产生精确的模型，搜索时间显着降低（比标

准NAS低四个数量级）。

3.1.

度量

如前一节所述，无需训练的算法严重依赖于作为模

型性能准确代理的指标。不幸的是，这些与测试准确

性没有明显的相关性，因此考虑多个指标的组合很重

要，可能会考虑不同的属性，如可训练性和表达性。

为此，我们在NATS-Bench数据集上进行了初步实验，

以评估作为测试准确性替代指标的选择的关于不同度

量的相关性的详细信息，请参见表10。1.一、该分析

表明，最有效的此外，我们补充了这些措施与跳过层

的数量，有利于更可训练的架构。为了组合不同的度

量，我们对单个度量的归一化分数求和，这导致相对

于单个度量的更好的经验结果。一个标准的累积排名

分数[2]。这种选择背后的理由是，一个既可训练又具

有表达力的模型更有可能表现出高性能[2]。在我们的

实现中，给定模型i的适应度函数

可以表示为：

三次，具有不同的初始化，并将三次运行的平均值作

为最终度量。在下面的部分中，我们讨论了我们在这

项工作中考虑的指标的实现，同时我们也请感兴趣的

读者参考[1]以了解更多细节。

3.1.1

线性区域

是在[21]中引入的，目的是在初始化时测量

架构的表现力。事实上，当一个训练样本被转发到

ReLU网络中时，激活值将张量分为活动（正值）和非

活动（负值）区域，生成二进制掩码。给定固定维度

的输入空间，映射到不同网络激活的输入空间的连续

区域的数量提供了模型区分不同输入值的能力的度量

事实上，当两个不同的输入项导致相似的掩码时，模

型无法轻松区分它们。因此，表达模型能够将输入空

间中相对接近的值映射到不同的激活张量。为了定量

评估这种措施，在[21]的实现然后，我们通过汉明距

离评估激活模式的差异。一旦从汉明距离构建了核矩

阵K

，则得分s被计算为：

log

det

（

）

（

二）

得分越高，网络的表达能力和区分样本的能力就越

高。如图2所示。如图2-A所示，具有高线性区域评分

值的模型往往具有高测试准确性，这也被两个实体之

间的正相关性所证实（见表1）。①的人。因此，最大

化线性区域得分会产生更具表达力的模型，并且可能

具有更高的测试准确性。

3.1.2

LogSynflow

Synflow最初是在[30]中引入的，作为选择要删除的权

重以压缩

maxLS

j∈J

max

j∈J

跳过

最大

j∈J

（

一

）

架构，同时最大限度地保留性能。它的原始实现在本

地评估单个权重的相关性，然后由[1]扩展到评分

其中 LS 代表 LogSynflow ， LR 代表 Linear Regions ，

Skip代表Skipped Layers，J是已探索网络的集合。关

于构成函数的三个术语的消融研究见表1。其中1个是

一个-

通过总结单个权重的贡献来构建整个架构。形式上，

全局度量可以定义为权重向量θ和梯度向量

之间的标

量积：

材料。此外，为了增加度量的鲁棒性，我们计算

线性

区域

和LogSynflow

（Θ）

∂

（

三

）

剩余10页未读，继续阅读

cpongm

粉丝: 6

FreeREA：基于演化的免培训架构搜索

案例分析：基于消息的分布式架构

提升QPSO性能：基于演化搜索信息的非重复访问量子粒子群算法

克隆代码稳定性分析：基于演化模式的分类研究

克隆代码Bugs倾向性分析：基于演化模式的研究

激光焊接技术：小孔演化的编程探索与实现,激光焊接技术：小孔演化的编程控制与实现,激光焊小孔演化自编程 ,激光焊; 小孔演化; 自编程; 过程模拟; 程序控制; 精准加工; 高度自动化 ,激光焊小孔演化

测试驱动设计：优化代码与演化架构

通用智能系统模型：基于生态演化的研究

社会网络事件检测：基于节点演化波动的新方法

神经构件模型：适应动态演化的智能架构

舆情反转预测研究：基于事件演化分析与KE-SMOTE算法改进

最新资源