神经切线核：基于NTK的性能估计与架构搜索

196 浏览量更新于2023-10-25 收藏 852KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

11861强核扭曲跳过3x3转换平均池→从实践的角度揭开神经切线内核的神秘面纱：它可以在没有训练的情况下被信任用于神经架构搜索Jisoo Mok1*Byunggook Na1Ji-Hoon Kim2，3<$Dongyoon Han2<$Sungroh Yoon1，4<$1首尔国立大学幼儿教育系2NAVER AI Lab3NAVERCLOVA4AIIS，ASRI，INMC，ISRC，首尔国立大学人工智能跨学科项目摘要在神经架构搜索（NAS）中，降低架构评估的成本仍然是最关键的挑战之一。在绕过每个候选架构的训练以收敛以进行评估的大量努力中，神经切线核（NTK）正在成为一个有前途的理论框架，其可以用于在初始化时估计神经架构的性能。在这项工作中，我们重新审视了几个初始化指标弱核扭曲(a) 低精度架构→非线性行为(b) 高精度架构可以从NTK中提取并揭示他们的关键缺陷。然后，通过对NTK时间演化的实证分析，我们推断出现代神经体系结构表现出高度非线性的特征，使得基于NTK的度量在没有一定量的训练的情况下无法可靠地估计体系结构的为了考虑到这种非线性特性，我们引入了标签梯度对齐（LGA），这是一种新的基于NTK的度量，其固有的公式使其能够捕获现代神经架构中存在的大量非线性优势。通过最小的训练量，LGA获得了与架构的最终测试准确性有意义的等级相关性。最后，我们证明了LGA，辅以几个时代的训练，成功地指导现有的搜索算法，以显着降低搜索成本，以实现有竞争力的搜索性能。代码可在以下网址获得：github.com/nutellamok/DemystifyingNTK。1. 介绍深度神经网络（DNN）在各种领域和应用中继续产生令人印象深刻的结果。DNN的巨大成功在很大程度上要归功于新型神经架构的开发，所有这些架构过去都是由机器学习工程师通过测试许多架构设计来手动设计的*在NAVER实习期间完成的工作（magicshop1118@snu.ac.kr）†通讯作者图1.（a）低精度架构的NTK和（b）高精度架构的NTK在训练期间如何演变的概念化视图（灰绿色）。黑色平面表示权重参数的函数空间实现。在（a）和（b）的左上角，提供了低精度和高精度架构的示例与低准确度架构不同，配备有大量非线性优势的在图2中，我们说明了LGA在两种极坐标精度体系中捕捉到了这种差异。选择.为了解决这个问题，神经架构搜索（NAS），自动机器学习的一个子领域，已经成为手动设计神经架构的可行替代方案[13]。尽管NAS衍生的架构正在超越手工设计的架构，但执行NAS所需的巨大计算成本使其立即部署具有相当大的挑战性[39，51，52]。NAS中的大部分搜索成本是由于需要训练每个候选架构以收敛以进行评估[35]。在最近提出的NAS算法中，候选架构的单独训练被权重共享策略规避[5，8，12，29，34，35、46、48、50]。通过权重共享，NAS的计算成本降低了几个数量级：从数万个GPU小时减少到1个GPU天。<不幸的是，已知依赖于权重共享的NAS算法在性能通过权重分配近似的架构，11862其独立性能[43]。另一个旨在加速架构评估过程的研究方向最小化预测精度和地面实况精度之间的均方误差是训练这种性能预测器的最直接的方法，因为性能预测的问题可以自然地解释为回归任务[9，26，40]。架构比较器家族用相对论方法取代了神经架构的确定性评估，该方法比较两种架构并确定哪种架构产生更好的性能[6，45]。除了权重共享和性能预测，一些工作提出了更通用的代理架构评估[1，27，30，31，49]。White等人[41]对NAS中的性能预测因子进行了全面调查，在附录中，我们更详细地讨论了相关工作。需要明确衡量的测试准确性的ar-0（姓名首字母）0（姓名首字母）1 3 5 10时代(a)F-范数1 3 5 10时代(c)NCN0（姓名首字母）0（姓名首字母）1 3 5 10时代(b)是说1 3 5 10时代(d)LGA架构或训练性能预测器的原因是我们缺乏对DNN如何学习以及学习什么的理论理解。在声称对DNN的学习能力提供可量化限制的各种深度学习理论中，神经切线核（NTK）框架[21]正在获得特别的关注。基于观察到无限宽度的DNN等效于高斯过程，NTK框架提出将DNN表征为内核机器[21]。NTK框架的核心假设是从具有随机初始化权重的无限宽DNN参数化计算的NTK在整个训练过程中保持不变。因此，NTK框架表明，这种DNN的训练动态可以在初始化时由NTK完全受NTK框架建立的坚实理论基础的激励，在NAS领域，基于NTK的度量[4，44]，在初始化时测量，已被提出作为直接计算测试精度的有吸引力的替代方案。在本文中，我们的目标是严格评估如何信任值得信任的理论NTK框架是在con.通过一系列的实证分析，对NAS的文本进行了分析。首先，我们回顾了之前提出的 NTK 框架中的指标： Frobenius 范数（ F-Norm），均值[44]和负条件数（NCN）[4]。为了评估是否NTK为基础的metrics，计算随机初始化的权重，是真正适用于NAS，我们测试他们在各种NAS基准，通过测量肯德尔我们的实验结果表明，在初始化时获得的基于NTK的指标的预测性能波动显着从一个基准到另一个。一个更近距离的研究，他们的预测能力如何变化，根据评估的archi-图2.基于NTK的指标在高、中、低精度架构的早期阶段如何变化。对于每个准确度范围，从NAS- Bench-201搜索空间中随机抽取200个架构，每个架构集的平均测试准确度包含在图例中。结构池和权重初始化方案揭示了NTK框架的其他缺陷。综合而言，我们的研究结果似乎表明，NTK在初始化并没有表现出实质性的可靠性水平的架构选择。从经验上分析NTK的时间演化表明，在构成NAS搜索空间的现代神经体系结构中，NTK以高度非线性的方式演化因此，现代神经架构往往表现出大量的非线性优势[15，17，32]。图1描绘了NTK在训练过程中如何旋转和演变的高层次。受此观察的启发，我们引入了标签梯度对齐（LGA），这是一种新的基于NTK的度量，其数学公式使其能够连贯地捕获现代神经架构的非线性特性。经过几个时期的训练，LGA显示出相当程度的秩相关性与收敛时的测试精度。如图2所示，深入研究每个指标在整个训练过程中的变化，可以巩固LGA是唯一可以准确反映现代神经架构非线性特性的指标最后，我们仅通过使用后训练LGA来执行随机搜索[25]和进化搜索[38]算法，以证明它可以用于加速现有的搜索算法。我们的主要贡献可概括如下：• 我们严格评估了基于NTK的指标在各种NAS基准测试中高（平均）acc. = 93.60%）中等（平均acc. = 77.11%）低（平均= 11.55%）n-线性整数低无优势ar非线路恩塔吉高ADVA11863→i=1i=12∇||||||||||||NH3O在不同的超参数设置下。我们的结果表明，NTK在初始化可能是不充分的NAS体系结构的选择。• 为了理解当前NTK框架的上述限制的原因，我们分析了NTK的时间演化，并揭示了在NAS中考虑的现代神经架构中存在相当数量的非线性优势。• 我们引入LGA，一种新的基于NTK的度量，可以反映NTK相对于目标函数的变化。在最小量的训练与现有的搜索算法集成LGA产生竞争力的搜索性能，以国家的最先进的NAS al-出租，同时显着降低搜索成本。最近已经发现，在无限大的学习率和某些类型的初始化下，在无限宽的DNN中，方程中的近似值是不确定的（1）是精确的，NTK在整个训练过程中保持不变。因此，如果上述假设成立，则可以使用初始化时NTK的几个方面来充分表征DNN的训练动态并估计其泛化性能。在这一理论阐述之后，在NAS中，Xu et al.[44]和Chen et al. [4]已经提出在初始化时基于从NTK产生的度量对DNN进行评分。2.2.以前的NTK基础架构度量I：Frobenius范数假设θθt是第t个历元的NTK根据Xu等人 [44]，对于任何t >0，以下不等式成立：2. 神经切线内核2 2本节提供了NTK框架和NTK指标的概述，这些指标将在后面的章节中进行一系列调查在第2.1节中，我们介绍了NTK的概念，在第2.2节中，我们简要回顾了以前提出的基于NTK的度量。2.1. 预赛让我们将DNN定义为函数fθ：RdR，其中θ是可训练权重参数的集合考虑到焦油-获取数据集，D={（xi，yi）}N，而不损失一般-||2≤ exp（− λ min t）||yi − f θ 0（x i）||第二条、第三条||2,(3)其中λmin 是NTK 矩阵Θθt的最小特征值。从等式（3），我们看到损失项的上界由λmin决定，λmin越大，上界越紧，从而产生较小的训练损失。由于Θθt根据定义总是对称的，因此λmin可以由θθt的Frobenius范数限制：.Σλmin≤然而，NTK框架专注于二元分类k问题，其目标是最小化平方损失，LD（θ）= N ||y i− f θ（x i）||二、这里，xi∈X，yi∈ Y其中λk表示Θθt的第k个特征值，按下式排序：λmin≤。. . ≤λmax. 利用Frobenius范数作为分别表示图像样本和相应的类标签。在随机初始化权重θ0周围的小邻域区域中，DNN可以通过一阶泰勒展开进行线性近似[21]：fθ（x）<$f<$θ（x;θ）=fθ0（x）+（θ−θ0）<$fθ0（x），（1）其中θf θ0对应于DNN预测的雅可比矩阵，相对于θ 0计算。所得到的近似fθ可以看作是一个线性化网络，位于可再生核希尔伯特空间（RKHS）L2（Rd）中的函数的权重向量，由θ0处的NTK确定[32]：Θθ0（x，x′）= θf θ0（x），。（二）对DNN进行评分的度量允许我们以（n）的时间复杂度规避Θθt的本征分解。假设NTK保持不变，无论训练如何，如第2.1节所述，对于任何t值，F可以替换为Θθ0F.在本文的其余部分，我们使用缩写F-Norm来指代这个度量，它必须与DNN的最终测试准确度呈正相关度量II：均值虽然Xu等人。[44]表明可以利用θθ0F来评估随机初始化的DNN，但他们没有直接使用F范数作为度量。相反，提出Θ θ 0的平均值作为用于在初始化时评估DNN的度量。NTK矩阵的平均值，用μ（Θθ0）表示，可以表示如下：注意，NTK本质上是两个gra的点积梯度向量，因此等价于1ΣΣ。f（x）f（x）每样本梯度。直观地说，NTK可以被解释为梯度值的压缩表示µ（Θθ0）=N2i=1j =1θ0i∂θ0θ0j∂θ0（五）和梯度相关性。从几何角度来看，梯度值影响每个步骤的梯度下降程度，梯度相关性决定梯度方向的随机性[44]。与F范数一样，均值度量也必须与最终测试精度正相关度量III：负条件数Lee等人。 [23]证明了无限宽DNN的训练动态N|2 =|Θθ t||女，（4）||F,(4)11864XY××××××由常微分方程控制，可以解为：fθt（X）=（I−exp（−ηθθtt））Y，（6）其中η和I分别表示学习率和单位矩阵。Lee等人还假设最大可行学习率由下式给出：η 2/λmax。新的搜索空间0.60.40.20-0.2F-Norm平均NCN以前用于评估的进一步研究了Θθt与0.6DNN的可训练性导致Xiao等人。 [42]得出结论，Eq.公式（6）可以根据Θθt的本征谱重写如下：fθt（X）=（I−exp（−ηλk t））Y，（7）其中λk表示Θθt的第k个特征值。将最大可行学习率2/λmin代入等式（7），Chen et al. [4]可见λmin以1/c的速率指数收敛，其中c=λmax/λmin是Θ θ t的条件数（CN）。随着CN变得越来越大，DNNfθt（）的输出将无法收敛到目标标签。因此，CN必须表现出与最终测试准确性的负相关性在本文中，为了保持等级相关性的趋势与其余的研究指标一致，我们使用负条件数（NCN）代替;因此，NCN必须与最终的测试准确度呈正相关3. NTK的局限性在这里，我们测试的普遍适用性以前的NTK为基础的指标，在初始化时测量，不同的搜索空间所提供的NAS基准。尽管这些初始化指标被认为与最终的准确性高度相关，但其预测能力的经验因此，将评估范围扩展到包含不同候选操作和连通性模式的更多样化的搜索空间集合在第3.1节中，我们提供了用于评估的NAS基准的总结;有关这些基准的构建以及它们使用的图像数据集的更多详细信息，请参见附录。在第3.2节中，我们介绍了评估结果，并报告了关于基于NTK的指标的实用性的关键发现。最后，在第3.3节和第3.4节中，我们讨论了NTK的其他陷阱，这些陷阱是从对基于NTK的指标的更近距离分析中发现的。3.1. 神经架构搜索NAS-Bench-101[47] 包含在 CIFAR-10 [22] 上评估的423，000个计算上唯一的神经架构。NAS-Bench-101中的所有架构都采用单元拓扑结构，这是一个较小的前馈模块，重复堆叠以构建最终架构。最大0.40.20-0.2图3.各种NAS基准测试的秩相关评估结果。我们使用Train和Eval Mode BN计算这三个度量。为简单起见，此处报告了从两种设置中获得的较高相关系数。y轴的比例和范围在所有搜索空间中设置为相同。每个单元的深度和可能的连接的数量分别被设置为7和9，并且以下是可用的候选操作：3 3卷积，1 1卷积。进化，33最大池。NAS-Bench-201[11]包含15，625个架构，在CIFAR-10，CIFAR-100 [22]和ImageNet-16-120 [7]上进行了评估。与NAS-Bench-101类似，NAS-Bench-201架构也基于小区拓扑。NAS-Bench-201中的每一个单元具有固定深度4，并且以下候选操作被包括在搜索空间中：归零、跳过连接、11卷积、33卷积和33平均池化。NDS[36]对NAS中常用的搜索空间NDS基准支持的搜索空间包括： DARTS [29] ， ENAS [35] ， NASNet[52]，AmoebaNet [38]和PNAS [28]。虽然这些搜索空间均采用单元拓扑，但单元结构的设计各不相同，差异总结请参见附录。细胞如何堆叠以生成最终的神经架构也因论文而异，但NDS通过利用DARTS架构配置来优化搜索空间的对于每个搜索空间，NDS在 CIFAR-10上训练和评估101K架构3.2. 基准评估结果通过使用Kendall为了提高计算效率，我们从每个搜索空间随机抽取1,000个架构进行评估。此外，在计算时，对于哪些批次统计数据必须用于批次归一化（BN）层[20]，似乎还没有达成共识(a)NB-101(b)NB-201（CIFAR1(c)NB-201(d)NB-201（CIFAR100）（ImageNet）(e)NDS-DARTS（f）NDS-ENAS（g）NDS-NASNet(h)NDS-Amoeba秩相关秩相关11865∼NTK。因此，我们测试了PyTorch中可用的Train和Eval模式BN [33]。本节中使用的详细实验设置请参见附录。在图3中，我们报告了仅包括最高等级相关系数ob的简化评估结果。0.60.40.20泽维尔Gauss Xavier Kaiming高斯·泽维尔开明高斯为每个指标获取;附录中提供了所有秩相关测量结果的全面可视化。由于页数限制，NDS-PDARTS上的结果也已移至附录。在NAS-Bench-201上，我们成功地再现了Mean [44]和NCN [4]在其原始论文中报道的秩相关度量。在NAS-Bench-101和NDS搜索空间中，对于所有三个度量，秩相关度显著降低。特别是在NAS-Bench-101和NDS-NASNet中，F-Norm和Mean似乎与最终测试准确度呈负相关，这与其理论动机背道而驰考虑到 NAS-Bench-101 和 NDS 的搜索空间比 NAS-Bench-201的搜索空间更复杂，这样的结果可能会质疑NTK框架是否可以普遍部署到更复杂的搜索空间。我们还注意到，没有一个BN的使用似乎与所有三个指标兼容。例如，一方面，使用固定的批量统计（即，评估模式BN）通常在NAS-Bench-201中产生NCN的高秩相关性。另一方面，在相同的搜索空间中，使用每样本批量统计量（即.训练模式BN）改进了F-范数和均值的秩相关性。这一发现表明，NTK框架本身可能缺乏对BN对现代神经结构的影响的考虑。3.3. 细粒度秩相关评估在上一节中，从每个基准测试中随机抽取了1,000个体系结构，以统一地表示整个体系结构集。我们现在设计了一个更具挑战性的实验，在这个实验中，我们按照降序排列架构，并将它们分成十分位数，用P表示;P1包含Top-10%的架构，P2包含Top- 10%的架构，P3包含Top- 10%的架构，P4包含Top-10%的架构。10%到20%的建筑，等等。从每一个十分位数，对100个架构进行抽样评估。这个经验-该部分允许我们确定基于NTK的标准是否可以通过逐步搜索更好的体系结构来稳定地指导搜索过程这种细粒度的实验在与理论动机相矛盾的搜索空间中不再有效。因此，本节中的实验仅在NAS-Bench-201上进行。我们用20种不同的种子重复这个实验，进行建筑取样，并将结果以盒须图的形式可视化。评价结果请参见附录中的第A6节和图A2、A3和A4。他们认为，在大多数十分位中，基于NTK的指标的预测能力根据用于评估的架构的选择而(a) CIFAR10（b）CIFAR100（c）ImageNet图4.从不同初始化方案获得的NAS-Bench-201上的秩相关评估结果。NCN对初始化方案的变化具有较强的鲁棒性，但高斯初始化会破坏F-Norm和Mean。这些结果意味着用基于NTK的指标指导搜索算法可能无法摆脱局部最优架构，因此可能经常导致不稳定的搜索结果。此外，基于其中架构的错误分布逐步缩小初始搜索空间已成为NAS或一般架构设计中常用的技术[5，19，24，37]。在这样一个细化的搜索空间，只包括高精度架构，基于NTK的度量可能无法识别一个特别好的架构。3.4. 对重量的敏感性考虑到先前的基于NTK的度量总是在初始化时计算的，可以预期权重初始化的选择对NTK计算结果具有不可忽略的影响。我们测试了Xavier [16]、Kaim- ing[18]和高斯初始化如何影响基于NTK的度量。本节中的实验也仅在NAS-Bench-201上进行图4示出了根据不同初始化方案的秩相关性的变化。当使用Xavier和Kaiming初始化时，所有三个度量都显示出一定程度的波动，但是当使用高斯初始化时，令我们惊讶的是，F-范数和均值的秩相关性骤降接近于零。这是一个意想不到的结果，因为NTK框架假设DNN中的参数被初始化为iid高斯，因此它们的函数实现在无限宽度限制中渐近收敛到高斯分布[21]。4. 方法我们推测，在初始化时获得的基于NTK的度量的不可靠性是因为NTK框架中的基础理论假设在现代DNN中被违反。因此，随着训练的进行，从现代DNN导出的NTK可能会以非线性方式演变，在初始化时偏离NTK[15，17，32]。在4.1节中，我们看到NAS中考虑的架构确实表现出高度非线性的特征。然后，在第4.2节中，我们介绍了标签梯度对齐，这是一种新的基于NTK的度量，尚未在NAS中进行研究，并展示了它如何捕获F-Norm平均NCN秩相关11866|−|||Θθ0→ ±|| ||0Θθ02Θθ0Σ--Θθ0|| ·||||·||0NTK相对于靶标记的演变之后，在第4.3节中，我们证实了LGA背后的理论动机，证明了经过少量训练后，LGA显示出有意义的等级提升和测试准确度。详见附件核相关相对核差0 20 40 60 80 100 0 20 40 60 80 100本节中使用的详细实验设置。4.1. NTK的时间演变核相关性测量了时代(a) CIFAR10时代（σ（Θθ0）σ（Θθt））。相关性测量结果为：0 20 40 60 80 100 0 20 40 60 80 100在图5的左侧面板上呈现。对于所有三个数据集，Θθ0和Θθt之间的相关性在初始时期迅速下降，并在一定量的训练后开始稳定，并且这种趋势随着数据复杂性的增长而变得更加明显。时代(b) CIFAR100Epoch0 20 40 60 80 100 0 20 40 60 80 100相对内核差异措施的相对时代时代(c) ImageNetNTK从Θθ0到Θθt的变化：ΘθtΘθ0/Θθ0。核差异测量结果在图5的右侧面板上可视化。我们再次注意到，NTK在初始时期明显偏离Θθ0，但相对差异开始在训练中期饱和。基于相关性和距离测量结果，可以得出一个奇异的结论：主要在NAS中研究的现代神经架构在训练期间表现出高度非线性的行为，因此，这种架构中的NTK经历了大量的内核扭曲。因此，NTK框架（其核心理论结果建立在NTK在整个训练过程中保持不变的假设之上）失去了其信誉，并且NTK在初始化时的特性图5.分析NTK随训练进度的时间演变五个独特的架构，表示不同的颜色线，随机抽样。对于所有三个数据集，核相关性降低，核差异增加。其中R和R分别表示f=argminh∈ HR（h）+r的期望风险和经验风险||H||2，与r>0作为正则化常数。f：Rd1 对应于DNN试图学习的目标函数，fΘθ是该目标函数的RKHS范数。我们可以假设DNN在实现低预期风险时推广良好（8）表明预期风险和经验风险之间的差异随着时间的推移而减小，变得不能准确地表示神经架构的最终测试准确度。这一发现可以解释为与最近的发现一致，术语||F ||2位置，||F ||2变得更小。通过eigendecom-可以重写为：DNN中的非线性优势是允许它们超越其线性内核对应物的原因[15，32]。因此，我们认为，||Θ θ0||Θθ0=1（E）λkKxD [vk（x）f（x）]）2，（9）我们介绍了标签梯度对齐，一种新的基于NTK的度量，它可以捕获神经结构的非线性特征，只需几次训练。4.2. 标签-渐变对齐虽然神经架构其中，λk，vk表示Θθ0的第k个特征值-特征向量对。我们现在可以看到，当目标（或标签）与NTK矩阵的顶部特征向量对齐时，可以预期更好的泛化性能，即。每个样本梯度的可变性的第一主成分。而不是直接计算Eq。（9），Ortiz等人。[32]提供了一个更容易处理的界限，||F||第二章：4 2无法访问的测试数据是不可能的。然而，假设Eq.（1）是精确的，有可能通过以下方式制定DNN的泛化保证：||2/||F||Θ θ 0 ≤ α（f），||Θθ0 ≤ α(f),其中α（f）=Ex，x′<$D[f（x）Θθ0（x，x′）f（x′）]，（十）转移从其线性核等价物计算的泛化边界。在Bartlett等人 [2]中，表明在高概率情况下，以下关系成立：其中Θθ 和2表示RKHS范数，分别是norm。在一个完全监督的环境中，目标函数以类标签的形式定义，目标α（f）中的2′函数f可以用目标标签Y代替，R（f）≤R（f）+O。||F||Θθ0Ex[Θθ0（x，x）]θ0，（8）从而产生：mα（Y）= Y <$θθ0 Y。（十一）11867Θθ0Θθ0−联系我们从这里开始，我们将Y<$θ θ0Y称为LGA，0.8标签梯度对齐。在等式中替换α（f）（10）与α（Y），我们可以看到，||F ||2将增加α（Y）。从0.60.40.20当量（8）很明显，一个小的值||F ||2是预--0.2推迟，以尽量减少预期和实际之间的差距0 13510013510013510经验风险因此，LGA必须是正相关的。（姓名首字母）时代（姓名首字母）时代（姓名首字母）时代与架构的泛化性能相关，因此与其最终测试精度相关。LGA和以前提出的指标之间值得注意的区别是，LGA同时考虑NTK和目标标签。LGA的这种数学公式允许它准确地遵循NTK相对于神经架构试图估计的目标函数的方向Deshpande等人 [10]在(a) CIFAR10（b）CIFAR100（c）ImageNet图6.NAS-Bench-201上的训练后等级相关性评估结果无论数据集如何，LGA的预测性能从初始化开始稳步提高。表1. LGA1与以前基于NTK的指标在各种NAS基准测试中的比较。在等级相关性方面，LGA1在所有基准测试中优于其他指标。基准F-Norm平均NCN LGA1将LGA有效地用于NAS。为了将NTK框架的二进制分类设置扩展到多类分类，NDS-NAS网络0.065 0.037 0.1620.073-0.075 0.1460.4160.357引入了NAS中的标号矩阵LY，其中当xi和xj属于同一类时L Y [ i，j ] = 1，否则LY[i，j]= 1. 为了诱导尺度的不变性，LGA被归一化如下：LGA=（Θθ0−μ（Θθ0））·（LY−μ（LY）），（12）||Θ θ0 − µ（Θθ0）||2||LY− µ（LY）||2其中μ（LY）是LY中元素的平均值。4.3. 基于NTK的培训我们现在重复在第3节中进行的秩相关评估实验，在训练架构t1，3，5，10个时期之后。NAS-Bench-201上的训练后秩相关性评估结果如图6所示。在秩相关性方面，LGA是唯一一个随着训练在所有三个数据集上的进展而呈现稳定改善的指标。在表1中，我们将单个训练时期（LGA1）之后的LGA与在其他NAS基准测试上初始化时获得的基于NTK的独立于基准的选择，LGA1的等级相关性超过了以前的基于NTK的指标。为了更好地理解LGA的这一特征行为，我们分析了高、中、低精度架构的基于NTK的指标在训练过程中如何变化;有关此分析的结果，请参阅图2对于高精度架构，我们观察到LGA激增相反，对于低精度架构，LGA保持静止。虽然其他指标在训练过程中也会发生变化，但它们是以一种毫无意义的方式进行的，无法区分不同数量的非线性NDS-Amoeba0.1570.1580.013零点三九六在高、中、低精度架构中具有优势。该实验分析证明需要LGA中的目标标签来理解NTK如何相对于目标函数旋转和演变如第4.2节所述，通过将目标标签作为锚点的一种类型，LGA可以区分高度可训练的架构和较少可训练的架构，在高度可训练的架构中，目标标签在初始时期逐渐变得与NTK的PRIN-UNR组件更加一致，而较少可训练的架构不会从内核扭曲中受益在没有目标标签的情况下，其他度量无法确定NTK演变的方向，因此，它们无法从训练过程中获得任何有意义的信息。5. 使用LGA为了证明LGA可以用来提高NAS的计算效率，我们将LGA与随机搜索和进化搜索算法相结合。基于第4.1节中的评估结果，使用了3（LGA3）和5（LGA5）个训练时期后的LGA搜索。在随机搜索（RS）中，从搜索空间中抽取100个架构进行评估，并选择具有最大LGA的架构。对于进化搜索（REA），我们采用Real等人的正则化进化搜索算法. [38]第30段。Real等人的正则化方法与朴素的进化算法不同，它更喜欢更新的候选架构。我们使用固定的搜索成本预算在所有三个数据集上进行进化搜索。本节中使用的实验设置和两种检索过程的综合伪代码请参见附录。在表2中，RS和REA的搜索性能F-Norm平均NCN LGA秩相关用于微调的模型选择的上下文灵感来自NAS-Bench-1010.022-0.023 0.0940.308Deshpande等，我们引入额外的程序，NDS-DARTS2019年12月31日0.40811868表2.在NAS-Bench-201上与最先进的NAS算法进行比较对于每个图像数据集单独执行搜索处理。搜索成本以GPU秒为单位报告。我们所有的搜索实验都是在一个NVIDIA Tesla A40 GPU上进行的†：基于NTK的指标进行搜索模型ResNet93.97不适用N/A70.86不适用N/A不适用N/A手动RS [3]93.6393.7293.7293.4991.6788.3293.36216K216K216K216K10K23K22K1 .一、0×1 .一、0×1 .一、0×1 .一、0×21岁6×9 .第九条。4×12个。0×71.2870.7172.1270.8457.9967.3467.60460K460K460K460K46K80K39K1 .一、0×1 .一、0×1 .一、0×1 .一、0×21岁6×五、8×11个国家。7×44.8844.1045.0144.3336.8733.0437.971M1M1M1M104K110K130K1 .一、0×1 .一、0×1 .一、0×1 .一、0×9 .第九条。6×9 .第九条。6×7 .第一次会议。7×随机[51]第五十一话RLREA [38]EABOHB [14]HPORSPS [25]RS+WSDARTS [29]梯度GDAS [12]梯度NASWOT [30]†TE-NAS†KNAS（k=2）†KNAS（k=5）92.9693.9093.0593.422.2K2.2K4.2K10.8K100×100×50×20×70.0371.2468.9171.424.6K4.6K9.2K23K100×100×50×20×44.4342.3834.1145.3510K10K20K50K100×100×50×20×随机基于剪枝的随机†RS + LGA393.6494.0394.3093.943.6K5.4K3.6K5.4K60×40×60×40×69.77 5K71.56 7K71.18 3.6K72.425.4K92×66×127×85×45.0346.3045.3045.1710.1K15K3.6K5.4K99×67×277×185×随机†RS + LGA5随机†REA + LGA3EA†REA + LGA5EA最优94.3773.5147.31N/A与LGA3和LGA5相比，与其他国家的最先进的NAS算法。我们想强调的是，对于RS和REA，除了LGA之外，没有其他信息用于评估架构。具有LGA3或LGA5的RS优于基于初始化时获得的其他基于NTK的度量的搜索算法;TE-NAS [4]和KNAS [44]分别利用CN和Mean。考虑到TE-NAS和KNAS在搜索期间依赖于一些外部信号，该结果特别令人印象深刻; TE-NAS利用更复杂的搜索算法和另一使用LGA3或LGA5的REA也达到了具有竞争力的测试精度，更重要的是，它的搜索成本远远低于CIFAR-100和ImageNet-16-120上的其他搜索算法。总的来说，尽管引入了一定量的训练，LGA3和LGA5似乎是高度胜任和计算效率高的标准。最后，我们表明，LGA可以更广泛地应用结果和实验细节见附录。6. 总结发言本文的技术和实验贡献主要是三方面的。首先，通过对基于NTK的指标进行更广泛和更细粒度的评估，我们发现NTK框架的当前形式可能并不像以前认为的那样是NAS的可靠理论框架。其次，通过对NTK时间演化的实证分析，我们证明了上述限制的发生是因为在现代神经结构中，NTK在训练过程中以高度非线性的方式演化，在初始化时显著偏离NTK。第三，当补充少量训练时，LGA（首次在这项工作中引入）成为测试准确性的强有力预测因素，因为其固有的理论动机可以体现现代神经结构的非线性特征，而其他基于NTK的指标对此视而不见。将LGA集成到现有的搜索算法中，为它作为测试准确性的计算有效预测器的有效性提供了进一步的经验支持我们在附录中讨论了我们工作的局限性和社会影响确认这项工作得到了韩国政府（MSIT）资助的信息通信技术规划评估研究所（ IITP ）资助 [NO.2021- 0-01343，人工智能研究生院计划（首尔国立大学）]，首尔国立大学2022年未来ICT Pio- neers教育和研究计划的BK 21 FOUR计划，现代汽车公司起亚公司的AIRS公司通过HMC/KIA-SNU AI财团基金，以及SNU-Naver Hy- perscale AI中心的支持。CIFAR-10CIFAR-100ImageNet-16-120搜索Acc.成本提速Acc.成本提速Acc.成本提速方法11869引用[1] Mohamed S Abdelfattah ， Abhinav Mehrotra ， KukaszDudziak，and Nicholas Donald Lane.用于轻量级nas的零成本代理。在2020年国际学习代表会议上。2[2] 彼得·L·巴特利特和沙哈尔·门德尔松。Rademacher和高斯复杂性：风险界限和结构结果。Journal of MachineLearning Research，3（Nov）：463-482，2002. 6[3] James Bergstra和Yoshua Bengio。超参数优化的随机搜索。Journal of Machine Learning Research，13（2），2012. 8[4] 陈舞阳、新余公、张阳王。Imagenet上的神经结构搜索在四个GPU小时内：一个理论启发的视角。在2020年国际学习代表会议上。二三四五八[5] 陈香宁，王若尘，程敏浩，唐晓成，谢卓瑞。Drnas：Dirichlet神经结构搜索。在2020年的学习代表国际会议上。一、五[6] Yaofo Chen ， Yong Guo ， Qi Chen ， Minli Li ， WeiZeng，Yaowei Wang，and Mingkui Tan.使用神经结构比较器进行对比神经结构搜索。在IEEE/CVF计算机视觉和模式识别会议上，第9502-9511页，2021年。2[7] Patryk Chrabaszcz ， Ilya Loshchilov 和 Frank Hutter 。imagenet的下采样变体作为ci- far数据集的替代。arXiv预印本arXiv：1707.08819，2017。4[8] Xiangxiang Chu，Tianbao Zhou，Bo Zhang，and JixiangLi.公平DARTS：消除差异化体系结构搜索中的不公平优势。2020年欧洲计算机视觉会议。1[9] Boyang Deng，Junjie Yan，and Dahua Lin.窥视孔：在训练前预测网络性能. arXiv预印本arXiv：1712.03351，2017。2[10] Aditya Deshpande ， Alessandro Ravichan- dran ， HaoLi，Luca Zancato，Charless Fowlkes，Rahul Bhotika，Stefano Soatto，and Pietro Perona.一个线性化的框架和一个新的基准模型选择微调。arXiv预印本arXiv：2102.00084，2021。7[11] 董轩逸和杨毅。Nas-bench-201：扩展可再现神经结构搜索的范围。在2019年国际学习代表会议上。4[12] 董轩逸和杨毅。在4个GPU小时内搜索一个强大的神经在IEEE计算机视觉和模式识别会议论文集，第1761-1770页，2019年。1、8[13] Thomas Elsken，Jan Hendrik Metzen，and Frank Hutter.Neural Architecture Search：A Survey. 机器学习研究杂志，20（1）：1997-2017，2019。1[14] Stefan Falkner Aaron Klein和Frank HutterBohb：大规模鲁棒高效的超参数优化。国际机器学习会议，第1437-1446页。PMLR，2018。8[15] Stanislav Fort ， Ginjiang Karolina Dziugaite ， MansheejPaul，Sepideh Kharaghani，Daniel M Roy，and SuryaGanguli.深度学习与内核学习：一项实证研究损失景观几何和神经正切内核的时间演化神经信息处理系统的进展，33，2020。二、五、六[16] 泽维尔·格洛特和约舒亚·本吉奥了解训练深度前馈神经网络的困难。在第十三届人工智能和统计

下载后可阅读完整内容，剩余1页未读，立即下载