顺序贪婪架构搜索:解决深度学习架构泛化问题的高效方法

162 浏览量更新于2023-10-25 收藏 12.1MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

123456789104612310589742781510963859643711022316874510916200SGAS: 0https://www.deepgcns.org/auto/sgas0Guohao Li � 1 , Guocheng Qian � 1 , Itzel C. Delgadillo � 1 , Matthias M¨uller 2 , Ali Thabet 1 , Bernard Ghanem 101 King Abdullah University of Science and Technology (KAUST), SaudiArabia 2 Intelligent Systems Lab, Intel Labs, Germany0摘要0架构设计已成为成功的深度学习的关键组成部分。最近在自动神经架构搜索（NAS）方面取得的进展显示出很大的潜力。然而，发现的架构在最终评估中往往无法泛化。在搜索阶段具有更高验证准确性的架构在评估中可能表现更差（参见图1）。为了缓解这个常见问题，我们引入了顺序贪婪架构搜索（SGAS），这是一种用于神经架构搜索的高效方法。通过将搜索过程分解为子问题，SGAS以贪婪的方式选择和修剪候选操作。我们将SGAS应用于卷积神经网络（CNN）和图卷积网络（GCN）的架构搜索。广泛的实验证明，SGAS能够以最小的计算成本找到用于图像分类、点云分类和蛋白质相互作用图中节点分类等任务的最先进架构。01. 引言0深度学习通过直接从数据中学习特征，彻底改变了计算机视觉。因此，深度神经网络在许多困难任务上取得了最先进的结果，例如图像分类[13]、目标检测[30]、目标跟踪[37]、语义分割[11]、深度估计[15]和活动理解[7]等。在深度学习之前，特征工程是非常重要的，但现在的重点已经转向了架构工程。特别是提出了许多新颖的架构，如LeCun[26]、AlexNet [25]、VGG [44]、GoogLeNet[46]、ResNet [18]、DenseNet [21]、ResNeXt[54]和SENet[20]。每个任务的结果都通过架构设计的创新而不断改进。实质上，社区已经从特征工程转向了架构工程。0� 相等贡献0搜索排名SGAS（标准1）0评估排名0SGAS（标准2）0DARTS（一阶）0DARTS（二阶）00.56 0.42 0.16 -0.29 Kendall �0平均准确率97.15 97.18 97.34 97.330图1. 搜索评估Kendallτ系数的比较。我们展示了DARTS和SGAS的搜索和评估阶段之间的架构排名的Kendallτ相关性。架构是从10个独立的搜索运行中获得的。0近年来，为了获得特定任务的更好模型，已经进行了许多努力来减少手动干预。事实上，为了解决这些问题，出现了一种被称为元学习的新研究领域。元学习的思想是利用先前的经验，快速找到新学习任务的良好算法配置、网络架构和任何所需的参数。最近的元学习方法的例子包括自动超参数搜索[14]、数据增强[12]、寻找新型优化器[2]和架构搜索[62]。特别是架构搜索引起了社区的很大兴趣。在这个任务中，搜索空间很大，手动搜索是不可行的。0Zoph等人的早期工作[62]基于强化学习，已经显示出非常有希望的结果。然而，其高计算成本阻碍了广泛采用。最近，提出了可微分架构搜索（DARTS）[33]作为一种替代方法，使架构搜索可微分且更加高效。这为计算可行的架构设计开辟了一条道路。¯o(i,j)(x(i)) =o∈O �16210然而，尽管这些方法取得了成功，但目前的方法仍然存在许多限制。在搜索阶段，网络架构通常是由基本构建块构建并在验证集上进行评估的。由于计算成本的限制，所考虑的架构的规模是有限的。在评估阶段，最佳的构建块被用来构建更大的架构，并在测试集上进行评估。因此，在搜索期间的验证准确性和评估期间的测试准确性之间存在很大的差异。在这项工作中，我们提出了一种新颖的贪婪架构搜索算法SGAS，它解决了这种差异，并且搜索非常高效。0贡献。我们的贡献可以总结如下：(1)我们提出了SGAS，一种贪婪的神经架构搜索方法，在搜索阶段的验证准确性与最终评估准确性之间具有很高的相关性。(2)我们的方法比以前的DARTS等最先进的方法具有更少的搜索成本，能够发现性能最佳的架构。(3)我们提出的方法能够在各种数据集和任务上搜索CNN和GCN的架构。02. 相关工作0在过去，手工设计的架构取得了相当大的成功。最早成功的架构之一是LeNet[26]，这是一个非常简单的卷积神经网络，用于光学字符识别。其他著名的网络包括AlexNet [25]，VGG[44]和GoogLeNet [46]，它们通过在ImageNet[13]挑战中远远超过所有先前方法而彻底改变了计算机视觉。ResNet [18]和DenseNet[21]是架构设计的进一步里程碑。它们展示了残差连接和密集连接对设计非常深的网络的重要性，这一洞察力至今影响着现代架构设计。直到最近，架构创新是人类洞察力和实验的结果。最早成功的架构搜索尝试使用强化学习[62]和进化算法 [40]。这些工作通过NASNet[63]进行了扩展，其中提出了一个新的基于单元的搜索空间和正则化技术。另一个扩展，ENAS[38]，将整个搜索空间表示为一个单一的有向无环图。一个控制器通过搜索最大化验证集上预期奖励的子图来发现架构。这种设置允许子模型之间进行参数共享，使搜索非常高效。此外，PNAS[31]引入了一种顺序模型优化（SMBO）策略，以搜索逐渐复杂的结构。与NASNet相比，PNAS需要评估的模型数量减少了5倍，计算成本降低了8倍。然而，PNAS仍然需要数千个GPU小时。一次性方法0[6, 5,8]通过训练一个具有继承/共享权重的过参数化网络来进一步减少搜索时间。为了在连续域中进行搜索[41, 1, 43,50]，DARTS[33]提出了架构表示的连续松弛，使得架构搜索可微分，因此更加高效。因此，DARTS能够以较小的计算成本找到良好的卷积架构，使得NAS广泛可行。由于DARTS的巨大成功，最近提出了几种扩展。SNAS[55]优化了单元搜索空间的联合分布的参数。作者提出了一个搜索梯度，它优化了与基于RL的NAS相同的目标，但导致更高效的结构决策。P-DARTS[9]试图解决搜索和评估之间的深度差距问题。这是通过在训练过程中逐渐增加搜索架构的深度来实现的。PC-DARTS[58]利用网络空间中的冗余，并且在搜索过程中只对超网络中的一部分通道进行采样以减少计算量。03. 方法论03.1. 初步 - DARTS0通过将搜索问题简化为搜索最佳细胞结构，基于细胞的NAS方法[63, 31,40]能够学习可扩展和可迁移的架构。网络由具有相同细胞结构但不同权重的层组成。细胞通常表示为具有 N个节点的有向无环图（DAG），包括两个输入节点、若干中间节点和一个单一输出节点。每个节点是一个潜在表示，表示为 x ( i )，其中 i是其在DAG中的拓扑顺序。DAG中的每个有向边 ( i, j ) 与一个操作 o ( i,j ) 相关联。0将信息从节点 x ( i ) 传递到节点 x ( j ) 的操作 o ∈O exp( α( i,j ) o )。在可微分架构搜索（DARTS）[33]及其变体[55,9, 58,17]中，最优架构是通过将操作的选择从离散搜索空间松弛为连续优化问题来得到的。在搜索阶段，每个边的操作由架构参数 α ( i,j ) 参数化，作为操作空间 O 中所有可能操作的softmax 混合。0o ′ ∈O exp( α ( i,j ) o ′ ) o ( x ( i ))。输入节点由前两个细胞的输出表示。每个中间节点聚合来0节点由前两个细胞的输出表示。每个中间节点聚合来自所有0i

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

顺序贪婪架构搜索: 解决深度学习架构泛化问题的高效方法

最新资源

顺序贪婪架构搜索: 解决深度学习架构泛化问题的高效方法

一种改进的深度神经网络结构搜索方法

提高深度学习模型泛化能力的方法

如何提高深度学习模型的泛化能力

怎么解决深度学习模型学习率低迭代速度慢的问题

在如今提倡深度学习模型的泛化性和健壮性的趋势下，研究模型的敏感性，是否是种不太合适或者没有实际意义的问题

如何提升深度学习模型的泛化能力

6. 与传统机器学习方法相比，深度学习的优势有哪些

什么是深度学习有什么特点

深度学习有望攻克的技术难点

深度学习模型泛化能力差怎么提升

与传统机器学习方法相比，深度学习的优势在于

传统图像分割方法与深度学习图像分割方法的区别

深度学习有哪些局限？

对深度学习未来发展的看法

基于深度学习的图像分割算法的优点

深度学习：给出python深度学习对于图像识别动物种类应用案例，要求用到多种深度学习方法，并给出相较于传统算法的优势

近年来处理医学图像增强的深度学习方法发展趋势和存在的问题

深度学习与传统的机器学习方法相比的优势，详细一点

深度学习学习到的特征与传统的特征的区别

深度学习模型泛化能力的理论基础

最新资源