IRLAS：逆强化学习用于架构搜索

44 浏览量更新于2023-10-18 收藏 14.43MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

190210IRLAS：逆强化学习用于架构搜索0郭明浩SenseTime研究0guominghao@sensetime.com0钟钊中国科学院自动化研究所中国科学院大学0zhao.zhong@nlpr.ia.ac.cn0吴伟 SenseTime研究0wuwei@sensetime.com0林达华香港中文大学0dhlin@ie.cuhk.edu.hk0严俊杰SenseTime研究0yanjunjie@sensetime.com0摘要0在本文中，我们提出了一种逆强化学习方法用于架构搜索（IRLAS），它训练一个代理来学习搜索人类设计网络所启发的拓扑结构。大多数现有的架构搜索方法完全忽视了架构的拓扑特性，这导致了具有高推理延迟的复杂架构。受到人类设计网络在拓扑上优雅且具有快速推理速度的启发，我们提出了一种受生物认知理论启发的镜像刺激函数，用于提取专家人类设计网络（ResNet）的抽象拓扑知识。为了避免对搜索空间产生过强的先验，我们引入逆强化学习来训练镜像刺激函数，并将其作为架构搜索的启发式指导，可以轻松推广到不同的架构搜索算法。在CIFAR-10上，我们提出的IRLAS搜索到的最佳架构达到了2.60%的错误率。对于ImageNet移动设置，我们的模型达到了75.28%的最高准确率，同时比大多数自动生成的架构快2-4倍。该模型的快速版本比MobileNetV2快10%，同时保持更高的准确性。01. 引言0过去几年来，卷积神经网络在计算机视觉应用中取得了显著的成功。得益于网络架构的进步，例如ResNet[11]，Inception [28]和DenseNet[15]，在诸多关键任务（如图像分类、目标检测和语义分割）上的性能已经达到了令人惊叹的水平。然而，网络设计改进的每一步都需要付出巨大的努力。0图1.不同架构的拓扑结构。人类设计的架构比现有的自动生成的架构拥有更简单、更优雅的拓扑结构。我们的IRLAS旨在通过人类设计的网络来搜索拓扑优雅的架构。（a）ResNeXt [32]；（b）NASNet[37]；（c）我们的IRLAS找到的最佳架构。0这需要经验丰富的专家付出大量努力，并且需要很长时间。这已经构成了进一步进展的重要障碍。0自然地，自动找到适合给定任务的网络架构成为一种替代选择，并在近年来越来越受到关注。在这个方向上，已经开发了许多网络搜索方法，包括进化[26,31]、基于代理模型的搜索[18, 21]和强化学习[36, 37, 34,4]。尽管这些方法已经显示出有希望的结果，并找到了超过专家设计的新架构，但它们仍然存在一个严重的限制-自动生成的网络通常具有相当高的推理延迟，使得它们难以在计算能力有限的实际系统上部署。造成这个问题的一个重要原因是自动生成的结构通常过于复杂，正如[20]中观察到的那样，这往往会对运行时效率产生不利影响。虽然已经有尝试[29]将延迟信息纳入考虑中290220为了引导搜索，问题尚未得到有效解决-搜索算法本身仍然遵循预定义的网络模式构建方式，例如像NASNet[37]中递归扩展树结构一样，没有对网络拓扑强制执行任何明确的指导。0在这项工作中，我们旨在探索一种明确考虑拓扑结构的新方法。我们的努力受到一个观察的启发，即人工设计的网络通常拓扑结构简单，如图1所示，特别是与自动生成的网络相比，并且往往在准确性和效率之间取得更好的平衡。这些设计通常基于社区多年来共同努力获得的丰富经验，这些经验是宝贵的资源，在搜索过程中应该加以利用。0具体而言，我们提出了一种逆向强化学习方法用于架构搜索（IRLAS）。该方法的核心是通过逆向强化学习学习到的镜像刺激函数。这个函数被期望奖励那些与专家设计的网络拓扑结构相似的架构。在搜索过程中，代理根据这个函数提供结构指导，以生成具有理想架构的网络，类似于专家设计的网络。这种方法有两个好处：（1）虽然搜索接受来自镜像刺激函数的指导，但并不受限制。代理被允许探索而不仅仅是复制专家的设计。（2）镜像刺激函数是通用的，并且与搜索空间和策略的设计是正交的。因此，它可以很容易地推广到不同的搜索设置。在CIFAR-10 [16]和ImageNet[8]上，IRLAS能够找到产生高准确性并保持低推理延迟的新架构。0我们的贡献总结如下：1）我们提出了一种镜像刺激函数，可以根据从专家设计的网络中学到的知识为架构搜索提供拓扑指导。这个函数可以很容易地推广到不同的架构搜索算法。2）我们引入逆向强化学习算法来训练镜像刺激函数，帮助代理在大的搜索空间中高效探索，而不会过度受限制。3）我们通过IRLAS搜索得到的网络与给定的专家网络在拓扑上相似，并且在准确性和推理速度上显示出竞争力，与最先进的人工设计和自动生成的网络相比。在CIFAR-10上，我们提出的IRLAS搜索到的最佳架构达到了2.60%的错误率。在ImageNet移动设置上，我们的模型达到了75.28%的最高准确率，同时比大多数自动生成的架构快2�4倍。这个模型的快速版本比MobileNetV2快10%，同时保持更高的准确性。02. 相关工作02.1. 神经架构搜索0神经架构搜索主要关注于在给定的架构空间中自动搜索有效的神经拓扑结构。现有的架构搜索方法主要可以分为三类：进化方法、替代模型搜索和强化学习。进化方法[10, 31,24]旨在同时演化神经网络的拓扑结构、权重和超参数，以演化一组网络。早期的进化方法利用遗传算法来优化架构和权重，而最近的研究则分别利用基于梯度的方法和进化算法来优化权重和架构。替代模型搜索方法[18, 5,21]利用顺序模型优化作为参数优化的技术。典型的方法如PNAS[18]对神经架构搜索空间进行了渐进式扫描，根据先前迭代的最新技术进行了约束。[21]中的EPNAS通过在采样的架构之间共享权重进一步提高了搜索效率。然而，这些方法在每次迭代中贪婪地选择前K个架构，可能导致在搜索空间上得到次优解。强化学习（RL）方法[4, 36, 34, 37,24]将神经架构的生成视为代理行为，其空间与架构搜索空间相同。代理的奖励是训练架构在未见数据上的性能。不同的RL方法之间的差异在于代理策略的表示和如何优化它。例如，[36]使用循环神经网络（RNN）来采样编码神经架构的字符串序列。使用REINFORCE和Proximal PolicyOptimization（PPO）等策略梯度算法来训练代理。[4]和[34]使用Q-learning来训练一个策略，依次选择层的类型和相应的超参数。还有一些其他基于RL的方法，通过增量地转换现有的架构来避免从头开始生成整个网络，例如[6]。然而，这些方法不能访问相同的架构两次，因此需要策略对架构空间进行强大的泛化。与直接使用现有架构作为初始化不同，我们的IRLAS旨在学习一个镜像刺激函数，并将其作为启发式指导在搜索过程中使用，而不对搜索空间施加任何限制。还存在最近的努力[19]引入了一个实值架构参数，与权重参数一起进行联合训练。与其他方法不同，这种算法在搜索过程中不涉及架构采样。我们的镜像刺激函数可以390230图2.我们IRLAS的流程。我们提出了一个镜像刺激函数来提取专家的拓扑特征的抽象表示。网络的拓扑结构被转换为状态特征编码，作为镜像刺激函数的输入。在代理的搜索过程中，镜像刺激函数被用作启发式指导，生成理想的类似人类设计的网络。逆强化学习被用来训练镜像刺激函数，帮助代理在不受过度限制的情况下高效地探索大的搜索空间。0也可以推广到这些方法的分支。02.2. 模仿学习0由于我们提出的IRLAS试图生成与人类设计的网络拓扑相似的架构，因此代理的学习涉及到模仿学习问题。模仿学习（IL）使代理能够从专家的示范中学习，独立于所提出任务的任何具体知识。IL有两个不同的领域：策略模仿和逆强化学习。策略模仿，也称为行为克隆，直接学习从感知环境或预处理特征到代理动作的策略映射。对于本文的设置，由于人类设计的网络数量有限，很难获得足够数量的专家状态-动作元组进行监督学习。因此，直接的策略模仿不能用于我们的目的。逆强化学习（IRL）是指从观察到的行为中推导出奖励函数的问题。由于奖励函数是任务的简洁、稳健和可传递的定义的共同假设，IRL提供了比策略模仿更有效的IL形式。IRL的早期研究[3, 35,23]假设专家试图优化一个未知的奖励函数，该函数可以表示为预先确定的特征的线性组合。[7]将这种方法扩展到了一组有限的非线性奖励，并学会构建逻辑合取的组合来表示原子特征。其他灵活的非线性函数逼近器，如高斯过程，进一步扩展了IRL模型的建模能力[17]。在本文中，我们假设专家网络的奖励函数0作为状态特征的线性参数化。实验证明，这种简单的假设足以提取人类设计架构的拓扑知识。03. 方法0在本节中，我们首先提出了架构搜索的问题阐述。然后，我们提出了受生物认知启发的镜像刺激函数及其通过逆强化学习的训练过程。最后，我们详细介绍了搜索空间和搜索算法。我们IRLAS的流程如图2所示。03.1. 问题阐述0与现代CNN类似，我们的自动神经网络过程设计的是每个块的拓扑结构，而不是整个网络。这种块级设计对于不同的数据集和任务具有更灵活的适应性和强大的泛化能力。代理的任务是从层候选池中顺序采样层，形成块。然后，块结构按顺序堆叠以形成完整的网络。对于不同的数据集，由于输入图像大小不同，我们手动选择不同数量的下采样操作，并选择块的重复次数以满足参数或FLOPs的限制要求。在本文中，我们将网络拓扑的设计过程视为一种可变长度的决策序列，用于选择操作。这个顺序过程可以被形式化为马尔可夫决策过程（MDP）。策略π：S→A，其中S是状态空间，A是动作空间，决定了代理的行为偏好。TFtopology(m) =T490240生成架构的过程中，状态s∈S表示当前层的状态，动作a∈A表示对后续层的决策。因此，代理采样的架构m可以根据策略π确定为一个状态-动作轨迹，即m = {(st,at)}t=1...T。代理的训练是为了最大化所有可能架构的预期奖励，0Jπ = Eπ[R(m)], (1)0其中R(∙)是奖励函数。R(m)的常见定义是相应网络的验证准确率。这个奖励函数的制定基于一个假设，即对架构的评估仅由其验证性能决定，完全忽略了拓扑信息。03.2. 拓扑知识0由于人类设计的架构在实践中被证明是有效的，我们尝试利用这些丰富的拓扑知识作为架构搜索的有效指导。然而，如何形式化抽象的拓扑知识并设计一种适当的方法进一步利用它来进行搜索是一个具有挑战性的问题。例如，ResNet中块的快捷连接是一种可引用的架构结构。人类可以通过可视化简单地理解拓扑结构，而代理无法做到这一点。如果代理甚至无法理解拓扑结构，那么它学习搜索类似于ResNet的架构将变得更加困难。这自然引出了两个基本问题：1）如何对网络架构进行编码，以提取抽象的拓扑知识作为代理的可用输入？2）如何利用这些知识来指导代理设计出理想的架构？对于第一个问题，我们需要定义一个网络架构的特征嵌入。为了对架构进行编码，我们精心选择了一个状态特征函数φ：S→Rk×1，其中包括：操作类型、内核大小和当前层的两个前任层的索引（对于只有一个前任层的层，其中一个索引设置为零）。尽管简单，这个状态特征函数提供了对网络架构的完整描述，包括每个层所执行的计算以及层之间的连接方式。我们进一步利用特征计数来统一每个状态特征的信息，以获得整个架构的特征嵌入。给定架构的顺序轨迹m = {(st, at)}t=1...T，特征计数定义为：0µ =0t =1 γ t φ ( s t ) , (2)0其中γ表示一个折扣标量。因此，顺序也通过折扣γ覆盖了层索引。特征计数被用作给定网络的拓扑知识的适当编码。至于代理如何将拓扑知识用作引导，这涉及到经典的探索-利用权衡。我们尝试让代理搜索与专家网络在拓扑上相似的架构，同时高效地探索架构搜索空间。这要求搜索算法对特定架构没有偏好，因为我们不希望代理复制人类设计的网络。直接在采样架构和专家网络的特征计数之间进行策略模仿会在搜索空间上产生强大的先验，并迫使代理“模仿”专家，这不符合我们的期望。03.3. 镜像刺激函数0为了解决这个问题，我们设计了一个镜像刺激函数，称为F拓扑，旨在在不对搜索空间施加强硬限制的同时，软性地引导代理。镜像刺激函数的设计灵感来自灵长类动物前运动皮层中的镜像神经元系统。这个系统负责将自我生成和观察到的示范相连接。当动物执行某个动作时，镜像神经元会同时激活，当动物观察到另一个动物执行相同的动作时也会激活，这是通过模仿学习新技能的重要机制。在我们的问题中，镜像刺激函数与镜像神经元具有类似的功能。给定代理生成的架构作为自我生成的示范，专家网络作为观察到的示范，我们的镜像刺激函数将输出一个信号来判断这两个网络之间的拓扑相似性。输出越高表示相似性越高，对于完全相同的专家网络输出最高。镜像刺激函数被定义为特征计数的线性函数：0F topology ( m ) = w T ∙ µ, (3)0其中 w ∈ R k × 1。这样的线性参数形式易于优化，同时足够有效地用作拓扑结构的评估，正如我们在实验中进一步展示的那样。通过将方程2代入方程3，我们可以得到：0t =1 γ t ∙ w T ∙ φ ( s t ) . (4)0因此，解决参数 w的问题可以被视为寻找一个时间步骤奖励函数 r ( s t ) = wT ∙ φ ( s t ) ，其对应的策略在专家网络序列（即 Ftopology ( m � ) ， m � = { ( s � t , a � t ) } t =1 ...T表示）上具有最大值的问题。Jπ∗ = Eπ∗[T�t=1γtr(st)] = wT · Eπ∗[T�t=1γtφ(st)]= wT · Eπ∗[µ] = wT · Mπ∗.(5)|Jˆπ − Jπ∗| = |wT · Mˆπ − wT · Mπ∗| ≤ ǫ.(6)maxw:∥w∥2≤1 min∀ˆµ wT · Mπ∗ − wT · Mˆπ.(7)maxδ,wδ(8)590250算法1 逆强化学习的最大间隔优化0设 i = 1 ，随机选择策略 ˆ π 0 ，计算 ˆ M 0；重复计算优化问题（方程8）中的 δ ( i ) ，其中 { ˆ M } = { ˆM j , j = 0 ...i − 1 } ，得到 w ( i ) ， δ ( i )；使用标准强化学习算法，找到最优策略 ˆ π i ，其奖励函数为r ( i ) ( s ) = ( w ( i ) ) T ∙ φ ( s ) ；计算 ˆ M i ； i = i + 1；直到 δ ( i ) ≤ � ，返回 w ；0专家网络）。这涉及到标准的逆强化学习问题。为了找到这样一个奖励函数，我们使用了[3]中提出的特征匹配算法。对于专家网络，其架构是根据专家策略 π �生成的，该策略在以下表达式中具有最大值：0由于我们有一个专家网络，可以估计 M π � 为 M π � = Eπ � [ µ ] ≈ µ � = � T t =1 γ t φ ( s � t )。为了得到未知奖励函数 r ( s t ) 的权重参数 w，我们需要找到一个性能接近专家的策略 ˆ π ：0这个过程可以被视为在镜像神经元系统中‘模仿’观察到的行为，使得自动生成的演示（视为 J ˆ π）与观察到的演示（视为 J π �）相似。因此，问题被简化为寻找一个策略 ˆ π，使得其引起的特征计数期望 M ˆ π 接近 M π �。这个特征匹配问题可以通过最大间隔优化来解决，推导为：0因此，权重参数 w 的优化遵循以下规则：0s.t. w T ∙ M π � ≥ w T ∙ M ˆ π + δ, � ˆπ ∥ w ∥ 2 ≤ 1 .0详细算法见算法1。在代理的训练阶段，我们将镜像刺激函数的输出作为额外的奖励项。第3.1节中的完整奖励函数计算如下：0R ( m ) = F 准确率 ( m ) + λF 拓扑结构 ( m ) , (9)0其中 F 准确率 ( m ) 表示模型 m在目标任务上的准确率百分比， λ表示平衡标量。通过优化这个多目标搜索问题，代理同时受到拓扑相似性和准确率的引导。因此，代理可以高效地探索搜索空间，生成高速、拓扑优雅的架构，并具有高准确率。03.4. 搜索空间和训练策略0本节中，我们介绍了IRLAS的搜索空间和训练策略。在第3.5节中，我们将进一步讨论将我们的镜像刺激函数推广到其他典型架构搜索方法的问题。在我们的IRLAS中，搜索空间由基于CNN文献中普遍存在的操作组成。考虑的操作有：深度卷积（卷积核大小为1 × 1、3 × 3、5 ×5）、最大池化（卷积核大小为3 × 3、5 ×5）、平均池化（卷积核大小为3 × 3、5 ×5）、恒等操作、元素相加（两个输入层）和连接（两个输入层）。需要注意的是，深度卷积操作是指包含ReLU、卷积和批归一化的预激活卷积。搜索块中没有后继的所有层都被连接在一起作为最终输出。在搜索阶段，我们利用Q-learning方法训练代理以采取最大化累积奖励的行动，其公式化为方程9。Q-learning迭代地根据贝尔曼方程更新行动选择策略：0Q ( s t , a t ) = r t + γ max a ′ Q ( s t +1 , a ′ ) , (10)0其中 r t 表示当前状态 s t 的中间奖励。由于无法明确测量 rt ，因此使用奖励塑形方法，推导得到 r t = R ( m ) /T，其中 T表示状态长度，即层数。根据时序差分控制算法，得到贝尔曼方程：0Q ( s t , a t ) =(1 − η ) Q ( s t , a t )0+ η [ r t +1 + γ max a ′ Q ( s t +1 , a ′ )], (11)0其中η表示学习率。整个学习过程总结如下：代理首先采样一个网络架构，将其作为镜像刺激函数的输入。然后，在某个任务上训练生成的网络以获得验证准确性。奖励是准确性和镜像刺激函数输出值的组合，用于更新Q值。上述过程循环迭代，并且代理学会迭代地采样具有更高准确性和更优雅拓扑结构的块结构。k=1pkFtopology(mk)k=1Ftopology(mk)∇log(pk),(12)Resnet [11]1.7M6.61Resnet (pre-activation) [12]10.2M4.62Wide ResNet [33]36.5M4.17DenseNet (k=12) [15]1.0M5.24DenseNet (k=12) [15]7.0M4.10DenseNet (k=24) [15]27.2M3.74DenseNet-BC (k=40) [15]25.6M3.46MetaQNN (top model) [4]11.2M6.92NAS v1 [36]4.2M5.50EAS [6]23.4M4.23Block-QNN-A, N=4 [34]-3.60Block-QNN-S, N=2 [34]6.1M3.30NASNet-A (6 @ 768) [37]3.3M2.65NASNet-B (4 @ 1152) [37]2.6M3.73NASNet-C (4 @ 640) [37]3.1M3.59PNASNet-5 [18]3.2M3.41ENAS [22]4.6M2.89AmoebaNet-A [24]3.2M3.34DARTS [19]3.4M2.83IRLAS3.91M2.60IRLAS-differential3.43M2.716902603.5. 镜像刺激函数的泛化0值得指出的是，我们的镜像刺激函数可以很容易地推广到不同的架构搜索算法。对于涉及架构采样和对采样架构进行性能评估的算法，包括基于强化学习的方法和进化方法，我们可以简单地利用方程9的输出作为评估的替代，而其他搜索步骤与原始算法保持相同。唯一的区别在于状态特征函数φ(s)的表达式，由于不同算法的搜索空间中存在不同的候选操作，因此需要进行修改。因此，在搜索过程中考虑了拓扑信息。对于可微架构搜索算法，例如DARTS[19]，架构由一组连续变量α = {α{i,j}}（(i,j)表示一对节点，即架构中的路径）编码。因此，权重参数和架构参数可以通过标准梯度下降一起训练。为了将拓扑信息引入到可微架构搜索算法的训练过程中，我们通过镜像刺激函数计算出一个额外的损失项Ltopology，将其添加到原始交叉熵损失中。为了将连续的α转换为离散的架构，我们将α的softmax输出视为所有可能架构的概率分布，表示为{pk}，并根据分布进行采样以获得状态特征φ(s)。由于从架构参数α到状态特征φ(s)的转换是不可微的，镜像刺激函数的输出无法进行反向传播。在这里，我们考虑基于REINFORCE算法[30]的解决方案，因此损失项L topology 被计算和更新为：0L topology =0K0� L topology ≈ 10K0其中 K 是采样架构的数量。04. 实验和结果04.1. 实现细节0本节中，我们介绍了我们的IRLAS的实现细节。我们使用了一个分布式异步框架，如[34]中提出的，它可以在多台机器上使用多个GPU进行高效的网络生成。借助这个框架，我们的IRLAS可以并行采样和训练网络，加速整个训练过程。对于逆强化学习过程，我们使用了ResNet，其中卷积操作被修改为深度卷积。0表1.IRLAS在CIFAR-10数据集上与最先进方法的结果对比。“错误”是CIFAR-10测试集上的top-1错误率，“参数”是模型参数数量。0方法参数错误率(%)0选择IRLAS作为专家网络来计算镜像刺激函数中的权重w。训练过程在CPU上大约需要3小时。对于我们的IRLAS，我们选择Q值表作为代理。我们使用带有ε-贪心和经验回放缓冲区的Q学习。在每次训练迭代中，代理从内存中随机抽样64个结构及其相应的奖励，根据公式11更新Q值。对于Q学习过程的超参数，学习率η设置为0.01，折扣因子γ为0.9，平衡标量λ为30。小批量大小设置为64，块的最大层索引设置为24。代理经过180次迭代训练，总共采样了11,500个块。每个采样的架构都使用Adam优化器进行固定的12个epoch的训练，以获得F准确性的评估。我们还将我们的镜像刺激函数推广到不同的架构搜索算法。我们选择DARTS[19]作为基本算法。额外的损失项Ltopology的缩放因子为0.5，并添加到原始的交叉熵损失中。采样的架构数量K设置为5。所有其他训练细节和超参数遵循原始论文。对于这两种条件，架构搜索过程是在CIFAR-10数据集上进行的。04.2. 结果0CIFAR-10上的结果在搜索过程之后，我们选择了搜索到的最佳块结构并训练网络。In this section, we perform an analysis on searchefﬁency. Note that the overall searching cost is largely de-pends on the design of search strategy, which is orthogo-nal to the design of our mirror stimuli function. To illus-trate the efﬁciency improvement introduced by our mirrorstimuli function, we conducted two experiments based ontwo search algorithms of different kinds: one is BlockQNN[34], the other is DARTS [19]. For each experiment, thebaseline followed the searching process proposed in orig-inal paper, compared with the searching facilitated by ourmirror stimuli function. We evaluate the efﬁency of by mir-ror stimuli function by comparing the relative improvementof convergence speed, instead of the absolute search time.Convergence curves are reported in Figure 5. For both of theconditions, our methods converge faster, beneﬁting from theguidance provided by the expert network’s topology. Theresults further demonstrate that our mirror stimuli functionis able to be generalized to different search algorithms andimprove the search efﬁency.790270在CIFAR-10上工作直到收敛。在这个阶段，训练数据通过随机裁剪尺寸为32×32、水平翻转和Cutout[9]进行增强。采用余弦学习率方案，初始学习率为0.2。动量率设置为0.9，权重衰减设置为0.0005。所有网络的训练时长为600个epoch，批量大小为256。对于CIFAR-10上的图像分类任务，我们将堆叠块的总数设置为10。结果与其他模型一起在表1中报告。我们可以看到，我们提出的IRLAS实现了2.60%的测试错误率，显示出对人工设计网络和自动生成网络的最先进性能。对于差分设置，结果在表1中报告为IRLAS-differential。与原始论文报告的结果（2.83%错误率）相比，由我们的镜像刺激函数促进的搜索架构实现了更高的准确性。0ImageNet上的结果对于ImageNet任务，我们通过增加堆叠块的总数和滤波器通道大小，将在CIFAR-10上搜索到的模型转移到ImageNet上。我们选择“mobile”设置来比较推理速度。训练时使用256的小批量大小，输入图像尺寸为224×224。使用随机裁剪和翻转来增强数据。我们选择余弦学习率方案的SGD策略进行优化。使用中心裁剪评估测试图像的准确性。我们使用真实的推理延迟进行公平比较，在TensorRT[1]框架上使用一块TitanXp验证了16个批次大小的真实推理延迟。结果如表2所示。我们的IRLAS-mobile在人工设计和自动生成的架构上都实现了最先进的准确性。至于推理延迟，由于我们的镜像刺激函数所促进的优雅拓扑结构，我们的IRLAS-mobile的推理延迟比大多数自动生成的架构要少2到4倍。我们还进一步压缩了IRLAS-mobile的堆叠块数量，并进行了一次推理速度为9ms的IRLAS-mobile-fast模型，使我们的模型甚至比人工设计的网络MobileNetV2更快。需要注意的是，MnasNet[29]是直接在ImageNet数据集上进行搜索的，并且需要在搜索过程中验证时间延迟，这是一个非常耗费资源的过程，因为在如此大规模的数据集上进行高训练成本。由于我们的搜索空间中没有采用ShuffleNetV2和MobileNet-224中的洗牌操作、通道分割操作和反转块骨干，我们相信通过将它们引入我们的搜索过程，我们的推理速度可以进一步提升。04.3. 逆强化学习分析0表2.在移动设置下的ImageNet分类结果。输入图像大小为224×224。推理延迟使用Ten0方法延迟准确率 (%)0Inception V1 [27] - 69.8 MobileNet-224[14] 6ms 70.6 Shuf�eNet [13] 10ms 70.9MobileNetV2 1.4 [25] 10ms 74.7Shuf�eNetV2 2 × [20] 6ms 74.90NASNet-A(4 @ 1056) [37] 23ms 74.0AmoebaNet-A [24] 33ms 74.5 PNASNet [18]25ms 74.2 DARTS [19] 55ms 73.1 MnasNet[29] 11ms 74.790IRLAS-mobile 12ms 75.28IRLAS-mobile-fast 9ms 75.150在本节中，我们对搜索效率进行了分析。需要注意的是，整体搜索成本在很大程度上取决于搜索策略的设计，这与我们的镜像刺激功能的设计是相互独立的。为了说明我们的镜像刺激功能带来的效率改进，我们基于两种不同类型的搜索算法进行了两个实验：一个是BlockQNN[34]，另一个是DARTS[19]。对于每个实验，基准线遵循原始论文中提出的搜索过程，与通过我们的镜像刺激功能促进的搜索进行比较。我们通过比较收敛速度的相对改进来评估镜像刺激功能的效率，而不是绝对的搜索时间。收敛曲线如图5所示。对于这两种条件，我们的方法收敛更快，得益于专家网络拓扑的指导。结果进一步证明了我们的镜像刺激功能能够推广到不同的搜索算法并提高搜索效率。04.4. 搜索效率890280图3. 没有镜像刺激功能的前4个块架构的拓扑结构。0图4. 具有镜像刺激功能的前4个块架构的拓扑结构。0图5. 比较具有和不具有镜像刺激功能的搜索过程的收敛曲线。04.5. 消融研究0在本节中，我们进行了分析，以说明镜像刺激功能如何影响最终搜索架构的拓扑结构。我们首先在图3和图4(b)中说明了在没有和有镜像刺激功能的情况下搜索的前4个块架构的拓扑结构。显然，没有镜像刺激功能的搜索架构非常复杂，包括大量的操作和连接，而我们搜索的模型更加简单和优雅。此外，我们搜索的模型在拓扑上更类似于ResNet，每个模型都包含一个跟随加法操作的快捷方式，形成残差函数。我们进一步使用三个不同的λ值（0、30、60）进行IRLAS。所有三个搜索实验都遵循第3.4节中描述的相同过程。对于每个实验，选择了前4个模型，并将其转换为满足ImageNet移动设置的模型，大约有500万个参数。然后，这些模型在ImageNet上从头开始训练，遵循第4.2节中的设置。这些模型的最终推理延迟和准确性如图6所示。可以看出，我们的模型具有较低的推理延迟和较高的准确性。0图6.（a）比较镜像刺激函数和特征计数对三个修改模型输出值的变化。（b）不同λ实验中4个顶级模型在ImageNet上的推理延迟和准确性结果。0我们注意到利用镜像刺激函数可以大大提高搜索架构的推理速度，约快1倍。对于λ =60，专家网络的先验拓扑知识对搜索来说过于强大，导致准确性下降。λ =30被认为是在准确性和速度之间平衡权衡的选择。05. 结论0在本文中，我们提出了一种用于架构搜索的逆强化学习方法。基于从专家设计的网络中学到的知识，我们的镜像刺激函数可以为架构搜索提供拓扑指导，这可以很容易地推广到不同的架构搜索算法。逆强化学习方法已被引入来训练这个函数。实验结果表明，我们的IRLAS能够以高准确性搜索高速架构。如何提取多个网络的表示以进一步提高性能将是我们未来的工作。990290参考文献0[1] https://developer.nvidia.com/tensorrt。[2] Pieter Abbeel,Dmitri Dolgov, Andrew Y Ng和SebastianThrun。学徒学习用于停车场导航的运动规划。在IROS，2008年。[3] Pieter Abbeel和Andrew YNg。通过逆强化学习进行学徒学习。在ICML，2004年。[4]Bowen Baker，Otkrist Gupta，Nikhil Naik和RameshRaskar。使用强化学习设计神经网络架构。arXiv预印本arXiv:1611.02167，2016年。[5] Andrew Brock，Theodore Lim，James MRitchie和NickWeston。Smash：通过超网络进行一次性模型架构搜索。arXiv预印本arXiv:1708.05344，2017年。[6] Han Cai，TianyaoChen，Weinan Zhang，Yong Yu和JunWang。通过网络转换进行高效架构搜索。AAAI，2018年。[7]Jaedeug Choi和Kee-EungKim。贝叶斯非参数特征构建用于逆强化学习。在IJCAI，2013年。[8] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，Kai Li和LiFei-Fei。Imagenet：一个大规模的分层图像数据库。在CVPR，2009年。[9] Terrance DeVries和Graham WTaylor。通过切除改进卷积神经网络的正则化。arXiv预印本arXiv:1708.04552，2017年。[10] Tobias Domhan，Jost TobiasSpringenberg和Frank Hut-ter。通过学习曲线外推加速深度神经网络的自动超参数优化。在IJCAI，卷15，2015年。[11] Kaiming He，XiangyuZhang，Shaoqing Ren和JianSun。深度残差学习用于图像识别。在CVPR，2016年。[12]Kaiming He，Xiangyu Zhang，Shaoqing Ren和JianSun。深度残差网络中的身份映射。在ECCV，2016年。[13]Michael G Hluchyj和Mark J Karol。Shuf�enet：广义完美洗牌在多跳光波网络中的应用。Journal ofLightwave Technology，9（10）：1386-1397，1991年。[14]Andrew G Howard，Menglong Zhu，Bo Chen，DmitryKalenichenko，Weijun Wang，Tobias Weyand，Marco An-dreetto和HartwigAdam。Mobilenets：用于移动视觉应用的高效卷积神经网络。arXiv预印本arXiv:1704.04861，2017年。[15] GaoHuang，Zhuang Liu，Laurens Van Der Maaten和Kil- ian QWeinberger。密集连接的卷积网络。在CVPR，2017年。[16]Alex Krizhevsky，Vinod Nair和GeoffreyHinton。cifar-10数据集。在线：http://www. cs. toronto.edu/kriz/cifar. html，2014年。[17] Sergey Levine，ZoranPopovic和VladlenKoltun。具有高斯过程的非线性逆强化学习。在NIPS，2011年。[18] Chenxi Liu，Barret Zoph，Maxim Neumann，JonathonShlens，Wei Hua，Li-Jia Li，Li Fei-Fei，Alan Yuille，JonathanHuang和KevinMurphy。渐进神经架构搜索。在ECCV，2018年。0[19] Hanxiao Liu, Karen Simonyan, and Yiming Yang. Darts:可微分架构搜索. arXiv预印本arXiv:1806.09055, 2018. [20]Ningning Ma, Xiangyu Zhang, Hai-Tao Zheng, and Jian Sun.Shuf�enet v2: 用于高效CNN架构设计的实用指南.arXiv预印本arXiv:1807.11164, 2018. [21] Juan-ManuelPerez-Rua, Moez Baccouche, and Stephane Pateux.高效渐进式神经架构搜索. arXiv预印本arXiv:1808.00391, 2018.[

下载后可阅读完整内容，剩余1页未读，立即下载