IDARTS：交互式差异化架构搜索

47 浏览量更新于2023-10-13 收藏 1.15MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

1163IDARTS：交互式差异化架构搜索宋雪1，2张伟，王润琪1*，张宝昌1，5，王田1，2†，郭国栋3，David Doermann41北京航空航天大学，北京，中国2南京理工大学社会安全图像与视频理解江苏省重点实验室，南京3深度学习技术及应用国家工程实验室;百度研究院深度学习研究所，中国北京4University at Buffalo美国5俄罗斯联邦下诺夫哥罗德罗巴切夫斯基国立大学{songxue，runqiwang，bczhang，wangtian}@ buaa.edu.cn，doermann@buffalo.edu，guoguodong01@baidu.com摘要可区分体系结构搜索（DARTS）通过端到端学习体系结构和网络参数来提高体系结构搜索的效率。然而，架构的参数之间的内在关系其原因在于DARTS中使用的梯度下降法忽略了参数之间的耦合关系在本文中，我们解决这个问题，制定DARTS作为一个双线性优化问题，并介绍了一个交互式微分架构搜索（IDARTS）。我们首先开发了一个回溯反向传播过程，它可以解耦不同类型的参数之间的关系，并在同一个框架中训练它们。回溯方法协调不同参数的训练，充分探索它们的相互作用并优化训练。我们在CIFAR 10和ImageNet数据集上进行了实验，通过实现76 的 top-1 准确度来证明 IDARTS 方法的有效性。ImageNet上的52%，无需额外搜索成本，而75. 8%，采用最先进的PC-DARTS。1. 介绍神经架构搜索（NAS）的目标是自动设计神经架构以取代传统的手动架构设计。NAS对计算机视觉产生了重大影响，部分原因是减少了对*共同第一作者。†通讯作者。体力劳动最近，刘等人[18]提出了可区分的体系结构搜索（DARTS）作为使体系结构搜索更有效的替代方案。DARTS重新松弛的搜索空间是连续的和可微的。DARTS利用梯度下降学习每个操作的权重，使得可以通过梯度下降针对其验证集性能来优化架构。尽管DARTS的设计复杂，但它仍然受制于网络架构的大而冗余的空间，并且因此遭受显著的存储器和计算开销。为了解决DARTS的问题，研究人员提出了替代制剂[3，13，30，2，33，4，11]。其中，PC-DARTS [30]通过执行更有效的搜索而不损害性能来减少网络空间中的冗余。PC-DARTS在搜索过程中只对超网中的通道子集进行采样以减少计算，并通过显式学习一组额外的边选择参数来引入边归一化以稳定对网络连通性的搜索。然而，这些DARTS替代方案忽略了不同种类的参数之间的内在关系，并且因此，由于训练过程不充分，所选择的架构是次优的。其原因在于，在选择或遗漏网络架构之前，耦合关系将影响网络架构的训练到其极限为了解决这个问题，我们将双线性模型引入DARTS，并开发了一种新的反向传播方法来解耦变量之间的隐藏关系，以促进优化过程。据我们所知，很少有作品制定DARTS作为一个双线性问题。在本文中，我们通过将DARTS公式化为双线性优化问题并开发高效的交互式微分架构来1164··⊗图1.IDARTS概述（a）α和β在IDARTS中是耦合的边缘和操作（β1和α1）在神经架构搜索期间耦合xi和xi分别表示节点0和节点2。Xj=α 1，m β 1，W1，mX i具体描述在等式（1）中。二、(b) 引入回溯方法来协调不同参数的训练，可以充分探索它们在训练过程中的相互作用虚线结果表明缺乏回溯导致α的低效训练，实线表明IDARTS的有效训练。检索（ IDARTS ）。图1 显示了 IDARTS 的框架图1（b）示出了与实线中所示的IDARTS相比，虚线结果是低效的。t1和t2标记结构参数α被回溯的结果。IDARTS协调不同参数的训练，并基于回溯方法充分探索它们之间的相互作用。我们的方法允许只有当他们被充分训练时才选择操作。我们评估了我们的IDARTS图像分类，并在CIFAR10和ImageNet数据集上进行实验。实验结果表明，与现有DARTS方法[30，33，4]相比，IDARTS实现了优异的性能我们的贡献总结如下：• 我们提供了第一次尝试制定DARTS作为一个双线性优化问题。IDARTS将不同类型的参数之间的关系解耦，以便在同一框架中充分训练它们。• 我们引入了一种回溯方法来协调不同参数的训练。回溯通过优化过程中参数之间的相互作用，充分挖掘了参数在体系结构搜索中的潜力• 广泛的实验表明， IDARTS 在 CI-FAR 10 和ImageNet数据集上实现了比现有技术更好的性能，其中top-1准确度为97。CIFAR10和76的68%。ImageNet上的52%2. 相关作品2.1. 神经结构搜索（NAS）NAS是优化深度学习范式的最有前途的技术之一。早期的NAS方法专注于通过强化学习[41，40，1，38]或进化[23，28，25]来搜索网络然而，这些方法中的大多数需要大量的计算和存储器资源。已经提出了一次架构搜索方法[18，22，29，37，36]来实现高效的架构搜索，使得可以在几个GPU天内识别最佳架构。Liu等人[18]提出了可微分架构搜索（DARTS），使NAS使用梯度下降搜索。作为结果，DARTS能够以计算成本的一小部分识别良好的卷积体系结构，使得NAS被广泛地访问。DARTS通过使用数量级更少的计算实现了有希望的性能，但仍然具有一些缺点。Liang等人[13]提出了DARTS+，以避免崩溃，并通过在某些条件发生时提前停止搜索过程来改进原始DARTS。PDARTS[3]提出了一种有效的算法，试图克服搜索和评估之间的深度差距问题。这是通过在训练过程期间逐渐增加搜索的架构的深度来实现的。ProxylessNAS [2]认为搜索和评估网络的优化目标在DARTS中是不一致的。ProxylessNAS采用可区分的框架并搜索目标任务上的体系结构，而不是采用传统的基于代理的框架。1165O∈∈LL··LLΣ最近，已经提出了改进DARTS的方法。Fair DARTS[4]认为，DARTS性能崩溃的原因在于独占竞争的不公平优势，并让每个操作的架构独立于其他操作进行CDARTS [33]在搜索和搜索之间建立了一个循环反馈机制边缘M是指所有操作的数量。xi表示Ni的特征图，l表示运算集合，αl，m是softmax运算处理的第l条边的l，mxj=Σ{βl}·fl（xi）评估网络，以使得拓扑的演进能够适合最终评估网络。[30]第三十话I j=Σ Σβlαl，m·ol，m（Wl，mxi），（二）通过引入部分连接的网络优化策略，解决了GPU内存开销高的问题他们引入边缘归一化，通过显式学习一组额外的边缘级别参数来稳定对网络连接的搜索。然而，忽略了与边缘级参数的关系，导致训练过程不足和次优解。2.2. 双线性优化双线性优化模型广泛应用于许多计算机视觉算法中。通常，优化对象或模型受到两个或更多个隐藏因素的影响双线性模型可以嵌入CNN [15，14，19，39]。碧林-i j ol，m∈Ol其中β1表示第l个边缘的参数。softmax在β和α上定义，以计算最终架构。对于每个中间节点，我们将选择由α和β共同确定的两条边。在图1中，我们看到α和β在推理过程中是耦合的，如等式1所示二、Xj线性依赖于α和β。如果选择了不正确的操作，则会影响边的选择，反之亦然。建议在优化设计时应考虑它们之间的关系。基本的双线性优化问题试图在架构搜索中优化以下目标函数：arg minG（W，β，α）= arg min（L（W，β，α）+R（β）），CNN中的耳模型可以通过迭代方法来执行β，αβ，α（三）例如加速近端梯度（APG）[9]和迭代收缩阈值算法（ISTA）[32，15]。许多深度学习应用，例如细粒度分类[16，12]，视觉问答（VQA）[34]和人员重新识别[26]，试图将双线性模型嵌入CNN中以对成对特征交互进行建模并将多个特征与注意力融合。为了更新参数，它们直接利用梯度下降并反向传播损失的梯度。在本文中，我们制定DARTS作为一个双线性优化问题，并引入IDARTS的有效搜索。实验结果验证了该方法的有效性其中αRL×M和βRL×1是待优化的变量，L是边数，M是每条边上的操作数，R（）表示回溯的约束条件。（）表示原始DARTS模型中的损失函数在[18，30]之后，依次优化内核W的权重和架构参数α、β用于架构参数的学习过程涉及如下优化：Wt+1= arg mintrain（Wt，αt，βt），W我们的方法在CIFAR10和ImageNet上没有额外的搜索成本。3.交互式差异化架构αt+1= arg minval（Wt+1，αt，βt），αβt+1= arg minval（Wt+1，αt，βt），β（四）搜索3.1. DARTS的双线性模型我们首先展示了如何DARTS可以制定为一个双线性优化问题。假设在小区中存在L条边，并且节点Ni和节点Nj之间的边是第l条边。在[18，30]之后，我们取第l个边，其被公式化为：其中α t+1和β t+1表示第（t +1）步中的操作和边缘的参数，并且Wt+1表示第（t +1）步处的卷积的核。由方程式4，α和β独立更新。但由于α和β的耦合关系，不宜单独优化。我们将可微结构搜索的搜索过程视为一个双线性优化问题，并使用一种新的回溯方法来求解该问题。详情见第3.3节。fl（Wl，m，xi）=ol，m∈O（l）αl，m·ol，m（Wl，mxi），（1）3.2. 搜索空间通过简化体系结构搜索以找到最佳其中Wl，m表示第m个我们假设在一个上有M个小区结构，基于小区的NAS方法尝试学习可缩放和可转移的架构。在[18，30]之后，我们1166·0......××l=1∂α...∂αΣgαmMl=1lαl，mα1αLgαLgl... αLgLLG（α）不∂α过程我们进一步定义：G=（G（β））T/α，（6）∂β其中，G（通过考虑如等式（1）中的bili近似优化问题来定义3.第三章。注意，R（）仅在回溯时被考虑然后我们有：G（β）=Tr[αG（七）∂α ∂α图2. 一个像元包含七个节点，它们是两个输入节点N-1和N0，四个中间节点N1、N2、N3、N4，以及一个We表示G（=[g（1，… g（L）。假设当l mβl和αm是输出节点α1，m表示矩阵α中的元素，我们有：搜索要构建βmα1，m...0最后的建筑。还原细胞位于网络总深度的1/3和2/3处，其余细胞为正常细胞。一个普通的单元格使用操作β..=...∂α∂β、（8）步长为1以保持输入特征图的大小不变输出通道数与和0...MαL，m...0输入通道的数量。减少单元使用步长为2的操作来减少特征图的空间分辨率，并且输出通道的数量是输入通道数量的运算集包括3×3和5×5可分离卷积，3×3和5×5可分离卷积αG=α1g1...α1gl.α1g/mL......。...（九）扩张可分离卷积，3 3max pooling，3 3av-存储池、零（无）和跳过连接。细胞我们结合Eq. 8、Eq. 9，得到：(Fig. 2）是7个节点的全连接有向无环图（DAG）每个xi是潜在表示（例如，的特征0...α1ΣLglm我很...0卷积网络中的映射每个有向边（i，j）节点Ni和节点Nj之间的关系表示操作集合节点、4个中间节点、1个输出节点和14条边αGβ∂α...=。..Ll=1lαl，m.（十）〇1={〇 1，1，…，M}。在[18]之后，有2个输入0...αΣLgm...0在搜索过程中每个单元格每个单元格采用前两个单元格作为输入。单元的输出节点是所有中间节点的按深度串联。3.3. 反向传播之后，Eq. 5则计算如下：Tr[αtGβ]=αΣgβm。（11）记住αt+1= α t− η1，IDARTScom-我们从一个新的角度来考虑这个问题，其中β和α在方程中耦合。3.我们注意到α的导数的计算应考虑其耦合性bines方程式5和Eq。十一：Ll=1∂β1αl，1α1.与β的关系基于链规则[21]及其符号，我们有：αt+1=αt+1+η。⊙αt+1=αt+η1（−G（α）∂α10-12（G（β））（5）ΣLl=1..glβLαLl，L∂β∂α（十二）=αt+1+η.1167∂α1.·∂α⊙.其中η1表示学习率，η2表示系数。回溯系数，α表示回溯电话+1从αt+1。并且Tr（）表示矩阵的迹。这里，为了简单起见省略W，并且在反向传播期间仅考虑结构参数α、β..αLL=αt+1+ηγ⊙αt，.1168×≤←⊙××| |⊙××算法一：IDARTS交互式微分架构搜索输入：训练数据、验证数据、搜索超图，超参数K= 0，T= 25，S= 50;创建架构参数α=αl、边缘级别参数β=βl和超网权重W创建由αl和βl参数化的l的混合操作对于每个边l;输出：结构;探索S时代4.1. 数据集CIFAR10[10]是一个包含60K图像的小型流行数据集50K用于训练集，并且剩余的10K用于测试集。这些图像属于10个不同的类别，分辨率为32 32。ImageNet是目前世界点火数据库。它包含1，000个类别，120万个训练图像和50K个验证图像。我们遵循ImageNet数据集上的一般设置，其中图像的大小被调整为224×224以进行训练和测试。while（K S）do更新参数α如果（K≥T），则β;4.2. 搜索和培训设置在我们的实验中，我们搜索具有端根据等式13、我们选择了应该回溯的α;通过等式回溯α12个;在CIFAR10和ImageNet上构建过参数化网络在DARTS[18]以及传统的架构搜索应用程序之后，端更新权重W;K K+ 1;根据学习到的α和找到最终的架构β;方法，我们使用一个单独的阶段进行架构搜索，并在获得最佳架构后，我们重新训练网络。CIFAR10上的搜索和培训设置按照通常的做法，我们首先在CI-FAR 10上用一个小网络搜索正常细胞和还原细胞进行图像分类。在搜索过程中，过参数化网-其中表示Hadamard乘积，η=η1η2。为了简化计算，β可以近似为∆β。作品由八个单元构成，其中第三和第六单元电池是还原电池。通道的初始数量为∂α∆α当量图12示出了我们的方法实际上是基于投影函数来解决由γ进行的双线性优化的耦合问题。在该方法中，我们考虑了αt的影响，将第（t+1）步的最优状态回溯到形式αt+1。我们首先决定什么时候进行优化回溯，以及建议的IDARTS定义为：十六岁我们采用初始学习率为0的SGD优化器。1，动量为0。9，权重衰减为3 10−4，梯度剪裁为5。我们对α和β使用Adam优化器，固定学习率为η1=6 10−4，动量为（0.5，0.999），权重衰减为10−3。我们将回溯的权重设置为η2=0。04和超参数λ=0。015 我们使用50%的训练集作为搜索阶段的训练数据来训练50个epoch，并且t+1=P（αt+1，αt），如果R（β）<ζ，（13）αt+1否则，50%的训练集作为验证数据。在[3，30]之后，我们冻结了参数α和β，并且只允许在前15个epoch中调整网络参数其中P（α t+1，α t）=α t+1+ηγ α t。 R（β）表示β1的排序，ζ表示阈值。然后我们ζ=（S-T）·λ·L，（14）其中T和S表示回溯的开始和结束时期，λ表示系数，并且L表示单元中的边缘的数量。如图14所示，ζ将在搜索期间增加。通过这样做，根据β，α将被回溯。4. 实验我们使用IDARTS自动查找CNN架构。IDARTS发现的CNN架构在ImageNet数据集上的图像分类上表现出最先进的（SOTA）[5]。然后，我们开始训练α、β和网络参数。Eters当训练达到T=25个epoch时，我们开始回溯以协调不同参数的训练在搜索之后，我们在CIFAR10上训练了600个epoch的最终架构。我们将细胞层的总数设置为20，批量大小为128，初始学习率为0。025，并且信道的初始数目为36。其余设置与搜索阶段相同ImageNet上的搜索和训练设置。对于Ima-geNet，我们使用[30]中提供的相同设置进行搜索和评估。优化方法和搜索策略与我们在CIFAR10上的实验相同。在[30]之后，过参数化网络从步幅2的三个卷积层开始，以减少输入图像分辨率。解决方案224224到2828岁我们堆叠6个正常的电池和2个还原电池以形成网络。减少.1169×××skip_connectsep_conv_3x30sep_conv_3x3sep_conv_3x3sep_conv_3x31sep_conv_3x3sep_conv_3x33sep_conv_3x32c_{k-1}c_{k-2}c_{k}max_pool_3x31sep_conv_5x5dil_conv_3x3c_{k-1}sep_conv_3x30跳过连接dil_conv_5x5c_{k}sep_conv_5x523c_{k-2}图3.与CIFAR10上SOTA架构的比较为了减少搜索时间并提高搜索效率，我们在ImageNet数据集中抽取10%的数据用于训练网络权重和2. 5%的数据用于更新超参数。我们执行架构搜索50个历元，批量大小为1024。架构参数α和β在前35个时期期间被冻结。然后我们开始训练α、β和网络参数。当训练达到T=40个epochs时，我们开始回溯。我们使用初始学习率为0的动量SGD。5，动量为0。9，重量衰减为310−5。对于架构参数α和β，我们使用Adam优化器，初始学习率η1=6 10−3，动量（0. 5，0。999），重量衰减10−3。我们将回溯的权重设置为η2=0。04和超参数λ= 0。05. 在搜索之后，我们构建了一个具有14个单元和48个初始通道的大型网络，并以1024的批量大小训练了250个epoch4.3. 结果4.3.1CIFAR10结果在CIFAR10上，我们使用单个NVIDIA Titan V GPU搜索大约0.1 GPU天。的结果和表1中总结了与最近方法的比较。我们观察到，我们的IDARTS实现了卓越的性能相比，其他一些手动或自动设计的CNN。例如，IDARTS超过手动设计的DenseNet-BC [8] 1。14%（96.54% vs. 97. 68%）。值得注意的是，ProxylessNAS[2]的性能略优于我们的 IDARTS ，但其搜索时间比IDARTS大40。与PC-DARTS[30]相比，IDARTS实现了更好的性能（97. 43% vs. 97. 68%），搜索时间相似。与CDARTS[33]相比，IDARTS不仅实现了更好的性能（97. 52% vs. 97. 68%），但也有更快的搜索速度（0. 三比零。1GPU天）。我们在图3中示出了IDARTS和其他高级NAS方法的性能。红星代表IDARTS，其余的代表其他高级搜索方法。我们清楚地看到，IDARTS具有最高的准确性和最短的搜索时间在所有搜索方法以外的Proxy- lessNAS。图4示出了所发现的最佳小区的详细表示。我们观察到网络更喜欢在正常细胞中选择可分离卷积[7]，因为它是网络构建的关键组成部分，可以增加模型的大小。(a) 正常(b) 减少图4.在CI-FAR 10上发现的最佳细胞的详细结构（a）在CIFAR10上发现的正常细胞（b）在CIFAR10上发现的4.3.2ImageNet上的结果在ImageNet上，我们使用8个Tesla V100 GPU进行搜索，总批次大小为1024。整个搜索过程大约需要11.5小时。图6示出了所发现的最佳小区的详细结构。表2中报告了搜索架构的评估结果。在 CIFAR10 和ImageNet本身上搜索的架构都进行了评估。IDARTS（CIFAR10）达到76。14%的top- 1准确率，这证明了IDARTS方法的推广IDARTS（ImageNet）获得76分。52%的top-1准确率。我们将我们的模型与手工设计的SOTA架构和其他NAS方法获得的模型进行比较。我们的IDARTS发现的架构优于人类设计的ShuffleNet 2x（v2）[35]（74. 9%vs. 七十六。52%）。IDARTS超过PC-DARTS[30] 0。72%（75. 8% vs. 76. 52%）这证明了我们的方法的有效性。我们在图中显示了IDARTS方法和其他先进的方法。5.蓝色星号表示使用在CIFAR10上搜索的架构的搜索方法，红色和黄色星号表示使用在CIFAR10上搜索的架构的搜索方法。1170±±±±±±±±±Lsep_conv_3x30dil_conv_3x3sep_conv_5x5sep_conv_3x32sep_conv_5x5sep_conv_5x51sep_conv_5x5sep_conv_3x33c_{k-1}c_{k-2}c_{k}架构精度#参数搜索成本搜索（%）（M）（GPU天数）方法DenseNet-BC [8] 96.54 25.6-ManualNASNet-A [41] 97.35 3.3 1800 RLAmoebaNet-A [24] 96.66 0.06 3.2 3150 evolutionAmoebaNet-B [24] 97.45 0.05 2.8 3150 evolutionPNAS [17] 96.59 0.09 3.2 225 SMBOENAS [22] 97.11 4.6 0.5 RLDARTS（一阶）[18] 97.00 0.14 3.3 0.4梯度DARTS（二阶）[18] 97.24 0.09 3.3 1梯度SNAS（轻度）[29] 97.02 2.9 1.5梯度ProxylessNAS [2] 97.92 3.27 4梯度P-DARTS [3] 97.5 3.27 0.3梯度SGAS [11] 97.34 0.24 3.7 0.5梯度FairDARTS [4] 97.41 0.14 3.8 0.1渐变PC-DARTS [30] 97.43 0.07 3.27 0.1梯度CDARTS [33] 97.52 0.04 3.8 0.3梯度IDARTS 97.68 4.159 0.1梯度表1.与CIFAR10上最先进的架构进行比较(a) 正常图5.与ImageNet上的SOTA架构的比较低星号表示直接在ImageNet上搜索的方法。我们可以清楚地看到，IDARTS（CIFAR10）具有最高的精度和最短的搜索时间，与这些先进的方法在蓝色的星星。4.4. 消融研究图7示出了最浅边缘中IDARTS和PC-DARTS的α的比较。x轴的标签是搜索的历元，y轴的标号是α的值。我们在前15个epoch中冻结超参数α和β（仅更新网络参数），α保持不变。由于PC-DARTS中α和β之间缺乏相互作用，α和β很容易陷入局部极小。然而，我们在这个边缘上回溯训练不足的操作，以逃离局部极小(b) 减少图6.在ImageNet上发现的最佳细胞的详细结构（a）ImageNet上的正常细胞（b）ImageNet上的通过考虑α和β之间的内在关系来选择更好的操作并因此选择更好的架构。由于α的回溯，在IDARTS搜索过程中，不同操作之间的竞争加剧，如图所示。7.因此，它比PC-DARTS更有利于选择最有价值的操作图8，y轴的标签为val。我们还表明，IDARTS的收敛是类似的PC-DARTS。虽然两者具有相同的收敛速度，但我们可以清楚地看到，IDARTS的最终损失收敛到一个较小的值。主要原因是IDARTS探索了关系-max_pool_3x3max_pool_3x30dil_conv_5x5sep_conv_3x31dil_conv_5x5sep_conv_3x3dil_conv_5x53sep_conv_3x3c_{k-1}2c_{k}c_{k-2}1171×架构准确性（%）#参数 +搜索成本搜索top-1 top-5（M）（M）（GPU天数）方法[27]第二十七话69.889.96.61448- 手册移动网络[7]70.689.54.2569- 手册ShuffleNet 2x（v1）[35]ShuffleNet 2x（v2）[20]73.674.989.8-∼5∼5524591-手动-手动NASNet-A [41] 74.0 91.6 5.3 564 1800 RLAmoebaNet-C [24] 75.7 92.4 6.4 570 3150 evolutionPNAS [17] 74.2 91.2 5.1 588 225 SMBODARTS（二阶）[18] 73.2 91.3 4.7 574 4.0梯度SNAS（轻度）[29] 72.7 90.8 4.3 522 1.5梯度P-DARTS [3] 75.6 92.6 4.9 557 0.3梯度PC-DARTS [30] 74.9 92.2 5.3 586 0.1梯度SGAS [11] 75.9 92.7 5.4 598 0.25梯度IDARTS（CIFAR10）76.14 92.87 5.81 657 0.1梯度ProxylessNAS [2] 75.1 92.5 7.1 465 8.3梯度PC-DARTS [30] 75.8 92.7 5.3 597 3.8梯度FairDARTS [4] 75.6 92.6 4.3 440 3 gradientIDARTS（ImageNet）76.52 93.00 6.18 714 3.8gradient表2.与ImageNet上最先进的架构进行比较。IDARTS（CIFAR10）表示在CIFAR10上搜索了体系结构。IDARTS（ImageNet）是指直接在ImageNet上搜索架构。图7. CIFAR 10上IDARTS和PC-DARTS最浅边缘的α.在不同参数之间切换，并使用我们的回溯方法来完全训练架构参数α。我们在梯度下降的框架下从理论上推导了我们的方法，这为我们的方法的收敛性分析提供了坚实的基础。5. 结论在这项工作中，我们提出了一个有效的体系结构搜索的IDARTS方法，由双线性模型的动机IDARTS通过解耦不同类型参数之间的关系来训练体系结构参数，并使用回溯方法来协调不同参数的训练。解耦允许IDARTS搜索最佳网络结构。实验证明了所提出的算法的有效性，并表明图8.CIFAR 10与IDARTS和PC-DARTS搜索损失的比较IDARTS在Ima-geNet数据集上实现了最先进的性能。确认本研究得到了国家重点研究发展计划（ 2018AAA0101400 ）、国家自然科学基金（62076016，61972016）的资助。1172引用[1] Bowen Baker 、 Otkrist Gupta 、 Nikhil Naik 和 RameshRaskar。使用强化学习设计神经网络架构。ICLR，2017年。[2] 韩才、朱立庚、宋涵。Proxylessnas：在目标任务和硬件上直接进行神经结构搜索。ICLR，2019年。[3] 辰昕、邪灵犀、君无邪、齐天。渐进式可区分体系结构搜索：缩小搜索和评估之间的深度差距。InProc. ofICCV，2019.[4] Xiangxiang Chu，Tianbao Zhou，Bo Zhang，and JixiangLi.公平飞镖：消除差异化架构搜索中的不公平优势在ECCV的程序中，2020年。[5] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。在CVPR的Proc.，2009中。[6] Felix Heide，Wolfgang Heidrich，and Gordon Wetzstein.快速灵活的卷积稀疏编码。在CVPR的Proc.，2015年。[7] Andrew G. Howard，Menglong Zhu，Bo Chen，DmitryKalenichenko，Weijun Wang，Tobias Weyand，MarcoAn- dreetto，and Hartwig Adam. Mobilenets：用于移动视觉应用的高效卷积神经网络。arXiv，2017.[8] G. Huang，Z.柳湖，加-地Van Der Maaten和K. Q.温伯格。密集连接的卷积网络。在CVPR的程序中，2017年。[9] 黄泽浩和王乃艳。深度神经网络的数据驱动稀疏结构选择。在ECCV的Proc.，2018年。[10] Alex Krizhevsky，Geoffrey Hinton，等.从微小的图像中学习多层特征。2009年[11] Guohao Li ， Guocheng Qian ， Itzel C Delgadillo ，Matthias Muller ， Ali Thabet ， and Bernard Ghanem.Sgas：顺序贪婪架构搜索。在CVPR，2020年。[12] 李阳浩，王乃彦，刘嘉颖，侯小迪。用于图像识别的因子化双线性模型。InProc. of ICCV，2017.[13] Hanwen Liang，Shifeng Zhang，Jiacheng Sun，XingqiuHe ， Weiran Huang ， Kechen Zhuang ， and ZhengguoLi.DARTS+：改进的可区分的体系结构搜索与早期停止- ping。arXiv，2019年。[14] Mingbao Lin ， Rongrong Ji ， Yan Wang ， YichenZhang ， Baochang Zhang ， Yonghong Tian ， and ShaoLing. Hrank ：使用高秩特征图进行过滤修剪。在CVPR，2020年。[15] Shaohui Lin ， Rongrong Ji ， Chenqian Yan ， BaochangZhang，Liujuan Cao，Qixiang Ye，Feiyue Huang，andDavid Doer-mann.通过生成对抗学习实现最优结构化cnn剪枝。在CVPR的Proc.，2019年。[16] 林宗宇，Aruni RoyChowdhury，Subhransu Maji。用于细粒度视觉识别的双线性cnn模型。InProc. of ICCV，2015.[17] Chenxi Liu，Barret Zoph，Maxim Neumann，JonathonShlens，Wei Hua，Li-Jia Li，Li Fei-Fei，Alan Yuille，Jonathan Huang，and Kevin Murphy.渐进式神经架构搜索。在ECCV的Proc.，2018年。[18] 柳寒笑，凯伦西蒙尼扬，杨一鸣。Darts：差异化架构搜索。ICLR，2019年。[19] Zhuang Liu，Jianguo Li，Zhiqiang Shen，Gao Huang，Shoumeng Yan，and Changshui Zhang.通过网络瘦身学习高效的卷积网络。InProc. of ICCV，2017.[20] 马宁宁，张翔宇，郑海涛，孙健。Shufflenet v2：高效CNN架构设计实用指南在ECCV的Proc.，2018年。[21] Kaare Brandt Petersen，Michael Syskind Pedersen，等.黑客帝国食谱。丹麦技术大学，7（15）：510，2008。[22] Hieu Pham，Melody Guan，Barret Zoph，Quoc Le，andJeff Dean.通过参数共享的高效神经架构搜索。ICLM，2018年。[23] Esteban Real ， Alok Aggarwal ， Yanping Huang ， andQuoc V Le.用于图像分类器架构搜索的正则化进化。在AAAI的Proc.，2019年。[24] Esteban Real ， Alok Aggarwal ， Yanping Huang ， andQuoc V Le.用于图像分类器架构搜索的正则化进化。在AAAI的Proc.，2019年。[25] Esteban Real 、 Sherry Moore 、 Andrew Selle 、 SaurabhSaxena、Yutaka Leon Suematsu、Jie Tan、Quoc V Le和Alexey Ku- rakin。图像分类器的大规模进化。在procICML，2017。[26] Yumin Suh，Jingdong Wang，Siyu Tang，Tao Mei，andKy-oung Mu Lee.用于个人重新识别的部分对齐的双线性表示。在ECCV的Proc.，2018年。[27] C.塞格迪，W。Liu，Y.作者简介：王志光，王志光，王志光.里德D.安格洛夫，D。Erhan，V.Vanhoucke和A.拉比诺维奇。用卷积更深入。在CVPR的Proc.，2015年。[28] 谢灵犀和艾伦·尤耶。基因CNN InProc. of ICCV，2017.[29] Sirui Xie，Huhui Zheng，Chunxiao Liu，and Liang Lin.随机神经结构搜索。在proc 2019年的国际会议。[30] Yuhui Xu，Lingxi Xie，Xiaopeng Zhang，Xin Chen，Guo-Jun Qi，Qi Tian，and Hongkai Xiong.PC-darts：用于内存高效架构搜索的部分通道连接。ICLR，2020。[31] Linlin Yang ， Ce Li ， Jungong Han ， Chen Chen ，Qixiang Ye ， Baochang Zhang ， Xianbin Cao ， andWanquan Liu.基于流形约束卷积稀疏编码的图像重建JSTSP，11（7）：1072[32] Jianbo Ye，Xin Lu，Zhe Lin，and James Z Wang.在卷积层的信道修剪中重新考虑较小范数较少信息的假设ICLR，2018年。[33] 洪远宇和侯文鹏。循环可微结构搜索。Arxiv，2020年。[34] 周瑜，俊宇，范建平，陶大成。多模态分解双线性池与共同注意学习的视觉问答。InProc. of ICCV，2017.[35] Xiangyu Zhang，Xinyu Zhou，Mengxiao Lin，and JianSun. Shufflenet：一个非常有效的卷积神经网络，用于移动设备。在CVPR的Proc.，2018年。[36] Xiawu Zheng，Rongrong Ji，Lang Tang，Yan Wan ，Baochang Zhang ， Yongjian Wu ， Yunsheng Wu ， andLing Shao.动态分布修剪，用于高效的网络架构搜索。arXiv，2019年。1173[37] Xiawu Zheng ， Rongrong Ji ， Lang Tang ， BaochangZhang，Jianzhuang Liu，and Qi Tian.用于有效神经结构搜索的多项分布学习在proc ICCV，2019。[38] 赵忠，严俊杰，吴伟，邵景，刘成林.实用的块式神经网络架构生成。在CVPR的Proc.，2018年。[39] Lian Zhuo ， Baochang Zhang ， Linlin Yang ， HanlinChen，Qixiang Ye，David Doermann，Rongrong Ji，andGuodong Guo.双线性优化的共梯度下降。在CVPR，2020年。[40] Barret Zoph和Quoc V Le。神经架构搜索与强化学习。arXiv预印本arXiv：1611.01578，2016。[41] Barret Zoph ，Vijay Vasudevan ，Jonathon Shlens，andQuoc V Le.可扩展图

下载后可阅读完整内容，剩余1页未读，立即下载