没有合适的资源?快使用搜索试试~ 我知道了~
12311DOTS:可微体系结构搜索中的解耦运算与拓扑顾玉超1王丽娟1刘云云1杨毅2吴宇欢1卢少平1程明明1 <$1TKLNDST,CS,南开大学2浙江大学摘要可区分结构搜索(DARTS)由于其在搜索细胞结构方面的高效性而受到广泛关注DARTS主要关注于操作搜索,并从操作权重导出单元拓扑然而,操作权重不能反映单元拓扑的重要性,导致拓扑评级正确性差。为了解决这一问题,我们提出了Decouple的操作和拓扑结构的搜索(DOTS),它decouples的拓扑表示从操作权重,并作出显式的拓扑搜索。DOTS是通过引入一个包含候选边组合的拓扑搜索空间来实现的。所提出的搜索空间直接反映了搜索目标,并且可以很容易地扩展到支持搜索单元中的灵活数量的边现有的基于梯度的NAS方法可以被并入DOTS中,以通过拓扑搜索来进一步改进。考虑到一些操作(例如,为了更好地进行拓扑搜索,我们提出了一种组操作搜索方案来保留拓扑相关的操作在CI-FAR 10/100和ImageNet上的实验表明,DOTS是可区分NAS的有效解决方案代码发布于https://github.com/guyuchao/DOTS。1. 介绍神经网络结构搜索(NAS)因其能够在大搜索空间中自动找到最优结构而受到广泛关注。以前的基于再增强学习和进化学习的方法[34,41,58]需要一个完整的训练过程来验证架构性能,花费数百个GPU天来搜索。为了降低搜索成本,一次性方法[8,10,18,40]采用权重共享策略,该策略训练超网一次并派生子架构。两位作者对这项工作的贡献相等。M. M.程(cmm @ nankai. edu. cn)为通讯作者。直接从超网获得真实的性能。最近的方法[4,6,50,51]基于微分架构搜索(DARTS)[35]也采用了权重共享策略,并通过统一超网训练和子架构搜索来进一步降低搜索成本在DARTS中,操作选择通过可学习的操作权重进行参数化在训练之后,使用操作权重来对操作和拓扑的重要性进行DARTS中的边重要性表示为该边上的最大DARTS保留每个中间节点的两条最重要的边,以导出搜索单元的拓扑。提出了一个问题如图1所示,我们没有发现明显的秩相关性,这意味着DARTS与随机选择边 缘 相 比 没 有 优 势 ( 更 多 细 节 请 参 见 第2 节 ) 。3.2)。此外,DARTS本文通过解耦合运算和拓扑结构(DOTS)来解决上述问题脱钩的含义有两个方面。一方面,我们解耦的拓扑表示的操作权重。详细地,我们引入了一个包含边的两两组合的拓扑搜索空间.拓扑搜索空间是连续松弛的,松弛的拓扑权重模拟候选边的组合分布。所提出的拓扑搜索空间直接反映了搜索目标,并可以很容易地扩展到支持灵活的边数。另一方面,我们将操作和拓扑搜索过程解耦。全局搜索过程分为操作搜索和拓扑搜索两个阶段,分别更新操作权值和边组合权值。通过将两个搜索过程解耦,现有的基于梯度的NAS方法可以直接并入DOTS的操作搜索中,并通过拓扑搜索得到进一步的改进。此外,拓扑搜索是在一个收缩的超网中进行的,使其更有效123120.2000.1750.1500.1250.1000.0750.0500.1750.1500.1250.1000.0750.0500.025(四、五)96.7 96.8 96.9 97.0 97.1独立模型精度(a) 操作重量,CIFAR10(1,(二)(1,4)(1,5)(1,3)(2)(4)(2,5)(二、三)(三、 四、(四、五)(3,5)80.0 80.2 80.4 80.6 80.8 81.0独立模型精度(c)操作重量,CIFAR1000.1150.1100.1050.1000.0950.0900.0850.1060.1040.1020.1000.0980.0960.094(1,(1,3)(二)(1, 第五章)(2)(1,4)第三章(三、四)(二、五)(3,5)(二、四)(四、五)96.95 97.00 97.05 97.10 97.15 97.20 97.25独立模型精度(b) 边缘组合权重,CIFAR10(1,2)(2,3)(2,4)(二、五)(1,3)(1,4)(三、四)(1,5)(四、五)(三、 第五章)82.3 82.4 82.5独立模型精度(d)边缘组合重量,CIFAR100图1:不同边缘重要性表示和独立模型之间的秩相关分析。边组合重要性由操作权重(DARTS)和边组合权重(DOTS)表示。我们计算Kendall Tau度量[25]来测量秩相关性。而且准确考虑到一些操作(例如,为了更好地进行拓扑搜索,在操作搜索中采用分组策略来保留这些与拓扑相关的我们将我们的贡献总结如下:• 我们建议解耦的操作和拓扑搜索,这两个拓扑表示和搜索过程。这种解耦导致具有不同拓扑结构的独立模型的正确评级。• 建议的拓扑搜索空间可以扩展到支持灵活的边缘数量在搜索单元,履行其潜力,以搜索更复杂的结构。• 现有的基于梯度的方法可以结合到DOTS中,并通过拓扑搜索得到进一步的改进。DOTS从头开始搜索仅需0.26和1.3 GPU天,在CIFAR10和ImageNet上的准确率分别为97.51%和如果去掉边数的限制,可以获得更好的性能。2. 相关工作与以前的人工设计任务特定的神经网络[14,17,36,46,47]不同,神经架构搜索(NAS)因其自动设计高效网络的潜力而引起广泛关注[15,16,30,32]。 基于强化学习的早期方法-[57][58]和进化算法[41,48]训练你,从零开始搜索候选体系结构,并使用它们的验证精度来学习元控制器,这需要高昂的搜索成本。最近的一次性NAS方法[2,3,8,18]和基于梯度的方法[9,19,35,50]采用权重共享策略[40],其仅训练超网一次,从而降低搜索成本。最近的基于梯度的方法试图克服不稳定性[5,7,9,19,31,50,53]并降低搜索成本[6,11,51]。以前的基于梯度的方法主要是针对改善操作搜索。而我们的工作是在梯度法的基础上增加了拓扑搜索,这是对以往研究的补充.最近的研究[12,13,42,49]揭示了连接拓扑在神经网络中的重要性。随机连线网络[49]发现,由随机图算法生成的网络可以获得有竞争力的结果. Shu等人[42]发现,小区拓扑对网络收敛的影响大于基于小区的NAS中的操作DenseNAS [12]提出了一个密集连接的搜索空间,专注于宏结构我们的工作揭示了微细胞最近的权重共享方法[22,26,27,29,52,55,56]试图提高架构等级正确性。 Yu et [52]指出,由于受限的搜索空间和广泛使用的权重共享策略,最近的NAS具有与随机搜索相似的性能。PCNAS [29]识别并修复了权重共享方法中的后验衰落问题。分块NAS [26]通过模块化大空间来提高架构秩正确性边组合重要性边组合重要性τ =-0.82Tau=-0.06边组合重要性边组合重要性τ =0.71τ =0.73(1,2)(1,3)(1,4)(1,5)(二、四)(二、三)(三)(4)(2) 第五章)(3,5)12313CLSi=1OOO图2:拟议的直接观察治疗方案的总体管道。DOTS框架由操作搜索和拓扑搜索两部分组成。在操作搜索阶段,我们在每条边上搜索性能最好的操作在拓扑搜索阶段,我们搜索候选边的最佳组合。成块。虽然最近的一些工作注意到单次方法中的评级问题,但对基于梯度的方法中的评级问题的关注较少。以操作权重α为指标进行二层优化网络权重W为3. 关于DARTSminαLval(w≠(α),α),(四)S. t. w(α)= arg min(Ltrain(w,α)).3.1. 关于DARTS我们首先回顾基线算法DARTS [35]。DARTS旨在搜索细胞,这是神经网络的重复构建块。一个单元格表示为wcls在搜索之后,通过两个硬修剪从操作权重α1. 保留权重最大的操作,作为具有N个节点的有向循环图{xi}N,包括修剪每个边的其他操作,即,o(i,j)=两个输入、一个输出和多个中间节点。每个argmaxo∈O,o/=Zeroα(i,j)。节点表示由图边缘变换的特征图第j个中间节点xj通过边(i,j)连接到它的所有前级节点xi.每个边(i,j)包含由操作权重加权的候选操作2. 为每个中间节点保留两条具有最大边重要性的传入边,其他边缘。边重要性被定义为每条边(i,j)上的最大操作权重,即,、α(i,j),可以定义为ΣMaxo∈O,o零α(i,j)。(i,j)(x)=o∈Oα(i,j)o(i,j)(xi),(1)3.2. DARTS中的耦合问题以前的作品[5其中o(x)∈ O,O是包含8个操作的操作搜索空间,包 括 Zero 、 Skip-Connection 、 Avg-Pooling 、 Max-Pooling、Sep 3x 3Conv、Sep 5x 5Conv、Dil 3x 3Conv和Dil 5x 5Conv。每个操作的权重使用softmax进行归一化:′(i,j)exp(α)DARTS通过该边上的最大操作权重(不包括零操作)来指示边的重要性。我们进行了秩相关分析,以确定操作权重指示的边缘重要性是否可以准确地对独立模型进行排名(通过Kendall Tau度量[25]测量)。我们遵循DARTSα(i,j)=π′′o∈OOexp(α′(i,j)′O、(二)重要性然而,对于DOTS,边缘组合权重可以直接表示边缘组合重要性。 在我们的实验中有五条边,其中α是未归一化的操作权重。 手术-随着超网训练更新操作权重,逐渐集中于最优架构。一旦定义了边(i,j)的混合运算o′(i,j),中间节点xj就从它的所有前节点xi计算出来:Σxj=o<$(i,j)(xi).(三)I j令Ltrain和Lval为列车上的交叉熵损失十种不同的边缘组合 独立模式是训练与在SEC相同的设置。5.1,只是我们将训练周期的数量减少到300。图1a和图1c表明,独立模型的准确度与操作权重所指示的边缘重要性没有明显的排序相关性。这意味着DARTSDARTS在某些情况下无法超越随机搜索1 2 3 4X532x5X6x1 x214X1213142324 34拓扑搜索X34X6X6X5x1 x2X3操作检索X3X4X7X7O)12314clsing和validation集。 然后,我们可以公式u-直观地说,较大的操作权重只能表明12315XJnXJJ=ΣJ操作如图1b和图1d所示,所提出的边缘组合权重达到Tau = 0。73和Tau = 0。71人在CI-γ(i,j)=Σc∈Exj,(i,j)∈c1N(c)βc,(7)FAR10和CIFAR100,证明其有效性,边选择4. 方法上述分析指出了将操作与拓扑搜索耦合的局限性。在本节中,我们尝试通过解耦操作和拓扑搜索来解决这个问题。如图2所示,整体搜索分为操作搜索和拓扑搜索。在操作搜索阶段,我们搜索每个边缘上的最佳操作。在拓扑搜索阶段,我们搜索候选边的最佳组合。节中4.1中,我们介绍了如何构造拓扑搜索空间和支持灵活的边数。节中4.2中,我们描述了如何将现有的基于梯度的NAS方法融入DOTS的操作搜索中4.1. 拓扑搜索4.1.1边缘数量的手工策略节中3.2,讨论了将运算与拓扑搜索耦合的局限性因此,我们需要从操作权重中分离边缘重要性为了实现这一点,我们定义了一个拓扑搜索空间除了操作搜索空间。形式上,第j个中间节点xj通过边(i,j)连接到其所有的前级节点xi。遵循DARTS其中γ(i,j)是每条边的权重,N(c)是边组合c中的边数。我们对xj的所有输入边进行求和,通过边重要性权重γ进行加权,以获得其特征:Σxj=γ(i,j)·o<$(i,j)(xi),(8)I j其中o<$(i,j)表示边(i,j)上的混合运算。由于我们将操作和拓扑搜索过程解耦,因此o<$(i,j)混合了操作搜索所保留的候选操作,这将在第2节中讨论。4.2.正如ASAP [38]和SNAS [50]中所讨论的,超网和派生子网络之间的优化差距会导致性能下降。这两项工作都利用结构退火来弥合搜索过程中的优化差距。我们推广退火的想法,拓扑搜索。在Equ.(6)Tβ为退火温度。我们采用指数时间表进行退火:T(t)=T0θt,(9)其中它从初始温度T0开始,并且随着训练步长t的增加而衰减。DARTS使用双层优化来避免过拟合[35]。然而,[18,28]表明一级优化是稳定和准确的。在我们的拓扑搜索阶段,每个边缘上的操作大大减少,消除了过拟合的风险。因此,我们使用一级优化来更新网络权重w和拓扑权重β,其可以用公式表示为wt=wt−1−ηt<$wLtrain(wt −1,βt −1),Exj={i(i1,j),(i2,j)}|0
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Haskell编写的C-Minus编译器针对TM架构实现
- 水电模拟工具HydroElectric开发使用Matlab
- Vue与antd结合的后台管理系统分模块打包技术解析
- 微信小游戏开发新框架:SFramework_LayaAir
- AFO算法与GA/PSO在多式联运路径优化中的应用研究
- MapleLeaflet:Ruby中构建Leaflet.js地图的简易工具
- FontForge安装包下载指南
- 个人博客系统开发:设计、安全与管理功能解析
- SmartWiki-AmazeUI风格:自定义Markdown Wiki系统
- USB虚拟串口驱动助力刻字机高效运行
- 加拿大早期种子投资通用条款清单详解
- SSM与Layui结合的汽车租赁系统
- 探索混沌与精英引导结合的鲸鱼优化算法
- Scala教程详解:代码实例与实践操作指南
- Rails 4.0+ 资产管道集成 Handlebars.js 实例解析
- Python实现Spark计算矩阵向量的余弦相似度
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功