没有合适的资源?快使用搜索试试~ 我知道了~
119867.3EC-DARTS:在DARTS中引入均衡一致优化周琴琴1,奚武征1,曹柳娟1,钟必能2,滕喜3,张刚3,丁二瑞3,徐明亮4,季荣荣1,51厦门大学信息学院MAC实验室2广西师范大学多源信息挖掘安全广西重点实验室3百度公司计算机视觉技术部(VIS)4郑州大学、5厦门大学人工智能研究所摘要88基于松弛搜索空间的差分体系结构搜索(DARTS)可以有效地搜索高性能体系结构.然而,具有不同可训练参数的操作之间的不平衡竞争导致模型崩溃。此外,搜索和再训练阶段的不一致结构导致跨阶段评估不稳定。本文主要84807672(a) DARTS(二阶)(b) EC-DARTS(我们的)我把这些问题称为DARTS中的操作缺口和结构缺口为了缩小这些差距,我们建议在可微架构搜索(EC-DARTS)中引入相等和一致的优化。EC-DARTS将不同的操作按其类别进行分类,优化操作权重,缩小操作之间的差距。此外,我们引入了一个诱导的结构转换,以弥合结构之间的差距,在搜索和再训练阶段的模型结构。在CIFAR10和ImageNet上的大量实验证明了该方法的有效性。具体来说,在CIFAR 10上,我们实现了2.39%的测试误差,而在NVIDIA TITAN V上只有0.3 GPU天。在ImageNet上,我们的方法在移动设置下实现了23.6%的top-1错误。1. 介绍计算机科学界见证了深度神经网络(DNN)的显著成就,特别是在计算机视觉领域。然而,常见的DNN是由人类专家设计的,这需要大量的计算资源和特定领域的知识。最近,神经结构搜索(NAS)已经出现,以自动化的方式搜索神经结构,这极大地减轻了对人类专家的依赖,并取得了显着的性能。在各种NAS方法中,可区分神经Ar-*通讯作者:caoliujuan@xmu.edu.cn图1. 搜索之间的相关性评估排序和重新训练单个搜索的排序。我们总结了从不同颜色的DARTS和EC-DARTS的单次运行中架构搜索(DNAS)[11,37],例如微分结构搜索(DARTS)[26]吸引了大量的注意力,因为它提高了搜索神经网络的效率受DARTS的启发,有许多作品[5,43,7,6,23,44,1,46,21,2,42,10,45,36]遵循DARTS中的类似方案,并取得了相当大的性能增益。尽管取得了这些成就,它仍然是一个具有挑战性的问题,以优化搜索过程的DARTS由于优化的差距。第一间隙是由不同操作中包含的不同数量的可训练参数引起的操作间隙。第二个缺口是由搜索和重新训练阶段中采用的不一致模型结构引起的结构缺口。为了解释操作间隙,不同的操作包含不同数量的可训练参数。在这种情况下,优化具有较少可训练参数的操作的成本将更小,这意味着DARTS偏向于无参数操作(例如,DARTS)的优化。跳过连接和池化层)。因此,所搜索的架构可能由无参数操作主导,这导致较差的性能。为了解释结构差距,在搜索阶段混合在一次性模型中的操作将Kendall Tau = 0.1370肯德尔τ = 0.47((65((2(6,9674. 3.第三章。176,(60((9(79。079.24818019.79))(97.02,81.38)55(((((97.28,53.39)(50(96.76,75.42)(97.17(9,75。2个2.54、45)2.58)(96.98,49.32)4596.696.796.896.99797.197.29 九十六点六96.8 9797.297.497.6九十七点八再培训准确率(%)再培训准确率(%)检索准确率(%)11987×在再训练阶段被部分修剪。搜索和再训练阶段的结构不一致导致了结构缺口。这些优化差距已经指出了一些作品[39,43,7,6,23,1,46,21,11,37]。为了避免由这些优化差距引起的显著性能下降,已经提出了几种解决方案[43,7,6,23]。DARTS+ [23]直接将跳过连接限制为每个单元两个循环DARTS [43]在搜索阶段引入这些解决方案缓解了优化差距,同时要求强先验信息或额外的计算。PR-DARTS [46]仅缓解跳过连接和其他类别的操作之间的不公平竞争我们的CEN 侧 重 于 整 个 运 营 中 的 不 公 平 竞 争 , 并 将 PR-DARTS作为特例。本文提出了在可微体系结构搜索中引入均衡一致优化的方法为了缩小操作间隙,我们设计了交叉边缘归一化(CEN)来均衡每个操作的主导地位。因此,操作权重可以更好地反映每个操作的重要性。具体地,CEN按类别归一化操作的权重,例如,归一化来自不同边缘的3个3可分离卷积的权重。此外,CEN消除了不同类别业务之间的不平衡竞争,同时引入了同一类别业务之间的平衡竞争。为了缩小结构差距,诱导结构转换(IST)被提出来构建一个辅助模型,诱导模型结构类型在搜索阶段转换成一个类似的,在再训练阶段使用。为了量化通过我们的方法缓解优化差距的程度,我们采用Kendall Tau度量[17]来测量不同等级之间的相关性关于本文所用的KendallTau度规的三个模,请参考补充资料如图1所示,我们在从单次搜索中随机选择的10个架构之间进行相关性评估。与DARTS相比,我们的方法实现了更强的相关性之间的搜索排名和再培训排名在搜索过程中。我们的贡献总结如下。• 本文从操作和结构两个层次提出了可微体系结构搜索的均衡一致优化方法。• 我们设计了一个跨边缘归一化(CEN)的NAS。通过在平衡竞争条件下对操作权重进行归一化,我们的方法在操作权重和模型性能之间表现出更强的相关性。配备CEN后,有效地缓解了运行缺口。• 为了提高搜索和再训练阶段之间的一致性,我们引入了结构infor-通过诱导结构转变(IST)将再训练阶段变为搜索阶段。我们进一步在四个数据集上进行了综合实验,以验证我们的方法的有效性。具体来说,我们的方法在CIFAR10 , CIFAR100 , Tiny-ImageNet-200 和ImageNet上实现了最先进的性能。具体来说,我们的方法在CIFAR 10上的测试误差为2.39%,在ImageNet上的top-1误差为23.6%,模型大小为4.7M。2. 相关工作基于大量人工设计的神经网络所取得的令人印象深刻的进展[34,35,13,16,15],已经提出了一个名为Neu- ral Architecture Search(NAS)的新兴搜索领域,以提高模型设计的效率。根据搜索策略的类型,当前的NAS方法可以简单地分为:基于强化学习的方法[24,12,48,47],基于进化的方法[33,40,31,25],和基于梯度的方法[26,5,29,44,42,3,41,27]。基于强化学习的NAS。对于基于强化学习的NAS,强化学习用于训练指示神经网络的性能的控制器。然而,从零开始训练中间体系结构对计算资源的要求很高。例如,NASNet [47]需要2,000个GPU小时来搜索最先进的架构。基于演进的NAS。基于进化的NAS遵循不同的路径来搜索架构,其学习概率模型来对架构进行采样,并在搜索阶段使用遗传操作来生成后代。以这种方式,可以获得全局最优架构。类似于基于强化学习的NAS,基于进化的NAS [40,31]中的采样架构也需要大量的计算资源来从头开始训练。另外,这两种NAS的搜索空间是不可微的,这在优化中不是有效的。基于梯度的NAS。基于梯度的NAS将搜索空间放宽到可微形式,以在优化搜索过程中使用梯度DARTS是一种典型的基于梯度的NAS方法,它在松弛搜索空间上采用连续权值进行操作。之后,模型权重和操作权重以双层方式迭代优化因此,计算和时间消耗的搜索架构减少了几个数量级的DARTS。尽管DARTS实现了效率,但近年来已经揭示了DARTS的缺点[39,32]。[32]指出了搜索和再训练阶段中模型深度之间的差距,这导致再训练阶段中的次优性能。在[39]中,Xie等人认为DARTS面临的主要挑战来自操作-11988OO、、、okα=okoko1LLO2oMLXj=α(i,j)ok(xi),(5)在搜索和再训练阶段的时间间隔。解决DARTS的缺点仍然是一个悬而未决的问题在本文中,我们关注两个主要的优化差距:DARTS中的操作缺口和结构缺口。为了解决这些问题,本文提出了一种基于DARTS的差分NAS框架EC-DARTS。与DARTS相比,EC-DARTS以均衡优化的方式对操作权重进行归一化,并将搜索阶段的模型结构类型转化为再训练阶段的模型结构类型。3. 预赛为了更好地理解我们的方法,我们首先简要回顾了DARTS的搜索公式,并阐述了DARTS的优化缺口问题给定一个搜索空间,它包含M个不同的可达操作.以前的工作[48]提出搜索正常细胞和减少细胞,而不是直接搜索整个架构。该单元被表示为N个顺序节点的有向非循环图(DAG)节点表示表示(例如,卷积神经网络中的特征映射),并且从节点i到节点j的边与搜索空间中的所有操作相关联,该搜索空间将节点xi变换为xj。单元中有两个输入和我们将每个边缘中具有不同操作的混合物的架构表示为单次模型。具体地,在单次模型中,DARTS在搜索空间中的操作上利用softmax放松每个边缘的搜索,单元中的边缘被公式化为(i,j)在搜索阶段结束时,通过保留从所有连接节点收集的所有非零候选操作中的两个顶部操作来导出搜索的单元。在再训练阶段,DARTS堆叠一定数量的细胞来构建最终的架构。DARTS的搜索范式暴露了一些局限性[39,32]。正如我们在第1节中提到的,优化差距问题已经降低了DARTS的性能。如图1(a)所示,从DARTS的单次搜索 中 选 择 的 10 个 架 构 之 间 计 算 的 Kendall Tau 值 为0.13,这意味着DARTS中的搜索过程中的搜索排名和再训练排名是相对独立的。4. 方法在本节中,我们介绍如何通过分别在第4.1节和第4.2节中提出的交叉边缘归一化和诱导结构转变来减轻上述差距4.1. 交叉边缘归一化正如我们在第3节中所讨论的,DARTS使用称为操作权重的连续向量α来放松操作权重。具有不同可训练参数的候选操作彼此影响在这种情况下,存在固有的操作间隙,其使得无参数操作在所搜索的架构中占主导地位。具体地,如等式1所示,DARTS提出对相同边缘中的不同操作的权重进行归一化,这导致操作间隙。o¯(i,j)(xi)=ΣΣexp(αo )exp(α(i,j))o(xi),(1)在本文中,我们引入了一个简单而有效的策略,称为跨边缘归一化(CEN),以减轻这一点o∈Oo'∈Oo'其中α(i,j)表示从节点i到j的边处的操作o的权重。我们表示α=α(i,j),α(i,j),·· ·,α(i,j)作为操作权重向量在softmax过程之后从节点i到j。换句话说,α是选择对应候选操作以生成架构的概率。来自中间节点j的传入边的所有输入被聚集为问题.基于单次模型中每个节点的传入边,我们以交叉边的方式对操作进行分组,以在搜索阶段解耦不同的操作如图2所示,CEN根据操作的类别(总共8个类别)对权重交叉边缘进行归一化。形式上,对于特定的操作权重α(i,j),我们建议通过下式将权重归一化:Xj=Σi
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- C++多态实现机制详解:虚函数与早期绑定
- Java多线程与异常处理详解
- 校园导游系统:无向图实现最短路径探索
- SQL2005彻底删除指南:避免重装失败
- GTD时间管理法:提升效率与组织生活的关键
- Python进制转换全攻略:从10进制到16进制
- 商丘物流业区位优势探究:发展战略与机遇
- C语言实训:简单计算器程序设计
- Oracle SQL命令大全:用户管理、权限操作与查询
- Struts2配置详解与示例
- C#编程规范与最佳实践
- C语言面试常见问题解析
- 超声波测距技术详解:电路与程序设计
- 反激开关电源设计:UC3844与TL431优化稳压
- Cisco路由器配置全攻略
- SQLServer 2005 CTE递归教程:创建员工层级结构
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功