没有合适的资源?快使用搜索试试~ 我知道了~
1EIGEN:一种基于启发式遗传算法的神经网络结构搜索方法任健1,李哲2,杨建超3,徐宁4,杨天宝2,王伟。Foran11罗格斯大学2爱荷华大学3字节跳动AI实验室4亚马逊Go摘要设计神经网络的结构被认为是深度学习中最具挑战性的任务之一,特别是当关于任务域的先验知识很少时 。 在 本 文 中 , 我 们 提 出 了 一 种 启 发 式 GENetic(EIGEN)方法,该方法使用遗传、灭绝、模仿和基因复制的概念,从头开始搜索神经网络结构,初始化不好的简单网络和进化过程中强制的约束很少,因为我们假设没有关于任务域的先验知识。具体来说,我们首先使用初级继承将初始化较差的神经网络结构的种群快速进化为更多样化的种群,然后是基于初级继承网络的细粒度搜索的次级继承阶段Extinc- tion应用在这两个阶段,以减少计算成本。在整个进化过程中,模仿被用来帮助下级网络模仿上级网络的行为,基因复制被用来复制新结构的学习块,这两者都有助于找到更好的网络结构。实验结果表明,我们提出的方法可以实现类似或更好的性能相比,现有的遗传方法,大大降低了计算成本。例如,通过我们的方法在CIFAR-100数据集上发现的网络在120 GPU小时内达到78.1%的测试准确度,在超过65,536 GPU小时内达到77.0%的测试准确度[36]。1. 介绍深度卷积神经网络(CNN)在许多计算机视觉任务中取得了巨大的成功[14,25,39]。然而,为一项任务量身定制的手工网络结构可能在另一项任务上表现不佳。因此,通常需要大量的人力来为特定的任务设计合适的网络结构最近,有新兴的研究工作[2,3,6,22,32,51]关于自动搜索神经网络结构,用于图像识别任务。在本文中,我们专注于优化基于进化的算法[30,33,42,44],用于从头开始搜索初始化不佳的网络,例如具有一个全局池层的网络,并且在进化过程中几乎没有强制约束[36],因为我们假设没有关于任务域的先验知识。现有的工作沿这条线的研究遭受无论是令人望而却步的计算成本或不满意的性能相比,手工制作的网络结构。 在[36]中,在250GPU上搜索神经网络结构需要花费超过256小时,这对于一般用户来说是负担不起的。在[44]中,通过遗传方法最终学习的网络结构在CIFAR-10上达到了约77%的测试准确度,即使在微调某些参数并修改所发现的网络上的一些结构后可以获得92.9%的更好性能在[27]中,他们首先通过遗传方法中提出的积极选择策略和更多的突变操作来增加多样性,从而降低计算成本,从而实现更好的性能。在他们的工作中,他们将计算成本从超过64,000GPU小时(GPUH)大幅降低到几百GPUH。然而,他们的方法仍然遭受性能牺牲,例如,90. 5%的测试准确度,而94。CIFAR-10数据集上[36]的6%受生态系统中几个关键概念的启发,在本文中,我们尝试改进遗传方法,以在有限的计算成本[27]下实现与[36]相比更好的测试性能或与手工制作的网络结构[18]相比具有竞争力的性能,但不使用预先设计的架构[29,30,31,51]。受生态系统的初级、次级演替的启发[38],我们强制初始化较差的神经网络结构种群快速进化为包含网络结构的种群,并显著提高性能。在初级演替的第一阶段之后,我们在次级演替阶段对种群中更好的网络进行细粒度搜索在迭代过程中,我们引入了加速灭绝算法来提高搜索效率.在我们的方法中,我们应用90599060mimicry [16]的概念,帮助下级网络学习上级网络的行为,以获得更好的性能。此外,我们还引入了基因复制,以进一步利用发现的网络结构中出现的新层块本文件的贡献有四个方面,可归纳如下:• 本文提出了一种有效的遗传算法,可以在初始化较差的网络中从头开始搜索神经网络结构,并且不限制搜索空间。我们的方法可以大大降低计算成本相比,其他遗传方法,神经网络结构从头开始搜索。这与最近一些显著限制搜索空间的作品[13,31,34• 我们将生态系统中的初级和次级演替概念融入到我们的遗传框架中,在有限的计算成本下搜索最优的网络结构。• 我们从生态系统中探索模仿的概念,以帮助在进化过程中寻找更好的网络,并使用基因复制的概念来利用发现的有益结构。• 实验结果表明,所得到的神经网络结构与现有的基于遗传算法的方法相比具有更好的性能,与手工构造的网络结构相比具有竞争力.2. 相关工作人们对从头开始自动搜索神经网络结构的兴趣越来越大基于强化学习(RL)的方法在获得性能类似或优于人类设计架构的网络方面显示出有希望的结果[3,48,50]。Zoph等人建议在单元中搜索,包括正常单元和归约单元,其中最终架构基于堆叠单元[51]。基于细胞的搜索的思想在许多研究中被广泛采用[9,10,29,31,34,49]。为了降低高计算成本,已经努力避免在从头开始的搜索过程中训练所有网络[4,5,7,9,11,13,23,47]。然而,这些工作需要严格的手工设计的约束,以减少计算成本,和他们的比较不是本文的重点。另一方面,出现了一些研究[36,43,44],目标是使用进化方法进行网络搜索。为了与RL和基于进化的方法进行公平的比较,Real et al. [35]在RL和进化方法在相同的搜索空间下进行搜索。实验表明,进化方法比RL收敛得更快因此,在本文中,我们专注于基于遗传的方法来搜索最佳的神经网络结构。Suganuma等人提出了基于笛卡尔遗传规划的网络搜索[17]。然而,使用具有固定行和列的预定义网格,因为网络必须适合网格[43]。研究 在[27,36,44]中介绍了具有与我们相似的搜索空间的网络搜索,其中网络搜索从初始化较差的网络开始,并且在进化过程中使用很少的约束。由于在本文中,我们专注于通过遗传方法以有限的计算成本实现更好的性能,因此我们将从两个方面强调我们的工作与类似研究[27,36,44]之间的差异:降低计算成本和提高性能。在[36]中,作者将每个单独的网络结构作为图编码到 DNA 中 , 并 定 义 了 几 种 不 同 的 变 异 操 作 , 如IDENTITY和E-WEIGHTS,以应用于每个父网络来生成chil-child网络。这种遗传算法的本质是利用大量的计算在一个巨大的搜索空间中搜索最优的神经网络结构具体来说,整个搜索过程花费超过256小时,250个GPU,以实现94。在CIFAR-10数据集上学习的网络结构的测试准确率为6%,这对于一般用户来说是负担不起的。由于计算成本过高,在[44]中,作者对神经网络搜索空间施加了限制在他们的工作中,他们只学习网络结构的一个块,并在设计的例程中将学习的块堆叠一定的次数,以获得最佳的网络结构。通过这种机制,计算成本降低到了几百个GPU小时,然而,所获得的网络结构的测试性能并不令人满意,例如,所发现的网络在CIFAR-10上达到了77%的测试准确率,即使微调参数和修改学习的网络结构上的某些结构可以导致测试准确率为92.9%。在[27]中,他们的目标是在进化过程中以有限的计算成本从自动学习的网络结构中获得更好的性能与限制搜索空间以降低计算成本不同[12,44],他们提出了渐进选择策略,以在早期阶段消除弱神经网络结构然而,这种积极的选择策略可能会降低多样性,而多样性是遗传方法提高性能的本质。为了解决这个问题,他们定义了更多的变异操作,如添加全连接或添加池。最后,它们在CIFAR-10上将计算成本大幅降低至72 GPUHs。然而,他们的业绩仍有损失。9061approach.例如,在CIFAR-10数据集上,所发现网络的测试精度比[36]低约4%在本节的最后,我们强调我们的工作是在行[27]。受生态学概念的启发,我们提出了一种基于遗传进化的神经网络结构搜索方法(EIGEN),通过网络的快速连续演化来搜索网络结构,并探讨了网络结构演化过程中的拟态和基因复制现象。3. 方法我们搜索最佳神经网络结构的遗传方法遵循标准程序:i)初始化具有简单网络结构的第一代种群; ii)评估每个神经网络结构的适应度分数(适应度分数是用户为其目的定义的度量,例如验证精度、网络结构中的参数数量、推理阶段中的FLOP数量等); iii)应用选择策略来基于健康评分; iv)对幸存的亲本网络结构应用变异操作以创建用于下一代的子网络。重复最后三个步骤,直到适应度分数收敛。请注意,在我们的遗传方法中,个体由非循环图表示,每个节点表示某个层,例如卷积层,池化层和级联层。子网络可以通过突变过程从父网络生成一个种群在每一代中包含固定数量的网络,在我们的实验中设置为10。有关使用遗传方法搜索神经网络结构的详细信息,我们请读者参考[27]。在下文中,我们将生态概念的继承,灭绝,模仿和基因复制的遗传方法加速搜索神经网络结构。3.1. 快速更替我们的灵感来自于这样一个事实,即在生态系统中,种群在初级演替期间由多样化的快速生长的个体主导,而在次级演替中,种群由更具竞争力的个体主导[38]。因此,我们将每一代进化过程中的所有网络视为一个种群,并专注于进化种群而不是单个网络[36]。通过这种处理,我们提出了加速进化的两阶段快速演替,类似于生态演替。提出的快速演替包括一个初级演替和一个次级演替,初级演替开始于一个由初始化不好的个体组成的群落,该群落只包含一个全局池层,次级演替开始于初级演替之后。在初级演替中,探索了一个大的搜索空间,使社区以较快的速度增长在用于细粒度搜索的第二连续中使用小的搜索空间。为了描述如何探索搜索空间,我们将突变步长m定义为父代和子代之间的最大突变迭代。每个孩子的实际突变步骤是从[1,m]中统一选择的。在初级演替中,为了快速多样化-对于生长的个体,在每一代中使用大的突变步长,因此突变的子代可以彼此显著不同并且与它们的亲本显著不同。由于我们只在完成整个变异步骤后才进行训练过程,因此每次生成的计算成本不会随着步长的增加而在第二步,我们采用相对较小的变异步长对网络结构进行细粒度搜索每个突变步骤是从以下九个操作中随机选择的,包括:• 螺旋-回旋:卷积层被随机插入网络。插入的卷积层具有默认设置,内核大小为3×3,通道数为32,步幅为1。卷积层之后是批量归一化[21]和整流线性单元[25]。• 串联:连接层随机插入到网络中,其中两个底层共享相同大小的特征图。• 混合池:在网络中随机插入一个池化层,核大小为2×2,步长为2。• 移除-卷积:该操作随机移除卷积层。• 移除-合并:该操作会随机删除一个串联层。• 取出合并:该操作随机重新移动池层.• 更改通道数、更改字符串、更改过滤器大小:这三个操作修改卷积层中的超参数。信道的数量从{16,32,48,64,96}的列表中随机选择;步幅从{1,2}的列表中随机选择;并且滤波器大小从{1×1,3×3}中随机选择。在继承过程中,我们采用了《继承工作》中的思想,即只有最优秀的一代人才能生存下来。然而,与其在所有训练迭代后评估每一代中的种群,更有效的方法是在早期迭代中,特别是在9062.种群多样性导致不稳定表现的主要演替。基于一个更好的网络应该在早期训练阶段具有更好的适应度得分的假设为了便于演示,我们将n表示为每代中的群体大小,将T1和T2表示为地标迭代,将fg,i,T1和fg,i,T2表示为适应度分数(验证ac-fitness score)。算法1灭绝算法1:输入:T1,T2,v0,T1,v0,T2,p,q2:对于g=1···,G做3:获得Fg,T1={fg,i,T1,i=1,.,n},n=10,通过训练T1迭代的所有个体4:更新vg,T1 基于等式15:淘汰适应值小于vg,T1在我们的工作中使用的curacy)的第g代中的第6:获得Fg,T2={f g,i,T1 ,i=1,…通过训练训练T1和T2迭代后的运算,vg,T1 和vg,T2作为在T1和T2消除较弱网络的阈值,在第G代的世代。在第g代中,在训练T1和T2迭代之后,我们具有所有网络Fg,T1={fg,i,T1,i=1,···,n}和Fg,T2={fg,i,T2,i=1,···,n··}的适应度得分,关于iv ely。请注意,由于较弱的网络在T1之后被消除,因此n可以小于n在T2迭代7:更新vg,T2 基于等式28:淘汰适应值小于vg,T29:训练剩下的个体进行T3迭代,并进行自我验证。择优录取10:结束迭代阈值vg,T1和vg,T2在第g次更新。迭代为.vg,T1=maxS(Fg,T1)p,vg−1,T1Σ(一)和.vg,T2=maxS(Fg,T2)q,vg−1,T2Σ(二)其中,S(?)是值列表上的降序排序运算符,下标p和q表示排序运算后的第p个值和第q个值,p和q是超参数。对于每一代,我们执行以下步骤,直到适应度值收敛:(i)训练T1迭代的种群,消除适应度值小于vg,T1的个体;(ii)训练T2迭代的剩余种群,区分适应度值小于vg,T2的种群;(iii)存活的个体被进一步训练直到收敛,并且选择最好的个体作为下一代的亲本。消光算法的细节在算法1中描述。3.2. 拟态在生物进化中,拟态是一个物种从另一个物种学习行为的现象。例如,蛾毛虫学会模仿蛇的身体动作,这样它们就可以吓跑捕食者,而捕食者通常是蛇的猎物[16]。与模仿的类比表明,我们可以迫使低级网络在进化过程中采用(学习)高级网络的行为,例如特征图[37,45]或logits [8,19在我们的方法中,我们通过生成类似的图1:重复的例子。左边的图像显示了快速连续之后发现的结构,其中每个块包括具有相同大小的特征图的许多层中间和右边的图像是两个复制的例子,Block 2经历了不同的组合以创建新的架构。[19]中提出的知识蒸馏更具体地说,对于给定的训练图像x和一个热类标签y,我们定义t为从预先训练的高级网络预测的logits,s为由低级网络预测的logits 我们使用以下定义的LK作为损失函数来编码进化过程中的下级和上级网络之间的预测差异以及下级网络预测和地面实况注释之间的差异:在进化过程中logits的分布。由于从上级网络学习logits的分布为下级网络结构提供了更多的自由,因此,LK=(1−α) LC(y,H(s))+αT2LC.sΣ。tΣΣHT,H T学习特征图的统计量。 这其实是(三)9063模型参数。C10+公司简介补偿成本MAXOUT [15]-百分之九十点七百分之六十一点四-[28]第二十八话-91.2%64.3%-[40]第四十话1.3米92.8%百分之六十六点三-[26]第二十六话-百分之九十二65.4%-高速公路[41]2.3米92.3%67.6%-RESNET [18]1.7米百分之九十三点四百分之七十二点八-DENSENET(k=40,l=100)[20]25.6百万96.5%82.8%-教师网络17.2百万96.0%82.0%-EDEN [12]0.2 M百分之七十四点五--遗传CNN [44]-92.9%71.0%408 GPUHLS-Evolution [36]LS-Evolution [36]5.4米40.4百万94.6%--77.0%64,000 GPUH>65,536GPUH[27]第二十七话[27]第二十七话--百分之九十点五--百分之六十六点九72个GPUH136个GPUH本征2.6米百分之九十四点六-48个GPUH本征11.8百万-78.1%120 GPUH表1:与手工设计的架构和使用遗传算法自动发现的架构的比较。C10+和C100+列分别表示在数据增强的CIFAR-10和CIFAR-100数据集上实现的测试准确度。参数。列指示发现的网络中的参数数。其中H(. 是softmax函数,LC是两个输入概率向量的交叉熵,使得ΣLC(y,H(s))= −yklogH(sk),(4)Kα是控制两个损失项的比率,T是超参数。我们采用了来自知识网络[19]的术语,其中学生网络和教师网络分别代表劣网络和优网络我们把T固定为常数。虽然神经网络搜索的目标是找到最佳架构,但当我们想要为推理计算成本有限的应用程序找到一个小型网络时,模仿特别有用。3.3. 基因重复在最初的继承过程中,网络架构的快速变化导致了在DNA中解码的新的有益结构[36],这些结构在以前的手工设计的网络中没有显示出来。为了进一步利用自动发现的结构,我们提出了一种名为复制的额外突变操作来9064模拟基因复制的过程,因为它已被证明是获得新基因的重要机制,并可能导致进化创新[46]。在我们的实现中,我们将编码的DNA视为块的组合对于每个层,激活图定义为N×D×W×H,其中N、D、W、H表示批次大小、深度、宽度和高度,块包括具有相同W和H的激活图的层。如图1所示,通过复制以几种方式组合块,从快速连续中发现的最佳结构可以变异成不同的网络我们复制整个块而不是单个层,因为块包含自动发现的有益结构,而简单的层复制已经是连续的4. 实验结果及分析在本节中,我们报告了使用EIGEN进行神经网络结构搜索的实验结果。我们首先在4.1小节中描述了实验设置,包括数据集预处理和训练策略,并在4.2小节中显示了比较结果。在此之后,我们分析了4.3小节中关于我们方法的每个组成部分的实验结果。4.1. 实验装置数据集。实验在两个基准数据集上进行,包括CIFAR-10 [24]和CIFAR- 100 [24]。CIFAR-10数据集包含10个类,50000张训练图像和10000张测试图像。图像大小为32×32。通过全局对比度归一化(GCN)和ZCA白化应用数据增强[15]。 CIFAR-100数据集类似于9065(a) 在CIFAR-10数据集上使用所提出的方法发现的网络架构,包括卷积层,级联层和全局池化层。(b) BLOCK的详细架构如(a)所示。图2:CIFAR-10数据集的神经网络结构CIFAR-10除了它包括100类。培训策略和细节。在训练过程中,我们使用小批量随机梯度下降(SGD)来训练每个单独的网络,批量大小为128,动量为0.9,权重衰减为0.0005。每个网络最多训练25000次迭代.初始学习率为0.1,在15,000次迭代和20,000次迭代时分别设置为0.01和0.001。算法1中的参数设置为T1=5,000,T2=15,000,T3=5,000,p=5,q=2.对于模仿,我们在等式中将T设为5,α设为0.9 。 3 . 第 三 章 。 教 师 网 络 是 四 个 Wide-DenseNet(k=60,l=40)的集合。适应度得分是来自验证集的验证准确度当适应度得分达到饱和时,初级演替结束,然后次级演替开始。当适应度分数收敛时,整个进化过程终止。训练使用TensorFlow[1]进行。我们直接采用CIFAR-10数据集上开发的超参数到CIFAR-100数据集。实验在具有一个Intel Xeon E5-2680 v4 2.40GHz CPU和一个Nvidia Tesla P100 GPU的机器上运行。4.2. 比较结果表1所示的实验结果证明了所提出的方法与手工设计的网络具有竞争力与基于进化的算法相比,我们可以以最小的计算代价获得最佳的结果。例如,与[36]相比,我们在两个基准数据集上获得了类似的结果,但我们的方法快了1,000倍此外,我们的方法在两个数据集上找到的网络参数的数量比LS-Evolution小两倍多[36]。我们在图2中显示了使用我们提出的方法在CIFAR-10数据集上发现的网络架构,其中图2a显示了engire网络,图2b表示图2a的块中的详细架构。4.3. 分析主要继承的影响。我们在图3中显示了初级演替的不同突变步长的结果。实线表示五次实验中最佳网络的平均测试准确度,阴影区域表示五次实验中每代的标准差σ较大的变异步长,如100,导致更快的收敛的适应度得分com。9066测试准确度(%)100908070605040302010CIFAR-101.41.21.00.80.60.40.20.00 10 20 30 40 50 60 70一代80(a)采用1、2、10和70的突变步长进行初级演替100.6050403020100(a) 在CIFAR-10数据集上进行实验。CIFAR-10010864200 10 20 30 40 50 60 70 80 90一代(b) 在CIFAR-100数据集上进行实验。(b)初始演替采用突变步长为50、100和200。图3:主要演替的不同突变步长对CIFAR-10的影响。实线示出了在每代中具有最高准确度每条线周围的阴影区域具有标准偏差±σ的宽度。一般而言,变异步长越大,适应度值收敛越突变步长越小,突变率越高,如图3a所示。然而,如图3b所示,通过使用太大的突变步长(例如200)没有观察到进一步的改善。二次继承的效果。并进一步分析了次生演替在演化过程中的作用。在一次继承之后,我们利用二次继承来搜索具有较小搜索空间的网络。我们采用小变异步长的目的,细粒度搜索的基础上幸存的网络从上一代。图4显示了示例的演变过程图4:CIFAR-10(a)和CIFAR-100(b)的快速继任进展蓝线是每一代最佳个体的测试表现灰点表示每一代个体的参数数量。红线表示主要继承结束的世代。在CIFAR-10和CIFAR-100上进行了测试。我们使用突变步长100和10的初级继承和二级继承,分别。图中的蓝线显示了每一代最佳个体的表现灰点表示每一代种群的参数数量,红线表示初级演替的终点。表2中所示的二次演替的两个数据集上的准确度表明,小的突变步长有助于在快速演替中搜索更好的结构。模仿的分析为了分析模仿的影响,我们考虑的情况下,只有初级和次级演替的进化过程中应用复制和模仿都被禁用。我们将这种方法称为本征无模仿和复制。我们比较本征w/o模仿和复制的方法,其中模仿是启用,并表示为本征w/o复制。EIGEN W/O的比较测试准确度(%)参数数量(M)参数数量(M)9067继承C10+公司简介原生演替百分之九十三点三百分之七十四点七方法C10+公司简介本征网络(无模仿)百分之九十三点三73.9%表2:演替过程中次生演替的结果在初始进化后,采用较小的变异步长搜索较优的网络结构。CIFAR-10和CIFAR-100的精度都得到了提高。方法C10+公司简介本征,无模仿和重复92.4%74.8%EIGEN w/o重复百分之九十三点七百分之七十六点九表3:raipd演替过程中拟态的分析。表3中的模仿和复制以及EIGEN w/o复制证明了模仿在快速演替过程中的有效性基因复制的影响。在快速连续之后,应用复制操作来利用自动发现的为了分析基因复制的影响,我们将没有复制的方法表示为EIGEN w/o复制,并在表4中显示了CIFAR- 10和CIFAR-100的结果。虽然通过复制在网络中引入了更多的参数,但是块中包含的有益结构实际上可以通过复制对网络性能做出贡献。表4:对CIFAR-10和CIFAR-100的基因复制操作的分析。在两个数据集上的性能随着从基因重复中发现的网络上的更多参数而得到改善此外,我们还分析了基因复制后模仿对网络的影响。我们把用这种方法找到的最佳网络称为本征网络.利 用 模 仿 从 头 开 始 训 练 网 络 ( EIGEN 网 络 wmimery),与没有模仿从头开始训练的网络(EIGEN网络w/o mimery)相比,网络在CIFAR-10和CIFAR-100上分别获得了1.3%和4.2%的性能提高。表5:基因复制后的拟态分析。5. 讨论和结论在本文中,我们提出了一种启发式的GE- Netic方法(EIGEN),用于从零开始自动搜索神经网络架构,初始化网络较差我们的搜索空间遵循[27,36]中的工作,并且我们在我们的方法中引入了快速继承,模仿和基因复制,以使搜索更加高效和有效。快速的进化和模仿可以使网络种群在有限的计算资源下进化到最优状态。在基因复制的帮助下,所建立的网络的性能可以在不牺牲任何计算成本的情况下得到提高。实验结果表明,该方法在CIFAR-10和CIFAR-100上取得了较好的效果,且计算量明显低于其他遗传算法。不可否认,与其他搜索神经网络算法[31,34]相比,这些算法的目标是在有限的计算资源下搜索网络,我们的工作具有略高的错误率。但是我们的遗传算法几乎不需要人类专家的先验领域知识,与其他半自动搜索神经网络方法[ 31,34 ]相比,它更这种比较虽然不公平,但仍然表明需要进行更多的探索,以提高基于遗传的方法从头开始搜索神经网络的效率,为未来的研究奠定基础。引用[1] Mart´ın Abadi, Paul Barham , Jianmin Chen ,ZhifengChen , Andy Davis , Jeffrey Dean , Matthieu Devin ,Sanjay Ghe-mawat,Geoffrey Irving,Michael Isard,etal. Tensorflow:一个大规模机器学习系统。在OSDI,第16卷,第265-283页,2016中。6[2] FilipeAssuncao , NunoLourenc o , PenousalMachado ,andBernardete Ribeiro.使用gp是整洁的:不断发展的组合模式生产函数。在欧洲遗传规划会议上,第3-18页Springer,2018. 1[3] Bowen Baker 、 Otkrist Gupta 、 Nikhil Naik 和 RameshRaskar。 使用rein方法C10+(参数)公司简介(参数)EIGEN(无重复)93.7%(1.2个月)76.9%(6.1M)本征94.6%(26个月)78.1%(11.8M)9068学习。arXiv预印本arXiv:1611.02167,2016。一、二[4] Bowen Baker , Otkrist Gupta , Ramesh Raskar , andNikhil Naik.使用性能预测加速神经结构搜索。arXiv预印本arXiv:1705.10823,2017。2[5] Gabriel Bender,Pieter-Jan Kindermans,Barret Zoph,Vijay Vasudevan,and Quoc Le.理解和简化一次性架构搜索。在机器学习国际会议上,第549-558页2[6] James Bergstra,Daniel Yamins,and David Daniel Cox.做一个模型搜索的科学:视觉架构的数百个维度的超参数优化。2013. 1[7] Andrew Brock,Theo Lim,J.M.里奇和尼克·韦斯顿SMASH:通过超网络进行一次性模型架构搜索在2018年学习代表国际会议上。2[8] 克里斯蒂安·布西卢、里奇·卡鲁阿纳和亚历山德鲁·尼古列斯库-米兹尔。模型压缩。第12届ACM SIGKDD知识发现和数据挖掘国际会议集,第535-541页。ACM,2006年。4[9] Han Cai,Tianyao Chen,Weinan Zhang,Yong Yu,andJun Wang.通过网络变换进行有效的体系结构搜索。AAAI,2018年。2[10] 韩才,杨嘉诚,张渭南,宋涵,永玉。路径级网络转换,用于高效的体系结构搜索。 arXiv预印本arXiv:1806.02639,2018。2[11] Tobias Domhan , Jost Tobias Springenberg , and FrankHutter.通过学习曲线的外推来加速深度神经网络的自动超参数优化。在IJCAI,第15卷,第3460-8页,2015中。2[12] Emmanuel Dufourq和Bruce A Bassett。Eden:Evolution-ary Deep Networks for Efficient Machine Learning.在南非专 利 认 可 协 会 和 机 器 人 与 机 电 一 体 化 ( PRASA-RobMech),2017年,第110- 115页。IEEE,2017年。二、五[13] Thomas Elsken,Jan-Hendrik Metzen,and Frank Hutter.简单高 效的卷积神经 网络架构搜 索。arXiv预印本arXiv:1711.04528,2017。2[14] 罗斯·格希克。快速R-CNN。在Proceedings of the IEEEinternational conference on computer vision , 第 1440-1448页,2015中。1[15] Ian J Goodfellow,David Warde-Farley,Mehdi Mirza,Aaron Courville,and Yoonne Bengio.Maxout网络。在第30届国际机器学习国际会议的会议论文集-第28卷,第III-1319页。JMLR。org,2013. 5[16] HF Greeney,LA Dyer和AM Smilanich。鳞翅目幼虫的取食是危险的:毛毛虫对天敌的化学、生理、形态和行为防御综述无脊椎动物生存杂志,9(1),2012年。二、四[17] 西蒙·哈丁使用遗传规划的图形处理器单元上的图像过滤器的进化。演化计算,2008年。CEC 2008年。(IEEE世界计 算 智 能 大 会 ( CongressonComputationalIntelligence ) 。 IEEE Congress on , pages 1921-1928.IEEE,2008年。2[18] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition,第770-778页,2016中。一、五[19] Geoffrey Hinton Oriol Vinyals和Jeff Dean。 提取神经网络中的知识。arXiv预印本arXiv:1503.02531,2015。四、五[20] Gao Huang , Zhuang Liu , Kilian Q Weinberger , andLaurens van der Maaten.密集连接的卷积网络。在IEEE计算机视觉和模式识别会议论文集,第1卷,第3页,2017年。五、六[21] Sergey Ioffe和Christian Szegedy。批次标准化:通过减少内部协变量偏移来加速深度网络训练。arXiv预印本arXiv:1502.03167,2015。3[22] Roxana Istrate,Florian Scheidegger,Giovanni Mariani,D Nikolopoulos , Costas Bekas , and A Cristiano IMalossi. Tapas:用于架构搜索的Train-less精度预测器。arXiv预印本arXiv:1806.00250,2018。1[23] Aaron Klein,Stefan Falkner,Jost Tobias Springenberg,and Frank Hutter.贝叶斯神经网络的学习曲线预测2016.2[24] 亚历克斯·克列日夫斯基和杰弗里·辛顿从微小的图像中学习多层特征。2009. 5[25] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络的图像网分类。神经信息处理系统的进展,第1097-1105页,2012年。第1、3条[26] Chen-Yu Lee , Saining Xie , Patrick Gallagher ,Zhengyou Zhang,and Zhuowen Tu.深度监督网络。人工智能和统计,第562-570页,2015年。5[27] Zhe Li , Xuehan Xiong , Zhou Ren , Ning Zhang ,Xiaoyu Wang,and Tianbo Yang.计算约束下搜索神经网络结构的一种主动遗传规划方法.arXiv预印本arXiv:1806.00851,2018。一二三五八[28] Min Lin,Qiang Chen,and Shuicheng Yan.网络中的网络。arXiv预印本arXiv:1312.4400,2013。5[29] Chenxi Liu,Barret Zoph,Jonathon Shlens,Wei Hua,Li-Jia Li,Li Fei-Fei,Alan Yuille,Jonathan Huang,and Kevin Murphy.渐进式神经架构搜索。arXiv预印本arXiv:1712.00559,2017。一、二[30] Hanxiao Liu , Karen Simonyan , Oriol Vinyals ,Chrisantha Fernando,and Koray Kavukcuoglu.用于高效体 系 结 构 搜 索 的 分 层 表 示 。 arXiv 预 印 本 arXiv :1711.00436,2017。1[31] 柳寒笑,凯伦西蒙尼扬,杨一鸣。 Darts:差异化架构搜索。arXiv预印本arXiv:1806.09055,2018. 一、二、八[32] Hector Mendoza 、 Aaron Klein 、 Matthias Feurer 、 JostTobias Springenberg和Frank Hutter。自动调整神经网9069络。自动机器学习研讨会,第58-65页,2016年。1[33] Risto Miikkulainen,Jason Liang,Elliot Meyerson,Aditya Rawal,Daniel Fink,Olivier Francon,BalaRaju,Hormoz Shahrzad,Arshak Navruzyan,NigelDuffy,et al. 演变9070深度神经网络神经网络和脑计算时代的人工智能,第293-312页爱思唯尔,2019年。1[34] Hieu Pham、Melody Y Guan、Barret Zoph、Quoc V Le和Jeff Dean。通过参数共享进行高效的神经架构搜索。arXiv预印本arXiv:1802.03268,2018。二、八[35] Esteban Real , Alok Aggarwal , Yanping Huang , andQuoc V Le.用于图像分类器架构搜索的正则化进化。arXiv预印本arXiv:1802.01548,2018。2[36] Esteban Real 、 Sherry Moore 、 Andrew Selle 、 SaurabhSaxena、Yutaka Leon Suematsu、Jie Tan、Quoc V Le和Alexey Ku- rakin。图像分类器的大规模进化。国际机器学习会议,第2902-2911页一二三五六八[37] Adriana Romero 、 Nicolas Ballas 、 Samira EbrahimiKahou 、 Antoine Chassang 、 Carlo Gatta 和 YoshuaBengio。Fitnets:薄而深的网的提示。arXiv预印本arXiv:1412.6550,2014。4[38] Sarda Sahney和Michael J Benton。从有史以来最严重的大灭绝中恢复过来。 伦敦皇家学会学报B:BiologicalSciences,275(1636):759-765,2008. 第1、3条[39] Karen Simonyan和Andrew Zisserman用于大规模图像识别 的 非 常 深 的 卷 积 网 络 。 arXiv 预 印 本 arXiv :1409.1556,2014。1[40] J Springenberg,Alexey Dosovitskiy,Thomas Brox,andM Riedmiller.追求简单:全卷积网。在ICLR(研讨会轨道),2015年。5[41] 鲁佩什·库马尔·斯·ivastav a,克劳斯·格雷·ff,尤尔根·施密 德 · 胡 贝 尔 . 高 速
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Java集合ArrayList实现字符串管理及效果展示
- 实现2D3D相机拾取射线的关键技术
- LiveLy-公寓管理门户:创新体验与技术实现
- 易语言打造的快捷禁止程序运行小工具
- Microgateway核心:实现配置和插件的主端口转发
- 掌握Java基本操作:增删查改入门代码详解
- Apache Tomcat 7.0.109 Windows版下载指南
- Qt实现文件系统浏览器界面设计与功能开发
- ReactJS新手实验:搭建与运行教程
- 探索生成艺术:几个月创意Processing实验
- Django框架下Cisco IOx平台实战开发案例源码解析
- 在Linux环境下配置Java版VTK开发环境
- 29街网上城市公司网站系统v1.0:企业建站全面解决方案
- WordPress CMB2插件的Suggest字段类型使用教程
- TCP协议实现的Java桌面聊天客户端应用
- ANR-WatchDog: 检测Android应用无响应并报告异常
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功