没有合适的资源?快使用搜索试试~ 我知道了~
1教师指导的架构搜索普亚·巴希万麦戈文脑研究所(McGovern Institute forBrainResearch)MITbashivan@mit.edu阿姆斯特丹大学邮箱:mark.tensen@ student.uva.nl詹姆斯·J·迪卡洛脑与认知科学系和麦戈文脑研究MITdicarlo@mit.edu摘要最近在计算机视觉神经网络中的大部分改进都是由于发现了新的网络架构。大多数先前的工作已经使用候选模型在有限训练之后的性能来以可行的方式自动引导搜索通过测量具有未知详细架构的高性能网络(例如,灵长类视觉系统)?作为实现这一目标的一步,我们使用代表相似性分析来评估候选网络与(固定的,高性能的)教师网络的内部激活的相似性。我们表明,采用这种评价指标可以产生一个数量级的搜索效率超过性能导向的方法。我们的方法找到了一种卷积细胞结构,其性能与以前使用其他方法发现的相似,但总计算成本比神经架构搜索(NAS)低两个数量级,比progrance低四倍以上被动神经结构搜索(PNAS)。我们进一步表明,从灵长类动物视觉系统的仅10300个神经元的测量提供了足够的信号,以找到一个网络与Imagenet的top-1错误,这是显着低于单独的性能引导的架构搜索实现。这些结果表明,代表性匹配可以用来加速网络架构搜索的情况下,其中一个有访问的一些或所有的内部表示,一个教师网络的利益,如大脑1. 介绍深度卷积神经网络(CNN)用于视觉分类的准确性已经从2012年的水平(AlexNet [25])大幅提高到目前最 先 进 的 CNN , 如 ResNet [19] , Inception [41] ,DenseNet [21]。这一进展主要是由于发现了新的网络架构。然而,即使前馈神经网络架构的空间基本上是无限的,并且鉴于这种复杂性,更好的架构的设计仍然是一项挑战和耗时的任务。近年来已经提出了许多方法来自动发现神经网络架构,包括随机搜索[32],强化学习[44,45],进化[37,36]和基于顺序模型的优化(SMBO)[28,8]。这些方法通过从超参数空间迭代采样、训练相应的架构、在验证集上对其进行评估以及使用这些分数的搜索历史来指导进一步的架构采样来操作。但是,即使最近在搜索效率方面有所改进,架构搜索的总成本仍然超出了许多团体的能力范围,从而阻碍了这一领域的研究(例如,最近在这一领域的一些工作已经花费了超过20k GPU小时用于每个搜索实验[36,44])。是什么驱动了运行搜索的总计算成本?对于当前的架构搜索过程(上文),每个采样架构的参数必须在其性能可以被评估之前被因此,为了降低总成本,每个体系结构通常仅部分地被训练到过早状态,并且其过早性能被用作53205321其成熟的性能(即如果实际上是完全训练的话它将实现的性能)。因为搜索目标是感兴趣的任务中的高成熟性能,所以架构评估分数的最自然选择是其过早性能。但是,这可能不是评价分数的最佳选择。例如,已经观察到,随着网络的训练,多组内部特征开始在网络层上出现,并且这些内部特征的质量决定了神经网络作为一个整体的最终行为性能。基于这些观察,我们认为,如果我们能够评估网络内部特征的质量,但是,如果没有一组高质量的内部特征作为参考,我们如何确定网络内部特征的质量?这里提出的主要思想是使用一个高性能的“教师”网络的我们提出的方法受到先前工作的启发,这些工作表明高性能教师网络的内部表示可以用于优化更小,更浅或更薄的学生网络的参数[3,20,38,13]。这也是受到这样一个事实的启发,即这种内部表征措施可以潜在地从灵长类动物的大脑中获得,因此可以作为一个最终的老师。虽然我们同时记录大量神经元的能力正在快速增长[40],但这些测量已经被证明与CNN的内部激活具有显着的相似性[43,39]。跨模型或在模型与大脑之间比较表示的一个挑战是缺乏特征(或大脑中的表征相似性分析(RSA)是一种将表征行为总结为称为表征相异矩阵(RDM)的矩阵的工具,该矩阵嵌入响应于不同输入的激活之间的距离。在这样做时,它从单个特征(即,激活),并因此使我们能够比较源自不同模型或甚至模型与生物有机体之间的表示。基于RDM度量,我们提出了一种基于生成和评价的教师引导的体系结构搜索方法(TG-SAGE)。具体而言,TG-SAGE通过评估候选网络中的表示与具有未知架构参数但可观察内部状态的固定高性能教师网络我们发现,当这个评估与通常的性能评估(上图)相结合时,我们可以预测出少了一个数量级的采样架构过早的训练,因此总的计算成本降低了一个数量级。然后,我们使用该观察结果对不同的架构搜索空间执行TG-SAGE的多次运行,以确认TG-SAGE确实可以发现与仅性能搜索方法发现的网络架构相当的更重要的是,当将灵长类动物视觉系统视为教师网络时,仅从几百个神经位点测量神经活性,TG-SAGE发现一个网络的Imagenet top-1错误比性能引导的架构搜索低5%。在第二节中,我们回顾了一些以前的研究,在神经网络的结构,搜索和使用RSA比较人工和生物神经网络。在第3节中,我们描述了表征相异性矩阵以及如何在TG-SAGE中使用该度量来比较表征。在第4节中,我们显示了TG-SAGE的有效性然后,我们表明,在没有一个教师模型,我们如何使用大脑作为教师的测量来指导建筑搜索。2. 以前的工作最近有几项关于使用神经网络学习来设计高性能神经 网 络 架 构 的 研 究 [4 , 44 , 45] 。 神 经 架 构 搜 索(NAS)[44,45]利用使用REINFORCE训练的长短期记忆网络(LSTM)来学习设计用于对象识别和自然语言处理任务的神经网络架构。Real等人[37,36]使用了进化方法,从一个网络池中提取样本,参与成对竞争游戏。虽然大多数这些工作都集中在发现更高性能的架构,有一些努力强调超参数搜索的计算效率。为了减少架构搜索的计算成本,Brock等人。[10]提出使用超网络[18]来预测任何任意候选架构的层权重,而不是从随机初始值重新训练。Hyperband [27]将超参数搜索公式化为资源分配问题,并通过控制资源量(例如,训练)分配给每个样本。类似地,提出了其他几种方法,通过在训练期间引入早期停止标准[5]或外推学习曲线[14]来提高搜索效率这些方法与我们提出的方法密切相关,因为它们的主要重点是降低每个样本的训练成本。几种最近的方法[31,29,42,1,17]提出在所有候选网络中共享可训练参数5322i、j工作,并在搜索期间联合优化超参数和网络权重。虽然这些方法导致总搜索成本的显著降低,但它们只能应用于其中可训练权重的数量不会由于超参数选择而改变的网络架构的空间(例如,当CNN中滤波器的数量固定时)。另一方面,越来越多的文献表明,在各种分类任务中训练的深度神经网络在预测灵长类动物的神经和行为反应模式方面具有显着的能力。这些模型能够预测灵长类动物视觉[43,12,11]和听觉皮层[23]部分的神经反应,解释物体相似性判断的模式[35,22],灵长类动物的形状敏感性[26],甚至控制中级视觉皮层区域的神经活动[6]。此外,已经表明,深度人工神经网络的分类性能与它们预测沿着腹侧视觉通路的神经反应的能力强烈相关[43,2]。尽管如此,尽管这些网络在很大程度上促进了我们对灵长类大脑许多部分神经计算的理解,但两者之间仍然存在显着差异[16,34]。受这些观察结果的启发,最近的一些研究利用大脑测量作为约束来改变人工神经网络的行为,使其更类似于大脑[15,9]。3. 方法3.1. 表征相异性矩阵表征相异矩阵(RDM)[24]是为表征计算的嵌入,该表征量化了该表征空间中响应于一组输入或输入类别的激活模式之间的相异性。对于给定的输入i,在一个层处的可以表示为向量V→=f(i)∈Rna。类似地,响应于一组ni个输入的激活的集合可以表示为矩阵F∈Rni×na,该矩阵包含响应于ni个输入测量的ni个激活对于给定的激活矩阵F,我们通过计算每对激活向量之间的成对距离(即,对应于激活矩阵F)中的行i和j的F i和Fj)使用类似于相关残差的距离度量RDM构成了从单个激活中抽象出来的表示空间的嵌入。因此,它允许我们比较不同模型中的表示,甚至模型和生物有机体之间的表示[43,12]。一旦RDM被计算用于两个代表性空间(例如,对于每个学生和教师网络中的层),我们可以通过计算相关系数(例如,Pearson 's r)之间的关系。3.2. 教师表征相似性作为绩效替代与神经网络架构搜索相关的最大部分成本来自于训练采样网络,这与在网络上执行的训练步骤(SGD更新)的数量成比例。由于完全训练每个采样网络的成本很高,在大多数情况下,代理分数被用作成熟性能的代理。代理值和匹配值之间的相关性可能会影响体系结构搜索性能,因为较差的代理值可能会将搜索算法 引 导 到 空 间 的 次 优 区 域 先 前 在 卷 积 神 经 网 络(CNN)空间中的架构搜索的工作已经与在大约20个时期的训练之后的过早虽然20个epoch远低于用于完全训练CNN网络的通常epoch数量(300- 900 epoch),但它仍然迫使进行架构搜索的成本很高。我们建议,在训练的早期阶段(例如,在几百次SGD迭代之后),此时开始形成特征,但是网络还没有可靠地执行任务。该程序的概述如图所示1.一、我们通过测量不同层(例如MC1-C4)的RDM与从教师网络中提取的RDM(例如MT1-T3)之间的相似性来评估每个采样的候选模型为此,我们计算网络中所有层的RDM,然后计算所有学生和教师RDM对之间的相关性为了针对教师网络中的给定层对候选网络进行评分,我们考虑在学生网络的所有层上计算的与教师层的最高RDM 相似性(即,S1−S3;Si=maXj(corr(MTi,MCj)。然后,我们构建一个整体教师相似性得分MF∈Rni×ni,MF= 1 −corr(Fi,Fj)(1)通过取RDM分数的平均值,我们称之为最后,我们定义了组合当计算不同类别(而不是单个输入)的RDM时,我们用Fc代替矩阵F,其中每行c包含类别c中所有输入的平均激活模式。表现和TG评分(P+TG),其以P+αTG的形式表示为过早表现和TG评分的加权和。综合评分指导架构搜索,以最大限度地提高性能和代表性,5323教师网络代表性相异矩阵(RDM)动物(1-8)船(1-8)汽车(1-8)椅子(1-8)面(1-8)水果(1-8)飞机(1-8)表(1-8)图1.左-具有8个对象类别和每个类别8个对象实例的数据集的示例RDM矩阵的图示。权- TG-SAGE方法概述。候选网络和教师网络的RDM之间的相关性与候选网络过早性能相结合,以形成P+TG分数,用于指导架构搜索。与教师建筑的相似性α参数可用于调整TG评分与性能评分相比的相对权重。我们认为教师体系结构是任何高性能的网络,具有未知的体系结构,但可观察到的激活。我们可以从教师网络中获得一个或多个测量端点,每个端点都可能用于生成相似性得分。4. 实验和结果4.1. 教师代表相似性对绩效的预测性我们首先研究了未成熟网络的教师相似性评价指标(P+TG)是否改善了对成熟性能的预测(与仅对未成熟性能的评价相比,P)。为此,我们制作了一个CNN架构池,我们计算了每个模型层的过早和成熟性能以及过早RDM(内部特征表示的度量,见3.1)为了选择池中的CNN架构,我们首先使用20个epoch/样本训练运行了几个性能引导的架构搜索(参见第4.2节和补充材料),然后选择了在搜索的不同阶段发现的116个这些网络具有广泛的成熟性能级别,其中还包括每次搜索过程中发现的最佳网络架构。在第4.1节到第4.3节进行的实验中,我们使用了ResNet [19]的变体,其中54个卷积层(n=9)作为教师网络。该架构被选为教师,因为它是高性能的(在CIFAR10和CIFAR100数据集上,前1名的准确率值得注意的是,教师架构不在我们的搜索空间中(见附录)。材料)。在三个残留块堆栈(这里称为L1-L3)中的每一个之后的层激活被选择为教师的内部特征图。对于每个特征图,我们随机抽取10个特征子样本,计算每个子样本的RDM,然后计算所有子样本的平均RDM。我们没有试图优化教师网络中的层的选择,这些层的选择仅仅是因为它们在教师的整个深度上近似均匀地采样。为了找到最佳的TG权重因子,我们改变了α参数,并测量了P+TG评分与成熟表现之间的相关性变化(图2)。我们观察到,当模型仅接受训练时,较高的α导致预测成熟性能的较大收益几个时期(≤2.5个时期)。然而,随着训练次数的增加,较大的α值降低了可预测性。我们发现,对于训练了2个epoch的网络,α= 1的 值 接近最佳值。 合并的3.2)在早期训练阶段的大部分时间里构成了成熟表现的最佳预测因素(图3-底部)。这一观察结果与之前的发现一致,即深度网络中的学习主要发生在我们进一步发现,与训练早期(2个时期)的其他层相比,早期的教师层(L1)是成熟性能的更好预测S1RDMT1RDMT2RDMT3组合评分候选网络S1S2S3Perf猫RDMC1RDMC2RDMRDMC3C4Perf3S2SP+TG5324因子,5325随着训练的进行,后面的层(L2和L3)成为更好的预测器(> 3个时期),并且随着更多的训练(>3个时期),过早的性能成为成熟的最佳单个预测器(即,完全训练过的)mance(图3)。除了ResNet之外,我们还分析了第二个教师网络,即NASNet(参见第2节)。材料),并使用替代教师网络证实了我们的发现我们还发现,NASNet激活(性能高于ResNet; 82.12%相比,75.9%)形成了一个更好的预测成熟的表现,在几乎所有的培训制度(见附录。材料)。图2. TG重量α对预测成熟期性能的影响4.2. 卷积网络空间中的教师引导搜索正如引言中所概述的,我们期望(P+TG)评估分数为了直接测试这一点,我们在使用一系列配置的全架构搜索实验中使用了(P+TG)评估分数。对于这些实验,我们搜索了两个卷积神经网络空间,类似于之前的搜索实验[44](最大网络深度为10层或20层)。这些架构搜索空间是重要和有趣的,因为它们很大。此外,由于这些搜索空间中的网络训练到成熟相对便宜,我们可以在一系列检查点评估真实的底层搜索进度。我们使用四种不同的搜索方法在每个空间中进行搜索:在过早训练的2或20个时期使用(P+TG)评估分数,并且在过早训练的2或20个时期使用(P)评估分数。对于这些实验,我们使用了随机[32],强化学习(RL)[44]以及TPE架构选择算法[7](见方法),我们在1000或2000年后停止了搜索。2000个采样架构(分别用于10层和20层搜索空间)。我们在CIFAR100而不是CIFAR10上进行了搜索实验,因为数据集中的类数量较多,提供了更高维度的RDM。我们发现,对于所有的搜索配置,(P+TG)驱动的搜索算法(即,TG-SAGE)一致地优于仅性能驱动的算法(P),因为使用相等的计算成本,它总是发现更高性能的网络(表1)。这种增益是相当重要的,因为TG-SAGE发现网络架构具有与(P)搜索大致相同的性能,但计算成本降低10倍(2与20个时期;表1)。为了评估和跟踪这些搜索的效率,我们测量了每个搜索在当前选择的前5个架构中返回的完全训练的网络架构的最大验证集性能。我们将每个搜索实验重复三次,以估计搜索采样和图3.在过早状态(时期=2)下的性能和P+TG测量作为成熟性能的预测因子的比较。(左上)过早和成熟性能值的散点图。(右上)过早P+TG测量值和平均性能的散点图。(底部)性能、单层RDM和组合P+TG测量之间的相关性与不同数量的过早训练时期的成熟性能。5326表1. RL和TPE算法在体系结构搜索中的早熟性能和表征相似性度量的比较。P:过早性能作为验证评分; P+TG:过早性能和RDM组合作为验证评分。3次检索运行的值为µ±σ搜索算法RLTPE搜索空间10层20层10层20层时期/样本数量2202202 2随机-最佳C100误差(%)45.4±2.541.3±1.541.2±1.838.3±4.845.4±2.541.2±1.8P -最佳C100误差(%)41.0±0.540.5±0.437.5±0.232.7±0.942.5±5.737.0±3.0P+TG-最佳C100误差(%)38.3±1.139.2±0.933.2±1.432.2±0.837.6±1.233.0±2.4业绩改善(%)2.71.34.30.54.9 4网络初始滤波器权重采样。图4显示,教师引导搜索(P+TG)在整个搜索运行中找到了与性能引导搜索(P)相当的网络架构,同时效率提高了10倍4.3. 教师引导的卷积细胞空间搜索为了将我们的方法与最近的架构搜索工作进行比较,我们在卷积单元空间上进行了P+TG得分的搜索实验[45,28]。与第4.2节中的搜索空间相比,该搜索空间的一个优点是卷积单元可以跨数据集转移。在对单元结构进行采样后,通过多次堆叠具有预定义结构的相同单元来构建完整架构(参见补充材料)。虽然RL和TPE搜索方法在第4.1节的实验中得出了相似的结果,但两个实验的平均TPE结果略高。因此,我们选择在本节中使用TPE算法进行搜索实验,设置与第4.1节中使用CIFAR100(1000个样本)的设置相同。对于每个样本架构,我们计算了每个单元输出的RDM。考虑到我们在搜索期间在每个块中具有N= 2个单 元 重 复 , 我 们 最 终 在 每 个 采 样 单 元 中 具 有 8 个RDM,将其与来自教师网络的3个预先计算的RDM进行比较(在5000个图像的验证集上进行24次比较)。由于早熟性能和成熟性能之间的不完全相关性,进行小的搜索后重新排序步骤增加了找到稍微更好的单元结构的机会。我们选择了前10个发现的细胞,并在训练集(45k个样本)上训练了300个epoch,并在验证集(5k个样本)上进行了评估。然后在完整的训练集(50k个样本)上对具有最高验证性能的细胞结构进行600个epoch的完全训练,类似于[45],并在测试集上进行评估。我 们将 我 们 最好 的 细 胞结 构 与 使用 NAS [45]和PNAS [28]方法在CIFAR- 10,CIFAR-100和Imagenet数据集上发现的细胞结构进行了比较(表2和3)。为了排除可能源于训练过程差异的任何性能差异,我们 使 用 相 同 的 训 练 管 道 来 训 练 我 们 提 出 的 网 络(SAGENet)以及两个基线。关于紧凑性,SAGENet与NASNet和PNASNet相比具有更多的参数和FLOPS,主要是由于对称的7×1和1×7卷积。但我们没有考虑到与这个数字相关的任何成本参数或FLOPS的数量。出于这个原因,我们还考虑了SAGENet的另一个版本,其中我们用“7×7可分离”卷积(SAGENet-sep)代替了对称卷积SAGENet-sep有一半的pa-与SAGENet相比,具有更高的速率和FLOPS,并且错误率略高。为了比较不同检索程序的成本和效率,我们采用了与[28]相同的方法。总搜索成本计算为在整个搜索过程中使用SGD处理的示例总数。这包括在搜索期间用E1个示例训练的M1个采样单元结构,以及在搜索后用E2个示例训练的M2个顶级单元,以找到顶级执行单元结构。总成本计算为M1E1+M2E2.总之,我们发现,虽然SAGENet在C10、C100和Imagenet上的表现与NAS和PNAS顶级网络不相上下,但搜索成本分别比NASNet和PNASNet低100倍和4.5倍(表2)。有趣的是,在成熟状态下,我们的顶级架构在 C10 和 C100 数 据 集 上 的 表 现 优 于 教 师 网 络(ResNet)(TG- SAGE在C10和C100上的表现分别为96.34%和82.58%,而ResNet为94.75%和75.89%4.4. 使用皮层测量作为教师网络在没有已经高性能的教师网络的情况下,TG-SAGE的实用性似乎不清楚(如果已经在计算机上实现了高性能网络,为什么还需要这种方法?).但是,如果一个人没有计算机实现,而有部分访问的内部激活的高性能5327图4.不同替代度量对体系结构搜索性能的影响(左)显示了在每种情况下,在三次RL搜索的不同阶段发现的最佳网络架构的平均C100性能(右)与左侧的图相同,但显示的是总计算成本(训练图像数量×时期数量×样本数量表2.在CIFAR10和CIFAR100数据集上发现的细胞的性能* 表示在2-GPU上使用相同训练流水线重新训练网络的错误率B:每个单元中的操作块的数量。N:每个网络块中的小区重复的数量。F:第一个单元格中的过滤器数量。†GPU估计天数。网络#参数C10错误C100错误M1E1M2E2成本(示例)成本(GPU天)AmoebaNet-A [36]3.2M3.34-200001.13M10027M25.2B(813)NASNet-A [45]3.3M3.41(3.72*)17.88*200000.9M25013.5M21.4-29.3B(690)PNASNet-5 [28]3.2M3.41(4.06分)19.26分11600.9M001.0B(三十二)ENAS [31]4.6M三点五四十九点四三31050k0015.5M0.5GDAS(FRC)[42]2.5M3.75 19.09-----1ASNG + cutout [1]3.9M2.83------0.11[29]第二十九话3.4M2.83------4IRLAS + cutout [17]3.4M2.71-------SAGENet6.0M3.6617.42100090K1013.5M225M(七)SAGENet-sep2.7M3.8817.51网络?灵长类动物的腹侧视觉系统就是这样一个网络,为了测试这个想法的效用,我们进行了一个额外的实验,在这个实验中,我们使用猕猴腹侧视觉皮层的神经尖峰测量来指导架构搜索。为了便于比较大脑为此,我们使用了一组5760个图像,这些图像包含放置在不相关的自然背景上的3D渲染对象,并且被设计为包括对象的位置、大小和姿势的大变化(参见补充材料)。我们使用先前发表的来自两只猕猴中的296个神经位点的神经测量来响应这些图像[43,30]。这些神经反应是从三个解剖区域测量的,每只猴子的腹侧视觉通路(V4、后下颞叶(p-IT)和前下颞叶(a-IT)皮层)-灵长类动物大脑中一系列皮层区域,是视觉物体识别的基础。为了使候选网络与大脑测量结果更具可比性,我们在Imagenet数据集上进行了实验,并对每个候选网络进行了1/5epoch的训练使用尺寸为64×64的图像。我们使用了与第4.3节相同的设置,但使用了从我们的神经网络每个区域的测量值(即,V4,p-IT,a-IT)。我们从原始的Imagenet训练集中拿出50,000张图像作为验证集,用于评估候选网络的过早性能。为了进一步加速搜索,我们在搜索期间移除架构中的前2个归约单元。与前几节中的实验类似,我们使用α= 1来衡量RDM相似性,并与每个候选网络的as- signing得分进行比较跑完5328表3.在移动环境中的Imagenet数据集上发现的细胞的性能(即,参数个数为105。5M和FLOPS数1.5B)。选择超参数B、N和F,使得网络包含大约550万个参数和小于1.5B FLOPS。* 表示在2-GPU上使用相同训练流水线训练所有网络的错误率。网络BNF参数数(M) FLOPS(B)前1名错误前5名错误*NASNet-A54445.31.1631.0711.41PNASNet-553565.41.3029.9210.63SAGENetSAGENet-sep54489.74.92.151.0331.8131.911.7911.99表4.比较Imagenet上卷积细胞空间中性能引导和神经引导架构搜索发现的最佳网络。网络BNF参数数(M)FLOPS(B)前1位错误前5名错误P-图像网54405.51.2634.413.5SAGENet-neuro53405.61.3532.5412.26在对1000个样本的架构搜索中,我们选择了前10个网络,并在Imagenet上对它们进行了40个epochs的全面训练,并选择了具有最高验证精度的网络。然后,我们在完整的Imagenet训练集上训练了这个网络,并在测试集上评估了它的性能作为基线,我们还执行了类似的搜索,但仅使用性能指标来指导搜索。我们发现,使用组合P+TG度量(SAGENet-neuro)发现的最佳网络的top-1错误(32.54%)显著低于性能引导搜索得出的最佳网络(34.4%; P-imagenet;见表4)。这表明这种方法具有潜在的优点。然而,当在CIFAR-100数据集上搜索时,通过使用灵长类动物大脑教师网络(SAGENet-neuro)的部分观察到的内部表示找到的最佳模型的表现不如通过使用ResNet教师网络的完全观察到的内部表示可能影响最佳发现模型质量的一个关键因素是在搜索过程中完成的每个样本训 练 量 ( 在 我 们 的 实 验 中 , 这 被 限 制 在 2000 步(1/5epoch))。当然,在评估之前允许更多的训练将潜在地导致对成熟性能的更准确的预测并发现更高性能的模型。另一个重要因素是部分观察脑-神经尽管如此,仅从几百个灵长类神经部位构建的教师表征已经足够提供信息,可以为架构搜索提供更好的5. 讨论和未来方向我们在这里证明,当高性能教师神经网络的内部神经表示部分可观察时(例如大脑的神经网络),该知识可以大大加速高性能人工网络的分布。我们提出了一种新的方法来实现这种加速(TG-SAGE),并使用现有的最先进的计算机网络作为教师(ResNet)和使用部分观察到的生物网络作为教师(灵长类动物腹侧视觉流)的潜力来证明其实用性。从本质上讲,TG-SAGE联合最大限度地提高了模型随着架构空间和搜索设置测试在这里,我们报告在发现视觉分类性能的CNN方面,计算效率提高了100倍。 该增益在搜索效率方面(减少了计算资源,具有相似的分类性能),而无需对搜索空间进行任何额外的限制,如ENAS [31]或DARTS [29]等替代搜索方法我们通过在几个CNN架构空间中执行搜索来实证这一点。这种方法可以大规模应用于高性能的生物系统吗?我们在这里展示了如何将来自大脑的有限测量(对许多图像的神经群体响应模式在不久的将来,更大规模的神经测量是否可以实现更好的加速,还有待观察5329引用[1] 秋本佑平、白川真一、吉成野三、内田健人、斋藤正太、西田幸平。自适应随机自然梯度法用于单次神经结构搜索。在ICML,2019。二、七[2] Luke Arend 、 Yena Han 、 Martin Schrimpf 、 PouyaBashivan 、 Kohitij Kar 、 Tomaso Poggio 、 James JDiCarlo和Xavier Boix。深度神经网络中的单个单元在功能上与大脑中的神经元相对应:初步结果。技术报告,大脑,思想和机器中心(CBMM),2018年。3[3] 吉米·巴和里奇·卡鲁阿纳深网真的需要深吗?神经信息处理系统的进展,第2654-2662页,2014年。2[4] Bowen Baker 、 Otkrist Gupta 、 Nikhil Naik 和 RameshRaskar。使用强化学习设计神经网络架构。arXiv预印本arXiv:1611.02167,2016。2[5] Bowen Baker , Otkrist Gupta , Ramesh Raskar , andNikhil Naik.早期停车的实用神经网络性能预测。arXiv预印本arXiv:1705.10823,2017。2[6] Pouya Bashivan,Kohitij Kar,and James J DiCarlo.通过深 度 图 像 合 成 进 行 神 经 种 群 控 制 。 Science , 364(6439):eaav 9436,2019. 3[7] James Bergstra,Remi Bardenet,Yoonne Bengio,andBalazs Kegl.超参数优化算法。第1-9页,2011年。5[8] J. Bergstra,D.Yamins和D.D. 考克斯做一个模型搜索的科学第1-11页,2012年。1[9] NathanielBlanchard , JefferyKinnison , BrandonRichard- Webster,Pouya Bashivan和Walter J Scheirer。用于预测编码网络的神经生物学跨域评估度量在计算机视觉和模式识别会议上,2019年。3[10] Andrew Brock,Theodore Lim,J. M.里奇和尼克·威斯顿.SMASH : One-Shot Model Architecture Search ThroughHyperNetworks。2017. 2[11] Santiago A Cadena , George H Denfield , Edgar YWalker , Leon A Gatys , Andreas S Tolias , MatthiasBethge,and Alexander S Ecker.深度卷积模型改善了猕猴V1对自然图像的反应的预测。Plos,第1-28页,2017年。3[12] Charles F.杨志华,李志华.纳吉布·所罗门Ma- jaj和JamesJ.迪卡洛深度神经网络在核心视觉对象识别中与灵长类动 物 IT 皮 层 的 表 示 相 媲 美 。 PLoS ComputationalBiology,10(12),2014. 3[13] Joao Carreira 、 Viorica Patraucean 、 Laurent Mazare 、Andrew Zisserman和Simon Osindero。大规模并行视频网络。在ECCV,2018。2[14] Tobias Domhan , Jost Tobias Springenberg , and FrankHutter.通过学习曲线的外推来加速深度神经网络的自动超参数优化。15:3460-8,2015. 2[15] 鲁思C.作者:Walter J. Scheirer,and David D.考克斯利用人脑活动指导机器学习。科学报告,8(1):1-10,2018年。3[16] Ian J. Goodfellow,Jonathon Shlens,Christian Szegedy.解释和利用对抗性示例。第1- 11页,2014年。3[17] 郭明昊,赵忠,吴伟,林大华,严俊杰。IRLAS:逆向强化学习的建筑搜索。在CVPR,2018年。二、七[18] David Ha,Andrew Dai,and Quoc V.乐超级网络。2016.2[19] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。Org,7(3):171-180,2015。1、4[20] Geoffrey Hinton Oriol Vinyals和Jeff Dean。 提取神经网络中的知识。arXiv预印本arXiv:1503.02531,2015。2[21] 高煌,刘庄,劳伦斯·范德马腾,和Kilian Q.温伯格密集连接卷积网络。2016. 1[22] 卡米拉·M放大图片作者:Katherine R. Storrs和MariekeMur。深度卷积神经网络在解释对象相似性判断方面优于基于特征的模型,而不是分类模型。Frontiers inPsychology,8(OCT):1726,2017。3[23] 作者:Alexander JE Kell,Josh H.麦克德莫特感觉系统的 深 度 神 经 网 络 模 型 : 任 务 约 束 的 作 用 。CurrentOpinion in Neurobiology,55:121- 132,2019。3[24] Nikolaus Kriegeskorte,Marieke Mur,and Peter a.班代蒂尼。表征相似性分析-连接系统神经科学的分支。Frontiers in systems neu- roscience,2(November),2008. 3[25] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络的ImageNet分类。神经信息处理系统的进展,第1-9页,2012年。1[26] Jonas Kubilius,Stefania Bracci,and Hans P.贝克号。深度神经网络作为人体形状敏感性的计算模型。PLoSComputational Biology,12(4):1-26,2016. 3[27] Lisha Li,Kevin Jamieson,Giulia DeSalvo,Afshin Ros-tamizadeh,and Ameet Talwalkar. Hyperband:一种基于带 宽 的 超 参 数 优 化 方 法 。 The Journal of MachineLearning Research,18(1):6765-6816,2017。2[28] Chenxi Liu,Barret Zoph,Jonathon Shlens,Wei Hua,Li-Jia Li,Li Fei-Fei,Alan Yuille,Jonathan Huang,and Kevin Murphy.渐进式神经架构搜索。 2017. 一、六、七[29] 柳寒笑,凯伦西蒙尼扬,杨一鸣。飞镖:差异化架构搜索。2018. 二七八[30] N. J. Majaj,H. Hong、E. A. Solomon和J. J·迪卡洛简单学习的下颞神经元放电率加权和准确预测人类核心对象识别性能。Journal of Neuroscience,35(39):13402-13418,2015. 7[31] Hieu Pham,Melody Y.放大图片作者:Guan,BarretZoph.Le和Jeff Dean。通过参数共享的高效神经结构搜索。2018. 二七八5330[32] Nicolas Pinto,David Doukhan,James J DiCarlo,andDavid D Cox.一种高通量筛选方法,以发现良好形式的生物启发的视觉表示。PLoS computational biology,5(11):e1000579,2009. 一、五[33] Maithra Raghu , Justin Gilmer , Jason Yosinski , andJaschaSohl-Dickstein.SVCCA : SingularVectorCanonicalCor-relationAnalysisforDeepLearningDynamics and Interpretability. 2017. 4[34] Rishi Rajalingham , Elias B Issa , Pouya Bashivan ,Kohitij Kar,Kailyn Schmidt,and James J Dicarlo.对人类、猴子和最先进的深度人工神经网络的核心视觉对象识别行为进行大规模、高分辨率的比较。神经科学杂志,014970(33):240614,2018。3[35] R. Rajalingham,K. Schmidt和J. J·迪卡洛人和猴物体识别行为的比较Journal of Neuroscience,35(35):12127-12136,2015. 3[36] Esteban Real , Alok Aggarwal , Yanping Huang , andQuoc V Le. 图 像 分 类 器 结 构 搜 索 的 正 则 化 进 化 。(2017),2018. 一、二、七[37] Esteban Real 、 Sherry Moore 、 Andrew Selle 、 SaurabhSaxena 、 Yutaka Leon Suematsu 、 Quoc Le 和 Alex
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 基于Python和Opencv的车牌识别系统实现
- 我的代码小部件库:统计、MySQL操作与树结构功能
- React初学者入门指南:快速构建并部署你的第一个应用
- Oddish:夜潜CSGO皮肤,智能爬虫技术解析
- 利用REST HaProxy实现haproxy.cfg配置的HTTP接口化
- LeetCode用例构造实践:CMake和GoogleTest的应用
- 快速搭建vulhub靶场:简化docker-compose与vulhub-master下载
- 天秤座术语表:glossariolibras项目安装与使用指南
- 从Vercel到Firebase的全栈Amazon克隆项目指南
- ANU PK大楼Studio 1的3D声效和Ambisonic技术体验
- C#实现的鼠标事件功能演示
- 掌握DP-10:LeetCode超级掉蛋与爆破气球
- C与SDL开发的游戏如何编译至WebAssembly平台
- CastorDOC开源应用程序:文档管理功能与Alfresco集成
- LeetCode用例构造与计算机科学基础:数据结构与设计模式
- 通过travis-nightly-builder实现自动化API与Rake任务构建
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功