没有合适的资源?快使用搜索试试~ 我知道了~
1随机加权神经网络中隐藏着什么维韦克·拉马努金(Vivek Ramanujan)米切尔·沃茨曼(MitchellWortsman)Ali Farhadi穆罕默德·拉斯蒂加里摘要训练神经网络与学习权重值是同义词。相反,我们证明,随机加权的神经网络包含子网络,实现令人印象深刻的性能,而无需修改的权重值。隐藏在随机加权的Wide ResNet-50 [32]中,我们发现一个子网络(具有随机权重),它小于但匹配在ImageNet [4]上训练的ResNet-34 [9]的性能。这些“未经训练的子网络”不仅存在,而且我们提供了一种算法来有效地找到它们。我们的经验表明,随着具有固定权重的随机加权神经网络变得更宽更深,“未经训练的子网”在准确性上我们的代码和预训练模型可在以下网址获得:一种性能良好的神经网络τ随机初始化神经网络N子网络N的 τJhttps://github.com/allenai/hidden-networks网站。1. 介绍在一个具有随机权重的过参数化神经网络中隐藏着什么如果分布被适当地缩放,那么它包含一个子网络,该子网络在不修改权重值的情况下表现良好(如图1所示)。子网络的数量在网络的大小上是组合的,现代神经网络包含数百万甚至数十亿个参数[24]。我们应该期望,即使是随机加权的神经网络也包含一个在给定任务上表现良好的在这项工作中,我们提供了一个算法来找到这些子网。寻找子网络与神经网络训练的流行范式形成对比-通过随机梯度下降来学习权重值。传统上,网络结构在训练期间是固定的(例如,ResNet [9]或MobileNet[10]),或结合权重值进行优化(例如,神经架构搜索(NAS))。我们优化找到一个好的子网-平等贡献艾伦人工智能研究所Allen Institute for Artificial华盛顿大学图1.如果一个具有随机权重的神经网络(中)被充分地过参数化,它将包含一个子网络(右),该子网络的性能与具有相同数量参数的训练神经网络(左)一样好。在一个固定的、随机加权的网络中工作。我们不会调整网络中任何权重的值,甚至不会调整批范数[11]参数或第一层或最后一层。在[5]中,Frankle和Carbin阐述了彩票假说:神经网络包含稀疏的子网络,当重置为初始化时,可以从头开始有效地训练。我们提供一个补充猜想:在具有随机权重的充分过参数化的神经网络内(例如,在初始化时),存在实现竞争精度的子网。具体而言,子网络的测试精度能够匹配具有相同数量的参数的训练网络的这项工作是催化周等人的最新进展。[33 ]第33段。通过在前向传递中对子网络进行采样,他们首先证明了随机加权神经网络的子网络可以达到令人印象深刻的精度。然而,我们假设随机性可能会限制他们的表现。随着网络中参数数量的增加,它们的采样值可能具有很高的可变性。1189311894∼网络.为此,我们提出了边弹出算法,在随机加权的神经网络中找到有效的子网络我们在ImageNet的性能和规模上都有了显着的提升。对于网络中的每个固定随机权重,我们考虑一个正实值分数。为了选择一个子网络,我们采用前k%最高得分的权重。利用梯度估计器,我们通过SGD优化分数。因此,我们能够在不改变权重值的情况下找到一个好的神经网络。我们经验证明了我们的算法的有效性,并表明(在某些技术条件下)的损失减少的小批量与每个修改的子网络。我们在用于图像识别的小型和大型数据集上进行了实验,即CIFAR-10 [13]和Imagenet [4]。在CIFAR-10上,我们经验证明,随着网络变得更广泛和更深,未经训练的子网络表现一样好,具有学习权重的密集网络。在ImageNet上,我们找到了一个随机加权的WideResNet 50的子网络,它比训练的ResNet-34小,但与之匹配此外,具有固定权重的随机加权ResNet-101 [9]包含一个小得多的子网络,但超过了VGG-16 [27]的性能。总之,我们验证了随机加权神经网络用于图像识别的不合理的有效性。2. 相关工作彩票和超级面具在[5]中,Frankle和Carbin提供了一个有趣的假设。SIS:神经网络包含稀疏的子网络,当重置到它们的初始化时,可以这些所谓的中奖彩票赢得了Frankle和Carbin通过迭代地缩小网络的大小来找到中奖彩票,掩盖在每次训练结束时具有最小幅度的权重。Zhou等人的后续工作。[33]证明了中奖票在没有训练的情况下比随机表现更好。受这一结果的启发,他们提出了一种算法来识别在CIFAR-10上,他们能够找到随机初始化的神经网络的子网络,达到65.4%的准确率。Zhouet al.对于网络中的每个权重w,它们学习相关的概率p。在前向传递时,它们包括具有概率p的权重w,否则将其归零。相等,他们使用随机梯度下降。术语"超级掩码我们的工作建立在周等人,尽管我们认识到他们算法的随机性可能会限制性能。在第3.1节中,我们为这个主张提供了更多的直觉。我们表现出显着的提高性能的算法,不采样的正向传递的超级掩码。我们第一次能够将密集网络的性能与超级掩码相匹配。神经结构搜索(NAS)现代神经网络的出现已经将重点从特征工程转移到特征学习。然而,研究人员现在可能会发现他们自己手动设计网络的架构。神经结构搜索方法(NAS)[34,2,19,28]提供了一种与权重联合学习神经网络结构的机制。由NAS支持的模型最近在ImageNet上获得了最先进的分类性能[29]。正如Xieet al. [31],NAS的连接模式仍然受到很大的限制。令人惊讶的是,Xieet al.建立随机连接神经网络可以实现竞争性能。因此,Wortsmanet al. [30]提出了一种发现神经线路(DNW)的方法-其中权重和结构被联合优化,不受NAS的典型约束。我们强调DNW,因为我们使用类似的分析方法和梯度估计器来优化我们的超级掩码。然而,在DNW中,通过采用具有最高幅度的权重来选择子网络。因此,没有办法用DNW学习超级掩码,因为权重和连接性是不可分割的-权值不可知神经网络在Weight Agnostic Neural Networks(WANNs)[6]中,Gaier和Ha质疑单独的架构是否可以编码问题的解决方案。他们提出了一种构建神经网络的机制,当网络中的每个权重具有相同的共享值时,该机制可以实现高重要的是,网络的性能是不可知的,价值本身。他们能够在MNIST上获得92%的准确度[16]。我们很受WANN的启发,尽管我们想强调一些重要的区别。不是每个权重具有相同的值,而是探索每个权重具有随机值的设置在附录的第A.2.2节中,Gaier和Ha提到他们在这种情况下并不然而,我们找到了一个给定随机初始化的使用重量w=wX其中X是伯努利(p)随机数而不是不可知论的重量。最后,Gaier和Ha构造了变量(X是1,概率为p,否则为0的概率p是sigmoid的输出,并且是学习的他们的网络架构,而我们寻找超级面具,在标准架构中。11895v对于每个边缘(1)重量&为(a)a)a)a)向前:使用与前*%分数对应的边向后:使用直通估计器更新即如果节点u的加权输出&u(+u)与v) ←) −/0 &+的10、(01(u(图2.在边缘弹出算法中,我们将分数与每个边缘相关联。在向前传球时,我们通过得分选择顶部边缘。在反向传递中,我们使用直通估计器更新所有边的分数,允许“死”的有用边我们从不更新网络中任何权重的值,只更新与每个权重相关的分数线性分类器和剪枝随机加权神经网络上的线性分类器通常用作无监督学习的基线[21,3]。这项工作的动机不同,我们寻找未经训练的子网络,在不改变任何权重值的情况下实现高这也不同于在初始化时修剪并修改所发现的子网络的权重的方法[18,17]或修改权重子集的方法[25]。3. 方法在本节中,我们将介绍我们的优化方法,以寻找有效的子网络在随机加权神经网络。我们从在一个不寻常的环境中建立直觉开始--无限宽的极限。接下来,我们激励和提出我们的算法,寻找有效的子网络。3.1. 直觉良好子网现代神经网络有数量惊人的可能子网络。因此,即使在初始化时,神经网络也应该包含一个表现良好的子网络。为了建立直觉,我们将考虑一个极端情况-无限宽度限制的神经网络N如图1所示,假设N是一个具有相同结构的网络,可以实现良好的精度。如果使用正态分布的任何标准尺度来初始化N的权重,例如,xavier [7]或kaiming [8],那么我们可以证明存在N的一个子网络,它在没有训练的情况下达到了与xavier相同的性能设q是N的给定子网络具有足够接近N的权重以获得相同精度的概率。这个概率q非常小,但它仍然是非零的。因此,没有N的子网足够接近于实际上是(1−q)S,其中S是子网的数量,即使在随机加权神经网络中存在好的子网络,我们应该如何找到它们呢?Zhou等学习与网络中的每个权重w相关联的概率p。在前向传递中,它们包括概率为p的权重w(其中p是sig-moid的输出),否则将其归零。无限宽极限直观地说明了Zhou等人提出的算法的一个可能的缺点。[33 ]第33段。即使参数p是固定的,算法也可能不会两次观察因此,梯度估计变得更不稳定,并且这进而可能使训练变得困难。我们的算法找到一个好的子网是illustrated图2。对于神经网络中的每个权重w,我们学习一个正的、实值的弹出得分s。然后通过选择对应于前k%最高分数的每一层中的权重来选择子网络。对于sim-简单地说,我们对所有层使用相同的k我们应该如何更新分数suv?考虑连接神经元u和神经元v的全连接层中的单个边。设wuv为该边的权重,suv为相关得分。如果这个分数最初很低,那么在向前传递中不选择wuv但我们仍然希望有一种方法来更新它的分数,让它弹出回来。非正式地,使用反向传播[26],我们计算损失如何负梯度)。然后我们检查节点u的加权输出。如果这个加权输出与负梯度对齐,那么节点u可以将节点v因此,我们应该提高分数。如果这种对齐持续发生,那么分数将继续增加,边缘将重新进入所选的子网(即,popup)。更正式地说,如果wuv Zu表示神经元u的加权输出,Iv表示神经元v的输入,那么我们将suv更新为@Lsuv←suv−@IZuwu v。(一)工程. S随着网络的宽度增长得非常快,这个概率变得任意小。如何找到一个好的子网这一论点和随后的分析是有动机的[30]以工作为导向然而,在他们的工作中,他们不考虑分数,而是直接更新vuu,11896权重在前向传递中,它们使用按大小的顶部k%的边,因此没有办法在不学习权重的情况下学习子网络。他们的目标是训练稀疏神经网络,而我们的目标是展示随机加权神经网络的有效性。3.2. edge-popup算法及其分析h在任何地方都是0,不可能直接计算损失相对于sUV的梯度。 相反,我们使用直通梯度估计器[1],其中h被视为向后传递中的恒等式-因此,我们将梯度近似为suv,我们现在正式详细介绍边缘弹出算法。g=@L@Iv=@Lw Z(五)为了清楚起见,我们首先描述我们的算法,用于完全紫外线@我v@suv@我vUVu连接的神经网络在第B.2节中,我们提供了对卷积的直接扩展以及PyTorch [23]中的代码。完全连接的神经网络由层1、… 其中层“具有n个节点V(”)={v(“),., v(`)}。其中L是我们试图最小化的损失然后,通过随机梯度下降以学习率ω更新分数s uv。如果我们忽略动量和重量衰减[15]然后我们将suv更新为`1n`@L我们让Iv表示节点v的输入,让Zv表示输出,其中对于某些非线性激活,Zv=σ(Iv)suv=suv−@Iwuv Zu(6)函数σ(例如,ReLU [14])。层中神经元v是前一层中所有神经元的加权和因此,我们将Iv写为其中,s_nuv表示梯度步骤p2之后的分数。当分数改变子网中的某些边时将被其他人取代。 基于对XIv=u∈V(`−1)wuvZu(二)[30]我们表明,当交换确实发生时,小批量的损失减少。定理1:当edge(i,n)替换(j,n)和其余的其中,w_uv是层的网络参数。出去-网络的输出从最后一层获取,而输入数据被提供给第一层。在训练之前,通过从分布D′独立采样来初始化层的权重wuv。 例如,如果我们是我们-使用ReLU激活的kaiming非线性初始化的子网络保持固定,则损失减少,小批量(假设损失足够平滑)。P r o f. 令s_uv表示梯度更新后权重w_uv的s_core。 如果edge(i,n)代替(j,n),则我们的算法规定sisj。因此,则D`=Np0,2/n`−1其中N表示法线si−si>sj−sj(7)分布通常,权重wuv通过随机梯度下降来优化。在我们的边缘弹出算法中,我们将权重保持在随机初始化,这意味着@L−I@LwiZi>−@I(8)关于我们优化以找到子网络G=(V,E)。然后,我们将层中节点v的输入计算为XIv=wuv Zu(3)(u,v)∈E其中G是原始全连通网络1的子图。如上所述,对于通过等式6中的更新规则g iv en。 设I=k表示在进行sw之后到节点k的输入,并且I= k表示原始输入。 注意,通过 等式3 ,I−I=wi<$Zi−wj<$Zj。 我们现在想展示的是L(I)
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- IEEE 14总线系统Simulink模型开发指南与案例研究
- STLinkV2.J16.S4固件更新与应用指南
- Java并发处理的实用示例分析
- Linux下简化部署与日志查看的Shell脚本工具
- Maven增量编译技术详解及应用示例
- MyEclipse 2021.5.24a最新版本发布
- Indore探索前端代码库使用指南与开发环境搭建
- 电子技术基础数字部分PPT课件第六版康华光
- MySQL 8.0.25版本可视化安装包详细介绍
- 易语言实现主流搜索引擎快速集成
- 使用asyncio-sse包装器实现服务器事件推送简易指南
- Java高级开发工程师面试要点总结
- R语言项目ClearningData-Proj1的数据处理
- VFP成本费用计算系统源码及论文全面解析
- Qt5与C++打造书籍管理系统教程
- React 应用入门:开发、测试及生产部署教程
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功