随机布线神经网络的图像识别应用

171 浏览量更新于2023-10-13 收藏 1.71MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1随机布线神经网络在图像识别中的应用Saining Xie Alexander Kirillov Ross Girshick Kaiming HeFacebook AI Research（FAIR）摘要用于图像识别的神经网络已经通过大量的人工设计从简单的链状模型发展到具有多个布线路径的结构。ResNets [12]和DenseNets [17]的成功很大程度上归功于他们创新的布线计划。目前，神经结构搜索（NAS）研究正在探索布线和操作类型的联合优化，然而，可能布线的空间受到限制，尽管被搜索，但仍然由手动设计驱动。在本文中，我们通过随机连接的神经网络的镜头探索了一组更多样化的连接模式。为了做到这一点，我们首先定义了一个随机网络生成器的概念，它封装了整个网络生成过程。封装提供了NAS和随机连接网络的统一视图然后，我们使用三个经典的随机图模型来生成网络的随机连接图。结果令人惊讶：这些随机生成器的几个变体产生的网络实例在ImageNet基准上具有竞争性的准确性。这些结果表明，专注于设计更好的网络生成器的新努力可能会通过探索具有更多新颖设计空间的更少约束的搜索空间而代码可在网上公开获取1。1. 介绍我们今天所说的深度学习源于认知科学的联结主义方法[39，8]-一种反映计算网络如何连接对于构建智能机器至关重要的假设的范式。与这一观点相呼应的是，计算机视觉的最新进展是从链状布线模型[20，55，43，44]转向更精细的连接模式，例如，[12]和[17]，这是有效的，因为他们是如何连接的大部分。推进这一趋势，神经架构搜索（NAS）[57，58]已经成为联合搜索布线模式和执行哪些操作的有前途的方向。NAS方法专注于搜索[57，58，34，27，30，28]，同时隐含地依赖于一个重要但在很大程度上被忽视的组件，我们称之为网络生成器（在第3.1节中定义）。NAS网络生成器定义了1https://github.com/facebookresearch/RandWire图1.由经典Watts-Strogatz（WS）模型生成的随机连接神经网络：这三个随机网络实例在ImageNet上实现了（从左到右）79.1%，79.1%，79.0%的分类准确率，与ResNet-50相似的计算预算，其准确率为77.1%。一组可能的布线模式，从中对网络进行采样，服从可学习的概率分布。然而，与ResNet和DenseNet中的布线模式一样，NAS网络生成器是手工设计的，允许的布线模式的空间被限制在所有可能图形的一个小子集中。鉴于这一观点，我们要问：如果我们放松这一约束，设计新颖的网络生成器，会发生什么？我们通过随机连接的神经网络的镜头来探索这个问题，这些神经网络是从随机网络生成器中采样的，在随机网络生成器中，人类设计的随机过程定义了生成。为了减少我们（本文的作者）对生成器的偏见，我们使用图论中的三个经典随机图模型族[52]：ErdoBens-Re′n yi（ER ）[7]，Baraba′ si-Albert （BA）[1]和Watts-Strogatz（WS）[51]模型。为了定义完整的网络，我们将随机图转换为有向无环图（DAG），并应用从节点到节点的简单映射。1284转换器1分级器转换器1分级器转换器1分级器1285它们的功能角色（例如，相同类型的卷积）。结果令人惊讶：这些随机生成器的几个变体在ImageNet上产生具有竞争力精度的网络[40]。使用WS模型的最佳生成器生成多个网络，这些网络的性能优于或与其完全手动设计的对应部分以及通过各种神经架构搜索方法找到的网络相当我们还观察到，对于由同一生成器生成的不同随机网络，准确度的方差很低，但不同生成器之间可能存在明显的准确度差距这些观察提示网络发生器的设计是很重要的。我们注意到，这些随机连接的网络不是许多强先验事实上被隐式地设计到生成器中，包括选择特定的规则和分布来控制将某些节点连接在一起或不连接在一起的概率每个随机图模型[7，51，1]都具有某些概率行为，使得采样图可能表现出某些属性（例如，WS是高度集群的[51]）。最终，生成器设计确定了网络上的概率分布，因此这些网络往往具有某些属性。发电机的设计是优先考虑的，因此不应被忽视。我们的工作探索了与NAS随机搜索的并行工作正交的方向[24，42]。这些研究表明，随机搜索在“NAS搜索空间”中具有竞争力我们眼中的“NAS网络生成器”。他们的结果可以理解为表明，由NAS生成器设计引起的先验倾向于产生良好的模型，与我们的观察结果类似。与[24，42]相比，我们的工作超出了既定NAS生成器的设计，并探索了不同的随机生成器设计。最后，我们的工作表明，从设计单个网络到设计网络生成器的新过渡是可能的，类似于我们的社区如何从设计功能过渡到设计学习功能的网络。我们建议设计新的网络生成器，产生新的搜索模型族，而不是主要集中在使用固定生成器的搜索上。设计的网络生成器（在NAS和其他地方）的重要性也意味着机器学习还没有自动化（c.f。2. 相关工作网络布线。早期的递归和卷积神经网络（RNN和CNN）[38，22]使用链状布线模式。LSTM [15]使用更复杂的布线来创建门控机制。Inception CNN [46，47，45]连接多个不规则的分支路径，而ResNets [12] 使用 x+F （ x ）作为常规布线模板 ;DenseNets [17] 使用连接： [x ， F （ x ） ]. LSTM 、Inception、ResNet和DenseNet布线模式是普遍有效的，超越了任何个别的实例。神经结构搜索（NAS）。Zoph和Le [57]定义了一个NAS搜索空间，并将强化学习（RL）作为一种优化算法进行研究。最近对NAS的研究主要集中在优化方法上，包括RL [57，58]，渐进式[27]，基于梯度的[30，28，54，5]，权重共享[34]，进化[35]和随机搜索[24，42]方法。这些NAS作品中的搜索空间由[57]中隐含的网络生成器确定，在这些作品中基本上没有变化。虽然这对于比较优化方法是合理的，但它内在地限制了可行解的集合。随机连接的机器。人工智能的先驱最初对随机连接的硬件及其在计算机程序中的实现感兴趣（即，人工神经网络）。在20世纪40年代，图灵[48]提出了无组织机器的概念，这是最早的随机连接神经网络的一种形式。最早的神经网络学习机器之一，由Minsky设计[32]在20世纪50年代，使用真空管实现，随机布线。在20世纪50年代后期，与神经科学的关系。图灵[48]将无组织的机器类比为婴儿的大脑罗森布拉特[37]指出，“神经系统的物理连接.从一个有机体到另一个有机体并不完全相同”，以及“在出生时，最重要的网络的构建在很大程度上是随机的。”研究[51，49]已经观察到，具有大约300个神经元的线虫（蠕虫）的神经网络是具有小世界特性的图[19]。随机图建模已被用作研究人脑神经网络的工具[2，4，3]。图论中的随机图。随机图在图论中被广泛研究[52]。随机图根据模型定义的随机过程表现出不同的概率行为（例如，[7，1，51]）。随机图模型的定义确定编码在结果图中的先有知识（例如，小世界[19]），并可能将它们与自然发生的现象联系起来。结果，随机图模型是用于建模和分析真实世界图的有效工具，社交网络，万维网，引用网络。3. 方法我们现在介绍网络生成器的概念，它是随机连接神经网络的基础12863.1. 网络生成器我们将网络生成器定义为从参数空间Θ到神经网络架构空间的映射g图N，g：θ→ N。对于给定的θ∈Θ，g（θ）返回一个神经网络实例n∈ N。集合N通常是一个相关网络族，例如VGG网[44]，[12]或DenseNets [17]。生成器g确定计算图如何布线，以及其他关注点例如，在ResNets中，生成器生成一个计算x+F（x）的块堆栈。参数θ指定实例化的网络并且可以包含不同的信息。例如在ResNet生成器θ可以指定阶段的数量、每个阶段的残留块的数量、深度/宽度/滤波器大小、激活类型等。直觉上，人们可能会认为g是编程语言中的一个函数，例如。Python，它接受一个参数列表（对应于θ），并返回一个网络架构。由生成器返回的网络表示n是符号性的，这意味着它指定所执行的操作的类型和数据流;它不包括在生成网络之后从数据学习的网络权重2的值。随机网络生成器。上面的网络生成器g（θ）执行确定性映射：给定相同的θ，它总是返回相同的网络架构n。我们可以扩展g来接受一个额外的参数s，它是g内部使用的伪随机数生成器的种子。有了这个种子，通过多次调用g（θ，s），保持θ固定，但改变s=1，2，3的值，得到一个（伪）随机网络族。在所有可能的种子值上的概率分布引起N上的（可能不均匀的）概率分布。我们称g（θ，s）形式的生成器为随机网络生成器。在我们讨论我们的方法之前，我们通过在随机网络生成器的背景下重新解释NAS [57，58从网络生成器的角度看NAS。[57，58]的NAS方法在生成网络架构的过程中利用LSTM但是LSTM只是完整的NAS网络生成器的一部分，实际上它是一个随机网络生成器，如下所示LSTM的权重矩阵是生成器的参数θ。每个LSTM时间步的输出是以θ为条件的概率分布。给定该分布和种子s，每个步骤对构造动作进行采样（例如，插入操作符，连接两个节点）。由于其概率行为，LSTM控制器的参数θ由RL在[57，58]中优化（搜索）。2我们使用参数来引用网络生成器参数，权重是指生成的网络的可学习权重和偏置然而，LSTM并不是NAS网络生成器g（θ，s）中的唯一组件。也有手工设计的规则定义，以映射采样的动作到一个计算的DAG，这些规则也是g。使用图论中的节点/边术语，对于[58]中的NAS网络，如果我们映射组合操作（例如，求和）到节点和一元变换（例如，conv）到边缘（参见补充），NAS生成器的规则包括但不限于：• 要搜索的子图，称为单元[58]，总是接受来自前2个单元的输出节点的激活;• 每个单元包含5个节点，这些节点连接到2个，并且只有2个现有节点，通过从LSTM输出的概率分布中采样来选择;• 单元中没有输出的所有节点都由一个额外的节点连接起来，以形成该单元的有效DAG。所有的生成规则，连同使用LSTM的选择，以及系统的其他超参数（例如，节点的数量，例如5），包括产生完整DAG的NAS网络生成器。同样值得注意的是，“节点是组合，边是变换”的观点封装完整的生成过程，正如我们所展示的，揭示了哪些组件是优化的，哪些是硬编码的。现在很明显，网络空间N已经被手工设计的规则仔细地限制。例如，上面列出的规则建议一个单元中的5个节点中的每一个总是精确地具有输入度32和输出度1（见补充）。这并不涵盖所有可能的5-（内部-）节点图。它处于高度受限的网络空间中。从网络生成器的角度来看NAS有助于解释最近证明的复杂优化与随机搜索[24，42]：NAS网络生成器中的手动设计是一个强先验，它表示在θ上搜索之外的元优化（例如，通过RL）。和s（通过随机搜索）。3.2. 随机连线神经网络我们对NAS的分析表明，网络生成器是手工设计的，并根据人类的知识进行编码。网络生成器的设计很可能起着相当大的作用--如果是这样的话，目前的方法还不能实现 “Our experiments show that NeuralArchi- tecture [57]，3在图论中，我们将1287图2.为我们的随机图设计的节点操作。这里我们展示了一个节点（蓝色圆圈），它有3条输入边和4条输出边。聚合通过具有可学习的正权重w0，w1，w2的加权和来完成。变换是ReLU-卷积-BN三元组，简单地表示为conv。转换后的数据以4个副本的形式发送。强调补充）。为了研究发生器设计的重要性，对同一NAS发生器比较不同的优化器（复杂的或随机的）是不够的;有必要研究与NAS生成器基本不同的新网络生成器。这就引出了我们对随机连接的神经网络的探索。也就是说，我们将定义网络生成器，这些网络生成器生成具有随机图的网络，这些网络受到不同的人类特定先验的影响。为了最大限度地减少我们（本文作者）对先验知识的人为偏见，我们将在我们的研究中使用三个经典的随机图模型（[7，1，51]; §3.3）。我们用于生成随机有线网络的方法涉及以下概念：生成一般图形。我们的网络生成器首先生成一个通用图（在图论的意义它生成一组节点和连接节点的边，而不限制图如何对应于神经网络。这允许我们自由地使用任何来自图论的通用图生成器（ER/BA/WS）。一旦得到一个图，它就被映射到一个可计算的神经网络。从一般图到神经网络操作的映射本身是任意的，因此也是人为设计的。我们有意使用一个简单的映射（下面将讨论），这样我们就可以专注于图形布线模式。边缘操作。通过构造假设图是有向的，我们定义边是数据流，即，有向边将数据（张量）从一个节点发送到另一个节点。节点操作。有向图中的节点可以具有一些输入边和一些输出边。我们将一个节点（图2）表示的操作定义为：- 聚合：输入到节点的数据（来自一个或多个边）通过加权和进行组合;权重是可学习的和正的。4- 转换：通过定义为ReLU-卷积-BN三元组5的转换处理聚合数据[13]。对所有节点使用相同类型的卷积，例如，一个3×3的可分离卷积，默认为6。4在不受限制的权重上应用sigmoid可以确保它们是正的。5我们使用ReLU-卷积-BN三元组，而不是卷积后接BN [18]然后ReLU [33]的三元组，因为它意味着聚合- 分布：转换数据的相同副本由节点的输出边发送出去。这些操作有一些很好的属性：(i) 加法聚合（与级联不同）保持与输入通道相同数量的输出通道，这可以防止随后的卷积在计算中变得很大，这可能会增加具有大输入度的节点的重要性，因为它们增加了计算，而不是因为它们是如何连接的。(ii) 变换应具有相同数量的输出和输入通道（除非切换级;稍后讨论），以确保变换的数据可以与来自任何其它节点的数据组合。固定通道计数，然后保持每个节点的FLOP（浮点运算）和参数计数不变，无论其输入和输出程度如何。(iii) 聚合和分布几乎是无参数的（除了用于加权求和的参数的数量可以忽略不计），而不管输入和输出的程度。此外，如果每条边都是无参数的，则图的总FLOP和参数计数大致与节点数成比例，并且几乎与边数无关。这些属性几乎将FLOP和参数计数与网络布线解耦，在我们的随机网络实例或不同生成器之间，FLOP的偏差通常为±2%这使得能够比较不同的图，而不会增加/减少模型的复杂性。Dif-因此，任务执行中的结果反映了布线图案的属性。输入和输出节点。到目前为止，即使给定边/节点操作，一般图也不是有效的神经网络，因为它可能有多个输入节点（即，没有任何输入边的那些）和多个输出节点。对于典型神经网络（例如，用于图像分类。我们应用一个简单的后处理步骤。对于给定的一般图，我们创建一个连接到所有原始输入节点的单个额外节点。这是唯一的输入节点，它将输入数据的相同副本发送到所有原始输入节点。类似地，我们创建一个连接到所有原始输出节点的单个额外节点这是唯一的输出节点;我们让它计算所有原始输出节点的（未加权）平均值。这两个节点不执行卷积。当提到节点计数N时，我们排除这两个节点。阶段有了唯一的输入和输出节点，用一个图来表示一个有效的神经网络就足够了。尤其是在图像分类方面，(at下一个节点）可以接收正激活和负激活，在大输入度的情况下，防止聚集的激活被膨胀[6]存在各种可分离卷积的实现。公司现采用国际[6]的形式：3×3可分离卷积是一个3×3深度卷积，然后是一个1×1卷积，其间没有非线性。conv×w0×w2×w11288N阶段输出小政权正规制度转换器1112×1123×3转化，C/2Conv256×563×3转化率，C随机布线N/2，CConv328×28随机布线N、C随机布线N，2CConv414×14随机布线N，2C随机布线N，4CConv57×7随机布线N，4C随机布线N，8C分类器1×11×1转化率，1280-d全局平均池，1000-dfc，softmax表1. RandWire架构适用于小型和常规计算网络。随机图由节点计数（N）和每个节点的信道计数（C）表示。我们用conv表示一个ReLU-Conv-BN三联体（预期conv1为Conv-BN）。输入大小为224×224像素。输出大小的变化意味着在卷积中的步幅为2（表中省略），卷积就在每个阶段的输入。始终保持全输入分辨率是不期望的。通常[20，44，12，58]将网络划分为逐步下采样特征映射的阶段我们使用一个简单的策略：上面生成的随机图定义了一个阶段。类似于ResNet中的阶段，例如conv 1，2，3，4，5[12]，我们的整个网络由多个阶段组成。一个随机图表示一个阶段，并且它通过其唯一的输入/输出节点连接到其前一级/后一级。对于直接连接到输入节点的所有节点，它们的变换被修改为步长为2。随机中的通道计数图从一个阶段到下一个阶段时增加2倍，遵循[12]。表1总结了我们实验中使用的随机连接的神经网络，称为RandWire。它们以小的和规则的复杂性机制出现（更多信息见第4节）。对于conv1和/或conv2，为了简单起见，我们使用单个卷积层，随后使用多个随机图。网络以分类器输出结束（表1，最后一行）。图1显示了三个随机连接网络样本的完整计算图。3.3. 随机图模型我们现在简要描述我们研究中使用的三个经典随机图模型。我们强调，这些随机图模型不是本文提出的;我们描述它们是为了完整性。这三个经典模型都生成无向图;我们使用一个简单的启发式方法将它们转化为DAG（见补充）。Erdodos-Re'nyi（ER）. 在ER模型[9，7]中，对于N个节点，两个节点之间的边以概率P连接，独立于所有其他节点和边。对所有节点对重复该过程。ER生成模型仅具有单个参数P，并且表示为ER（P）。具有N个节点的任何图具有由ER模型生成的非零概率，包括断开的图。然而，由ER（P）生成的图有很高的概率是单连通分量，如果P >ln（N）[7].这提供了由生成器引入的隐式偏差的一个示例。Baraba'si-Albert（B A）. BA模型[1]通过顺序添加新节点来生成随机初始状态是M 个节点，没有任何边（1≤MN）。该方法顺序地添加具有M条新边的新节点对于要添加的节点，它将以与v的度成比例的概率连接到现有节点v新节点以这种方式重复添加非重复边，直到它具有M条边。然后迭代，直到图有N个节点。BA生成模型仅具有单个参数M，并且表示为BA（M）。任何由BA（M）生成的图恰好有M·（N-M）条边。因此，由BA（M）生成的所有图的集合是所有可能的N-节点图的子集给出了一个例子，说明图形生成器如何在不考虑随机性的情况下引入基础先验。Watts-Strogatz（WS）. WS模型[51]被定义为生成小世界图[19]。最初，N个节点被规则地放置在一个环中，每个节点连接到两侧的K/2个邻居（K是偶数）。然后，在顺时针循环中，对于每个节点v，连接v到其顺时针第i个节点的边以概率P重新连接。“Rewiring” isdefined as uniformly choosing a节点不是v，也不是重复边。这个循环重复K/2次，其中1≤i≤K/2。K和P是WS模型中仅有的两个参数，记为WS（K，P）。由WS（K，P）生成的ny图有e∈N·K边缘. WS（K，P）只覆盖了所有可能性的一个小子集。B也是N-结点图的子集，但这个子集不同于BA所覆盖的子集.这提供了关于如何引入不同的基础先验的示例。3.4. 设计与优化我们的随机连接神经网络由随机网络生成器g（θ，s）生成。ER、BA、WS中的随机图参数P、M、（K，P）是参数θ的一部分。这种1-或2-参数空间的线/网格搜索。从概念上讲，这种节点、阶段和过滤器的数量。优化也可以通过扫描随机种子来完成，这是随机搜索的一种实现随机搜索对于任何随机网络生成器都是可能的但正如我们通过实验所展示的，1289WS（8，0.5）WS（8，0.25）WS（8，0.0）ER（0.8）WS（8，0.75）WS（2，0.0）ER（0.6）WS（8，1.0）WS（6，0.5）文科学士（7）文学士（5）WS（6，0.75）WS（6，1.0）WS（6，0.25）文科学士（3）WS（4，1.0）WS（4，0.75）WS（4，0.5）WS（6，0.0）ER（0.4）ER（0.2）文科学士（2）BA（1）WS（2，1.0）WS（2，0.75）WS（2，0.5）WS（4，0.25）WS（2，0.25）WS（4，0.0）7473727170图3.随机图生成器的比较：ER、BA和WS在小计算范围内。每个条形表示发生器在P、M或（K，P）（在x轴中标记）的参数设置下结果是ImageNet top-1精度，显示为生成器采样的5个随机网络实例的平均值和标准差（std）在最右边，WS（K，P=0）没有随机性。图4.由ER、BA和WS生成的随机图的可视化。每个图表示由指定生成器采样的一个随机图形实例。发电机如图3所示。每个图的节点计数为N=32。蓝色/红色节点表示输入/输出节点，将向其添加额外的唯一输入/输出节点（未显示）（参见§3.2）。对于不同的种子，我们的网络的准确度变化很小，这表明随机搜索的益处可能很小。因此，我们不执行随机搜索，而是报告多个随机网络实例的平均准确度。因此，我们的网络生成器具有超出其手工编码设计的最小优化（1-或2-参数网格搜索）。4. 实验我们在 ImageNet 1000 类分类任务上进行了实验[40]。我们在训练集上训练，扫描1.28M图像并在50K验证图像上进行测试。建筑细节。我们的实验跨越了一个小的计算范围（例如，MobileNet [16]和ShuffleNet [56]）和常规计算机制（例如， ResNet-50/101 [12] ）。这些区域中的RandWire网络如表1所示，其中N个节点和C个通道决定了网络的复杂性。我们设置N=32，然后将C设置为最接近的整数，以满足目标模型复杂度：C=78在小的制度，和C=109或154在常规制度。随机种子对于每个生成器，我们随机抽取5个网络实例（5个随机种子），从头开始训练它们，并评估每个实例的准确性为了强调-我们不对每个生成器执行随机搜索我们不挑最好的）。我们使用相同的种子1，. . . ，5用于所有实验。实作详细数据。我们训练我们的网络100个纪元，除非注明。我们使用半周期余弦形学习率衰减[29，17]。初始学习率为0.1，权重衰减为5e-5，动量为0.9。我们使用标签平滑正则化[45]，系数为0.1。训练过程的其他细节与[11]相同ER（P）BA（M）WS（K，P）WS（K，P= 0）无随机性73.872.672.772.873.473.173.272.973.173.273.072.672.973.273.073.273.472.572.672.772.672.872.171.970.770.968.80.0前1精度1290BA前1精度4.1. 分析实验随机图形生成器。图3比较了小计算范围内不同生成器4020015913 1721 25402001357 9 11 13 15 17 194020013579 11每个RandWire网络具有1580MFLOP。图4显示了每个发生器的一个示例图。图形生成器40由随机图模型（ER/BA/WS）指定，20其参数集：例如， ER（0. 2）的情况。我们观察到：0去节点40 4020 200 0所有的随机生成器提供体面的准确性在所有159131721 251 2 3 5713579 115个随机网络实例;没有一个收敛失败。ER、BA和WS都具有产生> 73%的平均准确度的特定设置，<与WS的最佳平均准确度73.8%的差距在1%以内（4，0。75）。此外，随机网络之间的变化是低的。图3中几乎所有的随机生成器去边目标节点输入度图5.图形损坏消融。在网络训练完成后，我们从图中随机删除一个节点（顶部）或删除一条边（底部），并在ImageNet上评估准确性损失（损失）。从左到右是ER、BA和WS发生器。红色圆圈：平均值;灰色条：中位数;橙色框：四分位距;蓝点：单个受损实例。标准偏差（std）为0.2~ 0.4%。作为一个com-训练同一个ResNet-50多个实例times的典型标准差为0.1~ 0.2% [11]。我们观察到的随机生成器的低方差表明，即使没有随机搜索（即，从几个随机实例中挑选最好的），网络实例的准确度可能接近平均准确度，受到一些噪声的影响。另一方面，不同的随机发生器在它们的平均精度之间可能有差距， BA（1）的准确率为70.7%，比WS（4，0. 75）。这表明，随机发生器设计，包括布线先验（BA与。WS）和生成参数，在抽样网络实例的准确性中起着重要的图3还包括一组非随机生成器：WS（K，P=0）。“有趣的是，对于图3中的任何固定K，WS（K，P=0）的结果都比其WS（K，P>0）对应物更差。图形损坏。我们通过随机删除一个节点或边来探索图形损坏-一种受[23，50]启发的消融设置形式上，给定一个训练后的网络实例，我们从图中删除一个节点或一条边，并在没有任何进一步训练的情况下评估验证准确性。当一个节点被删除时，我们评估准确性损失（）与。该节点的输出度（图5，顶部）。很明显，ER、BA和WS在这种损伤下表现不同。对于WS生成的网络，当被移除节点的输出度越高时，精度的平均下降越大。这意味着当边缘被移除时，我们评估准确性损失与。该边的目标节点的输入度如果边的目标节点的输入度较小，则这种趋势可以通过图5（底部）中的准确度损失通常沿着x轴下降ER模型对边缘去除不太敏感，这可能是因为在ER706050随机图模型（ER，BA，WS，不同P，M，（K，P））图6.替代节点操作。每列是同一组5个随机图的平均精度，这些图配备了不同的节点操作，按“3×3可分离卷积”排序发电机大致保持其准确性的顺序。节点操作。到目前为止，我们实验中的所有模型都使用3×3可分离卷积作为图2中的接下来，我们评估替代选择。我们认为：（i）3×3（常规）卷积，以及（ii）3×3最大/平均池化，然后是1×1卷积。我们用指定的替代方案替换所有节点的变换我们调整因子C以保持所有备选网络的复杂性。图6显示了每一代的平均准确度图3中列出的生成器。有趣的是，几乎所有的网络仍然会收敛到非平凡的结果。即使是“3×3 pool with 1×1 conv”也与“3×3 conv”执行类似。网络生成器大致保持其准确性排名，手术置换;事实上，图5中任何两个序列之间的皮尔逊相关系数都是0。9100九十八这表明，网络布线所起的作用与所选操作的作用有些4.2. 比较小型计算系统。表2比较了我们在小计算范围内的结果，这是现有NAS论文中研究的常见设置。而不是训练100个epoch，这里我们按照[58，35，27，28]中的设置训练250个epoch以进行公平比较。RandWire with WS（4，0. 75）的平均准确度为74.7%（最小值74.4%，最大值75.0%）。这一结果优于或媲美所有现有的手工设计的儿BAWS儿WS3×3可分离式变频器3×3转换3×3最大池1×1转换3×3平均样本池1×1转换前1精度前1精度1291骨干APAP50AP75APSAPMAPLResNet-50 [12]37.158.839.721.940.847.6ResNeXt-50 [53]38.260.541.323.041.548.8RandWire-WS，C=10939.961.943.323.643.552.7ResNet-101 [12]39.861.743.323.743.951.7ResNeXt-101 [53]40.762.944.524.444.852.7RandWire-WS，C=15441.163.144.624.645.153.0表2. ImageNet：小型计算体系（即，<600M FLOPs）。RandWire结果是5个随机网络实例的平均精度（±标准差），WS（4，0。75）。在这里，我们训练了类似于[58，35，27，28]的250个epoch，以进行公平的比较。网络top-1 acc. 前5名FLOPs（B）参数（M）ResNet-50 [12]77.193.54.125.6ResNeXt-50 [53]78.494.04.225.0RandWire-WS，C=10979.0±0.1794.4±0.114.0±0.0931.9±0.66ResNet-101 [12]78.894.47.844.6ResNeXt-101 [53]79.594.68.044.2RandWire-WS，C=15480.1±0.1994.8±0.187.9±0.1861.5±1.32表3. ImageNet：常规计算机制，FLOP与ResNet-50（顶部）和ResNet-101（底部）相当。ResNeXt是32×4版本[53]。RandWire是WS（4，0。75）。网络测试大小历元top-1 acc.前5名FLOPs（B）params（M）NASNet-A [58]2331>250 82.7 96.223.8 88.9[35]第三十五话2331>250 82.3 96.122.3 84.0[35]第三十五话2331>250 82.8 96.123.1 86.7[27]第二十七话2331>250 82.9 96.225.0 86.1RandWire-WS232010081.6±0.13 95.6±0.0716.0±0.36 61.5±1.32表4. ImageNet：大型计算机制。我们的网络与表3中的网络相同（C=154），但我们对320×320图像而不是224×224图像进行评估。我们的只训练了100个纪元。布线（ MobileNet/ShuffleNet）和基于 NAS的结果，AmoebaNet-C除外[35]。RandWire实现的平均精度是一个有竞争力的结果，特别是考虑到我们在随机生成器中不执行随机搜索，并且我们对所有节点使用单一操作类型。定期计算制度。接下来，我们将RandWire网络与ResNet-50/101 [12]在类似的FLOP下进行比较。在这种情况下，我们使用受边缘去除分析启发的正则化方法：对于每个训练小批，我们随机去除一个边缘，其目标节点的输入度>1，概率为0.1。这种规则化类似于NAS中采用的DropPath [58]。我们在分类器fc层中使用1 e-5的权重衰减和0.2的DropOut [14]率进行训练。其他设置与小计算机制相同。我们使用[11]的配方训练ResNet/ResNeXt竞争对手，但使用余弦网络top-1 acc.前5名FLOPs（M）参数（M）[第16话]70.6 89.55694.2[41]第四十一话74.7-5856.9ShuffleNet [56]73.7 91.55245.4[31]第三十一话74.9 92.25917.4NASNet-A [58]74.091.65645.3NASNet-B [58]72.891.34885.3NASNet-C [58]72.591.05584.9[35]第三十五话74.592.05555.1[35]第三十五话74.091.55555.3[35]第三十五话75.792.45706.4PNAS [27]74.291.95885.1DARTS [28]73.191.05954.9RandWire-WS74.7±0.2592.2±0.15583±6.25.6±0.11292表 5. COCO 对象检测结果从表 3 中的网络中微调，在val2017集上报告。骨干网的FLOP与ResNet-50或ResNet-101相当。时间表和标签平滑，用于公平比较。表 3 在与 ResNet-50/101 相似的 FLOP 下比较了RandWire与ResNet和ResNeXt。我们的平均准确率分别比 ResNet- 50 和 ResNet-101 高 1.9% 和 1.3% ，比ResNeXt高0.6%。ResNe（X）t和RandWire都可以被认为是手工设计的，但ResNe（X）t是基于设计的布线图案，而RandWire使用设计的随机生成器。这些结果说明了手工设计可以发挥的不同作用。更大的计算。为了完整性，我们与最精确的基于NAS的网络进行比较，这些网络使用更多的计算。为了简单起见，我们使用相同的训练网络-工作原理如表3所示，但仅将测试图像大小增加到320×320，而不进行重新训练。表4比较了结果。我们的网络的平均精度比最准确的NAS结果低0.7%至1.3%，但我们的网络只使用了102/3 FLOP和103/4参数。我们的网络经过培训，100 epochs并且不在目标图像大小上，vs. NAS方法使用>250个epoch并在331×331大小的目标上训练。我们的模型没有搜索操作，不像NAS.将在今后的工作中探讨这些差距。COCO对象检测。最后，我们报告了通过微调COCO对象检测网络的传输能力结果[26]。我们使用FasterR-CNN [36]和FPN [25]作为对象检测器。我们的微调是基于公开可用的Detectron的1×设置[10]。我们只是-将主链与表3中的那些主链放置在一起（常规方案）。表5比较了目标检测结果。观察到的趋势与表3中的ImageNet实验相似。这些结果表明，我们随机连接的网络所学到的特征也可以转移。5. 结论我们探索了由图论中的三个经典随机图模型驱动的随机连接神经网络。结果令人惊讶：这些模型的平均准确度与来自最近关于神经结构搜索的工作的手工设计和优化的模型具有竞争力。我们的探索是由网络生成器的新概念实现的。我们希望未来探索新的生成器设计的工作可能会产生新的，强大的网络设计。1293引用[1] 我是艾伯特和艾伯特-L a'sz lo'Barab a'si。复杂网络的统计力学Reviews of Modern Physics，74（1）：47，2002.一、二、四、五[2] 丹妮尔·史密斯·巴塞特和埃德·布尔莫。小世界大脑网络The Neuroscientist，12（6）：512-523，2006. 2[3] Danielle S Bassett和Olaf Sporns。网络神经科学。Nature Neuroscience，20（3）：353，2017. 2[4] 埃德·布尔莫和奥拉夫·斯伯恩斯复杂的大脑网络：结构和功能系统的图论分析。Nature Reviews Neuroscience，10（3）：186，2009. 2[5] 韩才、朱立庚、宋涵。Proxylessnas：在目标任务和硬件上直接进行神经结构搜索。ICLR，2019。2[6] 弗朗索瓦·肖莱。Xception：使用深度可分离卷积的深度学习在CVPR，2017年。4[7] 保罗·埃尔德·奥斯和阿尔夫·雷·雷·恩·伊。关于随机图的演化Publ. 数学Inst. 红。Acad. Sci，5（1）：17 -60，1960.一、二、四、五[8] Jerry A Fodor和Zenon W Pylyshyn。连接主义和认知架构：批判性的分析。Cognition，28（1- 2）：3-71，1988. 1[9] 埃德加·纳尔逊·吉尔伯特。随机图。数学统计年鉴，30（4）：1141-1144，12 1959. 5[10] Ross Girshick 、 Ilija Radosavovic 、 Georgia Gkioxari 、Piotr Doll a´ r和KaimingHe。Detectron，2018年。8[11] PriyaGo yal ， PiotrDolla´r ， RossGirshick ， PieterNoord-huis ， Lukasz Wesolowski ， Aapo Kyrola ， AndrewTulloch， Yangqing Jia，and Kaiming He. 准

下载后可阅读完整内容，剩余1页未读，立即下载