视觉识别网络设计空间比较分布估计的研究

123 浏览量更新于2023-10-12 收藏 2.1MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1论视觉识别的网络设计空间IlijaRados与JustinJohnson SainingXieW an-YenLo PiotrDolla'rFacebook AIResearch（FAIR）摘要在过去的几年里，在设计更好的视觉识别神经网络架构方面取得了很大的进展。为了帮助维持这种进展速度，在这项工作中，我们建议重新审视比较网络架构的方法。特别是，我们引入了一个新的比较范式的分布估计，在网络设计空间进行比较，通过应用统计技术的抽样模型的人口，同时控制混杂因素，如网络的复杂性。与当前比较模型族的点和曲线估计的方法相比，分布估计描绘了整个设计景观的更完整的画面作为一个案例研究，我们研究了神经架构搜索（NAS）中使用的设计空间我们发现最近的NAS设计空间变量之间存在显著的此外，我们的分析表明，像ResNeXt这样的标准模型家族的设计空间可以与最近NAS工作中使用的更复杂的设计空间相媲美。我们希望这些对分布分析的见解能够在发现更好的视觉识别网络1. 介绍在过去的几年里，我们的社区在为视觉识别任务设计更好的卷积神经网络这种整体研究努力类似于随机梯度下降的形式，其中每个新提出的模型架构都是遍历可能的神经网络设计的无限维景观的噪声梯度步骤。这种优化的总体目标是找到易于优化的网络架构，在速度和准确性之间做出合理的权衡，推广到许多任务和数据集，并总体上经得起时间的考验为了实现这一目标，我们必须使用正确的损失函数来指导我们的搜索，换句话说，一种比较网络体系结构的研究方法，可以可靠地告诉我们新提出的模型是否真的比以前更好。图1. 比较网络。（a）用于视觉识别任务的神经网络的早期工作使用点估计来比较架构，通常不考虑模型的复杂性。（b）更多的近期工作比较了误差曲线估计与.复杂性由少数几个选定的模型跟踪。（c）我们建议从参数化的模型设计空间中对模型进行采样，并测量分布估计以比较设计空间。这种方法允许更完整和公正的设计景观的看法。一个有希望的途径是发展更好的神经网络理论理解，以指导新的网络体系结构的发展。然而，我们不需要经典统计学提供了从实证研究中得出明智结论的工具，即使在缺乏一个通用理论的情况下也是如此。我们相信，在深度学习研究中使用这种基于统计的科学方法可能会促进我们未来的进步。总的来说，在网络架构设计的文献中，已经有了一个更好的实用主义的普遍趋势。在这一领域最简单和最早的方法中（图1a），进步的标志是简单的点估计：如果一个架构在基准数据集上实现了较低的错误，则认为它是优越的[15，19，35，31]，通常与模型复杂性。在最近的工作中采用的改进方法比较了曲线估计（图1b），该曲线估计通过从松散定义的模型族中实例化少数模型并跟踪误差曲线来探索网络架构的设计权衡。模型复杂性[34，11，39]。如果一个模型族在沿着这样一条曲线的每个点然而，请注意，在这种方法中，其他混杂因素可能会因模型系列而异，或者可能对其中一个系列而言是次优的。18821883比较模型族，同时改变单个自由度以生成曲线估计值，这暗示了一种更通用的方法。对于一个给定的模型族，而不是改变一个单一的网络超参数（例如，网络深度）同时保持所有其它的固定（例如，stagewisewidth，groups），如果我们改变所有相关的网络超参数会怎么样？虽然原则上这将消除可能影响模型族结论的混淆因素，但它也会产生大量（通常是无限数量）可能的模型。在这种无约束的条件下，模型族的比较是否可行？为了实现更稳健的设置，我们引入了一个新的比较范式：分布估计（图1 c）。而不是比较一个模型家族的几个选定的参数，而是从一个设计空间参数化可能的架构，从而产生的错误率和模型复杂性的分布模型的样本。然后，我们通过对这些分布应用统计技术来比较网络设计空间这比点或曲线估计更完整和公正地描绘了设计为了验证我们提出的方法，我们进行了一项大规模的实证研究，在CIFAR上训练了超过100，000个跨越多个模型家族的模型[14]。这个庞大的训练模型集使我们能够对分布估计进行模拟，并对我们的方法得出可靠的结论然而，在实践中，我们表明，抽样之间的100至1000个模型是足够的，以执行稳健的估计。我们通过在ImageNet上进行研究进一步验证了我们的估计[4]，请参阅这项工作的arXiv版本1。这使得所提出的方法在典型的设置下是可行的，因此是一个实用的工具，可以用来帮助发现新的网络架构。作为我们方法的案例研究，我们研究了最近几种用于神经架构搜索（NAS）的方法所使用的网络设计空间[39，29，20，28，21]。令人惊讶的是，我们发现不同NAS方法使用的设计空间之间存在显着差异此外，我们证明了标准模型系列（如ResNeXt [34]）的设计空间可以与在最近的NAS方法中使用的更复杂的。我们注意到，我们的工作是对NAS的补充。而NAS的重点是找到一个最好的模型在一个给定的模型家族，我们的工作重点是表征模型家族本身。换句话说，我们的方法可以使研究设计的设计空间的模型搜索.我们已发布本研究中使用的所有代码2和数据31https://arxiv.org/abs/1905.132142https://github.com/facebookresearch/ndshttps://github.com/facebookresearch/pycls2. 相关工作可重复的研究。最近有一个令人鼓舞的趋势，即在机器学习中实现更好的再现性[25，22，9]。例如，Hendersonet al. [9]检查强化学习（RL）的最新研究，并提出指导方针以提高可重复性，从而使该领域能够持续发展。同样，我们的目标是引入一个更强大的方法来评估模型架构的视觉识别领域。实证研究。在缺乏对深度网络的严格理论理解的情况下，必须对深度网络进行大规模的实证研究以帮助开发[6，3，27]。例如，在自然语言处理中，最近的大规模研究[25，26]表明，当设计空间得到充分探索时，原始LSTM [10]可以在语言建模基准上优于最近的模型。这些结果表明，实证研究和强大的方法在发现更好的架构方面发挥了关键作用。超参数搜索。一般超参数搜索技术[2，32]解决了机器学习中费力的模型调整过程。比较来自两个不同模型族的网络的一种可能方法是首先调整它们的超参数[16]。然而，这种比较在实践中可能具有挑战性。相反，[1]提倡使用随机搜索作为超参数搜索的强基线，并建议它还有助于提高再现性。在我们的工作中，我们建议直接比较完整的模型分布（而不仅仅是它们的最小值）。神经架构搜索。最近，NAS已被证明对学习网络架构有效[38]。NAS实例化有两个组件：网络设计空间和在该空间上的搜索算法。NAS的大部分工作集中在搜索算法上，已经研究了各种搜索策略，包括RL [38，39，28]，启发式搜索[20]，基于梯度的搜索[21，23]和进化算法[29]。相反，在我们的工作中，我们专注于表征模型设计空间。作为案例研究，我们分析了最近的NAS设计空间[39，29，20，28，21]，并发现了在很大程度上被忽视的显著差异。复杂性措施。在这项工作中，我们专注于分析网络设计空间，同时控制网络复杂性等混杂因素。虽然统计学习理论[30，33]引入了机器学习模型复杂性的理论概念，但这些通常不能预测神经网络行为[36，37]。相反，我们采用常用的网络复杂性度量，包括模型参数或乘加运算的数量[7，34，11，39]。其他措施，例如：挂钟速度[12]，可以很容易地集成到我们的范例中。1884阶段操作输出R-56R-110深度宽度比组总干3×3转换32×32×16触发器（B）0.130.26香草1,24,916,256,121,259,712阶段1{block}×d132×32×宽1参数（M）0.861.73ResNet1,24,916,256,121,259,712阶段2{block}×d216×16×宽2错误[8]6.976.61ResNeXt-A1,16,516,256,51,4,31,4,311,390,625阶段3{block}×d38×8×宽3错误[我们的]6.225.91ResNeXt-B1,16,564,1024,51,4,31,16,552,734,375头游泳池+fc1×1×10不表2. 设计空间. 时独立地三个净-表1. 设计空间参数化。（左）我们工作中使用的标准模型族的一般网络结构。每个阶段包括一个序列的d块与w输出通道，nels（块类型不同的设计空间）。（右）ResNet模型的统计数据[8]供参考。在我们的符号中，R-56具有di=9且wi=8·2i，并且R-110使每级di的块加倍。我们报告了[8]中的原始错误和我们复制的错误3. 设计空间我们首先在§3.1中描述定义设计空间的核心概念，并在§3.2中给出关于我们实验中使用的实际设计空间的更多细节。3.1. 定义I. 模范家庭。一个模型族是一个相关神经网络架构的大型（可能是无限的）集合，通常共享一些高级架构结构或设计原则（例如，残余连接）。示例模型家族包括标准前馈网络，如ResNets [8]或NAS模型家族[38，39]。II. 设计空间。对模型族进行实证研究是困难的，因为它们被广泛定义，通常没有完全指定。因此，我们区分抽象模型族和设计空间，设计空间是一组可以从模型族实例化的具体架构。设计空间由两个部分组成：模型族的参数化，使得对模型超参数集的规范化完全定义了网络实例和每个超参数的允许值集。例如，ResNet模型族的设计空间可以包括控制网络深度的参数及其最大允许值的限制。III. 模型分布。为了进行设计空间的实证研究，我们必须实例化和评估一组网络架构。由于设计空间可以包含指数数量的候选模型，因此穷举评估是不可行的。因此，我们从设计空间中抽取并评估一组固定的模型，从而产生模型分布，并转向经典统计学的工具进行分析。任何标准的分布，以及像NAS中的学习分布，都可以集成到我们的范例中。IV. 数据生成。为了分析网络设计空间，我们从每个设计空间中采样并评估了许多模型。在这样做的过程中，我们有效地生成了训练模型的数据集，并在此基础上进行了实证研究。在工作阶段i，我们选择块的数量di和每个块的通道数量wi。符号a，b，n表示我们从a到b范围内均匀分布的n个值（在对数空间中）进行采样。对于ResNeXt设计空间，我们还选择瓶颈宽度比ri和每个阶段的组数gi。对于带/不带组的模型，模型总数为（dw）3和（dwrg）3。3.2. 实例化我们提供了精确的描述，我们的方法分析中使用的设计空间。我们在§5中为NAS模型系列引入了额外的设计空间。I. 模范家庭。我们研究了三个标准模型族。我们考虑一个我们接下来提供更多细节。II. 设计空间。在[8]之后，我们使用由一个主干、三个阶段和一个头部组成的网络，见表1（左）。每个阶段由一系列模块组成。对于我们的ResNet设计空间，单个块由两个卷积 4 和一个剩余连接组成。我们的Vanilla设计空间使用相同的块结构，但没有残差。最后，在ResNeXt设计空间的情况下，我们使用带组的瓶颈块[34]。表1（右）显示了一些基线ResNet模型供参考（有关训练设置的详细信息，请参阅arXiv）。为了完成设计空间定义，我们在表2中为每个设计空间指定了允许的超参数集。请注意，我们考虑两种具有不同超参数集的ResNeXt设计空间变体：ResNeXt-A和ResNeXt-B。III. 模型分布。我们通过从每个设计空间的允许值中均匀采样超参数来生成模型分布（如表2所示）。IV. 数据生成。我们的主要实验使用在CIFAR-10上训练的图像分类模型[14]。这种设置可以进行大规模分析，并且通常用作识别网络（包括NAS）的测试平台。虽然我们发现，从给定的设计空间稀疏采样模型是足够的，以获得强大的估计，我们执行更密集的采样来评估我们的方法。我们从表2中的每个设计空间中采样和训练25k个模型，总共100k个模型。为了减少计算负载，我们考虑触发器5或参数低于ResNet-56值的模型（表1，右）。4所有convs都是3×3，然后是Batch Norm [13]和ReLU。[5]按照惯例，我们用触发器来表示乘加运算。18854. 拟议方法在本节中，我们将介绍并评估我们用于比较设计空间的方法。在本节中，我们使用§3.2中介绍的设计空间。4.1. 比较分布当开发新的网络架构时，人类专家采用网格和手动搜索的组合来从设计空间评估模型，并选择实现最低误差的模型（例如，如[16]所述。最终模型是设计空间的点估计。作为一个社区，我们通常使用这样的点估计来得出结论，哪些方法优于其他方法。不幸的是，通过点估计来比较设计空间可能会产生误导。我们用一个简单的例子来说明这一点：我们考虑比较从相同设计空间采样的不同尺寸的两组模型。点估计。作为人类衍生点估计的代理，我们使用随机搜索[1]。我们通过从ResNet设计空间中均匀采样100个架构来生成基线模型集（B）（见表2）。为了生成第二模型集（M），我们改为使用1000个样本。在实践中，样本数量的差异可能是由于在基线上开发M时付出了更多努力，或者仅仅是为了生成M而访问了更多计算资源。这种不平衡的比较在实践中很常见。训练后，M由于最佳误差较低，简单比较点估计值得出结论，M更优。重复这个实验会得到相同的结果：图2（左）绘制了多次试验中B和M的最小误差差异（通过从我们的25k预训练模型池中重复采样B和M来模拟）。在90%的情况下，M的最小值比B低，通常相差很大。然而，显然B和M是从同一设计空间中得出的，因此这种基于点估计的分析可能会产生误导。分配。在这项工作中，我们提出的情况下，可以得出更强大的结论，直接比较分布，而不是点估计，如最小误差。为了比较分布，我们使用经验分布函数（EDF）。设1为指示函数。给定一组具有误差{ei}的n个模型，误差EDF由下式给出1Σn图2. 点与分布比较。考虑两组模型B和M，分别从同一设计空间随机抽取100和1000个模型。这种情况在实践中经常出现，例如：这是由于更多的努力被投入到新方法的模型开发中。（左）5000次随机试验中B和M的最小误差在90%的情况下，M的最小值低于B，导致不正确的结论。（右）比较误差的EDF（等式10）。1）直接表明两个集合的分布可能相同。我们可以通过测量KS统计量D（等式10）来定量地表征这一点。2），计算为两个EDF之间的最大垂直差异，如放大面板所示定性地，B和M的误差EDF之间几乎没有明显的差异，这表明这两组模型是从相同的设计空间绘制的。我们可以使用（两个样本） Kolmogorov-Smirnov（KS）检验[24]进行定量比较，这是一种非参数统计检验，用于零假设，即两个样本来自同一分布。给定EDFF1和F2，测试计算KS统计量D，定义为：D= sup |F1（x）− F2（x）|（二）XD测量EDF之间的最大垂直差异（参见图2中的放大面板）;小值表明F1和F2是从同一分布中采样的在我们的例子中，KS检验给出D=0。079，p值为0.60，因此，在高置信度下，我们无法拒绝零假设B和M遵循相同的分布。讨论虽然是教学性的，但上述示例说明了比较分布而不是点估计的必要性，因为后者即使在简单的情况下也会产生误导性的结果。我们强调，这种不平衡的比较在实践中经常发生。通常情况下，大多数工作报告仅针对少数最佳模型的结果，很少报告探索的总点数F（ e）= ni=1 1[ei80%）模型的误差低于8%。相比之下，Vanilla设计空间中此类模型的比例要小得多（约15%）。这使得更容易找到一个好的ResNet模型。虽然这并不令人惊讶，因为剩余连接的有效性是众所周知的，但它确实证明了EDF的形状如何能够为表征设计空间提供额外的见解。配送区域。我们可以通过曲线下的平均面积来总结EDF，直到达到某个最大值。那就是我们可以计算 Fwmin（1，ei）. 为了我们的爱-图7. 样品数量。我们使用我们的方法论（左）我们显示了使用不同数量的样本生成的EDF的定性比较。（右）我们计算全样本和子样本之间的KS在这两种情况下，我们得出的结论是，100至1000个样本是我们的方法的合理范围4.4. 最小样本容量到目前为止，我们的实验使用了非常大的训练模型集。然而，在实践中，正如我们现在所展示的，可以用来比较模型分布的样本要少得多定性分析图 7 （左）显示了具有不同样本数量的ResNet设计空间的EDF。使用10个样本来生成EDF是相当嘈杂的;然而，100给出了合理的近似值，并且1000在视觉上与10，000无法区分。这表明100至1000个样本可能足以比较分布。定量分析相我们进行定量分析，以更精确地描述比较分布所需的样本数量。特别地，我们计算KS统计量D（等式10）。2）在25k个模型的完整样本和增加大小n的子样本之间。结果如图7（右）所示。正如预期的那样，随着n的增加，D减小。在100个样本处，D约为0.1，并且在1000处，D开始饱和。超过1000个样本显示收益递减。因此，我们先前估计的100萨姆-0i例如，ResNet在曲线下的面积更大然而，与min一样，该区域仅提供EDF的部分视图随机搜索效率。另一种评估找到好模型难易程度的方法是测量随机搜索效率。为了模拟不同大小m的随机搜索实验，我们遵循[1]中描述的过程。具体来说，对于每个实验规模m，我们从n个模型池中抽取m个模型，并取其最小误差。我们重复这个过程n/m次，以获得每个m的平均值和误差线。为了排除复杂性的混杂效应，我们为每个模型分配一个权重，C1=C2（方程式3）并使用这些权重进行采样。在图6（右）中，我们使用50k个预训练模型从Vanilla和ResNet设计空间模拟随机搜索（以参数为条件），以改变m。我们观察到与以前一致的结果：随机搜索在ResNet设计空间中更快地找到更好的模型。实际上，1000是一个合理的下限，这足以进行更精确的比较。然而，我们注意到，这些界限在其他情况下可能变化可行性讨论。人们可能想知道训练100到1000个模型来评估一个分布的可行性。在我们的设置中，训练500个CIFAR模型需要大约250个GPU小时。相比之下，在ImageNet上训练一个典型的ResNet-50基线需要大约192个GPU小时。因此，评估像CIFAR这样的小规模问题的全分布需要与中等规模问题的点估计相当像ImageNet这样的问题。为了进一步说明这一点，NAS方法在CIFAR上可能需要多达O（105）GPU小时[28]。总的来说，我们预计分布比较在典型设置下是相当可行的。为了进一步帮助这种比较，我们发布了所有研究设计空间作为未来工作的基准。1888手术次数节点数输出细胞数量（B）NASNet [39]135L71,465,842变形虫[29]85L556,628PNAS [20]85一556,628ENAS [28]55L5,063DARTS [21]84一242表3. NAS设计空间。我们总结了五个NAS设计空间的细胞结构我们列出了候选操作的数量（例如，5×5 conv，3×3 maxpool等），节点的数量（不包括输入），以及哪些节点被连接用于输出（'A'表示'所有'节点，'L'表示'松散'节点不用作其他节点的输入）。给定o个操作可供选择，在添加第j个节点时有o2·（j+1）2个选择，导致o2k·（（k+1）！）具有k个节点的2个空间变化很大;事实上，甚至每个确切的候选操作也不同。5. 案例研究：NAS作为我们的方法的案例研究，我们研究设计空间从最近的神经架构搜索（NAS）的文学。在本节中，我们对CIFAR [14]进行了研究，在arXiv中，我们通过在ImageNet [4]上复制研究来进一步验证我们的结果，得出了类似的结论。NAS有两个核心组件：设计空间和在该空间上的搜索算法。虽然通常重点是搜索算法（可以被视为在设计空间上引入分布），但我们专注于比较固定分布下的设计空间。我们的主要发现是，在最近的NAS论文中，显着的设计空间差异在很大程度上被忽视了。我们的方法补充NAS解耦的设计空间的设计从搜索算法的设计，我们希望这将有助于研究新的设计空间。5.1. 设计空间I. 模范家庭。在[38，39]中介绍了一般NAS模型家族。NAS模型是通过重复堆叠单个计算单元（称为单元）来构建的，其中单元可以在其执行的操作和其连接模式中变化。具体地说，一个单元将前两个单元的输出作为输入，并包含许多节点。单元中的每个节点将两个先前构造的节点（或两个单元输入）作为输入，将运算符应用于每个输入（例如，卷积），并组合两个运算符的输出（例如，通过求和）。我们参考ENAS [28]以获得更详细的描述。II. 设计空间。尽管最近的许多论文使用一般的NAS模型家族，最新的方法使用不同的设计空间实例。特别是，我们仔细研究了NAS-Net [39]，AmoebaNet [29]，PNAS [20]，ENAS [28]和DARTS [21]中描述的设计空间。它们之间的细胞结构有很大不同，详见表3。在我们的工作中，我们通过复制这五种单元结构定义了五个设计空间，并相应地命名它们，即，NASNet、变形虫等。图8. NAS复杂性分布。在给定固定宽度（w=16）和深度（d=20）的情况下，具有不同单元结构的设计空间的复杂性（参见表3）显著变化为了比较设计空间，我们需要对复杂度进行归一化，这需要复杂度分布落在相同的范围内。我们通过允许w和d变化（并设置最大复杂度）来实现细胞如何堆叠以生成完整的网络架构在最近的论文中也略有不同，但不如细胞结构。因此，我们将设计空间的这一方面标准化;也就是说，我们采用DARTS[ 21 ]中的网络架构设置。核心方面包括主干结构，三个还原单元的均匀放置，以及每个还原单元后加倍的过滤器宽度。网络深度d和初始滤波器宽度w通常保持固定。然而，这些超参数直接影响模型的复杂性。具体地，图8示出了在w和d保持固定的情况下用不同单元结构生成的复杂度分布。分布的范围由于不同的单元结构设计而不同到排除这个混杂因素，我们让w和d变化（选择w∈ {16，24，32}和d∈ {4，8，12，16，20}）。这扩展了每个设计空间的复杂性分布范围，允许更多的控制比较。III. 模型分布。我们通过在每一步使用均匀采样来对NAS细胞进行采样（例如，操作员和节点选择）。同样，我们随机均匀地对w和dIV.数据生成。我们在CIFAR上为表3中的五个NAS设计空间中的每一个训练了101k模型（关于样本大小的讨论，请参见§4.4特别是，我们确保每个设计空间都有1 k个模型，用于全触发器范围和全参数范围（上限为R-56，参见§3）。5.2. 设计空间比较我们采用我们的分布比较工具（EDF，KS测试等）比较了五种NAS设计空间，每种设计空间的单元结构各不相同（见表3）。分布比较。图9显示了每个NAS设计空间的归一化误差EDF。我们的主要目标是EDF变化很大：NASNet和Amoeba设计空间明显比其他设计空间差，而DARTS总体上最好。比较ENAS和PNAS表明，虽然两者相似，但PNAS有更多具有中间误差的模型，而ENAS有更多性能较低/较高的模型，导致EDF交叉。1889图9. NAS分布比较。表3中五个NAS设计空间的EDF。EDF显著不同（最大KS测试D = 0。51之间的DARTS和NASNet），即使设计空间都是NAS模型家族的实例图10. NAS随机搜索效率。设计空间的差异导致在五个测试的NAS设计空间上的随机搜索效率的明显差异。这突出了解耦搜索算法和设计空间的重要性。有趣的是，根据我们的分析，与较新工作相对应的设计空间优于NASNet [39]和Amoeba [29]中引入的最早设计空间。虽然NAS文献通常集中在搜索al-出租，设计空间似乎也在改善。例如，PNAS [20]从NASNet中删除了五个在NASNet搜索中没有选择的操作，有效地修剪了设计空间。因此，至少有一部分的增益在每个文件可能来自设计空间的改进。随机搜索效率。我们按照第4.3节的设置在NAS设计空间中模拟随机搜索（在对复杂性进行归一化之后）。结果如图10所示。首先，我们观察到随机搜索效率对设计空间的排序与图9中EDF的排序一致。其次，对于固定搜索算法（在这种情况下为随机搜索），这表明仅设计空间的差异就会导致性能的明显差异。这加强了如果搜索算法变化，则应注意保持5.3. 与标准设计空间的比较接下来，我们将NAS设计空间与§3中的设计空间进行比较。我们选择表现最好和最差的NAS设计空间（ DARTS 和 NASNet ），并将它们与表 2 中的两个ResNeXt 设计空间进行比较。 EDF 如图 11 所示。ResNeXt-B 在通过参数进行规范化时与 DARTS相当（左），而DARTS在通过触发器进行规范化时优于ResNeXt-B（右）。ResNeXt-A在这两种情况下都比DARTS差图 11. NAS 与标准设计空间。对参数进行归一化后，ResNeXt-B与强DARTS设计空间（KS检验D=0. 09）。对于触发器进行标准化，DARTS的性能优于ResNeXt-B，但不是相对较大的幅度。触发器（B）参数（M）错误原件错误缺省误差增强ResNet-1100.261.76.615.913.65ResNeXt0.382.5–4.902.75飞镖游戏0.543.42.835.212.63表4. 点比较。我们使用最初报告的错误将选定的更高复杂度模型与我们的默认训练设置和[21]中的增强结果表明，认真控制培训设置的重要性。有趣的是，ResNeXt设计空间可以与NAS设计空间进行比较（除了宽度和深度之外，其单元结构也有所不同）。这些结果表明，设计空间的设计起着关键作用，并建议设计设计空间，手动或通过数据驱动的方法，是未来工作的一个有前途的途径。5.4. 健全性检查：点比较我们注意到，最近的NAS论文报告了由于更高的复杂性模型和增强的训练设置而导致的更低的总体误差作为一种健全性检查，我们使用更大的模型和DARTS[21]的确切训练设置进行点比较，DARTS [ 21 ]使用600 epoch时间表，具有深度超视[18]，Cutout [5]和修改的 DropPath [17] 。我们考虑三种模型： DARTS（DARTS中最好的模型[21]），ResNeXt（ResNeXt-B中最好的模型，增加了宽度）和ResNet-110 [8]。结果示于表4中。通过增强的设置，ResNeXt实现了与DARTS类似的错误（具有可比较的复杂性）。这进一步说明，在相同设置下进行比较至关重要，只需使用增强的训练设置即可获得超过2%的增益;即使是原始的ResNet-110在这些设置下也具有竞争力。6. 结论我们提出了一种分析和比较模型设计空间的方法。虽然我们专注于图像分类的卷积网络，但我们的方法应该适用于其他模型类型（例如，RNN）、域（例如，NLP）和任务（例如，检测）。我们希望我们的工作将鼓励社区将设计空间视为模型开发和评估的核心部分。1890引用[1] James Bergstra和Yoshua Bengio。超参数优化的随机搜索。JMLR，2012年。二、四、六[2] JamesSBe r gstra、Re′miBardenet、YoshuaBengio和Bal a′zsK e′ gl。 H型参数优化算法。NIPS，2011年。2[3] 贾斯敏·柯林斯，贾斯查·索尔-迪克斯汀，大卫·苏西罗。递归神经网络的容量和可训练性。在ICLR，2017。2[4] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。CVPR，2009。二、七[5] 作者声明：Dr. Taylor.改进的卷积神经网络的截断正则化。arXiv：1708.04552，2017。8[6] Klaus Greff，Rupesh K Srivastava，Jan Koutn 'ık，BasRSte-unebrink，andJürgenSchmidhube r. Lstm：搜索空间奥德赛。arXiv：1503.04069，2015年。2[7] 何开明和孙健。时间成本约束下的卷积神经网络CVPR，2015。二、五[8] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在CVPR，2016年。三、八[9] Peter Henderson，Riashat Islam，Philip Bachman，JoellePineau，Doina Precup，and David Meger.重要的深度强化学习。在AAAI，2018。2[10] SeppHochreiter和JürgenSchmidhube r. 长短期记忆。神经计算，1997年。2[11] Gao Huang，Zhuang Liu，Laurens Van Der Maaten，andKilian Q Weinberger.密集连接的卷积网络。在CVPR，2017年。一、二、五[12] Jonathan Huang，Vivek Rathod，Chen Sun，MenglongZhu ， AnoopKorattikara ， Alireza Fathi ， Ian Fischer，Zbigniew Wo-jna，Yang Song，Sergio Guadarrama，et al.现代卷积对象检测器的速度/精度权衡。在CVPR，2017年。2[13] Sergey Ioffe和Christian Szegedy。批次标准化：通过减少内部协变量偏移来加速深度网络训练。ICML ，2015。3[14] 亚历克斯·克里热夫斯基从微小的图像中学习多层特征。技术报告，2009年。二、三、七[15] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络的图像网分类。NIPS，2012年。1[16] Hugo Larochelle ， Dumitru Erhan ， Aaron Courville ，James Bergstra，and Yoonne Bengio.对具有多个变化因素的问题的深层体系结构的经验评估。ICML，2007年。二、四[17] 古斯塔夫·拉尔森迈克尔·梅尔格雷戈里·沙赫纳洛维奇。Fractalnet ：无残差的超深度神经网络。在 ICLR ，2017。8[18] Chen-Yu Lee ， Saining Xie ， Patrick Gallagher ，Zhengyou Zhang，and Zhuowen Tu.深度监督网络。在AIS中-TATS，2015年。8[19] Min Lin，Qiang Chen，and Shuicheng Yan.网络中的网络。arXiv：1312

下载后可阅读完整内容，剩余1页未读，立即下载