神经网络的动态布线和模型容量的提升

92 浏览量更新于2023-10-13 收藏 1.74MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

327神经网络的可微动态布线Kun Yuan1，Quanquan Li1，Shaopeng Guo2，Dapeng Chen1，AojunZhou1，Fengwei Yu1 and Ziwei Liu31商汤科技2科大讯飞3南洋理工大学yuankunbupt@gmail.com，ziwei. ntu.edu.sg摘要部署深度神经网络的标准做法是将相同的架构应用于所有输入实例。然而，固定架构可能不适合于具有高分集的不同数据。为了提高模型容量，现有方法通常采用更大的卷积核或更深的网络层，这导致了过高的计算成本。在本文中，我们解决这个问题，提出可区分的动态布线（DDW），学习的实例感知的连接，创建不同的，ENT布线模式为不同的实例。1）具体地，网络被初始化为完全有向无环图，其中节点表示卷积块，并且边表示连接路径。2）通过一个可学习模块Router生成边权值，并选择权值大于阈值的边来调整神经网络结构的连通性。3）DDW不使用网络的相同路径，而是在每个节点上动态地聚合特征，这使得网络具有更大的表示能力。为了便于有效的训练，我们进一步表示每个样本的网络连接作为邻接矩阵。矩阵被更新以聚合向前通道中的特征，被高速缓存在存储器中，并且被用于向后通道中的梯度计算。我们验证了我们的方法的有效性与几个主流架构，包括MobileNetV2，ResNet，ResNeXt和RegNet。在ImageNet分类器和COCO目标检测器上进行了大量的实验，验证了该方法的有效性和泛化能力。1. 介绍深度神经网络推动了从特征工程到特征学习的转变。巨大的进步主要来自于设计良好的网络，模型容量不断增加[10，41，13，34]。为了实现卓越的性能，一个有用的做法是添加更多的层[33]或扩展现有卷积的大小（内核宽度，信道数）[14，34，21]。同时，计算成本显著增加，阻碍了这些模型在现实场景中的部署。与其增加更多的计算负担，我们更倾向于在网络中添加依赖于输入的模块，通过适应数据方差来增加模型的容量。现有的一些工作试图将依赖于输入的模块扩充到网络中.例如，挤压和激励网络（SENet）[12]学习根据输入条件缩放通道维度中的激活卷积参数化卷积（CondConv）[43]使用过参数化权重并为每个样本生成单独的卷积核GaterNet[4] 采用门网络来提取特征并生成稀疏二进制掩码，用于基于输入在骨干网络中选择滤波器所有这些方法都着眼于调整神经网络的微观结构，使用一个数据依赖模块来影响同一级别的特征表示。回想一下生物学中的深层神经网络到哺乳动物大脑机制[26]，神经元由突触连接，负责感知不同的信息，当神经元感知外部信息时，突触会被不同程度地激活。这种现象启发我们设计一个网络，其中不同的样本激活不同的网络路径。在本文中，我们将学习如何根据输入优化神经网络的连接性。我们允许更灵活地选择布线图案，而不是使用堆叠式或手工设计的方式。具体来说，我们重新制定成一个有向无环图的网络，其中节点表示卷积块，而边缘指示连接。与使用预定义生成器生成随机图作为连通性的随机连接神经网络[42]不同，我们将图重新连接为完整图，以便所有节点彼此建立连接。这样的设置允许更多可能的连接，并且使得为每个样本找到最合适的连接性的任务等同于在完整图中在图中，每个节点从前面的节点聚集特征，执行特征328∼∼转换（例如，卷积、归一化和非线性操作），并将变换后的特征分布到后续节点。拓扑顺序中的最后一个节点的输出被用作通过图的表示为了调整不同节点对特征表示的贡献，我们进一步为图中的边分配权重。权重是通过一个额外的模块（表示为路由器）与每个节点一起为每个输入在推理过程中，只保留关键的连接，这为不同的实例创建了不同的路径。由于每个样本的连通性是通过路由器确定的非线性函数来生成的，因此我们的方法可以使网络具有比静态网络更强我们把我们提出的框架作为可微动态布线（DDW）。该算法为了方便训练，我们表示的网络连接的每个样本作为一个相邻的矩阵，并设计了一个缓冲机制，以缓存的矩阵的样本批次在训练过程中。通过缓冲机制，我们可以方便地在前向传递中聚合特征图，并通过查找相邻矩阵来计算后向传递中的梯度。总之，可微分动态布线（DDW）具有三个吸引人的特性：• 我们调查和介绍的动态布线的基础上的输入，利用神经网络的模型能力。在没有花里胡哨的情况下，在许多网络中简单地用动态连接替换静态连接实现了可靠的改进，仅略微增加了（1%）参数和（2%）计算成本（见表1）。• DDW训练起来简单且内存效率高。网络和路由器的参数可以以可区分的方式进行优化我们还设计了一个缓冲机制，方便地访问网络的连通性，聚合的特征图在向前通过和计算梯度在向后通过。• 我们表明，DDW不仅提高了人类设计的网络的性能（例如。 Mobiel-NetV2 、 ResNet 、ResNeXt），而且还提高了自动搜索架构（例如RegNet）。它在ImageNet分类（见表1）和COCO对象检测（见表2）任务上表现出良好的泛化能力。2. 相关作品非模块化网络布线。与由拓扑相同的模块组成的模块化设计的网络不同，存在一些探索性的工作更灵活的布线图案[1，9，42，39]。MaskConnect[1]删除了预定义的架构，并学习了网络中具有k个连接的模块之间的随机连接神经网络[42]使用经典的图形生成器来产生随机连接实例，并与手动设计的网络实现竞争性性能DNW [39]将每个通道视为一个节点，并在层之间搜索细粒度的稀疏连接。先前的工作证明了更灵活的布线的潜力，DDW通过使每个示例能够以不同的连接处理来推动这种范式的边界。动态网络。动态网络，调整网络架构，以相应的输入，最近已经在计算机视觉领域的研究。SkipNet[38]，BlockDrop [40]和HydraNet [22]使用强化学习来学习处理给定输入所需的块子集。一些方法修剪通道[15，44]以进行有效的推断。然而，大多数现有方法对训练是有挑战性的，因为它们需要从各个示例获得离散与这些方法不同的是，DDW学习用于连接性的连续权重以实现特征的传播，因此可以以可微分的方式容易地优化。有条件的注意最近的一些工作提出通过有条件地对输入的注意来适应特征或权重的分布。SENet [12]通过在通道上分配注意力来自适应地重新校准通道特征响应，从而提高网络的代表能力。CondConv [43]和动态卷积[3]被限制为调制不同的专家/内核，导致对卷积权重的关注。基于注意力的模型也广泛用于语言建模[20，2，35]，其基于学习的注意力权重缩放先前的顺序输入在视觉领域，以前的方法大多数计算对微观结构的关注，忽略了由不同层产生的特征对最终表示的影响。与这些方法不同，DDW专注于学习基于输入的连接性，这可以被视为对具有不同语义层次结构的特征的关注。神经架构搜索。近年来，神经网络结构搜索（NAS）被广泛应用于网络结构的自动设计.使用进化算法[27]，强化学习[24]或梯度下降[19]，可以获得任务相关的架构。不同于这些基于NAS的方法，其中搜索一个单一的体系结构，建议DDW生成前向路径的飞行根据输入，而无需搜索。我们还注意到最近的一种方法InstaNAS [5]，该方法为不同的样本生成特定于域的架构它训练了一个骗子-329E{|∈− |}{||}E{|联系我们NEG N EEGNF·E（K）（2）（1）35⋅⋅⋅⋅⋅⋅输入“3#”5#+$图表1#图表2卷积116 62323#⋅⋅⋅⋅⋅⋅路由器77548548“七号“#&++输出⋅⋅⋅⋅⋅⋅1. 聚集2. 转型3. 预测4. 分布图1. DDW的框架。左图：对于一个训练批次，每个样本执行不同的前向路径，这些路径由依赖于输入的宏连接性确定。右图：微观层面的节点操作。在这里，我们示出了具有2个活动输入边和输出边的节点。首先，它通过加权和聚合来自先前节点的输入特征。第二，卷积块变换聚合特征。第三，路由器根据变换后的特征预测输出边上的每个样本的路由权重。最后，变换后的数据由输出边发送到后续节点。箭头指示数据流。troller从定义的Meta图中选择子体系结构，从而在推理期间实现延迟减少。与之不同的是，DDW采用可微的方法学习完全图的连通性，并获得了更高的性能。3. 方法3.1. 用DAG表示网络神经网络的结构可以表示为值得注意的是，一些NAS方法[27，19]也遵循这种布线模式，即块连接两个直接的先前块。不同的是，DenseNets [13]以dense=e（i，j）i[1，j1]1< j≤N的方式聚集来自所有先前层的特征。给定这些连通性模式，网络的转发过程可以根据拓扑顺序来执行。对于第j个节点，输出特征x（j）通过下式计算：x（j）= f（j）（？1E（e（i，j））·x（i）），s.t. 1E（e（i，j））∈{0，1}通过有向无环图（DAG），由或-I j（一）节点的有序序列。具体来说，我们将两个COM-其中f（j）（·）是对应的映射函数组合（例如，添加）和变换（例如，卷积将其转换为节点。还有-转换和1E（e（i，j））代表指标（i，j）层之间的连接被表示为确定网络中特征的路径的边。为了简单起见，我们将具有N个有序节点的DAG表示为=（，），其中是节点的集合，并且是边的集合。我们证明=e（i，j）1i0的边，继续进行特征融合。这一点可以通过以下方式加以说明：分为四个步骤。首先，节点通过加权相加来聚合来自先前连接的节点的特征。第二，节点利用卷积执行特征变换α（i，j）=（i，j）α（i，j） α（i，j）≥ τ。（五）归一化和激活层（由网络确定）。第三，路由器接收变换后的特征，并应用挤压和激励来计算具有后续节点的边上的实例感知权重。最后，节点根据权值将变换后的特征分配给后续节点。在结构上，路由器应用由全局平均池（）、全连接层和S形激活σ（）组成的轻量级模块。首先通过全局平均池化压缩全局空间信息;然后我们使用全连接层和sigmoid来生成-为输出边选择归一化路由权重α（i，j）的在训练期间，这可以以可微分的方式实现。ψ（α）=α·σ（α−τ）的形式。3.4. 用于特征聚合的DDW允许用于连接性的灵活布线模式，这需要在图内需要被记录和共享的节点之间的特征的聚合。为此，我们将连通性存储在邻接矩阵（表示为MRN×N）中。行和列的顺序指示图中节点的拓扑顺序。矩阵中的元素表示边的权重，如图1的左侧所示。2，其中行反映0.130.890.090.230.830.94M4M3M$M10.130.890.090.230.830.940.060.630.760.090.170.940.830.170.940.130.060.690.260.890.630.12 零点九三0.230.09 0 .8 20.830.170.940.090.760.130.240.310.640.130.060.690.260.31 零点九十六0.890.630.120.93 零点六四0.090.760.13 零点二四0.230.09 0 .8 20.83 零点一七0.940.130.060.690.260.31 零点九十六0.890.630.120.93 零点六四0.090.760.13 零点二四0.230.09 0 .8 20.83 零点一七0.940.130.060.690.260.890.63 零点一二0.930.090.760.130.240.230.09 0 .8 20.13零点零六0.690.89 0 .6 30.120.09 0 .7 60.130.23 零点零九0.820.830.17331∈×JL··xj∂τj（xjxj′x）·zi·（x）（7）（xj⊙xj′⊙x）·zi（τ（j）=（xj⊙xj′⊙x）·τjRRe（i，j）。xj′是Σα（i，j）·x（i）的聚集特征xjxj′n七十七。百分之一百∈∈输入边和列的权重是节点的输出边在转发过程期间，第i个节点通过从Mi-1 ，…，i的对应行获取的权重执行聚合。然后，节点通过伴随路由器在输出边上生成权重，并将它们存储到M：，i的列中。通过这种方式，邻接矩阵被逐步更新并在图内共享。对于具有B个样本的批次，不同的矩阵在批次的维度上被合并，并且被缓存在定义的缓冲区中（表示为M_R_B×N×N，其中M_B=M），如图1的右侧所示。二、通过缓冲机制，DDW可以像普通网络一样训练，而不会引入过多的计算量或耗时的负担。3.5. DDW优化在训练期间，使用梯度反向传播同时优化网络Wn的参数以及路由器Wr给定输入x和对应的标签y，目标函数可以表示为：4. 实验4.1. ImageNet分类数据集和评估指标。我们在ImageNet 2012分类数据集上评估了我们的方法[29]。ImageNet数据集由来自1000个类的128万个训练图像和50，000个验证图像组成。我们在整个训练集上训练所有模型，并将单作物top-1验证集精度与输入图像分辨率224 224进行比较。我们测量性能作为Ima-geNet top-1精度相对于FLOP中的参数和计算成本的数量。网络架构和实施细节。我们在许多广泛使用的模型上验证了我们的方法，包括MobileNetV 2 -1.0 [30]、ResNet-18/50/101[10]和ResNeXt 50 - 32 x4 d [41]。为了进一步测试DDW 的有效性，我们尝试优化最近基于 NAS 的RegNets网络 [25]，这是最好的模型。具有1018种可能配置的搜索空间我们的im-minWn，W rLt（T（x;Wn，Wr），y）（6）实现基于PyTorch [23]，并且所有实验都使用16个NVIDIA Tesla V100 GPU进行，具有其中t（，）表示关于t个特定任务(e.g.图像分类和回归用于对象检测的分辨率损失）。该方法具有两个优点。首先，同时优化可以有效地减少训练时间消耗。获得训练的动态网络的时间与静态网络的时间相同。其次，与选择具有最大概率的操作的DARTS [19]不同，我们的方法以连续的方式学习连接性，这更好地保持了训练和测试之间的一致性。设置Lt 是网络流回wn向第j个节点w（j）的卷积权重扩展。设Lt是x（j）的梯度。然后梯度w.r.t对于路由器w（j）的权重，路由器b（j）和总批次1024。所有模型均使用具有0.9动量的SGD优化器进行训练。评价结果。我们验证，DDW提高性能表1中的架构范围广泛。为了公平比较，我们使用与DDW模型2相同的超参数重新训练了所有基线模型。与基线相比，DDW得到了相当大的收益，参数的数量（2%）和FLOP的推理成本（1%）的相对增加较小。<<这包括具有移动设置的架构[30]、经典剩余布线[10，41]、多分支操作[41]和架构搜索[25]。我们进一步发现，DDW受益于大的搜索空间，这可以看出，在改进-R阈值τ（j）的形式为R的ResNets。随着深度从18LtW（i，j）RΣLtfjiφjj i到101，形成的完整图包括更多的节点，导致更大的搜索空间和更多可能的布线。收益从1.02%至1。top-1准确率为61%LtB（i，j）RΣLtfjiφj4.2. COCO对象检测LtΣLtfjiψj（九）我们通过微调COCO对象检测网络[17]。我们使用更快其中w（i，j）RC×1和b（i，j）R1是路由器的权重和偏置，其确定R-CNN [28]与FPN [16]作为对象检测器。我们的微调是基于1×设置的公开可用在等式中在等式（3）中，z i由等式（3）中的w（i，j）T（xi）+b（i，j）计算。（四）、而ψj是α ij·（αij− τ j）·（（α ij− τ j）− 1）。还有⊙表示入口产品。梯度w.r.tα（i，j）可以2我们对基线模型和DDW模型的重新实现使用了相同的超参数。作为参考，已公布的基线结果如下：[30]第30话：我的世界00%，ResNet-18 [11]，69. 百分之五十七ResNet-50 [8]：76. 40%，ResNet-101 [8]：77。92%，ResNeXt50-32x4d【41】：七十七。80%，RegNetX-600M [25]：74。10%，RegNetX-1600M [25]：记作Σ（Lt⊙fj⊙xi）..==332×表1.ImageNet验证准确率（%）和推理成本。DDW提高了所有基线架构的精度，参数和推理成本的数量相对增加较小网络DDW∆顶部-1参数（M）FLOPs（M）Top-1参数（M）FLOPs（M）Top-1MobileNetV2-1.03.5129972.603.5831273.54+0.94ResNet1811.69181370.3011.71182671.32+1.02ResNet5025.55408776.7025.62412578.28+1.58ResNet10144.54779978.2944.90783779.90+1.61ResNeXt50-32x4d25.02422877.9725.09430579.39+1.42RegNet-X-600M6.1959974.036.2260074.68+0.65RegNet-X-1600M9.19160277.269.22160477.91+0.65高效Net-B 05.2839076.305.3840277.42+1.12表2. COCO目标检测minival性能。报告边界框检测的AP（%）。DDW在所有规模的多个主干上带来一致的改进。骨干方法GFLOPSAPAP. 5AP. 75APSAPMAPLResNet50基线17436.4258.5439.1121.9340.0246.58DDW17638.12（+1。第70章）60.5341.0023.6141.5248.39ResNet101基线33338.5960.5641.6322.4543.0849.46DDW33541. 73）63.5444.9725.7145.6052.62ResNeXt50-32x4d基线18138.0760.4241.0122.9742.1048.68DDW18339.52（+1。第四十五章）62.4142.5625.7143.3449.83Detectron2[7].我们替换表1中训练的骨干。目标检测结果在表2中给出。和FLOP的骨干计算与输入大小为800 1333。与静态网络相比，DDW使AP提高了1.70%，ResNet-50主干。当使用ResNet101的较大搜索空间时，我们的方法显着提高了2的性能。73%在AP。值得注意的是，对于从小到大变化的不同尺度的对象，获得了稳定的增益。这进一步验证了实例感知连接可以提高对具有大分布方差的数据集的表示能力。4.3. 与现有技术的与InstaNAS比较[5]。InstaNAS从设计的元图生成数据相关网络在推理过程中，它使用控制器通过伯努利分布对可能的架构进行采样。但它需要精心设计训练过程，以避免崩溃的控制器。不同的是，DDW在节点之间建立连续的连接，这允许更多可能的连接。该方法与梯度下降相兼容，易于以可微的方式进行训练在InstaNAS中使用Mo-bileNetV 2作为骨干网络。它提供了不同的延迟下的多个搜索架构。为了公平比较，DDW采用相同的结构。在表3中展示了DDW可以在连接性方面生成更好的实例感知架构。与RandWire比较[42]。随机连接的神经网络探索使用由不同的图形生成器生成的灵活图形作为网络，失去了对布线模式的约束。但对于整个数据集，它使用的网络架构仍然是一致的。此外，DDW允许从完整图中学习到实例感知的连接模式。我们在他们的论文中比较了具有最佳超参数的三种类型的生成器，包括Erdo¨s-Re¨n yi （ ER ）， Baraba¨ si-Albert （ BA ）和 Watts-Strogatz（WS）。由于原始文件没有发布代码，我们使用NetworkX3重现这些图。我们遵循小计算机制来形成网络。实验在ImageNet中使用其原始训练设置进行，除了DropPath和DropOut。比较结果示于表4中。DDW是优于三个经典的图形生成器在类似的计算成本。这证明了在相同的搜索空间下，优化后的数据相关连通性优于随机连接的静态连通性。与基于NAS的方法的比较。对于完整性，我们与最准确的基于NAS的网络进行比较工作在移动设置（600 M FLOPs）在IM-真实作为骨干，并报告ImageNet的结果使用相同的硬件测试延迟。结果3https://networkx.github.io333联系我们DDW七十三。52±0。05611MobileNetV2-1.0✓✓72.60-72.86+0.2673.54+0.94表3. 与InstaNAS相比，在ImageN et.表6. 不同连接方法的消融研究。结果表明，DDW优于静态网络与/不学习的边的权重在大的利润率。骨干α αbTop-1∆顶部-1ResNet-18✓70.3070.51-+0.21DDW-MBv2-1.0七十三。5±0。060的情况。257± 0。015表4. 与RandWire在ImageNet中的小计算机制下进行比较。✓ 71.32+ 1.02ResNet-50✓✓76.70-77.00+0.3078.28+1.58ResNet-101✓78.2978.64-+0.3579.90 + 1.61美元表5. 在移动环境下与NAS方法的比较。在这里，我们训练250个时期，类似于[47，27，42，18，19]，用于f air比较。网络参数（M）FLOPs（M）搜索成本Top-1NASNet-A [47]5.3564200074.0NASNet-B [47]5.3488200072.8NASNet-C [47]4.9558200072.5[27]第二十七话5.1555315074.5变形虫-B [27]5.3555315074.0RandWire-WS [42]5.6583-74.7PNAS [18]DARTS [19]5.14.9588595∼225474.273.1[34]第三十四话5.3390-76.3DDW-A6.26011.575.8DDW-B6.36011.577.0ageNet. 值得注意的是，这并不是《本文我们选择RegNet作为基本架构，如表1所示。为了公平比较，这里我们训练了250个epoch，其他设置与第4.1节相同。我们注意到具有动态布线的RegNet-X为DDW-A，并且具有动态布线的RegNet-Y为DDW-B 4（具有SE模块，用于与特定搜索的架构进行比较，例如，EfficientNet）。实验结果在表5中给出。结果表明，在单一操作类型（正则瓶颈）下，DDW算法能以较小的搜索代价获得与其他NAS算法相当的4.4. 消融研究静态与动态。我们对不同的连接方法进行了消融研究，以反映所提出的DDW的有效性。实验在ImageNet中进行，并遵循第4.1节中的训练设置。为了公平比较，我们选择ResNet-50/101作为主干结构。符号α表示将可学习参数直接分配给边缘，其学习所有样本的静态连通性符号αb表示4 RegNet-X-600 M的原始性能为75. 03%，RegNet-Y-600 M为76.10%，在此培训条件下。DDW，学习动态连接。实验结果在表6中给出。通过这种方式，具有α b的ResNet-50仍然比具有α的ResNet-50高出1。28%的top-1准确率。ResNet-101也是如此。这表明，由于扩大了优化空间，动态布线是优于静态布线在这些网络。路由器的配置。路由变换被定义为φ（x）=σ（wT（x）+b），其中wT是权重矩阵，b是偏置向量。提出了一种简单的初始化方案，即偏置可以用正值（例如：3等）使得网络最初偏向于存在连接行为。该方案受到[6]的提议的强烈启发，以初始偏置长短期记忆循环网络中的门，以帮助在学习早期桥接长期时间依赖性这种初始化方案也适用于高速公路网络[32]和非本地网络[37]。我们在ImageNet中使用基于ResNet-50的DDW进行消融研究。培训程序的详细信息与第4.1节相同。偏置初始化为分别为3、0、3。这些初始化方法对应于存在连接、无偏连接和不存在连接。实验结果如图所示。3.第三章。可以看出，偏置的正初始化在早期训练过程中实现了较低的训练损失，并且获得了78的较高验证Top-1准确度。百分之二十八这表明，将连接初始化为现有连接比无偏初始化和不存在连接更好。4.5. 进一步分析为了分析架构表示，我们通过邻接矩阵将学习到的连接性可视化，如第 3.4 节所述。包含 50000 张ImageNet图像的验证数据集用于推理。我们使用包含4个阶段的ResNet-50选择训练的DDW我们模型Top-1延迟（ms）InstaNAS-ImgNet-AInstaNAS-ImgNet-BInstaNAS-ImgNet-C71.971.169.90的情况。239± 0。0140的情况。189± 0。0120的情况。171± 0。011接线式Top-1FLOPs（M）ER（P=0.2）BA（M=5）WS（K=4，P=0.75）七十一34±0。40七十一16±0。34七十二26±0。27602582572334图3. 路由器的不同初始化方案。正偏置将连接初始化为存在，在早期训练过程中获得更低的训练损失，并且比负偏置和零偏置获得更高的验证准确率。图4. 不同图/阶段中的边的权重的平均值的分布。颜色越深表示权重越大。图4中示出了边的权重的平均值的分布，图5中示出了标准偏差的分布。五、可以进行一些观察和分析：1) 连接的权重有明显的差异。统计上，在图中，拓扑序前面的节点的输出边往往具有较大的这可以解释为，对于阶数为i的节点，生成的xi可以由节点j（其中j> i）接收。这使得由前端节点生成的特征作为下游输入参与聚合。它使前端节点贡献更大，可用于在未来的工作中重新分配计算资源。2) 对于输入样本的不同边缘，权重变化存在差异。在一个阶段中，拓扑序后面的节点的边具有较大的变异性。较深阶段中的边的权重也具有较大的方差。我们推测这与特征的语义信息水平有关具体地，由深层生成的特征具有高级语义信息，并且样本的相关性比由浅层生成的具有低级信息的图5. 不同阶段边权值标准差的分布。颜色越深表示权重越大。5. 结论在本文中，我们提出了DDW，它允许学习，ING实例感知连接的神经网络。在不增加计算量的情况下，可以增加模型容量，以缓解高多样性数据的特征表示我们表明，DDW是优于许多静态网络，包括人类设计和自动搜索的架构。此外，DDW在ImageNet分类和COCO对象检测上表现出良好的泛化能力DDW在一个扩大的搜索空间中探索连通性，是一个新的研究方向。在未来的工作中，我们consider验证DDW更多的NAS搜索架构。此外，我们将研究学习的动态操作下的连接，以及调整计算成本的基础上的困难的样本。确认本研究得到了NTU NAP的支持，并在RIE 2020行业联盟基金-行业合作项目（IAF-ICP）资助计划下335引用[1] 卡里姆·艾哈迈德和洛伦佐·托雷萨尼。Maskconnect：梯度下降的连通性学习。在ECCV（5），Lecture Notes inComputer Science的第11209卷，第362- 369378. Springer，2018.[2] Dzmitry Bahdanau，Kyunhyun Cho，Yoshua Bengio.通过联合学习对齐和翻译的神经机器翻译。2015年，国际会议[3] Yinpeng Chen，Xiyang Dai，Mengchen Liu，DongdongChen，Lu Yuan，and Zicheng Liu.动态卷积：注意卷积核。在CVPR中，第11027IEEE，2020年。[4] Zhourong Chen ， Yang Li ， Samy Bengio ， and SiSi.Gaternet：通过专用的全局门控网络在卷积神经网络中进行动态滤波器选择CoRR，abs/1811.11205，2018。[5] An-Chieh Cheng，Chieh Hubert Lin，Da-Cheng Juan，Wei Wei，and Min Sun.Instanas：实例感知神经架构搜索。在AAAI，第3577-3584页。AAAI Press，2020.[6] 菲利克斯·A Gers，JürgenSchmidhube r，andFredA. 康明斯学习忘记：用LSTM进行连续预测神经元计算，12（10）：2451[7] Ross Girshick 、 Ilija Radosavovic 、 Georgia Gkioxari 、Piotr Doll a´ r 和 KaimingHe 。探测器 https ： //github.com/facebookresearch/detectron，2018年。[8] PriyaGoyal ， PiotrDolla´r ， RossB.Girshick ，PieterNoord-huis， Lukasz Wesolowski ， Aapo Kyrola ，Andrew Tulloch，Yangqing Jia，and Kaiming He.精确的大批量 SGD ： 1 小时内训练 imagenet CoRR ，abs/1706.02677，2017。[9] 何军军，邓仲英，乔宇。用于语义分割的动态多尺度过滤器。在ICCV，第3561-3571页中。IEEE，2019。[10] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在CVPR，第770-778页中。IEEE计算机学会，2016年。[11] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.深度剩余网络中的身份映射。在ECCV（4），Lecture Notes in Computer Science的第9908卷，第630-645页中。施普林格，2016年。[12] 杰虎，李申，孙刚。挤压-激发网络。在CVPR中，第7132IEEE计算机学会，2018年。[13] 高煌，刘庄，劳伦斯·范德马腾，和Kilian Q.温伯格密集连接的卷积网络。在CVPR中，第2261IEEE计算机学会，2017年。[14] Yanping Huang，Youlong Cheng，Ankur Bapna，OrhanFi- rat，Dehao Chen，Mia Xu Chen，HyoukJoong Lee，Jiquan Ngiam，Quoc V.Le，Yonghui Wu，and ZhifengChen.GPIPE：使用管道并行性高效训练巨型神经网络在NeurIPS，第103-112页[15] Ji Lin，Yongming Rao，Jiwen Lu，and Jie Zhou.运行时神经修剪。在NIPS，第2181-2191页[16] 放大图片作者：林宗毅，彼得 · 多尔，罗斯 ·B.Girshick，KaimingHe，Bharath Hariharan，and Serge J.贝隆吉特征金字塔用于对象检测的网络。在CVPR，第936-944页中。IEEE计算机学会，2017年。[17] 作者：Michael Maire，Serge J. Belongie，James Hays，PietroPerona，Dev aRamanan，PiotrDol la'r，andC.劳伦斯·齐尼克。Microsoft COCO：在上下文中常见的对象。在 ECCV （ 5 ）， Lecture Notes in ComputerScience的第8693卷，第740-755页中。Springer，2014.[18] 刘晨曦，巴瑞特·佐夫，马克西姆·诺伊曼，乔纳森·施伦斯，华伟，李丽佳，李飞飞，艾伦·L。Yuille，JonathanHuang，and

下载后可阅读完整内容，剩余1页未读，立即下载