基于可分组卷积神经网络

192 浏览量更新于2023-10-12 收藏 1.47MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

3542基于可分组卷积神经网络张朝阳1李靖宇2邵文琪1彭张林2张瑞茂2王晓刚1罗平31香港中文大学-商汤科技联合实验室2商汤科技研究中心3香港大学{zhaoyangzhang@link，weqish@link，xgwang@ee}. cuhk.edu.hk{lijingyu，pengzhanglin，zhangruimao}@ sensetime.compluo@cs.hku.hk摘要组卷积将Con-vNets的通道划分为组，与常规卷积操作相比取得了令人印象深刻的改进。然而，现有的模型，例如。ResNeXt仍然由于在所有层上将组的数量手动定义为常数而遭受次优性能为了解决这个问题，我们提出了通过使用新的动态分组卷积（DGConv）操作构建的可分组ConvNet（GroupNet），该操作能够以端到端的方式学习组的数量。该方法有几个应用程序-（一）常规卷积(b) 群卷积福利待遇(1)DGConv提供了统一的卷积表示，并涵盖了许多现有的卷积(c) 深度卷积(d) 动态卷积操作，如规则的密集卷积，群卷积，和去卷积。(2)DGConv是一种可区分且灵活的操作，它可以从训练数据中学习执行(3)使用DGConv训练的GroupNet大量实验表明，GroupNet在准确性和计算复杂性方面优于ResNet和ResNeXt等同行我们还提出了内省和再现性的研究，第一次，显示了学习动态的训练组数。1. 介绍卷积神经网络（ConvNets）在计算机视觉领域取得了巨大的成功。例如，ResNet [7]是构建具有快捷连接的深度网络的先驱。该策略将网络深度作为Con-vNets实现良好性能的重要维度除了在深度和宽度上定制网络架构[28，11，27，29]之外，ResNeXt [33]提出了一个新的维度群卷积的主要特征是图1.不同卷积策略的说明，其中蓝色圆圈表示输入和输出通道，线条是它们之间的连接。(a)正则卷积。每个输入通道连接到每个输出通道。(b)基数为4、宽度为2的卷积分组。(c)departmentconvolution。每个输入通道仅连接到一个输出通道，因此该卷积可以理解为每个通道的线性（d）我们提出的动态分组卷积（DGConv）。DGConv的分组策略与网络参数一起端到端学习，因此组号和连接位置动态变化。该示例是具有2个组和非相邻信道连接的一个候选策略。在测试阶段，DGConv可以简单地通过与从训练中学习的组数的组卷积来实现，这减少了计算量和参数。ResNeXt 被证明是紧凑和节省参数的，这意味着ResNeXt提高了准确性并减少了网络参数，优于其对手ResNet。虽然组卷积很容易实现，但在ResNeXt等以前的网络中应用组卷积仍然存在缺点。首先，当通过使用群卷积来设计网络架构时，每个隐藏层的群的数量通常被视为超参数。3543G组号通常由人类专家定义，并在ConvNet的所有隐藏层中保持相同。其次，以前的工作采用齐次群卷积，导致次优解。例如， ResNeXt 最实用的设置之一是“32x4d”，它应用了32个组的组卷积，这是通过试验和错误发现的。然而，ConvNet不同深度的卷积层通常会学习不同的视觉特征，这些特征代表不同的抽象和语义含义。因此，通过组均匀地减少模型参数，#组层卷积可能遭受性能下降。为了解决上述问题，本文引入了一种群卷积的新形式，命名为动态卷积（DGConv），它通常扩展了许多卷积运算，具有以下特性。 (1) 动态分组。DGConv的核心是同时训练卷积核和分组策略如图1、DGConv能够学习分组策略（即：组号和组中信道之间的连接）。以这种方式，每个DGConv层可以具有单独的分组策略。此外，通过对计算复杂度施加正则化项，我们可以控制整体模型大小和计算开销。(2)差异性。DGConv的学习是完全可微的，可以通过使用随机梯度下降（SGD）以端到端的方式进行训练。因此，DGConv与现有的ConvNets兼容。(3)参数保存。在DGConv中学习分组策略的额外参数仅按log2（C）缩放，其中C是卷积层的通道数。这个额外的参数数量远远少于卷积核的参数，卷积核的参数与C2的尺度1成比例。此外，额外的参数可以在训练之后被丢弃在测试阶段，仅存储和加载卷积核的参数。图2示出了由DG-Conv学习的组号的示例，其能够实现相对于其对应物的相当的性能，但是显著地减少了参数和计算。这项工作有三个关键贡献。(1)我们提出了一种新的卷积运算，动态卷积（DGConv），它能够微分学习组卷积的组数，不同于现有的工作，将组数作为一个超参数。据我们所知，这是第一次以可微分和数据驱动的方式学习组数（2）DGConv可以用来取代以前的卷积，并构建最先进的深度网络，例如第3.3节中提出的可分组ResNeXt，其中每个卷积层的组号在结束时自动确定。1内核参数为Cin× Cout，表示输入通道大小和输出通道大小。图 2. ResNeXt 和 Group-Net 中的组数比较。这里我们以ResNeXt50 32×4d为例，它有32个宽度为4的组。G-ResNeXt50 96表示用DGConv训练的ResNeXt 50，其中96表示约束设置（将在后面讨论）。y轴指示组的数量，并且X轴是不同卷积层中的通道的数量结束训练。（3）大量的实验表明，通过使用相当或甚至更少数量的参数， Groupable ResNeXt 能够优于ResNet和ResNeXt。例如，它在ImageNet中以0.8%的top-1精度超过ResNeXt 101，参数和计算量略少。此外，我们还研究了组数的学习动力学，发现了一些有趣的结果。2. 相关工作群卷积群卷积（GConv）是稀疏连接卷积的一种特殊情况。在常规卷积中，我们通过对输入通道中的所有C应用卷积滤波器来产生Cut输出通道，导致计算成本为Cin×Cut。相比之下，GConv通过将输入通道中的C划分为G非重叠组。在对每个组应用滤波器之后，GCo n v通过关联每个组的输出来生成C 〇ut输出通道。 GConv的复杂度为Cin× Cout。GConv首先在AlexNet [12]中讨论，作为处理内存限制的模型分发方法。ResNeXt [33]为网络架构提出了一个额外的维度，即. 在极端情况下，组卷积将每个通道划分为单个组，这被称为深度卷积。它已被广泛用于高效的神经架构设计[9，19，36，25]。此外，CondenseNet [10]和FLGC [31]学习了组卷积的连接，但组的数量仍然是预定义的超参数。CondenseNet和FLGC将连接学习视为修剪问题，其中不重要的过滤器被废除。与此相反，3544ΣΣΣΣIJIJIJIJm=0n=0（i+m）（j+n）MNR××DGConv学习组号和每个组的通道其中G是群号，γ∈[1，G]，并且γ表示级联运算。在GConv中，我们神经架构搜索。最近有γC输入×C输出γN×Cin有ωmn ∈RGG和f（i+m）（j+n）∈RG.在自动化的neu设计过程中，通常被称为神经架构搜索（NAS）和AutoML。例如，NASNet [38，37]和MetaQNN [1]通过使用强化学习（RL）引领了架构搜索的趋势。在NASNet中，网络结构被分解为可重复和可转移的块，使得结构的控制参数可以被限制在有限的搜索空间中。这些架构参数的序列由控制器RNN生成，该控制器RNN通过最大化奖励（例如，valaccuracy）。这些方法在许多方面进行了扩展，例如渐进搜索[13]，参数共享[21]，网络变换[3]，资源约束搜索[30]和可微搜索（如DARTS）[15]”[34]。进化算法是强化学习的一种替代方法。通过突变迄今为止找到的最佳架构来搜索架构[23，24，32，20，14]。然而，上述方法要么将组数作为超参数，要么使用RL等抽样方法搜索其值。相比之下，DGConv是第一个可以以数据驱动的方式和可区分的端到端方式与网络参数一起优化组数的模型。3. 我们的方法3.1. 动态卷积（DGConv）首先介绍了常规卷积和群卷积，然后介绍了DGConv.常规卷积设一个 ConvNet 的特征映射为F∈RN×Cin×H ×W，其中N，C，H，W分别表示小批量样本数、通道数、高度和通道宽度。如果在F上应用正则卷积，核大小为k×k，步长为1使用填充，输出特征图表示为O∈极端地，当每个通道是一个组时，即 .G=Cin=Cout，方程(2) e表示dependenconv解[9，25，19，36]。 GConv和深度卷积都可以减少计算资源，并且可以在现有的深度学习库中有效地实现。然而，内在超参数G是人工设计的，使人远离理想主义。动态卷积。动态分组卷积（DGConv）扩展了组卷积，使得能够学习分组策略，即组号和每个组的通道连接。这些策略可以用二元关系矩阵 U∈ {0 ，1}Cin×Cout来表示.DGConv可以定义为k−1k−1〇ij=f（i+m）（j+n）（U^ωmn），（3）m=0n =0其中，n表示元素级乘积。值得注意的是，Eqn。(3)具有丰富的表现力。许多卷积运算可以作为DGConv的特例处理为了对DGConv的灵活性建立一些直觉，下面给出了几个(1) 设U=1，其中1是1的矩阵。由于我们有1<$ωmn=ωmn，DGConv表示正则conv。进化，如图所示。第3（a）段。(2)设U=I，其中I是单位矩阵。然后Iωmn变成具有对角元素的矩阵，而非对角元素是ze。如图所示。3（b），这意味着每个通道都是独立的。因此，DGConv变成了一个依赖卷积[9]。(3)如果U是一个二进制块对角矩阵，如图所示。3（d），则Uωmn将通道划分为组。由于U的所有对角块都是常数矩阵，其中，DGConv表示将相邻信道分组为一组的常规组卷积（GConv）。(4)如果U是一个任意的二元矩阵，如图。3（f），这RN×Cout×H ×W，其中每个输出单元o∈RN×Cout导致非结构化卷积。是k−1k−1〇ij=f（i+m）（j+n）ωmn，（1）m=0n =0其中i∈ {1，…H}，j∈ {1，…W}，且f（i+m）（j+n）∈RN×Cin表示输入要素的隐藏单元在外层地图F.而ω mn∈CC表示卷积权重（内核）。群卷积群卷积（GConv）可以定义为具有稀疏核的常规卷积。GConv通常被实现为分组通道上的分离卷积的级联，oij=o1···oγ···oG且因此，通过适当地构造二元关系矩阵U，所提出的DGConv有望表示各种各样的卷积运算。讨论。我们如上所述定义了DGConv。尽管由于卷积表示的灵活性，它具有巨大的潜力来提高CNN的学习能力，但也引入了一些可预见的困难。首先，由于随机梯度下降（SGD）只能优化连续变量，因此直接使用SGD训练二进制矩阵可能具有挑战性。第二，马-在外层U∈{0，1}C C引入了大量额外的参数进行卷积运算，使深度网络很难训练。第三，更新整个矩阵oγ =k−1k−1fγωγ 、（二）你在训练阶段没有任何约束，IJ3545.k=1Kk=1K6KKKQQK（（（（（（[0，0，1][0，1，0]（图3. 用关系矩阵U说明结构。空心圆和实心黑圆分别表示一的矩阵（a）、单位矩阵（b）和块对角矩阵（d）分别意味着正则卷积、非正则卷积和群卷积（GConv）。(c)以及（e）分别示出了在两个非相邻组策略下的动态卷积（DGConv），一个组数为4，另一个组数为2。（f）是一个随机群策略，但在我们的约束条件下不能实现（g）示出了当g =[0，0，1]和g=[0，1，0]时DGConv的构造过程。二元关系矩阵U通过逐元素乘积运算禁用ω一个非结构化的关系矩阵U，如图所示。第3段（f）分段。在这种情况下，DGConv不是一个有效的GConv，使得学习的卷积操作无法解释。值，并且g∈ {0，1}K是从下式导出的二进制门向量：g.sign（·）表示符号函数，因此，对于DGConv，需要特殊的U构造以保持群结构并减少额外的参数数量。sign（x）=0，x<0。1、x> 0。通过梳理Eqn. (5)，等式(4)可以写成（六）3.2. 关系矩阵的构建我们不是直接学习整个矩阵U，而是将其分解为一组K个小矩阵，U=（g11+（1−g1）I）<$··<$（gK1+（1−gK）I）。（七）通过等式1构造关系矩阵U。(7)不仅要重--Cin×C outin在外层出来显着减少了参数的数量，但也使{Uk|Uk∈{0，1}kK ， 0时。对于α的值，[30]经验性地设置α=−1或−0。07，这种设置在使用奖励的强化学习中效果很好。但这些经验值使得正则化子在我们的L CinCout==1i =1j =1，Jiangsuij∈U（8）问题. 在我们的实验中，我们有α = −0。作为常数。上述损失函数可以通过使用SGD来优化通过设置o的值，我们可以学习深度神经网络其中L表示DGConv层的数量，并且uij表示U的元素。可以看出，表示U中非零元素的数量，测量数量在不同的复杂性约束下，使我们能够进行仔细的研究模型的精度和计算复杂性之间的权衡。3547˜CΣLBC（一）（b）第（1）款（（图5.已学习Groupable-ResNeXt中每个DGConv层的组数，包括：（a）G-ResNeXt101，b=32，（b）G-ResNeXt101，b=96，（c）G-ResNeXt50，b=32和（d）G-ResNeXt50，b=96。x轴表示网络的输入到输出方向下DGConv层中的通道数可分组的ConvNets，连续门g是训练所需的我们将它们随机初始化为小值1e−8或−1e−8。资源限制。在实验中，我们得到了重新-第2章=1源约束obyo=b，其中b表示a中的组卷积层的复杂性的尺度整个网络。例如，当b=32时，=1埃里西斯表1. ResNeXt50 32×4d网络结构比较和Groupable-ResNeXt50.在ResNeXt50 32×4d中，G=32是一个超参数，表示信道域中的群数。可分组-ResNeXt 50使用DGConv层替换ResNeXt50 32×4d中的所有组卷积层，其他层保持不变。4. 实验实施. 我们在Chal-Challing ImageNet [4]基准上进行实验，该基准有120万张图像用于训练，50 k张图像用于验证。在第3.3节和[33]之后，我们构建了50层和101层的可分组ResNeXts。在训练阶段，每个输入图像的大小为224×224，从随机水平翻转随机裁剪。总批次大小为512，16个GPU（每GPU 32个样本我们使用动量为0的SGD来训练网络。9和重量de-cay1e−4。我们采用余弦学习率时间表[16]和[6]的权重初始化。在评估阶段，对单个224×224中心裁剪进行误差评估为等价于ResNeXt32×4 d中所有GConv层的参数数量，o表示ResNeXt32×4 d中GConv层的复杂度当b = 64时，o为0。与ResNeXt 32×4 d相比，复杂性提高了5倍，等等。通过设置b，我们能够控制整体复杂度可分组的ConvNets比较。我们首先评估Groupable-ResNeXt及其对应的ResNet/ResNeXt 的性能。为了公平比较，我们在Section的设置下重新实现了ResNet和4、达到与原始论文相当的结果（例如，ResNeXt101，32×4d，前1名准确率为79.1%（我们）vs. 78.8%[33]）。 Ta-表2示出了结果，并且5显示学习组号码虽然与ResNeXt保持类似的模块拓扑结构，但Groupable-ResNeXt可以学习组卷积的最佳分组策略。与ResNet 50和ResNeXt 50相比，G-ResNeXt 50获得了1.5% / 0.5% 的 top-1 精度。在更深层次的体系结构ResNet 101和ResNeXt 101中也观察到这种趋势，并且top-1准确率的增益放大到1.7%和0.8%。图2和图5显示了学习的组号。表2报告了G-ResNext50（b=32）和G-ResNeXt 101（b=32）的性能，其对应于图5（d）和图5（a）。与共享统一组的ResNeXt阶段输出ResNeXt50 32x4dG-ResNeXt50conv1maxpool112 ×11256 ×567×7，64，步幅23×3，步幅27×7，64，步幅23×3，步幅2conv256 ×56100 ×1，128毫米128G= 32× 31× 1，256100 ×1，128毫米128DGConv128× 31× 1，256conv328 ×281× 1，256103×3，256G= 32× 41× 1，5121× 1，256103×3，256DGConv104× 41× 1，512conv414 ×141000 ×1，512 毫米103×3，512G= 32× 61× 1，10241000 ×1，512毫米103×3，512DGConv103× 61× 1，1024conv57 ×71 ×1，10241024G= 32× 31× 1， 20481 ×1，10241024DGConv1024× 31× 1， 2048235482561286412561286411285121285121285122565122565122561024256102451210241.00.50.00.5（a）不同层表2.当不同网络中的#参数数量几乎相同时，ImageNet上的top-1和top-5精度比较。我们的方法显示出优越的性能，其coun-1.01.00.50.00.51.0128512128 128 256 256 256 256512 512 512 512 1024 1024 1024三部分 Groupable-ResNeXt 缩写为 G-ResNeXt 。在一幅224×224裁剪的图像上进行了精度我们将Groupable-ResNeXt中的模型复杂度的尺度常数b设置为32，以便与它们的对应部分ResNet和ResNeXt保持接近的参数大小。我们选择设置为32×4d的ResNeXt，这优于 [33]数目，在G-ResNext中可以观察到不同的组数。一个有趣的现象是，不同的网络表现出一定的同源性.也就是说，当考虑整体模型复杂度时，DGConv倾向于在较低层分配更多的计算。这证明了ConvNet的表示能力与下层的设计高度相关He等人[33]发现，当网络复杂性相似时，具有较大基数的网络比更深或更宽的网络表现得更好。性能提升来自于更强的表示。我们建议，通过使用DGConv调整每层的分组策略，可以使代表性更强DGConv的学习动态对于G-ResNeXt 50（b=32）中的每个DGConv层，我们在图6中绘制了组编号和门值g的学习过程。根据我们的观察，DGConv出现了一些特征。首先，不同的DGConv层表现出不同的学习动态。第二，类似于图。5、较低的层比较高的层更喜欢较少的组。因此，较低的层往往有较少的组对应于更多的参数，这意味着他们是必不可少的提取纹理相关的功能。复杂性VS精度资源约束o允许我们学习最优分组策略，给定的模型复杂度阈值。然后我们探索群卷积的复杂性和模型精度之间的权衡。表3显示了我们的结果，其中我们将ResNeXt的FLOP设置为基线，并按比例显示Groupable-ResNeXt的复杂性。通过修改b，我们改变约束 o 并学习各种容量的 Groupable-ResNeXt。例如，当b=64时，o等价于群数为64的群卷积的大小一致，并且可分组。（b）不同层中的gate值的学习动态图6.在ImageNet上训练Groupable-ResNeXt 50期间学习组数和可学习门向量g的动态。（a）可视化不同深度的组的数量如何随着训练而演变（b）示出了门值G的相应学习过程。通道的数量是为每个层绘制的（在底部）。ResNeXt 将被正则化以选择小于 0 的组策略。 5 倍ResNeXt从表3中，我们可以看到G-ResNeXt 50实现了com-在b=96设置中，G-ResNeXt 50达到了与ResNeXt 101相当的top-1精度，而在b=256设置中，G-ResNeXt 101达到了与ResNeXt 101相当的top-1精度。这些结果表明，DGConv能够学习更有效的组策略比常规GConv保持准确性。He等人[33]研究表明，学习宽基数比学习宽深度或宽宽度具有更强的表示性，并且我们学习动态分组来改善宽基数的表示此外，我们还看到了动态分组卷积的强大鲁棒性，即使在组卷积的计算复杂度显著降低的情况下。例如，当FLOP从0. 70倍到0。47倍，G-ResNeXt 101能够保持其精度（约79岁。8%top-1准确度）。更深或更广的网络。接下来，我们将实验扩展到更复杂的网络。我们通过分别增加ResNet101的宽度、深度和基数，将其扩展到102×复杂度当扩展基数时，我们实现常规的GConv和DGConv。表4报告了我们的结果。更大的ResNet和ResNeXt通过以下方式实现[33，8]。G-ResNeXt 101被限制为ResNeXt 1012 ×64 d的大小。在表4中，我们可以看到，不断增加模型复杂度会提高模型的性能。证明网络性能（例如，原始的 ResNet101 是 78 。2%）。此外，增加基数比增加网络深度和宽度带来更大的改善（例如，79岁。8%/79。6%/80。1%，78岁6%/78。8%）。在具有较大基数的后三个网络中，G-ResNeXt 101（b = 2）优于相应的ResNext 101（2× 64d）512架构参数编号前1精度ResNet5025米76.4InceptionV323米77.5IBN-Net50-a25米77.5SE-ResNet5028米77.7ResNeXt5025米77.8DenseNet161（k=48）29米77.8DenseNet264（k=32）33米77.9G-ResNeXt 50（b=32，我们的）25M78.4ResNet10144 M78.0SE-ResNet10148米78.4ResNeXt10144 M78.8DenseNet-232（k=48）55米78.83549架构设置#参数top-1top-5G-ResNeXt101B=32四十三3×10679.994.7G-ResNeXt101R2B=32四十三8×10679.894.5G-ResNeXt101R3B=32四十三0×10679.694.5表5.再现性实验结果。G-ResNeXt 101 R2和G-ResNeXt 101R3在与G-ResNeXt相同的设置下重新训练。经过训练，这三个模型在使用不同随机种子进行初始化的情况下，其近似结果和top1/top5精度都接近，表明DGConv对随机性具有鲁棒性。表3.复杂性和准确性之间的权衡这里，GConv FLOPs表示相应网络架构中所有群卷积层的计算复杂度。以ResNeXt50/101的FLOP为基准，以其他模型的复杂度为比例进行了报告。所有G-ResNeXt模型在top1精度上都优于基线，更少的计算即使只给出大约 1001/4FLOPs ， G-ResNeXt50/101都能达到与re-ResNeXt 50/101相当的top1/top5精度。spect到基线。表4.当参数数量增加到2×ResNeXt101时，ImageNet上的网络性能所有上述网络都是在相同的设置下重新实现的，以便进行公平的比较。G-ResNeXt表示Groupable-ResNeXt。为了保持ResNeXt1012×64 d的近似参数大小，G-ResNeXt中的模型复杂度设置为2。G-ResNeXt实现所有架构中最高的top1/top5精度。由 0 。 5% 的 top-1 精度。 G-ResNeXt 101 通过使用DGConv 增加基数我们表明， DGConv 是优于定期GConv，即使在更复杂的网络。再现性。我们验证了DG- Conv的重现性。我们通过保持训练策略和超参数来重新训练G-ResNeXt 101，但使用不同的随机数将门 g 随机初始化为 1×10−8或 -1×10−8。种子我们将重新训练的模型命名为G-ResNeXt101R3表5报告了它们的性能。所有模型都使用约束b=32进行训练，显示出相当的top-1准确度。这些结果表明DGConv能够一致地表达强的表示能力。我们还看到，学习的模型具有相似的性能，但分组策略略有不同，显示了DGConv的灵活性详细的组数分布见附录D。学习架构的评估我们扩展我们的experiments的架构DGConv学习。我们将ResNeXt中每个GConv层的组编号替换为G-ResNeXt学习的组编号。然后表 6. 使用 DGConv 学习的组号的 ResNeXt 性能，表示为ResNeXt。为了证明DGConv学习的结构的有效性，我们只需简单地替换根据从G-ResNeXt学习的数字对ResNeXt 50中的数字进行分组。所形成的模型直接在ImageNet上从头开始训练。表.六是报告业绩。正如我们所看到的，DGConv学习的ResNeXt模型的top-1和top-5准确度与G-ResNeXt相当，优于32×4天基线。结果表明，在学习结构的代表性强。5. 结论在这项工作中，我们提出了一种新的架构GroupableConvNet （ GroupNet ）的计算效率和性能提升。GroupNet能够在逐层的基础上差异化地学习卷积运算的组策略已经证明，GroupNet在准确性和计算复杂性方面优于ResNet和ResNeXt为了实现GroupNet，我们开发了动态分组卷积（DGConv），为卷积运算提供了一个统一的表示。DGConv可以很容易地插入到任何深度网络模型中，并有望为卷积层学习更好的特征表示。6. 确认这项工作部分由商汤科技集团有限公司支持，部分由香港研究资助局的一般研究基金资助，拨款编号为CUHK14202217、CUHK14203118、CUHK14205615、CUHK14207814、CUHK14213616。架构设置GConv FLOPstop-1top-5ResNeXt5032 ×4天1 .一、00×77.993.9G-ResNeXt50B=320的情况。83×78.494.0G-ResNeXt50b=480的情况。61×78.293.9G-ResNeXt50b=640的情况。39×78.093.9G-ResNeXt50b=960的情况。27×78.093.9G-ResNeXt50b=1280的情况。2077.893.8ResNeXt10132 ×4天1 .一、00×79.194.2G-ResNeXt101B=320的情况。70×79.994.7G-ResNeXt101b=480的情况。58×79.794.6G-ResNeXt101b=640的情况。47×79.894.7G-ResNeXt101b=960的情况。22×79.594.5G-ResNeXt101b=1280的情况。22×79.494.5G-ResNeXt101b=2560的情况。14×79.094.3架构设置top-1top-5ResNeXt5032 ×4天77.993.9G-ResNeXt50B=3278.494.0ResNeXt50系列学习b=3278.394.0G-ResNeXt50b=9678.093.9ResNeXt50系列学习B=9678.093.9ResNeXt10132 ×4天79.194.2G-ResNeXt101B=3279.994.7ResNeXt101系列学习b=3279.894.7G-ResNeXt101b=9679.594.5ResNeXt101系列学习B=9679.594.5架构设置复杂性top-1top-5ResNet200（深度）1 ×64天2×ResNet10178.694.1ResNet101（更宽[8]）1 ×100天2×ResNet10178.894.4ResNeXt101（卡。）64 ×4d2×ResNet10179.894.7ResNeXt101（卡。）2 ×64天2×ResNet10179.694.6G-ResNeXt 101（卡。）b=22×ResNet10180.194.73550引用[1] Bowen Baker 、 Otkrist Gupta 、 Nikhil Naik 和 RameshRaskar。使用强化学习设计神经网络架构。arXiv预印本arXiv：1611.02167，2016。[2] Kim Batselier 和 Ngai Wong 。张量的构造性任意阶Kronecker 积分解。 Numer- ical Linear Algebra withApplications，24（5）：e2097，2017。[3] Han Cai，Tianyao Chen，Weinan Zhang，Yong Yu，andJun Wang.基于网络变换的架构搜索强化学习。arXiv预印本arXiv：1707.04873，2017。[4] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。2009年IEEE计算机视觉和模式识别会议，第248-255页。Ieee，2009年。[5] 尹鹏航等理解训练激活量化神经网络中的直通估计器。2019年。[6] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun. 深入研究整流器：超越人类对imagenet分类的水平。在IEEE计算机视觉国际会议论文集，第1026-1034页[7] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页[8] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.深度剩余

下载后可阅读完整内容，剩余1页未读，立即下载