动态稀疏卷积：快速推理的空间效率方法

16 浏览量更新于2023-10-25 收藏 889KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

2320动态卷积：利用空间稀疏性实现快速推理Thomas Verelst Tinne TuytelaarsESAT-PSI，KU Leuven{thomas.verelst，tinne. telaars}@ esat.kuleuven.be摘要现代卷积神经网络对图像中的每个像素应用相同的操作。然而，并非所有图像区域都是同等重要的。为了解决这种低效率，我们提出了一种方法来动态应用卷积条件下的输入图像。我们引入一个残余块，其中一个小的门控分支学习哪些空间位置应该被评估。这些离散的门控决策使用Gumbel-Softmax技巧，结合稀疏性标准进行端到端训练在CIFAR、ImageNet、Food-101和MPII上的实验表明，与现有方法相比，该方法在计算复杂度较低的情况下，对感兴趣区域具有更好的聚焦性和更高的准确性此外，我们提供了一个有效的CUDA实现我们的动态卷积使用的一个分散的方法，实现了显着提高推理速度的 MobileNetV2 和ShuffleNetV2。在人体姿态估计上，一个固有空间稀疏的任务，处理速度提高了60%，而精度没有损失。1. 介绍大多数关于深度神经网络的研究都集中在提高精度上，而没有考虑模型的复杂性。随着社区转向更困难的问题从分类到检测或姿态估计体系结构倾向于在容量和计算复杂性上增长。然而，对于在诸如移动电话、笔记本电脑或监控摄像机之类的消费者设备上运行的实时应用，最重要的是在性能（即，每秒处理的帧数改善这种权衡的尝试主要集中在设计更有效的架构[21，39，44，53]或压缩现有的[17，19，28，33，38，50]。有趣的是，大多数神经网络，包括上面提到的更高效或压缩的神经网络，对每个图像执行相同的计算，而与其内容无关。这似乎是次优的：只有复杂的图像图1：在每个残差块中，一个小的门控网络（掩码单元）预测逐像素掩码，确定评估动态卷积的位置。需要如此深厚而广泛的网络。因此，有条件执行的主流获得了动力[4，5，6].与静态压缩方法相比，该网络的结构是根据输入图像自适应的。例如，网络深度可以根据图像而变化，因为简单和清晰的图像比模糊的图像需要更少的卷积层[46，48，51]。神经网络选择执行哪些操作。这种做法通常被称为门控[11，22]，并且可以应用于卷积层[46，48，51]，通道[3，13，30]或网络中的其他元素。在这项工作中，我们专注于通过在空间域中有条件地执行来减少计算。典型的卷积网络将所有卷积滤波器应用于图像中的每个位置。在许多图像中，我们想要分类或检测的对象被背景像素包围，其中仅使用很少的操作就可以提取必要的特征。例如，可以容易地识别诸如蓝天的平坦区域。我们称这种图像为空间稀疏的。我们提出了一种方法，在没有明确空间监督的情况下进行端到端训练，仅在重要图像位置上执行卷积滤波器对于每个残差块，一个小的门控网络选择要应用动态卷积的位置（图2）。1）。门控决策使用Gumbel-Softmax技巧进行端到端训练[23，31]。这些决定在整个网络中进行：第一阶段从图像中的复杂区域提取特征，而最后一层使用更高级别的信息来关注+掩模单元+掩模单元+掩模单元稀疏卷积稀疏卷积稀疏卷积稀疏卷积稀疏卷积稀疏卷积2321仅感兴趣的区域。请注意，动态卷积的输入是一个密集矩阵，这使得它与在稀疏数据上操作的方法根本不同[14，15]。许多关于条件执行的工作只报告了理论复杂性的降低[12，46]。当简单地实现时，仅仅应用掩码并不能节省计算。对于某些方法，实际上不清楚它们是否可以有效地实施。例如，Wuet al.[51]报告了使用单独的策略网络有条件地执行各个层时执行时间的增加GPU或FPGA上的并行执行依赖于标准卷积到流水线操作的规律性[26，42]，并且添加逐元素条件语句可能会大大降低推理速度。此外，Maet al. [53]表明浮点运算数（FLOPS）不是估计推理速度的充分指标：具有类似操作量的网络可以具有很大不同的执行速度。简单的元素操作，如激活函数，求和和池化可能会产生重大影响，但不包括在许多FLOPS估计中。与此相反，我们展示了一个实际的改进挂钟时间与我们CUDA动态卷积的实现。我们方法是设计时考虑到实际可行性，并要求对现有库的微小更改：通过重新排列存储器中的tensor元素，使得有效的空间稀疏执行成为可能，这与简单的复制操作具有类似的开销。我们的代码可在 www.example.com 上获得https://github.com/thomasverelst/dynconv。本文的主要贡献有三个方面：1. 我们提出了一种使用Gumbel-Softmax技巧端到端训练像素选通掩码的方法，重点是效率。2. 我们的方法在ResNet [18]和MobileNetV 2 [39]的分类任务上取得了最先进的结果，并且我们在人体姿态估计上取得了很好的结果，提高了非条件网络的性能-准确性权衡。3. 我们在GPU上提供了一个具有动态卷积的残差块的CUDA实现，不仅减少了理论上的浮点运算量，而且还提供了Mo-bileNetV 2和ShuffleNetV 2的实际加速。2. 相关工作静态压缩方法已被广泛研究，以减少现有神经网络的存储和计算成本，例如。[27，28，33]知识，tillation [19，37]，结构化矩阵[41，49]或量化[17，50]。最近的方法基于输入图像改变计算。所谓的条件执行可以是应用于网络的几个方面：我们区分基于层、基于通道和空间的方法。基于层的方法根据输入有条件地执行某些网络层或块。简单的图像需要的网络深度低于复杂的示例。第一种方法之一，自适应计算时间[16]，将残差块解释为特征的细化。当特征对于分类器来说“足够好”时，层的执行停止。另一种方法是在网络中使用早期退出分支[7，35，45]。后面的方法通过有条件地执行各个层来提高灵活性。这些方法是基于对残差架构对层丢失具有鲁棒性的观察[20，47]。SkipNet [48]使用强化学习学习门控决策。ConvNet-AIG [46]使用Gumbel-Softmax技巧，BlockDrop [51]使用强化学习训练单独的策略网络。基于通道的方法在推理过程中动态地和动态地修剪通道。主要动机是高级功能只需要图像的一个子集：动物的特征可能与飞机的特征不同。Gao等人[13]对通道进行排序，只执行前k个通道。Lin等[30]提出了一种方法来训练一个代理的通道式修剪使用强化学习，而Bejnordi等人。[3]使用Gumbel-Softmax技巧根据输入条件选通通道。空间方法利用了并非图像中的所有区域都同样重要的事实。第一组方法[1，32，40]使用瞥见来仅处理感兴趣的区域。这种两阶段方法仅限于感兴趣的对象被清楚地分离的应用，因为作物之外的所有信息都丢失了。已经将瞥见思想扩展到像素级标记任务，例如使用级联的语义分割[29]。后来的方法提供了更细的粒度和对条件执行的更多控制最接近我们的工作可能是空间自适应计算时间（SACT）[12]。它是Graves [16]工作的空间处理特征，直到停止分数确定特征足够好。由于该方法依赖于特征的细化，因此它仅适用于具有许多连续层的残差网络。我们的方法更通用和灵活，因为它使每个残差块和每个空间位置的跳过决定。此外，它们没有显示出任何推理加速。SBNet [36]是唯一一个显示空间条件执行实际加速的作品。图像被分成更小的图块，这些图块可以用密集卷积处理。低分辨率网络首先提取掩码，并且第二主网络根据该掩码处理瓦片。切片边缘重叠以避免输出中的不连续性，从而在切片时导致显著的开销2322有小到因此，图块大小通常为16×16像素，这使得该方法仅适用于大图像。他们在3D物体检测任务中展示了他们的方法只.相比之下，我们的方法将掩码生成和稀疏执行集成到单个网络中，同时提供更精细的像素控制和有效的推理。3. 方法对于每个单独的残差块，一个小的门控网络根据该块的输入生成执行掩码（见图2）。1）。我们首先描述如何使用Gumbel-Softmax技巧学习像素级遮罩。之后，我们详细介绍了动态卷积的实现，用于减少推理时间。最后，我们提出了一个稀疏性标准，添加到任务损失，以实现所需的减少计算。3.1. 可训练口罩逐像素掩码定义要通过卷积处理的空间位置。这些离散决策，对于每个空间位置和每个残差块独立地，使用Gumbel-Softmax技巧进行端到端训练[23]。3.1.1块架构将残差块b的输入表示为∈Rcb×wb×hb。然后，残差块的操作被去-图2：使用Gumbel-Softmax技巧训练空间执行掩码。掩码单元生成浮点掩码，之后Gumbel-Softmax技巧将软决策转换为硬决策，并启用反向传播以进行端到端学习。在训练期间，这是与掩码元素的实际乘法，以便端到端地学习门控决策（参见图10）。2）。在推断期间，残差函数仅在由执行掩码Gb指示的位置上被评估。3.1.2二进制Gumbel-SoftmaxGumbel-Softmax技巧将软决策转化为硬决策，同时启用反向传播，这是优化掩码单元权重所需的取类别概率为π=π，π，.的分类分布。π，然后离散划线者Xb+1=r（F（Xb）+Xb）（1）1 2 N样本z可以使用.Σ其中F是残差函数，通常是两个或三个连续函数，z=one hotarg max [log（πi）+gi]我（四）具有batchnorm（BN）的卷积，和r是激活函数。第我们的工作使得F在空间域上是有条件的.小掩码单元M基于输入Xb输出软门控判决Mb∈Rwb+1×hb+1。我们比较SACT [12]的掩模单元（称为挤压单元），包括：其中gi是从Gumbel分布中提取的噪声样本。Gumbel-Softmax技巧通过将argmax操作替换为softmax来定义连续的可微近似在空间维度上进行挤压操作，y=exp（（log（πi）+gi）/τ）.（五）1×1卷积。在分类时采用挤压单元，在姿态估计时采用1×1Gumbel-Softmax模块G通过对每个模块应用二进制Gumbel-Softmax技巧（参见第3.1.2节），将软决策Mb变成硬决策Gb∈ {0，1}wb+1×hb+1。元素Mb：Gb= G（M（Xb））.（二）门控决策Gb充当执行掩码，指示应评估残余块的有效空间位置。然后，具有空间稀疏推断的残差块被描述为：Xb+1=r（F（Xb）<$Gb+Xb）（3）在空间上进行元素乘法Ikj=1exp（（log（πj）+gj）/τ）门控决策是二进制的，这使得可以大大简化Gumbel-Softmax公式。一个柔软的-由神经网络输出的决策m∈（−∞，∞）被转换为概率π1，表示应该使用sigmoidσ来执行像素。π1= σ（m）。（六）然后，像素不被执行的概率为：π2=1 −σ（m）。（七）对于k=2和i=1的二进制情况，在等式5中代入π1和π2，使得可以（参见补充）将其简化为. m + g1− g2在所有信道上广播的mensions（wb+1×hb+1）y1=στ.（身份快捷方式1x1BNReLU6+向前直接通过Gumbel-softmax技巧Gumbel样品落后+掩模单元1x1BN乙状≥03x3 DWBN ReLU62323八）2324我们的实验使用固定的温度τ=1，除非另有说明。我们使用直通估计器，其中在向前传递期间使用硬样本，并且在向后传递期间从软样本获得梯度：身份快捷方式.m+g − gy1> 0。5≡z=1 2>0（向前），（九）y1（向后）。注意，该公式在前向传递中没有多项式或在推断过程中，我们不添加Gumbel噪声，因此模型在最后20%的时期内进行微调，g1和g2固定为0，使其类似于Bengio等人的直通估计。[6]的文件。3.2. 高效推理实现应仅在活动空间位置评价残余功能有效执行条件操作可能具有挑战性：硬件强烈依赖于对流水线操作的规则性。尤其是空间操作，e.G. 3×3卷积，需要仔细优化和数据缓存[26]。我们的方法使用聚集操作将选定空间位置处的元素非空间操作，如逐点1×1卷积和激活函数，可以有效通过在中间张量上应用现有的实现之后使用分散操作将结果复制回其原始位置。更具体地，假设残差块的输入I是具有维度的4D张量N×C×H×W，分别为批量、通道数量、高度和宽度。收集操作复制将活动空间位置映射到新的中间张量T，其维度为P×C×1×1，其中P是分布在批次的N个输入上的活动空间位置的数量中间张量可以看作是大小为P的图像1×1，C通道，非空间操作可以照常应用MobileNetV2的反向残差块非常依赖于非空间操作，并且设计用于低计算复杂度，使其非常适合条件执行。它包括一个逐点卷积扩展的特征空间，其次是一个轻量级的 depressive（DW）卷积和线性逐点瓶颈。在第一次逐点卷积之前应用聚集操作，然后对中间张量T进行操作。深度卷积是块中唯一的空间操作，应适用于对T的非典型维度进行操作。第二个逐点卷积之后是散射操作，之后进行残差求和。具有动态卷积的残差块的架构如图3所示，接下来我们描述每个组件的作用：图3：用于高效稀疏推断的残差块的架构。掩码单元M基于块的输入生成掩码。聚集操作使用遮罩将选定的空间位置（黄色）复制到新的中间张量。非空间操作使用标准实现，而3×3卷积被修改为对中间张量进行操作• 掩模膨胀：门控决策Gb指示应该应用空间3×3卷积第一个1×1卷积也应该应用于相邻的空间位置，以避免3×3卷积的输入中出现间隙因此，掩模Gb在形态上是扩张，得到一个新的掩模Gb，扩张。• 掩蔽聚集操作：聚集操作将活动空间位置从维度为N×C×H×W的输入I复制到维度为P×C×1×1的中间张量T。从I到T的索引映射取决于执行掩码G：元素In，c，h，w是将G的展平形式中的第p个活动位置复制到Tp，c，1，1。• 修改的3x3深度卷积：去卷积分别对每个通道应用3×3卷积核。我们实现了一个定制的CUDA ker-在T上有效地应用信道滤波的nel。由于T的维数为P×C×1×1，因此T的元素之间的空间关系丢失。当处理T中的元素t时，我们的实现使用索引映射检索空间邻居的存储位置从T到I用于稀疏矩阵运算的传统库由于索引和簿记而具有相当大的开销。我们的解决方案通过在更小的密集矩阵中收集元素来最大限度地减少此开销中的额外映射步骤改进的3×3DW卷积的影响最小，因为它的计算成本比1×1卷积小。请注意，与修改后的去卷积可以应用于其他网络，如ShuffleNetV2[53]和MnasNet [44]。1x1mod.3x3 DW1x1蒙面散射+≥0扩张收集蒙面τ23253.3. 稀疏损失在没有额外约束的情况下，最佳选通状态是执行每个空间位置。我们定义了一个计算预算超参数θ∈[0，1]，表示期望操作的相对数量。例如，0.7和下限。这些边界分别从目标预算θ退火到0和1。上限和下限由以下损失函数施加，其中我们使用余弦退火将第一个和最后一个训练时期之间的p从1变化意味着条件层中平均70%的FLOPS应该被执行。浮动总数Lsp，低= 1ΣBmax（0，p·θ−Fb，sp）2，（15）MobileNetV 2 resid中卷积的点运算-BbFb具有步幅1的双块b是.ΣLsp，up=1ΣBFb,sp2max（0，−（1−p（1 −θ）。（十六）Fb=H·W·9Cb，e+2CbCb，e、（10）BFbB其中Cb是基本通道的数量，Cb，e是深度卷积的通道数量（通常为6Cb），H×W是空间维度。对于具有动态卷积的稀疏推理，这变为然后，要优化的最终损耗由下式给出：L=Ltask+α（Lsp，net+Lsp，lower其中α是超参数，选择为使得任务和Fb，sp=Nb，扩张 CbCb，e+Nb.9Cb，e+Cb，eCbΣ、（11）稀疏性损失具有相同的数量级。我们选择α= 10用于分类，α = 0。01用于姿态估计。其中，Nb，dilated和Nb分别是在dilated mask和mask中的有效空间位置的数量。通过将值Nb计算为该块的执行掩码中的所有元素的和，使值Nb可微（等式2）2）：Σ4. 实验和结果我们首先在CIFAR和ResNet上将我们的掩蔽方法与其他一致性执行方法进行了比较，并表明我们的方法提高了准确性和复杂性Nb=Gb.（十二）权衡然后，我们演示推理加速，Food-101与MobileNetV 2和ShuffleNetV 2。最后我们下面的损失则使差异最小化-在给定的计算预算θ和由B个残差块组成的网络所使用的预算将我们的方法应用于姿态估计，这是一项通常在空间上稀疏的任务我们研究的影响，建议稀疏性标准对这项任务。Lsp，net=. BF布Σ2b，sp−θ.（十三）4.1. 分类BFB在实践中，我们对批量大小的FLOPS进行平均，网络可以自由选择剩余块和批量元素的计算分布。然而，如果没有适当的初始化，这可能会导致网络执行某个块中的所有位置或不执行任何位置的次优状态。最小化稀疏性损失对于任务损失来说是微不足道的，并且掩码单元永远不会从这种状态恢复这个问题经常发生在条件表达式中，现有的解决方案包括密集的预训练和仔细的初始化[12，48]，课程学习[51]或为每个残差块单独设置计算预算[46]。后者可以公式化为：4.1.1与最新技术水平的用于分类的ResNet [17] CNN通常用于比较条件执行方法的性能我们比较了理论上的浮点运算次数和精度。与我们相关的主要工作是SACT [12]，也利用了空间稀疏性。ConvNet-AIG [46]，有条件地执行完整的残差块，可以被视为我们方法的非空间变体。CIFAR-10我们在CIFAR-10的标准训练/验证分割上使用ResNet-32进行实验[25]。我们使用与ConvNet-AIG相同的超参数和数据增强，作为具有动量的SGD优化器Lsp，每层=ΣB F-2b，sp−θFb.（十四）0.9，权重衰减5e-4，学习率0.1在共350个时期的时期150和250衰减0.1。 SACT和ConvNet-AIG的结果是用它们的B这样的每层约束是有效的，但限制了计算分配的灵活性。我们提出了一个解决方案，以确保正确的初始化每个块，通过添加一个额外的约束，保持执行的操作的百分比Fb，sp/Fb在每个剩余块之间的上限B2326提供代码。我们评估我们的方法对于不同的芽目标θ∈ {0. 1，0。2、. . .、0. 9}。掩模单元是具有与SACT中相同架构的挤压单元。非自适应基线ResNet模型有8、14、20、26和32层。图4a显示了我们的方法（DynConv）对所有的2327949392919089881 2 3 4 5 677877767574737271703 4 5 6 7表1：动态卷积MAC1e7(a) CIFAR-10MAC1e9(b) ImageNet图4：与最先进模型的计算成本（MAC），同时改善准确度-复杂度权衡。此外，当减少计算预算时，准确度下降较小。ImageNet我们使用ResNet-101 [18]和ImageNet [10]将DynConv 与 SACT [12] ， ConvNet-AIG [46] ， SkipNet[48]和标准ResNet [18]中报告的结果进行比较。就像SACT一样，我们使用预训练的ResNet-101的权重初始化卷积层，因为大量的条件层使网络容易出现死残差，其中一些层根本没有使用。我们使用ResNet [18]的标准训练程序和InceptionV3 [43]数据增强。模型在单个GPU上训练，批量大小为64，学习率为0。025，100 个时期。学习率在第 30 和 60 个时期衰减 0.1 。Gumbel温度从5逐渐退火到1，以便更稳定地训练这个深度模型。掩模单元是具有与SACT中相同架构的挤压单元。图4b中的结果表明，DynConv的SACT性能远远超过SACT，并且与最佳基于层的方法的性能相匹配。这些方法极大地受益于ResNet-101中的大量残差块，因此比它们在CIFAR-10实验中的表现相对更好。进一步分析图5给出了我们的方法和SACT之间每个空间位置的计算量使用ponder成本图可视化，通过放大所有残差块的二进制执行掩码并随后对其求和来获得。我们的方法显示出更好的关注感兴趣的区域。分析ImageNet类上的计算分布（图6a）表明，网络在鸟类等典型稀疏图像上花费的计算更少。当查看每个残差块的执行速率时（图6b），很明显，下采样块比其他块更重要：在这些块中评估所有空间位置。处理高级特征的最后剩余块是也至关重要。这突出了SACT的架构优势，SACT中只能停止空间位置的计算。4.1.2DynConv推理加速我们在MobileNetV2 [39]和ShuffleNetV2 [53]中集成了动态卷积。不同计算预算θ的结果如表1所示。我们使用Food-101数据集[8]，其中包含101张食物类， InceptionV3 [43] 数据增强和图像大小为224×224。对于MobileNetV2，降低计算预算θ会导致吞吐量（每秒图像数）成比例增加。我们比较了使用标准Gumbel-Softmax（公式5）我们的重新表述（Eq.9）：我们的重构（G-Binary）明显快于使用softmax 和 P2P 的重构（ G-Softmax ）。我们使用ShuffleNetV2和剩余连接[53]。我们的动态卷积被集成在非跨步块的卷积分支中。该架构使用更窄的残差块，并且掩码单元的相对成本挤压操作变得重要。我们建议用一种较便宜的1×1卷积作为窄网的掩码单元4.2. 人体姿态估计人体姿态估计是固有地空间稀疏的任务：人周围的许多像素与关键点检测不大多数现有的动态执行方法不适合此任务：基于层和基于通道的方法，例如ConvNet-AIG [46]，不利用空间维度。SACT [12]不直接适用于分支架构，如堆叠沙漏网络[34]，因为它只能停止执行。Experiment setup We base our work on Fast Pose Dis-tillation (FPD) [52], which uses the well-known stackedhourglass network for single-person human pose estima-IGvNet-AConetTResNSAC（我们的）ConvDynTop 1准确度净SkipGvNet-AIConet不ResNSACurs）转换（oDynTop 1准确度方法Acc.MacsIm/Sec[39]第三十九章：我的世界82.0225M508MobileNetV2 x0.60（我们的实施）79.7150M638θ = 0。7581.2200M541θ = 0。5080.6174M629θ= 0。25（G-二进制）79.8148M724θ= 0。25（G-Softmax）[53]第五十三话：79.878.7148M149M522710θ = 0。2576.5100M781θ= 0。25个，带1×1conv掩模单元76.397M8892328输入DynConv（我们的）SACT输入DynConv（我们的）SACT输入DynConv（我们的）SACT292623201714292623201714292623201714图5：定性评价和与SACT的比较。思考成本图指示在每个空间位置处执行的残差块的量。这两种方法具有相同的平均复杂度（5.7 GMAC），但我们的方法更好地关注感兴趣的区域，无论是在简单的例子（顶行）还是更混乱的例子（底行）中。思考SACT和从[12]获得的输入图像的成本图0.80.60.40.20.0消费品鸟所有类2 3 4 5 6 7 8MAC1e9432105 1015202530残留组织块编号888786858483828180790 1 2 3 4 5 6 7 8(a) 每个图像的(b) 每层乘法-累加（MAC）1 e9图6：（a）在ImageNet验证集中，MAC在图像上的分布。鸟类的图像，通常稀疏，处理的操作比消费品少。(b)计算在残差块上的分布误差线表示方差。下采样块（紫色）很重要，在所有空间位置进行评估[34].与他们的工作不同，我们采用知识蒸馏，因为这种方法是互补的。标准残差块被MobileNetV2的残差块替换，并进行深度卷积，以实现高效的推理。我们的基线模型在沙漏中有96个特征，扩展到576个通道用于深度卷积。不同宽度的模型通过将通道数与宽度乘数∈ {0. 5，0。75，1。0}，而网络深度通过使用1、2和4个沙漏堆叠（1 S、2S和4S）而变化。用于动态卷积，基础模型的计算预算随着θ ∈ {0}而变化。125，0。25，0。5，0。75}。我们使用MPII数据集[2]和标准测试/验证分割（22k/3 k图像）。图像大小调整为256×256，并通过±30度旋转、±25%缩放和随机水平翻转进行增强。未使用翻转增强在评估期间。优化器是Adam，具有学习率图7：具有不同深度和宽度的沙漏模型的姿态估计结果（MPII验证集）。我们的条件执行方法（DynConv，红色）在相同的深度和计算量下总是优于基线模型（蓝色）。我们的模型实现了与FPD [52]相似的性能（没有知识蒸馏），计算量更少。2e-4用于6个样本的批量。热图的均方误差损失是在样本上平均的。训练持续100个epoch，学习率按因子降低0.1 在时期60和90。评估指标是正确关键点的平均百分比，通过头部尺寸的分数（PCKh@0.5）进行归一化，如[52]中所实现的。结果图7显示，我们的方法始终优于具有类似操作量的非条件模型。操作量减少了45%以上，而精度几乎没有损失。相似FLOPS的基线之间的性能差异和我们的方法变得更大的FLOPS减少图8中的思考成本图显示，网络学会了关注人。表2表明，我们的动态卷积方法可以显着加快-DynConv-4SDynConv-2SDynConv-1SHG-MN （基线） 4SHG-MN （基线） 2SHG-MN（基线）1 SFPD（无KD）[53]频率MAC（×108）准确度（平均PCKh@0.5）232950403020105040302010图8：考虑单人人体姿势估计的成本（4堆栈沙漏，θ=0。125）。该网络学习在关键点位置上应用大多数卷积运算，即使在存在杂波的情况下也是如此。表2：2堆叠模型的姿态估计的定时我们的模型在Nvidia GTX 1050 Ti 4GB GPU上实现了显着的挂钟时间加速子组件（掩码、簿记、聚集、残差函数、分散）的计时以每次执行的平均时间给出，单位为毫秒。型号PCKh@0.5#参数MACs图像/秒掩码簿记收集Res.F散射四叠基线88.16.88M6.90G30N.A. N.A.不适用31.1N.ADynConv（θ = 0. 75）88.16.89M5.39G330.48 0.730.59 27.30.76DynConv（θ = 0. 第五十章）88.26.89M3.78G480.48 0.780.47 18.40.54DynConv（θ = 0. 第二十五章）87.56.89M2.30G670.45 0.700.33 10.80.36DynConv（θ= 0. 125）86.76.89M1.71G850.50 0.670.30 8.250.27基线（×0. 5个频道）85.21.83M1.83G66N.A.N.A.N.A.14.1N.A.表3：位姿消融估计（4-堆叠，θ = 0. 125）。1.000.750.500.25551.00490.7543370.5031250.2519sp，netsp，向上sp，低0.000 50100时代0.0013710 50 100时代(a) 简单网络准则（b）退火准则参考，给出了60%的加速而不损失准确性和125%的加速而损失0.6%的准确性。该表还显示，与残差函数的成本相比，生成掩码、簿记和聚集/分散操作所花费的时间很小。我们的模型在相同的FLOPS下也优于较小的基线模型。表3将SACT [12]中使用的挤压掩蔽单元与简单卷积进行了比较。使用挤压函数作为掩码单元执行得稍好，但代价是推理速度较低此外，我们比较了3.3节中提出的稀疏性损失我们的稀疏性标准的上限和下限优于更简单的损失。图9显示了我们在训练期间损失的影响。5. 结论和今后的工作在这项工作中，我们提出了一种方法来加快推理使用动态卷积。该网络以端到端的方式学习逐像素执行掩码动态卷积可加快推理速度，减少运算次数。图9：在姿势估计的训练期间，每个残差块执行的条件计算的百分比的演变。早期的层是蓝色的，而更深的层是红色的。简单的网络稀疏性准则（等式10）13)导致早期收敛到次优状态，其中许多层未被使用。我们的标准，其中每个块的17)提供更好的初始化和更稳定的训练。通过只在这些预测的位置上操作。我们的方法实现了国家的最先进的图像分类的结果，我们的定性分析表明，架构的优势，现有的方法。我们的方法特别适合于处理高分辨率图像，e.G.在姿态估计或对象检测任务中。6. 确认这项工作由IMEC通过ICON Lec- ture+项目和CELSA通过SfS++项目资助。使用的计算预算使用的计算预算掩模单元稀疏准则PCKhIm/Sec1×1转换L+ L+L86.785挤压部Lsp，净+ Lsp，上+ Lsp，下87.0761×1转换Lsp，net（等式十三、86.1851×1转换Lsp，每层（公式14）86.3852330引用[1] Amjad Almahairi、Nicolas Ballas、Tim Cooijmans、YinZheng、Hugo Larochelle和Aaron Courville。动态容量网络。在国际机器学习会议（ICML）的会议记录中，第2549[2] Mykhaylo Andriluka，Leonid Pishchulin，Peter Gehler，and Bernt Schiele. 2D人体姿态估计：新的基准和最先进的分析。在IEEE计算机视觉和模式识别会议（CVPR）的会议中，2014年6月。[3] Babak Ehteshami Bejnordi ， Tijmen Blankevoort 和 MaxWelling。批形通道门控网络。arXiv预印本arXiv：1907.06627，2019。[4] Emmanuel Bengio ，Pierre-Luc Bacon ，Joelle Pineau ，and Doina Precup.用于更快模型的神经网络条件计算。arXiv预印本arXiv：1511.06297，2015。[5] Yoshua Bengio表示的深度学习：向前看。在统计语言和语音处理上，第1Springer，2013.[6] 约瑟芬·本吉奥，尼古拉斯·莱奥纳德，亚伦·库维尔。通过随机神经元估计或传播梯度以进行条件计算。arXiv预印本arXiv：1308.3432，2013。[7] Tolga Bolukbasi ， Joseph Wang ， Ofer Dekel ， andVenkatesh Saligrama.用于有效推理的自适应神经网络。第34届国际机器学习会议（ICML）论文集-第70卷，第527-536页。JMLR.org，2017年。[8] Lukas Bossard、Matthieu Guillaumin和Luc Van Gool。Food-101-用随机森林挖掘判别成分。在欧洲计算机视觉会议（ ECCV ）的会议记录中，第 446-461 页Springer，2014.[9] Alfredo Canziani、Adam Paszke和Eugenio Culurciello。深度神经网络模型的实际应用分析。arXiv预印本arXiv：1605.07678，2016年。[10] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。在IEEE计算机视觉和模式识别会议（CVPR）中，第248- 249255. IEEE，2009年。[11] 阿兰·德罗尼乌，塞丽娜·伊瓦尔第，奥利维耶·西高德。用于多模态感知、表示和分类的深度无监督网络。机器人和自主系统，71：83[12] Michael Figurnov，Maxwell D Collins，Yukun Zhu，LiZhang ， Jonathan Huang ， Dmitry Vetrov ， and RuslanSalakhutdinov.残差网络的空间自适应计算时间。在IEEE计算机视觉和模式识别会议（CVPR）中，第1039-1048页[13] Xitong Gao ， Yiren Zhao ， Lukasz Dudziak ， RobertMullins，and Cheng-zhong Xu.动态通道修剪：特征增强和抑制。arXiv预印本arXiv：1810.05331，2018。[14] 本杰明·格雷厄姆。空间稀疏卷积神经网络。arXiv预印本arXiv：1409.6070，2014。[15] 本杰明·格雷厄姆和劳伦斯·范德马滕。子流形稀疏卷积网络。arXiv预印本arXiv：1706.01307，2017。[16] 亚历克斯·格雷夫斯递归神经网络的自适应计算时间arXiv预印本arXiv：1603.08983，2016。[17] Song Han，Huizi Mao，and William J Dally.深度压缩：使用修剪、训练量化和霍夫曼编码压缩深度神经网络。arXiv预印本arXiv：1510.00149，2015。[18] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在IEEE计算机视觉和模式识别会议（CVPR）的论文集中，第770-778页，2016年[19] Geoffrey Hinton Oriol Vinyals和Jeff Dean。提取神经网络中的知识。arXiv预印本arXiv：1503.02531，2015。[20] Gao Huang，Yu Sun，Zhuang Liu，Daniel Sedra，andKilian Q Weinberger.深度随机的深度网络。在欧洲计算机视觉会议（ECCV）中，第646- 661页。施普林格，2016年。[21] Forrest N Iandola、Song Han、Matthew W Moskewicz、Khalid Ashraf 、 William J Dally 和 Kurt Keutzer 。Squeezenet：Alexnet级别的精度，参数减少50倍，模型大小为0.5 MB。arXiv预印本arXiv：1602.07360，2016.[22] Robert A Jacobs，Michael I Jordan，Steven J Nowlan，Geoffrey E Hinton，et al.当地专家的适应性混合。神经计算，3（1）：79[23] Eric Jang ， Shixiang Gu ， and Ben Poole. 使用 gumbel-softmax进行分类重新参数化。第五届国际学习表征会议（ICLR），2017年。[24] Yong-Deok Kim，Eunhyeok Park，Sungjoo Yoo，TaelimChoi，Lu Yang，and Dongjun Shin.用于快速和低功耗移动应用的深度卷积神经网络 arXiv 预印本 arXiv ：1511.06530，2015。[25] Alex Krizhevsky，Geoffrey Hinton，等.从微小的图像中学习多层特征。技术报告，Cite- seer，2009年。[26] 安德鲁·拉文和斯科特·格雷卷积神经网络的快速算法。在IEEE计算机视觉和模式识别会议论文集（CVPR），第4013-4021页[27] Yann LeCun、John S

下载后可阅读完整内容，剩余1页未读，立即下载