动态卷积：增加模型复杂性的新设计及效果评估

73 浏览量更新于2023-10-25 收藏 723KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

11030ΣK动态卷积：对卷积核的关注尹鹏陈希阳戴梦辰刘东东陈璐袁子成刘微软{一车，西岱，孟翠柳，多臣，卢源，刘流}@ microsoft.com摘要Light-weight convolutional neural networks (CNNs) suf-fer performance degradation as their low computationalbudgets constrain both the depth (number of convolutionlayers) and the width (number of channels) of CNNs, re-sulting in limited representation capability.为了解决这个问题，我们提出了动态卷积，这是一种新的设计，可以在不增加网络深度或宽度的情况下增加模型的复杂性。动态卷积不是每层使用单个卷积核，而是基于它们的attentions（依赖于输入）动态聚合多个并行卷积核组装多个内核不仅由于小的内核大小而在计算上是高效的，而且由于这些内核经由注意以非线性方式聚合而具有更大的通过简单地为最先进的架构MobileNetV 3-Small使用动态卷积，ImageNet分类的前1精度提高了 2.9% ，仅增加了 4% 的 FLOP ，并且在COCO关键点检测上实现了2.9 AP增益。1. 介绍最近，人们对构建轻量级和高效的神经网络的兴趣它不仅可以在移动设备上实现新的体验，还可以保护用户最近的作品（例如： MobileNet [11，25，10]和ShuffleNet [40，22]）已经表明，两种有效的运营商设计（例如，深度卷积、信道混洗、挤压和激励[12]、非对称卷积[5]）和结构搜索（[27，6，2]）对于设计有效的卷积神经网络是重要的。然而，即使是最先进的高效 CNN （例如，MobileNetV3 [10]）在计算约束变得极低时会遭受显著的性能下降。例如，当Mo-bileNetV 3的计算成本从2.19亿减少到66 M Multi-Adds时，ImageNet分类的top-1准确率从75.2%下降到67.4%。这是因为极低的计算77.575.072.570.067.565.062.560.057.555.05060708090 100120 150 200 250300 350乘加，百万图1. ImageNet分类的计算成本（MAdds）和前1准确度之间的权衡。动态卷积在MobileNet V2和V3上使用少量额外的MAdd显着提高了准确性。最好用彩色观看。图2.动态感知器它基于多个线性函数的注意力{πk}动态地聚合多个线性函数，这些注意力是输入依赖的。成本严重限制了网络深度（层数）和宽度（信道数），这对网络性能是至关重要的，但与计算成本成比例本文提出了一种新的算子设计，命名为动态卷积，以增加表示能力与可忽略不计的额外的FLOP。动态卷积使用一组K个并行卷积核{W_k，W_b_k}代替每层使用单个卷积核（见图2）。这些卷积核是动态W=对于每个单独的输入x（例如，im-准确度，Imagenet，Top-1X1.0x0。75X0.5动态MobileNetV3-Sm所有x0.35MobileNetV动态3-小型MobileNetV2MobileNetV211031K）K Σ年龄）通过输入依赖注意π（x）。使用相同的注意力，πk（x∈bk. 动态卷积是一种非线性函数，具有更多的代表性。比其静态对应物更强的感知能力。同时，动态卷积计算效率高。它不会增加网络的深度或宽度，因为并行卷积核通过聚合共享输出通道。第它只引入额外的计算成本来计算注意力{πk（x）}和聚合内核，这与卷积相比关键的见解是，在合理的模型大小成本（如卷积核）小），动态内核聚合提供了一种有效的方式（低额外的FLOP）来提高表示能力。动态卷积神经网络（表示为DY-CNN）更难以训练，因为它们需要联合优化所有卷积核和跨多层的注意力。我们找到了两把钥匙注意力优化：（a）将注意力输出约束为kπk（x）=1，便于学习注意力模型π k（x），以及（b）在早期训练时期中使注意力平坦（接近均匀），以促进卷积核{W_k，W_b_k}的学习。我们简单地通过使用softmax对内核注意力进行大的温度来整合这些工作。我们证明了动态卷积在图像分类（ImageNet）和关键点检测（COCO）上的有效性。在没有花里胡哨的情况下，简单地将静态卷积替换为Mo-bileNet V2和V3中的动态卷积，就可以实现可靠的改进，而计算成本只例如，使用100 M Multi-Adds预算，我们的方法在MobileNetV 2和MobileNetV 3的图像分类上分别获得了4.5%和2.9%的top-1准确率。2. 相关工作高效CNN：最近，设计高效的CNN架构[14，11，25，10，40，22]一直是一个活跃的研究领域。SqueezeNet[14]减少了参数的数量，在fire模块中广泛使用1×1卷积Mo-bileNetV 1 [11]通过将3 ×3卷积分解为深度卷积和逐点卷积，大大降低了FLOP。基于此，MobileNetV2 [25]引入了反向残差和线性瓶颈。Mo-bileNetV 3 [10]在剩余层中应用挤压和激励[12]，并采用平台感知神经架构方法[27]来找到最佳网络结构。ShuffleNet通过通道混洗操作进一步减少了1×1卷积的MAddShiftNet [31]取代expen-通过移位操作和逐点卷积来进行空间卷积。与现有的方法相比，我们的动态卷积可以用来取代任何静态卷积核（例如。 1×1 ， 3×3 ， depressive 卷积，组卷积），并补充其他先进的像挤压和激发这样的算子。模型压缩和量化：模型压缩[7，21，9]和量化[3，41，38，36，28]方法对于学习有效的神经网络也很重要。它们是我们工作的补充，有助于减少我们的动态卷积方法的模型大小。动态深度神经网络：我们的方法与动态神经网络[17，20，29，32，37，13]的最新工作有关，这些工作专注于跳过基于输入图像的现有模型的一部分。D2NN[20]、SkipNet [29]和Block- Drop [32]通过使用强化学习来学习用于跳过决策的附加控制器。MSDNet [13]允许基于当前预测置信度的提前退出。Slimmable Nets [37]学习可在不同宽度下执行的单个神经网络。One-for-all [1]提出了一种渐进收缩算法来训练一个支持多个子网络的网络。这些子网络的精度与独立训练的网络相同。与这些工作相比，我们的方法有两个主要的区别。首先，我们的方法具有动态卷积核但具有静态网络结构，而现有的工作具有静态卷积核但具有动态网络结构。其次，我们的方法不需要额外的控制器。注意力被嵌入到每一层中，从而实现端到端的培训。与并发工作[35]相比，我们的方法效率更高，性能更好。神经架构搜索：神经架构搜索（NAS）的最新研究工作在寻找高精度神经网络架构[42，24，43，19，34]以及硬件感知的高效网络架构方面非常强大。tures [2，27，30].硬件感知NAS方法通过区分硬件延迟，将硬件延迟纳入体系结构搜索[6]提出了单路径超网算法，在搜索空间中同时优化所有体系结构基于NAS，MobileNetV3 [10]显示了对人类设计基线的显着改进（例如MobileNetV2 [25]）。我们的动态卷积方法可以很容易地用于先进的架构，发现NAS。在本文的稍后部分，我们将展示动态卷积不仅可以提高人类设计的网络（例如：NetV2），而且还提高了自动搜索架构（例如，MobileNetV3），具有低额外FLOPs。此外，我们的方法提供了一个新的和有效的组件，以丰富搜索空间。3. 动态卷积神经网络我们在本节中描述动态卷积神经网络（ DY-CNN）。我们的目标是提供更好的-在有效神经网络的范围内，在网络性能和计算负担提高性能的两种最流行的策略是使神经网络怎么-11032K在KKK˜˜˜但这两种方法都有很大的计算量，不利于高效的神经网络。我们提出了动态卷积，它既不增加网络的深度也不增加网络的宽度，而是通过注意力聚合多个卷积核来增加模型的能力请注意，这些内核对于不同的输入图像是不同的，动态卷积由此得名。在这一节中，我们首先定义了一般的动态感知器，然后将其应用于卷积。3.1. 初步：动态感知器定义：让我们将传统或静态感知器表示为 y=g（WTx+b），其中W和b是权重矩阵和偏置向量，g是激活函数（例如，ReLU[23，15]）。我们通过聚合多个（K 个）线性函数{W_T_x+W_b_k}来定义动态感知器，如下所示：y=g（W<$T（x）x+W<$b（x））图3.动态卷积层。3.2. 动态卷积在本小节中，我们展示了一个特定的动态感知器，满足计算约束的动态卷积（等式2）。2）。与动态感知器类似，动态卷积（图3）具有K个卷积核ΣKW（x）=k=1˜ ˜ ΣK˜πk（x）Wk，b（x）=πk（x）bkk=1ΣK共享相同的内核大小和输入/输出维度。它们通过使用注意力权重{πk}来聚合。遵循CNN中的经典设计，我们使用批量归一化和激活函数（例如，（注：在ag之后）S.T. 0≤πk（x）≤1，k=1πk（x）=1，（1）聚合卷积来构建动态卷积层。注意：我们将挤压和激励[12]应用于COM。其中πk~T~是第k个线性函数˜pute kernel attentions{πk（x）}（参见图3）。全球空间信息首先受到全局平均的压缩Wkx+bk。注意，聚合权重W（x）和偏差是输入的函数，并且具有相同的注意力。注意力：注意力权重{π k（x）}不是固定的，而是针对每个输入x而变化。它们表示针对给定输入的线性模型{W<$Tx+W<$b}的最优聚合。聚集模型WT（x）x+Wb（x）是一个非线性函数。因此，动态感知器具有更强的表示能力而不是静态的计算约束：与静态感知器相比，动态感知器的输出通道数相同，但模型尺寸较大它还引入了两个额外的计算：（a）计算注意力权重{πk（x）}π，以及（b）基于Δt的聚集参数张力πkWk和πb 额外的compu-汇集然后，我们使用两个完全连接的层（它们之间有一个ReLU）和softmax来为K个卷积核生成归一化的注意力权重。第一完全连接层将维度减小4。与SENet[12]在输出通道上计算注意力不同注意力的计算成本是便宜的。针对输入特征图的维数为H × W × C in，注意力要求O（π（x））=HWC in+C2/4+C in K/4Mult-Ads. 这远低于卷积的计算成本，即。 O （ W<$Tx+Wb ）=HW CinCoutD2Mult-Adds，其中Dk是内核大小，Cout是out的数量把渠道。内核聚合：聚合卷积核是K KK K计算成本应显著低于计算WTx+Wb的成本。在数学上，计算约束可以表示如下：计算效率高，因为内核尺寸小。Ag-对具有核大小Dk×Dk的K个卷积核进行聚集，C输入通道和C输出通道引入了KC输入 C输出 D2+KC输出额外的多重加法。较. ΣΣ俄罗斯2O（W<$Tx+B）<$OπkWk +Oπkbk卷积的计算成本（HWCin Cout Dk），如果K≤HW，则额外成本是不合格的。表1显示n（x）{\displaystyle n（x）}其中O（·）度量计算成本（例如，FLOPs ）。请注意，全连接层并不满足这一点，而卷积则适合此约束。11033在Mo-bileNetV 2中使用动态卷积的计算成本。例如，当使用MobileNetV2（×1.0）时，使用K=4内核的动态卷积仅增加4%的计算成本请注意，尽管动态卷积增加了模型大小，但它不会增加11034ΣΣΣK×1。0×0。75×0。5×0。35静态300.0M209.0M97.0M59.2MK=2309.5M215.6M100.5M61.5MK=4312.9M217.5M101.4M62.0MK=6316.3M219.5M102.3M62.5MK=8319.8M221.4M103.2M62.9M表1.在MobileNetV2中使用四种不同宽度的乘法器（×1. 0，×0。75，×0。5，×0。第35段）。图4.约束说明kπk（x）=1。它压缩Σ凝聚核k空间πkWkfromtw opyra每个层的输出维度。由于卷积核很小，因此增加的量是可以接受的。从CNN到DY-CNN：动态卷积可以容易地用作任何卷积（例如，1×1卷积，3×3卷积，组卷积，深度卷积）。它也是COM-补充其他运营商（如挤压和激励[12]）和激活功能（例如，ReLU6，h-swish [10]）。在本文的其余部分，我们使用前缀DY-用于使用动态卷积的网络。例如，DY-MobileNetV 2指的是在Mo中使用动态卷积。bileNetV2. 我们还使用权重W_k来表示卷积核，并且为了bre_ vit_y的缘故而忽略偏置k。4. 训练深度DY-CNN的两点见解训练深度DY-CNN是具有挑战性的，因为它需要跨多个层对所有卷积核{W_k}和注意力模型π k（x）进行联合优化。在本节中，我们将讨论两个更有效的联合优化见解，这对深度DY-CNN尤其重要4.1. 洞察1：将注意力集中在一个人身上第一个观点是：限制注意输出可以促进注意模型πk（x）的学习。具体凯莉，我们有一个限制kπ k（x）=1 （一）（CondConv [35]中使用）转换为三角形。红线被压缩把注意力归为一个点。最好用彩色观看。可以同时优化更多的卷积核Softmax由于其接近一热输出，因此在此方面不能很好地工作。它只允许跨层优化一小部分内核。图5-（左）显示了使用softmax（蓝色曲线）计算注意力时，训练收敛缓慢在这里，DY-MobileNetV 2与宽度乘数×0。5使用。最后的前1名准确率（64.8%）甚至比静态对应项（65.4%）更差。这种无能-效率与动态卷积层的数目有关为了验证这一点，我们将动态卷积层的数量减少了3层（仅对每个瓶颈残差块中的最后1×1卷积使用动态卷积），并期望在训练中更快地收敛。培训与价值观--验证误差如图5-（右）（蓝色曲线）所示。如我们所预期的，训练收敛速度更快，并且在最后具有更高的前一准确率（65.9%）。我们通过在softmax中使用较大的温度来使注意力变平，解决了在训练更深DY-CNNs中的这种低效问题，如下所示：exp（zk/τ）πk=π，（3）jexp（zj/τ）其中zk是注意分支中第二个FC层的输出（见图3），τ是温度。原始以保持聚合的核心财富˜=πkWk内softmax是一个特例（τ=1）。随着时间的推移，核空间中{Wk}的凸包。图4显示了一个有3个卷积核的例子。约束0≤πk（x）≤1仅将聚合核保持在两个金字塔内。和一约束进一步将核空间压缩为三角形。它通过归一化将来自原点的红线压缩为一个点注意力总和。这种归一化显著简化了πk（x）的学习，当它与{Wk}在一个深网工作。Softmax是一个自然的选择，put不太稀疏。当使用大温度τ=30时，训练变得显著更有效（参见图5中的红色曲线-（左））。因此，前1名的accu-活泼性提高到69.4%。当堆叠较少的动态卷积层时，较大的温度也很有帮助（参见图5中的红色温度退火，即在前10个时期中将τ从30线性减小到1 ，可以进一步提高 top-1 准确度（从 69.4% 到69.9%）。这些结果支持kπk（x）= 1。4.2. 洞察2：早期训练阶段第二个观点是：近似一致的注意力可以在早期训练阶段促进所有内核{Wk}的学习。这是因为近乎一致的注意力在早期训练阶段中，近乎一致的注意力是至关重要的。4.3. 与并行工作的这两个见解是我们的方法与并发工作（CondConv[35]）之间的关键区别，后者使用sigmoid来计算内核注意力。即使sigmoid在早期训练中提供了近乎均匀的注意力11035所有层= 1列车= 1个值= 30列车= 30 val前1位误差（%）Σ每个块中最后一层的动态卷积100 10090 9080 8070 7060 6050 5040 4030 30200 50100150200250300历元200 50100150200250300历元表3. 使用不同的内核聚合检查DY-CNN。DY-MobileNetV2×0. 5使用。适当的聚集，图5.使用不同软最大温度的训练和验证错误。左：对所有层使用动态卷积。右：对每个瓶颈残差块中的最后一层使用动态卷积。我们使用DY-MobileNetV 2，宽度乘数为×0。5，并且每个动态卷积层具有K=4个卷积核。最好用彩色观看。方法内核数量#参数MAddsTop-1×1。0[35]第三十五话DY-CNN（我们的）8427.5M11.1M329M312.9M74.675.2×0。5[35]第三十五话DY-CNN（我们的）8415.5M4M113M101.4M68.469.9表2.DY-CNN和使用MobileNetV 2的ImageNet分类的并发工作（CondConv [35]）之间的比较×1。0和×0。五、epoch，它具有比我们的方法（图4中的阴影三角形）大得多的内核空间（图4中的两个pyra）。因此，学习注意力模型πk（x）变得更加困难。因此，我们的方法每层具有更少的内核，更小的模型大小，更少的计算，但实现了更高的准确性（见表2）。5. 实验：ImageNet分类在本节中，我们展示了动态卷积的实验结果以及ImageNet [4]分类的综合消融。ImageNet有1000个类，包括1，281，167张用于训练的图像和50，000张用于验证的图像。5.1. 实现细节第一行显示了使用注意力π k（x）的解kernels{Wk}。每个图像洗牌意味着在不同的内核上对同一图像的注意力权重进行洗牌Shuffle across images（在图像间混洗）意味着将一个图像x的注意力用于另一个图像x′。底部四个聚合的糟糕性能验证了DY-CNN是动态的。角余弦周期重量衰减为4 e-5。所有模型都使用SGD优化器训练，动量为0.9，持续300个时期。为了防止过度拟合，我们在最后一层之前使用标签平滑和丢弃，以获得更大的宽度乘法。ers（×1. 0和×0。75）。辍学率分别为0.2和0.1，×1。0和×0。75，分别。 Mixup [39]用于×1。0的情况。DY-MobileNetV 3培训设置：初始学习率为0.1，并计划在单个时间内达到零。余弦循环重量衰减为3e-5。我们使用SGD opti- mizer与0.9的动量为300 epoch和0.2的最后一层之前的辍学率。5.2. 查看DY CNN我们使用DY-MobileNetV 2 × 0检查DY-CNN是否是动态的。5，其每层具有K=4个内核，并通过使用τ=30进行训练。如果它是动态的，则预期两个属性：（a）卷积核是不同的，层，以及（b）注意力是依赖于输入。我们通过矛盾来考察这两个性质。首先，如果卷积核不是多样的，则使用不同的注意力因此，我们以三种不同的方式改变Wk/K，选择具有最大值的卷积核最大注意力Wargmax（π），随机shufflying atten-kk我们在三种架构每个图像的核上的距离πj（x）Wk，jK. Com-（ ResNet[8] ， MobileNetV2[25] 和 MobileNetV3[10]），由对除第一层之外的所有卷积层使用动态卷积每层具有K=4个卷积核。批量为256。我们对这三种架构使用不同的训练设置，如下所示：DY-ResNet培训设置：初始学习速率为0.1，并在时期30、60和90下降10重量衰变是1 e-4。所有模型都使用SGD优化器进行训练，动量为0.9，持续100个时期。我们用辍学率DY-ResNet-18最后一层前的0.1DY-MobileNetV 2培训设置：初始学习率为0.05，并计划在sin内达到零。随着对原作的关注，这些变化显著降低（如表3所示）。当选择具有最大注意力的卷积核时，top-1精度（0.1）与随机选择类一样低。显著的不稳定性证实了卷积核的多样性。此外，我们shuff-fle的注意力在图像中检查，如果注意力是依赖于输入。准确率低（27.3%）表明，每张图像使用自己的注意力至关重要。此外，我们检查跨层的注意力，发现注意力在低级别是平坦的，在高级别是稀疏的。这有助于解释为什么表3= 1列车= 1个值= 30列车= 30 val前1位误差（%）内核聚合Top-1Top-5Σ˜注意：πk（x）WkΣ69.488.6a值：Wk/Kmax：Wargmaxx（π ）克鲁克shu ffleperimage：π.j（x）Wk，j/=Wkshuffleacrossimages： <$π（x）W<$（x′）K K36.061.50.10的情况。514.830.527.348.41103675.0DY-MobileNetV 2与MbileNetV 2（深度x1.0）75.0DY-MobileNetV 2与MbileNetV 2（深度x0.7）75.0DY-MobileNetV 2与MbileNetV 2（深度x0.5）72.570.067.565.062.560.057.555.052.530405060 70 80 90100120150200250 300乘加，百万72.570.067.565.062.560.057.555.052.5304050607080 90100120 150乘加，百万200250 30072.570.067.565.062.560.057.555.052.5304050607080 90100120150200250 300乘加，百万图6. DY-MobileNetV 2中具有不同深度和宽度乘法器的卷积核数（K）。左：深度乘数为1.0，中：深度乘数为0.7，右：深度乘数为0.5。每条曲线有四个宽度乘数×1。0，×0。75，×0。5和×0。三十五动态卷积优于静态卷积，对于所有宽度/深度乘数都有明显的优势。最好用彩色观看。网络C1C2C3Top-1Top-5MobileNetV211165.486.441167.4（2. 0个）87.5（1.第一章14167.4（2. 0个）87.3（0.九、11468.2（2.第八章）87.9（1.第五章）DY-MobileNetV241468.7（3.第三章88.0（1.六、14468.4（3. 0个）87.9（1.第五章）44168.6（3.（二）88.0（1.六、44469.4（4. 0个）88.6（2.（二）表4. 通过在不同的输入分辨率下启用/禁用注意力来检查DY-CNN。DY-MobileNetV2 ×0. 5使用。E的解析有两个选项：C表示启用注意力πk（x）Wk，对于每个层in，分辨率为，而−表示禁用注意力和使用一个平均内核W/K，每个层在相应的分辨率。注意力在具有较低分辨率的较高层处更有效。准确性差例如，在高级别对具有稀疏注意力的内核进行平均或在低级别（其中注意力是平坦的）选择一个卷积内核（具有最大注意力）是有问题的。表4显示了注意力如何影响跨层性能我们根据输入分辨率对图层进行分组，并打开/关闭这些组的注意力如果对某个分辨率关闭注意力，则该分辨率中的每一层通过求平均来聚合内核当仅在更高级别（分辨率142和72）启用注意力时，前1名的准确率为67.0%，接近于所有层使用注意力的性能（69.4%）如果仅对较低水平（分辨率1122、562和282）使用attention，则top-1的准确率为42.5%。5.3. 消融研究我们对DY-MobileNetV 2和DY-MobileNetV 3进行了多次消融。默认设置包括使用每层K=4个内核和τ= 30。卷积核数（K）：超-表5. 在Mo-bileNetV 2 ×0. 五、C1、C2和C3表示扩展输出通道的1×1卷积、3×3去卷积和缩小每个块分辨率的输出通道的1×1C1=1表示使用静态卷积，而C1=4表示使用具有4个内核的动态卷积。括号内的数字表示较基线的改善。参数K控制模型复杂度。图6示出了具有不同K的动态卷积的分类精度和计算成本。我们比较了 DY-MobileNetV 2和MobileNetV 2在不同的深度/宽度乘数。首先，对于所有深度/宽度乘法器，动态卷积优于其静态对应物，即使具有小的K=2。这证明了我们的方法的力量。此外，一旦K大于4，精度就停止增加。这是因为随着K的增加，即使模型具有更高的表示能力，也更难以同时优化所有卷积核和注意力，并且网络更容易过度拟合。不同层的动态卷积：表5显示了在MobileNetV2×0中每个瓶颈残差块在三个不同层（ 1×1conv ，3×3dependenconv，1×1conv）使用动态卷积的分类精度。五、随着动态卷积层的增加，都被使用了。对所有三个层使用动态卷积产生最佳精度。如果只允许一个层使用动态卷积，则在最后一个1×1卷积中使用该层可以获得最佳性能。X1.0x0.75X0.5x0.35DY-MobileNetV2 K=8DY-MobileNetV 2 K=6DY-MobileNetV 2 K=4DY-MobileNetV 2 K=2MobileNetV 2（基线）X1.0x0.75X0.5DY-MobileNetV2 K=8DY-MobileNetV2 K=6x0.35DY-MobileNetV2 K=4DY-MobileNetV 2 K=2MobileNetV 2（基线）X1.0x0.75X0.5x0.35DY-MobileNetV2 K=8DY-MobileNetV 2 K=6DY-MobileNetV 2 K=4DY-MobileNetV 2 K=2MobileNetV 2（基线）准确度，Imagenet，Top-1准确度，Imagenet，Top-1准确度，Imagenet，Top-11122输入562 决议282 14272Top-1Top-5––––C57.379.9–––CC67.087.2––CCC67.587.4–CCC69.188.4CCCCC69.488.6CCCC–50.976.2CCC––42.568.4CC–––41.267.0C––––37.963.5–––––36.061.511037网络温度Top-1Top-5MobileNetV2-65.486.4τ =164.8（-0。六、85.5（-0。九、τ =565.7（+0.第三章85.8（-0。六、τ =1067.5（+2.第一章87.4（+1. 0个）DY-MobileNetV2τ =2069.4（+4. 0个）88.5（+2.第一章τ =3069.4（+4. 0个）88.6（+2.（二）τ =4069.2（+3.第八章）88.4（+2. 0个）τ退火69.9（+4. 第五章）89.0（+2.六、表6. Softmax温度：早期训练阶段的高温度非常重要。温度退火是指在前10个时期内将τ括号中的数字表示相对于基线的性能改进。网络Top-1Top-5MobileNetV 3-小型67.486.4MobileNetV 3-小型，不带SE65.4（-2. 0个）85.2（-1。（二）DY-MobileNetV 3-小型70.3(+2.九、88.7（+2.第三章Dy-MobileNetV 3-小型，不带SE69.6（+2.（二）88.4（+2.0个）表7. MobileNetV 3-Small上的动态卷积与挤压和激励（SE[12]）。括号中的数字表示相对于基线的性能改进。与带SE的静态卷积相比，不带SE的动态卷积的top-1精度提高了2.2%。Softmax Temperature：softmax中的温度τ控制注意力权重的稀疏性。这对于有效地训练DY-CNN是重要的。表6显示了使用不同温度时的分类精度。 τ= 30具有最佳性能。此外，温度退火（在前10个时期中将τ从30线性地减小到1）提供了对top-1准确度的额外改进（从69.4%到69.9%）。因此，在训练的早期阶段使用大温度是重要的。动态卷积与压缩和激发（SE）[12]：使用MobileNetV3-Small [10]，其中SE层的位置被认为是最佳的网络架构搜索（NAS）结果如表7所示如果不使用SE，顶部-MobileNetV 3 的 1 精度 - 小下降 2% 。然而， DY-MobileNetV 3-Small（不带 SE）在top-1准确度方面优于MobileNetV 3-Small（带SE）2.2%。结合动态卷积和SE可获得额外0.7%的改进。这表明，对核心的注意力和对输出通道的注意力可以一起工作。5.4. 主要结果表 8 显示了三种 CNN 架构（ MobileNetV2 ，MobileNetV3和ResNet）中动态卷积与静态卷积之间的比较。在每个动态卷积层中使用K=4个核，并且在训练中使用温度退火虽然我们专注于高效的CNN，但我们在两个浅层ResNet（ResNet-10和ResNet-18）上评估了动态卷积，以显示其表8. ImageNet [4] DY-CNN的分类结果。括号中的数字表示相对于基线的性能改进输入操作者exp大小#outn16× 12×B输出bneck，5×5768256232× 24× 256bneck，5×5768128164× 48× 128bneck，5×53841281表 9. 用于关键点检测的轻型头部结构。我们使用MobileNetV2的瓶颈残差块[25]（表示为bneck）。每一行对应一个阶段，该阶段从双线性上采样运算符开始，将特征图放大2倍。#out表示输出通道的数目，且n表示瓶颈残余块的数目。对3×3卷积的有效性，仅用于MobileNet V2和V3中的第一层。没有铃铛，whistles，动态卷积优于其静态courn-terpart的一个明确的利润率为所有三个架构，与小的额外计算成本（2.4%）。DY-ResNet和DY-MobileNetV 2分别获得了超过2.3%和3.2%的top-1准确率DY-MobileNetV 3-Small多2.9%比最先进的MobileNetV 3-Small更精确。6. DY-CNN用于人体姿态估计我们使用COCO 2017数据集[18]来评估单人关键点检测的我们的模型在train2017上训练，包括57K图像和150K人的实例，标记有17个关键点。我们在包含5000张图像的val2017上评估了我们的方法，并使用超过10个对象关键点相似性（OKS）阈值的平均精度（AP）作为度量。实施详情：我们实现了两种类型的网络来评估动态卷积。A型遵循SimpleBaseline [33]，在头部使用反卷积。我们使用MobileNetV2和V3作为骨干特征提取器，并单独比较骨干中的静态卷积和动态卷积。Type-B仍然使用MobileNetV 2和V3作为骨干网。但是它使用了上采样和MobileNetV2的瓶颈残留块。我们比较动态卷积与其静态对应的骨干和头部。头部细节网络#参数MAddsTop-1Top-5MobileNetV2×1。03.5M300.0M72.091.0DY-MobileNetV2×1. 011.1M312.9M75.2（3.（二）92.1（1.第一章MobileNetV2×0. 752.6M209.0M69.889.6DY-MobileNetV2×0. 757.0M217.5M73.7（3.九、91.3（1.第七章）MobileNetV2×0. 52.0M97.0M65.486.4DY-MobileNetV2×0. 54.0M101.4M69.9（4.第五章）89.0（2.六、MobileNetV2×0. 351.7M59.2M60.382.9DY-MobileNetV2×0. 352.8M62.0M65.9（5.六、86.4（3.第五章）MobileNetV 3-小型2.9M66.0M67.486.4DY-MobileNetV 3-小型4.8M68.5M70.3（2.九、88.7（2.第三章11038类型骨干网络#参数MAdds操作者头#参数MAddsAPAP 0.5AP 0.75APMAPLAR一ResNet-1810.6M1.77Gdconv8.4M5.4G67.087.974.863.673.573.1DY-ResNet-1842.2M1.81Gdconv8.4M5.4G68.6（1.六、88.476.165.375.174.6一MobileNetV2×1。02.2M292.6Mdconv8.4M5.4G64.787.272.661.371.071.0DY-MobileNetV2×1. 09.8M305.3Mdconv8.4M5.4G67.6（2.九、88.175.564.474.173.8一MobileNetV2×0. 50.7M93.7Mdconv8.4M5.4G57.083.763.153.963.163.7DY-MobileNetV2×0. 52.7M98.0Mdconv8.4M5.4G61.9（4.九、85.869.758.967.968.4一MobileNetV 3-小型1.1M62.7Mdconv8.4M5.4G57.183.763.854.962.364.1DY-MobileNetV 3-小型2.8M65.1Mdconv8.4M5.4G59.3（2.（二）84.766.756.964.766.1BMobileNetV2×1。02.2M292.6M布内克1.2M701.1M64.687.072.461.371.071.0DY-MobileNetV2×1. 09.8M305.3M布内克6.3M709.4M68.2（3.六、88.476.065.074.774.2BMobileNetV2×0. 50.7M93.7M布内克1.2M701.1M59.284.366.456.265.065.6DY-MobileNetV2×0. 52.7M98.0M布内克6.3M709.4M62.8（3.六、86.170.459.968.669.1BMobileNetV 3-小型1.1M62.7M布内克1.0M664.2M57.183.863.755.062.264.1DY-MobileNetV 3-小型2.8M65.1M布内克4.9M671.1M60.0（2.九、85.067.857.665.466.7表10.COCO验证集上的关键点检测结果所有模型都是从头开始训练的上半部分在主干中使用动态下半部分在头部使用MobileNetV2的瓶颈残留块，并在主干和头部使用动态卷积（B型）。每个动态卷积层包括K=4个内核。括号中的数字表示相对于基线的性能改进。结构如表9所示对于这两种类型，我们使用每个动态卷积层中K=4个内核。培训设置：我们遵循[26]中的训练设置。从图像中裁剪人体检测框并重新尺寸为256×192。数据增强包括随机旋转（ [-45，45]）、随机缩放（[0. 65，1。35]）、翻转和半身数据增强。所有模特都经过训练从头开始210个时期，使用Adam优化器[16]。初始学习速率被设置为1 e-3，并且在第170和第200个时期分别下降到DY-CNN中softmax的温度设置为τ = 30。测试：我们遵循[33，26]使用两阶段自顶向下范式：使用人物检测器检测人物实例，然后预测关键点。我们使用[33]提供的相同的个人检测器通过调整最高热值位置，从最高响应到第二高响应偏移四分之一，在原始图像和翻转图像的平均热图上预测关键点主要结果和消融：首先，我们比较了动态卷积与其在脊柱（A型）中的静态卷积。结果见表的上半部分。10. ResNet- 18、MobileNetV 2和MobileNetV 3-Small的动态卷积增益分别为1

下载后可阅读完整内容，剩余1页未读，立即下载