深度可分离卷积与内核内相关性改善移动网络

135 浏览量更新于2023-10-23 收藏 1004KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

14600重新思考深度可分离卷积：内核内相关性如何改善移动网络Daniel Haase蔡司显微镜daniel. zeiss.comManuel Amthor蔡司显微镜manuel. zeiss.com摘要我们引入蓝图可分离卷积（BSConv）作为CNN的高效构建块。它们通过对来自训练模型的核属性的定量分析来激励，这些分析显示了沿深度轴的相关性的主导地位。基于我们的研究结果，我们formulate的理论基础，从中我们得到有效的实现只使用标准层。此外，我们的方法提供了一个彻底的理论推导，解释和理由的应用dependently可分离卷积（DSC）一般，这已成为许多现代网络架构的基础。最终，我们揭示了基于DSC的架构（如MobileNets）隐含地依赖于跨内核相关性，而我们的BSConv公式是基于内核内相关性的，因此可以更有效地分离常规卷积。在大规模和细粒度分类数据集上进行的大量实验表明，BSConvs明显且一致地改进了MobileNets和其他基于DSC的架构，而不会引入任何进一步的复杂性。对于细粒度数据集，我们实现了高达13.7个百分点的改进。此外，如果用作ResNets等标准架构的直接替代品，BSConv变体在ImageNet上的表现也超过了它们的普通版本高达9.5个百分点。1. 介绍卷积神经网络（CNN）[27，26]已经成为几乎所有最先进的图像分类方法，对象检测[5]，语义分割[30]和许多其他应用的基础。在过去，CNN的改进主要是通过增加模型容量来驱动的，同时确保适当的训练行为[20，13，14]。最近，这导致了具有5亿个参数的模型的开发[18]。然而，在实际应用中，计算的情况下，*作者平均贡献图1.我们引入蓝图可分离卷积（BSConv）作为CNN的高效构建块BSConv利用CNN内核沿其深度轴的相关性。因此，BSConv使用一个2d蓝图核来表示每个滤波器核，该2d蓝图核使用权重向量沿着深度轴分布。空间通常是有限的，特别是在移动和汽车环境中。这一事实导致了另一个重要的研究方向，重点是提高模型的效率。最突出的方法是基于可分离卷积（DSC）[37，16]-构建块，其通过利用滤波器权重的冗余来激励基于对训练CNN的定量和定性分析，在第3节中，我们提出了蓝图可分离卷积（BSConv），它遵循这一研究路径。BSConv的主要思想是利用CNN的内核通常沿着它们的深度轴显示出高冗余（即，内核内相关性）。因此，BSConv使用一个2d蓝图表示每个滤波器内核，该蓝图使用权重向量沿深度轴分布（参见图1）。尽管DSC也受到内核内相关性的激励[37]，但在第4节中，我们证明了它们的操作派生顺序与这一假设相矛盾，并且与我们的BSConv解决方案相反。实际上，DSC结果等价于假设内核之间存在冗余（即，交叉核相关性，见图5），14601图2.在ImageNet上训练的vanilla VGG-19、Inception v2和ResNet-50 CNN的示例性过滤器权重。对于三种CNN架构中的每一种，都可以看到一个大小为M×K×K= 128×3×3的滤波器内核，分为128个图像。每个滤波器内核的权重沿着深度轴高度相关。具体地说，大多数切片显示相同的特定于过滤器的3×3虽然只有三个切片突出显示，对于每个内核，相关性对于更多的切片是可见的（对于ResNet-50示例为52/128）。这一观察是我们提出蓝图可分离卷积（BSConv）的动机，它本质上表示一个大小为M×K×K的滤波器内核，使用一个大小为K×K的蓝图内核和一组用于将蓝图分布在深度轴上的M个在分离卷积时效率较低[7]。此外，BSConv的自然扩展导致对具有线性瓶颈的DSC的解释和证明[35]，其广泛用于许多最近的模型[15，40，41]。然而，我们的解决方案直接意味着使用额外的正则化损失来改进这些瓶颈隐含地执行的在第5节中，我们彻底证明了BSConv在相同的参数和时间复杂度下，在各种大规模和细粒度数据集此外，BSConv可以用作标准卷积层的直接替代品，也可以应用于其他架构，从而在大幅提高模型效率的同时提高性能。2. 相关工作存在许多方法来提高CNN的效率。一个例子是模型修剪，其中在模型训练期间或之后从CNN中删除过滤器和/或连接[10，28，11，29]。关系密切，而且经常...bined是量化[33，47，19]和压缩技术，niques [6，9，8]加速模型推理。另一个相关的研究领域是效率驱动的CNN架构搜索。它可以手动[12]或自动执行，例如通过遗传算法[43]或通过神经结构搜索形式的再学习[48，1]。后者是构建有效模型（如MnasNet [40]，Mo-bileNetV 3 [15]和EfficientNet [41]）的最新进展的基础。构建块通常由激活、归一化和卷积操作组成，其中后者具有最大的效率优化潜力。对训练CNN的卷积权重中的冗余进行了分析。在[3，37，36，7]中溶解。减少这些冗余的方法是例如滤波器内核的低秩近似[4，21，22]和分组卷积的使用[46，31，44]。在[37]中，介绍了DSC，它构成了几乎所有最近有效网络架构的基础。例如，它们的直接应用可以在 MobileNetV1 [16] ，因子化 CNN [42] 和Xception [2]中找到。DSC的扩展是MobileNetV2中引入的反向剩余瓶颈[35]。它们用于最先进的高效架构，包括Mnas-Net [40]，MobileNetV 3 [15]和EfficientNet[41]。3. 蓝图可分离卷积（BSConv）在标准 CNN 中，每个卷积层通过应用卷积核F（1），.，将大小为M×Y×X的输入张量U转换为大小为 N×Y×X的输出张量 V 。 . . ， F（ N ），每个的大小为M×K×K，使得Vn，：，：=U<$F（n）（1）其中n∈ {1，. . .，N}（参见图1，顶行）。这N个核的条目（或任意值。然而，在下文中，我们表明，在实践中，这些权重往往会收敛到一个状态，在这个状态中，它们表现出大量的相关性。我们定性和定量地分析了这些相关性，然后根据我们的研究结果推导出一种新的、参数和时间有效3.1. 标准CNN在本文中，我们专注于内核内的相关性及其在设计参数和时间有效的CNN中的潜力。我们首先通过可视化训练CNN的过滤器来定性分析内核内的相关性14602图3.沿着滤波器核的深度轴的方差的直方图，其可以仅使用每个滤波器的一个主成分来解释。滤波器按卷积级分组（第1级：蓝色，阶段2：橙色，第三阶段：绿色，阶段4：红色）。这些定量结果表明，很大一部分CNN滤波器可以使用我们的BSConv公式来表示这个数字最好用彩色看图2显示了在ImageNet数据集上训练的三个已建立的CNN 架构的示例性过滤器内核 - 即 VGG-19 [38] ，Inception v2 [20]和ResNet-50 [13，14]。从这些可视化可以看出，内核内相关性沿着深度轴存在具体而言，它对于滤波器F（n），其切片F（n），. - 是的- 是的，F（n）这一发现是引入蓝图可分离卷积（BSConv）的动机。它们以这样的方式定义，即上述近似变成CNN滤波器的积分性质具体地，我们定义每个滤波器核F（n）使用蓝图B（n）和权重wn，1，. - 是的- 是的，wn，M∈ R via1，：，：M，：，：显示相同的滤波器特定K×K不同的因素（包括负面因素，（个）m，：，：=wn，m·B（n），（2）‘inverted’ versions of the虽然图2仅示出了滤波器内核的一个小的子集，但是所描述的基于“蓝图”的滤波器切片的属性根据我们的观察，它在不同的CNN架构、训练设置和数据集上一致地发生。为了系统地量化滤波器内核在多大程度上显示这种情况，我们以以下方式分析了几个经过训练的CNN：对于CNN的每个单独的过滤器，我们（i）将M×K×K核函数分解为M个K×K样本，（ii）在M个样本集上进行主成分分析（PCA），样本，以及（iii）确定由第一主成分（PC1）解释的滤波器核的方差使用这种方法，我们可以量化每个滤波器由K×K滤波器特定蓝图（在这种情况下对应于PC1）和M因子（在这种情况下对应于PC1）表示的程度。案例是通过PCA获得的我们将这些单独的值聚合到直方图中，对于图2中使用的相同的普通CNN，直方图如图3所示。可以看出，平均而言，每个滤波器内核的变化的大约50%3.2. 从相关性到BSConv第3.1 节中的分析表明，对于经过训练的vanillaCNN，每个M×K×K滤波器可以使用K×K蓝图和M个因子来即使它在训练期间决不强制执行，这种近似解释了观察到的方差的很大一部分。这其中m ∈ {1，. - 是的- 是的，M}且n ∈ {1，. - 是的-是的，N}（参见图1，底行）。虽然这一定义提出了一个严格的限制，在第5节中，我们通过实验证明，使用BSConv训练的CNN与普通CNN相比，可以达到相同甚至更好的然而，与标准卷积层相比，有M·N·K2个自由参数（见图1），BSConv变体只有N·K2个蓝图参数和M·N个权重参数。如下文所讨论的，后者甚至可以进一步减少。3.3. 变体和实现BSConv模块由N个过滤器组成，每个过滤器有一个蓝图和M个权重。所有M·N个权重可以组合成矩阵W=（wn，m）。根据在训练步骤中学习W的方式，不同的BSConv变体可以被衍生。在下文中，描述了两种变型。3.3.1无约束BSConv（BSConv-U）在最一般的情况下，权重W可以在没有任何约束的情况下变化，并且直接经由反向传播来学习，就像蓝图滤波器内核的条目一样。如图1所示，可以通过从每个蓝图构建完整的内核并随后执行常规卷积来实现简单的实现。然而，为了得到CNN的更有效的实现，我们以下面的方式重写等式（1）：首先，由于输入数据张量U和滤波器核F（1），. . .，F（N）沿着它们的深度维度具有相同的大小M，我们可以将每个3d卷积分成M的和F14603n，mm，mFΣm，mn，：，：n，：，：nM·w′·w′nel矩阵和大小为N×M的权重矩阵W=（wn，m）。当分析这种CNN的权重矩阵W的结构时，我们观察到W的行是往往高度相关。这一事实表明进一步正则化和参数减少的潜力。具体地，我们执行W的低秩近似通过将其分解为N×M′矩阵WA=（WA′），M′×M矩阵W B=（WB′）作为图4.用于有效实现不同BSConv变体的计算图（参见第3.3.1和3.3.2节）。2d卷积，生成W=WA·WB，（8）其中M ′= φp·M φ，而p ∈（0. 0，1。0）指定子空间M′的大小与原始空间的大小M的关系矩阵WB可以被认为是M′个基向量的集合，而WA是W的子空间版本。相反对于 BSCov-U 的情况，该方法将参数计数减少到N·M′+M′·M，因为只有WA和WB必须通过反向传播来学习。为了最小化低秩子空间中的冗余，我们希望由WB定义的基是正交的。这可以ΣMVn，：，：=UF（n）=.Um，：，：F（n）Σ .（三）通过正则化损失¨ ¨m=1m，：，：Lortho =<$WBWBT−I<$<$，（9）其次，我们可以用公式（2）中给出的BSConv表示来替换每个滤波器，并得到其中，I是单位矩阵，并且f·f·F是矩阵的Frobenius范数。正则化损失被添加到类中，Vn，：，：=ΣMm=1.嗯，：，：.ΣΣwn，m·B（n） .（四）利用加权因子α对联合损失L类进行加权，得到联合损失L=L类+ αL正交。为了得到BSCov-S的有效实现，我们阿斯塔纳B因为（i）每个滤波器蓝图B（n）独立于输入通道m，并且（ii）wn，m是标量，所以我们可以重新排列可以替换为wn，m=（5）屈服m′=1wn，m′·wm′，m在等式中上述方程转化为. ΣMVn，：，：=m=1ΣUm，：，：·wn，mB（n）.（五）Vn，：，：=. ΣMm=1嗯，：，：·. M′m′=1一n，m"WB“ΣΣB（n）.（十）联系我们′n，：，：如果我们进一步重新排列wn，1，. . .，wn，M转化为M×1×1数组wn，和可以被替换为一个卷积，得到使用与3.3.1节中相同的参数，我们可以将这个方程重新定义为：V′联系我们V′=Uw（6）.′ΣVn，：，：=.ΣM嗯，：，：ΣBm，m一n，mΣB（n）.Vn，：，：′n，：，：B（n）.（七）m′=1 `m=1x对于具体的实现，这些等式（6）和（7）可以直接转换为两个张量运算：（i）一个 1×1点态卷积WV=V14604U′m，1m，MnU′Mn解，其核为w∈1，. -是的-是的，wN，′m，：，：通过重新排列权重wB′，，的。-是的-是的，wB′（十一）进入M×其对输入数据张量U执行，以及（ii）1×1数组w∈B′和权重wA，. -是的-是的，wA’进入mn，1n，M一个K×K去卷积[16，20]，带核B（1），. - 是的- 是的，B（N），其被应用于第一个M′×1×1阵列w<$A，和可以用与3.3.1节相同的方法用卷积代替步这些步骤的可视化流程图见图4.′m，：，：′n，：，：=UwB′=U′wA（十二）（十三）3.3.2子空间BSConv（BSConv-S）Vn，：，：′n，：，：B（n）.（十四）对于使用BSCv-U卷积层训练的CNN，要估计的自由参数是N蓝图ker。同样，等式（12）至（14）直接转化为张量运算，因此BSCov-S的具体实现是V=V14605m，：，：一个三步过程：（i）将输入张量投影到M′-维子空间的k核1×1逐点卷积。-是的-是的，w∈B′，（ii）另一个1×1逐点共轭-1M带核函数的解W_A，. -是的-是的，wA应用于以下结果：1N第一步，和（iii）一个K×Kdependency卷积与核B（1），. . .，B（N）应用于步骤二的结果(see图4为可视化）。4. 对相依可分卷积的再思考在下文中，我们展示了BSConv的衍生变体如何与移动模型的两个最重要的构建块相关，即。依赖可分离卷积和线性反向残差瓶颈。此外，我们展示了如何当前的模型架构可以很容易地配备我们改进的积木。正如我们将在第5节的实验中看到的，BSConv变体的性能大大优于它们的普通变体。4.1. BSConv U是一个反向相依可分离卷积尽管[37]中DSC的推导是基于沿着深度轴对内核相关性的相同观察，但与BSConv相比，它们获得了相反顺序的dependency和逐点卷积层（参见图4）。这是因为DSC实际上强制执行跨内核相关性而不是内核内相关性。使用我们在3.3节中的公式，这可以通过设置图5. DSC和BSConv的解释。DSC隐含地假设一个用于所有内核的3D蓝图，而BSConv依赖于每个内核的单独2D蓝图。在逐点卷积之后，应用激活或归一化，因为允许权重wn，m为负是必要的4.2. BSConv S是一个带正交正则化的移位线性瓶颈具有反向剩余跳跃的线性瓶颈在[35]中首次引入，作为一种高效的构建块，以最小的所需操作量提供令人印象深刻的表现力。它遵循了在非常大的ResNet中规范化僵尸网络的想法，并成为大多数当前最先进的移动架构（如MobileNetV2和MobileNetV3）的事实单个等式（2）到F（n）=wn，m′m，：，：. 这个案子是-块由逐点、dependent和有一个单一的3DM×K×K蓝图库-nelB′，其沿宽度轴复制，即跨内核（参见图5）。虽然核间相关性和核内相关性都是有效的假设，但在[7]中表明，后者占主导地位，因此具有更大的有效分离潜力。考虑到自然图像沿着深度轴固有地相关，这变得更加明显，深度轴通过所有层传播。MobileNetV 1架构可以通过简单地将所有DSC替换为BSCv-U构建块来转换为BSCv-U模型，这实际上意味着切换顺序依赖和逐点卷积。然而，层顺序的反转对网络的中间流应该没有实质性的影响，因为我们已经有了交替的点卷积和dependentconvolutions。主要区别来自入口流程：利用我们的方法，通过前面的逐点分布，来自第一次规则卷积的特征图可以被去卷积充分利用。相比之下，原始MobileNetV1模型的第一个深度卷积的每个内核只能从单个特征映射中受益根据我们的推导，对于MobileNetV 1的BSCv-U版本，一种逐点卷积，其中瓶颈被放置在块之间。考虑到BSCov-S，我们可以看到当在块内移动两个逐点卷积和一个逐点卷积的级联以获得逐点卷积、逐点卷积和逐点卷积时的密切关系因此，Mo-bileNetV 2和V3可以被重新解释为具有子空间变换的BSConv模型。正如[35]所发现的，将剩余跳跃转移到瓶颈中提供了卓越的模型性能，我们也将这一想法保留在配备BSCv-S的MobileNets的实现中。根据我们在3.3.2节中的推导，线性瓶颈，即。在不使用激活函数的情况下，由于对于子空间变换，负分量与正分量同样重要，所以它是非常注意，这意味着第一瓶颈块不应用子空间变换，而在最终分类层之前的最后特征图实际上被压缩。最重要的是，BSCv-S模型极大地受益于我们的理论研究结果，关于在训练过程中应用正交正则化。注意，如上所述的到BSCov-S模型的转换也适用于使用线性瓶颈块的其他架构，例如Ef-ficientNet [41]和MnasNet[40]。·B14606665. 实验我们评估我们的方法蓝图可分离卷积的基础上，各种常用的基准数据集。我们提供了一个全面的分析MobileNet家庭和他们的修改对应根据我们的研究结果在第4节。此外，我们还演示了如何将我们的方法用作标准模型（如ResNets）中常规卷积层的插入式子模块，以大幅减少模型参数和操作的数量，同时保持甚至获得准确性。为了进行公平的比较，我们训练所有模型-包括基线网络-使用完全相同培训程序。5.1. CIFAR10和CIFAR100CIFAR 10/100数据集[25]由大小为32px×32 px的50 k训练图像和10 k测试图像组成，分别包含10个和100个类。正如[13，45]中所建议的，我们为两个数据集训练了200个epoch。我们使用SGD，动量设置为0。9，重量衰减为10−4。的初始学习速率设置为0。1，衰减系数为0的情况。1在时期100、150和180处。图像通过随机水平翻转和随机移位进行增强，最多4px，以防止模型过度拟合[13，45]。移动网络。作为第一个实验，我们评估了MobileNetV 1-V3 [ 16 ， 35 ， 15 ] 的改进，为了使MobileNets适用于CIFAR，我们删除了第一个和第二个池化操作，以获得大小为4×4的最终特征图。通过这种修改，我们实现了基线模型的最先进性能（见表1）。如第4节所述，我们将BSCv-U用于MobileNetV 1，将BSCv-S用于MobileNetV 2/V3。对于BSCov-S模型，我们使用子空间压缩比BSCov-U变体。我们增加每个BSConv模型的深度和宽度因子，使其参数计数与相应基线模型的参数计数相匹配。我们采用与上述相同的训练方案和在表2中，我们将原始网络与修改后的BSConv版本进行了比较。对于ResNets，我们可以将准确率提高多达3。CIFAR100的计算成本为1个百分点，而参数和计算成本略少。对于WideResNets，我们可以获得高达2的精度。1个百分点，而CIFAR100具有更少的参数和计算成本。这清楚地表明了我们的方法作为常规卷积层的直接替代的有效性。5.2. ImageNet为了评估BSConv模型在大规模分类场景中的性能，我们在 ImageNet 数据集上进行了实验（ ILSVRC2012，[34]）。它包含大约130万张用于训练的图像和5万张用于测试的图像，这些图像来自1000个对象类别。我们使用一个通用的训练协议，训练100个epoch，初始学习率为0。1，衰减系数为0。1在时期30、60和90处。我们使用SGD，动量为0。9，重量衰减为10−4。为了进行公平的比较并调查我们的方法的效果，我们使用与BSConv模型完全相同的训练设置来训练自己的基线模型调整图像的大小，使其短边的长度为256px。我们使用完善的Inception-like比例增强[39]，水平翻转和颜色抖动[26]。移动网络。至于CIFAR实验，我们将MobileNets与其相应的BSConv变体进行了比较。同样，BSCv-U用于MobileNetV 1，BSCv-S用于MobileNetV 2/V3。子空间压缩p=1具有与BSCov-S的比率是p=1，就像CIFAR ex一样。vanilla模型正交项的加权系数α将mal正则化损失设置为0。01.结果示于表1中。我们可以声明所有BSConv变体都优于其相应的Mo-bileNet基线。对于MobileNetV1，这可以通过（i）点卷积和深度卷积的反转以及（ii）逐点卷积的ReLU激活的缺失来解释（参见第4.1节中的讨论）。对于MobileNetsV 2和V3，BSCv-S总是优于基线模型的事实清楚地证实了我们提出的正交正则化损失的优势。ResNets和WideResNets 除了对MobileNets的改进之外，我们还可以使用我们的BSConv方法作为标准网络中常规卷积层的直接替代在下文中，我们认为ResNets[13]和WideResNets [45]是CIFAR数据集的两个最先进的模型。在这两种情况下，我们都使用实验正交正则化损失的加权系数α被设置为0。1.一、结果如表3所示。同样，我们发现，MobileNets的BSConv变体优于其相应的基准模型。然而，相对的改进不再像CIFAR实验那样大。这种效应可以通过数据集本身的规则化影响来解释。考虑到MobileNetV 3-large的结果，我们注意到，即使orthonormal正则化损失似乎不再有效，但它对训练没有负面影响。ResNets。如前所述，可以直接用BSConv变体取代标准网络中的常规卷积层。为此，我们分析了我们的方法应用于大规模图像数据库上的ResNets时的有效性。对于基线模型，我们使用ResNet-10、ResNet-18和ResNet-26。BSConv变量-14607网络CIFAR10CIFAR100斯坦福犬斯坦福汽车牛津花orig我们orig我们orig我们orig我们orig我们MobileNetV1（x0.25）90.491.667.569.842.849.164.674.059.268.0MobileNetV1（x0.5）91.893.370.873.549.355.270.678.863.171.5MobileNetV1（x0.75）92.794.372.274.551.457.972.980.063.170.8MobileNetV1（x1.0）93.494.373.475.751.659.174.479.960.267.3MobileNetV2（x0.25）89.690.165.668.942.046.865.269.944.951.9MobileNetV2（x0.5）92.093.272.573.250.854.870.478.057.660.6MobileNetV2（x0.75）93.193.973.275.053.559.073.482.055.771.5MobileNetV2（x1.0）93.694.274.975.856.060.176.783.861.367.0MobileNetV 3-小型（x0.35）90.390.666.567.242.844.263.470.456.966.5MobileNetV 3-小型（x0.5）91.591.769.469.645.347.468.174.464.071.7MobileNetV 3-小型（x0.75）92.092.570.472.046.749.572.177.266.374.3MobileNetV 3-小型（x1.0）92.292.772.273.749.452.172.577.068.475.6MobileNetV 3-大型（x0.35）92.893.071.573.748.556.069.577.555.769.4MobileNetV 3-大型（x0.5）93.093.972.975.351.257.973.680.465.766.8MobileNetV 3-大型（x0.75）93.794.473.977.051.860.074.980.963.175.1MobileNetV 3-大型（x1.0）93.794.675.277.754.960.075.782.364.473.8表1. MobileNet的各种数据集的结果。“orig”列指的是基线MobileNet模型。“我们的”列网络CIFAR10CIFAR100参数FLOPs精度参数FLOPs精度ResNet-20 [13]ResNet-110（BSCv-U）272.5K239.0K41.3M41.1M92.292.9278.3K244.8K41.3M41.1M67.770.8WideResNet-40-3 [45]WideResNet-40-8（BSCv-U）5.0M4.2M735.0M671.6M94.995.25.0M4.3M735.0M671.6M75.577.6表2.CIFAR10和CIFAR100上的ResNet和WideResNet我们增加每个BSConv模型的深度和宽度因子，使其参数计数与相应基线模型的参数计数相匹配。使用 BSConv 可获得 9 的精度增益。 5%- 年龄点。Another interesting example is ResNet-18 vs. ResNet-34+BSConv-U: both have a comparable accuracy, whilethe BSConv model has only about one fifth of the baselinemodel parameter count.表3. ImageNet上的MobileNets。BSCv-U用于MobileNetV 1，BSCv-S用于MobileNetV 2/V3。请注意，BSConv不会引入其他参数。蚂蚁是ResNet-10、ResNet-18、ResNet-34、ResNet-68和ResNet-102。同样，我们使用与上述相同的训练协议和增强技术。结果如图6所示，按参数计数和计算复杂度划分。可以看出，ResNets的BSCv-U变体显著优于基线模型。例如，ResNet-10和ResNet-68+ BSCv-U具有类似的参数计数，而我们-网络原始BSConv（我们的）MobileNetV1（x0.25）51.853.2MobileNetV1（x0.5）63.564.6MobileNetV1（x0.75）68.269.2MobileNetV1（x1.0）70.871.5MobileNetV2（x1.0）69.769.8MobileNetV 3-小型（x1.0）64.464.8146085.3. 细粒度识别除了大规模的对象识别，我们对细粒度分类的任务感兴趣，因为这些数据集通常没有固有的正则化。以下实验在三个成熟的细粒度识别基准数据集上进行，即Stanford Dogs [23]，Stanford Cars [24]和Oxford 102Flowers [32]。我们从头开始训练所有模型，因为这些数据集的一部分是ImageNet的子集。与ImageNet训练协议相比，我们没有使用积极的数据增强，因为我们观察到它严重影响模型性能。我们只通过随机裁剪、水平翻转和随机伽马变换来增加数据。我们对所有三个数据集使用相同的训练协议。特别地，我们使用动量设置为0的SGD。9和14609图6.ImageNet上的ResNets对于基线模型，我们使用ResNet-10/18/26。BSConv的变体是ResNet-10/18/34/68/102。重量衰减为10−4。初始学习率设置为0。1，并且在每个历元处线性衰减，使得其在总共100个历元之后接近零。移动网络。我们使用与上述CIFAR和ImageNet实验相同的模型设置。再-结果示于表1中。同样，所有BSConv模型的性能都大大优于其基准模型。与国际财务报告委员会的结果相比，差距甚至更大。因此，CIFAR结果的解释也适用于此其他建筑。我们进一步评估了我们的方法对各种最先进的模型的影响。我们在标准网络中替换常规卷积层，如VGG [38]和DenseNet [17]。在表4中，我们可以看到所有模型都从BSConv的应用中受益BSCov-U的准确性可以提高至少2个百分点，而最多可提高8个百分点。参数减少了5倍最近提出的大多数模型架构利用剩余的线性瓶颈[35]，这也可以很容易地配备我们的BSCv-S方法，与MobileNetV 2/V3相同（见第4.2节）。如表4所示，我们的子空间模型明显比原始EfficientNet-B 0 [41]高出6倍。5个百分点，MnasNet[40]5个百分点，参数数量和计算复杂度相同。这表明了我们提出的BSCov-S子空间变换的正交正则化的有效性。正交正则化的影响。为了评估所提出的正交正则化损失对BSCv-S模型的影响，我们使用MobileNetV 3-large进行了消融研究。特别是，几个相同的模型在斯坦福狗数据集上使用10−5，.. . .，100。从图7中可以看出，通过将子空间分量正则化为标准正交，可以提高模型性能。网络精度VGG-16（BN）[38]VGG-16（BN）（BSCv-U）60.562.4DenseNet-121 [7]DenseNet-121（BSCv-U）56.959.4Xception*[2]Xception（BSCv-U）59.664.3[41]第四十一话EfficientNet-B0（BSCov-S）54.761.2[40]第四十话MnasNet（BSCv-S）54.859.8表4. Stanford Dogs数据集的各种架构及其BSConv对比结果。BSCv-U CNN与其基线模型相比具有更少的参数和更小的计算复杂度。BSCov-S CNN具有与其对应部分相同的参数计数和计算复杂度。* 基于DSC的常用实现。图7.标准正交正则化损失对斯坦福犬上MobileNetV 3-large（红色实线）的BSCv-S变体的准确性的影响。没有BSCov-S的基线MobileNetV 3-large模型由黑色虚线表示。6. 结论大幅提高了5个百分点以上。当加权系数α = 0时，得到了最佳值. 1.一、对于较小的值，正则化的影响去-折痕，直到它不再有效，并收敛到基线性能。然而，较大的值会降低模型性能，因为优化主要是通过快速达到具有正交基的解来驱动的，而与创建有益的联合表示无关。我们引入了蓝图可分离卷积（BSConv）作为CNN的高效构建模块。我们的公式提供了一个解释和理由dependently可分离卷积。通过使用BSConv，我们明确且一致地改进了已建立的模型，如 MobileNets ，MnasNets，EfficientNets和ResNets。代码和训练模型可在https下获得：//github.com/zeiss-microscopy/BSConv网站。14610引用[1] 韩才、朱立庚、宋涵。Proxylessnas：在目标任务和硬件上直接进行神经结构搜索。arXiv预印本arXiv：1812.00332，2018。2[2] 弗朗索瓦·肖莱。Xception：使用深度可分离卷积的深度学习在Proceedings of the IEEE conference on computervision and pattern recognition ，第 1251-1258 页， 2017年。二、八[3] MishaDenil ， BabakShakibi ， LaurentDinh ，Marc'Aurelio Ranzato，and Nando De Freitas.深度学习中的参数预测。神经信息处理系统的进展，第2148-2156页，2013年2[4] 艾米丽·L·丹顿、沃伊切赫·扎伦巴、琼·布鲁纳、扬·勒昆和罗布·弗格斯。利用卷积网络中的线性结构神经信息处理系统的进展，第1269-1277页，2014年2[5] Ross Girshick，Jeff Donahue，Trevor Darrell和JitendraMalik。丰富的特征层次结构，用于精确的对象检测和语义分割。在 Proceedings of the IEEE conference oncomputer vision and pattern recognition，pages 5801[6] 龚云超，刘柳，杨明，卢博米尔. 使用矢量量化压缩深度卷积网络arXiv预印本arXiv：1412.6115，2014。2[7] Jianbo Guo，Yuxi Li，Weiyao Lin，Yurong Chen，andJianguo Li.网络去耦：从正则卷积到可分离卷积。arXiv预印本arXiv：1808.05517，2018。二、五[8] Song Han，Xingyu Liu，Huizi Mao，Jing Pu，ArdavanPe-Peng，Mark A Horowitz，and William J Dally. Eie：基于压缩深度神经网络的高效推理引擎。 2016 年ACM/IEEE 第 43 届计算机体系结构国际研讨会（ISCA），第243IEEE，2016.2[9] Song Han，Huizi Mao，and William J Dally.深度压缩：使用修剪、训练量化和霍夫曼编码压缩深度神经网络。arXiv预印本arXiv：1510.00149，2015。2[10] Song Han，Jeff Pool，John Tran，and William Dally.学习权值和连接以实现高效的神经网络。神经信息处理系统的进展，第1135-1143页，2015年。2[11] Babak Hassibi和David G Stork。用于网络修剪的二阶导数：最佳脑外科医生。神经信息处理系统的进展，第164-171页，1993年。2[12] 何开明和孙健。时间成本约束下的卷积神经网络。在Proceedings of the IEEE conference on computer visionand pattern recognition，pages 5353-5360，2015中。2[13] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页，2016中。一、三、六、七[14] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.深度剩余网络中的身份映射在欧洲计算机视觉会议，第630-645页。施普林格，2016年。第1、3条[15] Andrew Howard ， Mark Sandler ， Grace Chu ， Liang-Chieh Chen，Bo Chen，Mingxing Tan，Weijun Wang，Yukun Zhu，Ruoming Pang，Vijay Vasudevan，et al.搜索mobilenetv 3. arXiv预印本arXiv：1905.02244，2019。二、六[16] Andrew G Howard，Menglong Zhu，Bo Chen，DmitryKalenichenko，Weijun

下载后可阅读完整内容，剩余1页未读，立即下载