低秩近似和神经结构搜索用于压缩预训练的深度神经网络

137 浏览量更新于2023-10-15 收藏 894KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1503×∈−我我我我--SVD-NAS：耦合低秩近似和神经结构搜索Zhewen Yu，Christos-SavvasBouganis伦敦英国伦敦{zhewen.yu18，christos-savvas.bouganis}@ imperial.ac.uk摘要压缩预训练的深度神经网络的任务已经引起了研究界的广泛兴趣，因为它在将从业者从数据访问要求中解放出来方面有很大的好处。在这一领域，低秩逼近是一种很有前途的方法，但现有的解决方案考虑了有限的设计选择，未能有效地探索设计空间，导致精度严重下降，压缩比有限。针对上述局限性，本文提出了一种结合低秩近似和神经结构搜索的SVD-NAS框架。SVD-NAS通过引入低秩架构空间LR-空间，这是一个更细粒度的低秩近似设计之后，这项工作提出了一种基于梯度下降的搜索，有效地遍历LR空间。这种对可能的设计选择的更精细和更彻底的探索导致CNN模型的准确性提高实验结果表明，SVD-NAS在ImageNet上的求解精度比现有方法高2.06-12.85pp。SVD-NAS在https：//github上开源。com/Yu-Zhewen/SVD-NAS.1. 介绍深度神经网络（DNN）由于其令人印象深刻的特性而吸引了从业者和研究人员的兴趣。在一些任务上的表现，推动国家的-[14，15]。• 压缩感知训练，其中计算成本作为正则化器被集成到训练目标中[8]。• 通过使用领域知识或自动机器学习（AutoML）的学习来设计和训练轻量级模型[23，25]。然而，在现实世界的场景中，对原始训练数据集的访问可能不容易被授予，特别是当训练数据集具有价值或包含敏感信息时。在这种情况下，压缩一个预先训练好的模型吸引了研究界的广泛兴趣，因为压缩的任务具有最小的数据访问要求。在模型压缩方法中，修剪[12]和量化[1]已经得到了很好的研究，并提供了良好的结果。然而，低秩近似方法由于严重的精度下降和有限的压缩比而在其应用上仍然是一个挑战[18]。低秩近似的价值源于它们对计算节省的潜在影响本文研究了卷积神经网络（CNN）的低秩逼近问题让让我们将第i个卷积层的权重张量记为Wi，其中i[0，L1]，并且具有维度（fi，ci，ki，ki），表示fi个滤波器，ci个输入通道和ki个ki个内核大小。低秩近似问题可以表示为找到一组低秩张量Wi={W0，W1，. }的情况下，这是一种超越传统机器学习方法的艺术。然而，DNN模型的高计算和存储器存储成本阻碍了它们在资源受限的边缘设备上的部署。为了生成轻量级模型，通常考虑以下技术：• 压缩预训练模型，然后进行操作，和函数F（Wi），其近似Wi，在某些方法中，ric空间因此，低秩近似问题有两个部分：识别分解方案，即函数F和秩保持构造低秩十元，即。r i=r0，r1，. 从而优化感兴趣的度量。上述问题限定了要探索的大的设计空间，但是现有的方法将它们自身限制为仅1504图1：SVD-NAS的主要贡献。上：给定一个预训练的模型，构建LR空间并利用NAS来识别最佳近似。左下：使用剩余样式构建块扩展LR空间。右下：创建一个合成数据集，并通过知识蒸馏对低秩模型进行微调。考虑这个空间的一小部分，通过迫使网络中的权重张量在网络中的所有层上采用相同或相似的分解方案[8，17]。此外，即使在他们的小子空间内，他们的设计空间探索也是缓慢和次优的，要么需要大量的手工努力[34]，要么基于采用权重张量近似的均方误差（MSE）作为网络整体精度下降的代理的算法在这项工作中，我们提供了一个新的视角，在应用低秩近似，通过将其转换为神经架构搜索（NAS）的问题。这项工作的关键新颖方面是：首先，我们将低秩逼近的过程描述为对原始预训练网络的逐层替换。对于每一层，我们引入了一个低秩架构设计空间，LR空间，它是由一组可参数化的构建块定义的我们证明搜索这些积木的设计参数相当于探索不同的分解方案和秩。之后，我们利用梯度下降NAS来导航LR空间，并联合优化精度和计算要求（例如，FLOPs）的压缩模型。其次，残差风格的低秩近似，提出了进一步完善的准确性，FLOPs权衡，分而治之的方法为基础。我们将原始预训练网络中的每个卷积层转换为包含多个分支的残差式计算结构，其中每个分支可以具有不同的分解方案和秩。这样的残差结构扩展了设计空间，导致更细粒度但仍然结构化的低秩近似解。最后，受模型量化[5]中先前工作的启发，作者生成了合成数据集来处理数据有限的问题设置，我们应用了一个类似的方法用于低秩近似。合成数据集被馈送到原始预训练模型和压缩的低秩模型中，使得能够通过知识蒸馏来调整压缩模型的权重，从而在不访问实际训练数据的情况下进一步提高框架将所提出的框架与最先进的方法[18]进行比较表明，我们的框架能够在ResNet- 18，MobileNetV 2和EfficientNet-B 0上实现2.06-12.85pp的更高准确度，同时在数据有限的问题设置下需要2. 相关工作2.1. 低阶近似先前关于CNN的低秩近似的工作可以大致分为两类，这取决于所应用的基本方法;奇异值分解（SVD）和高阶分解（HOD）。在SVD的情况下，[34，28，21]的作者用两个低秩张量近似Wi，其中后一个张量对应于逐点卷积。他们的方法不同在于第一个低秩张量是否对应于分组卷积以及它所使用的组的数量。 Tai et al.[24]用两个空间可分离卷积实现了低秩张量。我们的框架使用SVD算法来分解权重矩阵，主要是因为与HOD方法（如Tucker [11]和CP [13]）相比，其复杂度较低，这些方法使用更昂贵的Alter- nate最小二乘算法。2.2. 神经架构搜索NAS通过自动搜索以下参数的最佳组合来考虑神经网络设计过程：1505我联系我们GGGGGG我GG我W联系我们联系我们Wi，q，p和WGGGki=ki，这相当于强制内核大小将所述截断对角矩阵Sr0吸收到Vr0和Ur0中。我 J我0我M我1我M我我我我我我我我我10ii我我10我i i i i，q，pi，q，p我我我高性能的积木。搜索可以使用自上而下的方法[3]执行，其中超级网络最初经过训练，然后进行修剪，或者使用自下而上的方法[19]执行，其中最佳构建块首先被识别并放在一起以形成更大的网络。流行的搜索算法包括强化学习[9]，进化[3]和梯度下降[29]。在这项工作中，我们通过自顶向下的方法采用梯度下降搜索来解决低秩近似问题，与NAS的常见问题设置不同，NAS假设大量训练数据的可用性，我们专注于数据有限的情况。3. 设计空间建议方法的目的是近似-建议LR-空间推广以前的作品，只考虑了一个子集的空间。特别地，[34，28，6]考虑了低秩群数g01，fi，ci的角点情形。虽然[21，17]引入了一个设计参数来控制组数，但他们没有探索内核大小的不同可能性，也没有尝试将分组卷积放在第二层中。3.2.无数据权重推导在本节中，我们将演示如何使用SVD以无数据的方式从原始层导出低秩层的权重与前面相同，我们用Wi表示原始层的权重张量，而相应的两个低秩层的权重张量分别用Wi0和Wi1表示。通过i i匹配给定CNN中的每个卷积层低秩近似（诸如CNN的计算成本）被最小化，同时观察到网络准确性的最小惩罚。为此，本节首先定义了一个设计空间LR-空间，并在第4节中介绍了遍历该空间的搜索方法。作为四维张量，Wi具有（fi，ci，ki，ki）的维数。如（1）所示，如果我们将Wi在第一和第二维上分别切片和分裂为g1和g0组，我们将得到总共g0g1张量，其中每个张量的维数为（fi，ci，k，k）。我我3.1.低秩体系结构空间（LR-空间）W=W[qfi：（q+1）fi，pci：（p+1）ci，：，：]，i，q，p i1 1 0 0我我我在本文的其余部分p∈[0，g0−1]，q∈[0，g1−1]（1）预训练的模型被称为原始层。每个ii原始层被替换为可参数化的构建块，如图所示。2左显示构建块具有与原始层相同的输入和输出特征图维度，但它包含两个连续的卷积层，称为低秩层。所提出的构建块的特征在于三个设计参数：低秩k内核大小kj，m，由于先前对设计参数的约束，我们可以用低秩内核大小kj，m来代替k i。因此，每个切片张量的维数也可以表示为（fi，ci，k0，0k1，0，k0，1k1，1）。如果我们现在将每个切片张量Wi，q，p从4-d整形为2-d，我们得到张量i，q，p，每个张量的维数为（f ik1，0k1，1，c ik0，0k0，1）。j0g1i ig0i i i低秩组号gi和秩ri，其中i i0j0，1，分别表示第一和第二低秩层，以及m0，1，表示两个空间维度。为了利用基于SVD的分解从原始层导出低秩层的权重，这将在第3.2节中详细说明，对设计参数的附加约束被引入如下：将SVD应用于i，q，p并仅保留顶部的奇异值，我们得到以下近似，Wi，q，p=USVUr0Sr0Vr0=W1W0（2）Qj，m其中W=0ˆ1i，q，p 是二维低秩张量，J低秩层中的一个为{1×1，ki×ki，ki×1，1×ki}，因为ki对于大多数CNN来说是素数• min（gj）=1。这确保了两个低秩层将得到的二维低秩张量重新整形为4-D加权张量，并且它们在它们的第一和第二维上连接在一起，这恢复了（1）中的切片操作。最后，两个四维低秩重10-生成由W0和W1表示的j，我我不能同时对卷积进行分组。（r0，ci，k0，0，k0，1）和（fi，r0，k1，0，k1，1）的维数re-分别为。i0ii我1i i i我• r0max（gj）（ciQk0，m+fiQk1，m）cfkk，两个低秩层内的权重总数回想一下，基于SVD的低秩近似问题是确定最佳F（W<$1，W<$0），近似为我我应小于原始层。对Wi进行估计，包括选择分解G·1506我k、g、rk、g、rWi=<$Fb（W，W）（4）1图2：左：每个构建块包含两个卷积层，其特征在于设计参数：kj，m，gj和r0。右：推导低秩权张量的过程我我我方案和分解秩。设计当中对页面的形式进行了分解. LR-空间的度量，kj，m和gj决定了我我minFLOP（W）， maxACC（Wj），切片和整形被执行，其对应于分解方案F，而r0表示去j，mj0i，b i，bi、bj，mj0i，b i，bi、b作文排名3.3. LR-空间的剩余扩张我们还提出了一个剩余风格的构建块作为LR空间的扩展，以进一步完善度量权衡。继续前面对权重张量的分析，低秩近似的过程用W1，W0代替W i，同时注入误差Ei。i∈[0，L−1]，j∈{0，1}，m∈{0，1}，b∈{0，1}（5）FLOP和ACC分别表示低秩模型的总操作和验证精度4.1. 顺向下降NAS该框架使用标准的梯度下降NAS方法[29]来解决上述优化问题。如图1显示，预训练的每个卷积层我我W=F（W<$1，W<$0）+E（三）在搜索过程中，模型被替换为超级块每层超级块是通过穷举遍历构造的我我我到目前为止，Ei完全被忽略和修剪。或者，我们可以通过进一步对Ei应用低秩近似来选择保留E i的一部分。因此，我们认为，1，bb=0遍历LR空间的设计参数的所有组合并实例化相应的构建块。请注意，原始层也作为候选层包含在超级块中，这提供了根本不压缩该层的选项超级块提供从 LR 空间中提取的候选构建块的Gumbel-Softmax加权和。在这个加权和中，每个候选项的权重由θi给出，θ i在其对应于具有2个分支的残差型构建块，所述2个分支的输出是逐元素求和的，每个分支包含两个唯一的低秩层。上标b是为了区分这两个分支。第一个分支中的计算近似于Wi，而第二个分支近似于Ei。虽然这两个分支都是低秩近似的，但它们的分解方案和分解秩可以彼此不同，这使得低秩近似与仅具有一个分支并增加其秩相比更细粒度。4. 搜索算法在定义了设计空间之后，所提出的框架考虑以下多目标优化问题。该公式旨在最大限度地减少每层所需的计算次数，同时最大限度地提高网络的准确性，前文献与《史记》、《史记》卷积的实际权重张量。在搜索过程中，采样参数θi通过最小化以下多目标损失函数而利用梯度下降进行更新。lnas（θ）=lce·[log（FLOPN）/log（FLOPN）]β（6）其中lce是交叉中心损耗，而FLOPN，FLOPN表示压缩模型和原始模型。β是隐含地控制压缩比的超参数。在计算超级块的FLOP时，我们还将每个候选块通过采样参数进行加权和在搜索结束时，最终选择采样参数值最大的候选层来替换原始层。4.2. 降低搜索成本众所周知，NAS的设计非常耗时，而且对GPU的要求也很高i、bi、b15074：Ei，b+1=Ei，b−Fb（W，W）有待探索的空间。例如，考虑单个卷积层的LR空间，其中（fi，ci，ki，ki）是（64，64，3，3），存在74902个候选者要被比较以近似该层。在本节中，我们将介绍一些技术来帮助更有效地探索设计空间，但同时，我们仍然可以保持框架的设计选择比传统工作更细粒度在搜索开始之前，我们修剪LR空间，以减少框架考虑的候选配置的数量。考虑了以下战略• 通过FLOP进行修剪，我们在FLOP上执行网格搜索。例如，我们只对那些FLOP接近{95%，90%，85%，. }的原始层。• 通过准确性修剪，我们使用代理任务，其中使用候选配置仅压缩来自原始网络的一个层，而所有其他层保持未压缩，并且我们评估相应的准确性降级。如果该降级大于预定义阈值τ代理，则将从设计空间中修剪候选。在搜索过程中，我们采用迭代搜索的方法，每次只搜索一个分支的配置，而不是同时搜索。我们从只有一个分支并且构建块内部没有剩余结构的在NAS的帮助下，我们找到属于该分支的设计参数的最佳配置，并固定该配置。之后，我们将剩余分支添加到构建块中，然后再次开始搜索。此外，在每一次向前搜索过程中，我们只采样并计算两个候选数据的加权和，而不是所有候选数据的加权和。每个样本被采样的概率是softmaxedθi。该技术由[4]提出，以减少GPU内存。算法1迭代搜索1：Ei，0=Wi借助 4.2 中讨论的技术，我们可以在单个 NVIDIAGeForce RTX 2080 Ti或GTX 1080 Ti。超参数设置的细节可以在本文的补充材料中找到5.1. 性能比较根据以前的工作[1，20，16]，数据有限的问题设置可以解释为两种实验设置：在后训练中，不允许使用训练数据进行微调，而在少样本训练中，只有极小的训练数据子集可以用于微调。对于这两种设置，评估了所提出的SVD-NAS框架的性能，并与CNN压缩的现有工作进行了比较。感兴趣的指标包括FLOP和参数的降低（以百分比表示）以及Top-1和Top-5准确度的降低（以百分点表示）。5.1.1后训练，无需调整我们首先报告的压缩模型的性能没有任何微调。表1列出了一些网络的拟议框架所获得的结果，并将其与当前最先进的方法进行了对比。ALDS [18]和LR-S2 [8]是基于MSE启发式的两种自动算法，而F-Group [21]是手工设计。结果表明，SVD-NAS优于所有现有的工作时，没有微调。更详细地说，在ResNet-18和EfficientNet-B 0上，我们的设计在FLOP和参数方面实现了最高的压缩就Mo-bileNetV 2而言，我们实现了最佳的精度-FLOP权衡，但没有实现最佳的参数减少，因为我们没有将参数的数量作为（6）中的目标。5.1.2后期训练，但使用合成数据进行2：对于b∈{0，1}，2001年b2000年b即使我们的框架比最先进的3：确定最优F b（Wi，Wi）近似Ei，b1，b5：结束5. 实验在ImageNet数据集上使用来自torchvision1的预训练的ResNet-18，Mo-bileNetV 2和EfficientNet-B 0对所提出的SVD-NAS框架进行了评估。1https://github.com/pytorch/vision尽管在这些方法中，当不应用微调时，我们仍然观察到显著量的准确度降低由于训练数据在训练后的实验设置中不可用，因此所提出的框架考虑生成未标记的合成数据集，然后使用知识描述来指导所获得的模型的参数的调整。受先前关于训练后量化的工作的启发[5]，通过优化随机初始化图像I上的以下损失函数来生成合成数据：1508Σ- -7.我的天674. 06ΣKDlbn（I）=α[（μ′I）2+（σI′−1）2]表1：低秩近似的训练后结果∗没有微调。使用25k合成图像进行快速微调FLOPsL−1fi−1模型法（%）（%）（页）（页）+1fi [（-µf ）2+（σf′−σf）2] （七）-1335米-9。14∗i=0时f=0SVD-NAS-58.60-68.05-5。85磅-3磅。34∗∗µf和σf是批次归一化层中存储的运行平均值和运行标准品偏差，ResNet-18 ALDS [18]-42.31-65.14-18.70-13.38LR-S2 [8]-56.49-57.91-38.13-33.93F-Group[21]-42.31-10.66-69.34-87.63预训练模型μ′f和σf′表示相应的SVD-NAS-12.54-9.00-1509- 07。79∗当当前图像被馈送到原始预训练网络时记录的统计数据。此外，μ′I和σI′表示MobileNetV2-9。99英里-6英里。11∗∗发送当前图像而α是平衡这两项的超参数。高效Net-B 0SVD-NAS-22.17-16.41-10. 11米-5。49∗[18]-7.65-10.02-16.88-9.96一旦生成合成数据集，我们将原始的预训练模型视为教师，将压缩的低秩模型视为学生。由于合成数据集是未标记的，因此知识蒸馏集中于最小化每层输出的MSE。结果显示LR-S2 [8]-18.73-14.56-22.08-14.15表2：与少样本修剪的比较。FLOPs在表1中，合成数据集可以改善前1ac。模型方法结构（%）（%）（页）（页）在三个目标模型上的精确度为2.44pp-7.50pp，这扩大了我们对最先进方法的优势。5.1.3少样本训练ResNet-18SVD-NAS是-59.17-66.77-3.95-2.36FSKD [16]是-59.01-64.64-6.01-SVD-NAS是-14.17 -10.66-6.63-3.61少样本训练与之前的后训练不同，因为现在只有一小部分训练数据可用于微调目的。具体来说，为了进行评估，我们从ImageNet训练集中随机选择1k张图像作为子集，并在整个实验过程中对其进行固定。在微调过程中，我们使用以下知识蒸馏方法，L−1lkd（Wi）=MSE（yi，yi）i=0时[27]第二十七话是的-13.30-7.70-1.80- -一种POT [12] no--40.00--2.87大量的深度卷积和点卷积，就权重张量的秩而言，它们的冗余度较小。5.1.4全训虽然我们主要对数据有限的sce- narios感兴趣，但当完整的训练集+αkd·T2·lKLdiv+（1−αkd）·lce（8）available. 在这种设置下，我们完全放弃知识蒸馏，只保留（8）中的交叉熵项，其中，MSE（y_i，y_i）代表卷积层输出的均方误差，而lKLdiv是由温度Tkd软化的对数的KL散度（设置为6）。lce是压缩的图像上的交叉熵损失。模型超参数αkd设定为0.95。由于没有以前的工作报告的任何结果少样本低秩近似，我们比较我们的框架与现有的工作少样本修剪代替。从表 2 中可以看出，我们的 SVD-NAS 框架在ResNet-18上提供了一个具有竞争力的准确性-FLOPs权衡，特别是当我们对那些结构化压缩方法感兴趣时。我们还观察到，通过我们的方法实现的MobileNetV2的压缩比比修剪方法相对较低，因为该网络包含ALDS [18]-2.62-37.61-16.95-10.91LR-S2 [8]-3.81-6.24-17.46-10.34[26]第二十六话-33.33---4.24[12]第十二话--50.00--1.481509微调所有其他实验设置与之前相同。表3给出了获得的结果。在ResNet-18的情况下，SVD-NAS减少了59.17%的FLOP和66.77%的参数，而没有任何精度损失。在MobileNetv2的情况下，所提出的框架产生竞争力的结果，作为其他国家的最先进的作品。总而言之，我们观察到我们的框架相对于SOTA的优势与数据可用性的问题集相关，因为这种优势在后训练和少样本训练中更为突出，但在完整训练中不太这一发现表明，当数据访问受到限制时，应更仔细地考虑低秩近似的设计选择，而1510表3：在完整训练集上微调低秩网络模型方法FLOPs参数 Top-1 Top-5（%）（%）（页）（页）ResNet-18SVD-NAS-59.17-66.77+0.03 +0.10沪ICP备16004866号-1S-Conv [2]-51.23-52.18-0.63-澳门[7]-58.67--0.47-0.30SVD-NAS-14.17-10.66-1.66-1.90图3：探索ResNet-18中第二个卷积层的LR空间所有其他层都不压缩。每种类型的标记对应于特定的分解-[10]第十届全国政协委员0.00-7.43+0.39+0.37[18] 11.01-32.97 -1.53-0.73S-Conv [2]-19.67-25.14-0.90-大量的训练数据是可用的，不同设计选择之间的性能差距可以通过微调来补偿5.2. 消融研究在本节中，我们分析了框架中每个部分的单独贡献。5.2.1设计空间如前所述，尽管低秩近似问题涉及选择分解方案和分解秩，但许多现有的工作[17，8]集中于提出单个分解方案并降低近似的秩，以最小化所需的FLOP数量，同时对精度的影响最小。在我们的框架中，我们构造LR-空间，它扩展了探索不同分解方案的空间，并在每层的基础上进行排名。在图3的左侧，准确度与当考虑单层时，为可能的配置绘制了FLOP权衡图。如图所示，最佳分解方案和秩取决于分配给每个层的FLOP，并且Pareto前沿由许多不同的方案填充。这些结果证实，以前的工作忽略了分解方案的选择会导致次优性能。5.2.2搜索许多以前的作品[24，8，18]利用MSE算法来自动化低秩近似的设计空间探索。虽然他们的方法将导致更快的探索，但这将损害估计精度下降的质量。图3右证实了权重张量的MSE是网络准确性下降的不良代理我们观察到一些结构方案。左：准确度与FLOP右：准确度与MSE的设计参数具有相似的MSE，但它们导致不同的精度结果。因此，它证明了使用NAS探索不同LR空间的必要性，这直接优化了精度与FLOP。5.2.3合成数据集为了研究合成图像的适当数量，图。4左图展示了1k、5k和25k合成图像的前1精度与FLOP数量的关系。为了区分我们进行的不同实验配置，它们以Bx-SDy的形式表示，其中x表示构建块中的分支数量（当x=1时，剩余样式构建块被禁用），y表示合成图像的数量。结果表明，从5k到25k图像的准确性提高低于0.5pp。图4：左：ResNet-18改变合成数据集大小的结果。右上和右下：MobileNetV2的合成图像，分别取自我们的方法和ZeroQ。就合成数据集的质量而言，尽管我们的方法受到ZeroQ [5]的启发，但我们发现他们的算法并不直接适用于我们的问题。与ZeroQ相比，我们通过通道数量来缩放批量归一化层的损失，如（7）所示。图4右显示了分别从我们的方法和MobileNet-V2上的原始ZeroQ实现中获取的两个样本图像。[31] 2016年10月31日--0.00[22] 2016年12月26日TRP [30]-68.55-73.82-3.76-0.69-2.33-0.151511图5：SVD-NAS方法不同配置的前1精度-FLOP权衡的消融研究左图：ResNet-18。中心：MobileNetV2。右：EfficientNet-B 0在没有引入缩放项的情况下，合成图像表4：Pixel 4上的延迟驱动搜索结果变得嘈杂，我们发现，在微调过程中过度拟合模型目标前1位浮点运算延迟延迟5.2.4残余块在图中进行了调查。五是要评估，（页）（%）（%）（毫秒）在所提议的框架的组成部分中的多个分支的契约。系统在ResNet-18和EfficientNet-B 0的情况下，从B1移动到B2，获得了精度的提高，这随着压缩比的增加而增加。然而，我们观察到，当应用合成数据集时，这个差距缩小了，这表明当我们根本没有训练数据并且无法生成合成数据集时，多分支灵活性是一个更有吸引力的选择;在后一种情况下，例如，当预先训练的模型根本没有批量归一化层或者批量归一化层已经融合到卷积层中时。5.3. 延迟驱动搜索到目前为止，该框架一直专注于减少FLOP，而没有考虑对硬件设备上的执行时间减少的实际影响。我们通过集成开源工具nn-Meter扩展了该框架[33]以提供针对Cortex-A76 CPU的CNN延迟查找表。然后使用查找表来替换（6）中的FLOP估计。在将一个层的执行延迟暴露给框架之后，我们优化了在Pixel4手机上执行的目标网络。我们使用了一个线程，并将批处理大小固定为1。表4给出了在设备上测量的结果，表明FLOP可以用作性能的代理，特别是ResNet-18和MobileNetV 2。EfficientNet包含SiLU和挤压和激励操作[25]，这些操作目前在CPU上没有得到很好的优化，并导致延迟和FLOP之间的差异更大，作为性能的衡量标准。延迟-8.22-9.55-4.7529.51有效净B 0浮点数-9.45-22.85-1.92 67.08延迟-10.49 -21.39-6.4663.976. 结论本文提出了SVD-NAS，一个框架，显着优化之间的权衡精度和FLOPs在数据有限的情况下，通过融合域的低秩近似和NAS。关于未来的工作，我们将研究通过包括基于非SVD的分解方法来进一步扩展LR空间确认出于开放获取的目的，作者已将知识共享署名（CCBY）许可应用于任何已接受的许可版本。引用[1] Ron Banner，Yury Nahshan，Elad Hoffer，and DanielSoudry.卷积网络的训练后4位量化，用于快速部署。arXiv预印本arXiv：1810.05723，2018。[2] Yash Bhalgat ， Yizhe Zhang ， Jamie Menjay Lin ， andDaughh Porikli.用于高效神经网络设计的结构化卷积。神经信息处理系统的进展，33：5553[3] Han Cai，Chuang Gan，Tianzhe Wang，Zhekai Zhang，and Song Han.一次性：训练一个网络并使其专业化以实现高效部署。arXiv预印本arXiv：1908.09791，2019。ResNet-18FLOPs-5.83-59.17-44.5276.70延迟-5.67-54.78-49.4669.87MobileNetV2 浮点数-9.99-12.54-1.0330.661512[4] 韩才、朱立庚、宋涵。Proxylessnas：在目标任务和硬件上直接进行神经结构搜索。arXiv预印本arXiv：1812.00332，2018。[5] 蔡耀辉，姚哲伟，董震，阿米尔·戈拉米，迈克尔·W·马奥尼和库尔特·库茨。Zeroq：一种新颖的零拍量化框架。在IEEE/CVF计算机视觉和模式识别会议论文集，第13169-13178页[6] 艾米丽 · 丹顿，沃伊切赫 · 扎伦巴，琼 · 布鲁纳，扬·勒·昆，罗布·费格斯.利用卷积网络中的线性结构arXiv预印本arXiv：1404.0736，2014年。[7] JuliaGusak ， MaksymKholiavchenko ， EvgenyPonomarev，Larisa Markeeva，Philip Blagoveschensky，Andrzej Ci-chocki，and Ivan Oseledets.神经网络的自动多级在IEEE/CVF计算机视觉研讨会国际会议论文集，第0-0页[8] YerlanIdelbay e v和MiguelACarreira-Perpin a'n。神经网络的低秩压缩：学习每一层的等级。在IEEE/CVF计算机视觉和模式识别会议论文集，第8049-8059页[9] Weiwen Jiang ， Xinyi Zhang ， Edwin H-M Sha ， LeiYang，青峰Guangzhou，Yiyu Shi，和Jingtong Hu. 精度与效率：通过fpga实现感知神经架构搜索实现两者。在2019年第56届年度设计自动化会议论文集，第1-6页，2019年。[10] 姜宇哲和金大妍深度共享的滤波器基础，用于参数高效的卷积神经网络。 Advances in Neural InformationProcessing Systems，34，2021。[11] Yong-Deok Kim，Eunhyeok Park，Sungjoo Yoo，TaelimChoi，Lu Yang，and Dongjun Shin.用于快速和低功耗移动应用的深度卷积神经网络 arXiv 预印本 arXiv ：1511.06530，2015。[12] 伊万·拉扎列维奇亚历山大·科兹洛夫和尼基塔·马里宁通过逐层校准进行训练后深度神经网络修剪。arXiv预印本arXiv：2104.15023，2021。[13] Vadim Lebedev ， Yaroslav Ganin ，Maksim Rakhuba，Ivan Os- eledets，and Victor Lempitsky.使用微调的cp分解加速卷积神经网络。arXiv预印本arXiv：1412.6553，2014。[14] Namhoon Lee 、 Thalaiyasingam Ajanthan 和 Philip HSTorr。Snip：基于连接敏感性的单次网络修剪。arXiv预印本arXiv：1810.02340，2018。[15] Chong Li and CJ Shi.基于约束优化的深度神经网络低秩逼近在欧洲计算机视觉会议（ECCV）的会议记录中，第732-747页[16] Tianhong Li，Jianguo Li，Zhuang Liu，and ChangshuiZhang.少量样本知识提取，实现高效的网络压缩。在IEEE/CVF计算机视觉和模式识别集，第14639[17] 李亚伟，顾书航，吕克·范古尔，拉杜·提莫夫特。卷积神经网络压缩的学习滤波器基础。在IEEE/CVF计算机视觉国际会议论文集，第5623-5632页[18] Lucas Liebenwein ，Alaa Maalouf，Dan Feldman ，andDaniela Rus.压缩神经网络：走向确定最佳的逐层分解。神经信息处理系统进展，34，2021。[19] 柳寒笑，凯伦西蒙尼扬，杨一鸣。 Darts：差异化架构搜索。arXiv预印本arXiv：1806.09055，2018.[20] 西蒙·米加茨8-使用tensorrt进行位推断。在GPU技术会议，第2卷，第7页，2017年。[21] Bo Peng，Wenming Tan，Zheyang Li，Shun Zhang，DiXie，and Shiliang Pu.通过过滤器组近似实现极端网络压缩。在欧洲计算机视觉会议（ECCV）中，第300[22] Anh-HuyPhan ， KonstantinSobolev ， KonstantinSozykin ， DmitryErmilov ，茱莉亚 · 古萨克PetrTichavsky` ，ValeriyGlukhov，Ivan Oseledets，andAndrzej Cichocki.用于卷积神经网络压缩的稳定低秩张量分解在欧洲计算机视觉会议上，第522-539页。Springer，2020年。[23] Mark Sandler 、 Andrew Howard 、 Menglong Zhu 、Andrey Zh- moginov和Liang-Chieh Chen。Mobilenetv2：反演残差和线性瓶颈。在IEEE计算机视觉和模式识别会议论文集，第4510-4520页[24] Cheng Tai，Tong Xiao，Yi Zhang，Xiaogang Wang，etal.低秩正则化卷积神经网络。arXiv预印本arXiv：1511.06067，2015年。[25] Mingxing Tan and Quoc Le.效率网：重新思考卷积神经网络的模型缩放。国际机器学习会议，第6105-6114页。PMLR，2019年。[26] Yehui Tang ， Shan You ， ChangXu ， Jin Han ， ChenQian，Boxin Shi，Chao Xu，and Changshui Zhang.再生过滤器：用有限的数据修剪卷积神经网络。在AAAI人工智能会议论文集，第34卷，第5972-5980页[27] 王环宇，刘俊杰，马新，杨勇，柴振华，吴建新. 压缩样本较少的模型：模仿然后替换。arXiv预印本arXiv：2201.02620，2022。[28] Min Wang，Baoyuan Liu，and Hassan Foroosh.分解卷积神经网络。在IEEE计算机视觉研讨会国际会议论文集，第545-553页[29] Bichen Wu，Xiaobiang Dai，Peizhao Zhang，YanghanWang ， Fei Sun ，一鸣 Wu ， Yuandong Tian ， PeterVajda，Yangqing Jia，and Kurt Keutzer.Fbnet：通过可微分神经架构搜索的硬件感知高效卷积网络设计。在IEEE/CVF计算机视觉和模式识别会议论文集，第10734-10742页[30] Yuhui Xu，Yuxi Li，Shuai Zhang，Wei Wen，BotaoWang ， Wenrui Dai ， Yingyong Qi ， Yiran Chen ，Weiyao Lin，and Hongkai Xiong.用于高效深度神经网络的训练秩修剪在2019年第五届高能效机器学习和认知计算研讨会-NeurIPS版（EMC 2-NIPS），第14-17页。IEEE，2019。1513[31] 妙音、杨遂、廖思玉、伯渊。基于张量分解的dnn模型压缩与优化框架。在IEEE/CVF计算机视觉和模式识别会议论文集，第10674-10683页[32] Xiyu Yu，Tongliang Liu，Xinchao Wang，and DachengTao.低秩稀疏分解压缩深层模型。在IEEE计算机视觉和模式识别会议论文集，第7370-7379页，2017年。[33] Li Lyna Zhang ， Shihao Han ， Jianyu Wei ， NingxinZheng，Ting Cao，Yuqing Yang，and Yunxin Liu.Nn-meter ： Towards Accurate Latency Prediction of DeepLearning Model Inference on Different Edge Devices.在第19届国际移动系统、应用和服务年会论文集，第81-93页[34] Xiangyu Zhang ， Jianhua Zou ， Kaiming He ， and JianSun. 加速用于分类和检测的深度卷积网络。 IEEEtransactionsonpatternanalysisandmachineintelligence，38（10）：1943[35] Xiangyu Zhang ， Jianhua Zou ， Xiang Ming ， KaimingHe

下载后可阅读完整内容，剩余1页未读，立即下载