混合特征和数据的无数据压缩方法-MixMix

77 浏览量更新于2023-10-13 收藏 993KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

4410MixMix：无数据压缩所需的只是特征和数据的混合李宇航†朱峰†龚瑞浩 †沈明珠†董欣‡于峰伟†陆少卿†石谷†*电子科技大学†商汤研究‡哈佛大学摘要ResNet-50数据MobileNetV 2数据MixMix数据训练数据用户数据机密性保护正在成为当前深度学习研究中的一个在不访问数据的情况下，传统的数据驱动模型包括：76 66746272SiON面临更高的性能下降风险。最近，一些作品提出从特定的预训练模型生成图像以用作训练数据。然而，反演过程仅利用存储在一个模型中的有偏特征统计并且是从低维到高维的。706866ResNet-50585450MobileNetV2维度因此，它不可避免地遇到了困难的一般性和不精确的反演，这导致不满意的性能。为了解决这些问题，我们提出了基于两种简单而有效的技术的MixMix：（1）特征混合：利用各种模型构造一个通用的特征空间，用于广义逆;（2）数据混合：将合成的图像和标签混合以生成精确的标签信息。我们从理论和实证两个角度证明了MixMix的有效性。大量的实验表明，MixMix优于现有的主流压缩任务，包括量化，知识蒸馏和修剪方法。具体而言，MixMix在量化和修剪上分别实现了高达4%和20%的准确度提升，与现有的无数据压缩工作相比。1. 介绍为了在嵌入式和移动设备上实现强大的深度学习模型而不牺牲任务性能，已经发现了各种模型压缩技术。例如，神经网络量化[12，23，27，55]将32位浮点模型转换为低位定点模型，并受益于定点计算的加速和更少的内存消耗。网络修剪[8，14，48]侧重于减少冗余神经连接并找到稀疏网络。知识蒸馏（KD）[18，41]将大型教师网络中的知识转移到小型学生网络中。然而，没有数据的帮助，人们无法对神经网络进行渐进式压缩。例如，大多数图1.训练后无数据量化的结果概述。每个颜色条表示一个数据源。从ResNet-50反演的数据在MobileNetV 2上遇到了准确性不足。全精度模型可以通过直接将参数四舍五入到其最接近的整数而安全地量化到8位[26，39]。然而，当位宽下降到4时，我们必须使用从用户收集的数据来执行量化感知训练，不幸的是，由于日益增加的隐私保护问题1 ，人们不能容易地获得用户数据。此外，整个ImageNet数据集包含120万张图像（超过100千兆字节），这比模型本身消耗的内存空间要多得多因此，现在对无数据模型量化的要求更高。最近，许多作品[4，15，50]提出从特定的预训练模型中反转图像。他们试图通过比较批量归一化（BN）[24]层中记录的运行均值和运行方差来匹配激活在[5，11，49]中还研究了生成对抗网络的无数据模型压缩所有这些工作都把他们的重点放在开发一个更好的标准，从一个特定的模型反演数据。我们将这种类型的数据称为模型特定数据。我们确定了两个问题的模型特定的数据。首先，由特定模型生成的合成图像是有偏差的，并且不能推广到另一个。例如，在DeepInversion [50]中，合成215k224×224分辨率1https://ec.europa.eu/info/law/law-topic/数据保护_en前1精度4411数据混合特征混合合成图像X1标签1混合标签��+��−��通用功能统计精确反演合成图像X*标签*混合数据，��−模型1模型2...模型m向前落后每个模型Conv批次标准ReLUBN损失CE损失图2.所提出的MixMix算法的整体流水线。数据混合可以通过混合两个可训练图像的像素和标签来减少不正确的解决方案空间。特征混合融合了来自各种模型的通用特征空间，并生成一个一对多的合成数据集，之后合成数据可以应用于任何模型和应用程序。来自ResNet-50v1.5 [40]的图像需要28000 GPU小时。这些图像不能容易地用于另一模型。正如我们在Fig.1，从MobileNetV 2反转的数据比MobileNetV 2量化上的ResNet-50数据具有高4%的准确度，反之亦然。因此，特定于模型的数据反演需要额外的数千个GPU小时来适应另一个模型上的压缩。其次，由于预训练模型的不可逆性，特定于模型的数据导致不精确的一个简单的例子不难找到：给定ReLU层在其输出张量中具有0，我们无法预测对应的输入张量，因为ReLU层对于所有负输入输出0。因此，找到神经网络的精确逆映射仍然是一项具有挑战性的任务。在这项工作中，我们提出了MixMix数据合成算法，可以推广到不同的模型和应用程序，这有助于全面改善无数据压缩。MixMix包含两个子算法，第一个是特征混合，其利用由预训练模型的集合产生的通用特征我们表明，特征混合等于优化的最大平均差异之间的真实和合成的thesized图像。因此，优化后的数据具有高保真度和可推广性。第二种算法称为数据混合，它可以缩小反演解空间，以合成具有准确标签信息的图像为此，我们将我们的核心贡献总结为：1. 通用性：我们提出了特征混合，可以从广泛的预训练的体系结构中吸收知识。因此，合成的数据可以很好地推广到任何模型和应用。2. 精确反演：我们提出的数据混合，这是能够防止不正确的反演解决方案。数据混合可以保留正确的标签信息。3. 有效性：我们从理论和实证的角度验证了我们的算法。广泛的无数据压缩应用，如量化，修剪和知识蒸馏的研究，以证明MixMix数据的有效性，实现高达20%的绝对精度提升。2. 相关作品数据驱动的模型压缩数据是模型压缩的基本要求。例如，自动探索紧凑的神经架构[56，32]需要数据来连续训练和评估子网络。除了神经结构搜索外，量化也是一种普遍的压缩全精度网络的方法对于权重量化几乎不影响准确度的8位情况AdaRound [38]学习权重的舍入机制，并通过重构每个层输出来改进训练后量化。量化感知微调[10]即使在权重和激活被量化为INT4时，也可以实现接近原始的精度。但是这种方法需要一个完整的训练数据集，正如我们提到的。除了量化，网络修剪和知识蒸馏也被广泛探索[18，17]。无数据模型压缩无数据模型压缩的核心成分是图像合成，因此不需要真实图像。目前，生成过程可以分为两类，（1）通过梯度下降直接学习图像或（2）训练生成对抗网络（GAN）来生成图像。DAFL [5]和GDFQ [6]应用GAN生成图像并学习学生网络。这种类型的工作在小数据集上取得了良好的效果。然而，训练大规模的GAN需要付出巨大的努力。图像合成中的一个平行轴是模型4412→××ℓRR∈BN我我2我我2：Y-X。根据反演[35，36]。Mordvintsev等Deep-Dream [37]提出了从单个预训练模型中将对象特征“梦想”到图像上。最近，DeepInversion [50]表1.在ResNet-50和MobileNetV 2上的BN损失比较，给定不同类型的数据。模型ImageNet Res50 Data MobV2 Data使用BN统计变量作为优化度量来ResNet-500.0180.0490.144对数据进行提取，得到高保真图像。BN格式MobileNetV20.7224.9271.498在其他任务方面也取得了进展：ZeroQ [4]”[15]“知者，知之者也。形成无数据量化，但是它们的方法是模型特定的，即，一个生成的数据集只能用于一个模型我们的MixMix算法主要集中在数据的直接优化，但是，它也适用于生成的无数据的应用程序。3. 初步在本节中，我们将简要讨论如何从单个预训练模型合成图像的背景，然后我们将讨论这种方法的两个挑战。3.1. 模型特定的数据反演假设我们有一个大小为[w，h，c]的可训练图像X（在ImageNet数据集[7]中，大小为224 224 3）和一个预训练网络A：X《盗梦空间》ism [37]可以通过为图像分配随机标签Y来反转知识，因为网络已经捕获了类别信息。使用交叉熵损失，可以通过以下方式优化图像：minLCE（A（X），Y）。（一）X最近，[4，15，50]观察到预训练的网络已经将激活统计存储在BN层中（即，运行平均值和运行方差）。因此，合成图像模仿网络中自然图像的激活分布是合理的。因此，假设每个层中的激活（无论批次如何）是高斯分布的，BN统计损失可以被定义为用于特定模型的知识反演可以公式化为：minλ1LCE（X）+λ2LBN（X）+λ3Lprior（X）（3）X3.2. 偏置特征统计对于图像合成任务，真实的ImageNet数据集可以被视为全局最小值，它可以用于在任何神经架构上执行模型压缩然而，我们发现，从一个模型合成的数据不能直接应用到另一个不同的archi- tecture。示例结果如图 1B 所示。 1 显示在 ResNet-50 上合成的数据在MobileNetV 2上得到了糟糕的量化结果（低4%），反之亦然。我们推测这种现象的原因是在不同的CNN中学习到的在每个神经网络中，训练数据的分布特征在其唯一的特征空间（即，空间）中被编码和处理。唯一BN统计）。因此，从该神经网络中提取特征信息会导致有偏统计。为了测试这一点，我们通过等式2训练来自ResNet-50和MobileNetV 2的图像。(3)并在这些体系结构上验证合成图像。表1中的结果显示当在ResNet50上评估时，MobileNetV2数据的LBN有趣的是，以相反的方式，ResNet-50数据在MobileNetV 2上也表现不佳然而，如表1所示，在真实ImageNet数据的情况下，LBN3.3. 不精确反演除了BN统计损失LBN（X）之外，交叉熵L=100（||µ（X）−µ||+的||σ2（X）−σ2||）、（2）lossLCE（X）期望从la学习逆映射−1i=1其中μi（X）（σ2（X））是syn的均值（方差）对于[2]，如果残差块具有小于1个Lip-schitz常数和相同的输入-输出维度（即，i2Rd→Rd）.我们发现后者并不适用于所有的类-尺寸大小的图像在第（i）层中起作用，而µi（σi）是BN层中存储的运行均值（方差）。注意，我们可以将MSE损失替换为Kullback-Leibler di。[15]如《易经》中所言此外，可以对X施加图像先验损失以确保图像通常是平滑的。在[15]中，先验损失被定义为X与其高斯模糊版本ε（X）之间的MSE。在这项工作中，我们使用[50]中定义的先验损失：Lprior（X）= TV（X）+λ 22（X），它是方差和范数正则化的和。结合这三种损失，最终的最小化目标输入图像，由A4413∈∈×对于ImageNet分类任务，标签维度为Y [0，1]1000，输入维度为X R224×224×3。这种维度差异可以产生用于图像反演的巨大解空间让我们考虑平均池化层的示例：示例3.1考虑22AvgPool层〇=W/T/V，其中V/R/4和W=[0. 25，0。25，0。25，0。25]是输入向量和权重向量。该AvgPool层是不可逆的，因为给定输出o，具有与o相同的均值的任何输入将满足条件。4414H×∈ HHHM {}1FM1Mni=1W高斯初始化优化图像图3.优化图像的交叉熵损失可以非常快并且下降到0，但是图像几乎没有类别特征。因此，在如此大的空间中找到精确的输入是不可行的。事实上，几乎每个CNN在最终的全连接层之前都有一个7 × 7的AvgPool层。为了可视化这一点，我们使用LCE（X）和L先验（X）优化了4个图像，并在图中绘制了训练曲线。3.很明显，CE损失很容易优化，但我们不能反转包含丰富类别信息的真实图像。4. 方法在本节中，我们介绍了所提出的MixMix算法，该算法可以提高数据集的泛化性和可逆性。4.1. 特征混合在深入研究所提出的算法之前，我们想讨论比较来自两个概率分布的样本的一般问题。这个问题在许多领域都有很大的兴趣，例如生物信息学，其中评估两在图像合成的情况下，我们还需要评估生成的图像是否保持高保真度。形式上，给定两个分布p和q及其随机定义在拓扑空间X上的变量和观测MMD理论和BN统计损失。详细推导见附录。1. 设H是再生核希尔伯特空间（RKHS），当我们将F设为H时，平方MMD由下式给出。MMD2[H ， X ， Z]=||µp− µq||2 ，（5）其中μ p称为p的平均嵌入。我们可以使用CNN的特征提取器及其特征图来定义再现核。因此，BN层中的运行平均值和方差2可以被处理为：的均值嵌入因此，优化LBN等同于最小化真实图像与合成图像之间的MMD2。2. [13，定理5]指出，用于特征提取的核k必须是泛3，使得当且仅当p=q时，我们具有MMD2[，X，Z]= 0。这两个结果表明，如果神经网络是单向的，则神经网络的收敛性是很好的。versal和合成图像的LBN 但事实证明，很少有神经网络是通用的，并且只能用于极深或极宽的神经网络[31，33]。节中3.2，我们表明不同的CNN具有不同的特征统计量。而且从一个模型生成的数据很难被转移到另一个模型。这一经验证据进一步说明了一个模型缺乏普遍性。因此，我们提出了特征混合，它收集模型动物园中的知识，旨在平均每个个体产生的特征偏差。我们期望预训练模型的聚集可以提高其相应RKHS的通用性。为了证明混合特征可以提高通用性，我们有以下定理：定理4.2假设有m个神经网络，ReLU激活函数（Ai：Xd-R）。然后，av-（X ={x，. . . ，x}，Z ={z，. . . ，z}），它们是独立的。扩展模型1Σm如果m≥ceil（d+1），则A i是univere rsal，独立同分布（i.i.d.）从p和q，我们能找到一些方法来确定p是否=q吗？在[9，引理9.3.2]中，这个问题被定义为引理4.1（[9]）设（X，d）是度量空间，p，q是定义在X上的两个Borel概率测度。则p=q当且仅当Ex<$p（f（x））=E z<$q（f（z））对于所有f∈ C（X），其中C（X）是X上有界连续函数空间.然而，在有限设置中评估所有f∈C（X）是其中w是平均宽度。证据见附录。虽然满足最终的普遍性可能需要一个大的m，我们antici- pate增加混合的特征的数量可以提高质量以及生成的数据的概括性。为此，我们将展示如何在合成过程中应用特征混合。考虑一个预训练的模型动物园=A1，A2，. . . ，A m，特征混合旨在优化：1ΣM i=1MMD[，X，Z]=sup（Ef∈FX轴 [f（x）]−Ezq [f（z）]），⑷注意，我们还在X上添加了先验损失。然而，假设每个模型Ai的大小相同，则训练记忆2方差可以在核的二阶空间中定义其中，F是一类远小于C（X）。我们将直接给出两个相关的结果3泛H是指，对任意给定的∈> 0且f ∈ C（X），存在一个g∈ H使得最大范数||f − g||<∞.M不实际。幸运的是，Grettonet al. [13]提出的最大平均差异可表示为：minX（λ1LCE（X，A i）+ λ2LBN（X，A i））。（六）4415≤·××L0否则RD1ˆ2ˆ34简体中文并且通过我们混合的特征的数量来线性地缩放计算因此，我们添加了一个超参数m′m，它将决定每批数据将从模型动物园中采样多少个模型。在实验中将研究m′的影响另一个问题是如何选择模型族，我们期望不同的体系结构族包含不同的特征统计量，因此我们在模型中选择尽可能多的模型族高斯初始化图像优化图像动物园4.2. 数据混合图像合成中的另一个问题是神经网络中的某些层或块会导致不精确的反演，如我们在第2节中所述。三点三在本节中，我们展示了我们可以通过数据混合来缓解这个问题。将两个图像标签对表示为（X1，Y1）和（X2，Y2），我们首先运行-生成二元掩码α∈ {0，1}w×h。这是一个-图4.使用数据混合训练图像。算法一：MixMix数据合成输入：预训练模型zoo，子集大小m’初始化随机标签Yi，随机选取m′个模型;对于所有的t = 1，2，. . . ，T-迭代做生成掩码和混合数据特征;对于所有j = 1，2，. . . ，第m个预训练模型AJ如果位于do中，则此掩码中的段将设置为1边界框： .1如果x≤i≤x且y≤j≤y计算BN统计量损失LBN（X，µj，σj）;计算混合CE损失LCE（Aj（X））;计算图像先验损失L先验（Xi）;其中xl、xr、yd、yu是盒子的左、右、下、上边界框的中心坐标可以由（xl+xr，yd+yu）计算。有了这个二进制掩码，我们降低最终损失目标并更新X返回MixMix数据X2 2可以混合数据的特征，由下式给出现在假设一个混合输入V=[V1，V2，V3，V4]和输出X=（1−α）X1+αg（X2）。（八）o=0，其中V中的前两个元素来自另一个输入图像。然后我们可以得到以下关系：这里g（）是一个线性插值函数，它可以将图像的大小调整到与边界框相同的大小混合数据Xw包含来自两个图像的信息，因此我们.V+V +V+V=4V3+V4=4=V1=0（十一）+V 2+V2LCE（X）=（1−β）LCE（X，Y1）+βLCE（X，Y2）（9）其中β被计算为边界框面积与图像面积的比率。数据混合的灵感来自于基于混合的数据增强的他们使用混合数据和标签来训练具有更强区分能力的模型。事实上，这种增强技术在我们的范围内也是有帮助的，通过生成鲁棒的特征，这些特征在混合时仍然是有区别的。此外，在这项工作中，数据混合也被用来减少不精确的反演解的神经网络。回到示例3.1，对于每次迭代t，我们必须满足mean（Vt）=ot，其中输入和输出-put的混合方式不同，因此更多的限制反相输入时添加我们也举一个例子来说明这一点：示例4.3在形成物讨论中考虑相同的2 2AvgPool层。如果o=1，则有V1+ V2+ V3+ V4= 4。（十）αij=u，V1+V2+V3+V4= 0混合标签，使CE损失变为=-44416我们可以看到，数据混合可以帮助图像反演，因为方程中的解空间。(11)比Eq小得多。（十）、我们还可视化的数据特征混合使用CE和先前的损失图像生成。训练曲线以及优化的图像如图所示。4.值得注意的是，如果我们混合数据特征，则在优化的图像中存在一些基本形状或纹理。与特征混合一起，我们在算法1中形式化了5. 实验我们在CIFAR 10和Im-ageNet数据集上进行了实验。我们将特征混合的子集大小设置为m′=3，除非我们提到它。我们选择21个模型在我们的预训练模型动物园中，包括ResNet，RegNet，MobileNetV 2，MobileNetV3 ， MNasNet ， VGG ， SE-Net ，DenseNet ，ShuffleNetV 2 [16， 42，44 ，19， 47，46，34，21，22]，等详细描述见附录。对用于数据混合的边界框的宽度和高度进行采样4417从均匀分布。我们使用Adam [25]优化器来优化图像。大多数超参数和实现与[50]对齐，例如更新后的多分辨率训练管道和图像剪辑。我们优化了5k迭代的图像，并使用0.25接着是余弦衰减时间表。为了确定λ，我们将其设置为可学习的，并通过梯度下降对其进行优化，细节可以在附录中找到。训练1024个MixMix图像需要在8个1080TI上大约2小时。5.1. 合成图像我们在图中给出了一些定性评价。5.值得注意的是，MixMix数据保持高保真度并且类似于真实图像。为了测试合成图像的通用性，我们报告了模型动物园中21个不同模型的平均分类准确度（以及标准差）。我们还报告了初始评分（IS）[43]以评估图像质量。表2. 21个不同的模型和合成图像的初始得分（IS）度量的分类精度进行了评估。方法大小平均Acc.是DeepDream-R50[37] 224 24.9±8.23 6.2DeepInversion-R50[50] 224 85.96±5.80 60.6BigGAN [3]256不适用178.0萨根[53]12852.5不适用混合22496.95± 1.5392.9从表2中可以注意到，特定于模型的数据（来自ResNet-50）具有较低的平均准确度。所提出的MixMix数据达到接近97%的平均准确度和最稳定的结果。这意味着我们生成的图像具有所有模型都可以识别的明显的类特征。因此，我们可以安全地将其用于所有无数据应用程序和任何架构。我们还与一些基于GAN的图像合成方法进行了比较，其中MixMix可以实现相当的Inception Score。5.2. 无数据量化在本节中，我们利用MixMix生成的图像在ImageNet上进行训练后量化（PTQ）和量化感知训练（QAT）在这里，我们采用两种最先进的PTQ和QAT方法，即BRECQ [28]和LSQ [10]。训练后量化[28]使用块输出重建来优化权重量化和激活量化范围的舍入策略。我们使用1024张图像，批量大小为32，以优化量化模型。每个块通过20k次迭代来优化。我们将ZeroQ [4]和内部知识[15]进行图5.由21个不同模型合成的示例图像（拉贝尔：背包、overskirt、黄貂鱼、母鸡、贡多拉、海葵、白鹳、诺维奇梗、哈士奇、独木舟、栏杆、瓦罐、烧杯、叶猴、教堂、灯塔）。（本文中缩写为 KW ） ResNet-50 ， MobileNet-b（MobileNetV 1 [20]的修改版本，在深度卷积层之后没有BN和ReLU），MobileNetV 2和MNasNet上的数据。为了公平地比较结果，我们将ZeroQ和KW实现为相同的预训练模型，并应用相同的量化算法。结果如表3所示。对于ResNet-50 4位量化，MixMix数据具有与真实图像相当的结果（仅0.14%的准确度下降）。当权重的位宽下降到2时，量化变得更加积极，需要高保真数据进行校准。在这种情况下，MixMix仍然实现了现有方法中的最低降级接下来，我们在三个移动平台网络上验证无数据量化，这三个移动平台网络在压缩方面面临更高的性能退化风险可以看出，即使使用真实图像，轻量级网络上的4位量化通常也会具有高得多的精度损失然而，MixMix数据仍然达到接近原点的结果。例如，ZeroQ和KW在MobileNetV2上的准确率分别仅为49.83%和59.81%。而MixMix可以将性能提高到64.01%。量化感知训练QAT旨在恢复量化神经网络在低比特场景中的性能。在这项工作中，我们利用最先进的QAT基线：学习步长量化[10]。在QAT中，采用直通估计器（STE）来计算潜在权重的梯度在LSQ的情况4418表3. PTQ上ImageNet top-1准确度比较表4.ImageNet在QAT上的top-1精度比较ResNet-50四分之四四分之四[15]混合74.0574.58FP：77.00FP：77.00四分之二训练数据68.87四分之二ZeroQ [4]64.16MobileNetV2四分之二[15]57.74FP：72.49四分之二混合66.49MobileNetV2FP：72.49MNasNetFP：73.524 / 4训练数据64.614 / 4 ZeroQ [4] 49.834 / 4 KW [15] 59.814 / 4 MixMix64.014 / 4训练数据58.864 / 4 ZeroQ [4] 52.044 / 4 KW [15] 55.484 / 4混合混合57.87表5.ImageNet top-1精确度比较 UP和SP分别指非结构化和结构化修剪。模型数据源UP Acc.SP Acc.STE还用于估计量化步长的梯度。注意，我们的QAT使用每层量化，这比PTQ中使用的每通道量化更具挑战性。我们合成了100k张图像，并使用128的批量大小来微调量化神经网络。在QAT过程中，全精度模型作为老师，我们使用温度τ=3的KL损失作为标准。我们还结合了[15]中提出的中间特征损失。我们对量化模型进行了44000步的微调，在8个1080TI上只需要3个小时就可以完成微调。我们在ResNet-50和MobileNetV 2上执行W 4A 4量化感知训练。此外，W2 A4量化应用于ResNet-50。结果见表4。请注意，真实的训练数据集只包含10万张图像。在W4A4中，我们显示MixMix数据集与自然图像相比仅降低了2.6%的准确性。在W2A4量化中，合成图像与自然图像之间的差距较大。我们比较了现有的工作，KW [15]，其中我们的MixMix可以在4位MobileNetV2中恢复1.7%的准确度。5.3. 无数据剪枝另一个重要的压缩技术是网络修剪。在本节中，我们使用L1范数幅度度量来验证非结构化修剪[14]和结构化通道修剪[17]对于非结构化和结构化修剪，修剪比率（或稀疏度）被设置为0.5和0.2。我们还使用1024幅图像来重建输出的特征图在[17]中所做的修剪。我们主要比较DeepIn版本[50]作为基线方法。表5总结了结果，其中基线仍然在真实图像之间产生大的间隙从数量上看，在稀疏ResNet-50上，MixMix比DeepInversion高出近4%。我们发现修剪的困难情况是MobileNetV2和MNasNet，特别是在进行信道修剪时。在这些情况下，MixMix的改进更加明显， MobileNetV2 上的绝对准确率提高了 27% ，MNasNet上提高了21%。5.4. 无数据知识蒸馏在本节中，我们执行知识蒸馏以验证MixMix。由于重复性问题，我们检索DAFL [5]的代码作为我们的代码库，以在CIFAR10上进行实验。我们在GAN训练期间添加MixMix训练对象。参见附录中KD实验设置的详细描述。在这里，我们比较了DeepInversion [50]和DAFL [5]作为我们的基线方法。结果示于表7中。我们可以看到，当提取VGG11来学习VGG11时，我们的MixMix比DeepInversion高3%。与原始DAFL相比，我模型位（W/A）数据源Top-1 Acc.模型位（W/A）数据源Top-1 Acc.四分之四训练数据74.72四分之四训练数据76.09四分之四ZeroQ [4]73.73ResNet-50四分之四混合73.39四分之二训练数据70.20四分之二混合64.60四分之四训练数据68.50四分之四训练数据66.11MobileNet-b四分之四ZeroQ [4]55.93FP：74.53四分之四[15]61.94ResNet-50训练数据76.5370.95FP：77.00DeepInversion [50]71.5865.07混合75.4169.80MobileNet-b培训数据72.9648.38FP：74.53DeepInversion [50]70.5640.62混合70.6444.82MobileNetV2训练数据68.9645.24FP：72.49DeepInversion [50]47.0815.32混合66.7442.47MNasNet训练数据70.4347.81FP：73.52DeepInversion [50]57.4222.62混合67.9843.414419们的方法也提高了2.5%。4420表6.通过交叉验证的可推广性研究。我们将训练后量化应用于目标模型，并将其量化为W4A4（EfficientNet除外，它是W4A8）。MixMix数据只需要一次合成，并且可以推广到所有模型。目标模型源数据ResNet-18*ResNet-50MobileNet-b*MobileNetV2MNasNet高效B0 *KW-ResNet-1869.0873.8461.0659.7953.1267.67KW-ResNet-5067.3474.0561.0757.3147.5768.33KW-MobileNet-b68.2872.8361.9553.0450.0258.84KW-MobileNetV263.5870.2060.8159.8154.0868.59KW-MNasNet66.0371.4554.8659.0355.4868.15KW-EfficientNetB065.8771.3446.2860.4742.8469.59混合69.4674.5865.3864.0157.8770.59训练集69.5274.7266.1164.6358.8670.64* 这些模型是从我们的预训练模型动物园中排除的，因此它们可以测试MixMix数据的泛化能力表7. CIFAR10无数据知识蒸馏比较。教师VGG 11 VGG 11 ResNet-34学生VGG 11 ResNet-18ResNet-18教师94.3194.31DeepInversion 90.78 90.36 93.26DAFL（原始）- -- -92.22DAFL（+MixMix）93.97 91.57 94.795.5. 概化研究在本节中，我们将验证MixMix数据的可推广性和可转移性。我们认为这是最佳合成数据的一个基本属性，因为无论模型是什么，真实图像都表现良好。我们进行交叉验证，即使用从单个模型反演的数据来验证多模型压缩。我们进行4位后训练量化，并使用1024个合成图像。目标测试模型包括ResNet- 18、ResNet-50 、 MobileNet-b 、 MobileNet-V2 、 MNasNet 和EfficientNetB 0。请注意，ResNet-18，MobileNet-b，Effi-cientB 0在我们的预训练模型动物园中没有使用，因此它们的压缩性能是数据泛化能力的有效评估。作为基线，我们实现KW[15]来为测试模型生成图像因此，它充分地提取了准备压缩的模型内部的信息。结果总结于表6中。特定于模型的数据的一般规则是其良好性能受限于原始模型压缩。以ResNet-50为例，原始模型合成的数据达到了74.05%的性能，高于其他模型合成的数据。然而，ResNet-50数据在ResNet-18量化方面仍比ResNet-18数据低2.6%。来自该表的证据证明了我们的猜想，即当从一个特定模型合成时，不能消除特征偏差。相比之下，MixMix数据保持了高度的泛化能力，并且适用于所有模型，即使它们没有在预训练的模型动物园中使用。表8. ResNet-50上的ImageNet剪枝，在生成数据时给定不同的策略。方法Acc.方法Acc.FMix （ m′=1 ） 64.46 FMix （ m′=1 ） +DMix68.16 FMix （ m′=2 ） 68.87 FMix （ m′=2 ）+DMix69.29FMix （ m′=3 ） 69.49FMix（ m′=3 ） +DMix 69.80 FMix （ m′=4 ） 69.54FMix（m′=4）+DMix 69.475.6. 消融研究在本节中，我们研究了特征混合（表示为FMix）和数据混合（表示为DMix）的设计选择。我们验证了我们混合的功能的数量和DMix在图像合成过程中的使用。我们在ResNet-50结构化剪枝上进行了测试。表8给出了消融实验的结果。我们可以发现，较大的m′有助于提高压缩的图像质量然而，当m′大于3时，我们没有获得显著的精度提高对于DMix，我们发现它可以不断提高图像合成的性能。然而，当m′=4时，改进也是微不足道的。该结果可以通过更多的超参数调整来改善。尽管如此，MixMix的有效性仍然很明显，在这项工作中，我们主要使用m′=3与DMix合成数据，考虑到合成时间。6. 结论在这项工作中，我们发现两个缺陷，具体模型的反演方法，即不充分的一般化和不精确的反演过程。提出的MixMix算法改进了现有的方法，通过杠杆老化的知识收集的模型和数据混合，ING。MixMix算法是一种有效的算法，它只需要一次综合就可以推广任何模型。实验结果表明，MixMix建立了一个新的国家的最先进的无数据压缩。致谢本工作得到了国家自然科学基金GP61876032的资助。4421引用[1] Ron Banner，Yury Nahshan，and Daniel Soudry.后训练4位量化的卷积网络，用于快速部署.在神经信息处理系统的进展，2019。[2] JensBehrmann、Will Grathwohl、Ricky TQ Chen、DavidDu-venaud和J？ rn-HenrikJacobsen。无形的剩余网络。国际机器学习会议，第573-582页。PMLR，2019年。[3] 安德鲁·布洛克杰夫·多纳休凯伦·西蒙尼安用于高保真自然图像合成的大规模gan训练。arXiv预印本arXiv：1809.11096，2018。[4] 蔡耀辉，姚哲伟，董震，阿米尔·戈拉米，迈克尔·W·马奥尼和库尔特·库茨。Zeroq：一种新颖的零拍量化框架。在IEEE/CVF计算机视觉和模式识别会议论文集，第13169-13178页[5] Hanting Chen ， Yunhe Wang ， Chang Xu ， ZhaohuiYang，Chuanjian Liu，Boxin Shi，Chunjing Xu，ChaoXu，and Qi Tian.学生网络的无数据学习。在IEEE计算机视觉国际会议论文集，第3514-3522页，2019年[6] Yoojin Choi ， Jihwan Choi ， Mostafa El-Khamy ， andJungwon Lee. 无数据网络量化与对抗知识蒸馏。在IEEE/CVF计算机视觉和模式识别研讨会论文集，第710-711页[7] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。2009年IEEE计算机视觉和模式识别会议，第248-255页。Ieee，2009年。[8] Xin Dong，Shangyu Chen，and Sinno Pan.学习通过逐层优化脑外科医生修剪深度神经网络在神经信息处理系统的进展，2017年。[9] 理查德·达德利真实分析和概率。CRC Press，2018.[10] 史蒂文·K杰弗里·埃塞尔McKinstry、Deepika Bablani、Rathinakumar Appuswamy和Dharmendra S.莫达已学习步长量化。在2020年国际学习代表会议上[11] Gongfan Fang ， Jie Song ， Chengchao Shen ， XinchaoWang，Da Chen，and Mingli Song.无数据对抗蒸馏。CoRR，abs/1912.11006，2019。[12] Ruihao Gong ， Xianglong Liu ， Shenghu Jiang ，Tianxiang Li，Peng Hu，Jiazhen Lin，Fengwei Yu，andJunjie Yan.可区分的软量化：桥接全精度和低位神经网络。arXiv预印本arXiv：1908.05033，2019。[13] ArthurGretton，Karsten M Borgwardt，Malte J Rasch，Bern-hardSchoülk opf，andAl e xanderSmola. 一个核双样本检验。The Journal of Machine Learning Research，13（1）：723[14] Song Han，Huizi Mao，and William J Dally.深度压缩：使用修剪、训练量化和霍夫曼编码压缩深度神经网络。arXiv预印本arXiv：1510.00149，2015。[15] Matan Haroush，Itay Hubara，Elad Hoffer，and DanielSoudry. 其中的知识：无数据模型压缩方法。在IEEE/CVF计算机视觉和模式识别会议论文集，第8494-8502页[16] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vis

下载后可阅读完整内容，剩余1页未读，立即下载