知识蒸馏:实例同余、相关同余、知识提取和CCKD

164 浏览量更新于2023-10-12 收藏 1.1MB PDF 举报

知识蒸馏

知识提取

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

5007老师学生：实例同余学生：相关同余知识提取彭宝云1人，肖金2人，刘家恒3人，李东升1人，吴毅超2人，刘宇4人，周顺风2人，张兆宁1人1国防科技大学，2商汤集团有限公司，3北京航空航天大学、4香港中文大学{pengbaoyun13，dsli}@nudt.edu.cnom{jinxiaocuhk，zzningxp}@ gmail.com{zhoushunfeng，wuyichao}@ sensetime.comliujiaheng@buaa.edu.cnyuliu@ee.cuhk.edu.hk摘要大多数基于知识蒸馏的师生框架依赖于实例级的强同余约束。然而，它们通常忽略了多个实例之间的本文提出了一种新的知识表示框架CCKD，它不仅传递实例级的信息，而且传递实例之间的相关性。此外，为了更好地捕捉实例间在图像分类任务（包括CIFAR-100，ImageNet-1 K）和度量学习任务（包括ReID和Face Recognition）上的实验和消融研究表明，所提出的CCKD显著优于原始KD和其他基于SOTACCKD可以很容易地部署在大多数师生框架中，如KD和基于提示的学习方法。1. 介绍在过去的几十年里，各种深度神经网络（DNN）模型在许多视觉任务中取得了最先进的性能[28，29，8]。通常，当在相同的数据集上训练时，具有许多参数和计算的网络的性能优于具有较少参数和计算的然而，随着对运行在嵌入式系统上的低成本网络的需求不断增加，迫切需要获得一个计算量和内存消耗较少的小型网络，同时缩小性能差距。*同等缴款。[2]这项工作是在彭宝云（Baoyun Peng）在商汤科技实习时完成的。‡通讯作者。一个小网络和一个大网络。图1：实例全等和相关全等之间的区别。当只关注实例一致性时，学生实例之间的相关性可能与教师实例之间的相关性相差很大，CCKD通过在知识传递过程中增加一个相关同余来解决这个问题。已经提出了几种技术来解决这个问题，例如：参数修剪和共享[11，24]，压缩卷积滤波器[38，16]，低秩因子分解[18，6]和知识蒸馏[15]。在这些方法中，知识蒸馏已被证明是一种有效的方法，通过模仿一个高容量网络的行为，以提高一个小网络的性能。它通过为每个输入实例在教师和学生的输出上添加强一致约束来激励学生模仿教师最小化预测的KullbackLeibler发散[15]或最小化教师和学生之间特征表示的欧几里得距离[21]。5008然而，通过只关注实例一致性，学生将从老师那里学到更多不同的实例相关性，如图1所示通常，教师的嵌入空间具有类内实例凝聚而类间实例分离的特征而用实例一致性训练的学生模型则缺乏这种特性。我们认为，除了实例一致性之外，实例之间的相似性也是促进学生成绩的有价值的知识。基于这一哲学思想，我们提出了一个新的知识提取框架--相关一致性知识提取（CCKD），它不仅关注实例一致性，而且关注相关一致性。CCKD旨在将实例之间的相关性知识传递给学生，如图1所示，并且可以使用mini-batch轻松实现和训练。CCKD的唯一要求是教师和学生的维度应该相同。为了解决教师网络和学生网络的特征表示不匹配的问题，我们为教师网络和学生网络应用了一个具有相同维度的全连接层。我们在四个代表性任务和不同的网络上进行了各种实验，以验证所提出的方法的有效性。我们在本文中的贡献总结如下：1. 本文提出了一个新的知识提取框架--相关一致性知识提取（CCKD），它不仅关注实例一致性，而且关注相关一致性。2. 我们引入了一种通用的基于内核的方法，以更好地捕获小批量实例之间的相关性。我们已经评估和分析了不同的相关性度量对不同任务的影响。3. 我们探索不同的采样器策略的小批量训练，以进一步提高相关的知识转移。大量的实证实验和消融研究表明，所提出的方法在不同的任务（CIFAR-100，ImageNet-1 K，人员重新识别和人脸识别），以提高蒸馏性能的有效性。2. 相关工作由于本文的重点是训练一个小而高性能的网络，基于知识蒸馏，我们讨论了模型压缩和加速，知识蒸馏在这一部分的相关工作。在这两个领域，在过去几年中提出了各种方法。我们总结如下。模型压缩和加速。模型压缩和加速的目的是创建一个具有较少计算和参数开销的网络，同时保持高性能。由于原始卷积网络中存在大量冗余参数，因此设计一个轻量级但功能强大的网络是一条捷径。例如，在[16]中用深度可分卷积代替标准卷积.在[38]中，提出了逐点群卷积和另一种方法是网络修剪，它通过基于某些标准修剪重要性较低的神经元或过滤器来提高推理速度[11，24]。在[18，6]中，通过低秩分解来分解权重以节省内存成本。量化试图使用低精度位来存储模型知识蒸馏。将知识从复杂网络转移到小型网络是一个经典问题，近年来引起了人们的广泛关注。在[15]中，Hintonet al.提出知识蒸馏（KD），其中学生网络由教师网络的集合的软输出来训练。与单热标签相比，表现良好的教师网络的输出包含更多关于数据之间细粒度结构的信息，从而帮助学生实现更好的从那时起，就有了探索知识蒸馏变体的作品。在[2]中，Ba和Caru-ana指出，用KD训练的较浅和较宽的网络的性能可以接近较深的网络。罗梅罗等人[25]提出了不仅使用最终输出，而且使用中间输出来传递知识，并在中间层上添加一个回归变量来匹配教师和学生输出的不同大小。在[37]中，作者提出了一种基于注意力的方法来匹配基于激活和基于梯度的空间注意力图。在[36]中，通过计算跨层特征的Gram矩阵生成的解决方案流程（ FSP ）为了提高学生的鲁棒性， Sau 和Balasubramanian [27]将教师的log- its作为正则化进行扰动。与上述离线训练方法不同，多个作品采用协同训练策略。深度相互学习[39]通过相互学习来协作地对同行学生模型进行蒸馏。Anil等人[1]通过多个网络的在线蒸馏进一步扩展该思想。在他们的工作中，网络是并行训练的，并且通过使用蒸馏损失来加速训练过程来共享知识此外，一些作品利用对抗方法来建模教师和学生之间的知识转移[35，13，14]。在[35]中，他们采用了生成对抗网。5009τ作品结合蒸馏，以更好地调整教师和学生之间的分布在嵌入空间。Byeongho等人[14]采用对抗方法发现支持决策边界的对抗样本。本文在实例知识的基础上，将实例间嵌入空间中的相关性作为有价值的知识，将实例间嵌入空间中的相关性进行传递，实现知识的提炼。3. CCKD3.1. 背景和注释我们将一个性能良好的教师网络与参数W t称为T，并将一个新的学生网络与参数W s称为S，如[15，37，36，1，25]中所示。网络的输入数据集记为X={x1，x2，.，n}，且相应的响应地面实况记为Y={y1，y2，...，yn}，n表示数据集中的样本数自深网-功可以看作是由多个非线性层叠加而成的映射函数，记为φt（x;Wt）和φs（x;Ws）由于教师和学生之间的差距（在能力上），轻量级学生很难通过实例一致性从繁琐的教师那里学习相同的映射函数。我们认为实例之间的相关性对于分类也是至关重要的，因为它直接反映了教师如何在嵌入特征空间中对不同实例的结构进行3.3. 相关同余在这一节中，我们详细介绍了相关一致性知识与以往的方法不同，CCKD不仅考虑了实例级一致性，而且考虑了实例间的相关一致性图2显示了CCKD的概述。CCKD由两部分组成：实例一致性（教师和学生预测的KL分歧）和相关一致性。设Ft和Fs分别表示教师和学生的特征表示集. t tt tFt=矩阵f1，f2，.，fn，作为教师和学生的映射函数，x表示.sss s（三）发送输入数据。 fs和ft分别代表教师和学生的特征表征。教师和学生的logit记为zt=φ（x;Ws）和zs=φ（x;Wt）。pt=softmax（zt）和ps=softmax（zs）分别代表教师和学生的最终预测概率3.2.知识蒸馏过参数化网络已经显示出强大的优化特性，可以从数据中学习所需的映射函数[7]，其输出反映了one-hot标签可能会忽略的细粒度结构基于这一认识，知识蒸馏首先在[3]中提出用于模型压缩，然后Hinton等人在[4]中提出用于模型压缩。[15]普及了它。知识蒸馏的想法是让学生通过使用KL散度在预测[3，15，25]上添加强一致约束来模仿教师的行为1ΣnFs=矩阵f1，f2，.， fn.特征f可以被看作是嵌入特征空间中的一个点不失一般性，如下引入映射函数：F→C ∈ Rn×n。（四）其中C是相关矩阵。C中的每个元素表示嵌入空间中xi和xj之间的相关性，其定义为：Cij=<$（fi，fj），Cij∈R（5）函数fx可以是任何相关性度量，我们将在下一节中介绍三个度量来捕获实例之间的相关性。然后，相关性一致性可以公式化为：L=τ2KL（pτ，pτ），（1）KDnS ti=112LCC=n2（Ft）−（Fs）2其中τ是弛豫超参数（称为tem-1），[15]中的温度）来软化教师网络的输出，pτ=softmax（z）。在一些作品[30，21]中，KL发散被欧几里得距离取代=1<$（<$（f s，f s）−<$（f t，f t））2. n2 ijiji、j（六）1ΣnL模拟=i=12f s-f t（二）然后，CCKD的优化目标是最小化以下损失函数：LCCKD=αLCE+（1−α）LKD+βLCC，（7）不考虑最终预测的全等约束[15]、特征表示[30]或隐藏层的激活[25]，这些方法只关注实例聚集而忽略实例之间的相关性由于其中LCE是交叉熵损失，α和β是平衡关联同余和距离同余的两个超参数。n5010我我1Σx−2δ2pij教师网络KDKDKDKD图像样本学生网络实例同余CCDK相关同余图2：知识蒸馏相关一致性的总体框架（T：教师;S：教师;fT：教师 CCKD的目标不仅是实例一致性，而且是多个实例之间的相关一致性。3.4. 广义核相关捕获实例之间的复杂相关性并不容易，因为嵌入的确认每个元素[k（F，F）]ij编码F中第i个和第j个特征之间的成对相关性。我们以高斯RBF核函数为例，空间[31]。在本节中，我们将介绍内核技巧来cap.实现特征空间中实例之间的高阶相关性[k（F，F）] ij=exp（−γ<$FiΣP2- （f）（2γ）p宾馆（9）设x，y∈n表示特征空间中的两个实例，我们引入不同的映射函数k：n×n→≈p=0exp（−2γ）p！（Fi··Fj·）。R作为相关性度量，包括：.1. 朴素MMD：k（x，y）=. n1Σ伊伊恩.我是我。;其中γ是可调参数。3.5. 小型批量取样器2. Bilinear Pool：k（x，y）=x·y;23. 高斯径向基函数：k（x，y）=exp（−x−y<$2）;MMD可以反映均值嵌入之间的距离。双线性池[22]可以被视为一个朴素的二阶函数，其中两个实例之间的相关性通过逐元素点积计算。高斯RBF是一种常见的核函数，其值仅取决于与原始空间的欧氏距离。与朴素MMD和Bilinear Pool相比，Gaussian RBF在捕捉实例间复杂的非线性关系方面更加灵活和强大。基于高斯RBF，相关映射函数φ可以通过核函数K计算：F×F∈Rn×n，其中每个元素可以计算为由于实例之间的相关性是在小批量中计算的，因此适当的采样器对于平衡类内和类间的相关一致性是重要的。一个简单的策略是均匀随机采样器（UR采样器），这将导致这样的情况，所有的例子来自不同的类时，类数很大。UR-采样器虽然是对实例同余真值梯度的无偏估计，但会导致类内相关梯度的有偏估计。为了平衡类内和类间的相关一致性，我们提出了两种小批量采样器策略：类均匀随机抽样器（CUR-sampler）和超类均匀随机抽样器（SUR-sampler）。CUR-采样器按类采样，并为每个采样类随机选择固定k个样本（例如，每批由6个班级组成，每个班级包含k= 8个考试-[k（F，F）]ijΣPp=0α（F·F）P.（八）形成48个批量）。SUR采样器与CUR-sampler类似，但不同之处在于它通过超类（生成它可以用P阶泰勒级数来近似一旦指定了核函数，则系数αp也是通过集群。为了得到训练样本的超类，我们首先使用教师模型提取特征，然后使用5011聚类的K均值。例子的超类被定义为它所属的簇与CUR-sampler相比，SUR-sampler具有更大的灵活性和对不平衡标记的容忍度，因为超类反映了嵌入空间中物质的粗糙结构3.6. 复杂性分析和实现细节为了应对小批量训练，我们在小批量中计算相关性。公式9涉及COM-对一个大的成对矩阵b×b（b是批量大小）进行补算，每个元素用两个d维向量之间的p次点积计算的p阶在一个小批处理中，总的计算复杂度为O（pbd2），存储相关矩阵的额外空间消耗为O（b2+d2）与用于训练深度神经元的巨大参数和计算网络，相关同余的时间和计算消耗可以忽略不计。此外，由于在嵌入空间上增加了相关全等约束，因此只要求学生网络的特征维数与教师网络相同。为了解决教师和学生维数不匹配的问题，本文在教师网络和学生网络中都增加了一个定长维数的全连通层，这对其他方法影响不大。4. 实验我们在多个任务上评估了CCKD，包括图像分类任务（CIFAR-100和ImageNet-1 K）和度量学习任务（包括用于人脸识别的 MSMT 17 数据集 ReID 和MegaFace），并将其与密切相关的工作进行了比较。通过大量的实验和分析，对相关同余知识提取进行了深入的研究.4.1. 实验设置考虑到稳定的性能和效率计算，本工作选择ResNet[12]和MobileNet [26]网络在主要实验中，我们设置阶数P= 2，并在小批中计算公式9。对于CIFAR-100和ImageNet-1 K中的网络，我们添加了一个具有128-d输出的全连接层，以形成教师和学生的共享嵌入空间。超参数α被设置为零，相关一致性尺度β被设置为0.003，γ= 0。4.第一章CUR-sampler用于k= 4的所有主要实验。在CIFar-100，ImageNet-1 K和MSMT 17上，原始知识蒸馏（KD）[15]和交叉熵（CE）被选为基线。对于人脸识别，ArcFace损失[5]和L2-模拟损失[21，23]。我们将CCKD与几种最先进的蒸馏相关方法进行了比较，包括注意力转移（AT）[37]，深度互学（DML）[39]和条件对抗网络（Adv）[35]。对于注意力转移，我们按照[37]中的建议为最后两个块对于对抗训练，该算法由FC（128×64）+ BN + ReLU组成+ FC（64×2）+ Sigmoid激活层，并采用二进制交叉熵损失进行训练。培训过程在PyTorch中实现。4.2. CIFAR 100CIFAR-100[20]由32×32大小的彩色自然图像组成。CIFAR-100中有100个类，每个类包含500幅训练集图像和100幅测试集图像。我们使用标准的数据增强方案（翻转/填充/随机裁剪），该方案广泛用于该数据集，并使用通道平均值和标准偏差对输入图像进行归一化我们将学生网络的权重decay设置为1e−4，批量大小设置为64，并使用带有动量的随机梯度下降。初始学习速率被设置为0.1，并在80、120、160处除以10epoch，总共200 epoch。采用前1和前5准确度作为性能指标。表1：CIFAR-100的验证准确度结果。ResNet-110作为教师网络，ResNet-20和ResNet-14作为学生网络.为了公平比较，我们对所有方法保持相同的训练配置。方法Resnet-20 resnet-14top-1top-5top-1top-5CE68.491.366.490.3KD70.892.468.390.7DML71.292.569.191.2在71.092.468.691.1Adv70.592.168.190.6CCKD72.492.970.292.0表1总结了CIFAR-100的结果。CCKD在ResNet-20和ResNet-14上获得了72.4%和70.2%的top-1准确率，并且比KD大幅超过CE对于在线仿真DML [39]，我们与ResNet-110协作训练目标网络（ResNet-14和ResNet-20），并评估目标网络的性能。与其他SOTA方法相比，CCKD仍有显著性差异，四种蒸馏相关方法均超过原CE 2%以上，验证了师生法的有效性。4.3. 关于ImageNet 1KImageNet-1 K [4]总共包含128万张训练图像和50 K张测试图像。我们采用ResNet-50 [12]5012作为教师网络，MobileNetV2以0.5倍的带宽作为学生网络。训练图像的数据增强所有的图像都使用通道均值和标准差进行归一化。我们设定重量学生网络衰减到1e−4，批量大小为1，024（在16个TiTAN X上训练，每个具有64个批量大小），并使用动量随机梯度下降初始学习率设置为0.4，然后除以10，分别为50、80、1200.90.80.70.60.50.40.30 20 40 60 80历元(a) KL损失和培训访问1.00.80.60.40.20.0500040003000200010000CC损失w/ccCC损失（不含0 20 40 60 80历元(b) CC丢失epoch，共150 epoch。表2：ImageNet 1K上的验证精度结果教师网络是ResNet-50，学生网络是具有0.5宽度乘数的MobileNetV 2。我们为CE和其他四个学生网络保留相同的配置方法前1精度top-5精度老师75.592.7CE64.285.4KD66.787.3DML65.386.1Adv66.887.3在65.486.1CCKD67.787.7为了公平比较，我们对所有方法保持相同的配置表2总结了ImageNet 1K上的结果。CCKD获得67.7%的Top-1准确率，通过提升3.3而超过交叉熵。与原始KD[15]相比，CCKD在前1精度上超过1.0AT和DML的性能比原始KD差。据我们所知，我们还没有找到任何成功验证KD在ImageNet-1 K数据集上的有效性的作品。据报道，在工作[37]中，当学生网络的架构和深度与教师不同时，KD很难工作。但我们发现，图3：训练损失和验证精度的曲线在训练集上的网络，并对查询集和图库集执行识别。采用秩-15和平均准确精度（mAP）作为性能度量。ResNet-50 用作教师网络，ResNet-18 用作学生网络。特征表示的维度被设置为256。我们将权重衰减设置为5e−4，批量大小设置为40，并使用带动量的随机梯度下降学习率设置为0.0003，然后除以10在45，60个时期，总共90个时期。表3：MSMT17的验证准确度结果。教师网络是ResNet-50，学生网络是Resnet-18。方法预先训练的？秩-1秩-5地图老师是的66.47934.3CE没有32.449.014.2DML-1没有34.551.516.5DML-2是的50.266.425.3KD没有56.872.328.3在没有57.672.528.7Adv没有56.071.627.8CCKD没有59.774.130.7表3总结了MSMT17与CCKD的结果，以及与其他SOTA方法的比较为了公平比较，所有基于蒸馏的方法（除了采用适当的温度（[4，8]中的T），KD可以超过学生2.0%以上。4.4. MSMT17上的人员重新识别与闭集分类相比，开集分类更依赖于良好的度量学习和更现实的场景。我们将所提出的方法应用于两个开集分类：人再识别（ReID）和人脸识别。对于ReID，我们在MSMT17上评估了所提出的方法[33]。它包含了180小时的视频拍摄的12个室外摄像机，三个室内摄像机在不同的季节和时间。有126，441个边界框，标注了4，101个标识所有的边界框被分割成训练集（32621个边界框，1041个标识）、查询集（11659个边界框，3060个标识）和图库集（82161个边界框）。训练集和查询图库集之间没有标识交集我们训练DML）在没有ImageNet-1 K预训练的情况下进行训练为DML，表示了使用/不使用ImageNet-1 K预训练的结果。可以看出，CCKD的性能显著优于KD和其他基于SOTA在没有教师指导的情况下，交叉熵训练的学生只达到了14.2%的mAP，远低于KD的28.3%。图3显示了ResNet的训练损失和准确性18.可以观察到，虽然收敛后的KL发散损失几乎相同，但CCKD的相关一致性损失远低于原始KD，从而导致更高的性能。4.5. Megaface上的人脸识别结果与ReID类似，人脸识别是一种经典的方法， Ric学习问题学习有区别的嵌入式KL损失KL损失w/ccKL损失（不含培训acc w/cc培训acc w/o ccACC损失5013空间是获得强大识别模型的关键。通常，需要数千个身份（类）来训练性能良好的识别模型。经验证据表明，模仿具有基于提示的L2损失的特征层可以为小型网络带来很大的改进[21，23]。在这个实验中，我们采用L2模拟损失代替KDMS-Celeb-1 M [9]和IMDB-Face [32]被用作训练数据集。我们选择MegaFace [19]，一个非常流行的基准，作为测试集来评估所提出的方法。MegaFace的目标是在百万级的干扰者（不在测试集中的人）中评估人脸识别算法。我们采用Megaface中的1：N识别协议来评估不同的方法。在不同数量的干扰项的秩1识别率被用作评估度量。我们将权重衰减设置为5e-4，批量大小设置为1024，并使用带动量的随机梯度下降。学习率被设置为0.1，并在50、80、100个时期、总共120个时期除以10。使用ResNet-50作为教师网络，使用具有0.5宽度乘数的MobileNetV 2作为学生网络。表4：Megaface上的结果。教师网络是使用Arc- Face [5]在MsCeleb-1 M [9]和IMDb-Face [32]上训练的ResNet- 50。学生网络是MobileNetV2，宽度乘数=0.5。我们保持相同的训练配置为模仿，模仿与Adv和CCKD。方法不同干扰项ds=101d s = 102ds=103ds=104ds= 105 ds=106老师99.7699.6699.5899.4999.2398.15学生99.2096.3791.4984.4575.6065.91模仿99.6398.7397.2594.3989.6083.01模拟+高级99.6498.8097.4394.8190.5284.13CCKD99.6699.0797.9395.7691.9986.29表4显示了megaface上的结果。可以观察到，仅使用纯one-hot标签训练的ArcFace loss在1 M干扰项下达到65.91%的Rank-1 识别率。在教师指导下，采用L2-mimicial loss，学生网络达到83.01%，提升了18.1%.结果表明，只要设计适当的目标和优化目标，即使是很小的网络也可以获得性能的实质性改善。通过增加对物体之间相关性的约束，CCKD在1 M干扰物的情况下实现了86.29%的Rank-1识别率，这比模仿高出3.28%，比Adv高出2.16%[35]。4.6. 消融研究相关系数为了探讨不同的相关性度量对CCKD的影响，我们评估了三种流行的度量，即最大平均差异（MMD），双耳池和高斯RBF。我们使用二阶泰勒级数来近似高斯MMD反映了均值嵌入中实例对之间双-linear Pool用于评价实例对的相似度，采用单位矩阵作为线性矩阵。当特征归一化为单位长度时高斯径向基函数是一种常见的核函数，其值仅取决于与原始空间的欧氏距离表5：使用不同相关方法（包括MMD、双线性池和高斯RBF）对MSMT17的结果。高斯径向基函数取得了最好的效果。相关性度量秩-1秩-5地图MMD58.973.629.4双线性59.273.830.2高斯RBF59.674.030.4表5显示了具有不同相关性度量的MSMT17的结果高斯径向基函数的性能优于MMD和双线性池，而MMD性能最差。因此，在主要的实验中，我们使用的高斯径向基函数近似的二阶泰勒级数。三个关联矩阵都大大超过了原始的KD，证明了关联在知识提取中的有效性。泰勒级数的顺序。为了利用实例间高阶相关性，我们将高斯RBF分别用Tarloy级数展开到1、2、3阶。表6：不同阶数（p= 1、2、3）泰勒级数（3次运行的平均值）的MSMT17结果。展开订单秩-1秩-5地图p=159.273.730.1p=259.674.030.4P=360.174.230.6表 6 总结了在不同阶数下具有近似高斯 RBF 的MSMT17上的结果。可以观察到，3阶比1、2阶好，1阶表现最差。一般而言，将高斯型径向基函数扩展到高阶可以捕捉到更复杂的相关性，从而在知识提取方面获得更高的性能。β的影响。为了利用超参数β的影响，我们尝试了不同的β。表7显示了不同β值下的结果，从中我们可以观察到CCKD始终优于KD。不同采样器策略的影响。到为了探索一种合适的抽样策略，我们评估了均匀随机抽样器（UR-抽样器）、类均匀随机抽样器（CUR-抽样器）和超类均匀随机抽样器（SUR-抽样器）等不同抽样策略的影响。5014表7：在不同β下对MSMT17的结果。(mean 3次运行）。β（10−3）0（KD）1234510rank156.858.758.959.459.859.559.1rank572.373.974.174.474.974.774.4地图28.330.330.630.831.431.330.9MSMT17数据集。对于SUR采样器，采用k-均值，并将聚类数设置为1000以生成超类。为了公平比较，所有三种策略的批量大小都设置为40，并且我们为CUR-sampler和SUR-sampler设置不同的k= 1，2，4，8，20。表8总结了结果。可以观察到，采样器策略对性能有很大影响。SUR采样器和CUR-sampler采样器对k值都很敏感，k值在平衡类内和类间相关一致性方面起着重要作用。当给定固定的批量大小时，较大的k意味着小批量中的类数量较少。当k= 8或更大时，CUR-sampler和SUR-sampler都变差。一个可能的解释是，一个小批处理中的少量类将重新生成KD CCKD......KDCCKD在这种情况下，SUR采样器的性能优于CUR-sampler。通过选择适当的k（例如，CUR-sampler和SUR-sampler的性能均优于UR-sampler。表8：不同批次取样器策略的MSMT17结果。教师网络是ResNet-50，学生网络是ResNet-18。采样器秩-1秩-5地图UR取样器57.272.328.6CUR-sampler（k=1）57.472.428.8CUR-sampler（k=2）58.973.629.4CUR-sampler（k=4）59.774.130.2CUR-sampler（k=8）55.771.829.1CUR-sampler（k=20）24.740.910.7SUR采样器（k=1）56.272.229.4SUR采样器（k=2）58.373.929.9SUR采样器（k=4）59.675.031.1SUR采样器（k=8）56.272.229.4SUR采样器（k=20）30.147.713.74.7. 分析为了深入研究结果之外的本质，我们在可视化的基础上进行我们在MSMT17上计算类内实例和类间实例的余弦相似性，因为它是开集识别的常用度量图4显示了余弦相似度的热图。顶行显示类内实例，底行显示来自两个不同标识的类间实例。每个单元格与对应实例对之间的余弦相似性相关。5015图4：实例对之间余弦相似度的热图。顶行显示类内相似性，中间行显示两个身份之间的类间相似性。下面两行显示了更多的类内热图。(best颜色显示）可以观察到，CCKD的类内实例之间的余弦相似性总体上大于KD，这意味着嵌入空间中的类内实例的更多内聚性，尽管CCKD和KD之间在类间余弦相似性方面没有太大差异。看来CCKD可以帮助学生学习更具鉴别力的嵌入空间。而CCKD通过考虑实例之间的相关一致性，从而获得更好的性能.5. 结论本文提出了一种新的知识提取框架--相关同余知识提取（CCKD），它在传递知识时不仅考虑了实例信息为了更好地捕捉相关性，提出了一种基于核函数泰勒级数展开的通用方法为了进一步改进CCKD，提出了两种新的小批量采样策略。在四个典型任务上的实验表明，该方法可以显著提高学生网络的性能。确认这项工作得到了中国国家重点研究发展计划基金（编号：2018YFB0204300）和国家自然科学基金资助项目（编号：61872376）。5016引用[1] Rohan Anil，Gabriel Pereyra，Alexandre Passos，RobertOr- mandi，George E Dahl，and Geoffrey E Hinton.大规模分布式神经网络的在线训练. arXiv预印本arXiv：1804.03235，2018。[2] 吉米·巴和里奇·卡鲁阿纳深网真的需要深吗？神经信息处理系统的进展，第2654-2662页，2014年[3] Cristia nBuciluaˇ，RichCaruana，andAle xandruNiculescu-Mizil.模型压缩。第12届ACM SIGKDD知识发现和数据挖掘国际会议集，KDD'06，第535-541页，美国纽约州纽约市，2006年ACM。[4] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。在计算机视觉和模式识别，2009年。CVPR2009。IEEE会议，第248-255页。Ieee，2009年。[5] Jiankang Deng，Jia Guo，and Stefanos Zafeiriou. 弧面：用于深度人脸识别的附加角边缘损失2018.[6] 艾米丽·L·丹顿、沃伊切赫·扎伦巴、琼·布鲁纳、扬·勒昆和罗布·弗格斯。利用卷积网络中的线性结构神经信息处理系统的进展，第1269-1277页，2014年[7] Simon S Du ， Xiyu Zhai ， Barnabas Poczos 和 AartiSingh。梯度下降可证明优化过参数化神经网络。arXiv预印本arXiv：1810.02054，2018。[8] Ross Girshick，Jeff Donahue，Trevor Darrell和JitendraMalik。丰富的特征层次结构，用于精确的对象检测和语义分割。在 Proceedings of the IEEE conference oncomputer vision and pattern recognition，pages 580[9] Yandong Guo，Lei Zhang，Yuxiao Hu，Jongdong He，and Jianfeng Gao. Ms-celeb-1m：大规模人脸识别的数据集和基准。第87-102页[10] Song Han，Huizi Mao，and William J Dally.深度压缩：使用修剪、训练量化和霍夫曼编码压缩深度神经网络。arXiv预印本arXiv：1510.00149，2015。[11] Song Han，Jeff Pool，John Tran，and William Dally.学习权值和连接以实现高效的神经网络。神经信息处理系统的进展，第1135-1143页，2015年[12] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页[13] Byeongho Heo，Minsik Lee，Sangdoo Yun和Jin YoungChoi。通过支持对抗性样本改进知识提取. arXiv预印本arXiv：1805.05532，2018。[14] Byeongho Heo，Minsik Lee，Sangdoo Yun和Jin YoungChoi。支持决策边界的对抗样本知识提取。arXiv预印本arXiv：1805.05532，2018。[15] Geoffrey Hinton Oriol Vinyals和Jeff Dean。提取神经网络中的知识。arXiv预印本arXiv：1503.02531，2015。[16] Andrew G Howard，Menglong Zhu，Bo Chen，DmitryKalenichenko，Weijun Wang，Tobias Weyand，MarcoAn- dreetto，and Hartwig Adam. Mobilenets：用于移动视觉应用的高效卷积神经网络。arXiv预印本arXiv：1704.04861，2017。[17] Itay Hubara，Matthieu Courbariaux，Daniel Soudry，ElYaniv Ran，and Yoonge Bengio.量化神经网络：用低精度权重和激活训练神经网络。 Journal of MachineLearning Research，18，2016。[18] Max Jaderberg Andrea Vedaldi和Andrew Zisserman加速具有低秩扩展的卷积神经网络。arXiv预印本arXiv：1405.3866，2014。[19] 放大图片作者： Steven M.Seitz ， Daniel Miller ， andEvan Brossard.megeface基准：100万张人脸用于大规模识别。在Computer Vision and Pattern Recognition中，第4873-4882页[20] 亚历克斯·克列日夫斯基和杰弗里·辛顿从微小的图像中学习多层特征。技术报告，Cite- seer，2009年。[21] Quanquan Li，Shengying Jin，and Junjie Yan.模仿非常有效的网络进行对象检测。2017年IEEE计算机视觉和模式识别会议（CVPR），第7341-7349页。IEEE，2017年。[22] 林宗宇，Aruni RoyChowdhury，Subhransu Maji。用于细粒度视觉识别的双线性 cnn 模型。在 IEEEInternational Conference on Computer Vision的会议记录中，第1449-1457页[23] Zhenyao Zhu ， Ziwei Liu ， Xiaogang Wang ， XiaoouTang，et al.从神经元中提取知识的人脸模型压缩在AAAI，第3560-3566页[24] Pavlo Molchanov，Stephen Tyree，Tero Karras，TimoAila，and Jan Kautz.修剪卷积神经网络以实现资源高效推理。2016年。[25] Adriana Romero 、 Nicolas Ballas 、 Samira EbrahimiKahou 、 Antoine Chassang 、 Carlo Gatta 和 YoshuaBengio。Fitnets：薄而深的网的提示。arXiv预印本arXiv：1412.6550，2014。[26] Mark Sandler 、 Andrew Howard 、 Menglong Zhu 、Andrey Zh- moginov和Liang-Chieh Chen。Mobilenetv2：反演残差和线性瓶颈。在IEEE计算机视觉和模式识别会议论文集，第4510-4520页[27] Bharat Bhus

下载后可阅读完整内容，剩余1页未读，立即下载