自监督自蒸馏方法在无需标记数据的情况下，利用未标记的图像数据集进行模型的自监督训练，提取目标数据集的视觉表示，并通过聚类生成伪标签，使得蒸馏过程可以以无监督方式进行，且具有良好的性能

46 浏览量更新于2023-10-16 收藏 636KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

98762770自我监督自我蒸馏陈伟琪国立成功大学台湾台南iphone31302@gmail.com朱伟达国立成功大学台湾台南wtchu@gs.ncku.edu.tw摘要利用标记数据，自蒸馏（SD）已经被提出来开发紧凑但有效的模型，而无需预先获得复杂的教师模型。这种方法需要有标记的数据来指导自蒸馏过程。受自监督（SS）学习的启发，我们提出了一种自监督自蒸馏（SSSD）方法。基于未标记的图像数据集，构建了一个模型，以自监督的方式学习视觉表示然后采用这个预训练的模型来提取目标数据集的视觉表示，并通过聚类生成伪标签。伪标签引导SD过程，从而使SD能够以无监督的方式进行（根本不需要数据标签）。我们基于CIFAR-10，CIFAR-100和ImageNet-1 K数据集的评估验证了还显示了性能优于类似框架的情况。1. 介绍知识蒸馏[14]已被证明非常有效地将大型、相对复杂的教师模型的知识转移到较小的学生模型，使得轻量级学生模型可以实现与教师模型相似甚至更好的性能。通常，需要预先基于大数据集预训练的复杂教师模型然而，大规模和标记的数据集并不总是可用的，因此在所有情况下都不能满足预先训练的教师模型的要求。自我升华消除了对预先培训的教师模型的要求。一个单一的网络同时扮演教师和学生的角色。例如，Zhang et al.[27]提出，在ResNet结构中，较深的残差块可以被视为较浅块的教师，而较浅块被视为学生模型。浅层次（学生）提高了，深层次（教师）也就提高了. Yang等人[24]提出，网络（教师）早期的知识是转移的，进入后期（学生）监督培训过程。在[27]和[24]中，在自我实现过程中只需要一个网络（既充当教师又充当学生）。虽然自蒸馏（SD）技术消除了对预先训练的教师模型的要求，但仍然需要数据标签来监督训练过程。如果没有标记的数据，当前的自我升华方法就无法工作，因为没有培训教师的基础。受当前自监督学习进展的启发，在这项工作中，我们提出了自监督自蒸馏（SSSD），以基于基于借口任务预训练的模型给出的伪标签来实现SD这样，我们就可以进行无数据标签的SD，扩大SD的适用范围。具体来说，基于一个未标记的数据集Dssl，我们训练一个模型Mssl来完成实例判别任务[21]，从而构建其特征提取能力。对于用于自蒸馏的目标数据集Dtar，采用预训练模型Mssl来提取特征。然后通过K-means算法对特征进行聚类，属于同一聚类的数据点用相同的伪标签进行标记。伪标签作为引导学习的（弱）基础，从而可以进行自学习过程我们称这种方法为自监督自蒸馏（SSSD），因为在整个过程中不需要数据标签。在[1]中提出了类似的结构，其中自监督模型与自蒸馏模型共享相同的骨干网络，并且在概念上SSL和SD一起训练。[1]的主要目标是将SSL从专门设计的数据增强的限制中释放出来。SSL模型为学习提供了软标签，而SD模型进一步提供了自我监督信号以提高SSL的性能也就是说，SD用于辅助SSL。在我们的工作中，我们从相反的观点来看我们使用SSL来协助SD。我们工作的主要目标是将SD从良好标记数据的限制中解放出来。这项工作的贡献是双重的。首先，我们提出了一个自我监督的自我蒸馏方法，使SD98762771MMM即使标记良好的数据不可用。第二，我们在综合实验研究的基础上验证了这一观点本文的其余部分组织如下。秒2介绍了自监督学习和自蒸馏的文献综述。秒3提出了自监督自蒸馏方法。评价和消融研究将在第4，其次是在SEC的总结发言。五、2. 相关作品2.1. 自我监督学习自监督学习是无监督学习的一种范式。其主要概念是利用无标签数据之外或之内的自由可用信息来隐式地指导模型学习，使得模型学习通用特征。发现弱监督信息的一些典型方法包括预测图像块的位置[6]，预测图像旋转[8]和完成拼图[18]。对比学习是一种被广泛采用的自我监督学习的形式。它鼓励学习从相同输入（正对）增强的数据的相似表示，并学习从不同输入（负对）增强的数据的不同表示如何形成正/负样本以及它们的分布如何影响学习是一个关键组成部分。Wu等人。[21]制定了一个实例判别任务，以促进学习特征对个体实例的判别。Chen等人[3]表明，多个数据增强操作的组合在对比学习中至关重要。He et al. [11]将对比学习公式化为字典查找，字典是用队列和动量编码器动态构建的。通过将Simplified [3]的两个设计结合到MoCo策略[11]中，MoCo v2 [4]进一步获得性能增益。本文主要采用MoCo v2来构造一个自监督模型。更多关于自我监督学习或对比学习的文献调查可以在[15]和[16]中找到。2.2. 自蒸馏为避免复杂教师模型的要求及降低知识提炼的成本，自二零一九年起已提出自我提炼方法。基于具有不同失真的相同数据，Xu和Liu [22]提出构建单个网络来提取特征。该网络分为两个分支，分别构造两个分类器，并引导这些分类器对具有不同失真的同一数据输出相似的Zhang等人[27]提出了基于ResNet框架的自蒸馏。最深的剩余块作为老师，将知识提炼到浅的剩余块，浅的剩余块被视为学生。浅而深的经典--滤波器是基于不同残差块的输出构造的，其集成结果可以提供很好的性能。这种“成为你自己的老师”（BYOT）框架大大减少了复杂教师模型所需的培训开销。在他们的后续工作[26]中，分类器被附加了注意力模块以提高性能，并提出了一种动态推理机制在本文中，我们的SSSD主要是基于BYOT框架。自升华的概念已被用于深度度量学习[20]，图神经网络[5]和分词[13]。Gong等人[9]提出将互信息和自信息结合起来，以增加提取特征的表达性，从而提高自适应能力。虽然自我升华的有效性已经被经验观察到，但它为什么有效仍然需要研究。Mobahi等人[17]首次对自蒸馏进行了理论分析。在文献[2]中，自蒸馏隐含地将集成和知识蒸馏结合起来，以提高测试精度.更多关于知识升华和自我升华变体的研究见[10]。3. 自我监督自我蒸馏图1示出了所提出的SSSD的概述。顶部部分示出了基于未标记数据集Dpre预训练的自监督学习模型。此SSL模型用于从目标数据集Dtar中提取特征，然后将其聚类以生成每个聚类的伪标签。下半部分展示了我们利用伪标签来指导教师模型（最深块）的学习和自我升华。3.1. 自我监督学习基于未标记的数据集Dpre，我们采用MoCo v2机制[11][4]以自监督的方式训练模型ssl具体来说，在prefuse任务中，ResNet- 18或ResNet-50 [12]被用作ssl的骨干网络。随机裁剪、随机颜色抖动、随机水平翻转和随机灰度转换用于数据增强。我们遵循实例判别任务[21]，其中查询图像匹配关键图像，如果它们都是从同一个图像中得到的。给定目标数据集Dtar，预训练模型ssl从中提取特征，然后采用K-means聚类算法对这些特征进行聚类。在聚类之后，聚类到相同聚类的数据点被标记为相同的伪标签。这些伪标记为随后的自蒸馏过程提供弱的监督信号。请注意，SSL的数据集D和目标SD的数据集Dtar可以相同或不同。98762772Mi=1ΣΣM·{}M图1.概述了所提出的自监督自蒸馏。3.2. 自蒸馏3.2.1网络架构图的底部。1显示了自蒸馏方法的网络架构[27]。该模型从主干网络出发，以目标数据集Dtar为基础，以伪标签为监督信号进行自蒸馏。在下文中，我们主要以ResNet-18 [12]为主干实现自蒸馏方法。该网络按剩余块可分为四段。最深的部分（第四部分）被视为较浅部分（第一至第三部分）的老师。为了进行自蒸馏，每个部分的输出由一系列瓶颈层连接，然后是全连接层和softmax层，因此每个部分都可以被视为分类器。第一至第三分类器是基于从第四分类器提取的知识构造的。蒸馏是从三个角度指导。• 学生分类器的分类结果应该与伪标签相似。定量地，计算预测标签和伪标签之间的交叉熵。隐藏在伪标签中的弱监督知识被浅层部分隐式地利用• 学生分类器的分类结果应该与教师分类器的分类结果相似具体而言，计算学生和教师之间的KL散度度量教师分类器和学生分类器的输出分布之间的相似性• 不同的部分基于不同层次的特征图进行分类，这些特征图从不同的角度表示同一图像。可以引入最深特征图的隐式知识来改进浅部分中的特征提取。由此计算了最深剖面和各浅剖面特征图之间的L2损失3.2.2损失函数在这里，我们正式定义了上面提到的损失函数。令Θ=θi/C表示sd中的分类器，sd被划分为C个部分，因此概念上包括C个分类器。第i个class- sifier的softmax输出表示为qi，i=1，2，3，4。最深分类器的softmax输出特别表示为qC，即，q4=qC. 给定输入图像x，网络工作SD最后输出预测的标签。第一个在SEC中提到。3.2.1被定义为伪标签y=（由Mssl获得）和分类器的softmax输出之间的交叉输入y的总和3Lc=CE（qi，yi），（1）i=1其中CE（）表示交叉熵。第二项定义为KL第C个分类器的softmax输出与每个浅分类器之间的发散3Lk=KL（qi，qC），（2）i=198762773L=·MMMM其中KL（）表示KL散度。注意方程中在softmax输出和伪标签之间计算等式（1），而等式（2）中的KL散度在等式（1）中计算。（2）是在教师分类器和学生分类器的softmax输出之间计算的第三项定义为最深部分和每个浅部分之间的L2距离之和：322i=1其中Fi和FC分别表示馈送到分类器θi和θC的特征（由瓶颈层输出）。总的来说，这三项损失合并为：建议的SSSD，其中没有数据标签。其次，训练了更多epoch的SSL模型确实为SD模型提供了更准确的伪标签和更丰富的知识，因此相应的副本的准确性更高。第三，更复杂的ssl（ResNet-50）比更简单的ssl（ResNet-18）为SD模型提供更丰富的知识。4.2. 性能比较4.2.1蒸馏方案我们将所提出的方法与SEED [7]和Clus- terFit [23]进行了比较。在SEED [7]中，一个较大的教师网络以自我监督的方式将其知识转移到一个较小的学生网络中。如果不要求-L全部=CE（qC，y）+（1−α）Lc+αLk +λL，（4）Beled数据，教师网络通过自监督学习过程进行预训练。鉴于测试样本，研究-其中，α和λ是相对于水平设置为0.3和0.003的平衡参数。第一项CE（qC，yE）是教师分类器的softmax输出与伪标签之间的交叉输入与学生分类器的损失相比，该项的权重更大。4. 实验4.1. 绩效评价以CIFAR-10，CIFAR-100和ImageNet-1 K数据集为主要基础，我们首先验证了SSL有助于SD。在下文中，如果没有特别指出，则预训练数据集Dpre与目标数据集Dtar相同。我们采用ResNet-18或ResNet-50作为主干构建SSL模型SSL，以评估不同SSL模型对SD性能的影响。我们还尝试了针对不同数量的epoch训练的预训练模型。概念上训练更多的epoch使SSL模型学习更多的知识。SD的骨干仍然是ResNet-18。通过ssl提取视觉特征，然后聚类成K类，得到伪标签。然后，自蒸馏过程学习学生分类器和教师分类器。表1分别显示了SSL辅助的SD模型在CIFAR-10、CIFAR-100和ImageNet-1 K数据集上的分类准确度对于CIFAR-10、CIFAR-100和ImageNet-1 K数据集，用于生成伪标签的聚类数此外，我们有意地实现了一种随机标记方法作为基线，其中我们随机为每个数据点标记1000/500/5000个标签之一。基于这样的随机标签，我们训练SD模型，并获得随机标签行中显示的分类精度。从表1中可以得出三个结论。首先，与随机标记方法相比，经过良好训练的SSL模型确实有助于SD。这显示了Dent网络被引导以基于在知识蒸馏中常用的损失来输出与教师网络输出的分数分布类似的SEED的目标是在自监督学习方案中提高小型网络的性能在MatterFit [23]中，网络被预先训练以学习图像数据集的视觉表示。然后根据提取的表示对图像进行聚类并生成伪标签。接下来，基于伪标签从头开始训练一个新的网络，然后将其用于完成下游任务。ChronterFit的目标是减少预训练网络的过拟合，并提高学习的视觉表示的鲁棒性。我们的方法似乎类似于SEED和EscherFit的过程，但我们需要强调以下差异。SEED显然具有教师和学生的框架，并在知识蒸馏的标准程序中工作。我们预先训练的网络只提供伪标签，我们只有一个模型（同时作为教师和学生）来自我蒸馏。在QuanterFit中，预训练的网络提供伪标签，这与我们的相同。但在我们的工作中，下游任务的网络是一个自蒸馏模型（BYOT[27]）。总的来说，SEED采用蒸馏来改进小模型中的自监督学习，而我们的工作采用自监督学习来实现无监督的自蒸馏。WeatherFit利用聚类的概念（以及伪标签）来避免学习过拟合的表示，而我们的工作则采用聚类的概念来指导自我蒸馏。表2显示了ImageNet-1 K数据集上分类准确性的比较预训练的模型是ResNet-50或ResNet-101训练的200个epoch。无论预训练的模型是ResNet-50还是ResNet-101，SEED和MonterFit中使用的学习模型以及建议的SSSD的主干都是ResNet-18从表中可以看出，建议的SSSD略优于98762774M表1.SD模型在CIFAR-10、CIFAR-100和ImageNet-1 K数据集上的分类精度CIFAR-10Mssl历元分类器1分类器2分类器3分类器4合奏随机标签–42.3442.1041.9244.0345.99ResNet-1820080078.5481.9679.4783.3279.7183.9680.0084.1082.0585.75Mssl历元分类器1分类器2分类器3分类器4合奏ResNet-5020080078.9383.1579.7584.7280.0885.8180.2285.9482.2087.36CIFAR-100Mssl历元分类器1分类器2分类器3分类器4合奏随机标签–18.0517.8818.6621.0621.34ResNet-1820080052.7854.4453.4955.7253.5156.2453.2455.8557.0159.71Mssl历元分类器1分类器2分类器3分类器4合奏ResNet-5020080051.3357.3752.1758.9052.0860.5452.0360.2555.7663.60ImageNet-1KMssl历元分类器1分类器2分类器3分类器4合奏随机标签–12.0712.2513.1916.8316.24ResNet-1820080044.1945.8645.6848.0548.5351.3851.9554.8252.3554.82Mssl历元分类器1分类器2分类器3分类器4合奏ResNet-5020080048.4150.2350.9753.7455.2458.6358.4561.8658.1161.12表2.不同蒸馏方案在ImageNet-1 K数据集上的性能比较预训练模型方法精度[23]第二十三话56.55ResNet-50种子[7]SSSD（我们的）57.9058.45[23]第二十三话59.02ResNet-101种子[7]SSSD（我们的）58.9060.46种子和种子。这表明，所提出的自监督自蒸馏不仅是可行的，而且在标准的下游任务是有效的。4.2.2伪标签另一个与我们的工作非常相似的工作是DACSD [1]。在DACSD中，ResNet-18被联合用作预训练模型，用于学习和聚类视觉表示，以及自蒸馏的骨干。随着训练过程的进行，ResNet-18逐渐学习到更好的视觉表示，并生成更好的伪标签。这些伪标签通过反向传播来指导ResNet-18的学习。我们和DACSD之间的主要区别是，在我们的框架中，我们完成了预先训练的模型首先被处理，并且因此可以在自蒸馏过程开始时生成相对好的伪标签。另一方面，DACSD在自蒸馏过程开始时产生相对较弱的伪标记。表3显示了ImageNet-1 K数据集上伪标签生成方案DACSD和我们的自蒸馏模型的主干在表3中给出我们结果的自监督模型是ResNet-50（ssl）。可以看出，基于此实验设置，我们的性能优于DACSD的对应物。4.3. 半监督评价为了评估通过自蒸馏模型学习的表示的有效性根据[25] 和 [3] 中的设置，我们有意仅对 1% ， 10% ，20%，...，50%的标记ImageNet-1 K数据集，并使用它们来微调标记数据上的残差块以及FC层，而无需正则化。这是为了模拟半监督学习方案。如果学习的视觉表示是鲁棒的，则只需要很少的标记数据来98762775MMMM5075̸×M表3.ImageNet-1 K数据集上伪标签生成方案的性能比较Msd主干方法分类器1分类器2分类器3分类器4合奏ResNet-18DACSD [1]SSSD（我们的）45.5948.4148.1450.9751.6355.2449.7758.4553.6258.11表4.基于ImageNet-1 K数据集上半监督学习的不同设置获得的分类准确率预训练模型百分之一百分之十百分之二十百分之三十百分之四十百分之五十ResNet-50，200 epochsResNet-101，200 epochs40.1642.5857.4158.4861.1862.0563.1964.0964.5465.3665.5365.94表5.通过更快的R-CNN进行对象检测的性能，其中骨干被不同的Msd方法预训练模型APbbAPbb50APbb75种子[7]ResNet-50，200 epResNet-101，200 ep46.146.874.875.849.149.3SSSD（我们的）ResNet-50，200 epResNet-101，200 ep53.353.479.279.358.458.5构建鲁棒的分类器。表4显示了基于ImageNet-1 K数据集上半监督学习的不同设置获得的分类准确度。当预训练模型是ResNet-50训练200个epoch时，当训练数据的分数从1%增加到10%时，分类准确率从40.16显著提高到57.41这表明，所提出的SSSD学习的表示是有效的，因为类似的性能可以获得，即使只有10%的训练数据被利用。更多的训练数据可以帮助提高性能，但我们发现，当超过40%的训练数据被采样时，这种提高就会饱和。当预训练模型被ResNet-101训练200个epoch时，可以看到类似的趋势。4.4. 对象检测除了图像分类之外，我们还想验证蒸馏后的表示是否可以转移到其他任务中，如对象检测。具体来说，我们用ResNet-18取代了Faster R-CNN [19]的主干自蒸馏后的sd然后在VOC- 07+12 train+val set上进行微调，并在VOC-07测试分割上进行评价本实验中使用的模型sd是通过由16000个伪标签引导的自蒸馏获得的，这些伪标签是由基于ImageNet-1 K数据集（带数据标签）。表5示出了对象检测在边界框平均精度APbb、APbb和APbb方面的性能。可以看出，所提出的SSSD及其学习模型sd可以成为Faster R-CNN的有效骨干。与SEED[7]中提供的类似实验相比，性能优势明显。4.5. 不同的预训练数据集表1至表5所示的实验是通过将SSL的数据集设置为与SD相同来进行的，即，Dpre=Dtar。在这里，我们进一步评估如果Dpre=Dtar，性能如何变化。具体来说，我们比较了 Dpre= ImageNet 1 K 、 Dtar= CI- FAR 和Dpre=Dtar= CIFAR的设置。由于ImageNet1K和CIFAR中的图像大小不同，我们将ImageNet1K的图像大小调整为32 32，并训练ssl模型200 epoch。表6示出了当伪标签由基于不同Dpre学习可以看出，对于Dtar= CIFAR- 10和Dtar= CIFAR-100两者，使用ImageNet 1 K作为Dpre可以产生比使用CIFAR 10和CIFAR- 100作为Dpre更好的性能。这表明，基于大规模数据集训练的模型生成的伪标签可以提供比基于小规模数据集训练的模型更丰富的信息。我们提出的SSSD可以利用更好的伪标签来学习SD模型的更好表示。5. 结论我们已经提出了使用自监督学习来实现无监督的自蒸馏。首先基于数据集Dpre对模型进行预训练，以完成自监督学习方案中的实例判别任务。这种预先训练的模型被认为有能力为一般目的提取令人满意的视觉表示。该算法首先从目标数据集Dtar中提取视觉特征，然后采用K-means聚类算法对特征进行聚类，生成伪标签。这些伪标签指导自蒸馏模型的学习，该模型通过从网络的最深部分进行自学习来学习Dtar的有效表示，而不需要以监督方式训练的教师模型因此，整个框架不需要标记数据，所提出的自监督自蒸馏打破了以往监督自蒸馏的局限性我们通过在CIFAR-10、CIFAR-100和ImageNet-1 K数据集上进行评估，验证了SSSD的有效性。性能优越，perior类似的框架显示。谢谢。这项工作部分由98762776表6.CIFAR-10和CIFAR-100上使用伪标签的分类准确性，伪标签由基于不同Dpre的。Dtar=CIFAR-10D前Mssl历元分类器1分类器2分类器3分类器4合奏CIFAR-10R-18转轴-5020078.5478.9379.4779.7579.7180.0880.0080.2282.0582.20ImageNet-1KR-18转轴-5020080.5383.1982.2185.0583.4486.5883.4786.5484.9787.60Dtar=CIFAR-100D前Mssl历元分类器1分类器2分类器3分类器4合奏CIFAR-100R-18转轴-5020052.7851.3353.5052.1753.5152.0853.2452.0357.0155.76ImageNet-1KR-18转轴-5020053.8857.3555.9059.8557.3261.1457.2160.8360.7664.12高通公司通过台湾大学研究院项目，部分由台湾国家科学技术委员会资助，资助编号为111-3114- 8-006-002、110-2221-E-006-127-MY 3、108-2221-E-006-227-MY3，107-2923-E-006-009-MY3，和110-2634-F-006-022.引用[1] Mohammed Adnan ， Yani A.Ioannou ， Chuan-YungTsai，and Graham W.Taylor.具有自蒸馏的领域不可知聚类。在NeurIPS自我监督学习研讨会上：理论与实践，2021。[2] Zeyuan Allen-Zhu和Yuanzhi Li。深度学习中的集成理解、知识升华和自我升华载于arXiv：2012.09816，2021。[3] 陈婷，西蒙·科恩布里斯，穆罕默德·诺鲁齐，和葛offrey Hinton.视觉表征对比学习的一个简单框架。2020年国际机器学习会议论文集[4] Xinlei Chen，Haoqi Fan，Ross Girshick，and KaimingHe. 通过动量对比学习改进基线。载于 arXiv ：2003.04297，2020。[5] 陈宇钊、卞亚涛、奚晓、于荣、徐廷阳、黄俊州自适应图神经网络。在2021年国际商业情报联合会议的会议记录中[6] Carl Doersch、Abhinav Gupta和Alexei A.埃夫罗斯通过上下文预测的非监督视觉表示学习2015年国际计算机视觉会议论文集[7] Zhiyuan Fang ， Jianfeng Wang ， Lijuan Wang ， LeiZhang，Yezhou Yang，and Zicheng Liu.种子：用于视觉表示的自监督蒸馏。在2021年国际学习表征会议论文集上[8] 风泽宇，常旭，大成涛。通过旋转特征解耦的自监督表示学习。 IEEE International Conference on ComputerVision and Pattern Recognition，2019。[9] 愚公，叶宇，高拉夫·米塔尔，格雷格·莫里，陈美。Muse：具有互信息的特征自升华，98762777自我信息英国机器视觉会议论文集，2021年。[10] 郭建平，余宝生，Stephen J. Maybank和大成陶。知识提炼：一个调查。国际计算机视觉杂志，129：1789[11] Kaiming He，Haoqi Fan，Yuxin Wu，Saining Xie，andRoss Girshick.用于无监督视觉表示学习的动量对比。IEEE计算机视觉与模式识别国际会议论文集，2020年。[12] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习IEEE InternationalConferenceonComputerVisionandPatternRecognition，2016。[13] Rian He，Shubin Cai，Zhong Ming，and Jialei Zhang.加权自升华中文分词算法。在计算语言学协会年会的会议记录，2022年。[14] Geoffrey Hinton Oriol Vinyals和Jeff Dean。在神经网络中提取知识。NIPS深度学习研讨会论文集，2014年。[15] 景龙龙和田英丽。使用深度神经网络的自监督视觉特征学习：一个调查。 IEEE Transactions on PatternAnalysis and Machine Intelligence，43（11）：4037[16] 福氏Le-Khac，Graham Healy，and Alan F.斯米顿对比表征学习：一个框架和重新审视。IEEE Access，8：193907[17] Hossein Mobahi，Mehrdad Farajtabar和Peter L.巴特利特自蒸馏放大了希尔伯特空间中的正则化。在神经信息处理系统会议论文集，2020年。[18] Mehdi Noroozi和Paolo Favaro。通过解决拼图游戏进行视觉表示在2016年欧洲计算机视觉会议上[19] 任少卿、何开明、罗斯·格尔希克、孙健。更快的r-cnn：利用区域建议网络进行实时目标检测。神经信息处理系统进展论文集，2015年。[20] Karsten Roth ， Timo Milbich ，Bjorn Ommer ， JosephPaul Co-hen，and Marzyeh Ghassemi.同时相似性98762778深度度量学习的自我升华。2021年国际机器学习会议论文集[21] Zhirong Wu，Yuanjun Xiong，Stella Yu，and Dahua Lin.通过非参数实例级判别的无监督特征学习在IEEE计算机视觉和模式识别集，2018年。[22] Ting-Bing Xu和Cheng-Lin Liu。深度神经网络的数据失真引导自蒸馏。在AAAI人工智能会议论文集，2019年。[23] Xueting Yan ， Ishan Misra ， Abhinav Gupta ， DeeptiGhadi-yaram，and Dhruv Mahajan. Clusterfit：Improvinggeneralization of visual representation. IEEE计算机视觉与模式识别国际会议论文集，2020年。[24] 杨成林、谢灵犀、苏驰和艾伦·L。尤尔。快照蒸馏：一代师生优化。在IEEE计算机视觉和模式识别国际会议论文集，2019年。[25] 翟晓华，奥利弗，科列斯尼科夫，拜尔.S41：自监督半监督学习。IEEE International Conference on ComputerVision，2019。[26] 张林峰，包成龙，马凯生。自蒸馏：实现高效紧凑的神经网络。 IEEE Transactions on Pattern Analysis andMachine Intelligence，2022。[27] 张林峰，宋杰波，高安妮，陈经纬，包成龙，马凯生.做自己的老师：通过自蒸馏提高卷积神经网络的性能。在IEEE计算机视觉国际会议论文集，2019年。

下载后可阅读完整内容，剩余1页未读，立即下载