遮蔽式生成蒸馏法：提升计算机视觉任务的模型表现

69 浏览量更新于2024-06-19 收藏 24.37MB PDF 举报

"遮蔽式生成蒸馏方法在计算机视觉任务中的应用与改进" 在计算机视觉领域，知识蒸馏是一种有效的技术，它通过将大型、高性能的“教师”模型的知识传递给小型、高效的“学生”模型，从而提高学生模型的性能。传统的知识蒸馏方法主要关注于模仿教师模型的输出，以此提升学生模型的预测能力。然而，近期的研究发现，教师模型还可以通过指导学生模型的特征恢复来增强其表示能力。文中提出的Masked Generative Distillation (MGD) 是一种新颖的特征级蒸馏方法。在MGD中，学生模型的特征图的随机像素被遮蔽，然后学生模型被强制要求通过简单的生成模块来恢复这些被遮蔽的像素，以达到教师模型的完整特征。这种方法的独特之处在于，它不仅要求学生模仿教师的最终输出，还要求学生学习到教师在特征级别的表示能力。 MGD的通用性体现在它可以应用于多种计算机视觉任务，如图像分类、目标检测、语义分割和实例分割。实验结果显示，MGD在各种模型上都能带来显著的性能提升。例如，对于ImageNet图像分类任务，ResNet-18模型的top-1准确率从69.90%提高到71.69%；在基于ResNet-50骨干的RetinaNet目标检测中，边界框的mAP从37.4提升到41.0；在基于ResNet-50的SOLO实例分割中，Mask mAP从33.1提升到36.2；在基于ResNet-18的DeepLabV3语义分割中，mIoU从73.20提升到76.02。关键词揭示了该研究的核心关注点：知识蒸馏、图像分类、目标检测、语义分割和实例分割。这些是计算机视觉领域的关键任务，而MGD为这些任务提供了新的优化策略。 1引言部分指出，深度卷积神经网络（CNN）在众多计算机视觉任务中占据了主导地位，但大模型的推理速度慢，限制了它们在资源有限环境下的应用。知识蒸馏作为一种解决方案，被分为两类：特定任务设计的蒸馏和基于特征的蒸馏。后者因为可以跨越不同网络结构的差异，理论上具有更广泛的适用性。 MGD通过创新的特征恢复策略，增强了学生模型的学习能力，为计算机视觉任务的模型压缩和性能提升提供了新的途径。其代码已公开，可供研究者进一步探索和应用。

4Z.Yangetal.

目标检测的知识蒸馏。Chen等人[1]首先在检测器的neck和head上计算蒸馏损失。目标

检测的蒸馏关键在于在前景和背景之间的极端不平衡情况下如何进行蒸馏。为了避免从

背景引入噪声，FGFI[31]利用细粒度掩蔽来蒸馏靠近物体的区域。然而，Defeat[13]指

出前景和背景的信息都很重要。GID[10]选择学生和教师在不同区域表现出差异的区域

进行蒸馏。FKD[37]使用教师和学生的注意力之和使学生关注可变区域。FGD[35]提出

了聚焦蒸馏，强制学生学习教师的关键部分，以及全局蒸馏，补偿缺失的全局信息。

语义分割的知识蒸馏。Liu等人[23]提出了成对和整体蒸馏，强制学生和教师的输出之间

具有成对和高阶一致性。He等人[16]将教师网络的输出重新解释为重新表示的潜在域，

并从教师网络中捕获长期依赖性。CWD[29]通过归一化每个通道的激活图计算概率图，

并最小化Kull-back-Leibler（KL）散度。

3方法

不同任务的模型架构差异很大。此外，大多数蒸馏方法都是针对特定任务设计的。然而

，基于特征的蒸馏可以应用于分类和密集预测。特征蒸馏的基本方法可以表示为：

Lfea=

C

k=1

H

i=1

W

j=1

FTk,i,j−falign(FSk,i,j)2（1）

其中FT和FS分别表示教师和学生的特征，falign是用于将学生的特征FS与教师的特征FT

对齐的适应层。C，H，W表示特征图的形状。这种方法帮助学生直接模仿教师的特征。

然而，我们提出了掩蔽生成蒸馏（MGD），其目的是强制学生生成教师的特征而不是模

仿它，在分类和密集预测方面为学生带来显著的改进。MGD的架构如图2所示，我们将

在本节中具体介绍它。

3.1使用掩蔽特征生成

对于基于CNN的模型，深层的特征具有更大的感受野和更好的原始输入图像表示。换句

话说，特征

+v:mala2255获取更多论文

剩余16页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

遮蔽式生成蒸馏法：提升计算机视觉任务的模型表现

交互式计算机图形学 第6版 各章节源代码（比附录更多例子）

行业文档-设计装置-自锁遮蔽式提带支耳联接装置.zip

一种用于雷达遮蔽分析的DEM数据处理方法.pdf

在自然语言处理中，大型语言模型是如何通过预训练和微调阶段理解并生成文本的？

如何在计算机图形学中应用Cook-Torrance BRDF模型来实现真实感渲染？

如何在深度学习中应用Transformer模型进行自然语言处理任务？请详细说明Transformer模型的主要组成部分及其工作原理。

4.Transformer中Decoder的注意力模块为什么采用遮蔽操 作(masked)?请用文字简单描述如何实现遮蔽操作的。

最新资源

交互式计算机图形学第6版各章节源代码（比附录更多例子）

4.Transformer中Decoder的注意力模块为什么采用遮蔽操作(masked)?请用文字简单描述如何实现遮蔽操作的。