遮蔽式生成蒸馏法:提升计算机视觉任务的模型表现

0 下载量 69 浏览量 更新于2024-06-19 收藏 24.37MB PDF 举报
"遮蔽式生成蒸馏方法在计算机视觉任务中的应用与改进" 在计算机视觉领域,知识蒸馏是一种有效的技术,它通过将大型、高性能的“教师”模型的知识传递给小型、高效的“学生”模型,从而提高学生模型的性能。传统的知识蒸馏方法主要关注于模仿教师模型的输出,以此提升学生模型的预测能力。然而,近期的研究发现,教师模型还可以通过指导学生模型的特征恢复来增强其表示能力。 文中提出的Masked Generative Distillation (MGD) 是一种新颖的特征级蒸馏方法。在MGD中,学生模型的特征图的随机像素被遮蔽,然后学生模型被强制要求通过简单的生成模块来恢复这些被遮蔽的像素,以达到教师模型的完整特征。这种方法的独特之处在于,它不仅要求学生模仿教师的最终输出,还要求学生学习到教师在特征级别的表示能力。 MGD的通用性体现在它可以应用于多种计算机视觉任务,如图像分类、目标检测、语义分割和实例分割。实验结果显示,MGD在各种模型上都能带来显著的性能提升。例如,对于ImageNet图像分类任务,ResNet-18模型的top-1准确率从69.90%提高到71.69%;在基于ResNet-50骨干的RetinaNet目标检测中,边界框的mAP从37.4提升到41.0;在基于ResNet-50的SOLO实例分割中,Mask mAP从33.1提升到36.2;在基于ResNet-18的DeepLabV3语义分割中,mIoU从73.20提升到76.02。 关键词揭示了该研究的核心关注点:知识蒸馏、图像分类、目标检测、语义分割和实例分割。这些是计算机视觉领域的关键任务,而MGD为这些任务提供了新的优化策略。 1引言部分指出,深度卷积神经网络(CNN)在众多计算机视觉任务中占据了主导地位,但大模型的推理速度慢,限制了它们在资源有限环境下的应用。知识蒸馏作为一种解决方案,被分为两类:特定任务设计的蒸馏和基于特征的蒸馏。后者因为可以跨越不同网络结构的差异,理论上具有更广泛的适用性。 MGD通过创新的特征恢复策略,增强了学生模型的学习能力,为计算机视觉任务的模型压缩和性能提升提供了新的途径。其代码已公开,可供研究者进一步探索和应用。