ResNets与Transformer:图像分类模型对前景、背景及属性噪声的深度分析

0 下载量 17 浏览量 更新于2025-01-16 收藏 3.35MB PDF 举报
本文主要探讨了图像分类模型在处理前景、背景和视觉属性方面的敏感性,特别是针对大规模数据集如ImageNet中的单一标签标注。研究者针对ImageNet的一个子集,即RIVAL10(Rich Visual Attributes with Localization),该数据集包含大约26,000个实例,每个样本都配备了完整的对象分割掩码和18个相关信息属性,以此来深入分析模型的预测行为。 研究团队评估了多种先进的模型架构,包括ResNets、Transformers以及训练策略,如CLIP、Simplified DeiT和Adversarial Training。令人意外的发现是,对抗性训练在ResNets中使得模型对背景噪声更为敏感,而对比训练的模型在Transformer和ResNet中表现出较低的前景敏感性。Transformer模型显示出有趣的自适应性,随着相对前景敏感度的增加,其性能表现也随之变化。 研究还利用显著性方法来识别那些可能误导模型预测的虚假背景特征,并探讨了显著性图与前景的对应关系。通过比较特征显著性和语义属性,研究者试图量化神经特征的归属问题,即模型如何在视觉空间中定位和区分对象的不同部分。 这篇论文提供了关于图像分类模型在面对复杂视觉场景时,如何处理前景、背景和视觉属性的关键洞察,这对于理解模型的工作原理、提高模型的鲁棒性和解释性具有重要意义。通过实证分析,研究人员揭示了模型设计和训练方法对模型性能和敏感性的影响,为未来模型优化和解释性研究提供了有价值的参考。