ResNets与Transformer：图像分类模型对前景、背景及属性噪声的深度分析

17 浏览量更新于2025-01-16 收藏 3.35MB PDF 举报

本文主要探讨了图像分类模型在处理前景、背景和视觉属性方面的敏感性，特别是针对大规模数据集如ImageNet中的单一标签标注。研究者针对ImageNet的一个子集，即RIVAL10（Rich Visual Attributes with Localization），该数据集包含大约26,000个实例，每个样本都配备了完整的对象分割掩码和18个相关信息属性，以此来深入分析模型的预测行为。研究团队评估了多种先进的模型架构，包括ResNets、Transformers以及训练策略，如CLIP、Simplified DeiT和Adversarial Training。令人意外的发现是，对抗性训练在ResNets中使得模型对背景噪声更为敏感，而对比训练的模型在Transformer和ResNet中表现出较低的前景敏感性。Transformer模型显示出有趣的自适应性，随着相对前景敏感度的增加，其性能表现也随之变化。研究还利用显著性方法来识别那些可能误导模型预测的虚假背景特征，并探讨了显著性图与前景的对应关系。通过比较特征显著性和语义属性，研究者试图量化神经特征的归属问题，即模型如何在视觉空间中定位和区分对象的不同部分。这篇论文提供了关于图像分类模型在面对复杂视觉场景时，如何处理前景、背景和视觉属性的关键洞察，这对于理解模型的工作原理、提高模型的鲁棒性和解释性具有重要意义。通过实证分析，研究人员揭示了模型设计和训练方法对模型性能和敏感性的影响，为未来模型优化和解释性研究提供了有价值的参考。

19089

文献复习

2.1.

相关数据集

在深度学习兴起之前，许多作品研究了属性分类，

导致了数据集的构建，例如Animals with Attributes [27]

和aPAS- CAL VOC 2008 [14]（添加注释[13]）。[54]

已发布的CUB 200，一个鸟类物种的细粒度分类数据

集，具有单一坐标形式的对象分割和部分

定位

最后，

[41]在ImageNet的一个小规模子集上收集对象属性。最

近，[36]在ImageNet的一个子集上发布了一个大规模的

对象属性数据集。Celeb-A数据集[29]包含应用于生成

建模的属性，但对于一般表示学习的实用性有限，因

为它只包含人脸图像。更广泛的数据集 Visual

Attributes in the Wild（VAW）[38]为250k对象实例提

供了大规模的

许多数据集旨在对模型进行压力测试以揭示限制。

[19]介绍了不同破坏类型下的ImageNet变体，包括高斯

噪声。[20]增加了另外两个ImageNet变体，包括具有挑

战性的自然样本和分布样本，顶级模型的准确率大幅

下降。在[2]上评估的模型类似地看到大的下降，尽管

该数据集的不同之处在于它是严格的测试集。其他作

品引入合成数据集来评估空间偏差[57]或分类器的背

景依赖性，例如[56]和[42]，它们执行交换或改变前景

和背景的一些变化。这些著作虽然相似，但在客观和

技术上对我们的贡献[42]着重于开发一种新的分布式

鲁棒优化过程。[56]强调通过创造性地编辑前景和背

景区域来设计大量的测试数据集相比之下，我们的工

作提出了一种分析前景敏感性的新方法，并通过将其

应用于广泛的尖端架构和训练范例来展示其实用性，

从而导致

特定于模型

的观察。此外，我们的RIVAL 10

数据集更大，注释更丰富。

最近，[46]在半自动化过程中使用显着性图和特征

可视化来识别与给定类别的对象的核心或虚假特征相

对应的深度神经节点，从而产生具有与显着特征相对

应的分割的大规模数据集。然而，分割区域的注释仅

限于将它们标记为

2.2.

可解释性方法

已经提出了许多方法来解释模型预测，例如显着性

或类别激活图[43]，影响函数[25]和替代白盒

模型[40，55]。然而，已经发现显着图是嘈杂的，影

响函数是脆弱的[3，16]。一些方法试图通过合成最大

化其激活的输入来解释神经节点的功能 [33 ，35 ，

47]，尽管这些方法在使用非对抗性鲁棒模型时受到限

制[34]，并提供定性见解。

开发可解释性方法背后的动机是致力于解决[15]详

细讨论了这一点，建议开发和使用具有挑战性的数据

集，这些数据集的输入相对于标准基准而言是不分布

的。RIVAL 10 通过交换背景、前景和

属性

来破坏快

捷方式（附录中的示例）。

其他旨在减少深度模型对虚假特征的依赖的建设性

工作呼吁反事实数据生成[1，6，17]，通常呼吁解开

表示或明确的注释来打破纹理，形状，颜色和背景的

相关性。此外，[23]发现去除虚假特征实际上会损害

准确性，并不成比例地影响群体。因此，虚假特征总

是有害的概念是不完整的，需要更仔细地研究有关捷

径学习问题的基础讨论。最后，[52]为压力测试模型

提供了识别因果因素的理论背景。

RIVAL 10

3.1.

概述

RIVAL 10与以前的属性数据集不同，它提供了

特定

于属性的

本地化。也就是说，对于属性的每个正实

例，二进制分割掩码标识属性出现的图像区域。

也许，在这方面最相似的数据集是最近的

Fashionpedia [22]，这是一个提供

个服装类别的属性

和本地化的数据集。然而，该数据集是针对时尚领域

提出的，其用于通用对象识别任务实用性。据我们

所知，RIVAL 10是第一个提供丰富语义属性和本地化

的

通用领域

数据集，我们设想将其结合起来帮助分析

深度网络的鲁棒性和可解释性。虽然用于语义分割和

对象检测的其他数据集超出了单标签注释[8，12，

28]，但它们并没有专门设计分类器，如RIVAL 10。

选择与CIFAR-10保持一致的类，以便能够分析为对

象识别任务开发的现有架构和训练技术。具体来说，

我们提供的类有：

鸟、车、猫、鹿、狗，

剩余11页未读，继续阅读

cpongm

粉丝: 6

ResNets与Transformer：图像分类模型对前景、背景及属性噪声的深度分析

基于深度学习的交通图像识别的研究与应用.pdf

论文研究-一种基于梯度图像帧间差分和背景差分的运动目标检测新方法 .pdf

基于视觉感知的图像放大.pdf

机器学习和深度学习图像

Deformable attention的研究意义

open 判断视频遮挡

神经网络尤其是卷积神经网络在转子故障诊断中的应用历史

action-net: multipath excitation for action recognition

人脸识别原理及算法 pca

YOLOv5主体框架

最新资源