TS-CAM：弱监督目标定位的Transformer解决方案

PDF格式 | 1.25MB | 更新于2025-01-16 | 64 浏览量 | 举报

“弱监督目标定位的视觉Transformer模型通过TS-CAM解决部分激活问题，提高性能。” 在弱监督目标定位（WSOL）领域，一个关键的挑战是利用有限的图像类别标签来学习准确的对象定位模型。通常，优化用于图像分类的卷积神经网络（CNN）在学习过程中容易出现部分激活问题，即只关注图像的局部区分区域，忽视了整个对象。这种现象限制了模型对完整对象的理解和定位能力。文章提出了一种新的方法，称为Transformer-based Class Activation Map (TS-CAM)，以解决部分激活问题。TS-CAM的核心思想是利用Transformer模型的自注意力机制来捕捉图像中的长程特征依赖，从而增强全局对象理解。Transformer的自注意力层能够处理非局部信息，这对于克服CNN中的局部感受野限制非常有效。具体来说，TS-CAM首先将输入图像分割成补丁序列，每个补丁作为一个令牌，然后通过Transformer模型生成注意力图，这有助于识别出跨补丁的长距离依赖关系，减少部分激活的发生。接下来，TS-CAM对补丁令牌进行类别相关的语义重分配，使得每个补丁都能获得关于对象类别的信息。最后，通过结合补丁令牌和语义不可知的注意力图，TS-CAM实现了一个语义感知的定位过程，从而更精确地确定对象边界。实验结果显示，在ILSVRC和CUB-200-2011数据集上，TS-CAM相比于传统的CNN-CAM方法有显著的性能提升，分别提高了7.1%和27%的精度，达到了当前最先进的水平。这证明了TS-CAM在解决弱监督目标定位问题上的有效性。 TS-CAM提供了一种创新的解决方案，它利用Transformer的特性解决了CNN在WSOL中的局限性，提高了定位的准确性。这种方法不仅在理论上有重要的贡献，也为实际应用提供了强大的工具，尤其是在大量未完全标注的图像数据集上训练模型时。通过开源代码（https://github.com/vasgaowei/TS-CAM），研究者和开发者可以进一步探索和应用这一技术。

2888

个

∈

{

∈

}

用于对象定位的语义和由视觉Transformer提取的定

位信息。

•

TS-CAM在两个具有挑战性的WSOL基准测试上实

现了对先前方法的实质性改进，充分利用了视觉

Transformer中的长距离特征依赖性。

相关工作

弱监督对象本地化（WSOL）旨在学习仅给定图像级

别类别标签的对象本地化。WSOL的代表性研究是

CAM [55]，它通过使用特定于类的全连接层聚合深度

特征图来生成定位图。通过删除最后一个全连接层，

CAM也可以通过全卷积网络实现[15]。

尽管基于CAM的方法的简单性和有效性，他们遭受

识别对象的小的歧视性部分为了改善CAM的激活，

HaS [33]和CutMix [33]在输入图像上采用对抗性擦除来

驱动专注于扩展对象部分的定位模型。ACoL [50]和

ADL [8]反而删除了与区分区域相对应的特征图，并使

用逆向训练的分类器来重新转换丢失的部分。SPG [51]

和I

C [52]通过将像素级相关性的约束引入网络来提高

定位图的质量。DANet [46]应用发散激活来学习WSOL

的互补视觉线索。SEM [53]和SPA [22]通过使用种子区

域内的逐点相似性来GC-Net [20]考虑了几何形状，并

提出了WSOL的多任务损失函数。

大多数上述方法通过将复杂的空间正则化技术引入

CAM来努力扩展然而，图像分类和目标局部化之间正

如可视化方法[3，49]所观察到的那样，CNN倾向于将

对象分解为对应于局部感受野的激活几个语义元素可

以带来良好的分类结果。如何从局部感受野收集全局

线索的问题仍然存在。

弱监督检测和分割是与WSOL密切相关的视觉任务。弱

监督检测训练网络同时执行图像分类和实例定位[41，

39，27]。给定数千个区域建议，学习过程在训练检测

器时从包中选择高分实例。以类似的方式，弱监督分

割训练分类网络以估计伪掩模，伪掩模进一步用于训

练分割网络。为了生成准确的伪掩模，[17，1，14，

41，56]采用了区域增长策略。与此同时，一些研究人

员

研究以直接增强特征级激活区域[18，44]。其他人通过

使用多个阶段进行训练来积累CAM[16]，探索边界约

束[5]，利用语义分割的等价性[42]，以及挖掘交叉图

像语义[35]来细化伪掩模。与WSOL类似，许多弱监督

检测和分割方法倾向于定位对象部分而不是完整对象

范围。需要探索新的分类模型来解决部分分类问题。

系统化的激活问题

长距离特征依赖性。CNN产生具有不同接收场的局部

特征的分层集合。不幸的是，大多数CNN [31，12]擅

长提取局部特征，但难以捕获全局线索。

为了减轻这种限制，一种解决方案是利用像素相似

性和全局线索来细化激活图[41，42，52，53]。Cao等

人[4]发现由非本地网络建模的全局上下文对于查询位

置几乎相同，因此提出了NLNet [40]与SENet [13]用于

全局上下文建模。MST [34]提出了可学习树过滤器来

捕获最小生成树的结构属性，以建模长距离依赖关

系。另一个解决方案是注意力机制[40，26，54]。非局

部操作[40]以自注意的方式引入CNN，使得每个位置处

的响应是所有（全局）位置处的特征的加权和。SASA

[26]验证了自我注意力是CNN的有效独立层。关系网络

[9]提出通过特征和几何之间的交互同时处理一组对

象，允许对对象之间的空间关系进行建模。最近的研

究在Transformer模型中引入了级联自注意机制，以捕

获长距离特征依赖性[45，37，47，25]。

方法

在这一节中，我们首先给出可视化Transformer的预备

知识。然后，我们介绍了TS-CAM方法。

3.1.

预赛

对于视觉

Transformer [10]

，

W/H

分辨率的输入图

像

被划分为

w/h

个

块，其中

W/P

，

W/P

，并且

表示块的宽度

高度。对分割后的面片进行展平和

线性投影，构造出

w h

个

面片标记

的

，

…

，

和类令牌

0 1

，图

。代表的尺

寸

每个令牌e

嵌入。类标记t可通过

随机初始化每个令牌都添加了一个可学习的

以逐元素的方式定位嵌入。这些令牌被馈送到L

个

级联

Transformer块中，每个变换器块由多头自注意层和多

层感知器（MLP）块组成。

剩余10页未读，继续阅读

cpongm

粉丝: 6

TS-CAM：弱监督目标定位的Transformer解决方案

Transformer驱动的多类别标注框架提升弱监督语义分割性能

视觉位置识别新模型TransVPR：基于多级注意力的Transformer解决方案

FORMULA：Transformer驱动的无监督对象发现新方法

基于草图与伪背景先验的弱监督显著目标检测网络（WBNet）的提出与优化

单目视觉目标检测技术

【Transformer模型与CNN模型的融合优势探讨】： 探讨Transformer模型与卷积神经网络模型的融合优势

Transformer模型的预训练技术：提升泛化能力的基石，打造通用模型

Transformer模型未来的发展方向和技术挑战展望

Transformer模型在智能驾驶领域中的潜在应用价值

Transformer模型应用：NLP领域的变革者，开启语言处理新时代

最新资源

【Transformer模型与CNN模型的融合优势探讨】：探讨Transformer模型与卷积神经网络模型的融合优势