TS-CAM:弱监督目标定位的Transformer解决方案

PDF格式 | 1.25MB | 更新于2025-01-16 | 64 浏览量 | 0 下载量 举报
收藏
“弱监督目标定位的视觉Transformer模型通过TS-CAM解决部分激活问题,提高性能。” 在弱监督目标定位(WSOL)领域,一个关键的挑战是利用有限的图像类别标签来学习准确的对象定位模型。通常,优化用于图像分类的卷积神经网络(CNN)在学习过程中容易出现部分激活问题,即只关注图像的局部区分区域,忽视了整个对象。这种现象限制了模型对完整对象的理解和定位能力。 文章提出了一种新的方法,称为Transformer-based Class Activation Map (TS-CAM),以解决部分激活问题。TS-CAM的核心思想是利用Transformer模型的自注意力机制来捕捉图像中的长程特征依赖,从而增强全局对象理解。Transformer的自注意力层能够处理非局部信息,这对于克服CNN中的局部感受野限制非常有效。 具体来说,TS-CAM首先将输入图像分割成补丁序列,每个补丁作为一个令牌,然后通过Transformer模型生成注意力图,这有助于识别出跨补丁的长距离依赖关系,减少部分激活的发生。接下来,TS-CAM对补丁令牌进行类别相关的语义重分配,使得每个补丁都能获得关于对象类别的信息。最后,通过结合补丁令牌和语义不可知的注意力图,TS-CAM实现了一个语义感知的定位过程,从而更精确地确定对象边界。 实验结果显示,在ILSVRC和CUB-200-2011数据集上,TS-CAM相比于传统的CNN-CAM方法有显著的性能提升,分别提高了7.1%和27%的精度,达到了当前最先进的水平。这证明了TS-CAM在解决弱监督目标定位问题上的有效性。 TS-CAM提供了一种创新的解决方案,它利用Transformer的特性解决了CNN在WSOL中的局限性,提高了定位的准确性。这种方法不仅在理论上有重要的贡献,也为实际应用提供了强大的工具,尤其是在大量未完全标注的图像数据集上训练模型时。通过开源代码(https://github.com/vasgaowei/TS-CAM),研究者和开发者可以进一步探索和应用这一技术。

相关推荐