基于注意力的丢弃层提升弱监督目标定位精度

PDF格式 | 808KB | 更新于2025-01-16 | 65 浏览量 | 举报

"基于注意力的丢弃层弱监督目标定位"是一项针对计算机视觉领域的研究，它着重于解决弱监督对象定位（WSOL）问题，即如何利用图像级别的标签而非精确位置信息来确定图像中目标物体的位置。这项工作由Junsuk Choe和Hyunjung Shim在韩国延世大学综合技术学院完成，他们的贡献在于提出了一种新颖的方法——基于注意力的丢弃层（ADL）。 ADL的核心思想是通过自注意力机制来改进模型的特征图处理能力。它包含两个关键组件：一是通过隐藏模型中最具鉴别性的部分，以确保模型能够捕捉到目标对象的全面信息，而不仅仅是最明显的特征；二是通过强调信息密集区域，增强模型的识别性能，从而改善定位精度。这种方法旨在克服现有WSOL技术的局限性，这些技术往往容易聚焦于最具区分性的部分，导致整体定位不准确。作者们通过实验证明，基于注意力的丢弃层在CUB-200-2011数据集上显著提高了WSOL的定位精度，达到一个新的高度。此外，他们还展示了新提出的ADL在参数效率和计算开销方面具有优势，相比于现有的技术，能够在保持良好性能的同时减少不必要的计算负担。这项研究不仅提升了弱监督对象定位的技术水平，也为未来的计算机视觉任务，特别是那些依赖大量标注数据的任务，提供了新的思考方向和实践策略。通过引入注意力机制，模型能够更好地理解和定位复杂的图像内容，这对于实际应用，如自动驾驶、医学图像分析等领域具有重要意义。"

2219

基于注意力的丢弃层弱监督目标定位

Junsuk Choe和Hyunjung

Shim

韩国延世大学综合技术学院

{junsukchoe，kateshim}@ yonsei.ac.kr

摘要

弱监督对象定位（

WSOL

）技术仅使用图像级标签

学习对象位置，而不使用位置注释。这些技术的一个

共同的局限性为了解决这个问题，我们提出了一个基

于注意力的丢弃层（

ADL

），它利用自注意力机制来

处理模型的特征图。所提出的方法由两个关键部分组

成：

）从模型中隐藏最具鉴别力的部分以捕获对象的

完整程度，以及

）突出信息区域以提高模型的识别能

力。实验结果表明，该方法能有效提高

WSOL

的定位精

度，在

CUB-200-2011

数据集上实现了新的定位精度。

我们还表明，提出的方法是更有效的参数和计算开销

比现有的技术。

介绍

弱监督对象定位（WSOL）旨在仅使用图像级标签

而不是位置注释来识别场景中对象的位置。现有的方

法挖掘和跟踪用于对象检测的每个类别的区别特征

[45，36，37，9，45，25，21，41，19，

2，39，15，63，7，5，4，48，14，65，32，31，

58，62，8，6]和以下各节-

心理学[33，29，18，16，24，52，50]。因为每个对

象部分的辨别能力与另一个不同，所以这些技术倾向

于仅识别目标对象的最有辨别力的部分，而不能覆盖

对象的整个范围。例如，在人的情况下，面部可能比

由于衣服而外观发生显著变化的身体更具辨别力。在

这种情况下，现有的WSOL技术只能定位面部，而不

是整个区域。

这个问题在对象定位中可能是关键的。具体来说，

类激活映射（CAM）[63]利用

通讯作者。

卷积神经网络（CNN）分类器，用于学习判别特征。

其核心思想是，具有合理精度的换句话说，区分特征

应该与对象区域共现从这个想法出发，他们通过跟踪

特征响应的空间分布来执行定位不幸的是，分类器往

往只关注最具鉴别力的特征，以提高其分类精度。因

此，特征响应的空间分布也倾向于仅覆盖对象的最具

辨别力的部分，这导致局部化准确度降低。

最近，已经提出了各种技术[49，35，17，59，20，

52，51，60]来解决这个问题。他们中的大多数这些技

术类似于dropout [38]，因为它们通过在训练阶段将特

征图的特定节点这就防止了模型仅仅依赖于最具区分

性的部分进行分类，而是鼓励它学习区分性较低的部

分。为了实现这一目标，Hide-and-Seek（HaS）[35]将

输入图像划分为网格状的块，并随机选择要擦除的

块。虽然随机选择是简单和快速的，但它不能有效地

删除最有区别的部分。

为了有效地去除最具鉴别力的部分，已经提出了几

种技术[49，17，59，20]这些技术多次重新训练模型

[49，17]，使用额外的分类器[17，59]，或者每一次迭

代执行两次前向-后向传播[20]以找到最具鉴别力的部

分。因此，需要大量的额外计算资源来有效地消除最

具区分性的

从以前的方法，我们得出结论，擦除的想法，只有

最具歧视性的部分是有效的，以捕捉对象的全部范

围。然而，现有的方法需要大量的计算资源来准确地

去除最具鉴别力的部分。我们的目标是以有效和高效

的方式消除为此，我们提出了一个基于注意力的丢弃

层

下载后可阅读完整内容，剩余9页未读，立即下载

cpongm

粉丝: 6

基于注意力的丢弃层提升弱监督目标定位精度

【基于深度学习的创新应用：yolo目标检测新对象】

【关键特征识别】：图像识别中的注意力机制深度分析

【图像分类中的注意力机制】：聚焦关键信息的深度学习技术

【神经网络与反向传播】：构建深度网络模型，深度探索监督学习

：YOLOv5算法改进与创新：推动目标检测技术的发展

深度解析YOLO的损失函数：理解并改善目标检测性能的专家指南

揭秘YOLO目标检测错报：分析常见问题及解决方案，提升检测效率

【故障解决】：YOLOv10海上红外目标检测的常见问题及应对策略

【YOLOv8模型微调秘籍】：掌握这些技术，让你成为目标检测专家！

YOLOv7多任务学习秘籍：目标检测与分类一网打尽（模型的多任务学习能力）

最新资源