自监督结构建模提升目标识别性能

PDF格式 | 2.73MB | 更新于2025-01-16 | 16 浏览量 | 举报

"目标识别中的自监督结构建模方法及其性能增益" 在计算机视觉领域，目标识别是一项核心任务，它涉及到通过深度学习模型区分不同类别的物体。尽管近年来深度神经网络在该领域的进步显著，但在处理视觉上相似的物体时，仍然存在挑战。传统的物体识别方法主要关注学习区分性的视觉模式，但往往忽视了物体的整体结构，而结构信息对于准确识别至关重要。本文提出了一种名为Look-into-Object (LIO) 的自监督结构建模方法，旨在增强表示学习，无需额外的手动注释，也不会增加推理速度的成本。LIO由两个关键模块组成：对象范围学习模块和空间上下文学习模块。对象范围学习模块致力于定位同一类别中的实例，利用共享的视觉模式来识别对象。这一模块有助于模型理解物体的边界和形状，从而提高识别的准确性。通过比较同一类别内不同实例的特征，模型可以更好地理解物体的共同特性，减少混淆的可能性。空间上下文学习模块则专注于建模物体的内部结构，通过预测范围内各部分的相对位置。这有助于模型捕捉物体的局部关系，增强对整体结构的理解。例如，对于车辆识别，知道车轮相对于车身的位置对正确识别车型至关重要。 LIO 方法可以轻松地集成到现有的骨干网络架构中，如ResNet-50，并在训练时进行学习，而在推理时不需要这些额外的计算步骤。实验结果显示，LIO 在多个基准测试中表现出显著的性能提升，包括通用对象识别任务的ImageNet和细粒度识别任务如CUB（Caltech-UCSD Birds-200-2011）、汽车和飞机数据集。此外，LIO 的学习范式还证明了其在其他任务上的泛化能力，如对象检测和分割（如MS COCO数据集）。图1展示了LIO 方法在ResNet-50上的应用效果，对比了未使用LIO 和使用LIO 后的特征图可视化。通过引入整体结构建模，目标的特征更加突出，提高了识别的精确度。 LIO 提出的自监督结构建模策略为解决目标识别中的复杂问题提供了新的思路，它不仅增强了模型的识别性能，还降低了对大量标注数据的依赖，对于推动计算机视觉领域的发展具有重要意义。项目代码已开源，可从https://github.com/JDAI-CV/LIO 访问。

11776

我

在视觉上相似的物体之间容易混淆[1，8]。类混淆模

式通常遵循类的层次结构。一般的对象识别网络通常

可以很好地分离高级别的类组，但是学习分离各个类

的专门特征检测器是相当昂贵的。原因是同一层次结

构中的类的全局几何形状和外观可能非常相似。因

此，如何识别它们在判别域中的细微差别就显得尤为

重要。

细粒度对象识别：与一般的目标识别不同，目标部分

的精细特征表示在细粒度目标识别中起着更为关键的

作用。现有的细粒度图像分类方法可以归纳为两个方

向。第一个是增强骨干网络的详细特征表示能力[34，

31，37]。第二个是引入零件位置或对象边界框注释作

为除了基本分类网络之外的广告优化目标或监督[43，

44，11，18]。

与一般对象识别类似，基于深度学习的特征表示在

细粒度图像识别方面取得了巨大成功[9，28]。在此之

后，二阶双线性特征表示学习方法[21]和一系列扩展

[39，17，42]被提出用于以平移不变的方式学习局部

成对特征交互。

然而，从细粒度类别中识别对象需要神经网络更多

地关注区分部分[40]。为了解决这个问题，提出了大

量的零件定位的细粒度识别方法。这些方法中的大多

数应用注意力机制来获得区分区域[11，25]。Zheng等

[44]试图通过聚类生成多个部分，然后对这些部分进

行分类以预测类别。与早期的基于零件的方法相比，

最近的一些工作倾向于使用弱监督，甚至没有零件注

释

用于理解对象结构和定位区分区域。受物体之间的上

下文信息影响物体识别的准确性和效率的研究[14]的

启发，物体内部区域之间的空间信息也有利于区分区

域的定位。因此，我们在我们提出的方法中引入了两

个模块;第一个模块旨在检测主要对象，第二个模块推

断对象中区域之间的空间依赖性。实验结果表明，该

方法在一般目标识别和细粒度目标识别方面都有较好

的效果此外，我们的方法没有额外的开销，除了骨干

网络的前馈在推理。

方法

在本节中，我们介绍我们提出的LIO方法。如图3、

我们的网络主要由三个模块组织：

分类模块（CM）：提取基本图像表示并产生最终

对象类别的骨干分类网络。

对象范围学习模块（OEL）：用于定位给定图像

中的主要对象的模块。

空间上下文学习模块（SCL）：一个自我监督的

模块，通过CM中特征单元之间的交互来加强区域

之间的联系。

给定一个图像

和它的基础真值

one-hot

标签

，

我们可以从其中一个卷积层获得大小为

N N C

的

特征映射

（

），并从分类网络获得概率向量

（

）。

是该层的通道大小

，

N N

是

（

）中每个

特征图的大小。分类模块（

）L

cls

的损失函数

可以写为：

或关键领域[26，41]。特别地，Penget al.[26]提出了一

个部分空间约束，以确保模型可以

cls

−

I∈I

·log

（

）

，

（

）

选择有区别的区域，并使用专门的聚类算法来整合这

些区域的特征。Yang等[41]介绍了一种方法来检测信

息区域，然后仔细检查它们以进行最终预测。这些先

前的工作旨在直接从像素级图像中搜索关键区域。

However, to correctly detect discriminative parts, the deep

understanding of the struc- tures of objects and the spatial

contextual information of key regions are essential. 反过

来，图像中区域的位置信息可以增强神经网络的视觉

表示[24]，这已经在无监督特征学习中得到了证明。

与以往的工作不同，我们提出的方法侧重于建模对

象部分之间的空间连接

哪里是用于训练的图像集。

对象范围学习模块和空间上下文学习模块旨在帮助

我们的骨干分类网络学习有利于结构理解和对象定位

的表示。这两个模块是轻量级的，并且只引入了一些

可学习的参数此外，OEL和SCL在推理时被禁用，并

且仅需要分类模块以提高计算效率。

3.1.

对象范围学习（OEL）

定位图像中对象的范围是理解对象结构的先决条

件。典型的方法是引入边界框或分割

剩余10页未读，继续阅读

cpongm

粉丝: 6

自监督结构建模提升目标识别性能

决策树建模基础：信息增益与Gini指数的对比分析揭示模型优劣

实体识别中的无监督学习：在数据中发现实体的7种方法

高级数据分析：信息增益在复杂决策树结构中的巧妙应用

语音识别数据预处理全攻略：深度学习中的增强方法

掌握决策树：揭秘信息增益在数据分类中的核心地位

数据挖掘进阶：信息增益在决策树优化中的决定性作用

【高级PID调节技术】：8种方法提升PID控制在复杂系统中的性能

数据挖掘入门：从数据清洗到预测建模

机器人控制系统设计与仿真：Matlab建模的权威指南

【模式识别与分类】：模糊控制与模式识别结合的实践应用

最新资源