带类别转移的弱监督目标检测

文件标签

PDF格式 | 805KB | 更新于2025-01-16 | 174 浏览量 | 举报

3070

CaT：带类别转移的弱监督目标检测

曹天跃

杜

连宇

张晓云

* 陈

思恒

，

张雅

，

王

艳峰

，

上海交通

大学合作媒体创新中心

上海人工智能实验室

{

vanessa，dulianyu，xiaoyun.zhang，sihengc，ya zhang，wangyanfeng

}

@ sjtu.edu.cn

摘要

在全监督对象检测和弱监督对象检测之间存在很大

的差距。为了缩小这一差距，一些方法考虑从附加的

全监督数据集转移知识。但是这些方法没有充分利用

全监督数据集中的判别类别信息，从而导致低

mAP

。

为了解决这个问题，我们提出了一种新的类别转移框

架弱监督对象检测。直觉是充分利用完全监督数据集

中的视觉区分和语义相关类别信息，以增强对象分类

能力。

弱监督数据集

双监督平均教师网络

语义图

卷积网络

弱监督检测器的性能。为了处理重叠的类别转移，我

们提出了一个双监督平均教师收集共同的类别信息和

桥梁之间的领域差距两个数据集。为了处理非重叠类

别转移，我们提出了一个语义图卷积网络，以促进相

关类别之间的语义特征的聚合实验以

Pascal VOC 2007

为目标弱监督数据集，

COCO

为源全监督数据集。我

们的类别转移框架实现了

63.5%

的

mAP

和

80.3%

的

CorLoc

，两个数据集之间有

个代码可在

https

：

//github.com/MediaBrain-SJTU/CaT

网站。

介绍

目标检测是计算机视觉中最基本的任务之一[44]。

在过去的十年中，基于深度神经网络，许多方法[16，

26，27]取得了巨大的成功。然而，大多数方法都遵循

完全监督的设置，这需要大量的高质量注释，包括对

象的精确边界框及其相应的类别标签。这一套-

张晓云为通讯作者。

本工作得到了国家重点研发计划（2019YFB1804304）、国家自

然科学基金（61771306）、超高清视音频制作与呈现国家重点实验

室、上海市数字媒体处理与传输重点实验室（ STCSM

18DZ2270700）和111计划（BP0719010）的部分支持。

图1.我们的类别转移框架的示意图。我们

利用双监督平均教师网络传递重叠的类别和对象知识

;

并使

用语义图卷积网络来传递非重叠的类别知识。最后的预测是

由教师生成的。

提取通常花费大量的时间和资源来获取这样的注释。

为了降低注释成本，提出了弱监督对象检测

（WSOD）[2，32，33]来训练仅具有图像级类别标签

的检测模型然而，缺乏边界框级别的监督导致重大问

题，如实例歧义和低质量的建议。因此，在全监督对

象检测（89.1% mAP，SOTA [10]）和弱监督对象检测

（56.8% mAP，SOTA [13]）之间仍然存在很大的性能

差距

为了缩小这一差距，一些以前的方法考虑从额外的

数据的知识转移。主要有两种方法：对象转移方法和

半监督方法。例如，[18，29，43]在源数据上训练通

用对象检测器并将其应用于目标数据;然而，这种对象

传递方法忽略了源数据集中的类别信息，导致分类效

果下降。[11，37，35，15]用部分完全注释的数据遵

循半监督设置，并将图像分类器转换为对象检测器。

这样的半监督方法利用了框和类别信息，但通常不能

解决数据集之间的领域差距，特别是类别不一致性问

题.

全监督数据集

狗

猫

全监督

学生

重叠

范畴迁移

车

狗

猫

教师

儿童

人

分类标签：狗，椅子

非重叠范畴转移

弱监管

学生

狗

椅子

人

3071

↔

补间源数据集和目标数据集。此外，还没有利用类别

之间的相关性。因此，缺乏利用类别信息仍然限制了

目标数据集的经验性能。

为了解决这些问题，本文特别考虑了类别迁移;也就

是说，利用完全监督数据集中的视觉区分和语义相关

的类别信息来增强识别。

全监督数据集内图

弱监督

数据集内图

弱监督检测器的犯罪能力。基于类别是否在全监督数

据集和弱监督数据集中共享，类别转移包括重叠类别

转移和非重叠类别转移，在重叠类别转移中，全监督

数据集和弱监督数据集共享相同的类别，在非重叠类

别转移中，两个数据集具有不同但相关的类别。

为了实现重叠的类别转移，我们提出了一个双重监

督的教师网络。双监督平均教师网络采用与平均教师

方法类似的结构[36]，但与两个学生一起工作，每个

学生由全监督或弱监督数据集监督。因此，我们的老

师可以从完全监督和弱监督的学生中收集重叠的类别

信息，从而提高辨别能力。此外，平均教师结构可以

弥合两个数据集之间的领域差距，包括图像和类别分

布的差异。

为了实现非重叠的类别转移，我们提出了一个语义

图模型之间的相关性全监督和弱监督数据集中的所

有类别。直觉是，即使两个类别是不同的，它们也可

以是高度相关的，并且它们对应的类别信息可以根据

相关强度被策略性地转移。图2示出了语义图的玩具示

例。弱监督数据集中的类别kid与全监督数据集中的类

别person不完全匹配，但它们在语义上在此语义图的

基础上，我们使用图卷积网络来开发非重叠的类别信

息，并为对象分类提供

总的来说，我们提出了一个端到端的框架;参见图

1。它包括一个更快的R-CNN [27]作为骨干网络，一个

用于重叠类别转移的双监督平均教师网络，以及一个

用于非重叠类别转移的语义图卷积网络。该框架可以

通过使用平均教师结构来填补领域空白，并通过在语

义图上聚合语义特征来与对象转移方法相比，我们从

全监督数据集中转移类别信息来改进分类器。与半监

督设置[11，37，35，15]下的方法相比，我们的方法

应用双监督均值教师来求解域

图2.类别标签图的一个例子红色、蓝色和黄色节

点分别代表全监督、弱监督和普通类别。数据集间图边

根据常见类别（“汽车（完全）”、“汽车（弱）”）和类别关

系来构建这些关系包括子类关系（ “

人

（完全）

”

、

“

小孩（弱）

”

）、包括关系（

“

自行车手

（弱）

”

、

“

人（完全）

”

）和相似性关系（

“

自行车（完

全）

”

、

“

轮椅（弱）

”

）

。每个数据集内图是有向图，并且

间图是具有双向边的双向图。最好用彩色观看。

gap，并使用语义图卷积网络来充分利用类别之间的相

关性，从而导致非重叠类别的语义转移我们的方法在

WSOD中优于最先进的方法，并取得了与FSOD基线竞

争的结果。

我们将我们的主要贡献总结为：

我们提出了一个新的WSOD的类别转移框架，专

门处理的类别转移问题，包括重叠的类别转移和非重

叠的类别转移的信息聚合问题

我们提出了一种新的双监督平均教师网络来处理

重叠的类别转移。该网络收集公共类别信息，并在两

个数据集之间架起域差距的桥梁

我们提出了一种新的语义图卷积网络，以解决非

重叠的类别转移。该网络促进了相关类别之间语义特

征的聚集。

我们进行了广泛的实验，并表明，所提出的方法

优于国家的最先进的弱监督对象检测方法，是有竞争

力的基准完全监督对象检测基线。

相关作品

弱监督目标检测。最近的作品通常制定WSOD作为

一个MIL的问题。WSDDN[2]是WSOD中的第一个端到

端MIL深度神经网络。受WSDDN的启发，提出了许多

方法。 [34] 将 WSDDN 和多级在线实例分类器细化

（OICR）算法集成到一个简单的深度网络中。[32]使

用迭代过程，建议集群学习（PCL），学习基于

车

猫

表

车

表

孩

子

人

足球

自行车

轮椅

骑车人

3072

∈

^ ^

您

的

位

置

：

∈

（

一

）

OICR。[33]引入了连续多实例学习（C-MIL），通过

平滑原始损失函数来解决部分支配问题。[42]使用自

上而下的信心和自下而上的证据，并进行自适应训练-

提取盒边界知识的机制关注-

类似地，对于全监督数据集

，每个图像

具有实

例级注释，包括边界

框

{

（

）

}

和它们对应的

类别标签

{

}

，其中

是边界框

Bf ={b

（

）

upworks通过自我训练[28]、自我升华[42] [13]等进一

步提高性能。

具有知识转移的弱监督目标检测。迁移学习通常用

于域适应（ DA ） [38] 。它可以桥接不同的数据集

[36]，类别[3]，甚至任务[11，12]，这降低了训练成

本，并利用了来自另一个数据集/域/任务的知识。在本

文中，我们专注于弱监督对象检测中的知识转移。附

加数据通常用于提供用于检测的辅助先验信息[35，1]

使用类别标签文本的词嵌入来表示类别之间的语义关

系，并且使用类别的依赖性来辅助对象检测。[30，

29，19]将在源域中学习的模型转移到目标域。此外，

一些作品[15，11，35]使用权重预测来有效地将图像

分类器转换为对象检测器。最近的研究[6，37，18，

23]提出了共享源域中学习到的一般知识的想法。知识

可以是对象预测器[6，23]，对象候选区域[37]或一般

边界框回归[18，43]。然而，由于两个数据集的类别

通常是不相同的，现有的大多数方法在这种情况下都

不起作用。在本文中，我们将WSOD与平均教师框架

相结合，以充分利用来自公共全监督数据集和弱监督

数据集的知识，这也可以解决类别不匹配问题。

知识引导的图形推理。图推理在许多任务中被证明

是有效的，包括图像分类[5，4]，对象检测[40，39]，

基于人体骨架的动作识别[21]或运动预测[22]等。这些

方法将领域知识建模为图，以基于类别依赖性，对象

空间关系或对象语义关系传递知识。一些分类模型

[5，4]基于数据集统计信息构建类别依赖图。[40]使用

知识图来发现用于特征进化的最相关类别。我们的方

法不仅使用语义图的完全监督和弱监督数据集的原因

类别的依赖性，但也转移两个数据集之间的类别相似

性或依赖性知识。

类别转移框架

问题表述。在数学上，给定弱监督数据集

，数据

集中的每个图像 x

具有图像级类别标签 y

，其中

，其中C

是弱监督数据集类别的数量。

并且

（

）

是图像中的第

个的类别标签

是完全监督的数据集类别的数量。我们的目标是

在

上训练一个模型，并从

转移知识。对于每个测

试图像

，模型可以

输出实例级检测，包括估计的

边

界框和类别估计

;

即

，

（

）。

概况. 为了设计这样一个模型，我们特别考虑了类

别转移;也就是说，利用完全监督数据集中的对象识别

的类别信息来增强检测器的辨别能力，该检测器是在

弱监督数据集上训练的。类别转移使得区分能力能够

从全监督数据集转移到弱监督检测器，从而导致更好

的检测性能。

如图3所示，建议的类别跨- FER框架包括三个部

分：骨干网、双监督教师网络（第3.1节）和语义图卷

积网络（第3.2节）。对于输入图像，我们的主干网络

遵循Faster R-CNN [27]的主干，提取视觉特征并生成

提案区域。双监督均值教师网络采用每个区域中的池

化视觉特征，并且通过利用来自全监督和弱监督数据

集两者的边界框和重叠类别信息来估计边界框和类为

了进一步实现非重叠类别转移，语义图卷积网络利用

类别之间的语义相关性并输出每个类别的语义特征。

为了对每个区域进行分类，我们将语义图卷积网络产

生的语义特征和来自双监督均值教师网络的R-CNN输

出的视觉特征进行聚合，以生成最终的类别特征，从

而提高识别能力。

3.1.

双重监督意味着教师网络

建议的双监督平均教师网络遵循传统的平均教师，

但有两个不同的学生分支。这种新颖的架构可以弥合

的领域差距，估计边界框和类通过重叠的类别转移。

网络架构。该网络由完全监督的学生分支、弱监督

的学生分支和教师分支组成。三个分支中的每一个都

将由骨干网络产生的建议区域的池化视觉特征作为输

入，并通过几个卷积层更新视觉特征;也就是说，给定

池化视觉特征F

，则更新后的视觉特征F p将被更新。

剩余10页未读，继续阅读

cpongm

粉丝: 6

带类别转移的弱监督目标检测

弱目标检测

传统的弱监督目标检测框架

蒙特利尔最新《自监督少样本目标检测》

动物窘迫发声检测：一种新方法，涉及有针对性的监督学习和转移聚类，以检测动物窘迫发声

DEYO：带有 YOLO 的 DETR 用于端到端目标检测

大规模预训练提升弱监督对象检测性能：检测转换器与多实例学习优化

无监督域自适应：LiDAR 3D目标检测的语义点生成方法

YOLO无监督目标检测前沿技术：研究进展与趋势

YOLO无监督目标检测评估指南：指标与性能度量

YOLO无监督目标检测应用指南：场景与行业案例解析

最新资源