UniVIP：创新的自我监督视觉预训练解决方案

4 浏览量更新于2024-06-20 收藏 1000KB PDF 举报

本文介绍了“UniVIP：一个统一的自我监督视觉预训练框架”，该框架旨在克服现有的自监督学习（SSL）方法在处理多中心对象和复杂场景时的局限性。传统SSL方法通常在如ImageNet这样的单一中心对象数据集上表现出色，但忽视了场景与实例之间的关联以及实例之间的差异。UniVIP提出了一种新的自监督框架，能够学习通用的视觉表示，适用于单中心对象或非图标数据集。在 UniVIP 框架中，作者关注了三个层次的表示学习，并引入了最优迁移算法来自动评估实例的区分度。这一创新方法使得模型能够在非图标数据集如COCO上进行预训练，进而展现出优秀的下游任务性能，包括图像分类、半监督学习、对象检测和分割。实验结果证实，使用UniVIP预训练的模型在这些任务上的表现超越了现有方法，尤其是在线性探测任务中，优于BYOL 2.5%，并在COCO数据集上的对象检测任务中超过了当前的自监督方法。文章指出，深度学习在计算机视觉领域的成功很大程度上依赖于大量标注数据，而自监督学习则为利用未标注数据提供了可能。UniVIP通过考虑实例间的关联性和差异性，增强了模型在复杂场景下的泛化能力，这在现实世界的应用中具有重要意义，如智能城市的监控、自动驾驶等场景，其中图像往往包含了丰富的多中心对象和复杂背景。 1. 知识点： - 自监督学习（Self-Supervised Learning, SSL）：一种机器学习方法，通过利用数据本身的结构作为监督信号，无需人工标注，从而学习特征表示。 - 实例区分度：衡量不同实例之间的差异性，对于理解和识别多中心对象和场景中的多样性至关重要。 - 最优迁移算法：在 UniVIP 中用于自动评估实例区分度的策略，有助于优化表示学习过程。 - 单中心对象数据集：如 ImageNet，主要包含单一主体的图像，适用于特定类型的学习任务。 - 非图标数据集：如 COCO，包含多中心对象和复杂场景，更接近实际应用中的图像。 - 通用视觉表示：能够适应不同任务和数据集的特征表示，提高模型的泛化能力。 - 下游任务：基于预训练模型进行的特定计算机视觉任务，如图像分类、对象检测和分割。 - 线性探测：评估预训练模型性能的一种方法，通过将预训练权重直接应用于线性分类器并进行测试。通过 UniVIP，研究者希望推动自监督学习在处理多样化和复杂视觉数据时的效能，进一步降低对大规模标注数据的依赖，提升模型在真实世界应用中的实用性。

14629

步骤1

步骤

损

失

候选人生成

一代

在线

网络

目标

网络

在线

网络

目标

网络

视图提取

















concat

图2. UniVIP的管道。首先利用无监督对象建议算法选择性搜索，提取非图标图像的候选实例。然后，我们从图像中创建具有

重叠区域和重叠区域中的多个实例的两个视图。重叠区域的存在可以保证场景的相似性。在这里，我们采用两个实例作为例

子。进一步地，我们将两个场景视图和两个实例馈送到在线网络和目标网络，并获得特征表示。最后计算场景间的相似度、场

景间的相关度和实例间的区分度总损失函数

由L

场景

、L

场景

实例和L

实例组成

。

同样的例子。SwAV [1]将图像特征映射到一组可训练

的原型向量，并提出了一种用于自监督数据增强的多

裁剪策略。此外，一些作品[2，9]将借口任务扩展到

视觉变换器[10，13]，并在图像分类中实现了优异的

性能。此外，MST [23]提出了一种注意力引导的掩模

策略，以避免对自监督Transformer学习的图像关键区

域进行掩模。尽管如此，他们的大部分进展仍然局限

于单中心对象预训练数据，如ImageNet [12]，并且在

扩展到非图标数据集时可能不可行。

2.2.

自然场景

Purushwalkam

等人。

[31]指出，当前SSL方法的进

步适度来自于它们对ImageNet数据集偏差的使用。此

外，他们发现在偏差较小的COCO数据集上训练MoCo

并没有得到令人鼓舞的结果。此外，HED [49]报告了

在COCO和PASCAL

[14]数据集。最近，MaskCo [51]也注意到当前SSL方

法的语义一致性假设，并提出了一种用于视觉表示学

习的对比掩码预测任务。一些初步工作[17，29，34]

天真地将现成的自适应学习方法从ImageNet扩展到其

他数据集，如MS COCO [26]，Places365 [52]和YFCC

100M [36]，但它们没有获得令人满意的结果，因为这

些数据集不满足语义一致性假设，即使

一些数据集的大小比ImageNet大几个数量级。此外，

DenseCL [30]，Self-EMD [27]，MaskCo和SCLR [33]利

用非图标图像的局部区域来预训练模型，但这些方法

仅适用于特定的下游任务，无法获得通用的视觉表

示。DnC [37]交替使用对比学习和基于聚类的硬否定

挖掘来训练YFCC 100 M [36]和JFT-300 M [35]。ORL

[44]在MS COCO上进行预训练时表现出令人印象深刻

的性能，但其三阶段方法消耗大量时间，因此无法支

持大规模预训练。然而，这些方法没有意识到场景和

实例之间的语义相似性，也忽略了不同实例的语义区

分。

方法

我们提出的UniVIP的管道如图2所示。提出了一种

统一的视觉自监督方法来学习通用的视觉表征，该方

法创造性地集成了场景相似度、场景-实例语义亲和度

和不同实例的语义区分度。在这里，我们首先回顾3.1

中的基本实例判别方法。然后，在3.2中解释了场景相

似性的机制和效果。此外，我们还研究了3.3中场景实

例的相关性。最后，引入最优传输算法来促进不同实

例的语义区分，并在3.4中描述了我们的方法的训练函

数。

剩余14页未读，继续阅读

cpongm

粉丝: 6

UniVIP：创新的自我监督视觉预训练解决方案

视觉模型预训练通用框架

自监督视觉Transformer

self-supervised-pretraining:存储库为计算机视觉任务提供了广泛的自我监督的预训练模型

cole_02_0507.pdf

工程硕士开题报告：无线传感器网络路由技术及能量优化LEACH协议研究

【东海期货-2025研报】东海贵金属周度策略：金价高位回落，阶段性回调趋势初现.pdf

图像数据处理工具+数据(帮助用户快速划分数据集并增强图像数据集。通过自动化数据处理流程，简化了深度学习项目的数据准备工作)

diminico_02_0709.pdf

agenda_3cd_01_0716.pdf

A课件Python全栈开发线下班.zip

最新资源