语言引导的深度度量学习：增强嵌入空间泛化

9 浏览量更新于2024-06-20 收藏 1.08MB PDF 举报

"这篇论文探讨了如何将语言指导融入到深度度量学习（DML）中，以增强视觉相似性学习的嵌入空间泛化能力。作者指出，传统的DML方法依赖于二进制类分配的对比排序任务，忽视了实际类之间的语义关系，导致学习到的嵌入空间无法充分捕捉语义上下文。为了解决这个问题，他们提出了一种新的方法，利用语言广泛的实验和伪类名来指导学习过程，从而在嵌入空间中更好地编码语义相似性。这种方法不仅提高了视觉对齐的质量，还显著提升了模型在未见过的类别的泛化性能。此外，该研究强调了在训练中考虑超出简单类别区分的语义关系的重要性，因为这有助于建立更有意义的语义上下文，尤其对于新类别的识别。论文的代码可以在github.com/ExplainableML/LanguageGuidance上获取。" 【知识点详细说明】 1. 深度度量学习(DML)：DML是一种学习技术，它旨在构建深度神经网络，使得在嵌入空间中，两个样本的预定义距离能反映它们的实际语义相似度。这种方法常用于图像检索、人脸识别、聚类等任务。 2. 视觉相似性学习：通过深度学习，比较和理解图像间的相似性，这是许多计算机视觉应用的基础，如图像分类、检索和识别。 3. 语言指导：论文提出利用语言信息来指导深度学习模型的学习过程，帮助模型理解和捕获更复杂的语义关系，从而改善模型的泛化能力。 4. 嵌入空间距离：在DML中，学习的目标是使嵌入空间中的点距离与其语义相似性相对应。欧氏距离或余弦距离等预定义的距离度量常被用作衡量标准。 5. 语义关系：在多类别的视觉任务中，类之间的语义关系（例如，跑车与皮卡车之间的关联）对于模型的泛化至关重要。传统DML方法往往忽视这些高层语义联系。 6. 泛化能力：模型在训练集以外的数据上的表现，是衡量模型性能的重要指标。语言指导可以提升模型的泛化能力，使其能够处理未见过的类别的视觉相似性任务。 7. 对比排序任务：DML中常用的训练任务，要求模型根据类标签对样本进行排序，以优化嵌入空间的结构。 8. 超越类别标签的语义上下文：除了类别标签，还应考虑其他上下文信息，如图像的描述、属性或关系，这些都可以提供更丰富的语义信息，提高模型的表示能力。 9. 代码开源：研究团队提供了他们的DML代码，便于其他研究者复现实验结果或在其基础上进行进一步的研究。 10. 层次结构与语境化：层次结构或其他形式的上下文信息可以帮助模型更好地理解类之间的关系，增强其泛化性能，特别是对新类别的识别。

16179

◦

X →

∈ X

→

⊂

ǁ··ǁ

··

图

语言指导。

我们通过嵌入（

）专家类名或（

）

top-kImageNet

伪标签来扩展视觉相似性学习的默认

DML

管道，这些伪标

签不需要额外的专家监督，具有预训练的语言模型。这提供了语言相似性矩阵S

lang

，用于指导

ImageNet

通过

S lang

和图像相似性

S img

，

之间基于蒸馏的匹配（L

match

pseudomatch

）

生成的细粒度视觉相似性空间的结构

。

语言指导

本节介绍了DML分类、带有专家类标签的语言指南

（第3.2节）和无额外监督的语言指南（第3.3节）。

对（x

，

）或（x

，

），其中y

，具

有

锚

，

正

和

负

，可以定义训练目标，例如

[37][72]如：

I max[

，

（

，

）]

3.1.

预赛

（

，

）

∈

第

12页

（

一

）

深度度量学习（DML）在由深度度量参数化的图像

上学习距离度量d

（x

，

）。特征提取模型φ：

Φ（与在

深度学习，参见例如[99]）和到目标度量空间

的投

影：

ΦR

，其定义特征上的马氏（伪）距离[99]。虽

然非端到端的可训练方法主要针对给定特征的参数化

度量进行优化，但在DML中，两者都是联合训练的。

这使我们能够从图像空间中学习投影

，

φ，跨越度

量（或嵌入）

空间上的相似性，使得在相似性上的预定距离度量d

（

，

），通常是余弦或欧几里德距离d

1，与输入

样本的真实语义相似性有密切联系。通常将单位超球

归一化为

：

[19，66，91，110，115]对于regulariza-

[91，109，111，115]。这种高维嵌入

适合于与容易预定义的非参数度量一起使用的空间对

于快速近似相似性搜索方法是有吸引力的[1，48，

65]。在有监督的DML中，通常通过使用提供的类标签

信息定义的排名任务来学习，引入基于对、三元组或

高阶元组的对比目标举个例子

min[

，

（

，

）

]

在minibatch中具有有效对

这样做可以更近地嵌入相同

类别的样本（根据d（

，

）），同时将不同类别分开

到边缘γ

和γ

。这可以很容易地扩展到通过选择高阶

元组，元组采样算法[89，94，115]或代理表示[50，

71，102]来合并更复杂的关系。

3.2.

使用专家类名的语言指导

然而，对仅使用类别标签定义的排名任务的依赖并

不能解决类别之间的高级语义关系，即使这种非歧视

性关系对于强大的下游泛化至关重要[60，66，88，

123]。因此，我们建议利用语言语义来更好地对齐视

觉表示空间，并以两种方式实现。本节将介绍E xpert

L语言

指南

（ELG）方法（另见图1）。2 a），它使用

专家类标签名称，而下一节涵盖P语言

标签

指南

（PLG）。为了通过ELG将语言语义纳入视觉相似性

学习，我们使用大型预训练语言模型CLIP [83]，BERT

[23]或RoBERTa [64]，它们映射输入句子c

∈ C，对应

于

剩余14页未读，继续阅读

cpongm

粉丝: 6

语言引导的深度度量学习：增强嵌入空间泛化

Deep Metric Learning for Few-Shot Image Classification A Selec

深度度量学习代码库与研究：PyTorch实现及泛化性能分析

深度度量学习：自适应可学习评估策略

统一框架：广义零样本学习中的视觉-语义映射与深度度量

少样本图像分类中的深度度量学习精选综述

OpenCV+Python+深度学习：实现实时面部识别与深度度量学习详解

深度度量学习中的类崩溃问题与改进：边缘损失视角

深度度量学习新策略：分治方法提升效果

代理综合实现：深度度量学习的PyTorch官方版本

深度度量学习：排名列表损失与结构优化研究

最新资源