域适应视角下的长尾视觉识别类平衡策略

PDF格式 | 1.53MB | 更新于2025-01-16 | 13 浏览量 | 举报

"这篇论文探讨了长尾视觉识别问题，主要关注如何从领域适应的角度解决类不平衡问题。作者指出，由于现实世界数据的幂律分布，导致机器学习模型在处理长尾分布的数据集时遇到困难，尤其是对于尾部类别的识别。文章分析了现有的类平衡方法，如目标移位，并提出这些方法往往假设训练和测试数据的类条件分布相同，而这一假设在长尾分布情况下并不成立。" 正文: 长尾视觉识别问题在当前深度学习时代尤为突出，因为尽管大型数据集和强大的计算能力推动了视觉识别的进步，但长尾分布的数据集会导致模型对少数高频类别过拟合，忽视低频类别，即尾类。这种不平衡的学习导致模型在处理尾类时性能下降，无法实现对所有类别的均衡识别。域适应是处理数据分布不一致的一种策略，通常用于处理源域和目标域之间存在的分布差异。在长尾视觉识别中，域适应的概念可以用来解决训练集与真实世界分布的不匹配。论文指出，类平衡方法，如目标移位，可以被看作是领域适应的一种形式，目的是调整模型的注意力，使其不仅关注头部类别，也关注尾部类别。为了改进现有方法，作者提出了将经典的类平衡策略与元学习相结合，以估计和适应不同类别的条件分布。元学习是一种学习如何学习的方法，它可以允许模型快速适应新环境或任务。通过这种方式，模型能够更准确地估计那些在训练集中样本稀少的尾类的条件概率分布，从而提高它们的识别性能。论文通过在六个基准数据集上进行实验，验证了这种方法的有效性，并使用了三种不同的损失函数来评估模型性能。实验结果表明，结合元学习的目标移位可以有效地缓解长尾视觉识别中的类不平衡问题，提升模型在所有类别上的识别准确性。该论文揭示了长尾视觉识别问题与领域适应之间的内在联系，并提出了一种新的策略来处理这种问题。通过将类平衡和元学习相结合，模型能够在有限的训练样本条件下更好地泛化，这对于处理现实世界中的长尾数据集具有重要的实践意义。未来的研究可能会进一步探索如何优化这种方法，或者结合其他技术，如迁移学习和数据增强，以进一步提高长尾视觉识别的性能。

7612

不

域适应。在实际应用中，训练样本的分布之间存在着

不匹配

训练目标函数，

数据和测试数据的各种原因[49，17，60]。做-

主要的自适应方法旨在减轻不匹配，使得学习的模型

可以很好地推广到推理-

min

（

;θ

）

，

）

，

（

）

时间数据[46，45，21，20]。有一些方法可以处理领

域自适应中的不平衡问题。Zou等人。[63]通过使用归

一化的类的置信度来控制伪标签学习和生成来处理类

不平衡。 Yan等人。[55]使用加权最大平均差异来处

理无监督域自适应中的类不平衡。我们从领域适应的

角度理解视觉识别中的长尾挑战。虽然域自适应方法

需要访问大量未标记的（有时也是一小部分标记的）

目标域数据，但在我们的方法中，我们不访问任何推

理时间数据。与域自适应中现有的加权方法不同[5，

27，58]，我们元学习权重。

作为域适应的类平衡

其近似于预期的推断误差（等式10）。（五））

通过假设

，

，或者换句话说，通过假设

（

）

（

）

对于

n y

类

。这种假设

在域适应

中

被

称为目标转移

[58]

。

我们认为，一个共享条件

分布

（

）的假设

）

（

）

，

一般

不成立，

特别是对于尾部类。

人们可以很容易地为Dog 编译一个有代表性的训练

集，但不能为King Eider编译。我们建议显

式

地模拟源

和目标条件分布之间的

差异

，并在类平衡方法的基础上

得到一个改进的算法。

条件差异建模

为了简单起见，我们引入条件权重

，

：

表示

，

，并将预期的推理错误重写为

误差

（

，

）

（

x;θ

）

，

）（

+θ

，

）

（

）

在本节中，我们将详细分析类-

平衡方法[26，38，7，8，39]从域适应的角度来看长

尾视觉识别。

≈

（

）

（

;

）

，

）

，

（

）

假设我们有一培训设置（源域）

{

（

，

）

}

绘制

i.i.d.

从长尾分布

（

，

）

更确

切地说，类的边缘分布

（

）

是重尾的，因为在视

觉识别中，

通常很难收集稀有类的例子。尽管如此，我们希望学

习一个视觉识别模型，以便在所有类上尽可能少地犯

错误：

误差

（

，

）

（

x;θ

）

，

）

，

（

）

其中，我们希望目标域

（

，

）的边际类分布

（y）

更平衡（例如，

（

;

）

是

由θ参数化

的识别

模型，

（

，

）

是

0-1

损失。我们可以稍微

使用

符号

（

，

）

，并将其

设

为可区分的

替代损失（即，交叉

熵）。

接下来，我们应用重要性抽样技巧将预期误差与长

尾源域联系起来，

误差=E

（

，

）

L（f（x;θ）

，

y）

（

）

（

，

）

（

x;θ

）

，

）

（

，

）

（

，

y）（

）

其中最后一项是误差的无偏估计。值得注意的是，我

们没有假设源域和目标域的条件分布是

相同的，即，

我们都有

（

）

（

）

和

的情况

。

因此，每个训练示例的权重由两个组成

零件.一个分量是类权重

wyi

，另一个分量是条件权重

wyi

。我们需要估计这两个分量，以从等式导出实用算

法。（8）因为数据的潜在分布是未知的-尽管我们相

信训练集的类分布必须是长尾的。

4.1.

估计类权重

{

}

我们让类的权重类似于文献中经验上成功的设计特

别是，我们通过最近提出的“有效数”来估计它们假设

第 y 个类有 n

个

训练样本，我们有 w

<$ （ 1−β ） /

（1−β

），其中β∈[0

，

是一个超参数，推荐值

（

−1）

，

是训练样本

的数量

（

，

）

（

;

）

，

）

（

）

（

）

剩余11页未读，继续阅读

cpongm

粉丝: 6

域适应视角下的长尾视觉识别类平衡策略

自监督蒸馏：提升长尾视觉识别的新方法

检索增强分类：解决长尾视觉识别的新策略

高斯云Logit平差提升长尾视觉识别：解决扭曲嵌入与偏斜分类

图像识别，超图特征增强和自适应逻辑调整的长尾视觉识别（HALR）算法.docx

LADE:该存储库包含在CVPR'2021年发表的论文“用于长尾视觉识别的解开标签分布”的代码

AI机器学习及其应用长尾数据深度视觉识别研究报告.pdf

官方PyTorch实现：BBN长尾视觉识别网络

CVPR 2021长尾视觉识别论文代码库LADE发布

膨胀情节记忆与区域自注意提升长尾视觉识别性能

BBN: 双边分支网络解决长尾视觉识别的深度策略

最新资源