深度学习中的不平衡数据问题：新解释与解决策略

176 浏览量更新于2024-06-20 收藏 1.99MB PDF 举报

深度学习在处理类不平衡数据时面临的问题和解决策略是近年来研究的热点。类不平衡是指在训练数据集中，某些类别的样本数量远少于其他类别，这在实际应用中尤为常见，如图像分类、自然语言处理等场景。最近的研究指出，神经网络在面对这类数据时，可能会出现过度拟合主要类别、忽视小类问题的现象，这导致模型在训练集上的表现良好，但在测试集上的泛化能力较差。例如，当使用长尾CIFAR-10数据集训练ResNet-32时，观察到小类（如少数类别10）的训练精度增长缓慢，且早期阶段大多数实例被误分类为主要类别。这种现象被称为“小类过度拟合”，即模型倾向于在训练初期就将大部分数据分配给主要类别，从而忽略了对小类特征的充分学习。为了解决这一问题，本文提出了一个新的学习策略，即“跨类均衡训练进度”。核心思想是通过在训练过程中对主要类别数据进行特征降权，使神经网络在关注主要类别的同时，也能平等对待小类。具体做法是将主要类别数据的特征与小批量其他数据的特征混合，这样能减缓模型对主要类别的过度拟合，促使它更多地关注小类特征的学习。实验结果表明，这种方法能够显著提高训练精度，同时平衡跨类的特征梯度，有效缓解小类数据的欠拟合问题，进而降低过拟合风险。在多个基准数据集上，作者的方法展现出优于现有技术的性能，特别是在步骤不平衡的情况，如长尾分布下，其准确性得到了显著提升。总结来说，深度学习在处理类不平衡数据时面临的挑战和解决策略是多维度的，涉及模型架构调整、数据增强、权重调整等多个层面。本文提出的跨类均衡训练策略为这一问题提供了新的视角和有效的解决方案，有望进一步推动深度学习在实际应用中更好地应对复杂数据集的挑战。

n=1

c=1

◦

c=1

◦

n=1

c=1

n=1

，

{

}

c=1

小类数据提供了特征偏差的解释

方法

在本节中，我们介绍我们的方法，我们称之为主要

特征弱化（MFW）。我们从基本符号开始，然后是我

们的算法。然后，我们提供了分析其属性，特别是它

如何平衡

算法1：主要特征弱化（MFW）：

详见第3.2小节。

输入：

训练数据D

（

，

）

;

初始参数

θ，w

;

权重函数s

;

分布系数

α;

批量

模型：

而

不收敛

(1) （一）

样本

{

（x

，

y ）

}

，来自

(2) （二）

置换

D以得到D

{（x

，

y ）}

3.1.

背景和注释

为

我们将C类神经网络分类器表示为

∈

，

···

，

Beta

（α

，

α）

←

s（N

（1）

）

∈

{

，

···

，

}

∈

（

）

，

（

）

其中

是输入，

（

）

是特征提取器参数。

端

（

−

（

）

×g

（x

（

）

+λ

（

）

用

表示，

{

}

是最终的全连通层

优化

公式

（

w.r. t

）

和

{

}

线性分类。特征提取器

（

）

可以是

c=1

进一步分解为

（）

（

（）），

其中

g θ

的输出是中间特征。

使用

（

，

）

= 1

，其中等式

中的

（

）

由

代替

。

端

给定训练集

{

（

，

）

}

，其中每个

类

有

个

个实例，我们通常通过

经验风险最小化

（ERM）来训练分类器，使用损失函数

（

，

{

（

）

}

）的

情况下，

min

（

，

{

（

）

}

）

c=1

其混合（

即

，凸插值）中间特征g

（

）与g

（

）以

成为x1的新

中间特征

。

x 1

的标签保持完整。因此，

当

y2y1

时，等式4基本上将g

（

）移向

其他类别的特征，从而

削弱

其特征。的

min

，

{

}

（y

，

{

（

c=1

）的情

况

。

（

二）

然后将所得的

（

，

）

馈送到

中

以获得特征

、计算损失。

c=1

这里，λ

∈[0

，

1]是从beta分布

一种流行的损失函数是交叉熵损失，

Beta（α

，

α）遵循[76]，然后乘以

类相关权重

（

）

。权重函数

（

）

（y

，

（x）}

）

− log p（y|x;

，

{

}

）

exp（

（

））

随着类大小N

单调增加，并且具有范围

，

，这

给了主要类更大的权重

−log

exp

（

（x

）

（

三

）

来弱化他们的特征即g

（x

）将被削弱

我们应用随机梯度下降（SGD）进行优化，从D

均匀

采样的实例。

对于类不平衡学习，每个类c将具有不同数量的训

练实例

。

3.2.

主要特征弱化

如第1和图1所述，使用类不平衡数据训练的神经网

络倾向于首先拟合主要为了解决这个问题，我们建议

削弱每个小批量内的主要类的功能。

设（

，

）和（

，

）为小批量中的两个训练数

据实例，MFW对

的中间特征g

（

）

（

−

）

（

）

（

）

，

〜

，

⑷

）

}

特征梯度和跨类的训练进度

如果

是主类，则λ

越

大

，则

越大

然而，尽管如此，

剩余14页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

深度学习中的不平衡数据问题：新解释与解决策略

机器学习对不平衡数据学习处理方案

机器学习——数据不均衡及解决方案

机器学习中的不均衡数据问题

深度学习中的样本不平衡解决方案：SMOTE与策略选择

不平衡数据分类方法：挑战与解决策略

解决类别不平衡问题策略：调整数据与算法

"深度学习中的正则化策略及影响

深度学习中的过拟合与欠拟合：解决策略

深度学习流量分类：应对不平衡数据集的焦点损失方法

深度学习：过拟合、欠拟合解决策略与梯度问题

最新资源