解决不平衡与大规模数据：基于样本的子空间聚类方法

181 浏览量更新于2024-06-20 1 收藏 747KB PDF 举报

"这篇论文探讨了在类不平衡数据集上进行无监督学习的问题，特别是针对大规模数据集的子空间聚类方法。研究中提出了一种基于样本的子空间聚类算法，旨在解决数据分布不平衡和数据量庞大的挑战。该方法通过1范数最小化来选择数据的代表性子集，并采用最远的第一搜索算法有效地选择样本点。实验证明，这种方法在不平衡的图像数据集上表现优于现有的子空间聚类技术，并且在人脸图像分类的无监督数据子集选择中也展现出优越性能。关键词包括子空间聚类、不平衡数据和大规模数据。" 文章的介绍部分指出，尽管深度学习在有监督学习中取得了显著成果，但随着数据量的增长，获取大量标注数据变得困难，因此无监督学习技术的需求日益增加。现有的标注数据集通常是类平衡的，而未标注数据集则可能存在类不平衡问题。在这种背景下，处理不平衡数据成为了无监督学习的关键难题。传统的无监督学习方法常常利用数据的低秩特性，例如在计算机视觉应用中，数据的内在维度往往远小于观测维度。文章引用了面部图像的例子，说明即使在光照变化下，面部图像的亮度也可以用低维度空间来近似。论文中展示的实验结果（图1）显示，传统的子空间聚类（如SSC）在面对不平衡数据或大规模数据时，其聚类准确性显著下降。为了解决这一问题，作者提出了新的基于样本的子空间聚类方法，它能够在数据不平衡和大规模的情况下保持较好的聚类效果。通过选择数据的代表性子集，即使数据分布不平衡，也能确保所有数据点被有效表达。这篇文章的核心知识点包括： 1. 类不平衡数据问题：在无监督学习中，不同类别样本数量的显著差异会影响聚类效果。 2. 大规模数据集的挑战：随着数据量的增加，传统的无监督学习算法可能效率降低，需要更高效的方法来处理。 3. 子空间聚类：一种常用的无监督学习方法，它试图将高维数据映射到低维空间以揭示数据结构。 4. 基于样本的子空间聚类算法：通过1范数最小化和最远的第一搜索算法，选择数据的代表性子集，以适应不平衡和大规模数据。 5. 实验验证：新方法在不平衡图像数据集上的聚类性能优于现有技术，并在人脸图像分类任务中表现出色。这些知识点对于理解和改进无监督学习在不平衡数据集上的性能至关重要，特别是在处理大规模视觉数据时。

C.你C Li，D.罗宾逊河维达尔

选择任务，其中目标是从大数据集中选择可以用于训练分类器的子

集，该分类器导致最小的性能损失。

相关工作

稀疏字典学习（SDL）。给定数据集的稀疏表示是信号处理和机器

学习中研究得很好的问题[17，18]。给定集合X

和整数

，SDL计算

原子字典D

，其中|D| ≤

，使稀疏表示成本最小化。基于SDL，[19]

提出了一种线性时间子空间聚类算法，如果字典D中的原子位于与输

入数据X相同的子空间的并集中，则该算法保证是正确的。然而，很

少有证据表明这样的条件在真实数据中得到满足，因为字典D的原子

不被约束为X的子集。另一个最近的工作[20]，使用数据独立的随机

矩阵作为字典，也遭受这个问题，缺乏正确性保证。

稀疏字典选择。显式地约束要从X中获取的字典原子的SDL模型的三

个变型是同时稀疏表示[21]和字典选择[22，23]，其使用贪婪算法来解

决它们各自的优化问题，以及组稀疏表示选择

[24

特别地，当数据是

从独立子空间的并集中提取时，[26]中的方法被示出为从每个子空间

中选择几个代表然而，这些方法在X中的点数方面具有二次复杂度。

此外，基于凸优化的方法在选择期望数量的代表时不灵活，因为子集

的大小不能通过调整算法参数来直接控制。

子集选择。选择整个数据的代表性子集已经在广泛

的

背景下进行了研

究，例如行列式点过程

[30

-32]，秩显示QR [33]，列子集选择[34，

35]，可分离的然而，他们不建模的数据来自一个联盟

的

子空间，也

没有证据表明，他们可以选择良好的代表，从这样的数据。几个最近

的作品

[39

-中心和

-中心点。

-中心问题是理论计算机科学和运筹学中研究的

数据聚类问题。给定一个集合X和一个整数

，

目标是找到一个中心集

合X

X，其中

|x0

的

k表示

最小化量max

∈X

（x

，

），其中

（x

，

）：= min

∈X

x − v

是x到X

中

最近点的距离的平方。X的一个划分由每个点x∈ X所属的最近

中心给出

-中心点是

-中心

点的一个变体，它最小化了平方距离的和，

即

例

如

，

ize

∈

Xd2

（x

，

）而不是最大距离. 然而，

-中心和

k-medoids将数据建模为集中在几个聚类中心，并且

通常不适用于位于子空间的并集中的数据。

剩余16页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

解决不平衡与大规模数据：基于样本的子空间聚类方法

加权邻域超网络：解决不平衡数据分类的新方法

三支决策理论下的不平衡数据过采样算法

改进的NKSMOTE算法：解决非平衡数据集分类问题

基于随机秩次k近邻规则的不平衡数据分类算法.pdf

不平衡类数据挖掘研究综述.pdf

KEEL类别不平衡数据集.rar

信用卡盗刷预测：四模型实战数据挖掘与不平衡样本处理

v-NSVDD多分类算法：解决不平衡数据问题

基于MATLAB的数据平衡与不平衡处理方法

YOLO训练集样本不平衡问题分析与解决：平衡训练集数据分布，提升模型性能

最新资源