数据的多流形结构分析
我们已经进入了一个信息爆炸的时代,海量的数据不断产生,迫切需要对
这些大数据进行有效的分析,以至数据的分析和处理方法成为了诸多问题成功
解决的关键,涌现出了大量的数据分析方法。几何结构分析是进行数据处理的
重要基础,已经被广泛应用在人脸识别、手写体数字识别、图像分类、等模式识
别和数据分类问题,以及图象分割、运动分割等计算机视觉问题(人脸识别、
图像分类、运动分割等实例见下文)中。更一般地,对于高维数据的相关性分
析、聚类分析等基本问题,结构分析也格外重要。
文献[1]指出一个人在不同光照下的人脸图像可以被一个低维子空间近似,
由此产生大量的数据降维方法被用来挖掘数据集的低维线性子空间结构,这类
方法假设数据集采样于一个线性的欧氏空间。但是,在实际问题中很多数据具
备更加复杂的结构。例如,文献[2]中指出,运动分割(motion
segmentation)中的特征点数据具有多个混合子空间的结构,判断哪些特征
点属于同一子空间是这个问题能否有效解决的关键。
针对单一子空间结构假设的后续讨论主要是两个方面,首先是从线性到非
线性的扩展,主要的代表性工作包括流形(流形是局部具有欧氏空间性质的空
间,欧氏空间就是流形最简单的实例)学习等。流形学习于 2000 年在著名杂
志 Science 上被首次提出,之后逐渐成为了研究热点。基于数据均匀采样于一
个高维欧氏空间中的低维流形的假设,流形学习试图学习出高维数据样本空间
中嵌入的低维子流形,并求出相应的嵌入映射。流形学习的出现,很好地解决
了具有非线性结构的样本集的特征提取问题。然而流形学习方法通常计算复杂
度较大,对噪声和算法参数都比较敏感,并且存在所谓的样本溢出问题,例如,
当增加新的样本点时,不能快速地提取新特征。
其次是流形或子空间从一个到多个的扩展,即假设数据集采样于多个欧氏
空间的混合。子空间聚类(又称为子空间分割,假设数据分布于若干个低维子
空间的并)是将数据按某种方式分类到其所属的子空间的过程。通过子空间聚
类,可以将来自同一子空间中的数据归为一类,由同类数据又可以提取对应子
空间的相关性质。根据综述[2],子空间聚类的求解方法有代数方法、迭代方法、