KPLS子空间与FNN结合的非线性变量选择方法

2 下载量 58 浏览量 更新于2024-08-26 收藏 785KB PDF 举报
"KPLS子空间中基于虚假最近邻的非线性变量选择研究" 本文主要探讨了在非线性分类问题中如何有效地进行变量选择,以提高模型的性能和解释性。研究者提出了一种新颖的方法,该方法结合了局部偏最小二乘(Kernel Partial Least Squares, KPLS)子空间与虚假最近邻(False Nearest Neighbours, FNN)的概念,用于识别和剔除不重要的输入变量。 KPLS 是一种非线性降维技术,它通过内核映射将原始数据转换到高维特征空间,然后在该空间中执行部分最小二乘回归,从而捕获数据的非线性关系。这种方法能够处理非线性复杂的数据模式,但同时也会导致变量数量的增加,增加了模型的复杂性和计算负担。因此,变量选择在这个过程中显得尤为重要。 FNN 方法通常用于检测数据点在高维空间中的局部结构,它通过检查数据点与其最近邻之间的距离变化来识别潜在的近似最近邻。在KPLS子空间中应用FNN,可以度量变量的重要性。如果一个变量对数据点在子空间中的邻域结构影响不大,那么它可能被视为不重要的变量,可以被剔除。 研究者首先将非线性输入数据转换为KPLS子空间的主要成分,这些主要成分代表了数据的主要变异性。然后,通过FNN的距离度量来确定各个变量的重要性顺序。在这一过程中,那些使得数据点与其最近邻之间距离显著增大的变量被视为较不重要的,因为它们可能不贡献于模型的预测能力。通过这种方法,可以识别并去除对模型贡献较小的变量,实现变量的简约化。 实验部分,作者针对三个典型的分类问题,使用不同参数模型进行了变量选择的研究。结果表明,结合KPLS子空间和FNN的变量选择方法对于非线性模型的约简具有良好的效果。这意味着这种方法可以有效减少非线性系统中的输入变量数量,同时保持模型的预测性能。 这项工作为非线性分类中的变量选择提供了一个创新且实用的工具,有助于提高模型的效率和解释性。通过利用KPLS的非线性表示能力和FNN对局部结构的敏感性,研究人员可以更好地理解数据的本质,并构建更加精简且强大的非线性模型。这种方法的应用不仅限于学术研究,也对实际工程问题,如生物信息学、信号处理和模式识别等领域有广泛的应用前景。