输入变量选择:基于k-近邻互信息变化率的方法

0 下载量 155 浏览量 更新于2024-08-29 收藏 175KB PDF 举报
"该文提出了一种基于k-近邻互信息变化率的输入变量选择方法,用于解决多变量时间序列建模中的输入变量选择问题。这种方法利用k-近邻互信息来评估输入变量与输出之间的相关性,并通过比较输入变量子集间的互信息值来识别冗余变量。通过设置阈值系数,可以有效地筛选出对模型有显著影响的输入变量。文中通过Friedman、Lorenz混沌时间序列和Housing数据的仿真验证了该方法的有效性。" 在多变量时间序列建模中,输入变量的选择是至关重要的,因为它直接影响到模型的性能和复杂度。传统的变量选择方法可能忽视了变量之间的相互作用和相关性。本文提出的新方法基于k-近邻互信息(k-NNMI),这是一种衡量两个随机变量之间依赖程度的非对称信息量度。k-NNMI考虑了数据点的局部结构,因此能更准确地反映变量间的关联。 在该方法中,首先计算每个输入变量与输出变量之间的k-NNMI值。较高的k-NNMI值意味着输入变量对输出有较大影响,因此被优先考虑。然后,通过比较不同输入变量子集的k-NNMI变化率,可以识别哪些变量的加入或移除对整体信息量影响最大。这种方法有助于剔除对模型预测能力贡献较小或者引入冗余信息的变量。 同时,为了进一步优化变量集合,文章还引入了输入变量子集间互信息值的比较。如果两个输入变量之间的互信息值较大,可能表明它们之间存在高度相关性,其中一个可能是冗余的。通过设定阈值系数,可以确定何时将一个变量视为冗余并进行剔除。 实验部分,作者使用了Friedman混沌时间序列、Lorenz混沌时间序列和Housing数据集进行仿真。这些数据集包含了复杂的时间序列模式和多变量相互作用,为检验新方法提供了挑战。仿真结果证实,提出的k-NNMI变化率方法能够有效地选择相关输入变量,提高模型的预测精度,并减少模型的复杂性。 这种方法提供了一种新的视角来处理多变量时间序列的输入变量选择问题,不仅考虑了单个变量与输出的相关性,还考虑了变量之间的相互影响,从而提高了建模的效率和准确性。对于复杂系统的建模和预测,这种基于k-近邻互信息变化率的输入变量选择策略具有广泛的应用前景。