输入变量选择：基于k-近邻互信息变化率的方法

186 浏览量更新于2024-08-29 收藏 175KB PDF 举报

"该文提出了一种基于k-近邻互信息变化率的输入变量选择方法，用于解决多变量时间序列建模中的输入变量选择问题。这种方法利用k-近邻互信息来评估输入变量与输出之间的相关性，并通过比较输入变量子集间的互信息值来识别冗余变量。通过设置阈值系数，可以有效地筛选出对模型有显著影响的输入变量。文中通过Friedman、Lorenz混沌时间序列和Housing数据的仿真验证了该方法的有效性。" 在多变量时间序列建模中，输入变量的选择是至关重要的，因为它直接影响到模型的性能和复杂度。传统的变量选择方法可能忽视了变量之间的相互作用和相关性。本文提出的新方法基于k-近邻互信息（k-NNMI），这是一种衡量两个随机变量之间依赖程度的非对称信息量度。k-NNMI考虑了数据点的局部结构，因此能更准确地反映变量间的关联。在该方法中，首先计算每个输入变量与输出变量之间的k-NNMI值。较高的k-NNMI值意味着输入变量对输出有较大影响，因此被优先考虑。然后，通过比较不同输入变量子集的k-NNMI变化率，可以识别哪些变量的加入或移除对整体信息量影响最大。这种方法有助于剔除对模型预测能力贡献较小或者引入冗余信息的变量。同时，为了进一步优化变量集合，文章还引入了输入变量子集间互信息值的比较。如果两个输入变量之间的互信息值较大，可能表明它们之间存在高度相关性，其中一个可能是冗余的。通过设定阈值系数，可以确定何时将一个变量视为冗余并进行剔除。实验部分，作者使用了Friedman混沌时间序列、Lorenz混沌时间序列和Housing数据集进行仿真。这些数据集包含了复杂的时间序列模式和多变量相互作用，为检验新方法提供了挑战。仿真结果证实，提出的k-NNMI变化率方法能够有效地选择相关输入变量，提高模型的预测精度，并减少模型的复杂性。这种方法提供了一种新的视角来处理多变量时间序列的输入变量选择问题，不仅考虑了单个变量与输出的相关性，还考虑了变量之间的相互影响，从而提高了建模的效率和准确性。对于复杂系统的建模和预测，这种基于k-近邻互信息变化率的输入变量选择策略具有广泛的应用前景。

第 27 卷第 6 期

Vol. 27 No. 6

控制与决策

Control and Decision

2012 年 6 月

Jun. 2012

一种基于 𝒌- 近邻互信息变化率的输入变量选择方法

文章编号: 1001-0920 (2012) 06-0949-04

韩敏, 梁志平

(大连理工大学电子信息与电气工程学部，辽宁大连 116023)

摘要: 针对多变量时间序列建模中的输入变量选择问题, 提出一种基于 𝑘- 近邻互信息变化率的变量选择方法. 根

据多变量之间的相关关系, 以输入输出之间的 𝑘- 近邻互信息变化率作为评价标准选择相关变量; 同时根据输入变

量子集之间互信息值的大小判断变量是否为冗余变量; 通过设定合适的阈值系数, 可以有效地实现输入变量选择.

Friedman, Lorenz 混沌时间序列以及 Housing 数据的变量选择仿真结果验证了所提出方法的有效性.

关键词: 𝑘- 近邻互信息；输入变量选择；相关分析

中图分类号: TP183 文献标识码: A

An input variables selection method based on 𝒌-nearest neighbors mutual

information

HAN Min, LIANG Zhi-ping

(Faculty of Electronic Information and Electrical Engineering，Dalian University of Technology，Dalian

116023，China. Correspondent：HAN Min，E-mail：minhan@dlut.edu.cn)

Abstract: An input variables selection method is proposed based on the 𝑘-nearest neighbors mutual information. According

to the mutual information between the multi-variables, the relevant variables which have great inﬂuence to the mutual

information are selected. Meanwhile, the redundant variables are removed according to the mutual information between

the input variables sets. Consequently, the input variables are selected with proper parameter settings. The results of the

simulation based on the Friedman data, the Lorenz time series and the Housing data show the effectiveness of the proposed

input variables selection method.

Key words: 𝑘-nearest neighbors mutual information；input variables selection；correlation analysis

1 引引引言言言

多变量时间序列建模与预测已在天气预报、经

济预测、电力负荷预测等方面得到了广泛的应用. 传

统的预测方法很少考虑输入变量之间的关系, 如果输

入变量选择不当, 则有可能产生较差的预测结果, 因

此多变量间的相关分析及输入变量的选择对建立精

确的预测模型具有重要意义

[1-2]

互信息不仅能反映变量间的线性关系, 而且能够

表征变量间的非线性关系, 因此, 互信息用于相关性

分析取得了较为广泛的应用. 如 Fernado 等人

[3]

提出

利用偏互信息进行相关性分析, 但实际数据往往无法

满足该方法所提假设条件. Peng 等人

[4]

提出了 mRMR

(minimal-redundancy-maximal-relevance) 进行输入变

量选择; Est

evez 等人

[5]

提出了 NMIFS (normalized

mutual information feature selection), 采用标准化互信

息进行变量选择. 但是上述两种方法均无法实现变量

选择的自动终止, 必须人为设定选择输入变量的个数.

Kraskov 等人

[6]

提出了一种基于 𝑘- 近邻的互信

息计算方法, 在变量选择方面取得了较好的应用

[7]

本文在 𝑘- 近邻互信息的基础上, 提出一种前向式输入

变量选择方法, 以输入输出间 𝑘- 近邻互信息变化率为

评价标准来判断是否为相关变量, 同时根据输入变量

子集之间互信息的大小判断是否为冗余变量. 利用人

工数据及实际数据进行了仿真, 所得结果验证了本文

方法的有效性.

2 𝒌- 近近近邻邻邻互互互信信信息息息估估估计计计

互信息理论来源于信息论中熵的概念. 熵可以作

为信息不确定性的良好度量

[8]

, 序列 𝑋 的信息熵定义

收稿日期: 2010-11-10；修回日期: 2011-01-18.

基金项目: 国家自然科学基金项目(61074096).

作者简介: 韩敏(1959−), 女, 教授, 博士生导师, 从事复杂工业系统建模与控制、智能技术及优化算法等研究；梁志平

(1986−), 男, 硕士生, 从事多变量时间序列相关性分析与预测的研究.

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_38704701

粉丝: 8
资源: 981

输入变量选择：基于k-近邻互信息变化率的方法

KNMOD：一种基于K-近邻树的离群检测新算法

基于k-近邻算法的室内定位技术设计与仿真

集成电路键合点检测：基于K-近邻法的图像识别

结合SURF描述符和广义近邻图的图像配准算法

文本分类中特征选择方法研究.pdf

基于传统机器学习的目标检测算法

Python数据分析：特征选择与降维技术

【特征工程】：选择与缩放的交互作用对模型性能的影响

【机器学习与数据挖掘】：挖掘数据中的金矿 - 实用技巧大公开

应用k-近邻算法实现电影分类

最新资源