第 30 卷 第 3 期
Vol. 30 No. 3
控 制 与 决 策
Control and Decision
2015 年 3 月
Mar. 2015
基于变量相关性的多元时间序列特征表示
文章编号: 1001-0920 (2015) 03-0441-07 DOI: 10.13195/j.kzyjc.2014.0132
李 海 林
(华侨大学 工商管理学院,福建 泉州 362021)
摘 要: 针对高维特性对多元时间序列数据挖掘过程和结果的影响, 以及传统主成分分析方法在多元时间序列数据
特征表示上的局限性, 提出一种基于变量相关性的多元时间序列数据特征表示方法. 通过协方差矩阵描述每个多元
时间序列的分布特征和变量相关关系, 利用主成分分析方法对综合协方差矩阵进行主元分析, 进而实现多元时间序
列的数据降维和特征表示. 实验结果表明, 所提出的方法不仅能提高多元时间序列数据挖掘的质量, 还可以对不等长
多元时间序列进行快速有效的挖掘.
关键词: 多元时间序列;主成分分析;特征表示;数据挖掘
中图分类号: TP273 文献标志码: A
Feature representation of multivariate time series based on correlation
among variables
LI Hai-lin
(School of Business Management,Huaqiao University,Quanzhou 362021,China.E-mail:hailin@mail.dlut.edu.cn)
Abstract: The property of high dimensionality impacts on the process and results in the field of time series data mining,
and the traditional methods about principal component analysis have some limitations to represent multivariate time
series. Therefore, a feature representation of multivariate time series based on correlation among variables is proposed.
The distribution and relationships among variants of every time series are described by the covariance matrix, and
principal components are extracted from an integrated covariance matrix by principal component analysis. In this way, the
dimensionality of multivariate time series can be reduced and the features can be represented. The experimental results show
that the proposed method not only improves the quality of multivariate time series data mining but also efficiently mines on
the data with different lengths.
Keywords: multivariate time series;principal component analysis;feature representation;data mining
0 引引引 言言言
多元时间序列是数据挖掘领域中重要的数据类
型之一
[1]
, 广泛存在于金融、医疗、电子信息和气象等
科学工程领域. 从狭义上讲, 多元 (多变量) 时间序列
是由多个一元 (单变量) 时间序列组合而成的, 各一元
时间序列相互作用或存在一定的相互关系
[2]
; 从广义
上讲, 多元时间序列是某一特定系统根据时间先后顺
序产生的数据序列, 系统中的各个因素产生相应的一
元时间序列, 如地理信息系统、智能监控系统和航空
发动机诊断系统等都产生大量的多元时间序列数据.
然而, 其时间维度和变量维度的高维性决定了整个数
据挖掘过程的复杂性, 并影响最终挖掘结果的准确性.
时间序列数据挖掘通常包括聚类、分类、关联
规则、兴趣模式发现、异常检测、相似性搜索和可视
化等, 其挖掘效率和质量容易受到时间序列数据特
征复杂性的影响. 为了提高时间序列数据挖掘技术
的性能, 通常利用数据降维和特征表示降低数据挖
掘过程或模型的复杂性, 并通过清除冗余信息的影
响来提高挖掘结果的准确性. 目前, 人们已提出不少
相关降维技术和特征表示方法. 例如, 单变量时间序
列数据降维
[3-4]
、主成分分析 (PCA)
[5-6]
、奇异值分解
(SVD)
[7-8]
和独立成分分析 (ICA)
[9]
等方法. 其中, 主成
收稿日期: 2014-01-21;修回日期: 2014-03-28.
基金项目: 国家自然科学基金项目(61300139);福建省中青年教师教育科研项目(JAS14024);华侨大学中青年教师科
研提升计划项目(ZQN-PY220).
作者简介: 李海林(1982−), 男, 讲师, 博士, 从事数据挖掘与决策支持的研究.