多元时间序列特征表示：基于变量相关性的主成分分析方法

64 浏览量更新于2024-08-26 收藏 209KB PDF 举报

"基于变量相关性的多元时间序列特征表示" 是一篇探讨如何有效处理高维多元时间序列数据的研究论文。作者李海林提出了一种新的特征表示方法，旨在解决传统主成分分析在处理此类数据时的局限性。文章指出，高维特性在多元时间序列数据挖掘过程中常常带来挑战，这不仅增加了计算复杂度，也可能影响挖掘结果的准确性。传统的主成分分析（PCA）虽然能实现数据降维，但在描述时间序列的动态变化和变量间的关系时可能不足。因此，作者提出了一种新的方法，该方法充分利用变量之间的相关性来构建特征表示。在该方法中，首先通过计算协方差矩阵来捕捉每个多元时间序列的分布特征和变量间的关联性。协方差矩阵能够量化不同变量之间的线性关系，反映它们的变化趋势是否同步。然后，采用主成分分析对综合协方差矩阵进行处理，提取出能够最大化数据方差的主要成分，这些主要成分即为新的特征向量。这种方法既保留了时间序列的关键信息，又减少了数据的维度，使得后续的数据挖掘过程更为高效。实验结果显示，该方法在提高多元时间序列数据挖掘质量方面表现出优势，特别是在处理不等长的多元时间序列时，能够实现快速而有效的挖掘。论文强调了这种基于变量相关性的特征表示对于改善数据挖掘效果的重要性，并且提供了相关的实证分析和案例，进一步证明了方法的有效性。关键词涵盖了多元时间序列、主成分分析、特征表示和数据挖掘，表明该研究的核心内容是利用统计学方法改进时间序列数据的处理，以提升数据挖掘的效率和准确性。根据中图分类号TP273，可以推断这篇文章属于计算机科学技术领域，特别是数据处理和模式识别的部分。文献标志码A则表示这是一篇具有较高学术价值的研究论文，对于理论研究和实际应用都有一定的指导意义。通过这种方法，研究人员和实践者可以更好地理解和利用多元时间序列数据，从而在诸如金融分析、工业监控、健康监测等多个领域取得更好的预测和决策效果。

第 30 卷第 3 期

Vol. 30 No. 3

控制与决策

Control and Decision

2015 年 3 月

Mar. 2015

基于变量相关性的多元时间序列特征表示

文章编号: 1001-0920 (2015) 03-0441-07 DOI: 10.13195/j.kzyjc.2014.0132

李海林

(华侨大学工商管理学院，福建泉州 362021)

摘要: 针对高维特性对多元时间序列数据挖掘过程和结果的影响, 以及传统主成分分析方法在多元时间序列数据

特征表示上的局限性, 提出一种基于变量相关性的多元时间序列数据特征表示方法. 通过协方差矩阵描述每个多元

时间序列的分布特征和变量相关关系, 利用主成分分析方法对综合协方差矩阵进行主元分析, 进而实现多元时间序

列的数据降维和特征表示. 实验结果表明, 所提出的方法不仅能提高多元时间序列数据挖掘的质量, 还可以对不等长

多元时间序列进行快速有效的挖掘.

关键词: 多元时间序列；主成分分析；特征表示；数据挖掘

中图分类号: TP273 文献标志码: A

Feature representation of multivariate time series based on correlation

among variables

LI Hai-lin

(School of Business Management，Huaqiao University，Quanzhou 362021，China．E-mail：hailin@mail.dlut.edu.cn)

Abstract: The property of high dimensionality impacts on the process and results in the ﬁeld of time series data mining,

and the traditional methods about principal component analysis have some limitations to represent multivariate time

series. Therefore, a feature representation of multivariate time series based on correlation among variables is proposed.

The distribution and relationships among variants of every time series are described by the covariance matrix, and

principal components are extracted from an integrated covariance matrix by principal component analysis. In this way, the

dimensionality of multivariate time series can be reduced and the features can be represented. The experimental results show

that the proposed method not only improves the quality of multivariate time series data mining but also efﬁciently mines on

the data with different lengths.

Keywords: multivariate time series；principal component analysis；feature representation；data mining

0 引引引言言言

多元时间序列是数据挖掘领域中重要的数据类

型之一

[1]

, 广泛存在于金融、医疗、电子信息和气象等

科学工程领域. 从狭义上讲, 多元 (多变量) 时间序列

是由多个一元 (单变量) 时间序列组合而成的, 各一元

时间序列相互作用或存在一定的相互关系

[2]

; 从广义

上讲, 多元时间序列是某一特定系统根据时间先后顺

序产生的数据序列, 系统中的各个因素产生相应的一

元时间序列, 如地理信息系统、智能监控系统和航空

发动机诊断系统等都产生大量的多元时间序列数据.

然而, 其时间维度和变量维度的高维性决定了整个数

据挖掘过程的复杂性, 并影响最终挖掘结果的准确性.

时间序列数据挖掘通常包括聚类、分类、关联

规则、兴趣模式发现、异常检测、相似性搜索和可视

化等, 其挖掘效率和质量容易受到时间序列数据特

征复杂性的影响. 为了提高时间序列数据挖掘技术

的性能, 通常利用数据降维和特征表示降低数据挖

掘过程或模型的复杂性, 并通过清除冗余信息的影

响来提高挖掘结果的准确性. 目前, 人们已提出不少

相关降维技术和特征表示方法. 例如, 单变量时间序

列数据降维

[3-4]

、主成分分析 (PCA)

[5-6]

、奇异值分解

(SVD)

[7-8]

和独立成分分析 (ICA)

[9]

等方法. 其中, 主成

收稿日期: 2014-01-21；修回日期: 2014-03-28.

基金项目: 国家自然科学基金项目(61300139)；福建省中青年教师教育科研项目(JAS14024)；华侨大学中青年教师科

研提升计划项目(ZQN-PY220).

作者简介: 李海林(1982−), 男, 讲师, 博士, 从事数据挖掘与决策支持的研究.

下载后可阅读完整内容，剩余6页未读，立即下载

weixin_38706824

粉丝: 2
资源: 892

多元时间序列特征表示：基于变量相关性的主成分分析方法

基于相关性变量筛选偏最小二乘回归的多维法.docx

多元时间序列分析教材.pptx

11-多元时间序列分析.pptx

多元时间序列分析PPT课件.pptx

第六章 多元时间序列分析.ppt

Kaggle多元时间序列特征工程实战指南与案例分析

基于Keras的多元多步时间序列LSTM模型预测

基于分解的结构化多元时间序列预测新模型

Matlab实现多元Portmanteau检验：多元时间序列自相关分析

单位根检验与多元时间序列分析

最新资源

第六章多元时间序列分析.ppt