时序数据分类：特征提取方法探析

需积分: 44 50 浏览量更新于2024-09-08 6 收藏 818KB PDF 举报

"数据挖掘中的时序特征提取方法主要探讨了如何从时序数据中提取有效特征以提升分类任务的准确性。文章将特征提取方法分为四类：基于基本统计方法的特征提取、基于模型的特征提取、基于变换的特征提取和基于分形维数的特征提取，并对每种方法的应用和优势进行了分析。" 在数据挖掘领域，时序数据特征提取是处理动态变化或连续性数据的关键步骤，这些数据通常包含时间轴上的有序观测值。时序数据广泛存在于多个领域，如生物信息学中的DNA序列分析、金融市场预测、环境监测、物体追踪以及设备故障诊断等。 1. 基于基本统计方法的特征提取：这类方法主要包括计算平均值、中位数、方差、标准差、极差等统计量来描述时序数据的集中趋势、离散程度和分布形状。这些简单但有效的统计特征可以提供对数据的基本理解，但在复杂模式识别上可能表现有限。 2. 基于模型的特征提取：这种方法涉及建立数学模型来拟合时序数据，如ARIMA模型、状态空间模型或Markov模型。通过模型参数或残差作为特征，可以捕捉数据的时间依赖性和动态行为。然而，模型选择和参数估计可能影响提取的特征质量和分类效果。 3. 基于变换的特征提取：包括傅里叶变换、小波变换、滑动窗口统计等，这些方法通过转换时序数据到其他域（如频率域或小波域），从而揭示隐藏的周期性、局部特征或瞬态变化。变换后的特征可以降低数据的非线性复杂性，但可能丢失原始时间结构信息。 4. 基于分形维数的特征提取：利用分形理论，计算时序数据的分形维数，可以量化数据的自相似性和复杂度。这种方法对不规则和复杂时间序列特别有用，但计算分形维数可能较为复杂，且对噪声敏感。在选择合适的特征提取方法时，应考虑数据特性、问题的复杂性以及计算效率等因素。对于特定的应用，可能需要结合多种方法以获得更全面的特征表示。此外，特征选择和降维技术也是优化模型性能的重要环节，如PCA（主成分分析）和LDA（线性判别分析）等，它们可以减少特征维度，同时保持大部分信息。时序特征提取是数据挖掘中一个至关重要的步骤，它直接影响分类或预测模型的性能。通过对不同方法的理解和比较，可以更好地适应和解决各种时序数据分析挑战。

计算机系统应用 http://www.c-s-a.org.cn 2012 年第 21 卷第 10 期

224

专论·综述

Special Issue

数据挖掘中适用于分类的时序数据特征提取方法

①

林珠

, 邢延

(广东省计算中心, 广州 510033)

(广东工业大学自动化学院, 广州 510006)

摘要: 特征提取在提高分类的准确性中起着非常关键的作用. 对时序特征提取的方法进行归纳分类, 将有利于

对特征提取整体性, 全面性的认识. 回顾现有的时间序列中特征提取的方法, 将其总结为四大类, 它们分别是基

于基本统计方法的特征提取、基于模型的特征提取、基于变换的特征提取、基于分形维数的特征提取. 针对每一

类的特征提取方法, 进一步研究了它相应的分类方法和它在时间序列数据中的应用邻域.

关键词: 时序数据; 分类; 特征提取

Survey of Feature Extraction Approaches for Time Series Classification

LIN Zhu

, XING Yan

(Guangdong Computer Center, Guangzhou 510033, China)

(Guangdong University of Technology, Guangzhou 510006, China)

Abstract: The main contributions of this paper are: 1) The main feature extraction approaches are classified into four

categories; 2) The main idea of each category is analyzed, the advantages and disadvantages are pointed out; 3) The

guidelines of choosing suitable feature extraction approach is suggested.

Key words: time series; classification; feature extraction

1 引言

时序数据(time series data)广泛存在于现实生活中,

是指同一种现象在不同时间上的相继观察值排列而成

的一组数字序列, 其时间轴上的采样值通常又被称为

特征

[1]

. 时序数据普遍存在于许多重要应用邻域, 比

如 DNA 序列、金融数据、传感器网络监控数据、移动

对像跟踪数据、机器故障检测数据等等. 由于时序数

据与时间相关联, 因而其数据量一般都是非常庞大的,

这就对时序数据挖掘技术提出了更高的要求

[2]

. 在时

序数据挖掘的研究与应用领域, 时序数据分类是重要

任务之一

[1,2]

. 例如, 依据语音信号的波形识别出说话

人的性别和年龄, 依据心电图的时序波形识别出病者

所患的病症, 依据地震波的历史数据, 去识别地震的

类型, 依据在机器运转过程中进行故障检测和识别故

障类型, 甚至在客户关系管理中根据某段时间的客户

购买信息, 识别不同的消费群体等等.

衡量分类技术优劣的核心指标是分类准确率, 而

提高分类准确率途径有两种: 一是改进分类器; 二是

采用特征提取技术(feature extraction). 特征提取是在

分类前对数据时间采样值上进行适量的归约, 以达到

减少数据量同时提高分类准确率(底线是不牺牲分类

准确率)的目的.

时间序列除了具有的趋势性、季节性、周期性等

一般特征之外, 不同的时序数据又存在不同的个别特

征. 如金融数据, 普遍具有“高峰厚尾”和“平方序列微

弱而持续的自相关”的特点; 而地震波则具有强度随

时序延伸而减弱的特点; 语音信号幅度具有一定的范

围, 并以零幅和近零幅的概率高, 而且长时间的语音

信号会有相当多的无信号区间, 即所谓的语音寂静区

间; 心电信号则具有很强的周期性, 它的主要特征是

① 基金项目:广东省科技计划项目基金(2011B060500049, 2010B090400545, 2010A040300006)

收稿时间:2012-02-06;收到修改稿时间:2012-03-04

下载后可阅读完整内容，剩余7页未读，立即下载

qq_37848268

粉丝: 2
资源: 10

时序数据分类：特征提取方法探析

时序数据分析：分形理论与特征提取技术

时序数据分类的特征提取技术详解

Rough集驱动的时间序列数据挖掘策略：获取时序与非时序信息

数据挖掘中适用于分类的时序数据特征提取方法.pdf

时序数据挖掘方法.pdf

多通道信号中的时序特征提取技术详解

时序数据数据预处理、特征提取代码。分段特征、统计特征、熵特征。时间序列.rar

基于数据挖掘算法的变压器热点温度时序预测方法.pdf

机器学习系列之五：GSMAlpha，提取时序特征的统一框架

时序数据挖掘与预测分析.pptx

最新资源