
收稿日期: 2011唱08唱24; 修回日期: 2011唱10唱09 基金项目: 湖北省自然科学基金资助项目(2009CDB226) ;中央高校基本科研业务费专
项资金资助项目( CUGL100243)
作者简介:李桂玲(1979唱) ,女,湖北人,讲师,博士研究生,主要研究方向为数据挖掘和知识发现( lgldec@yahoo.com.cn) ;王元 珍(1945唱) ,女,
教授,博导,主要研究方向为数据挖掘、数据库理论与技术;杨 林 权 (1979唱) ,男,讲 师,博士研究生,主要 研 究 方 向为人 工 智 能、数 据 挖掘;吴湘宁
(1972唱) ,男,副教授,主要研究方向为数据仓库和数据挖掘.
基 于 SAX 的 时 间 序 列 相 似 性 度 量 方 法
倡
李桂玲
1 a,2
, 王元珍
2
, 杨林权
1b
, 吴湘宁
1a
(1.中国地质大学 a.计算机学院; b.信息工程学院, 武汉 430074; 2.华中科技大学 计算机科学与技术学院, 武
汉 430074)
摘 要: 符号化表示是一种有效的时间序列降维技术,其相似性度量是诸多挖掘任务的基础。 基于 SAX( sym唱
bolic aggregate approximation)的距离 MINDIST_PAA_iSAX 不满足对称性,在时间序列挖掘中具有局限性,提出了
对称的度量 Sym_PAA_SAX,且下界于欧拉距离。 在真实数据集和合成数据集上的实验说明下界紧密性较好,相
似搜索错报率较低。
关键词: 时间序列; 降维; 相似性度量; 下界
中图分类号: TP311 文献标志码: A 文章编号: 1001唱3695(2012)03唱0893唱04
doi:10.3969 /j.issn.1001唱3695.2012.03.025
Research on similarity measure for time series based on SAX
LI Gui唱ling
1a,2
, WANG Yuan唱zhen
2
, YANG Lin唱quan
1b
, WU Xiang唱ning
1a
(1.a.School of Computer Science, b.School of Information Engineering, China University of Geosciences, Wuhan 430074,China; 2.School of
Computer Science & Technology, Huazhong University of Science & Technology, Wuhan 430074,China)
Abstract: Symbolic approximation is an effective dimensionality reduction technique for time series, its similarity measure is a
basis for various mining tasks.MINDIST _ PAA _ iSAX is a distance function based on symbolic aggregate approximation
(SAX), but it does not satisfy symmetry, so it has limitation in mining time series.This paper put forward and proved a sym唱
metric distance measure Sym_PAA_SAX to be lower bounding to Euclidean distance.Experiments on real and synthetic data
sets show its better tightness of lower bounding and lower false positives rate in similarity search.
Key words: time series; dimensionality reduction; similarity measure; lower bounding
0 引言
时间序列是指随着时间的先后顺序而变化的一系列数据,
是一类多维的复杂类型数据,目前广泛地存在于金融、科学、工
程、医疗等领域。 例如某股票某段时间内的开盘价和收盘价的
走势、就医者的心电图数据、网络监控中的网络流量、自然现象
观测中的大气、温度、风、地震等数据,均是时间序列。
近年来,时间序列数据的挖掘吸引了越来越多研究者的关
注,相似性度量是其中的一个重要子问题。 所谓相似性度量是
指如何衡量时间序列之间的相似性和相似程度,合理的相似性
度量是相似搜索、聚类、分类、异常检测、主题发现等诸多挖掘
任务的基础。
对于原始时间序列,经典的相似性度量有欧拉距离(Eu唱
clidean distance,ED)
[1]
和动态时间弯曲(dynamic time warping,
DTW)
[2]
两种。 欧拉距离使用广泛,优点是公式简单、易于快
速计算,但对噪声很敏感,不能处理不等长序列,不能捕捉具有
伸缩性或弯曲的相似模式。 动态时间弯曲可处理不等长序列,
允许序列的偏移和扭曲,但计算的时间代价较大。
由于时间序列数据具有海量、高维的特性,研究者对时间
序列作降维处理,进行近似表示。 代表性的时间序列的近似表
示有分段聚集近似(piecewise aggregate approximation,PAA)
[3]
、
分段线性近似( piecewise linear approximation,PLA)
[4]
、符号聚
集近 似 ( SAX)
[5]
、 可 索 引 符 号 聚 集 近 似 ( indexable SAX,
iSAX)
[6]
、扩展的符合聚集近似(extended SAX,ESAX)
[7]
、分段
线 性 聚 集 近 似 ( piecewise linear aggregate approximation,
PLAA)
[8]
、无限长时间序列的分段线性拟合(infinite time series
piecewise linear fitting,ITSPLF)
[9]
等。
基于时间序列的近似表示提出了相应的距离公式。 Keogh
等人基于 PAA 表示提出 DR
[3]
和 LB_PAA
[10]
,Lin 等人
[5]
基于
SAX 提出 MINDIST,兰妥等人
[11]
基于 ESAX 提出 ESAX 统计
向量空间法的相似性度量,Huang 等人
[8]
在 PLAA 基础上提出
基于子段均值和最佳拟合直线的斜率距离公式,Shieh 等人
[6]
基于 iSAX 提出 MINDIST_PAA_iSAX。
符号化表示是一种有效的离散化的时间序列降维方法。
SAX 和 iSAX 均是允许降维和支持下界的简单高效的符号表
示法。 研究发现,MINDIST_PAA_iSAX 是一种不对称的距离函
数,在时间序列的挖掘中具有局限性。 本文基于 SAX 表示,提
出一种新的距离度量 Sym_PAA_SAX。 Sym_PAA_SAX 考虑相
第 29 卷第 3 期
2012 年 3 月
计 算 机 应 用 研 究
Application Research of Computers
Vol.29 No.3
Mar.2012