对称SAX时间序列相似度量方法及其实验分析

下载需积分: 22 | PDF格式 | 429KB | 更新于2024-08-13 | 171 浏览量 | 举报

"基于SAX的时间序列相似性度量方法 (2012年)" 时间序列分析是数据挖掘中的一个重要领域，特别是在诸如生物医学、金融、气象预测等多个领域有着广泛的应用。时间序列的表示和相似性度量是这个领域中的核心问题。符号化表示，如SAX（Symbolic Aggregate Approximation），是一种高效的时间序列降维技术。它通过将原始的时间序列转换为离散的符号序列，从而降低计算复杂性和存储需求。 SAX方法通过先将时间序列进行分段平均（PAA，Piecewise Aggregate Approximation）处理，再将得到的连续值映射到预定义的字母表上，形成一个符号串。然而，基于SAX的距离度量MINDIST_PAA_iSAX存在对称性问题，即两个时间序列A和B的相似度并不一定等于B和A的相似度，这在进行时间序列挖掘时会限制其应用。为了解决这个问题，论文提出了对称的度量Sym_PAA_SAX。这个新度量旨在确保度量的对称性，即对于任何两个时间序列，它们之间的相似度度量结果应该是相同的，无论度量顺序如何。此外，Sym_PAA_SAX还被证明其下界是欧拉距离，这意味着它的度量结果不会低于实际的欧几里得距离，从而保证了度量的保守性。论文进行了大量的实验，包括在真实数据集和合成数据集上的测试，结果表明Sym_PAA_SAX的下界紧密性良好，即它能较为准确地反映时间序列之间的相似程度。同时，这种方法的相似搜索错报率较低，这意味着在搜索相似时间序列时，误报的情况较少，提高了搜索的准确性。该研究对于时间序列挖掘领域的贡献在于提供了一种更可靠、对称的相似性度量方法，可以用于各种时间序列挖掘任务，如异常检测、模式识别和分类等。此外，由于其下界特性，Sym_PAA_SAX在大规模数据集上的应用也更具优势，因为它能够有效地减少计算负担，同时保持较高的精度。关键词：时间序列、降维、相似性度量、下界这项工作得到了湖北省自然科学基金和中央高校基本科研业务费专项资金的支持，由李桂玲、王元珍、杨林权和吴湘宁等研究人员共同完成，他们在数据挖掘和知识发现、数据库理论与技术、人工智能等领域有着深入的研究。

　　收稿日期：２０１１唱０８唱２４；修回日期：２０１１唱１０唱０９　　基金项目：湖北省自然科学基金资助项目（２００９ＣＤＢ２２６）；中央高校基本科研业务费专

项资金资助项目（ＣＵＧＬ１００２４３）

　　作者简介：李桂玲（１９７９唱），女，湖北人，讲师，博士研究生，主要研究方向为数据挖掘和知识发现（ｌｇｌｄｅｃ＠ｙａｈｏｏ．ｃｏｍ．ｃｎ）；王元珍（１９４５唱），女，

教授，博导，主要研究方向为数据挖掘、数据库理论与技术；杨林权（１９７９唱），男，讲师，博士研究生，主要研究方向为人工智能、数据挖掘；吴湘宁

（１９７２唱），男，副教授，主要研究方向为数据仓库和数据挖掘．

基于ＳＡＸ的时间序列相似性度量方法

倡

李桂玲

１ａ，２

，王元珍

２

，杨林权

１ｂ

，吴湘宁

１ａ

（１．中国地质大学ａ．计算机学院；ｂ．信息工程学院，武汉４３００７４；２．华中科技大学计算机科学与技术学院，武

汉４３００７４）

摘　要：符号化表示是一种有效的时间序列降维技术，其相似性度量是诸多挖掘任务的基础。基于ＳＡＸ（ｓｙｍ唱

ｂｏｌｉｃａｇｇｒｅｇａｔｅａｐｐｒｏｘｉｍａｔｉｏｎ）的距离ＭＩＮＤＩＳＴ＿ＰＡＡ＿ｉＳＡＸ不满足对称性，在时间序列挖掘中具有局限性，提出了

对称的度量Ｓｙｍ＿ＰＡＡ＿ＳＡＸ，且下界于欧拉距离。在真实数据集和合成数据集上的实验说明下界紧密性较好，相

似搜索错报率较低。

关键词：时间序列；降维；相似性度量；下界

中图分类号：ＴＰ３１１　　　文献标志码：Ａ　　　文章编号：１００１唱３６９５（２０１２）０３唱０８９３唱０４

ｄｏｉ：１０．３９６９／ｊ．ｉｓｓｎ．１００１唱３６９５．２０１２．０３．０２５

ＲｅｓｅａｒｃｈｏｎｓｉｍｉｌａｒｉｔｙｍｅａｓｕｒｅｆｏｒｔｉｍｅｓｅｒｉｅｓｂａｓｅｄｏｎＳＡＸ

ＬＩＧｕｉ唱ｌｉｎｇ

１ａ，２

，ＷＡＮＧＹｕａｎ唱ｚｈｅｎ

２

，ＹＡＮＧＬｉｎ唱ｑｕａｎ

１ｂ

，ＷＵＸｉａｎｇ唱ｎｉｎｇ

１ａ

（１．ａ．ＳｃｈｏｏｌｏｆＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅ，ｂ．ＳｃｈｏｏｌｏｆＩｎｆｏｒｍａｔｉｏｎＥｎｇｉｎｅｅｒｉｎｇ，ＣｈｉｎａＵｎｉｖｅｒｓｉｔｙｏｆＧｅｏｓｃｉｅｎｃｅｓ，Ｗｕｈａｎ４３００７４，Ｃｈｉｎａ；２．Ｓｃｈｏｏｌｏｆ

ＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅ＆Ｔｅｃｈｎｏｌｏｇｙ，ＨｕａｚｈｏｎｇＵｎｉｖｅｒｓｉｔｙｏｆＳｃｉｅｎｃｅ＆Ｔｅｃｈｎｏｌｏｇｙ，Ｗｕｈａｎ４３００７４，Ｃｈｉｎａ）

Ａｂｓｔｒａｃｔ：Ｓｙｍｂｏｌｉｃａｐｐｒｏｘｉｍａｔｉｏｎｉｓａｎｅｆｆｅｃｔｉｖｅｄｉｍｅｎｓｉｏｎａｌｉｔｙｒｅｄｕｃｔｉｏｎｔｅｃｈｎｉｑｕｅｆｏｒｔｉｍｅｓｅｒｉｅｓ，ｉｔｓｓｉｍｉｌａｒｉｔｙｍｅａｓｕｒｅｉｓａ

ｂａｓｉｓｆｏｒｖａｒｉｏｕｓｍｉｎｉｎｇｔａｓｋｓ．ＭＩＮＤＩＳＴ＿ＰＡＡ＿ｉＳＡＸｉｓａｄｉｓｔａｎｃｅｆｕｎｃｔｉｏｎｂａｓｅｄｏｎｓｙｍｂｏｌｉｃａｇｇｒｅｇａｔｅａｐｐｒｏｘｉｍａｔｉｏｎ

（ＳＡＸ），ｂｕｔｉｔｄｏｅｓｎｏｔｓａｔｉｓｆｙｓｙｍｍｅｔｒｙ，ｓｏｉｔｈａｓｌｉｍｉｔａｔｉｏｎｉｎｍｉｎｉｎｇｔｉｍｅｓｅｒｉｅｓ．Ｔｈｉｓｐａｐｅｒｐｕｔｆｏｒｗａｒｄａｎｄｐｒｏｖｅｄａｓｙｍ唱

ｍｅｔｒｉｃｄｉｓｔａｎｃｅｍｅａｓｕｒｅＳｙｍ＿ＰＡＡ＿ＳＡＸｔｏｂｅｌｏｗｅｒｂｏｕｎｄｉｎｇｔｏＥｕｃｌｉｄｅａｎｄｉｓｔａｎｃｅ．Ｅｘｐｅｒｉｍｅｎｔｓｏｎｒｅａｌａｎｄｓｙｎｔｈｅｔｉｃｄａｔａ

ｓｅｔｓｓｈｏｗｉｔｓｂｅｔｔｅｒｔｉｇｈｔｎｅｓｓｏｆｌｏｗｅｒｂｏｕｎｄｉｎｇａｎｄｌｏｗｅｒｆａｌｓｅｐｏｓｉｔｉｖｅｓｒａｔｅｉｎｓｉｍｉｌａｒｉｔｙｓｅａｒｃｈ．

Ｋｅｙｗｏｒｄｓ：ｔｉｍｅｓｅｒｉｅｓ；ｄｉｍｅｎｓｉｏｎａｌｉｔｙｒｅｄｕｃｔｉｏｎ；ｓｉｍｉｌａｒｉｔｙｍｅａｓｕｒｅ；ｌｏｗｅｒｂｏｕｎｄｉｎｇ

０　引言

时间序列是指随着时间的先后顺序而变化的一系列数据，

是一类多维的复杂类型数据，目前广泛地存在于金融、科学、工

程、医疗等领域。例如某股票某段时间内的开盘价和收盘价的

走势、就医者的心电图数据、网络监控中的网络流量、自然现象

观测中的大气、温度、风、地震等数据，均是时间序列。

近年来，时间序列数据的挖掘吸引了越来越多研究者的关

注，相似性度量是其中的一个重要子问题。所谓相似性度量是

指如何衡量时间序列之间的相似性和相似程度，合理的相似性

度量是相似搜索、聚类、分类、异常检测、主题发现等诸多挖掘

任务的基础。

对于原始时间序列，经典的相似性度量有欧拉距离（Ｅｕ唱

ｃｌｉｄｅａｎｄｉｓｔａｎｃｅ，ＥＤ）

［１］

和动态时间弯曲（ｄｙｎａｍｉｃｔｉｍｅｗａｒｐｉｎｇ，

ＤＴＷ）

［２］

两种。欧拉距离使用广泛，优点是公式简单、易于快

速计算，但对噪声很敏感，不能处理不等长序列，不能捕捉具有

伸缩性或弯曲的相似模式。动态时间弯曲可处理不等长序列，

允许序列的偏移和扭曲，但计算的时间代价较大。

由于时间序列数据具有海量、高维的特性，研究者对时间

序列作降维处理，进行近似表示。代表性的时间序列的近似表

示有分段聚集近似（ｐｉｅｃｅｗｉｓｅａｇｇｒｅｇａｔｅａｐｐｒｏｘｉｍａｔｉｏｎ，ＰＡＡ）

［３］

、

分段线性近似（ｐｉｅｃｅｗｉｓｅｌｉｎｅａｒａｐｐｒｏｘｉｍａｔｉｏｎ，ＰＬＡ）

［４］

、符号聚

集近似（ＳＡＸ）

［５］

、可索引符号聚集近似（ｉｎｄｅｘａｂｌｅＳＡＸ，

ｉＳＡＸ）

［６］

、扩展的符合聚集近似（ｅｘｔｅｎｄｅｄＳＡＸ，ＥＳＡＸ）

［７］

、分段

线性聚集近似（ｐｉｅｃｅｗｉｓｅｌｉｎｅａｒａｇｇｒｅｇａｔｅａｐｐｒｏｘｉｍａｔｉｏｎ，

ＰＬＡＡ）

［８］

、无限长时间序列的分段线性拟合（ｉｎｆｉｎｉｔｅｔｉｍｅｓｅｒｉｅｓ

ｐｉｅｃｅｗｉｓｅｌｉｎｅａｒｆｉｔｔｉｎｇ，ＩＴＳＰＬＦ）

［９］

等。

基于时间序列的近似表示提出了相应的距离公式。Ｋｅｏｇｈ

等人基于ＰＡＡ表示提出ＤＲ

［３］

和ＬＢ＿ＰＡＡ

［１０］

，Ｌｉｎ等人

［５］

基于

ＳＡＸ提出ＭＩＮＤＩＳＴ，兰妥等人

［１１］

基于ＥＳＡＸ提出ＥＳＡＸ统计

向量空间法的相似性度量，Ｈｕａｎｇ等人

［８］

在ＰＬＡＡ基础上提出

基于子段均值和最佳拟合直线的斜率距离公式，Ｓｈｉｅｈ等人

［６］

基于ｉＳＡＸ提出ＭＩＮＤＩＳＴ＿ＰＡＡ＿ｉＳＡＸ。

符号化表示是一种有效的离散化的时间序列降维方法。

ＳＡＸ和ｉＳＡＸ均是允许降维和支持下界的简单高效的符号表

示法。研究发现，ＭＩＮＤＩＳＴ＿ＰＡＡ＿ｉＳＡＸ是一种不对称的距离函

数，在时间序列的挖掘中具有局限性。本文基于ＳＡＸ表示，提

出一种新的距离度量Ｓｙｍ＿ＰＡＡ＿ＳＡＸ。Ｓｙｍ＿ＰＡＡ＿ＳＡＸ考虑相

第２９卷第３期

２０１２年３月　

计算机应用研究

ＡｐｐｌｉｃａｔｉｏｎＲｅｓｅａｒｃｈｏｆＣｏｍｐｕｔｅｒｓ

Ｖｏｌ．２９Ｎｏ．３

Ｍａｒ．２０１２

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_38640830

粉丝: 4

对称SAX时间序列相似度量方法及其实验分析

改进的SAX时间序列相似度度量及其应用实证

改进的SAX复合度量法：高效时间序列相似性计算

时间序列分析：DTW、PAA与SAX

基于符号化聚合近似的时间序列相似性复合度量方法 (2013年)

一种基于DTW的符号化时间序列聚类算法

关于time series 相似性分析方法很好的实验总结

时间序列demo

时间序列的索引

iSAX-Index:使用 iSAX 表示索引时间序列

R中的SAX、HOT-SAX、VSM、SAX-VSM、Repair和RRA(Rcpp)_C++_R_下载.zip

最新资源