对称SAX时间序列相似度量方法及其实验分析

需积分: 22 0 下载量 182 浏览量 更新于2024-08-13 收藏 429KB PDF 举报
"基于SAX的时间序列相似性度量方法 (2012年)" 时间序列分析是数据挖掘中的一个重要领域,特别是在诸如生物医学、金融、气象预测等多个领域有着广泛的应用。时间序列的表示和相似性度量是这个领域中的核心问题。符号化表示,如SAX(Symbolic Aggregate Approximation),是一种高效的时间序列降维技术。它通过将原始的时间序列转换为离散的符号序列,从而降低计算复杂性和存储需求。 SAX方法通过先将时间序列进行分段平均(PAA,Piecewise Aggregate Approximation)处理,再将得到的连续值映射到预定义的字母表上,形成一个符号串。然而,基于SAX的距离度量MINDIST_PAA_iSAX存在对称性问题,即两个时间序列A和B的相似度并不一定等于B和A的相似度,这在进行时间序列挖掘时会限制其应用。 为了解决这个问题,论文提出了对称的度量Sym_PAA_SAX。这个新度量旨在确保度量的对称性,即对于任何两个时间序列,它们之间的相似度度量结果应该是相同的,无论度量顺序如何。此外,Sym_PAA_SAX还被证明其下界是欧拉距离,这意味着它的度量结果不会低于实际的欧几里得距离,从而保证了度量的保守性。 论文进行了大量的实验,包括在真实数据集和合成数据集上的测试,结果表明Sym_PAA_SAX的下界紧密性良好,即它能较为准确地反映时间序列之间的相似程度。同时,这种方法的相似搜索错报率较低,这意味着在搜索相似时间序列时,误报的情况较少,提高了搜索的准确性。 该研究对于时间序列挖掘领域的贡献在于提供了一种更可靠、对称的相似性度量方法,可以用于各种时间序列挖掘任务,如异常检测、模式识别和分类等。此外,由于其下界特性,Sym_PAA_SAX在大规模数据集上的应用也更具优势,因为它能够有效地减少计算负担,同时保持较高的精度。 关键词:时间序列、降维、相似性度量、下界 这项工作得到了湖北省自然科学基金和中央高校基本科研业务费专项资金的支持,由李桂玲、王元珍、杨林权和吴湘宁等研究人员共同完成,他们在数据挖掘和知识发现、数据库理论与技术、人工智能等领域有着深入的研究。