改进的SAX时间序列相似度度量及其应用实证

需积分: 38 5 下载量 82 浏览量 更新于2024-09-07 1 收藏 429KB PDF 举报
本文主要探讨了基于SAX(Symbolic Aggregate Approximation)的时间序列相似性度量方法的研究。SAX是一种符号化表示技术,它通过将连续的时间序列转换为离散的符号串,从而实现有效的降维处理,这对于数据挖掘中的各种任务至关重要。然而,传统的MINDIST_PAA_iSAX距离度量方法在衡量两个SAX表示的时间序列相似性时存在非对称性问题,这在实际应用中可能导致不准确的结果。 为了克服这一局限性,作者提出了一种新的对称度量方法,即Sym_PAA_SAX。Sym_PAA_SAX不仅保持了度量的对称性,还证明其下界小于或等于欧拉距离,这表明它在理论上有更好的稳健性。实验结果显示,Sym_PAA_SAX在真实数据集和合成数据集上的性能优越,其下界紧密性得到了良好的验证,这意味着它在实际相似搜索任务中具有较低的错报率,能更准确地识别出时间序列间的相似关系。 该研究由李桂玲、王元珍、杨林权和吴湘宁四位学者合作完成,他们分别来自中国地质大学计算机学院和信息工程学院,以及华中科技大学计算机科学与技术学院。他们的研究背景涵盖了数据挖掘、知识发现、人工智能等多个领域,这体现了他们在时间序列分析领域的专业实力。 文章的关键点集中在时间序列分析、降维技术、相似性度量的改进方法以及下界的理论贡献上。通过使用Sym_PAA_SAX,研究人员能够在保证精度的同时,提高时间复杂度的有效管理,这对于优化大规模时间序列数据挖掘任务具有重要意义。此外,他们的研究成果对于理解和改进其他依赖于时间序列相似度计算的应用,如预测分析、异常检测等,也具有显著的价值。 总结来说,这篇论文提供了一种创新的时间序列相似性度量方法,不仅解决了现有度量的对称性问题,还展示了在实际数据集上的高效性和准确性,对提升时间序列数据分析的性能和精度具有重要的理论和实践意义。