基于趋势的时间序列相似性度量与聚类新方法

需积分: 13 16 下载量 162 浏览量 更新于2024-09-08 收藏 527KB PDF 举报
"这篇论文探讨了基于趋势的时间序列相似性度量和聚类方法,针对时间序列长度大、采样点不确定性导致的高时间复杂度问题,提出了一种新的处理策略。通过趋势符号序列的映射和一阶连接性指数、塔尼莫特系数来衡量相似性,并利用趋势高度进行区间划分和聚类,构建趋势树,从而实现高效的时间序列聚类。实验验证了这种方法的有效性,包括趋势符号的一阶连接性指数的独特性、相似性度量的多项式时间效率以及聚类的显著效果。" 本文的研究集中在解决时间序列分析中的关键挑战,即如何在大量和不确定的数据中快速准确地找到相似的时间序列。传统的相似性度量方法在处理大规模、复杂的时间序列时往往面临计算复杂度过高的问题。为应对这一挑战,论文提出了一种创新的方法,即基于趋势的时间序列相似性度量和聚类。 首先,论文引入了基于趋势的相似性度量方法。这种方法的核心是将原始时间序列转换为较短的趋势符号序列,通过分析序列的整体变化趋势,减少了数据的维度。接着,采用了一阶连接性指数和塔尼莫特系数作为相似性度量工具。一阶连接性指数反映了趋势符号之间的连续性,而塔尼莫特系数则衡量了两个序列的相似程度,这两个指标的结合使得在多项式时间内就能有效地完成时间序列的相似性匹配,大大降低了计算复杂度。 其次,论文提出了一种基于趋势的聚类算法。该算法通过定义趋势高度,对趋势符号序列进行迭代的区间划分和趋势判断,构建出趋势树结构。在趋势树中,根节点包含相同趋势符号的序列将被归为同一类别,这实现了聚类过程的集成,提高了聚类效率和准确性。 实验结果显示,使用五种趋势符号的一阶连接性指数可以唯一标识一条时间序列,确保了时间序列的唯一性和可区分性。同时,基于趋势的相似性度量方法能够在多项式时间内完成任务,证明了其计算效率。最后,基于趋势的聚类方法在实际应用中展现出显著的聚类效果,表明这种方法对于处理不确定性时间序列的聚类问题具有优越性。 这篇论文提出的基于趋势的时间序列分析方法,不仅解决了时间序列处理中的复杂性问题,还提供了高效且精确的相似性度量和聚类手段,对于大数据环境下的时间序列分析具有重要的理论和实践价值。