全局特征提取在时间序列聚类中的新相似性度量

3星 · 超过75%的资源 需积分: 10 20 下载量 115 浏览量 更新于2024-11-16 收藏 436KB PDF 举报
"本文提出了一种新的时间序列挖掘中的相似性度量方法,该方法用于全序列聚类,通过提取时间序列的统计分布特征、非线性特征和Fourier频谱转换等方面的11个全局特征,构建特征向量。这种方法在保留原始信息的同时,能够加速聚类计算,尤其在经济领域的应用中表现出良好的效果。文章通过实验对比,从主观和客观两方面评估了聚类结果的合理性。" 时间序列挖掘是一种数据分析技术,它涉及从时间上有序的数据中发现模式和趋势。在这个过程中,相似性度量是关键步骤,因为它决定了如何将相似的时间序列分组在一起。传统的相似性度量方法,如Euclidean距离或动态时间规整(DTW),可能无法充分考虑时间序列的复杂结构,例如非线性变化和周期性特征。 本文提出的“全局特征”相似性度量方法,主要关注三个方面: 1. **统计分布特征**:时间序列的统计特性,如均值、方差、峰度和偏度等,能够反映序列的基本趋势和波动情况。通过对这些统计量的分析,可以捕捉到序列的整体行为。 2. **非线性特征**:许多实际世界的时间序列数据是非线性的,传统线性方法可能无法有效处理。通过非线性分析,如混沌理论中的Lyapunov指数或者hurst指数,可以揭示序列的复杂动态行为。 3. **Fourier频谱转换**:Fourier变换将时间序列转化为频率域表示,帮助识别序列中的周期性成分。这种方法可以提取出时间序列的频率特性,对于识别周期性模式尤其有用。 通过这11个全局特征构建的特征向量,不仅可以保留原始时间序列的主要信息,还可以降低计算复杂度,从而加速聚类过程。实验结果证明,这种方法在全序列聚类中表现优秀,特别是在经济领域的时间序列数据上,可能因为经济数据通常包含复杂的非线性结构和周期性模式。 作者进行了两个数据集的实验,通过主观和客观的评估方式验证了聚类结果的合理性。主观评估可能包括专家评审或领域知识的应用,而客观评估可能基于预定义的评估指标,如轮廓系数或Calinski-Harabasz指数。 总结来说,这种新的全局特征相似性度量方法为时间序列挖掘提供了一种有效且高效的工具,尤其适用于处理非线性、有周期性特征的时间序列数据。它不仅简化了计算过程,还提升了聚类结果的准确性,对于数据分析和预测任务具有重要价值。