提升不等长多维时间序列聚类效率的LR分量算法

4 下载量 29 浏览量 更新于2024-08-26 收藏 360KB PDF 举报
"这篇研究论文探讨了一种针对不等长多维时间序列的聚类改进算法,名为MUTSCA (L_RCE),旨在解决基于模型的多维时间序列聚类算法处理不等长序列速度慢的问题。文章的作者包括霍纬纲、程震和程文莉,他们分别来自中国民航大学计算机科学与技术学院。" 本文提出的MUTSCA (L_RCE)算法是一种处理不等长多维时间序列(MTS)的有效方法。在传统的基于模型的MTS聚类算法中,处理不等长序列可能需要大量的计算资源,导致效率低下。为了解决这一问题,MUTSCA (L_RCE)首先利用等频离散化技术将MTS转化为符号序列,这个步骤有助于简化复杂的时间序列数据,同时保持其关键特征。 接着,算法计算MTS样本各维度的L_R向量,这些向量能够捕捉时间序列之间的时序模式。通过对L_R向量进行排序并提取两端的关键分量,可以得到一个固定长度的代表序列模式的模型向量。这种方法巧妙地将不等长的MTS转换为等长的模型向量集合,使得后续的聚类操作更为高效。 最后,采用经典的k-means算法对生成的等长模型向量集进行聚类分析。k-means是一种广泛应用的无监督学习方法,用于将数据集分成多个群组,使得同一群组内的数据点间距离最小,而不同群组间的距离最大。 实验证明,与原始的MUTSCA (L_R)算法相比,MUTSCA (L_RCE)在保持聚类效果的同时,显著提升了处理不等长MTS数据集的聚类速度。实验在多个公共数据集上进行了对比,结果支持了新算法的优越性。 关键词涵盖了等频离散化、k-means聚类、时序模式、多维时间序列以及效率,表明这篇论文专注于这些领域的研究。文章的中图分类号表明它属于计算机科学和技术领域,文献标志码A则提示这是一篇原创性的研究论文。 这篇论文为处理不等长多维时间序列的聚类问题提供了一个新的有效方法,通过改进的数据预处理和聚类策略,提高了处理效率,对于大数据分析和数据挖掘领域具有重要的理论与实践价值。