LS-Cluster:大规模多变量时间序列聚类算法

8 下载量 164 浏览量 更新于2024-08-26 收藏 757KB PDF 举报
"LS-Cluster:大规模多变量时间序列聚类方法" 本文介绍了一种名为LS-Cluster的大规模多变量时间序列聚类算法,该算法针对现实生活中常见的大规模、高维度时间序列数据集设计,旨在有效地处理包含上万变量的时间序列数据。在传统的多变量时间序列聚类研究中,通常关注的变量数量较少,而LS-Cluster则填补了这一空白,为处理大规模复杂数据提供了新的解决方案。 首先,LS-Cluster方法将每个时间点的多变量时间序列转化为矩形网格,这是一种数据预处理步骤,目的是将连续的数据转换为离散的形式,便于后续处理。这一过程有助于减少数据的复杂性和计算量,同时保留关键信息。 接着,算法采用二维离散余弦变换(2D DCT)对转换后的网格进行特征提取。离散余弦变换是一种信号处理技术,常用于图像和音频压缩,因为它可以有效地捕获数据的主要特征并去除噪声。在时间序列分析中,2D DCT能够将时间序列的动态变化转化为频域特征,有利于识别不同变量间的共性和差异。 之后,文章提出了一种名为LS相似度的度量标准,用于计算特征序列之间的相似度。LS相似度考虑了时间序列的结构和动态变化,能更准确地反映两个序列之间的关系,对于大规模数据集的聚类尤其重要,因为它能快速高效地比较大量数据。 最后,LS-Cluster算法利用层次聚类方法来发现数据中的模式和簇。层次聚类是数据挖掘中的一种常用方法,它通过构建一个层次结构(树状结构),将相似的数据分组在一起,形成不同层次的簇。这种方法可以根据实际需求调整聚类的细化程度,提供了一种灵活的聚类策略。 实验结果表明,LS-Cluster在人工合成数据和真实世界数据集上的表现优秀,具有良好的聚类效果和可扩展性。这意味着该方法不仅能有效处理大规模数据,还能适应不同的应用场景,对于理解和分析多变量时间序列数据具有很高的实用价值。 关键词:大规模,多变量时间序列,离散余弦变换,LS相似度,聚类 中图分类号:TP3 文献标识码:A DOI:10.3969/j.issn.1000-386x.2017.05.036 该研究由国家自然科学基金项目(U1509213)支持,作者包括郑诚(硕士研究生,主要研究方向为时间序列和数据挖掘)、王鹏(副教授)以及汪卫(教授)。他们的工作为大规模多变量时间序列的聚类问题提供了创新的解决方案,对大数据分析和机器学习领域的研究具有重要参考价值。