高效局部相关时序数据双聚类算法

需积分: 11 0 下载量 40 浏览量 更新于2024-08-12 收藏 1.35MB PDF 举报
"该资源是一篇发表在《东南大学学报(自然科学版)》2007年第37卷第5期的论文,作者包括闫雷鸣、孙志挥和张柏礼。论文提出了一种名为sp-TSC的时序数据局部相关对象聚类算法,该算法基于spCluster模型,利用后缀树进行高效的数据处理。" 正文: 这篇论文主要关注的是高维时序数据中的局部相关模式聚类问题。在大数据和复杂系统分析中,时序数据的处理和挖掘是关键环节,尤其是寻找其中的局部相关模式,对于理解系统的动态行为和预测未来趋势具有重要意义。作者针对这一问题,提出了一种新的聚类模型——spCluster,它基于相关子模式,并且与平均平方残值有关。 spCluster模型的构建旨在捕捉数据对象之间的局部相关性,这种模型通过对数据进行符号化处理,能够有效地表示时序数据的特征。论文中提到,这个模型可以从平均平方残值的角度来理解和解释,这有助于理解模型的统计特性及其在聚类过程中的作用。 基于spCluster模型,作者进一步发展了一种确定性的双聚类算法——sp-TSC(sub-pattern Time Series Clustering)。sp-TSC算法的核心在于利用泛化后缀树的数据结构,这可以避免穷举所有可能的局部相关子模式组合,极大地减少了搜索空间。通过将符号化的数据对象插入到后缀树中,算法能够在数据矩阵的线性时间内发现所有的最大δ-spCluster,提高了效率和可行性。 论文的理论分析和实验验证表明,sp-TSC算法在处理时序数据的聚类问题上表现出高效的性能。这种方法对于处理大规模、高维度的时序数据尤为有用,因为它能够在保持计算效率的同时,有效地揭示数据中的局部相关结构。 关键词涉及“双聚类”、“时间序列”、“后缀树”和“局部相关”,这些都突出了论文研究的主要内容和技术手段。双聚类是一种在两个维度上同时进行聚类的方法,能更全面地揭示数据内部的结构。时间序列分析则涉及到如何处理随时间变化的数据,而后缀树作为一种数据结构,常用于字符串处理和模式匹配,这里被创造性地应用到了时序数据的聚类中。局部相关性则是探讨数据点之间在特定区域内的相互关联性。 这篇论文为时序数据的聚类提供了新的视角和工具,sp-TSC算法为处理高维时序数据的局部相关模式提供了一种高效解决方案,对于数据挖掘、模式识别和复杂系统分析等领域具有重要的理论和实践价值。