LS-Cluster:大规模多变量时间序列聚类算法
164 浏览量
更新于2024-08-26
收藏 757KB PDF 举报
"LS-Cluster:大规模多变量时间序列聚类方法"
本文介绍了一种名为LS-Cluster的大规模多变量时间序列聚类算法,该算法针对现实生活中常见的大规模、高维度时间序列数据集设计,旨在有效地处理包含上万变量的时间序列数据。在传统的多变量时间序列聚类研究中,通常关注的变量数量较少,而LS-Cluster则填补了这一空白,为处理大规模复杂数据提供了新的解决方案。
首先,LS-Cluster方法将每个时间点的多变量时间序列转化为矩形网格,这是一种数据预处理步骤,目的是将连续的数据转换为离散的形式,便于后续处理。这一过程有助于减少数据的复杂性和计算量,同时保留关键信息。
接着,算法采用二维离散余弦变换(2D DCT)对转换后的网格进行特征提取。离散余弦变换是一种信号处理技术,常用于图像和音频压缩,因为它可以有效地捕获数据的主要特征并去除噪声。在时间序列分析中,2D DCT能够将时间序列的动态变化转化为频域特征,有利于识别不同变量间的共性和差异。
之后,文章提出了一种名为LS相似度的度量标准,用于计算特征序列之间的相似度。LS相似度考虑了时间序列的结构和动态变化,能更准确地反映两个序列之间的关系,对于大规模数据集的聚类尤其重要,因为它能快速高效地比较大量数据。
最后,LS-Cluster算法利用层次聚类方法来发现数据中的模式和簇。层次聚类是数据挖掘中的一种常用方法,它通过构建一个层次结构(树状结构),将相似的数据分组在一起,形成不同层次的簇。这种方法可以根据实际需求调整聚类的细化程度,提供了一种灵活的聚类策略。
实验结果表明,LS-Cluster在人工合成数据和真实世界数据集上的表现优秀,具有良好的聚类效果和可扩展性。这意味着该方法不仅能有效处理大规模数据,还能适应不同的应用场景,对于理解和分析多变量时间序列数据具有很高的实用价值。
关键词:大规模,多变量时间序列,离散余弦变换,LS相似度,聚类
中图分类号:TP3
文献标识码:A
DOI:10.3969/j.issn.1000-386x.2017.05.036
该研究由国家自然科学基金项目(U1509213)支持,作者包括郑诚(硕士研究生,主要研究方向为时间序列和数据挖掘)、王鹏(副教授)以及汪卫(教授)。他们的工作为大规模多变量时间序列的聚类问题提供了创新的解决方案,对大数据分析和机器学习领域的研究具有重要参考价值。
2021-06-29 上传
2020-12-13 上传
2021-07-01 上传
2021-05-10 上传
2021-06-15 上传
2021-05-27 上传
2023-05-12 上传
2021-07-06 上传
weixin_38644097
- 粉丝: 4
- 资源: 923
最新资源
- 新代数控API接口实现CNC数据采集技术解析
- Java版Window任务管理器的设计与实现
- 响应式网页模板及前端源码合集:HTML、CSS、JS与H5
- 可爱贪吃蛇动画特效的Canvas实现教程
- 微信小程序婚礼邀请函教程
- SOCR UCLA WebGis修改:整合世界银行数据
- BUPT计网课程设计:实现具有中继转发功能的DNS服务器
- C# Winform记事本工具开发教程与功能介绍
- 移动端自适应H5网页模板与前端源码包
- Logadm日志管理工具:创建与删除日志条目的详细指南
- 双日记微信小程序开源项目-百度地图集成
- ThreeJS天空盒素材集锦 35+ 优质效果
- 百度地图Java源码深度解析:GoogleDapper中文翻译与应用
- Linux系统调查工具:BashScripts脚本集合
- Kubernetes v1.20 完整二进制安装指南与脚本
- 百度地图开发java源码-KSYMediaPlayerKit_Android库更新与使用说明