时间序列数据挖掘：特征表示与相似性度量分析

3星 · 超过75%的资源 | 下载需积分: 7 | DOC格式 | 491KB | 更新于2024-09-12 | 33 浏览量 | 举报

"这篇文献是关于时间序列数据挖掘中特征表示和相似性度量的研究综述，由李海林和郭崇慧撰写。文中详细分析了这两个方面在数据挖掘任务中的重要性，评估了现有方法的优缺点，并提出了未来的研究方向。" 在计算机科学和数据分析领域，程序相似度度量是一个关键的概念，尤其是在时间序列数据挖掘中。时间序列数据是由特定顺序发生的观察值组成的数据，例如股票价格、气温变化或网络流量等。在这些领域，理解和比较不同时间序列的相似性对于预测、异常检测和模式识别至关重要。特征表示是将原始时间序列转化为可用于计算和分析的形式的过程。常见的特征表示方法包括直方图、傅立叶变换、滑动窗口统计和自回归模型等。例如，傅立叶变换将时间序列转换为频率域的表示，揭示了周期性和趋势；而滑动窗口统计则通过在时间序列上移动窗口并提取统计特征（如均值、方差）来捕获局部结构。相似性度量则是比较两个时间序列相似程度的方法。常见的度量有欧几里得距离、曼哈顿距离、余弦相似度、动态时间规整（DTW）和编辑距离等。欧几里得距离和曼哈顿距离适用于长度相同且没有时间偏移的时间序列，而余弦相似度关注的是两个序列的方向而非绝对幅度。DTW允许两个序列在时间轴上进行非线性匹配，适应了时间序列可能存在的时序差异；编辑距离则衡量将一个序列转换为另一个序列所需的最少操作数。文献中提到，现有的特征表示和相似性度量方法各有优缺点。例如，傅立叶变换对于周期性数据效果良好，但可能丢失时间信息；DTW虽然能处理时间偏移，但计算复杂度较高。因此，未来的研究需要聚焦于如何设计更高效、更准确的特征表示和相似性度量方法，以应对大数据量和复杂时间序列的挑战。此外，文献还探讨了几个值得进一步研究的问题，如如何有效地降低计算复杂性，如何结合深度学习等先进技术提升表示能力，以及如何在保持精度的同时增强模型的解释性。这些问题的解决将有助于推动时间序列数据挖掘领域的进展，提高预测和分析的准确性和效率。

展开

第 29 卷第 1 期 计算机应用研究                                 Vol.29 No.1
2012 年 1 期                                Application Research of Computers                         Jan. 2011 
时间序列数据挖掘中的特征表示与相似性度量研究综述
*
李海林
1,2
，郭崇慧
2
(1.华侨大学工商管理学院, 福建泉州 362021; 2.大连理工大学系统工程研究所, 辽宁大连 116024)
摘要：时间序列特征表示和相似性度量是时间序列数据挖掘任务中最为基础和关键的工作，其质量的好坏直接关系到时间
序列数据挖掘的结果。本文分别从时间序列特征表示和相似性度量两个角度来分析其在数据挖掘中的作用和意义，对目前
存在的主要方法进行综述，分析其各自存在的优缺点；同时，探讨了将来值得关注的问题 ,为进一步研究时间序列数据的特
征表示和相似性度量提供了方向。
关键词：时间序列；数据挖掘；特征表示；相似性度量
中图分类号: TP311.1　            文献标志码: A                  文章编号：
Survey of feature representations and similarity measurements in time
series data mining
Li Hai-lin
1,2
,  Guo Chong-hui
2
(1.College of Business Administration, Huaqiao University, Quanzhou Fujian 362021, China; 2. Institute of Systems Engineering,
Dalian University of Technology, Dalian Liaoning 116024, China)
Abstract: Feature representations and similarity measurements for time series are both of the most basic and key work in the tasks
of time series data mining. Their qualities often impact the results of time series data mining. The paper respectively analyzes the
function and meaning of feature representations and similarity measurements for time series. It also summarizes the existed methods
and analyzes the merits and demerits. Meanwhile, by discussing the noteworthy problems, the further research direction of feature
representations and similarity measurements for time series is provided.
Key words: time series; data mining; feature representation; similarity measurement
1 引言
时间序列是一类十分常见且与时间相关的高维数据，
也是数据挖掘领域
[1]
中主要的研究对象，它广泛存在于金
融
[1]
、医学
[3]
、气象
[3]
以及网络安全
[4]
领域中，近年来，随
着社会经济和信息技术的发展，时间序列的数据量增长越
来越快。相应地，利用数据挖掘技术在时间序列数据库中
发现潜在有用的信息和知识也越来越受到各领域研究者的
关注，而且研究成果被广泛应用于经济、金融、电子信息
医疗卫生、教育和工业工程等各个领域中。因此，如何从
大量时间序列数据中挖掘得到有价值并能够服务于社会的
信息和知识是当前数据挖掘领域中主要研究的方向之一
[6]
。时间序列数据挖掘
[7]
与传统数据挖掘
[1]
一样，可以从该
类数据中发现潜在蕴含的有价值的信息和知识，最终反馈
并应用于社会生产实践中。
时间序列数据通常是一种高维且随着时间变化而变化
的数据，它的产生过程极易受到环境因素的影响，并存在
一定的噪声。针对此类复杂数据，研究如何有效地从中获
取信息和知识，对社会生产实践和科学研究都具有非常重
要的理论研究价值和现实意义。由于时间序列自身的高维
特性，在实际应用中，通常需要对时间序列进行局部特征
提取或全局特征分解，降低原时间序列的维度，并且结合
时间序列的相似性度量方法来更为有效合理地进行时间序
列数据挖掘，进而从时间序列数据中提取有价值的信息和
知识。
特征表示方法不仅能够将高维空间中的时间序列映射
到低维特征空间，实现数据降维，还能够有效地反映时间
序列的基本形态和重要信息，为提高时间序列数据挖掘的
效率奠定基础。与此同时，相似性度量方法是时间序列数
据挖掘中的另一重要过程，也是时间序列数据挖掘中基本
和关键的问题之一。大部分时间序列数据挖掘技术的初始
工作都需要进行相似性比较，例如聚类、分类、兴趣模式
发现、异常模式发现以及时间序列可视化等
[7]-[9]
，以便建立
数据之间的二元关系。因此，相似性度量方法的有效性直
收稿日期：2012-9-16  返修日期：2012-10-25 基金项目：国家自然科学基金（70871015）, 新世纪优秀人才支持计划（NCET-11-0050）。
作者简介：李海林(1982－),男, 博士，讲师,主要研究方向为数据挖掘与人工智能(hailin@mail.dlut.edu.cn)；郭崇慧(1973－),男, 教授, 博士生导师, 主
要研究方向为数据挖掘和决策支持。