中国金融科技白皮书:时序数据挖掘历史与发展探析

需积分: 33 59 下载量 114 浏览量 更新于2024-08-07 收藏 722KB PDF 举报
本文主要介绍了时序数据挖掘在中国金融科技生态白皮书(2020年)中的重要发展,特别是在时域分析领域的历程和时间序列数据挖掘的兴起。从19世纪的遗传学研究开始,如高尔基和皮尔逊的工作,回归与相关系数的概念逐渐形成,尤尔创立的平稳线性自回归模型为时域分析奠定了基础。Yule的AR(2)和AR(4)模型,以及Slutsky的MA(h)模型,都在这一时期发展起来,逐渐替代了传统的周期图分析方法。 1938年,Wold的贡献在于离散平稳随机过程的研究,他证明了隐周期模型与线性自回归过程的关系,并确立了ARMA模型对于平稳序列的建模基础。随着统计方法的深入,1970年Box和Jenkins提出了非平稳自回归移动平均(ARIMA)模型,以及完整的建模、估计、检验和控制方法,极大地推动了时间序列理论和实践的发展。 进入20世纪90年代,时间序列数据挖掘(TSDM)崭露头角,其研究领域广泛,涵盖了模式表示、相似性度量、分类、聚类、模式发现、预测和可视化等多个方面。时间序列的模式表示旨在解决高维、复杂和噪声大带来的挑战,通过在新层次上重新组织数据,提高挖掘算法的精度和可靠性。 时间序列分析的核心概念包括时间序列的定义,如观测值随时间顺序排列的集合,其特点如相关性、趋势性、季节性和随机性等。根据稳定性,可分为平稳序列和非平稳序列,前者如基本无趋势波动,后者则可能包含趋势、季节和周期性变化。时序分析的目的包括系统描述、预测和干预决策。 时间序列分析的内容包括分析样本以识别动态过程特征,选择最佳数学模型,估计参数,并进行预测。数据特性方面,时间序列既具有内在周期性,又包含确定性和不确定性,而数据属性则涉及定性、定量、空间和非空间等多种类型。 时序数据挖掘的发展反映了科技的进步和统计学的深化,它不仅限于基础的统计分析,还扩展到数据挖掘技术,成为理解和预测复杂系统行为的重要工具。从描述性分析到现代的深度学习方法,时序分析领域不断演进,为金融科技生态提供了强大的数据分析支持。