————————————
基金项目
基金项目基金项目
基金项目:
::
:国家自然科学基金资助项目“基于时空序列的水文过程相似性挖掘”(51079040)
作者简介
作者简介作者简介
作者简介:
::
:陈 遥(1977-),女,讲师、博士研究生,主研方向:智能数据处理,数据挖掘;朱跃龙、冯 钧,教授、博士;李士进,副教
授、博士
收稿日期
收稿日期收稿日期
收稿日期:
::
:2012-11-10 修回日期
修回日期修回日期
修回日期:
::
:2012-01-04 E-mail:
::
:chenyao0077@nuist.edu.cn
基于
基于基于
基于
Sequitur
的时间序列异步周期
的时间序列异步周期的时间序列异步周期
的时间序列异步周期模式
模式模式
模式挖掘
挖掘挖掘
挖掘
陈
陈陈
陈
遥
遥遥
遥
1,2
,
,,
,朱跃龙
朱跃龙朱跃龙
朱跃龙
1
,
,,
,冯
冯冯
冯
钧
钧钧
钧
1
,
,,
,李士进
李士进李士进
李士进
1
(1. 河海大学计算机与信息学院,南京 210098;2. 南京信息工程大学计算机与软件学院,南京 210044)
摘
摘摘
摘 要
要要
要:
::
:现有的时间序列异步周期模式挖掘方法是在获取 1-pattern 有效段及周期的基础上再以枚举法得到 i-patterns,时间复杂度较高。为
解决该问题,提出一种改进的异步周期模式挖掘方法。在时间序列符号化后,使用基于 Sequitur 的候选模式算法获取候选 i-patterns 及其事
件位置序列,通过基于 OEOP 的 i-patterns 有效段生成算法得到 1-pattern 和 i-patterns 的有效段及周期,从而生成有效子序列。实验结果表
明,该方法具有较高的挖掘效率。
关键词
关键词关键词
关键词:
::
:异步周期模式;Sequitur 算法;时间序列;符号化;数据挖掘
Asynchronous Periodic Pattern Mining
in Time Series Based on Sequitur
CHEN Yao
1,2
, ZHU Yue-long
1
, FENG Jun
1
, LI Shi-jin
1
(1. School of Computer and Information, Hohai University, Nanjing 2100
2. School of Computer and Software, Nanjing University of Information Science & Technology, Nanjing 210044, China)
【
【【
【Abstract】
】】
】Main existing algorithms mining asynchronous periodic patterns in time-series databases are designed to find i-patterns by enumeration
based on the mining of valid segments and periodic patterns of 1-pattern, and time complexity is high. An improved algorithm based on Sequitur
algorithm to mine asynchronous periodic pattern is proposed. It generates candidates for patterns based on the Sequitur algorithm to mine the
recurring segments and their time-lists of events after the symbolization of time series. Then an algorithm generating valid segments of i-patterns
based on One Event One Pattern(OEOP) algorithm is devised to mine directly some complex patterns, and finally valid subsequences are discovered.
Experimental result demonstrates that this method has good mining efficiency.
【
【【
【Key words】
】】
】asynchronous periodic pattern; Sequitur algorithm; time series; symbolization; data mining
DOI: 10.3969/j.issn.1000-3428.2012.18.012
计 算 机 工 程
Computer Engineering
第 38 卷 第 18 期
Vol.38 No.18
2012 年 9 月
September 2012
·
··
·软件技术与数据库
软件技术与数据库软件技术与数据库
软件技术与数据库·
··
·
文章编号
文章编号文章编号
文章编号:
::
:1000—
——
—3428(2012)18—
——
—0045—
——
—05
文献标识码
文献标识码文献标识码
文献标识码:
::
:A
中图
中图中图
中图分类号
分类号分类号
分类号:
::
:TP311
1
概述
概述概述
概述
周期模式挖掘问题是一个时间序列数据挖掘研究领
域中的重要研究方向,在现实世界中有很多应用,一般可
分为:全周期模式,部分周期模式和循环或周期关联规则
挖掘。其中,部分周期模式对序列长度和数据完整性等方
面要求比全周期模式宽松,是一种更松散的周期模式。文
献
[1]
提出部分周期模式的概念和算法,此后研究者对此做
了许多工作,又将其细分为:同步周期模式和异步周期模
式。同步周期模式要求周期模式按照周期间隔发生,或者
在该周期间隔的整数倍处发生;而异步周期模式允许周期
模式在时间轴上发生平移。在现实生活中,时间序列普遍
存在噪音影响,周期模式在时间轴上发生平移的现象广泛
存在,因此,研究异步周期模式挖掘有着更重要的意义。
文献
[2]
提出异步周期模式的概念及算法
LSI(Longest
Subsequence Identification)
,能发现最长的周期性子序列,
其中可以存在一些扰动以消除一些噪音对模式挖掘带来
的干扰。文献
[3]
提出一个包容性更强的异步周期模式挖掘
模型及算法
SMCA
。通过引入参数
global_rep
确定有效子
序 列 , 能 发 现 除 最 长 子 序 列 之 外 的 其 他 重 要子 序 列 。
SMCA
只需要扫描
2
次数据库,其时空复杂度都低于
LSI
。
文献
[4]
对文献
[3]
算法中的
1-pattern
有效段生成算法做了
改进,提出了
OEOP(One Event One Pattern)
算法,实现生
成
1-pattern
有效段的同时进行潜周期发现,因此,仅需要
扫描一次数据库,进一步提高了算法的性能。
由此可见,目前多数异步周期挖掘算法
[2-5]
一般包括
以下阶段:首先对时间序列符号化,接着获取
1-pattern
有
效段及潜周期,然后合成候选
i-patterns
,再进行
i-patterns
周期验证,最后生成有效子序列等。虽然不同的算法对各
个阶段的处理方法不尽相同,但它们都是在
1-pattern
有效
段 挖 掘 的 基 础 上 , 再 进 一 步 通 过 枚 举 方 式 合 成 候 选