实时数据流分析：频繁项挖掘与聚类新视角

版权申诉

14 浏览量更新于2024-07-02 收藏 15.09MB PDF 举报

"本文主要探讨了数据流频繁项挖掘与聚类分析在计算机研究中的重要性和应用，重点关注数据流的特点以及其在数据挖掘领域的挑战。" 数据流频繁项挖掘是当前计算机科学研究的一个关键领域，它源于数据量的爆炸性增长，特别是在科学、技术以及信息技术广泛应用的背景下。数据流以连续、有序且实时的方式不断涌现，如网络流量监控、网络安全、金融应用、环境监测和日志记录分析等众多领域都有所涉及。这种连续有序到达的数据序列被称为数据流。与传统的数据库相比，数据流具有独特的特性： 1. 数据量无界：数据流的数据量可以无限增长，无法完全存储。 2. 一次性处理：通常情况下，数据流仅处理一次，除非选择保留。 3. 记录到达速率快：数据流的数据产生速度极快，对处理速度提出了高要求。 4. 记录到达顺序不可控：数据流中的数据无法预知其到达顺序，增加了分析难度。数据流挖掘旨在从持续流动的数据中提取出用户之前未知的有用信息和知识。其主要任务包括发现关联规则、分类规则以及聚类结构。关联规则挖掘是找出数据集中项集之间的频繁模式，例如购物篮分析中的商品组合；分类规则则涉及预测数据的类别标签，通过学习已知样本构建分类模型；而聚类分析则是将数据分为不同的组或簇，使得同一簇内的数据相似度高，不同簇间的数据相似度低。面对数据流的挑战，研究者们提出了多种适应数据流特性的挖掘算法。例如，窗口模型用于限制处理的数据范围，以应对无限的数据量；近似算法能够在时间和空间复杂性之间取得平衡，快速处理高速数据流；同时，适应性学习方法能应对数据分布变化，保证模型的准确性。在实际应用中，数据流挖掘与聚类分析能够帮助监控网络流量异常，预警网络安全威胁；在金融市场中，它们可用于实时预测股票价格走势，辅助决策；在环境监测中，可以快速识别出环境变化模式；在日志记录分析中，可及时发现系统性能瓶颈和故障源。数据流频繁项挖掘与聚类分析是应对大数据时代挑战的重要工具，对于实时信息处理和知识发现具有显著价值。随着技术的不断发展，这一领域的研究将继续深化，为各个行业的数据分析提供更高效、准确的解决方案。

第二章数据流挖掘研究进展

科学技术的发展和信息技术的广泛应用引发的新型应用，使得数据流研究已成为学术界广

泛关注的研究课题．本章主要介绍数据流中常用的处理技术、数据流挖掘研究进展与相关

的数据流挖掘系统．

２．１引言

随着信息技术的发展，越来越多应用中的数据以流的形式出现。数据流的连续

性、流中数据的无限性、高速流动性等特点，以及计算与内存资源有限性的限制，

要求数据流挖掘算法在不可能存储流中所有数据的情况下，利用概要数据结构中存

储的数据流概要信息及有限的资源快速处理流数据并输出挖掘结果，同时由于数据

流中数据分布随时间不断改变，要求数据流挖掘算法的分析结果能够反映数据流中

数据分布的变化。Ｈｅｎｚｉｎｇｅｒ在文献【６７】最早提出数据流处理模型定义。随着信息技

术的发展，数据流研究已成为学术界广泛关注的研究课题，ＳＩＧＭＯＤ、ＶＬＤＢ、ＩＣＤＥ、

ＩＣＤＭ等数据库与数据挖掘领域的顶级会议中每年都有多篇关于数据流方面的论

文。数据流挖掘相关的研究主要从如下几个方面展开ｆ６８１：

连续数据流处理问题：研究新的索引、存储与查询技术来处理连续、波动

（Ｆｌｕｃｔｕａｔｅｄ）的信息流。

移动设备中最小化能量（Ｅｎｅｒｇｙ）消耗问题：在资源受限的环境中，

如传感器

网络，有大量的数据流产生。设计有效的能量供给技术对于由各种资源受限的设

备产生数据流并送往中心处理节点进行分析处理至关重要。

无限的内存需要：由于数据流的无限性，则需设计空间效率高且只能以一次或尽

量少次数扫描数据流的处理算法。

要求的结果精度：在保证时空高效的情况下，设计可接受精度的近似算法。

通过有限带宽的无线网络传输数据挖掘结果：当从数据流产生处提取出模型与模

式后，需将这些结果传输给用户。

挖掘结果变化的建模：在有些情况下，挖掘结果如何随时间变化往往对用户更有

意义。因此，研究能挖掘结果变化的算法是有意义的，而传统的数据挖掘算法不

能提供挖掘结果随时间改变方面的信息。

数据流挖掘结果在移动设备小屏幕上的显示问题：数据挖掘结果如何在显示器上

的显示问题现在仍在研究：在ＰＤＡ的小屏幕上可视化显示挖掘结果更是一个需要

研究的问题。

数据流挖掘今后所面临的问题与最新的研究方向主要有以下几个方面ｆ６８１：

数据流挖掘应提供交互式的挖掘环境：因为数据流挖掘是一个面向应用的研究领

第１１页

第二章数据流挖掘研究进展

域，用户的要求应被视为一个重要的研究课题。

数据流管理系统与数据流挖掘算法的集成：只有将数据流存储、查询、挖掘及数

据流信息的推理技术相结合的数据流系统，才能满足不同应用领域的需求。

数据流挖掘研究应注重实际需要：这是因为数据挖掘是一个应用科学分支，只有

挖掘技术具有实用性才能实现数据流挖掘研究的目标。

数据流预处理技术：设计合适的预处理技术以保证数据流挖掘的质量。在知识发

现过程中，数据的预处理往往是一个较高代价的操作，而在数据流环境下，应当

研究如何使得预处理过程自动化并将其与数据流挖掘技术集成在一起。

模型过拟合（Ｏｖｅｒｆｉｔｔｉｎｇ）问题的研究：在数据流环境下，应用如“交叉验证＂

的方法来避免过似合问题代价过高，因此需要设计适用于数据流环境的新技术来

避免该问题。但目前还没有发现研究该问题的文献。

数据流挖掘技术问题：如何在数据流环境下进行数据表示、哪种平台比较适合这

种特殊的实时应用、如何在资源受限的条件下进行数据流挖掘研究等。

实时准确性评价问题：需要建立一种机制反馈给用户在当前可用资源条件下所取

得结果的准确性，并能根据可用的资源进行结果准确性的调整。

数据流计算的形式化；数据流挖掘需要通过某种数据流计算理论进行形式化，它

有助于算法的设计与实现建立在一个坚实的理论基础之上。其中近似技术与统计

学习理论可以作为这种计算理论的基础。近似技术可以提供实现数据流挖掘算法

的解决方法，而统计学习理论可用于确定挖掘方法的损失函数。

以上八个方面概括了今后数据流挖掘的主要研究方向。下面几节我们将从数据

流处理的基本技术与数据流挖掘算法两个方面来介绍数据流挖掘研究的现状。

２．２基本技术

在数据流环境下，一方面海量数据高速、持续到达，而另一方面数据流处理系

统的存储及计算资源却是有限的。这就要求在保证算法精度的同时，尽量降低算法

的空间和时间开销。现有的各种数据流挖掘算法一般都基于某些基本的数据流处理

技术，如抽样（Ｓａｍｐｌｉｎｇ）、直方图、Ｌｏａｄ

Ｓｈｅｄｄｉｎｇ、梗概（Ｓｋｅｔｃｈ）、小波以及近似

算法等【２，４３１，以下分别进行介绍。

２．２．１抽样（Ｓａｍｐｌｉｎｇ）

抽样是指以一定的概率确定处理当前到达的数据项，它是一种经典的统计技术

【８７】。根据各数据项被选中的概率是否相同，抽样可分为均匀抽样（Ｕｎｉｆｏｒｍ

Ｓａｍｐｌｉｎｇ）和偏倚抽样（Ｂｉｓｅｄ

Ｓａｍｐｌｉｎｇ）。在均匀抽样中，各数据项被选中并进行

处理的概率相同：而在偏倚抽样中，各数据项被选中并进行处理的概率不同。其中

第

１２页

第二章数据流挖掘研究进展

水库抽样（Ｒｅｓｅｒｖｏｉｒ

Ｓａｍｐｌｉｎｇ）【６９］和精确抽样（Ｃｏｎｃｉｓｅ

Ｓａｍｐｌｉｎｇ）［７０］属于均匀抽样

方法。而计数抽样（Ｃｏｕｎｔｉｎｇ

Ｓａｍｐｌｉｎｇ）［７０］贝ｔｌ属偏倚抽样方法。在水库抽样方法中，

若抽样样本集大小为８，则算法扫描数据集ｓ中的第玎个数据项时，该数据项以Ｂ／ｎ

概率加入到样本集中。如果样本集大小超过了８，则从样本集中随机删掉一个样本。

精确抽样方法改进了水库抽样中样本表示方法，即对于多次出现于样本集中的数据

项，采用结构＜ｖａｌｕｅ，ｃｏｕｎｔ＞表示，ｖａｌｕｅ是数据项的代码，ｃｏｕｎｔ表示样本集中该

数据项的个数。即精确抽样方法比水库抽样方法具有更好的空间效率。计数抽样是

精确抽样方法的变种，它虽然不是均匀抽样方法，但却能有效获得数据集合中频繁

数据项的列表。

２．２．２直方图（Ｈｉｓｔｏｇｒａｍ）

直方图技术能有效表示数据集合中数据的分布，它广泛应用于估算查询集合的

大小、近似查询及数据挖掘中。直方图为原始数据创建多个连续的桶（Ｂｕｃｋｅｔ），并

为每个桶维护一个计数进行描述。根据桶的划分规则不同，直方图可以分为：

等宽直方娶ｆｌ［７１】（Ｅｑｕｉ－Ｗｉｄｔｈ

Ｈｉｓｔｏｇｒａｍ）：每个桶所含的数据量（桶的高度）较

为平均。

压缩直方［］（Ｃｏｍｐｒｅｓｓｄ

Ｈｉｓｔｏｇｒａｍ）【７２】：是等宽直方图的扩展，它为频繁元素

单独创建桶，对其他元素仍然采用等宽直方图表示。

Ｖ杭化直方图（Ｖ－Ｏｐｔｉｍａｌ

Ｈｉｓｔｏｇｒａｍ）【７３１；以各个桶的方差之和最小作为划分桶

的依据。

２．２．３梗概（Ｓｋｅｔｃｈ）技术

梗概【２，７４】是将数据特征随机投影到一个子集的过程，是对输入数据流的一种垂

直抽样，它经常用于多数据流间的比较及聚集查询＠［６８１。在难以设计为取得精确

结果的数据结构情况下，只能通过一些近似的计算得到数据集合的一个概略。该数

据概略通常能在可接受误差范围内得到结果的前提下大大降低时间与空间消耗。

２．２．４

Ｌｏａｄ

Ｓｈｅｄｄｉｎｇ

Ｌｏａｄ

Ｓｈｅｄｄｉｎｄ［７５－７７，１１３１是当数据流处理系统的处理能力跟不上数据流流速增

长的情况下，系统自动抛弃一部分未处理数据，从而起到保护数据流系统的作用。

它是数据流处理中另一种常用的技术。由于实际数据流的流速有时会有明显的波动，

即处于峰值时的数据流流速可能远远超过大部分时间的流速，但若以峰值作为标准

来设计数据流处理系统将引起资源的极大浪费：另外，由于数据流的无限性且其变

第

１３页

第二章数据流挖掘研究进展

化的不可预测性，预测其峰值流速也是不实际的。保持系统持续查询是数据流系统

的基本要求，过载（Ｏｖｅｒｌｏａｄ）的系统不能及时处理数据流中当前数据，且对数据

流的后续查询会产生很大的影响。为保持系统的稳定，在系统过载时，丢弃一部分

未处理的数据（Ｌｏａｄ

Ｓｈｅｄｄｉｎｇ）成为一种很自然的选择。

２．２．５小波方法

小波方法是对原有的数据作小波变换，只保留原有数据主要信息的少数几个小

波参数来代表原有数据【７８，７９］。小波分析方法已被广泛应用到数据库领域中，如用

于在数据流上生成直方图、估算选择率（Ｓｅｌｅｃｔｉｖｉｔｙ）【８２】，估算数据立方体［８０】和

多维聚集值［８１】。小波的种类很多，其中最常见的是哈尔小波（Ｈａｒｔ

Ｗａｖｅｌｅｔ）。在

文献【８２】中，作者提出了一种基于哈尔小波技术的直方图生成算法，它将整个数据

集变换成一系列小波参数，并保留有限个高能量的参数来近似地模拟原始数据集。

在文献［７８１中，作者证明如果数据流中的数据已经排好序，只需Ｏ（Ｂ＋ｌｏｇＮ）的存储

空间，就可获得丑个能量最大的小波参数。

２．２．６近似算法

在数据流环境下，计算与存储资源相对受限，因此对于数据流处理通常是在内

存维护一个远小于数据流规模的概要，查询操作在所维护的概要上进行。这就要求

在所能提供的查询精度与占用的内存大小之间作出折衷，同时还得保证对于数据流

中的每一数据项有很短的处理时间。根据生成数据流概要的方法可将无限数据流的

近似算法分成以下几种【４３】：计数方法，此类方法主要用于数据流中估计分位数及

挖掘数据流中的频繁项，它保存了所选择的数据项（可通过抽样方法）在数据流中

出现次数的近似信息，同时确定近似值与真实值最大误差界【７１，８３，８４】；哈希方法，

该方法通常同计数与抽样方法结合，主要用于挖掘数据流中的频繁项【１９，８６】。此外，

抽样方法【８３，８４，８５，８７１、梗概技术【１１，８８．９０，１００—１０２］、小波变换［７８，１０３】也都属于近

似算法的范畴。

２．３数据流挖掘算法

由于数据流的特点及数据流处理系统的存储与计算资源限制，数据流挖掘算法

一般情况下难以象大部分传统数据挖掘算法那样提供准确的挖掘结果，而是提供有

精度保证的近似结果。近似结果包括两种类型：一种是确定性界限（Ｄｅｔｅｒｍｉｎｉｓｔｉｃ

Ｂｏｕｎｄｓ），即为算法结果的误差上界提供保证；另一种是概率界限（Ｐｒｏｂａｂｉｌｉｓｔｉｃ

Ｂｏｕｎｄｓ），即算法结果以置信度Ｐ保证其误差值在￡范围内。

第

１４页

第二章数据流挖掘研究进展

到目前为止，已有多种数据流挖掘算法，它们按功能类型可划分为数据流频繁

项挖掘、频繁项集挖掘、聚类、分类、异常检测和多数据流的监测与挖掘等。我们

主要介绍与本文关系密切的数据流频繁项挖掘与数据流聚类算法的研究进展，其它

的将进行简要介绍。

２．３．１数据流频繁项挖掘算法

自数据流模型提出以来，人们已提出了不同的数据流频繁项挖掘算法

【１９，８３，８４，１０４．１１２］。这些算法一般都是基于抽样、计数及哈希技术中的一种或者它

们的组合，以实现在有限的内存空间中对无限数据流的频繁项挖掘。挖掘的结果一

般是近似的，近似有如下含义：算法结果中包含所有频繁的数据项，同时可能包含

一部分不频繁数据项；算法结果中包含大部分频繁的数据项，但可能丢失一部分频

繁项；算法结果包含数据流中频繁项，但可能没有包含它们的计数信息。根据在频

繁项挖掘过程中所采用的主要技术，我们将数据流频繁项挖掘算法分为基于抽样的

方法、基于计数的方法与基于哈希的方法，下面分别进行介绍。

基于抽样的方法

１．Ｃ．Ｅｓｔａｎ等人［ａ９１提出ｓａｍｐｌｅ

ａｎｄ

ｈｏｌｄ算法求解数据流中频繁项，算法的误差正

比于去，其中Ｍ为可用的内存大小。算法的基本思想如下：以一定的概率对

眦

数据流中的数据进行抽样，若一数据项被抽到，且内存没有对应该项的计数器，

则创建对应于该项的计数器，且对于数据流中后续的对应已有的计数器的数据

项，不管在后续过程是否被抽样到，均更新计数器。

２．Ｍａｎｋｕ和Ｍｏｔｗａｎｉ根据数据流的特点，提出基于抽样与计数的ｓｔｉｃｋｙ

ｓａｍｐｌｉｎｇ

算法【８４１，它以不同的抽样率对数据流中的数据项进行抽样，然后估计流中特

定项的出现次数（频数），在内存中保存概要数据结构Ｓ。Ｓ由一组结构为（ｅ，，）

的项组成，其中ｅ表示属于数据流中一个项的标识，，是对该项在数据流中出

１

现次数的估计。ｓｔｉｃｋｙ

ｓａｍｐｌｉｎｇ以概率三对数据流中的数据项进行抽样。对于数

，

１

据流中到达的每一数据项，若其已存在于Ｓ中，则其计数，加１，否则以概率三

，．

抽样，若抽取到则往Ｓ中加入新元组忙∞，否则处理数据流中的下一个数据项。

１

其中抽样率，随时间改变。设ｔ·三ｌｏｇ（ｓｄ６。１），其中Ｊ为用户的最小支持度要

￡

求。对于数据流中的前丑个数据项的抽样率是，一１，第二个复个数据项的抽样

第

１５页

剩余148页未读，继续阅读

programyp

粉丝: 89
资源: 9324

实时数据流分析：频繁项挖掘与聚类新视角

计算机研究 -数据挖掘中聚类问题的研究.pdf

数据挖掘常用聚类算法研究.pdf

数据挖掘中聚类分析.pdf

论文研究-一种基于代表点的分布式数据流聚类算法.pdf

基于数据流挖掘的网络入侵检测系统的分析与研究-定稿.pdf

数据挖掘中几种划分聚类算法的比较及改进.pdf

一种基于代表点的分布式数据流聚类算法.pdf

分布式环境中聚类问题算法研究综述.pdf

论文研究-不确定数据挖掘技术研究进展 .pdf

传感器网络分布式数据流挖掘研究综述.pdf

最新资源