P-Stream：概率数据流的高效聚类算法

需积分: 3 45 浏览量更新于2024-07-26 收藏 562KB PDF 举报

"基于概率数据流的有效聚类算法——P-Stream" 在信息技术领域，数据流处理是大数据分析的重要组成部分，特别是在实时监控、网络流量分析和传感器网络等场景中。"Effective Clustering Algorithm for Probabilistic Data Stream"这篇论文提出了一种名为"P-Stream"的新颖聚类算法，专门针对概率数据流进行设计。概率数据流是指包含不确定性的数据流，其中的数据项可能带有概率或模糊性。 P-Stream算法首次引入了对数据流中不确定性处理的概念，包括强集群（Strong Cluster）、过渡集群（Transitional Cluster）和弱集群（Weak Cluster）。这些概念对于理解和处理数据流中的概率属性至关重要。强集群指的是那些高度聚集且概率较高的数据点集合，而过渡集群则表示在时间和空间上可能转变成强集群的群体。弱集群是那些概率较低但仍然有潜在聚类结构的数据点集合。 P-Stream算法的核心在于它提供了一种有效策略来选择候选中心点（candidate centers），这些中心点用于构建聚类。该策略考虑了数据的概率特性，确保在处理不确定性和噪声时仍能识别出稳定的聚类结构。此外，算法还采用了滑动窗口模型，以处理不断变化的数据流并适应新的聚类模式。在实现过程中，P-Stream算法首先对数据流中的每个到达元素进行概率评估，然后使用提出的聚类概念对元素进行分类。算法通过迭代优化过程，不断更新集群状态，并根据数据流的动态性质调整其结构。这一过程使得P-Stream能够在处理大量实时数据时保持高效性和准确性。论文详细讨论了算法的实现细节，包括时间复杂度和空间复杂度分析，以及算法的性能评估。实验结果表明，P-Stream算法相比传统的数据流聚类方法，如ST-Stream和BIRCH，在处理概率数据流时，能更好地保持聚类质量，同时降低了计算成本。总结来说，"Effective Clustering Algorithm for Probabilistic Data Stream"这篇工作为处理概率数据流提供了一种创新的解决方案，通过引入概率集群的概念和有效的选择策略，解决了不确定性带来的挑战，对于实时数据分析和决策支持系统具有重要的理论与实践价值。

1316

Journal of Software 软件学报 Vol.20, No.5, May 2009

定义 2. 弱簇 C 是存在概率小于某一阈值

的簇,即 EP

,其中,

满足

min ,

αθ α

⎛⎞

⎜⎟

⎝⎠

.过渡簇 C 就是存

在概率位于强簇和弱簇的存在概率之间的簇,即

≤EP

过渡簇存在概率范围[

]不能太小,否则,一个簇在强簇和弱簇之间有可能频繁变化,为了捕捉簇存在概率

的演化情况,就会频繁地存储簇的快照,导致在线处理速度降低.当

min ,

αθ α

⎛⎞

⎜

⎝⎠

⎟

时,任意一个强簇(或弱簇)

不会在加入任何一个数据元组后变为弱簇(或强簇),因此有以下引理:

引理 1. 当

min ,

αθ α

⎛⎞

⎜

⎝⎠

⎟

JJJJG JJJJG

时,概率流中任意一个元组〈v,p〉加入强簇(或弱簇)C 后,新形成的簇 C′不会立

即变为弱簇(或强簇).

证明:略. □

定义 3. 若簇 C 在时段[t,t+T]内有 s 个概率流中的数据元组加入,则称下列情况之一是簇 C 在时段[t,t+T]

内的正向变化:① 簇 C 在时刻 t 是弱簇,在 t+T 时刻是过渡簇或强簇;② 簇 C 在时刻 t 是过渡簇,在 t+T 时刻是

强簇

.同理,称下列情况之一是簇 C 在时段[t,t+T]内的负向变化:① 簇 C 在时刻 t 是强簇,在 t+T 时刻是过渡簇或

弱簇

;② 簇 C 在时刻 t 是过渡簇,在 t+T 时刻是弱簇.

定义 4. 对于簇的 3 种状态:强簇、过渡簇和弱簇,在

T 时间内,若强簇或弱簇发生下面的变化之一,则称其

为簇在

T 内的一次完整变化:① 对于初始的强簇,每加入数据流中的一个数据元组,其状态要么不变,要么发生

负向变化,且最后时刻簇的状态处于弱簇;② 对于初始的弱簇,每加入数据流中的一个数据元组,其状态要么不

变

,要么发生正向变化,且最后时刻簇的状态处于强簇.

算法 P-Stream 扩展 BIRCH

[20]

算法中的 CF(clustering feature)数据结构,采用微簇来概要地存储簇中的信息.

定义 5. 对于 n 个元组的簇 C={〈v

〉…〈v

〉},其微簇 PCF(probabilistic clustering feature)定义为

其中

,,,,

CF CF EP n MID〈〉

JJJG

和是 d 维向量,每维向量值是簇 C 中 n 个元组各 V 值相应维的二阶矩和

JJJJG

一阶矩,EP

是簇 C 的存在概率,n 是簇 C 中数据元组个数.MID 是簇 C 处于未过期时的聚类模型标号,所有处于

同一未过期的聚类模型中的簇都用同一个标号

对于定义 5 中的微簇 C,当每个新加入的元组〈v,p〉变为 C′后,PCF 中

,,,,

CF CF EP n MID

JJJG JJJJG

都可增量维护,其

中

(( ) ) .

CCn

EP EP p

′

=×特别地,

JJJG

是簇 C 的中心点,

()

−

∑

是簇 C 的半径(其中,v

是簇 C 的中心点),

其值可以通过 , 进行计算.任意元组〈v,p〉与簇 C 的距离定义为 v 值与 C 中心点的距离.

JJJJG

2.2 P-Stream算法的基本框架

算法 P-Stream 的基本框架如下所示.其中,时标用离散的整数 0,1,2,…,n,...表示.P-Stream 采用两层的聚类方

法

,每层 PCF 数目是 q.一般情况下,q 的值远大于数据中的自然簇个数,但远小于数据流中很长一段时间内到达

的数据个数

[4]

P-Stream:

1. {

total=0;Mnormal=0;total′=0;Mnormal′=0;TimeStamp=0;Cnormal=0;MID=0;

total,Mnormal 分别计数在同一模型内第 1 层处理的元组总数和被第 1 层簇成功接受的元组

数

;total′,Mnormal′分别计数第 2 层处理的元组总数和被第 2 层簇成功接受的元组数;TimeStamp 为时

标

;Cnormal 用来计数从检查点开始被第 1 层成功接受的元组数;MID 是所有第 1 层簇处于同一未过期

模型时的

ID 号.//

把概率流中前 q 个元组作为 q 个微簇中心点,初始化其 PCF 集 PS;

剩余15页未读，继续阅读

PKUWalter

粉丝: 0
资源: 41

P-Stream：概率数据流的高效聚类算法

论文研究-K-ANMI: A Mutual Information Based Clustering Algorithm for Categorical Data.pdf

An Efficient Clustering Algorithm for Large Databases

A three-way decisions clustering algorithm for incomplete data

A clustering algorithm for multiple data streams based on spectral component similarity

TW-$(k)$-Means: Automated Two-Level Variable Weighting Clustering Algorithm for Multiview Data

A Novel Three-Way Clustering Algorithm for Mixed-Type Data

Autonomous Data-Driven Clustering for Live Data Stream：实时数据流的自治数据驱动聚类算法源码；-matlab开发

Enhanced k-Means Clustering Algorithm for Malaria Image.pdf

A Distribution-Based Clustering Algorithm For Mining In Large Spatial Databases

2019 A k-Means-Type Algorithm for Imbalanced data.pdf

最新资源