Spark驱动的分布式流程发现：大数据时代效率提升

143 浏览量更新于2025-01-16 收藏 1.62MB PDF 举报

本文主要探讨了大数据环境下如何提升流程发现的效率和处理能力。流程挖掘作为业务流程管理的重要工具，通过分析事件日志揭示流程执行模式，但传统的流程发现算法，如alpha和启发式挖掘器，在面对海量数据时面临性能瓶颈。作者Hicham Al-Al-Benallal和Mohamed Anis，来自沙特国王大学，针对这一问题，提出了一种基于Spark框架的分布式解决方案。 Spark作为一个分布式计算框架，被选中是因为其在处理大规模数据集上的优势，如实时处理和容错性。作者提出的分布式流程发现算法结合了Alpha和启发式方法，旨在实现在大数据量和多节点集群环境中高效、可扩展的过程发现。这种方法将CPU密集型任务，如构建因果关系矩阵，分解到多个节点上，从而提高了算法的处理速度和对数据规模的适应性。实验结果显示，随着数据大小的增长和集群节点数的增加，该分布式算法能够有效应对挑战，显著提升了流程发现的性能。这种改进对于那些依赖于事件日志分析以优化业务流程的企业或组织尤其重要，因为它们可以处理不断增长的业务活动记录，并从中提取有价值的信息以驱动流程改进和合规性。本文还强调了流程挖掘的复杂性，因为它涉及在海量事件数据中寻找潜在关系，这需要强大的计算能力和先进的算法。此外，作者提醒读者注意版权信息，该研究论文遵循CCBY-NC-ND许可证，允许开放访问，这体现了学术界共享知识和推动创新的精神。总结来说，这篇文章的核心贡献在于提供了一种分布式、基于Spark的流程发现方法，以解决在大数据时代处理流程挖掘问题的挑战，这对于企业提升业务流程管理效率具有实际应用价值。

R. Hicham

和

Benallal Mohamed Anis

沙特国王大学学报

8480

嗨

嗨嗨

;

公司

简介

！

2.3.2.

构建过程模型

第二步对足迹应用

算法，建立一个带标记

的

Petri

网

算法如下

进行：

表

基于示例

中的事件日志的

FHM

的子集日志排序关系频率和依赖性度量。

1. 确定以下各项的集合：

(a)

所有不同的活动（例如，T

={a，b，c，d，e，f，g，

h}）

(b)

可能的初始活动（例如T

={a}）

（

一

）

= 5

= 15

= 5

= 10

= 15

dj= 5ja

ej = 5

(c)

可能的最后活动（例如T

={g，h}）

2. 计算X =（{A，B}）的可能集合，其中：

(a) A

中的所有元素（分别为

）都是独立的（即，

和

）。

(b)

对于每个（a，b）（A，B），a

(c)

A和B不是空的。

（例如：

X = {({a}, {b}), ({a}, {c}), ({a}, {d}), ({b}, {e}), ({c}, {e})

.. .

（

{e}

，

{h})

，（

{a}

，

）（

，

{e}

），（

{e}

，

），

（

{f}

，

）... （

，

），（

，

{d}

）

从步骤

中，仅选择最大集合（例如，

Y ={

（

，

），

bj = 5 jc

bj= 10

= 15

= 5

= 15

= 5

（

）

第

（

）

款

）

0.93

）

0.83

）

0.93

）

0.83

）

0.9

）

0.24

）

0.58

L L

L l

({a

，

{d}

），（

{d}

，

{e}

），（

，

{e}

），（

{e}

，

）

}

。

）

0.65

）

-0.96

L l

4. 在Y中为每个集合创建一个位置，并添加一个初始和最终

）

0.24

）

0.24

L l

地

5. 在地点和活动

例

从（

Vander Aalst

，

2016

）的表

中获取事件日志，

算法将生

成

Petri

网

[35]

中描述的过程模型，如图所示。

1 .

一、

2.4.

Alpha+

算法

在（

Medeiros

，

2004; Hung

等人，

2020

年，以

A +

的名义。这一

步超越了

alpha

算法可以捕捉长度为

和

的短循环。

Alpha+

算法如

下进行：

1. 它标识所有单循环活动并将其放入单独的列表中。

2. 它识别连接到一个循环活动的所有弧，即，在单循环活动之前和之

后发生的活动。(e.g trace = aeed，arcs = {（a，e），（e，d）}）

3. 它从原始事件日志中删除所有单循环活动

4. 它将算法应用于已清理的事件日志。

）

0.4

）

0.4

例如 2. 让 L 被一个事件日志和 L 为

;

}

。考虑事件日志

，基于日志的排序关

系的频率矩阵如表

所示。

2.5.2.

计算依赖性度量

基于对数序关系，

FHM

计算表示对数序关系中活动的相对频率的

依赖性度量

此外，这些度量表示两个活动

定义3. FHM算法依赖性测量。设T是一组活动，L是T上的事件日志。

设a，b2T;jaj是a在L中出现的次数，ja>

bj是a>

b在L中出现的次数，

（ja

bj和ja>

bj相同），则：

ja>

bj-jb>

aj，

如果

a b

a>b

b>a

最后，它将单循环活动及其弧重新连接到发现的模型。

2.5.

灵活的启发式矿工

b¼

：

;

ifa

发现流程模型的另一种替代方法是

灵活启发式矿工

（

FHM

）

（

Weijters

和

Ribeiro

，

2011

）。引入

FHM

通过消除被认为是异常行

为的不频繁或罕见的执行跟踪来处理噪声事件日志

FHM

包括以下步

骤：

2.5.1.

对数序关系和频率矩阵的提取

FHM

定义了三种基于日志的排序关系：

定义2. FHM算法基于日志的排序关系。设T是一组活动，L是T上的事

件日志设a，b2T：

●

直接继承：

（一个

b）、

（）

它存在一

微量

;

;. ;

在L中，其中a = t

且b = t

≠

，

对于i {1，

2，... . ，n-1}（也用于alpha算法）。

●

长度为

的环：

（

）

（）

;

. .

;

其中

，

对于

，

，.. . ，

n-2}

。

●

间接

演替：

（

）

（）

;

. .

其中

= a

且

= b

且

i <j

对于

，

在2

，

，.. . ，

n-1}

。只有... . 没有其他

或

的模

式

剩余12页未读，继续阅读

cpongm

粉丝: 6

Spark驱动的分布式流程发现：大数据时代效率提升

大数据环境下基于Spark的分布式进程发现算法研究

大数据环境下的电力营销信息化建设分析

企业财务管理信息系统在大数据环境下的应用研究

大数据环境下配置项变更影响分析.pptx

大数据环境下的文旅多维数据分析系统设计与开发.pdf

大数据环境下科研管理流程优化研究.pdf

大数据环境下智能日志分析平台运维.pdf

大数据环境下智能日志分析平台运维.zip

大数据云计算环境下的数据安全分析.pdf

广西矿产资源大数据监管平台高效监控与分析

最新资源