没有合适的资源?快使用搜索试试~ 我知道了~
事件日志流中概念漂移的监控框架及其在电子医疗保健过程中的应用
跟踪:认知计算WWW 2018,2018年4月23日至27日,法国里昂319转事件日志流中概念漂移检测的人在回路监控框架小西尔维奥·巴尔邦隆德里纳州立大学(UEL)隆德里纳,巴西barbon@uel.brGabriel MarquesTavaresLondrina StateUniversity(UEL)Londrina,Brazilgtavares@uel.brVictor G.Turrisi daCostaLondrina StateUniversity(UEL)Londrina,Brazilvictorturrisi@uel.br摘要保罗·塞拉沃洛米兰大学(UNIMI)意大利克丽玛paolo.ceravolo@unimi.it埃内斯托·达米亚尼哈利法大学(KUST)阿联酋阿布扎比ernesto.kustar.ac.ae性能[17]。如果这个反应必须实时组织认知计算(CC)的主要挑战之一是对不断变化的环境做出近实时的反应。因此,预计CC模型通过检查过去历史的摘要而不是使用完整的历史数据来提供解决方案。该策略在响应时间和空间复杂性方面具有显著的益处,但在概念漂移检测方面提出了新的挑战,其中应考虑长期和短期动态 在本文中,我们介绍了事件流框架(CDESF)的概念漂移,解决了一些这些挑战的数据流记录执行基于Web的业务流程。由于CDESF支持特征转换,我们在过程事件流的转换后的特征空间中执行密度聚类,观察跟踪概念随时间的漂移,并以离群值的形式识别异常情况 我们验证我们的方法使用日志的电子医疗保健过程。关键词流程挖掘,DBScan,概念漂移,聚类,流挖掘ACM参考格式:放 大 图 片 作 者 : Sylvio Barbon Junior , Gabriel Marques Tavares ,Victor G.Turrisi da Costa,Paolo Ceravolo 和Ernesto Damiani 。2018年。事件日志流中概念漂移检测的人在回路监控框架。在WWW '18伴侣:2018年网络会议,2018年4月23日至27日,里昂,法国。ACM,NewYork,NY,USA,8页。 https://doi.org/10.1145/3184558。 31863431介绍认知计算(CC)的最新进展设想了可以有目的地推理并与环境交互的系统传统机器学习的定量和确定性方法的一步[16]。CC的一个主要挑战是提供自主推理和持续学习,以实现理性理解和人类与机器之间的自然交互[24]。应对这一挑战需要处理不确定的知识和近似解[30],以及能够对新的刺激做出反应,避免突然退化。本文在知识共享署名4.0国际(CC BY 4.0)许可下发布。作者保留在其个人和公司网站上以适当的归属方式传播作品的权利WWW©2018 IW3C2(国际万维网会议委员会),在知识共享CC BY 4.0许可下发布。ACM ISBN 978-1-4503-5640-4/18/04..https://doi.org/10.1145/3184558.3186343或近实时,我们进入数据流处理领域其中结果必须使用传入的更新来连续更新影响数据流的一个众所周知的问题是概念漂移,其中记录的元组x和系统响应y之间的潜在关系随时间变化[14,18]。忽略概念漂移会导致算法的质量及其表示数据中最新概念的能力恶化。此外,概念漂移与任何学习任务的验证过程有关,因为它重塑了观察到的数据和响应之间的比率。实施概念漂移适应策略不是一项简单的任务,因为不同类型的概念漂移是可能的,并且可以响应于它们进行不同的适应[15]。在本文中,我们认为,概念漂移可能代表一个关键方面,以加强人与机器之间的合作。概念漂移不是创建将最终用户与系统的深层行为隔离的额外复杂性水平,而是可以提供有效的工具来监督其演变并通过人在回路过程来指导其验证,其中人观察概念漂移随时间的出现并可以通过调整超参数来解决系统行为。为了实现该目标,概念漂移检测过程必须实现以下性质:将处理数据流的任何算法的结果作为输入;(b)可监测,即人类可以使用合成的人类可读表示来监视它,并且在系统随时间的演变中导航。沿 着 这 些 路 线 , 我 们 引 入 的 概 念 漂 移 事 件 流 框 架(CDESF),以解决概念漂移监测的通用数据流处理算法。为了使人类用户能够理解系统的演变,CDESF使用三维空间对其进行编码,该三维空间的轴是时间和总结应用于传入数据的分析结果的两个当正交方面被两个所选择的度量捕获时,用户获得由算法提供的响应的广泛覆盖。 同时,当响应的概率分布改变时,用户观察到CDESF表示的演变。除了显示的演变,我们的CDESF作为超参数处理概念漂移检测的控制器,特别是,它可以修改的概率分布,通过识别概念漂移。为了评估CDESF,我们确定了一个具体的学习任务和参考文献来比较我们的结果。我们选择解决跟踪:认知计算WWW 2018,2018年4月23日至27日,法国里昂320→→(→)--进程挖掘(PM)[26],因为它对事件流处理[ 6 ]施加了具有挑战性的约束,并且因为变化检测是一个广泛讨论的主题[2,8]。本文的其余部分组织如下。第2节介绍了本文提出的总体框架。本节还讨论了流程挖掘、流分析、异常检测和跟踪聚类的一些形式化概念。在本节中,提出了流聚类的挑战,以及从所提出的框架中获得的一些人性化的见解之后,第3节描述了实验中使用的聚类算法第4节介绍了框架的实施和评估所最后,第5节总结了本文,并概述了我们未来的工作。2事件流框架本节描述了所提出的框架的工作流程以及所应用的技术和技巧在图1中,可以看到CDESF的概述2.1形式化2.1.1流程挖掘基础知识。在这项工作中解决的学习任务是PM。 PM利用事件流对业务流程运行分析。与其他流相关问题不同,PM分析不能用传统的流挖掘技术来处理,因为输入学习过程的单个元组是通过对时间上的多个事件进行分组来获得的,其中过去的事件影响未来的事件[5]。在PM中,每个事件都记录了某个活动的执行情况,该活动是用户执行的任务或操作。每个事件也与单个实例或执行相关,通常称为case [27],它收集了为实现特定结果而执行的活动序列。活动的唯一序列称为跟踪;因此多个案例可以显示相同的跟踪。然后,可以基于事件的执行时间对事件进行排序,或者基于事件的活动类型或其他属性(例如,活动的执行成本、发起者(启动或监督执行的人)或在执行期间利用的资源)对事件进行分组2.1.2核心数据流概念。在传统的机器学习中,人们可以访问所有可用的数据,然而,当处理数据流时,不能做出这种假设。在这种情况下,数据通常通过无限流提供,其中数据的基本规律可能会随着时间的推移而演变[14,18]。流S以格式S = i1,i2,i3,…其中,当该实例的基本事实已知时,i对应于对x,y,或者当该实例的基本事实未知时,i仅对应于对x,y,其中x是该实例的特征向量,y是其标签,并且n可能是无限的。由于数据处理是连续的并且可能是无限的,因此存储所有观察到的实例以用于未来的计算是不可行的然后,度量和统计被用于处理单次处理[11,14,19]。例如,直方图可以以在线方式计算,但它们提供的信息只不过是系统观察到的内容的摘要。CDESF使用通知遗忘机制解决数据流处理。较旧的情况在由奈奎斯特速率[ 10 ]调整的时间范围内被删除,奈奎斯特速率[10]定义了正确更新系统模式所需的最小实例数量。 下面的小节给出了关于我们整个遗忘机制的更多细节。2.1.3超参数。 由于事件数据的摄取是异步的,我们不能依赖于我们的框架开始与事件数据集。出于这个原因,受[11]中提出的宽限期(GP)概念的启发,我们引入了收集数据以引导数据的周期的想法。 这意味着在GP期间,没有参考模型,并且使用新事件来馈送模型构造。GP是我们框架的超参数,不同的GP值影响不同的建模和后续分析。例如,如果GP是十,则框架将渲染流,直到十个不同的情况可用。然后GP被声明结束,模型创建被触发。 从这一点开始,处理每个新事件,与模型进行比较并进行评估。时间范围(TH)是指定以秒为单位的时间间隔的超参数我们将TH的末端称为检查点(CP)。因此,在CP处,框架将重新评估其用于更新直方图的情况的数量 通过奈奎斯特采样定理计算情况的确切数量,其中数据采集期间的采样频率应至少是信号中包含的最高频率的两倍[20]。 图2示出了使用60秒的时间范围的直方图更新的示例。在每个CP处,验证总情况的数量以检查是否没有比由奈奎斯特参数限定的最大值更多的情况。如果存在比奈奎斯特要求更多的情况,则从存储器中释放较旧的情况,并且生成新的奈奎斯特值。在我们的方法中,最高频率是在最后一次TH期间发生的新病例的数量。如果新的奈奎斯特小于初始GP数,则将其设置为其初始值(即GP)。 由于创建具有比GP更少的案例数量的度量将不是内聚的,因此引发标志。因此,利用由奈奎斯特定理确定的一组新的情况,更新度量。等式1示出了我们对奈奎斯特频率的自适应奈奎斯特频率=number_of_new_cases*2(1)2.1.4案例分析。GP结束后,构建一个模型,目标是评估轨迹并指出不规则和常见的轨迹。我们采用的指标来控制系统的行为是基于一个直方图的痕迹和直方图的时间戳。 轨迹直方图统计了特定过程所有情况下每个事件的发生次数,为我们提供了有关活动重复发生的信息。当新事件到达时,检索相应的案例,并将其活动添加到跟踪中。然后将更新的轨迹串与直方图串进行比较 由于这是一个字符串到字符串的匹配问题,我们使用了著名的编辑距离算法[28],该算法旨在比较两个字符串并量化它们的差异。 标准编辑距离算法允许三种编辑计算:将字符串的一个符号更改为另一个符号;从字符串中删除一个符号;或将单个符号插入字符串。我们的字符串比较不依赖于字符的顺序,因此三个编辑操作中只有两个(删除和插入)是相关的。在识别两个串(直方图和迹线)中不同的事件之后,计算基于它们的直方图发生率加权距离的总和是与直方图的轨迹比较的最终值我们将此新距离计算命名为编辑加权距离(EWD)。 EWD是我们的方法中的一个关键概念,并被认为是(随着时间分析)的情况下的行为的一个决定性的描述。下面的例子可以让这个想法更清晰。跟踪:认知计算WWW 2018,2018年4月23日至27日,法国里昂321--⟨⟩--⟨⟩{}图1:流流程挖掘框架概述Hnorm= 1,0。75,0。75,0。5, 0。EWD值是对应的d和e事件的总和,因此,EWD = 0.5。Xnorm= X−XminXmax−Xmin(二)图2:直方图计算。在11个事件后,更新了历史图,调整了存储器以保留最后10个病例和检查点(CP)。给定一组迹线L=a,b,c,d,e,a,b,c,a,d,c,a,b,根据L中的事件频率构建直方图H因此,H=4、 3、 3、2、 1。直方图值的顺序遵循字母的字母顺序给定新的迹线T=a,b,c,EWD值由两个串之间的加权距离给出。H和T之间的不同符号是d、e。加权距离来自H的归一化(等式2),其将值重新缩放到[0, 1]的范围内;因此,在这种情况下,在活性存在于T中而不存在于H中的情况下,其加权值被确定为0.5。时间戳的直方图是从用于迹线的直方图的同一组情况构建的,但是具有一些附加步骤。首先,对于每种情况,创建事件时间戳之间的差异的列表然后,该列表用作四分位数计算的输入。四分位数是划分具有相等概率的概率分布范围的切点[13]。最后,将列表值放入四分位数箱中。我们参考表1解释我们的分箱技术,表1表示来自同一病例的若干事件。事件时间戳被布置在列表中,即[2012/12/1419:52:39,2012/12/14 20:34:00,2012/12/14 23:23:20,2012/12/1501:42:51,2012/12/15 07:28:00,2012/12/15 11:55:05];活动之间的时间差以秒为单位计算,结果为[0,2481,12641,21012,41721,57746];四分位数基于时间距离计算:[0,5021,16826.5,36543.75,57746];时间差被分箱,即按范围放入四分位数箱中。示例:0位于[0,5021]之间,因此它被放置在第一个四分位数中。这也适用于2481。那么,12641在[5021,16826.5]之间,所以它属于第二四分位数。这样做直到时间差的最后一个值;结果bin是[2,1,1,2]。这意味着第一四分位数有两个元素,第二四分位数有一个元素,依此类推。对所有情况重复上述相同步骤最后,直方图是从箱的总和创建的。·····跟踪:认知计算WWW 2018,2018年4月23日至27日,法国里昂322病例ID活动完成时间戳箱55一2012/12/14 19:52:39箱55B2012/12/14 20:34:00箱55C2012/12/14 23:23:20箱55D2012 - 09 - 25 01:01:51箱55E2012/12/15 07:28:00箱55F2012/12/15 11:55:05表1:同一病例的事件日志给定一个新事件,检索其事例时间戳并将其分箱。将箱归一化并从时间戳的(也归一化的)直方图中减去(两个归一化都遵循等式2)。其结果是时间加权距离(TWD)相关的本地时间表示,它认为一个案件的活动之间的间隔。另一方面,全局时间与给定情况的最后事件有关因此,本地时间由距直方图的归一化距离表示,并且全局时间服从真实事件时间戳。一般而言,加权距离-EWD(轨迹)和TWD(本地时间)-和全局时间是描述在特征空间中投影的给定情况的行为的参数这三个特征构成了一个三元组:EW D,TW D,Time总结一个案例。2.1.5概念漂移和异常检测。概念漂移和异常检测是两个相互关联的任务。 异常现象与事件日志中模式的存在或不存在有关,这些模式可能指示系统中的欺诈行为、安全违规或故障[2]。通常情况下,与探测或攻击相关的进程异常,如果检测得足够早,可以停止或迁移到蜜罐[1]。用于异常检测的可用技术包括与基于密度[4]、最近邻[29]和基于分区[23]相关的技术通过查看分布稀疏性,在病例的特征空间(EWD、TWD和时间)中检测离群值。聚类是用于检测异常的流行技术[25]。当一个新的样本落在任何现有集群的边界之外时,它被标记为异常,并监测其密度。我们注意到,在一个异常的半径内的样本数量的增加表明一个概念漂移。我们的技术可以被认为是一个隐式漂移检测器,因为它依赖于未标记的情况下的特征值。不需要标记的示例使得我们的技术在标记昂贵、耗时或根本不可能的应用中有用[25]。在图3中,基于迹线距离、本地时间距离和全局时间在特征空间中突出显示五个异常微集群。 该快照是在3700起事件后获得的,每个点代表一个病例。 当前事件(橙色点)是来自基于Web的进程Hospital_Billinд的CHANGE DIAGN,该进程对应于使用应用程序修改患者诊断的人员。微集群对应于应用日志内的异常事件序列 在下一节中,我们将讨论如何促进人类对微簇的解释。2.2人在回路监控以单个事件的粒度分析日志可能并不总是允许感知异常等现象[2]。图3:在3700个事件之后,基于迹线距离(EWD)、本地时间距离(TWD)和全球时间从特征空间此外,缺乏与上下文信息相关的互操作性肯定会发生在直接的事件日志流分析中。我们面临的事件粒度的缺点聚合的事件作为一个跟踪,并从中提取只有三个功能(EWD,TWD和时间)。EWD直接从迹线计算,如在PM解决方案中广泛探索的那样[7,26]。 在[3]中,使用基于时间的局部(TWD)和全局(时间)特征用于统计假设,以发现概念漂移并丰富痕迹分析。 通过这些功能,CDESF可以提高理解和促进基于事实的见解的过程。人类分析师有兴趣知道日志中是否有任何不寻常的模式[2]。具体而言,聚类数据依赖于人类意识到一个机会,并解释其意义,指的是拓扑结构化的数据组 更重要的是,这将有助于处理大量数据,其中由于异常事件的不频繁发生而不容易注意到变化。我们的技术将事件流转换为案例,并将其信息减少到三个特征,提供了一个异常检测的聚类策略。此外,聚类流在数据处理期间提供人与计算机之间的连续交互。 正如我们将看到的,当只处理三维时,有可能构建一个人类友好的推理系统。3聚类算法有两种主要类型的聚类算法:分区和分层。在第一个算法中,该算法试图对实例进行分组,同时试图最小化目标函数,例如,创建最同质的k个聚类,其中k是超参数。 另一方面,分层算法通过从具有所有实例的单个集群开始并执行拆分直到每个实例具有其自己的集群来构建自上而下或自下而上的方法。 或者反过来,合并集群,直到一个集群存在。选择何时停止分裂也是一个非常难以确定的超参数[12]。分割算法,例如K均值,通常不能够处理具有任意形状的聚类[9]。处理跟踪:认知计算WWW 2018,2018年4月23日至27日,法国里昂323(()){( )|∈∈}有了这个,并且为了消除根据领域知识和离群值选择好的k值的需要,我们使用DBSCAN算法[12]。该算法的工作原理是从任意实例开始,并根据基于密度的度量扩展其集群。 给定两个超参数n_min和ε,其对应于构建集群的最小实例数和合并它们时两个集群之间的最大密度差,该算法扩展区域,直到所有实例都包含在集群中,或者它们被认为是离群值并且不能是任何组的一部分。DBSCAN算法的平均复杂度为O n loд n,符合流处理的要求。当使用DBSCAN时,需要优化ε值,因为它是两个超参数中最敏感的。设两组点S1和S2之间的距离等于min distp,q p S1,qS 2。然后,只有当两个集合之间的距离大于ε[12]时,数据库中至少具有最小密集集群的密度的两个集合才会由于密度只能从未标记的数据中计算,因此可以将其用作明确标记的漂移检测技术的替代品,用于监测变化[25]。4执行和评价我们的框架是用Python(版本3)实现的 源代码和一些演示事件日志是公开的1. 对于DBSCAN算法,我们使用Scikit Learn库[22]。数据集的选择由具有大量流2的现实生活医疗保健场景引导。事件日志由事件(NEW、CHANGE DIAGN、FIN、RELEASE、CODE OK、CODE NOK、STORNO、REJECT、REOPEN、DELETE和BILLED)。事件日志的每个跟踪记录了为对捆绑在一起的医疗服务包计费而执行的活动[21]。事件日志由451.359个匿名事件(活动)组成,这些事件(活动)包含超过100,000个跟踪随机采样的过程实例,这些过程实例在三年内被记录。跟踪中事件之间的时间没有改变。我们在医院事件日志的第一个月报告了结果,通过与[21]结果的比较进行简要的探索每天有大量的事件和案例来支持TH超参数探索。TH变化转化为或多或少的复发CP,这影响直方图更新。 有几天少于10例,每天最少5例。这一天有七个事件,这是每天最少的事件。就事件而言,最活跃的一天有139起;平均值为72起,标准差为33起。走线长度也很重要。 即使最长的轨迹大约是9个事件,但大多数轨迹都要小得多,平均值为1。6和标准差几乎0的情况。8. 另一方面,时间长度通常相当大。最长的病例持续了近26天,这在考虑住院治疗时是可以理解的然而,平均时间长度约为0。76天,标准差为3。12. 有几个案例只有一个事件,所以案例的开始和结束之间没有时间差。在Manhard et al.[21]使用数据感知启发式挖掘器(DHM)探索相同的医疗保健数据集DHM发现了一个模型(图4),该模型符合事件日志开始时97%的观察行为这个结果强调了两个有趣的1https://github.com/gbrltv/CDESF2https://data.4tu.nl/repository/uuid:76c46b83-c930-4798-a1c9-4be94dfeb741方面:异常过程的存在和通过静态方法处理数据集的挑战性任务作者提出了一些假设的具体活动的行为与医院领域的采访支持图4:DHM[21]的过程模型,拟合率为97%为了评估我们的框架的性能,探索了不同的时间范围(6小时,12小时,24小时,48小时和96小时),其中n _ min = 1和ε = 0。1作为DBSCAN的超参数如[21]所述,可以在流如图5所示,在处理流的114小时至240小时检测到大部分异常红线暴露了一些TH值(12h、24h、48h、96h)中异常情况的峰值6h的TH值在检测异常情况中不同于其他TH值,因为在110h之前和618h之后检测到两个最大量的异常值。这是由于对支持关于该流场景的假设所需的事件进行欠采样的地平线而换句话说,对于这种情况,优于24小时的时间范围很好地适合异常检测。关于异常情况的更多信息,请参见第4.1节。在图5中,还可以观察到概念漂移现象。图中的黑色垂直线指向漂移的识别,这可以通过观察检测到的异常值的数量低于生成的聚类的数量的时间来自动发现。一旦从重新计算的直方图更新聚类,并且离群值情况收敛到公共聚类,就会发生这种情况这种收敛涉及的变化,在全球密度的特征空间与集群区域扩展对分组离群值的情况下。概念漂移,异常,更好地检测到较高的时间范围。这一概念的变化在第4.2节中有更多的细节4.1异常检测结果仔细观察检测到的前两个异常值例示了流上的CDESF异常情况检测在图6、7、8、9、10中,可以看到不同的时间范围和相同的异常病例:病例29和291(Hospital_Billinд)。换句话说,通过将TH超参数范围从6小时到96小时来识别异常,并且发现可疑行为在表2中,可以观察到CP的迹线和时间直方图的细节,包括与这些异常情况的距离(EWD 和TWD)。 该组常见病例的平均EWD和TWD为0。39和0。55,分别。如表2所示,异常病例显示出显著更优的值。与病例291相比,病例29的一个重要考虑因素与其最近的活动案例29独立于TH而定位在快照的顶部,这是由于其最后相关事件比案例291更近。这可以支持案例29中所花费的可疑时间然而,病例291的TWD高于其他检测到的异常,强调了更不常见的行为。值得注意的是,Case 291跟踪序列跟踪:认知计算WWW 2018,2018年4月23日至27日,法国里昂324CP=13292910.160.140.120.100.080.060.040.020.000.00.60.81.00.20.4EWD0.60.81.00.00.20.4新台币图6:使用6小时作为TH获得的快照,病例29和291被检测为异常CP=7292910.160.140.120.100.080.060.040.020.000.00.60.81.06四八九六150 210270 330三九零四百五十510 570六三零六九○0.20.4EWD0.60.81.00.00.20.4新台币时间(小时)图5:30天事件日志流的流程分析。24小时、48小时和96小时的时间范围(TH)能够检测到概念漂移(由黑色垂直线突出显示)图7:使用12小时作为TH获得的快照,病例29和291被检测为异常CP=4292910.100.080.060.040.00.60.80.020.001.00.20.4EWD0.60.81.00.00.20.4新台币1活动名称和字母的转换2获取的迹线序列为a、d、e、b表2:基于几个时间范围是a,d,e和b然而,我们的方法不依赖于序列,并且直方图将与同一组活动的其他排列此外,使用奈奎斯特速率从CP之间的存储器释放旧情况作者在[21]中提出了一些关于病例的重要诊断 删除的病例不应处于关闭状态,而诊断发生变化的重新打开病例最终可以在未来关闭。案例29运行所有活动(NEW、FIN、RELEASE、CODE OK和BILLED),但要花很长时间才能到达最后一个活动。案例291显然代表了一种异常,因为它没有遵循图8:使用24小时作为TH获得的快照,病例29和291被检测为异常常见的医院_Billinд流程,运行NEW、FIN、RELEASE和删除.4.2概念漂移问题有可能通过三个不同的时间范围来检测相同的概念漂移 如在图5中可能观察到的,检查点3(96h)、6(48h)和13(24h)暴露流中的CD现象。该CD能够使用TH改变几个离群值= 24 h(病例71、294和308)和TH = 48 h(病例29、71、101、155和525)作为常见病例。情况71是一个示例,它被识别为异常值,直到直方图更新(对于TH=24,CP=12,并且对于TH=48,CP=5),并且在被聚类为常见情况之后,如图11和12所示。异常值集群漂移事件数量TH = 6小时TH = 24小时0 4 8十二个TH = 12小时TH = 96小时TH = 48小时日CP跟踪历史记录1判例29案件291微量EWD迹线2EWD613[a:19,c:10,d:1,e:1][a,d,e]2[a,b,d,e]1.5127[a:20,c:5][a,d,e]2[a,b,d,e]1244[a:36,c:8,d:1,e:1][a,d,e]1.2[a,b,d,e]1482[a:10,c:2][a,d,e]2[a,b,d,e]1.3961[a:10,b:1,c:4][a,d,e]1.3[a,b,d,e]1.4时间历史时间TWD时间TWD613[20、0、0、11][1,0,0,1]0.61[1,1,0,1]1.4跟踪:认知计算WWW 2018,2018年4月23日至27日,法国里昂3250.0CP=2292910.80.60.050.040.030.020.010.001.0作为一个普通的。 时间范围直接影响异常检测,因为相当宽的范围进行几个异常情况下结束与聚合它们作为一个共同的集群。 另一方面,窄的限制增加了假阳性情况的数量。如图11所示,案例71在TH=24小时的CP12和13之间从异常行为变为常见行为。表3显示了这一变化。EWD值从1.04变为0.04。这是一幅清晰的概念漂移图也就是说,本案但更多的情况下,模仿案件71性质0.20.4EWD0.60.81.00.00.20.4新台币出现在这些CP之间,这影响了直方图更新,这使得病例71进入共同组。TH为48小时时也发生了相同的现象(图12),但两者均图9:使用48小时作为TH获得的快照,病例29和291被检测为异常CP=129保持EWD和TWD值这是由于CP之间出现了一组具有相似性质的病例,但它们不足以显著改变直方图密度然而,作为一个整体的群体在流中表征新的行为,这将它们作为常见的情况。的0.02910.60.80.0250.0200.0150.0100.0050.0001.0对比的例子是案例291,其呈现为在几个实验时间范围内的概念漂移之后保持其模式的异常。0.20.4EWD0.60.81.00.00.20.4新台币图10:使用96小时作为TH获得的快照,病例29和291被检测为异常CP=121活动名称和字母的转换:'NEW':' a','DELETE':' b','CHANGE DIAGN':' c','FIN':' d','RELEASE':' e','CODEOK':'f'2获得的迹线序列为a、d、e和b表3:概念漂移和情况71和291。0.029430871312910.80.250.200.150.100.050.001.0TH选择取决于问题和评估的流。在医院流的情况下,最好的结果是通过TH至少24小时。如图5所示,6小时和12小时的时间范围不能检测概念漂移,这是由于较低的CP时间,并且结果是有偏差的适应。大多数业务流程需要相当长的观察时间因此,在本发明中,0.00.20.20.4EWD0.60.8CP=13312910.40.61.00.00.20.20.4新台币0.80.60.4新台币0.250.200.150.100.050.001.0通过更大的窗口(水平),CDDSF可以更好地理解标准行为,检测异常并随着时间的推移进行自我拟合重要的是要强调,CDDSF可以处理通过所提出的特征空间的不完整的迹线,其中未达到最终共同活动的迹线被分组在同一聚类中。这些方面支持我们的反应系统的目的,其中一个案件的飞行(甚至不完整)可以区分。此外,当呈现自第一活动以来的异常模式5结论在本文中,我们已经解决了在近实时不断变化的环境中的反应的问题。 为此,我们开发了一个新的框架来识别异常和概念漂移EWD0.81.00.0通过专家期望的给定时间范围为了验证我们的方法,我们进行了各种实验图11:时间范围为24小时的这一事实的发生是由于直方图的适应性的新的情况下,使用现实生活中的健康护理流数据集。我们已经注意到我们的框架能够有效地检测具有不同用户时间范围的流上的异常和漂移检测。更有甚者,一个未完成的过程案例可能是日CP跟踪历史记录1壳体71案件291微量EWD迹线2EWD2412[a:81,b:3,c:39,d:5,e:4,f:1][a,c]1.04[a,b,d,e]1.92413[a:94,b:3,c:53,d:1,e:1,f:2][a,c]0.04[a,b,d,e]0.8485[a:106,b:1,c:48,d:5,e:3][a,c]1.05[a,b,d,e]1.5486[a:133,b:4,c:63,d:7,e:5,f:1][a,c]1.05[a,b,d,e]0.6时间历史时间TWD时间TWD2412[85、6、1、41]【1、0、0、0】0.5【1、0、0、0】0.4跟踪:认知计算WWW 2018,2018年4月23日至27日,法国里昂326CP=5122五二五71493101155290.100.080.060.04[6] Andrea Burattin,Alessandro Sperduti,and Wil MP van der Aalst.2014年从事件流发现控制流。在进化计算(CEC),2014年IEEE大会上。IEEE,2420[7] Paolo Ceravolo 、 Ernesto Damiani 、 Mohammadsadegh Torabi 和 SylvioBarbon。2017. 面向流程挖掘的新一代日志预处理方法在国际会议上的业务流程管理。斯普林格55比70[8] Paolo Ceravolo Ernesto Damiani和Marco Viviani2005年添加对等体-0.02910.80.60.020.001.0对等信任层到元数据生成器。在OTM联合国际会议上,“向有意义的互联网系统迈进。斯普林格809[9] Yixin Chen and Li Tu.2007年实 时 流数据的基于密度的聚类。Proceedingsof the 13th ACM SIGKDD international conference on Knowledge discovery anddata mining KDD 07d(2007),133. https://doi.org/10.1145/1281192。0.00.20.4EWD0.60.8CP=61224932910.20.4EWD0.60.81.00.01.00.00.20.20.4新台币0.80.60.4 TWD0.120.100.080.060.040.020.001.01281210[10] RA DeCarlo、J Murray和R Saeks。一九七七年多变量Nyquist理论Internat. J.Control 25,5(1977),657-675.[11] 佩德罗·多明戈斯和杰夫·胡尔滕两千挖掘高速数据流。第六届ACM SIGKDD知识发现和数据挖掘(2000),71-80。https://doi.org/10.1145/347090.347107[12] Martin Ester 、 Hans-Peter Kriegel、 Jörg Sander和 Xiaowei Xu 。 一 九 九 六年。一种基于密度的聚类发现算法一种基于密度的聚类发现算法,用于在有噪声的大 型 空 间 数 据 库 中发现聚类。 第 二 届 知 识 发 现 和 数 据 挖 掘 国 际 会 议(KDD'96)。AAAI Press,226[13] Michael Frigge、David C Hoaglin和Boris Iglewicz。一九八九年箱形图的一些实现。The American Statistician43,1(1989),50[14] João Gama , Pedro Pereira Rodrigues , Eduardo Spinosa , and AndreCarvalho.2010 年 。 从 数 据 流 中 发 现 知 识 。 Web Intelligence and Security-Advances in Data and Text Mining Techniques for Detecting and PreventingTerroristActivitiesontheWeb(2010),125-138.https://doi.org/10.3233/978-1-60750-611-9-125[15] JoãoGama , IndreŽliobaite , Al bertBifet , MykolaPechenizki y , andA bdelhamidBouchachia. 2014.概念漂移适应研究综述。ACM计算调查(CSUR)46,4(2014),44。[16] Xiaoxi Huang,Huaxin Huang,Beishui Liao,and Cihua Xu.2013年。一个本体论-图12:时间范围为48小时的从一开始就密切观察,导致早期识别异常模式。通过这种方式,可以减轻代价高昂的错误,在攻击达到其目标之前抵抗攻击,停止或将欺诈性执行迁移到蜜罐。对于未来的工作,我们的目标是开发我们的框架,通过监测无监督的指标,以更早地检测变化,处理复杂的概念漂移。 这对于许多需要过早识别一些漂移现象的实际应用可能是有意义的。致谢作者要感谢信息和通信技术(ICT)基金。阿布扎比为这项研究提供财政支持。引用[1] Kristof Böhmer和Stefanie Rinderle-Ma 2016.用于业务流程实例数据中异常检测业务流程建模、开发和支持国际研讨会。Springer,196[2] RP Jagadeesh Chandra Bose和Wil MP van der Aalst。2010年。流程挖掘中的跟踪对齐:过程诊断的机会。在BPM中,Vol. 6336 斯普林格,227-242。[3] RPJagadeeshChandraBose,WilMPvanderAalst,IndreŽliobaite ,andMykolaPechenizkiy. 2011.处理流程挖掘中的概念漂移。国际先进信息系统工程会议。Springer,391[4] Markus Breunig,Hans-Peter Kriegel,Raymond Ng,and Jörg Sander.一九九九年。Optics-of:识别局部离群值。数据挖掘和知识发现原理(1999),262[5] Andrea Burattin , Marta Cimitile , Fabrizio M Maggi , and AlessandroSperduti.2015. 从 事 件流 中 在 线 发 现声 明 性 流 程 模型 IEEETransactions onServices Computing 8,6(2015),833-846.的隐喻认知计算方法 Minds and Machines 23,1(2013),105-121.[17] Imen Khamassi 、 Moamar Sayed-Mouchaweh 、 Moez Hammami 和KhaledGhédira。2015.处理复杂概念漂移的自适应加窗方法。认知计算7,6(2015),772[18] B Krawczyk、LL Minku、J Gama和J Stefanowski。2017年。 数据流分析的集成学习:一项调查。Information(2017),1[19] Bartosz Krawc
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功