并行图应用于序列数据的离群点检测技术

20 浏览量更新于2024-01-17 收藏 1.31MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

-沙特国王大学学报基于并行图的序列数据Ahmed Farag，Hatem Abdelkader，Rashed Salem埃及Shebin Elkom Menoufia大学计算机和信息学院信息系统系阿提奇莱因福奥文章历史记录：收到2019年2019年8月27日修订2019年9月16日接受在线预订2019年保留字：数据挖掘离群点检测并行图基算法A B S T R A C T在数据挖掘中，离群点检测应用于不同的领域。它在能耗分析、气象数据中的飓风预报、欺诈和入侵检测、传感器网络中的事件检测和系统监控等方面有着非常广泛的应用现有的离群点检测技术大多依赖于特定类型数据的属性，不能很好地处理大数据量，这就需要改进方法和技术，使其适用于其他应用领域的不同类型的大数据本文提出了一种并行离群点检测技术，用于检测序列数据中的离群点尽管异常值的类型很多，但本文主要研究上下文异常。所提出的技术使用图的方法来检测离群值。它是非常灵活，快速，没有标记的数据是需要与许多以前的方法相比实验结果表明，检测上下文离群序列数据，以及有效的扩展，以处理大量的数据，通过增加处理器的数量结果表明，该技术的并行性是非常有价值的。©2019作者（S）。由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍离群值可以被描述为一组数据对象，它们与另一组数据对象相差很大，这意味着使用不同的模式来生成该组数据对象（Hawkins，1980）。在数据挖掘中，异常检测（也称为离群点检测）是在数据集中发现不符合正常行为的数据对象或其他数据对象Anoma-lies已经被定义为不符合先前的例外行为或正常行为的数据对象。在本文中，我们将离群值（也称为异常值）和噪声分开另一方面，有许多种文献将离群值和噪声分类为噪声或将它们分类为与噪声相同的分类。噪音是一种随机错误或不需要的数据对象，根本没有价值。离群值是与数据集的其余部分或其邻域偏离很大的数据对象，这*通讯作者。电子邮件地址：ahmed_farag@ci.menofia.edu.eg（A.Farag），hatem.abdelka-der@ci.menofia.edu.eg （ H.Abdelkader ）， rsalem@ci.menofia.edu.eg （ R.Salem）。沙特国王大学负责同行审查制作和主办：Elsevier有趣的是，它是正确的，但出乎意料的数据。比如说，一年中所有季节的200°C温度被认为是噪音，但中东冬季超过35°C的值可能被认为是异常值。此外，在中东的一些地区，冬季5摄氏度可能被认为是一个离群值。因此，语境是非常重要和必要的。此外，应该从这一角度审查反常现象。异常和野值的发现是一个重要的问题，在许多研究领域和应用领域都有研究有许多技术和方法可以解决这个问题。这些技术中的相当多的技术是针对特定的应用领域设计的，而其他技术则更通用，例如， Denning （ 1987 ）， Jabez 和 Muthukumar （ 2015 ），Nastaiinullah等人（2014），入侵检测系统（Srivastava等人，2008; Van Vlasselaer等人，2015）信用卡欺诈检测（Aggarwal，2017; Akoglu 等人， 2015 ） graphs net-works （ Mishra 等人，2017）、图流（Wu，2006）和医学。最近，异常检测已被用于空间数据分析并应用于各种气象数据（Cortez和Morais，2007; Zhao等人， 2003）以发现异常值和异常，如龙卷风、飓风等。此外，异常检测已经用于能耗分析并应用于建筑物的各种能耗数据（Li等人，2010; Seem ， 2007 ）和客户行为消费数据（ Nizar 和 Dong ，2009）。所有应用程序场景都可以分为以下几类：监督、半监督和非监督场景https://doi.org/10.1016/j.jksuci.2019.09.0091319-1578/©2019作者。由爱思唯尔公司出版代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页：www.sciencedirect.comA. Farag等人/Journal of King Saud University1447(no培训数据可用）。此外，异常在不同的应用领域有多种解释，异常的类型也多种多样.例如，在Zhao等人（2015）中，作者将异常分为两种类型的异常：局部异常和全局异常。此外，根据n-特征，离群点可分为单变量离群点和多变量离群点.单变量离群值是单个空间中的数据对象的那些值，而多变量离群值是n维空间中的数据对象的那些值。此外，在Albertola等人（2009年）中，作者将异常分为三种类型，即，点，上下文，和集体。如果单个数据对象的行为和特征不符合数据集中所有其他数据对象的行为和特征，则称为点异常。然而，如果单个数据对象的行为和特征不符合同一上下文中的其他数据对象的行为和特征，但不是数据集中的所有其他数据对象的行为和特征，则这被称为上下文异常。最后，如果相关数据对象集合的行为和特征不符合数据集中所有其他数据对象的行为和特征，则称为集体异常。本文主要研究如何发现序列数据中的上下文异常。通过将每个实例属性分为上下文属性和行为属性来确定数据对象的上下文。数据对象的上下文属性用于确定数据对象的上下文，而行为属性用于确定非上下文属性。例如，在能耗数据中，日期和时间属性是数据对象的上下文属性，而小时能耗值等属性是行为属性。在处理异常检测问题时，存在许多挑战和困难。例如，对象之间的距离度量和关系模型的选择大多是基于应用的。另一个挑战是处理离群值检测中的噪声。噪声的存在导致区分正常对象和异常值的因此，任何噪声的存在都会导致检测过程的不良结果和不良影响。本文提出了一种并行的基于图的离群点检测技术（PGBOD）来检测上下文离群点。我们专注于并行处理数据的问题，以检测序列数据中的异常值。所提出的技术是基于Rahmani等人的基于图形的离群点检测技术。（2014年）。本文提出的实用方法可归纳如下：已经提出了一个并行过程来构建给定数据集的图。该过程将数据集划分为一组分区，每个分区分配给一个处理器。然后，并行地，使用滑动窗口模式扫描所有分区以构建图。一个并行的最小生成树（MST）算法已被提出来寻找MST。该算法基于Boruvka提出了一种并行的基于最小生成树的聚类技术。该技术将MST中的所有边分配给可用的处理器。然后，应用边缘去除过程来构建聚类图。已经提出了一个并行的过程来计算和分配数据集中的每个数据对象的离群值因子我们通过一系列的实验在不同大小的真实数据集上评估PGBOD技术的性能 Rahmani et al. （2014）被用作参考，以验证所提出的技术的准确性。Rahmani等人（2014）中的技术应用于顺序方式实验结果表明，该技术在检测异常点时获得了与Rahmani相同的准确率（2014）单处理器。此外，实验结果表明，与Rahmani et al.（2014）相比，随着数据大小的增加和处理器数量的增加，处理时间会减少。因此，处理器数量的增加将扩大所提出的技术来处理海量数据。本文的其余部分组织如下。第二节介绍了以往的工作有关的问题，发现离群值。第3节详细讨论了所提出的基于并行图的离群点检测技术。在第4节中，给出了实验结果，而在第5节中强调了结论和未来工作。2. 相关工作在过去的几十年里，许多研究工作都在探索异常值的发现问题.此外，已经开发了许多离群值检测算法来发现时态数据、其他数据类型和许多应用领域（例如，Xi，2008;Petrovskiy，2003; Chen等人，2010;Niu等人，2011; Hodge和Austin，2004; Isaksson和Dunham，2009;Shukla等人，2015年;Mrs. Olla等人，2009年）。在Kriegel等人（2010）中，作者已经将异常值检测技术分类为以下类别：基于模型的方法（即，基于距离的、基于深度的、基于偏差的）、基于接近度的方法（即，基于距离、基于密度）和高维方法。在Yu等人（2002）中，研究人员在信号处理技术的帮助下开发了一种名为FindOut的技术。该技术使用小波变换来发现异常Shekhar等人（2001）提出了一种空间离群点检测技术，该技术基于统计检验，从图结构数据集中检测离群点。许多基于模型的方法已经被开发出来，以识别时间序列数据集中的上下文离群值。在这些方法中，模型控制操作，使得那些适合模型的对象是正常对象，而那些不适合模型的是Salvador and Chan（2005）中介绍的离群值。考虑到野值和噪声是两个不同的概念，已经开发了许多方法来处理野值和噪声。另一方面，还有许多其他方法认为离群值和噪声是两个相同的概念，并且是相同的。在Salvador和Chan（2005）中，作者使用了一种基于统计的技术来发现时间序列数据集中的噪声，而没有考虑异常值。此外，在Karthikeyan和Peter（2011）中，作者介绍了一种基于MST的算法。该算法不研究任何上下文中的数据，此外，该算法不区分离群值和噪声。如前所述，本文提出的基于Park-graph的离群点检测技术发现离群点时，考虑到离群点和噪声是两个不同的概念。在Rahmani等人（2014）中，作者介绍了一种用于时间序列数据集的序贯离群值检测方法（SOD）。该方法采用滑动窗口模式，对数据集进行两次扫描，一次是在创建图时，另一次是在计算数据集中所有数据对象的离群度时。这些连续滑动窗口在增加数据集大小时会花费更多的处理时间。此外，他们还应用了顺序MST算法来定义聚类图。我们看到Rahmani等人（2014）中描述的方法面临执行时间的问题（当处理大型●●●●1448A. Farag等人/Journal of King Saud University×体积数据集。此外，所有已知的MST算法都是耗时的.3. 提出的并行离群点检测技术本文提出的并行技术使用一个图形的方法来发现上下文的顺序数据中的异常。所提出的技术可以很好地扩展到处理大量的数据，通过增加处理器的数量。在本节中，定义了所提出的基于并行图的离群值检测技术的输入和输出以及技术设计所基于的所有假设。此外，还声明了该技术检测上下文离群值所遵循的步骤。所提出的技术的主要输入是一组对象，而每个对象具有一组属性。定义上下文在对象中，属性被分成两个集合：上下文属性集合和行为属性集合。例如，在水温时间序列数据中，每个数据对象具有作为对象的上下文属性的日期和作为对象的行为属性的温度。然而，所提出的技术的主要输出是一组对象，其行为偏离其他相邻对象。本文提出的技术假设所有对象只有一个上下文属性，适用于时间序列数据集。此外，它假设所有行为属性都是连续的。因此，当存在其他类型的行为属性时，应改变所使用的距离测度，使其适合于该行为属性本文提出的并行异常检测技术通过四个步骤来检测上下文离群值，每个步骤并行执行。为了演示所提出的算法的步骤，使用具有25个数据对象的简单数据集，如图1所示。数据对象的索引表示上下文属性，温度表示行为属性。这些步骤描述如下：3.1. 第一步：图形构建此步骤的目标是为数据集创建等效图，该图由顶点和边组成当数据集中的每个数据对象构造一个顶点时，边被构造为顶点和另一个顶点之间的链接边将基于滑动窗口创建并添加到图形中。滑动窗口的大小用于控制每个顶点如何链接到图中的其他顶点图中的每条边20具有通过在该边缘的两个顶点的行为属性之间应用适当的距离测量而计算的权重图2示出了图1中的样本数据集的该步骤产生的图。该步骤的目标是为稍后在步骤2中使用的数据集构建图，以应用MST算法，该算法在所提出的技术的性能中起关键作用为了实现该步骤背后的目标，所提出的技术执行以下过程：1. 为数据集中的每个数据对象向图形添加一个顶点2. 根据数据集中每个数据对象的上下文属性值对数据集进行排序3. 将数据集划分为分区，分区的数量等于机器中处理器的数量。每个数据集分区被分配给处理器，并且每个处理器使用滑动窗口开始扫描其数据集分区。滑动窗口从具有行为属性的最低值的数据对象开始到具有行为属性的最大值的数据对象。4. 对于位于同一滑动窗口上的所有数据对象（顶点），应用以下模式：在位于同一窗口中的所有数据对象（顶点）之间的图形中添加加权边。通过应用距离测量（即，在我们的情况下，该边缘的数据对象的行为属性的值之间的欧几里得距离）。距离度量的选择取决于数据对象的行为属性的数据窗口大小（WS）参数用于确定相邻对象的数量这一步骤的结果图如图所示。 2，它是基于图中所示的样本数据集。 1，WS = 5。当前步骤的执行时间是O（N WS）/P，其中N是数据集中数据对象的计数，P是处理器的计数。WS参数在所提出的技术的准确性和效率中具有重要作用，使得由于WS参数的低值而可能出现不期望的聚类结果，并且由于高值而可能导致长的执行时间（而WS的高值意味着节点之间的许多链路）。因此，WS的值必须仔细设置，因为它取决于数据的性质此外，WS参数用于控制进入同一滑动窗口的对象的计数，这意味着考虑对上下文的更多控制。3.2. 步骤2：MST构建生成树是一棵包含所有顶点且所有顶点都连通的树。最小生成树（MST）是指一棵树的边权之和最小。在构建MST之前，图许多算法可以151050 51015指数20 25Fig. 1. 示例数据集。图二. 为示例数据集构建的图表，WS= 5。●温度（℃）●A. Farag等人/Journal of King Saud University1449解决了顺序构造MST的问题，如Prim的（Prim，1957），Kruskal的（Kruskal，1956）和Boruvka的（Boravka，1926）算法，但需要一个并行的适合所这一步的目标是阐明Boruvka（Boravka，1926 ）算法的并行实现，与 Prim （ Prim ， 1957 ）和 Kruskal（Kruskal，1956）相比，Boruvka算法在所提出的并行实现中，算法中的每次迭代包括三个步骤：1. 对于每个顶点v，找到具有最小权重的传出边。这样的边缘被添加到MST2. 图的连通部分由前一步中的出边标识.3. 通过合并每个连接的组件来创建单个顶点。图3中示出了该步骤的结果MST图，而节点之间的边的宽度表示该节点的权重。图3.第三章。表示示例数据集的图形的MST因此具有较高宽度的边具有比具有较小宽度的边更大的边权重。详细的并行MST算法，rithm用于建立MST的图形结果，从步骤1中提出的算法1。算法1：并行MST算法以获得MST图边列表1450A. Farag等人/Journal of King Saud University[⊂×算法2示出了在来自算法1的合并过程中使用的详细算法算法1中的合并过程旨在用新的边列表E创建新的超级顶点，使得E（当前边列表其它边列表）。超级顶点被添加到队列中，稍后将作为新组件进行处理当前步骤的执行时间大致等于O（VWS）/P，其中V是图中节点的计数，P是处理器的计数。是一个聚类图。这些聚类中的数据对象（顶点）在同一聚类内彼此之间具有高相似性，并且与其他聚类中的其他数据对象（顶点）具有低相似性。所有聚类中的所有数据对象（顶点）都被分配了一个聚类标签，稍后用于定义顶点属于哪个聚类。在该步骤中，所提出的基于MST的聚类技术执行以下后续步骤以获得聚类：算法2：合并过程3.3. 第3步：对MST进行在该步骤中，将基于MST的聚类过程应用于来自步骤2的图（MST图）结果。此步骤的输入是第2步的MST图结果和此步骤的输出1. 根据第2步得到的MST图中的所有加权边创建一个列表（称为边列表）。2. 将边缘列表划分为组，其中组的数量等于机器中的处理器数量，并将这些组分配给处理器。A. Farag等人/Journal of King Saud University1451温度（℃）×3. 对于每组边缘，应用边缘删除过程。有两种方法用于边缘删除。首先，开始移除边缘权重超过聚类边缘20的所有边缘权重阈值（CEWT），其是预定义的参数。的此参数的值可以通过对所有边的权重从MST图如图所示。 4，其中15非常值得注意的是，不一致的高权重位于2.其次，开始删除所有不一致的边缘。如果边的权重大于其簇中所有边的平均权重。10来自该步骤的聚类在图5中表示为：CEWT = 2，图7显示了基于原始数据rep-5图1中的怨恨。这一步的运行时间是O（E log E）/P，其中P是处理器的计数，E是边列表的大小。051015 20 25指数3.4. 步骤4：识别上下文离群值这一步的目标是检测数据集（图）中的上下文离群值该步骤的输入是来自步骤3的聚类图，输出是具有超出预定义离群值因子的离群值因子的所有数据对象（顶点）的列表。离群值因子等于此步骤中使用的滑动窗口大小（投票窗口大小（VWS））。为了实现该步骤的目标1. 数据集被划分为一组分区，而分区的数量等于机器中处理器的数量，每个数据集分区被分配给一个处理器。642离群值0 1见图6。从样本数据集中检测到的上下文离群值。2. 对于所有数据集分区，将离群值因子分配给所有数据集分区中的所有数据对象然后，将使用滑动窗口扫描每个数据集分区，该窗口的大小由VWS参数定义，该参数用于控制将位于同一窗口中的数据对象的数量。3. 在步骤3中定义数据对象（顶点）和属于它的聚类之间关系的所有信息的帮助下：对于每个窗口，找到属于同一聚类的数据对象（顶点）的最高计数4. 离群值因子等于VWS的所有数据对象（顶点）都被视为上下文离群值。此步骤的结果如图6所示，VWS = 5，红色圆圈表示被识别为离群值的数据对象。这一步的最坏情况时间复杂度是O（N VWS）/P，其中P是处理器的计数，N是数据集中对象的计数。4. 实验结果和性能分析00 51015指数20254.1. 实验结果本节介绍了所提出的技术的实验结果的分析和讨论一台装有英特尔的见图4。 MST的权重按降序排序。使用Core i7和16 GB内存进行实验。一个Java图形库（JGrapht）被用来实现所提出的技术结合另一个线程安全的数据结构库。此外，R图形库（Igraph，ggplot2）用于图形操作和可视化。该实验在Kaggle的每小时能耗时间序列数据集上进行，1该数据集包含PJM以兆瓦为单位的10多年的每小时能耗数据这个数据集中的离群区域很难识别。该数据集中的数据是从不同的数据源收集的，因此本实验是在美国电力公司数据源的数据上进行的。该数据集由121，273个数据对象组成，如图8所示。为了检验我们的结果的正确性和验证所提出的技术，从这个实验中得到的结果已经与Rahmani等人的方法的结果进行了比较。（2014年）。图五. 基于CEWT参数值和不一致性的MST边缘去除帐篷边缘去除过程。1https://www.kaggle.com/robikscube/hourly-energy-consumption/version/3。权重●1452A. Farag等人/Journal of King Saud University20151050 51015指数20 25集群01 2 3见图7。示例数据集的聚类。图9.第九条。数据集的MST图的排序边权重见图8。 2004年10月至2018年8月的每小时能源消耗量。图10个。在应用两种方法的边缘去除过程（CEWT= 250和不一致的边缘去除过程）后，数据集聚类参数WS被设置为168，这意味着将每个数据对象（除了边界数据对象）的能量消耗与之前三天和之后三天这适用于当前数据集。本文所描述的并行MST算法用于从图中构建MST为了找到聚类，所有具有不一致权重的边都从MST图中删除如图 9，不一致的权重从250开始，因此CEWT参数被设置为250。图图10显示了图11中数据集的聚类。8.第八条。该图中有300多个集群图中所示的集群。使用两种方法提取10：第一种是使用阈值CEWT，其被设置为250，第二种是使用不一致边缘去除策略。离群值检测结果如图所示。十一岁4.2. 性能分析本节的目的是展示本文中提出的技术如何能够比Rahmani等人（2014）中的技术更快地检测上下文离群值，并具有相同的准确性。此外，所提出的技术可以通过增加处理器的数量来很好地扩展以处理海量数据使用不同的数据大小和不同数量的处理器，所提出的技术的总执行时间如图12所示。如图 12、计算时间随着时间的增加而减少，见图11。在数据集中检测到的上下文离群值。减少数据的大小并增加处理器的数量，这意味着该技术可以通过增加处理器的数量来如图 13，Rahmani等人（2014）中SOD算法的处理时间随着数据集大小的增加而增加。相反，温度（℃）A. Farag等人/Journal of King Saud University14531501005001 2 3 4处理器数量（P）这个图。此外，一个平行的阈值MST聚类技术被应用到MST删除所有的边缘，具有不一致的权重从MST。在获得所有连通分量或聚类后，使用并行滑动窗口扫描所有数据对象实验结果表明，该算法能准确地检测出序列数据中的异常点，且检测速度比序列算法快此外，并行技术可以很好地扩展，随着处理器的数量的增加此外，我们的算法中使用的所有参数在结果的有效性和精度中起在未来，我们计划将所提出的算法扩展到分布式环境中，这将有助于在更短的处理时间内处理更多的数据此外，我们计划扩展我们的par-technology处理不同类型的数据集，如空间和时空数据集。此外，研究如何10000100000120000200004000050000聚类内的数据对象与其聚类质心相关，并查看这如何影响每个对象的离群值因子。见图12。执行时间比较。图13岁不同数据量和不同处理器数量的总执行时间表1使用SOD和PGBOD技术检测离群对象。数据集大小10，000 20，000 40，000 50，000 100，000检测到的对象SOD 71 176 462 514 1121 1248PGBOD100%的100%的100%的100% 100%所提出的算法PGBOD通过增加处理器的数量来处理数据集大小的增加为了验证所提出算法的准确性，我们将SOD算法对实验数据集的结果表1示出了由SOD检测为离群值的数据对象的数量（Rahmani等人，2014）以及由所提出的技术检测到的那些数据对象的百分比。如表 1 和图 13 所示， 100% 的数据对象已经被 SOD 检测到（Rahmani等人，2014）可以用所提出的技术在更少的处理时间内检测到。5. 结论和展望总之，本文开发了一种基于图的并行技术来发现序列数据中的上下文异常。并行时，该算法将数据集表示为一个图，然后将并行MST算法应用于图，以找到MST，竞争利益作者声明，他们没有已知的竞争性财务利益或个人关系，可能会影响本文报告的工作。引用霍金斯，D. M.，1980年识别异常值，卷。十一岁斯普林格。科洛拉，五，Banerjee，A.，库马尔，V.，2009.异常检测：综述。ACM计算Surveys 41（3），15.Denning，D.E.，1987.入侵检测模型。IEEE Trans. Software Eng.（2），222-232Jabez，J.，Muthukumar，B.，2015.入侵侦测系统：以离群值侦测法进行异常侦测。Proc. Comput. Sci. 48，338-346。Nastaiinullah，N.，Kurniati，A.，例如，2014年。基于团划分的入侵检测系统异常检测。在：信息和通信技术（ICoICT），2014年第二届国际会议上。IEEE，pp. 7比12Srivastava，A.，Kundu，A.，Sural，S.，Majumdar，A.，2008.基于隐马尔可夫模型的信用卡欺诈检测。IEEE跨部门安全计算5（1），37- 48。Van Vlasselaer，V. ，布拉沃，C。，Caelen，O.，Eliassi-Rad，T.，阿克格鲁湖，Snoeck，M.，Baesens，B.，2015. Apate：一种基于网络扩展的信用卡交易欺诈自动检测新方法。德西斯 SupportSyst. 75（2015），38-48.Aggarwal，C.C.，2017.图和网络中的离群点检测。SpringerInternational Publishing，Cham，pp.369-397.阿克格鲁湖，唐，H.，Koutra，D.，2015.基于图的异常检测与描述综述。数据最小值知道。发现。 29（3），626-688。Mishra，N.，Blick，D.，Guha，S.，Schrijvers，O.J.，2017.流数据的离群点检测。美国专利申请14/990，175。吴，B.，2006.癌症异常差异基因表达检测。Biostatistics 8（3），566-575.Cortez，P.，Morais，A.d.J.R.，2007.利用气象数据预测森林火灾的数据挖掘方法。赵，J，Lu，C.- T.，Kou，Y.，2003.气象数据中区域异常值的检测。第11届ACM国际地理信息系统进展研讨会论文集。ACM，pp. 49比55Li，X.，鲍尔斯，C.P.，Schnier，T.，2010. 基于离群点检测的建筑能耗分类。IEEETrans.印第安纳电子学。 57（11），3639-3644。看起来J.E. 2007.使用智能数据分析检测建筑物中的异常能耗。能量构建。 39（1），52-58。Nizar，A.，董，Z. 2009.识别和检测电力客户的违规行为。在：电力系统会议和博览会，2009年。PSCE '09。IEEE/PES。IEEE，pp. 1-10。赵，C.，王玉，齐，B.，王杰，2015.超光谱遥感图象的全球和局部实时异常探测器。Remote Sens. 7（4），3966- 3985.Xi，J.，2008.数据挖掘中的离群点检测算法。智能信息技术应用，2008. IITA'08。第二届国际研讨会，卷。1.一、IEEE，pp. 94比97彼得罗夫斯基，M.，2003年。数据挖掘系统中的离群点检测算法嗯。Comput. Software 29（4），228-237.陈淑仪，王伟，van Zuylen，H.，2010.其数据的异常检测算法比较。专家系统应用37（2），1169-1178。Niu，Z.，Shi，S.，孙，J.，他，X.，2011.异常值检测方法及其应用综述。国际人工智能与计算智能会议（ InternationalConferenceonArtificialIntelligenceandComputational Intelligence）施普林格，pp. 380- 387Hodge，V.，奥斯汀，J.，2004年异常值检测方法综述第内特尔Rev. 22（2），85时间（T），单位：秒数据1454A. Farag等人/Journal of King Saud UniversityIsaksson，C.，邓纳姆，M.H.，2009.离群点检测算法的比较研究。在：模式识别中的机器学习和数据挖掘国际研讨会。施普林格，pp. 440- 453舒克拉，M.，科斯塔，Y.，乔汉，P.，2015.数据流离群点检测算法分析与评价。In：Computer，Communication and Control（IC4），2015 International Conferenceon. IEEE，pp. 1-8号。Kriegel，H. P.的人，Kröger，P.，Zimek，A.，2010.离群值检测技术。KDD 10上的测试。Yu，D.，Sheikholeslami，G.，张，A.，2002. Findout：在非常大的数据集中发现离群值。Knowl.Inf.Syst.4（4），387-412。Shekhar，S.，Lu，C.- T.，张，P.，2001.检测基于图形的空间离群值：算法和应用（结果摘要）。第七届ACM SIGKDD知识发现和数据挖掘国际会议论文集。ACM，pp.371-376.Salvador，S.，Chan，P.，2005年学习状态和规则以检测时间序列中的异常。应用程序接口23（3），241-255。Karthikeyan，T.，彼得，S.J.，2011.基于最小生成树的离群点去除聚类。Int. J. Comput.Appl. 31（10），1-7。Rahmani ， A. ， Afra ， S. ， Zarour ， O. ， Addam ， O. ， Koochakzadeh ， N. ，Kianmehr，K.， Alhajj河，Rokne，J.，2014.基于图的序列数据异常检测方法及其在股市和气象数据中的应用。知道了。-基于系统61（2014），89-97.普里姆，R.C.，1957.最短连接网络及其推广。贝尔系统Tech. J. 36（6），1389-1401.Kruskal，J.B.，1956.图的最短生成子树与旅行商问题。Proc. Am. 数学Soc. 7（1），48-50。博拉夫卡岛一九二六年我的问题最少。

下载后可阅读完整内容，剩余1页未读，立即下载