大规模数据的局部动态邻域离群点检测算法

136 浏览量更新于2023-12-09 收藏 798KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

ð Þ ð Þ×埃及信息学杂志22（2021）125基于局部动态邻域的大规模数据王仁仁a，朱庆生a，刘晓波，罗江梅a，朱凡b重庆市重点实验室。重庆大学计算机学院软件理论与技术研究所，重庆400044b中国科学院重庆研究所，重庆400714阿提奇莱因福奥文章历史记录：收到2020年2020年5月14日修订2020年6月9日接受2020年7月3日在线发布保留字：局部离群点检测动态引用最近邻检测框架k-meansA B S T R A C T局部离群点检测是数据挖掘中的一个热点和挑战，特别是对于大规模数据集。一方面，传统的算法往往实现低质量的检测结果，是敏感的邻域大小。另一方面，由于至少O（N2）的时间和空间复杂度，它们对于大规模数据集是不可行的。针对这些问题，本文提出了一种新的局部离群点检测算法，该算法基于一种新的稳定邻域策略-动态参考最近邻（DRNN）。同时，我们提出了一个新的检测框架，结合所提出的方法和k均值大规模数据集。实验结果表明，与几种经典的检测方法相比，该算法能够获得更高质量和鲁棒性的检测结果。同时，新的检测框架能够在不牺牲准确性的情况下显著提高检测效率©2021 THE COUNTORS.由Elsevier BV代表计算机和人工智能学院发布开罗大学法律系这是一篇CC BY-NC-ND许可证下的开放获取文章（http：//creative-commons.org/licenses/by-nc-nd/4.0/）上提供。1. 介绍基于离群值的基本定义[1，2]，局部离群值检测旨在捕获偏离其邻近值的记录相对于全局离群点，局部离群点在数据挖掘和机器学习中更有目前，已经提出了几种策略[3局部离群点检测包括两个基本任务：如何量化数据对象的邻域和如何估计数据对象的局部离群度。通常，局部算法使用k-最近邻（kNN）来度量其邻域，并根据不同的策略（如距离和密度）定义其离群因子然而，传统的局部算法通常得到低质量的结果，并且对邻域参数敏感，例如参数k。大多数传统算法使用kNN来量化数据对象的邻域众所周知，kNN量化的是圆形或球形的局部区域，因此，它是一个粗略的邻域测量，不适用于非球形聚类的数据集。此外，很难设置k值，而不*通讯作者。电子邮件地址：qszhu@cqu.edu.cn（Q. Zhu）。开罗大学计算机和信息系负责同行审查。由于kNN的不稳定性，先验知识和基于kNN的检测算法通常对k敏感。因此，许多方便的局部方法往往表现出较差的检测性能和较低的鲁棒性，特别是对于具有复杂分布的数据集此外，基于最近邻的算法通常花费O N2d时间和O N2空间复杂度来构造亲和矩阵，其中N和d分别是数据大小和维度，很好随着数据大小N的增加，计算和存储他们的负担急剧增加。例如，给定具有100万个样本的数据集，N N亲和矩阵将需要7，450.58 GB的内存，这可能导致普通计算机的内存瓶颈，更不用说检测过程的下一阶段。为了解决上述问题，提出了一种新的基于局部动态邻域的检测算法（LDNOD）。为了对任意数据进行稳定、准确的近邻度量，首先设计了一种新的近邻度量方法--动态参考近邻（DRNN），它基于动态参考而不是固定的单一参考来搜索近邻。在DRNN的基础上，定义了一个新的离群因子，对每个区域而不是每个数据对象进行评分。针对大规模数据，结合LDNOD和k-means的优点，提出了一种检测框架（LDNOD-km）。已经对各种各样的实验进行了广泛的实验。https://doi.org/10.1016/j.eij.2020.06.0011110-8665/©2021 THE COMEORS.由Elsevier BV代表开罗大学计算机和人工智能学院出版。这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表埃及信息学杂志杂志主页：www.sciencedirect.com126R. Wang等人/Egyptian Informatics Journal 22（2021）125ð Þ¼我...ðÞ联系我们实验结果表明，LDNOD和LDNOD-km算法与现有的几种算法相比具有2. 相关工作局部离群值因子（LOF）[14]是最著名的局部离群值检测算法，并首次引入了局部离群值的概念。LOF可以被认为是局部密度的比率，并且更高的LOF值指示更可能的局部离群值。基于LOF的思想，已经提出了它的许多变体，例如基于连接性的离群因子（COF ）[15]，局部相关积分（LOCI）[16]，受影响的离群值（INFLO）[17]，局部离群概率（Loop）[18]，基于局部距离的离群因子（LDOF）[19]等。COF类似于LOF，但前者使用基于集合的最近路径（SBN-trail）方法估计数据记录的局部密度。与LOF相比，COF指示数据实例偏离模式的程度。LOCI的一个有趣的贡献是LOCI图，它总结了大量关于点附近数据的信息，并提供了为什么特定数据点应被识别为离群值的直观理解当一个数据集包含不同密度的簇并且它们彼此接近时，一些传统的方法，如LOF，将无法在簇的边界处得分在INFLO中，kNN和反向k-最近邻（RkNN）[20，21]被组合以计算离群值分数。通过使用该策略，可以更准确地检测具有不同密度的聚类之间的离群点为了解决阈值选择的问题，Loop使用了一个有用的想法，即输出一个异常概率，而不是一个数据点的离群值。由于隐含的数据模式和参数设置问题，现有的离群点检测算法对分散的真实世界数据集无效。Zhang等人提出了一种新的LDOF方法来测量分散数据集中对象的离群值，该方法使用实例与其kNN邻居的相对位置来确定实例偏离其邻居的程度。这些方法通常使用kNN或RkNN来测量它们的邻域。近年来，Zhu et al.提出了自然邻居（NaN）[22]和自然离群因子（NOF）[23]，以提高局部检测的鲁棒性。在满足稳定搜索状态的情况下，将kNN和RkNN相结合设计NaN，NOF算法无需参数k即可检测出离群点。对于大规模数据集，基于分区的策略被广泛采用作为一个强大的和有效的工具，局部离群检测[24，25]。一般来说，他们通常通过聚类方法将大规模数据集划分为小簇和大簇，然后从每个簇中检测离群点事实上，K意味着[30]是一种常用的划分方法，由于其计算和空间复杂度低例如，基于聚类的局部离群因子（CBLOF）通过分区后每个数据对象到其相应聚类中心的距离来计算与CBLOF类似，LDCOF首先使用k-means将数据集分成聚类，然后通过将对象到其聚类中心的距离除以平均距离来计算LDCOF分数。此外，基于直方图的离群值得分（HBOS）[26]是一种非常快速的异常检测算法，用于计算每个数据对象的特征概率。Zhao等人[27]通过集成几种经典的检测方法，提出了高维大数据集的可扩展非监督离群值检测（SUOD）尽管近年来已经通过各种策略做出了相当大的努力，但是提高局部检测的准确性和鲁棒性仍然是一项具有挑战性的任务。此外，传统的检测框架往往有低质量的结果，为大规模的数据集，因为他们严重依赖于不稳定的聚类结果和传统的低精度检测算法。有鉴于此，我们提出了LDNOD及其框架。3. 所提出的算法及其框架在本节中，详细介绍了所提出的算法（ LDNOD ）及其框架（LDNOD-km）。LDNOD可以产生高质量和鲁棒的检测结果。同时，LDNOD与k-means相结合的检测框架可以在不牺牲精度的情况下有效地处理大规模数据集。3.1. 基于局部动态邻域的离群点检测为了解决上述问题，我们提出了一种新的基于局部邻域的离群点检测方法LDNOD。与传统的算法不同，提出了一种新的稳定邻域方法作为其邻域系统。此外，它对每个局部区域而不是数据集的每个数据对象进行评分。根据局部检测算法的两个基本因素，我们定义了我们自己的邻域和局部离群因子。定义1.（动态引用x i的最近邻居）设x i是数据集X¼ fx1;x2;.的数据记录。xNg和j是邻域参数（类似于kNN中的参数kxi的动态引用最近邻居定义为：DRN Nxi;pDRN Nxi;p-1-！NNDRNNxi;p-1;p2½2;j]101其中NN x表示x最近邻居的集合，且x是具有数据对象的集合的子结构。初始结构是DRNN xi;0Xi.注意，NN x大于或等于1。"“表示指向相应的最近邻点，因此，我们的DRNN邻域可以看作是一个有向无环图。直观地说，DRNN是迭代构造的，直到数据对象的数量达到除xi之外的j。图 1说明了DRNN方法如何构造邻域。如图1所示，通过4次迭代构建点1DRNN x1;5的DRNN邻域。从A到D，每个子邻域指向其最近的邻居或邻居。在图1D中，点x9由于j 5而被排除。从这个简单的例子中，我们可以直观地观察到DRNN与传统邻域方法不同的搜索策略和特点与传统的邻域方法如kNN和RkNN相比，DRNN在测量任意数据集的局部邻域方面是可行的。众所周知，kNN总是量化一个圆形或球形的局部区域。换句话说，kNN潜在地假设数据点及其最近的邻居以圆形或球形分布。事实上，数据集通常是复杂的，可以是任意分布和形状。因此，像kNN这样的邻域方法不足以测量任意数据集，这将导致使用kNN的传统算法的低质量检测结果。然而，我们的DRNN策略可以量化任意分布的正确局部邻域，因为它是动态的，而不是固定的参考对象。与其他邻域方法如kNN和RkNN不同，我们的DRNN也是稳定的，对邻域参数J. kNN和RkNN通过使用固定参考来点因此，随着k的增加，它们会添加许多不同的对象作为它们的邻居。这就是为什么它们是不稳定的，对参数k不敏感。然而，DRNN使用动态和多个参考数据对象。当它搜索邻居时，它可以使用现有邻居之间的相似性传播从社交网络的角度来看，DRNN既考虑了一个人的朋友显然，新邻居尽可能与原始数据对象及其邻居R. Wang等人/Egyptian Informatics Journal 22（2021）125127联系我们¼X图1.一、 DRNN邻域的处理对于j/4 5。不同颜色的箭头表示不同的迭代结果。请注意，参考点从{x 1}逐渐变为fx 1; x 2; x 3; x 4; x 5 g。随着J.这就是为什么我们的DRNN邻域是稳定的，对参数j不敏感。由于相邻数据点具有相似甚至相同的DRNN邻域，我们为相邻数据点构造了一个公共邻域。在其他世界中，DRNN邻域内的所有数据对象都有一个公共邻域。值得注意的是，不同的DRNN邻域可以共享邻居或邻居，以保持它们的自然特征。因此，对于具有N个数据记录的数据集 X ，我们只需要根据不同的共享数据点构造 [N/（j+1），N-j显然，这种方式是有用的，以提高效率的邻居建设，这通常需要大部分的运行时间的最近邻检测算法。设计了稳定邻域方法，定义了局部离群因子。基于DRNN的定义，我们发现，一个且只有一个异常边缘包含在任何异常DRNN邻域。有鉴于此，我们设计了下面的离群度定义2.（局部邻域离群因子，LNOF）给定局部邻域sj，其离群因子可以表示如下：在对每个局部邻域进行评分后，我们只需要从每个异常邻域中分离出离群值根据DRNN邻域的特点和LNOF的定义，对于任意的异常DRNNsj，其中异常点是位于最长边之前的数据对象。图2示出了如何捕获异常局部邻域的一个或多个离群值。如图所示。 2中，点x1和x2通过切断最长边而被标记为离群值。请注意，我们的DRNN邻域是一个有向图。传统的检测算法通常使用top-n方式，其中它们输出得分最高的n个数据对象作为离群值。参数n在没有先验知识的情况下通常是不可用的，并且它们的检测质量严重依赖于它。但是对于LDNOD算法，我们可以直观地设置LNOF阈值，比如3或者5，虽然目前还没有达成共识3.2. 过程和复杂性我们将所提出的算法的过程总结如下：LNOF sd最大值sum_s_j_n-dmax_s_j_n哪里ð2Þ步骤1：为数据集构造DRNN邻域步骤2、根据用户提供的阈值对DRNN邻域进行评分并报告异常DRNN邻域。d最大值为1;e2;. . ; ej g3和sumsjd i s tek;k2½1;j]4ek2sj步骤3：从异常邻域中捕获异常值以二维数据集为例说明LDNOD算法的过程，如图所示。 3. 图图3（a）中，对于j/415的1380个点的数据集，仅构建了236个DRNN邻域。图3（b）示出了如何获得异常DRNN直觉，sumjs表示的总和的的内的边缘sj;dmaxsj是sj中最长边的长度。因此，LNOF表示潜在异常边缘偏离邻域Sj内的正常边缘的程度。很容易看出，较大的LNOF指示异常区域的可能性较大当LNOF近似等于1（但它应该大于1）时，这意味着各个局部邻域内的所有数据对象彼此相似，并且在该区域中不包含离群值相反，当LNOF1时，这意味着sj包含一个或多个离群值。请注意，我们的LNOF并不直接测量数据对象的离群度与传统的方法不同，LNOF对每个局部邻域而不是每个数据对象进行评分，这就是为什么我们将其命名为基于局部邻域的离群因子。一方面，它处理的局部区域的时间比一个数据对象，这也可以潜在地提高所提出的算法的效率。事实上，邻近数据对象具有相似的离群值程度，因此不需要为所有数据点计算离群值分数。另一方面，它能够识别单个异常值和多个异常值（一组异常值）。阈值邻域四、图 3（c）显示所有异常DRNN邻域，并且其他邻域中的点被标记为非离群值。最后，从37个异常DRNN邻域中分离出61个异常值，如图11所示。 3（d）。图二.从异常邻域捕获一个或多个异常值的图示。128R. Wang等人/Egyptian Informatics Journal 22（2021）125ð Þð- Þﬃﬃﬃﬃ根据该过程，对所提算法的时间复杂度进行简要分析如下：步骤1：在构造DRNN邻域之前，我们需要先计算距离矩阵，这需要O*dN2* n时间，ON2空间复杂性，分别每个邻里需要复杂度为1/j=1/loggj，且1/2N=j/1;N-j]邻居开销最坏的情况下也是最长的时间。第二步：最坏的情况下，O Nj时间需要为每个评分DRNN社区。并且需要恒定的时间复杂度来获得异常邻域。在步骤3中：标记非常小的邻域集合中的离群值也需要恒定的时间复杂度。在总结，的时间复杂性是总共OdN2N-jj1loggj1。当Nj和d，它可以重写为O N2.由于该算法与传统算法一样也是二次型算法，采用邻域共享和评分等措施代替数据点，在一定程度上提高了算法的效率。3.3. 检测框架为了扩展LDNOD以处理大规模数据集，开发了结合LDNOD和k-means的检测框架（称为LDNOD-km）。由于其线性时间和空间复杂度，k-means是一种流行的分区方法，广泛用于大规模离群点检测和聚类[28，29]。如图4所示，该框架主要包含三个阶段：划分、检测和聚合。首先，我们通过k-means[31]将整个数据划分为m个组，其中m等于pN。k-means是一种流行的算法用于以高质量聚类和高效率划分数据。与基于聚类的离群点检测算法不同，此步骤的目的是获得关于原始数据的一小组分区，而不是正确的聚类。一般来说，m比大规模数据集的真实聚类数大得多。因此，纯划分可以通过k-均值得到，即它只包含来自同一类的数据对象，除了离群值。在第二阶段，LDNOD处理原始数据的每个分区，并独立输出离群值。由于阈值方式，LDNOD不需要收集和比较所有数据记录的离群值。最后，我们只需要聚合每个分区的离群值注意，参数j不应该大于最小分区的数据对象的数量注意，本文中我们关注的是局部离群值，我们的分治策略可以在框架中工作。极端异常值（或全局异常值）确实会影响k均值和LDNOD的结果，但局部异常值对k均值、LDNOD和LDNOD-km的影响很小。4. 实验在本节中，我们在各种真实数据集上进行实验[32]，以证明LDNOD及其框架的有效性，效率和鲁棒性。表1给出了数据集特征的概述。在离群点研究中，广泛使用的度量，ROC下的面积（AUC），被用来评估检测性能。离群值的实数用作除LDNOD外的所有方法的前n个参数。对于LDNOD，所有实验的LNOF阈值均设置为3。对于相同的数据集，参数k和j被设置为相同的值。此外，其他非通用参数也将按照相应文献的建议进行设置。所有实验均在具有Intel i5-4460 CPU和16.0 GB RAM的PC上进行。图3. 二维空间的例子（a）DRNN图。针对具有1380个点的数据集构建了236个DRNN邻域;（b）有序LNOF分数。绿线表示LNOF阈值等于4;（c）根据阈值得到37个异常DRNN邻域;（d）检测结果。61个数据点被检测为离群值（用红星标记）。R. Wang等人/Egyptian Informatics Journal 22（2021）125129ð Þ图四、LDNOD-km流程图表18个真实数据集的描述。数据集大小尺寸数量离群值数量班车1,013913产电描记术2,12621471波形3,44321100枯萎4,8395261页面块5,47310560安甲状腺7,20021534PenDigits9,8681620KDDCup9960,632382464.1. 与基于邻域的算法的比较在这个实验中，我们首先将LDNOD算法与五种经典的检测算法进行比较，包括LOF，COF，KNN[33]，FastABOD[34]和LDOF。表2显示了LDNOD和五种基线算法之间的平均AUC值的比较结果，邻域大小从10到50，最佳AUC值以粗体突出显示如表2所示，我们的LDNOD方法在10个数据集中的大多数数据集上实现了最佳AUC值，甚至其他检测算法也是如此。使用正确数目的异常值来执行算法。此外，LDOF和kNN仅分别在Waveform和KDDCup99上表现最好。特别是对于Shuttle数据集，我们的LDNOD优于竞争方法。表3报告了针对广泛的邻域参数的6种方法的平均运行时间的比较在表3中，我们可以看到LDNOD是所有测试数据集的6种方法中第二快的算法LOF是评估方法中最快的方法，但LDNOD接近-两种方法之间略有差异尽管理论上计算复杂，6种算法都是O N2，实际运行时间相差很大。我们观察到，6种方法的运行时间随着数据量的增长而变化很大，最快的方法（LOF）比最慢的方法（COF）快几倍到几十倍。图5示出了对于106k（或j）650的8个数据集的所有方法的AUC值的曲线。根据这些图，我们可以看到，所提出的算法的AUC曲线是平坦的，对于一个广泛的界限j。然而，对于大多数数据集，其他方法随着k的增加而尽管一些方法对于某些数据集对参数k不敏感，但是它们的AUC值130R. Wang等人/Egyptian Informatics Journal 22（2021）125ﬃﬃﬃﬃ表26种方法的平均AUC值为10 6 μ mol/L，平均AUC值为650 μ mol/L。数据集LDNODLOFCOFFastABODLDOFKNN班车0.92950.57270.64570.65240.61420.7855产电描记术0.87560.72580.75330.74590.72250.6785波形0.58220.53140.55160.58340.60270.5538枯萎0.73450.62570.62060.61120.62110.6102页面块0.76830.69800.71280.76590.70170.6875安甲状腺0.67540.63570.65150.64580.65540.5956PenDigits0.72480.58570.62450.64350.66740.6218KDDCup990.78250.61240.57640.59340.62110.8275表36种方法平均运行时间的比较106komko rj650（单位：秒）。数据集LDNODLOFCOFFastABODLDOFKNN班车0.75170.67651.78631.57980.67890.8657产电描记术0.94540.89655.26544.57591.44871.3596波形2.47822.157712.189111.54253.16322.1578枯萎2.95172.332418.567915.86974.07844.5684页面块3.60952.578521.748417.07284.87136.2157安甲状腺4.66484.527936.273528.723512.379118.4558PenDigits8.65847.412554.949444.524529.760633.4587KDDCup99110.87102.488548.847485.651226.591854.54相对较小。因此，我们的方法显然比竞争方法更鲁棒。总之，该算法是有效的和鲁棒性与几个经典的方法。此外，它的效率也是6种方法中具有竞争力的。4.2. 与大规模检测算法的我们还将我们的LDNOD-km框架与几种大规模离群值检测算法进行了比较，如下所示：(1) CBLOF[24]：基于聚类的局部离群值因子。(2) LDCOF[25]：基于局部密度聚类的离群值因子。(3) MOA[35]：大规模在线分析。(4) SUOD[27]：可扩展的无监督离群值检测。在CBLOF、LDCOF和LDNOD-km中，k-means被包括在内并起着重要作用。MOA是一个用于大数据流挖掘的开源框架，SUOD是一个加速框架，大规模无监督离群点检测器训练和预测。对于LDNOD-km、CBLOF和LDCOF，设置簇的数量到pN的k-均值，每种方法都进行了20次试验，每个数据集。由于LDNOD的鲁棒性，为了方便起见，我们将所有数据集的j设置为30LNOF阈值也设置为3。基线方法中的其他参数按照相应的论文或规范的建议设置表4和表5分别说明了每个算法在不同数据集上的性能和运行时间。如表4和表5所示，LDNOD-km显著减少了原始LDNOD的运行时间，而没有显著的准确性损失，甚至在某些数据集上有所增加。从表4中可以看出，LDNOD-km在8个数据集中获得了3个最佳AUC评分，而SUOD在其余5个数据集中表现最佳。尽管SUOD的AUC值平均比我们的检测框架更好，但它比我们的检测框架消耗更多的运行时间，如表5所示。此外，我们可以看到LDNOD-km是最快的方法，比其他4种方法更快，特别是对于较大的数据集。因此，我们的检测框架是竞争力的准确性和效率相比，几个大规模的检测方法。图五、 AUC曲线的6种算法的8个数据集为106k rj650。R. Wang等人/Egyptian Informatics Journal 22（2021）125131表48个数据集上5种算法的平均AUC值。数据集LDNOD-kmCBLOFLDCOFMOASUOD班车0.91970.83640.80660.75730.9342产电描记术0.86220.61550.68380.65290.8256波形0.62120.52350.56470.58910.6896枯萎0.71250.55630.62490.63470.6715页面块0.78530.64570.67840.66580.8568安甲状腺0.66470.61460.68470.67550.7584PenDigits0.71860.62470.84650.72520.8572KDDCup990.80250.56840.62530.66180.7675表55种算法在8个数据集上的平均运行时间（单位：秒）。数据集LDNOD-kmCBLOFLDCOFMOASUOD班车0.22340.34740.33240.82240.7547产电描记术0.34530.85430.84751.25871.7487波形0.87321.52541.45473.15724.2574枯萎0.91922.18472.20543.51744.5895页面块1.20383.25853.21474.45155.0145安甲状腺1.26844.24744.12145.21246.7648PenDigits1.85295.24755.22716.57497.3356KDDCup9915.872382.548482.4843112.5548151.65425. 结论提出了一种新的局部检测算法LDNOD及其框架LDNOD-km由于DRNN的稳定性，LDNOD对邻域参数不敏感，它基于动态参考对象来构造实例的邻域。此外，共享邻近对象的邻域和评分的每个局部区域的设计，这可能会减少LDNOD的运行时间。由于LDNOD-km结合了LDNOD和k均值的优点，它能够有效地处理大规模数据集而不牺牲精度。最后，实验结果证明了LDNOD及其框架的有效性。在未来，我们将进一步改进LDNOD-km，并将其应用于处理更大规模和高维数据集。利益申报一个都没有。致谢本工作得到了国家自然科学基金（61802360）和重庆市科技攻关项目（KJZH 17104和CSTC 2017 rgun-zdyfx 0040）以及重庆市基础研究与前沿技术研究计划（CSTC 2019 jcyj-msxmX 0033）的资助。引用[1] 霍金斯湾识别离群值。 Chapman and Hall; 1980.[2] 放大图片作者：Lewis T. 统计数据中的离群值第三版，1994年。[3] Hodge V，Austin J.离群值检测方法的调查。Artif Intell Rev2004;22（2）：85-126。[4] Anomaly Detection：A Survey. ACM ComputSurveys 2009;41（3）：15.[5] Campos GO，Zimek A，Sander J，Campello RJ，Micenkov B，Schubert E，Assent I，Houle ME。关于无监督离群值检测的评估：措施，数据集和实证研究。Data Min Knowl Discov2016;30（4）：891-927.[6] Goldstein M ， Uchida S. 多元数据无监督异常检测算法的比较评估。 PloSOne2016;11（4）：e0152173.[7] DominguesR，Philippines M，Zouaoui J. 离群点检测算法的比较评估：实验与分析。Pattern Bronze2018;74：406-21.[8] Weller-FahyDJ，Borghetti BJ，Sodemann AA. 网络入侵异常检测中的距离和相似性度量方法综述。IEEE CommunSurveys Tutor 2015;17（1）：70-91.[9] AhmedM ，Mahmood AN ，Islam 金融领域异常检测技术综述。Future GenComput Syst2016;55：278-88.[10] Djenouri Y，Zimek A.城市交通数据中的离群点检测。第八届网络智能、挖掘和语义国际会议论文集。ACM;2018.[11] 余荣，何新，刘燕. GLAD：社交媒体分析中的群体异常检测。ACM跨知识发现数据2015;10（2）：18。[12] 李文，李文.使用异常检测方法检测机器故障[13] Zhou JT，Du J，Zhu H，Peng X，Liu Y，Goh RSM. AnomalyNet：视频监控的异常检测网络 IEEE Trans Inf Forensics Secur 2019.[14] Breunig MM，Kriegel HP，Ng RT，Sander J. May. LOF：识别基于密度的局部离群值。ACM SIGMOD记录2000;29（2）：93-104.[15] 唐俊，陈志，傅阿，张丹.增强低密度模式的离群值检测的有效性。摘自：陈女士，于萍，刘乙，编辑。知识发现与数据挖掘进展。计算机科学讲义第2336卷。Springer：Berlin/Heidelberg; 2002. pp. 535-548[16] [10]李文辉，李文辉，李文辉. LOCI：使用局部相关积分的快速离群值检测。第19届国际数据工程会议论文集。Los Alamitos，CA，USA：IEEE Computer SocietyPress; 2003. p. 315-326.[17] 金伟，董阿，韩军，王伟。使用对称邻域关系对离群值进行排序。In：Ng WK，Kitsuregawa M，Li J，Chang K，editors.知识发现与数据挖掘进展。计算机科学讲义第3918卷。Springer，Berlin/ Heidelberg; 2006. 第577- 593页。[18] 李晓梅，李晓梅.局部离群概率。第18届ACM信息和知识管理会议（CIKM-09）。New York，NY，USA：ACM Press; 2009.p. 1649-52年。[19] 张K，Hutter M，Jin H.一种新的基于局部2009年亚太知识发现和数据挖掘会议pp. 813-822[20] Yiu ML，Mamoulis N.在特定子空间中的反向最近邻搜索。IEEE跨知识数据工程2007;19（3）：412[21] 王才。一种基于剪枝的大k连续RKNN查询算法。中国电子杂志2012;3：523[22] 朱庆生，冯军，黄军。自然邻域：一种无参数K的自适应邻域方法。北京市朝阳区人民政府; 2016.[23] 黄军，朱强，杨丽，冯军。一种基于自然邻域的非参数离群点检测算法。基于知识的系统2016;92（C）：71-7。[24] 何志，徐X，邓S.发现基于聚类的局部离群值。Pattern GenevaLett 2003;24（9-10）：1641-50.[25] 放大图片作者：Amer M. RapidMiner基于最近邻和聚类的异常检测算法。In：Simon Fischer IM ， editor. 第三届 RapidMiner 社区会议和 Conferernce（RCOMM 2012）。Shaker Verlag GmbH; 2012. p. 1比12[26] Goldstein M，Dengel A.基于直方图的异常值评分（HBOS）：一种快速的无监督异常检测算法。In：Wlfl S，editor. KI-2012：海报和演示曲目。在线; 2012. p.59比63[27] 赵毅，丁翔，杨杰，白华.可扩展的无监督离群点检测。2020年第34届AAAI人工智能会议研讨会。132R. Wang等人/Egyptian Informatics Journal 22（2021）125[28] 蔡东，陈旭 . 基于地标稀疏表示的大规模谱聚类。 IEEE Trans Cybern2015;45（8）：1669-80.[29] 黄丹，王春丹，吴俊，赖俊华，郭忠强.超可扩展谱聚类与集成聚类。IEEE Trans KnowlData Eng 2019. doi：https：//doi. org/10.1109/tkde.2019.2903410。一比一[30] MacQueen J.多元观测的分类和分析方法。在：第五届伯克利数学统计和概率研讨会论文集，第1卷：统计。加州伯克利：加州大学出版社，1967年。p.281比97[31] 蔡 D. http://www.zjucadcg.cn/dengcai/Data/Clustering.html‘Litekmeans: thefastest matlab implementation of kmeans’, Available at:[32] 数据集：https://www.dbs.ifi.lmu.de/research/outlier-evaluation/DAMI/。[33] Angiulli F，Pizzuti C.八月高维空间中的快速离群点检测。数据挖掘和知识发现原则欧洲会议。p. 15-27[34] 放大图片作者：Kriegel HP，Schubert M，Zimek A.高维数据中基于角度的离群点检测。ACM SIGKDD知识发现和数据挖掘国际会议。[35] 比菲特·阿尔伯特，霍姆斯·杰夫，柯克比·理查德，普法林格·伯恩哈德。MOA：大规模在线分析。JMach Learn Res 2010;11：1601-4.

下载后可阅读完整内容，剩余1页未读，立即下载