基于相似性测度的离群点检测集成算法

108 浏览量更新于2023-12-10 收藏 743KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

可在www.sciencedirect.com在线获取理论计算机科学电子笔记329（2016）61-77www.elsevier.com/locate/entcs一种基于相似性测度的离群点检测技术Jos'eRamonP asillas-D'ıaz1，2SylvieRatt'e3软件和IT工程系加拿大蒙特利尔摘要异常值检测，即发现偏离正常行为的观测值，在许多应用领域中变得至关重要已经提出了许多不同的算法来检测它们。这些算法使用离群值概念的精确定义来识别离群值，因此它们的性能在很大程度上取决于应用环境。作为一种解决方案，已经提出了建设的合奏，以增加每个算法的个人能力然而，无监督场景（缺席类标签）限制了依赖于标签存在的方法的使用在本文中，提出了两种新的无监督的方法，使用集成的异构类型的检测器这两种方法都只使用每种算法产生的结果来构建集成，根据所检查的特定数据集来识别并赋予最合适的技术更多权重通过在真实世界数据集上的实验评估，我们证明了我们提出的算法比基本算法甚至比现有的集成离群值检测方法都有显著的改进关键词：离群点检测，集成1介绍我们收集和存储数据的能力呈指数级增长，但我们分析数据的能力却没有遵循同样的趋势。尽管现有数据爆炸式增长，但发现真正有趣的模式是一件罕见的事情。异常值检测近年来，偏离正常行为的观察结果的发现得到了广泛的研究[26，15，7]，从而产生了一套旨在检测这些罕见但可能至关重要的事件的算法。在某些特定情况下，离群值是可以被视为异常或噪声的数据点1这项工作得到了墨西哥国家科学技术委员会的支持，奖学金214609。2电子邮件：jose-ramon.pasillas-diaz. ens.etsmtl.ca3电子邮件：sylvie. etsmtl.cahttp://dx.doi.org/10.1016/j.entcs.2016.12.0051571-0661/© 2016由Elsevier B. V.这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。62J.R. Pasillas-Díaz，S.Ratté/Electronic Notes in Theoretical Computer Science 329（2016）61而异常是指分析人员感兴趣的特殊类型的离群值然而，术语异常值和异常值通常在文献中可互换使用[7]。离群值的核心定义之一是由Grubbs在1980年提出的：离群观察值或离群值是一个似乎明显偏离其发生的样本的其他成员的观察值。然而，该定义缺少一个重要特征，即离群点聚集形成其自身离群值组的情况; Barnett和Lewis [2]改进了离群值的定义，不仅将单个孤立点视为离群值，而且将偏离正常行为的一组点视为离群值在不同的应用领域（即医疗，入侵检测，欺诈检测，地理）中未检测到的离群值的影响可能会产生深远的灾难性后果。一个例子是乳腺癌的检测，未检测到的阳性病例意味着未经治疗的患者;另一个例子是未能检测到使用被盗信用卡的奇怪行为，导致信用卡持有人的财务影响。在这两个例子中，少数情况代表了利益类别离群值检测的过程代表了一个非常具体的分类场景：首先，离群值的数量与正常实例的数量成比例非常小;其次，离群值检测中使用标签（监督方法）是有限的，因为根据定义，我们正在尝试的离群值表示一种新的或看不见的行为。尽管一些算法（技术）可以仅使用正常类的标签进行操作[23]（半监督方法），并使用此信息来提高检测率，但无监督方法在操作无标签数据方面具有不可否认的优势。此外，未标记的数据通常更容易获得，并且代表离群值检测中更常见的情况[10]。使用无监督离群值检测方法的好处还在于避免了使用异常观测值训练算法所引入的偏差，这些由于离群值检测可以操作的领域范围很广，因此存在各种各样的离群值检测算法，主要基于：分类，聚类，最近邻域和统计方法[7]。然而，它们的使用取决于应用;没有一种孤立点检测算法最适合我们在现实世界数据集中可能遇到的所有不同数据场景[19]。一些算法在数据倾向于形成集群时工作得更好，而另一些算法最适合在数据中存在邻域时使用尽管在无监督的情况下，不可能提前知道哪种算法更适合特定的数据集，但这些算法的性能可以得到提高。类似于集成分类器学习，其中使用异质假设来产生统一的输出[25，24]，在集成离群值检测中，也需要多样（异质）假设来产生有意义的结果，可能J.R. Pasillas-Díaz，S.Ratté/Electronic Notes in Theoretical Computer Science 329（2016）6163相互补充如果形成合奏的技术产生完全相同的输出，则没有增益更常见的情况是使用结果不相关的技术构建多样化的集成，使用类标签（监督方法）和算法输出来确定技术之间的相似性。然而，当没有必要的类别标签来比较技术之间的一致性时（如在无监督设置中的情况），必须找到一种不同的方法来建立多样性。在这方面，一些方法通过提供不同的特征样本来确保集合的多样性，但除了需要多次迭代来分析每个样本之外，一些数据集将需要使用完整的特征集来识别离群观测值。我们提出的方法不是通过比较算法的输出和类标签来实现多样性，而是通过使用一组不同的算法来创建集成。组合不同分类器的输出并不是一项新任务;然而，离群值检测必须面对两个额外的问题[20]。首先，分类器的集合使用离散标签，而离群值检测主要关注分数。其次，分类器的集合通常依赖于训练数据的存在（监督方法），而离群值检测通常无法访问标记数据（无监督方法）。我们提出了两种基于离群值检测算法的加权组合的新方法，这两种方法都赋予了算法更多的权重，这些算法的输出对于特定的数据表示具有预期的更好的性能，并且通过增加离群值和内点之间的相对距离来改善离群值和内点之间的差异。本文的其余部分组织如下：第二节提供了一个关于离群点检测技术，集成方法和评估过程的背景;第三节详细介绍了我们的方法;第四节说明了一些实验与现实生活中的数据集和第五节总结了我们的研究和讨论了未来的工作范围2背景和相关工作离群点检测是一个非常活跃的研究领域，每年都有新的方法提出。然而，异常值的检测是1887年统计界首次考虑的[9]。从那时起，提出了基于各种方法的不同技术，如分类，聚类，基于密度和统计推断离群值算法的一个重要特征是它的输出，它可以是一个分数或二进制标签[1]。前一种类型的输出为每个观测值分配一个分数，通常可用于根据其离群值水平对观测值进行排名。后者分配二进制标签，通常使用1表示离群值，0表示正常观测值（内点）。分数的优点是通过提供一定程度的64J.R. Pasillas-Díaz，S.Ratté/Electronic Notes in Theoretical Computer Science 329（2016）61离群值，而二进制输出则将观察结果更简单地分类为内点或离群点。尽管二进制输出很方便，但分数中保留的信息可以提供更多关于观察异常的见解当目标是增加异常值的检测率（例如乳腺癌检测）同时减少由每个异常值检测算法引入的方差时，构造异常值算法的集合似乎是可行的解决方案。然而，使用结果相同的算法将不会获得增益因此，在构建集成时必须考虑两个重要因素：准确性和多样性。准确性衡量每个算法的输出质量，而多样性则致力于构建一个结果不同且在理论上互补的集成。准确性取决于技术和数据集的正确关联;多样性可以使用搜索空间的变化（数据和特征采样）或通过使用不同类型的算法来建立[28]。结合不同类型的算法可以产生比简单地使用相同算法的参数变化更好的性能[27]。然而，需要在准确性和多样性之间取得平衡，以获得更高的总体检测率[32];高度多样性，但不准确的算法，导致其组件真正多样化的总体，但没有准确性组件无法收敛到真实分类输出附近，导致其检测率低于其单个成员的总体构建集成的过程涉及三个主要考虑因素：算法的选择，组织（模块化或集成）和组合方法[6]。多类器可以分为模块化或集成。当每个成员负责过程的特定部分时，多分类器是模块化的，并且算法在一系列步骤中使用，使用前一个算法的结果。它是一个集成，当每个单个成员在同一个搜索空间上工作时，组合过程将结果连接起来以产生统一的输出。在本文中，我们将重点放在后一种类型。最重要的组成部分是所选择的组合方法，以便每个单独的成员（分类器）有助于提高整体性能。在构建一个合奏的一个关键因素是混合成员（al-出租ms）的错误是不相同的;这样做可以确保我们，这些成员相互补充，从而产生潜在的改进结果。然而，大多数这样的方法假设每个成员的准确性度量尽管如此，考虑到离群值检测主要是一个无监督的领域，使用输出标签来衡量准确性是不切实际的。在我们提出的方法中，我们不假设使用标记数据训练的高度准确的分类器;相反，我们通过仅考虑每个算法的输出分数来估计准确性，并尝试使用不同类型的离群值检测技术来实现多样性。在我们的实证研究中，使用了四种检测器：基于密度的方法（局部离群因子或LOF），两种基于距离的方法（k均值分层聚类）和基于统计的方法（修改后的箱形图）。基于密度J.R. Pasillas-Díaz，S.Ratté/Electronic Notes in Theoretical Computer Science 329（2016）6165LOF方法被认为是最有效的离群值检测算法之一[19]。该技术计算的隔离度取决于两个因素：第一，点与其邻居之间的距离，第二，邻域的密度。使用箱形图[30，18]检测离群值是最简单的基于模型的技术之一;这种统计方法没有对数据分布进行特定假设，将超出特定阈值的点确定为离群值。第一种基于距离的方法依赖于k-means算法[13];根据最近的质心将数据划分为不同的组;点的离群值等于到其最近质心的距离。使用分层聚类的离群值算法[29]将数据递归地划分为二进制聚类，直到数据无法进一步划分;在这种情况下，离群值由那些对合并到聚类中具有更大阻力的观察值组成。虽然仅使用高精度分类器的组合来提高集成的检测率似乎是一个好主意，但离群值检测操作的数据集的无监督性质是一个限制因素。在考虑无监督场景时，使用仅基于集合成员结果的自适应多样性测量是至关重要的，并且不假设正常实例（半监督方法）或正常和离群实例（监督方法）的标签存在因此，我们的重点是自我充足的多样性测量。以前的研究，如特征装袋（FB）[20]使用搜索空间的变化来诱导集合的多样性;类似的研究[22]使用搜索空间的变化和不同的离群值检测技术。特征装袋方法首先随机选择特征的不同子样本，然后在一系列轮次中，每个离群值技术分析这些子样本，产生一组输出分数。最后，可以使用feature bagging的作者提供的两种方法中的任何一种来执行连接分数的过程：广度优先和累积和。宽度优先方法首先对所有特征装袋迭代中的离群值进行排序，然后获取具有最高分数的记录的索引，然后将其索引插入到向量中，依此类推。如果索引已经在向量中，则将其省略。最终输出是指向其相应分数的索引向量。特征装袋的第二个变体是累积和。该方法简单地将特征装袋的每次迭代的得分相加，离群值是那些观察结果得到高分。广度优先方法暴露于一个关键的观察：它是高度敏感的离群值检测算法的应用顺序。这意味着集合中的第一个技术优先决定给定数据记录的异常。此外，这种方法的方法并没有指出如何建立算法的顺序与广度优先方法相比，累积总和报告了更好的整体性能[20]。这种组合输出的方式克服了广度优先中成员的顺序问题。然而，这两种变体66J.R. Pasillas-Díaz，S.Ratté/Electronic Notes in Theoretical Computer Science 329（2016）61的特征装袋考虑了不同类型的算法的使用特征装袋的作者在他们的实验中只使用了一种算法（LOF），并且没有提到如何在不同的尺度上连接分数。为了获得更好的性能，他们的实验假设正常实例（内点）的标签存在特征装袋[20]的作者报告了单个离群值检测技术的性能改进;他们的结果为比较新方法提供了坚实的基础然而，我们假设可以通过连接不同类型算法的输出并设置特定权重来实现更好的性能，而无需假设输出标签的任何知识受试者工作特征（ROC）曲线在测量离群检测器的性能时非常有用这些曲线包括使用鉴别阈值的变化绘制真阳性率（TPR=真阳性与实际阳性的比率）对假阳性率（FPR=假阳性与实际阴性的比率）。因此，曲线下面积（AUC）通常用作离群值分析的基准[19，20，27，22，17，11]。AUC是随机选择的阳性实例将比随机选择的阴性实例排名更高的概率。当无法预先确定阈值时，AUC是评估离群值算法性能的方便指标，并且需要单一测量而不是ROC曲线[3]。AUC越高，该技术的预期性能越好;AUC=1表示完美的性能，而AUC=0.5表示类似于简单随机选择的性能除ROC曲线和AUC外，其他常用的评价指标为准确度和精密度@n [8]。前者通常用于分类场景，以评估分类算法的结果;然而，在离群值检测中，高度不平衡的数据集可能会使该测量产生偏差;例如，一个简单的分类器将所有观测值标记为内点类将产生高且误导性的准确度值，而实际上它错误地分类了所有离群值观测值，这些观测值在离群值检测中实际上是最终用户试图找到的观测值后者是另一种可用于评估离群值检测算法的度量;然而，该度量对n的选择高度敏感[5];例如，在只有2个离群值和100个内点的玩具场景中，离群值检测算法将真正的离群值排在第三和第四位（几乎完美地考虑无监督离群值检测场景），选择n=4将导致精度@n=0.5;然而，设置n=2将给出精度@n=0，尽管分类器确实高度分类了离群值。精度@n要求用户至少对数据中离群值的预期数量有一些了解;在离群值检测中，通常是无监督设置，既不可能提前知道地面真值类标签，也不可能知道数据中存在的离群值的数量ROC曲线在文献中被广泛用于评估无监督离群值检测算法，然后它们的使用促进了与先前研究工作的可比性[9]。J.R. Pasillas-Díaz，S.Ratté/Electronic Notes in Theoretical Computer Science 329（2016）61673的方法我们提出了两种新的方法，在无监督的情况下，异构离群检测算法的输出相结合：检测器与相关的选票（EDCV）和检测器与变异性选票（EDVV）的合奏有了关于哪个检测器对每个数据集更有效的先验知识，就可以为每个算法预先确定一个特定的权重。然而，在无监督的方法中工作需要独立于标签的存在来测量每个算法的能力EDCV和EDVV之间的主要区别是当比较所有估计EDCV使用相关系数作为相似性度量，而EDVV使用输出之间的绝对偏差的平均值（MAD）作为1-MAD形式的相异性度量。两人还使用了一种改进的箱线图方法来确定每个观察从算法中收到的离群投票数。通过这种方式，两种方法都以两种不同的方式分配权重：第一，通过测量每个算法在特定数据集上的性能（相似性/不相似性度量），第二，通过给出一个数字每个算法产生的每个单独的分数。在这一点上，两个不同的措施（EDCV的相关性和EDVV的MAD）被用来确定算法的个体性能，一个特定的数据集。相似性/不相似性度量为集成的每一个算法分配特定的权重，从而为输出相似的算法提供更多的信息这些方法使用两种不同的数值相似性/不相似性度量：相关性和MAD;我们使用它们来度量不同分类器输出之间的相似性。前者可用于评估不同输出之间的统计相关性;它与输入值的尺度无关，并且对于完全相关的值将产生1的结果，对于不相关的值将产生0的结果，对于负相关的值将产生-1的结果。后者用于测量不同输出之间的绝对偏差。MAD产生的结果与其组成部分的规模有关。MAD倾向于将低值分配给相似的分数，而相关系数将高值分配给相关的分数。3.1一般方法我们提出的这两种方法都是基于算法1中描述的相同过程，然而，它们在为每个算法分配权重的方式上有很大的不同在本小节中，我们介绍了这两种方法的第一阶段，将权重分配留给以下小节1）（EDCV）和2）（EDVV）。如算法1所示，首先通过在一系列T轮中应用每个算法来检查大小为m的给定数据集（DS），其中T表示集合中可用的算法的数量。为了测试的目的，我们使用T=4。尽管如此，T可以取不同的值，这意味着我们的方法既不限于使用特定的离群值算法，也不受离群值算法数量我们希望我们的方法可以应用于大多数离群值检测68J.R. Pasillas-Díaz，S.Ratté/Electronic Notes in Theoretical Computer Science 329（2016）61算法1组合离群值检测分数的一般方法输入：给定大小为m的数据集DS=（（x1），（x2）（xm）），其中xi表示特定观测。T等于集合中的算法集合;Ti指的是T中的特定算法。输出：排除离群值分数Ffinal一曰：一般方法2：对于t∈T中的每个i，3：从D中随机选择一组特征F（t），而不进行替换，d/2和d-1之间的随机大小4：将离群值算法Ti应用于DS5：Ti的输出是输出分数Fi6：标准化Fi7：结束第八章：决定票数（五）9：确定重量（W）10：组合输出分数F并产生最终集成输出Ffinal11：结束程序输出：最终能够以分数的形式产生结果的算法。离群值检测的不同算法在不同尺度上产生分数我们已经确定，使这些结果标准化的最佳方法是使用标准化程序。标准化经常被用作整体离群值检测中的归一化方法[14，20]，将不同的输出带到可比的规模，并保持离群值的分数相对于内点的分数相对较大，以这种方式避免具有最大结果范围的算法主导最终结果。我们使用的标准化方法包括使用常规程序Z=（Xi-mean）/SD（其中SD是标准差）将输出分数（F）转换为Z该标准化步骤允许在一种技术中具有大分数的观察在加入集合之后保持大值使用每个算法的这些标准化输出（F），然后我们应用修改后的箱形图技术来检测偏差大于其余输出的输出。通过这种方式，我们产生了一个大小为m *T（观察数乘以算法数）的投票向量（V），其中包含每个观察的每个算法的投票数。如果一个观测值的得分大于1.5*IQR（其中IQR是四分位数间距），则该观测值获得投票。我们以传统的方式确定IQR [31] IQR=Q3-Q1，其中Q3和Q1分别代表第三四分位数和第一四分位数。因此，该步骤中的输出矩阵V具有与包含标准化分数F的矩阵相同的维度。F中的每个分数将在V中具有相应的票数;例如，Vij对应于分配给Fij的票数。以下两个小节（1）EDCV方法2）EDVV方法）J.R. Pasillas-Díaz，S.Ratté/Electronic Notes in Theoretical Computer Science 329（2016）6169算法2用于连接离群值分数的EDCV1：EDCV程序2：计算标准化输出分数F之间的相关系数的矩阵（C）。3：对于每种技术，产生wn作为其对应的相关性列Cm的平均值：4：对于T中的每个n，（泰国）Cmn）−1Ofinal=m=1T−15：结束6：结束程序输出：返回权重矩阵W={w1，w2，wn}描述权重矩阵（W）的计算。虽然这两种方法使用相同的一般过程，但它们在如何计算矩阵W方面有所不同。矩阵W测量每个算法在所检查的特定数据集上的个体能力，增加离群值的权重，同时保持内点的权重。虽然很明显，每个离群值算法已经分配了一个内在的权重与分配给每个观察的分数，我们试图增加离群值的权重，同时保持那些内值，有一个更好的区分离群值和非离群值。投票V和权重W之间的主要区别在于，投票旨在增加离群值和非离群值之间的差异，并且针对每个观察值单独产生，而权重不会特定于特定的观察值，而是反映算法在检查数据集上的表观能力A.1）B小节解释了如何使用投票（V）和权重（W）组合F得分以产生最终得分Ffinal。3.1.1EDCV方法使用EDCV获得每个算法（T）的权重（W）的过程方法显示在算法2中。首先，我们得到一个相关矩阵C(1)其中m=T的大小乘n=T的大小，通过计算标准化分数F之间的相关性。例如，如（1）中所表示的，C_mn代表分数F_m和F_n之间的相关系数。接下来，我们将对应于每个Fn的相关性的平均值除以T的大小以获得矩阵W;假设算法与自身的相关性是无意义的，因为它总是对应于值为1的完美相关性，那么我们减去从分子和分母都是1。由此产生的权重矩阵70J.R. Pasillas-Díaz，S.Ratté/Electronic Notes in Theoretical Computer Science 329（2016）61⎛⎜⎞⎟⎛⎜⎞⎟⎟W={w1，w2，wn}表示每个算法的特定权重。F1F2...FnF1C11C12...C1nF2 C21C22.C2 nC =.⎝⎜... . ..（一）⎠F nC m1C m2.C Mn3.1.2EDVV方法我们的方法的第二种变体EDVV通过算法3中显示的过程获得W。首先，通过计算标准化分数F之间的MAD来产生具有维数m=T的大小乘n=T的大小的矩阵（D）（2）。F1F2...FnF1D11D12.D1nF2 D21D22 .D2nD =.好吧.. . ..（二）⎠D nD m1D m2.D mn注意，矩阵D在大小和结构上类似于我们的方法EDCV的另一个变体产生的矩阵;然而，在本例中，矩阵D（2）的值MAD将较低的值分配给类似的输出分数，并且我们的一般框架期望W的最高权重代表最合适的算法，因此当向矩阵D提供MAD值时，我们通过使用补1-MAD将它们转换为与我们的一般方法兼容的形式。在此步骤之后，矩阵D中的每个Fn的平均值除以大小T-1，以产生矩阵W。这与EDCV方法不同，在EDCV方法中，我们从分子和分母中减去1;在EDVV中，我们只从分子中减去1，因为同一算法之间的MAD等于0。所得矩阵W={w1，w2，wn}由每个算法的特定权重形成3.2把它放在一起我们一般方法的最后阶段使用我们提出的变体EDCV或EDVV产生的权重W。最终过程显示在算法3中。首先，我们计算每个标准化分数F与矩阵V中相应投票的乘积，然后通过应用由EDCV或EDVV获得的权重W来更新结果值。最后，将每个算法的更新分数简单地加在一起并除以T的大小。最后一个阶段的输出是一个大小为m（观测数）的向量，其中包含集合中所有算法的加权和投票得分这些⎟J.R. Pasillas-Díaz，S.Ratté/Electronic Notes in Theoretical Computer Science 329（2016）6171算法3用于连接离群值分数的EDVV1：EDVV程序2：计算标准化输出分数F之间的平均绝对偏差（MAD）的矩阵（D）。3：对于每种技术，产生wn作为其相应的偏差列Dm的平均值：4：对于T中的每个n，TMTDmn5：结束6：结束程序Ofinal=m=1T−1输出：返回权重矩阵W={w1，w2，wn}与简单的平均方法相比，最终分数有两个主要优点：首先，它们增加了潜在离群值和内点之间的相对距离，其次，它们促进了算法的输出，表现出更好的预期性能。在下面的部分中，我们使用真实世界的数据集进行实验，将所提出的方法与3种类似的方法进行比较：简单平均，特征装袋累积和和特征装袋宽度优先）。4实验与评价4.1方法和参数对于我们的实验，我们比较了我们的方法与简单的平均，功能装袋累计和功能装袋宽度优先的结果。我们将特征装袋的迭代次数设置为50，而对于简单平均，EDCV和EDVV我们使用4次迭代（每个算法一次特征装袋在其两个变体（累积和和宽度优先）中仅使用单个算法应用n次。作者使用LOF作为其集成的单一算法报告了他们的结果，因此当将我们的结果与特征装袋的结果进行比较时，我们也使用LOF。我们将两种方法（EDCV和EDVV）中的算法数量设置为4。在我们的集成中使用的算法是：LOF，k均值聚类，分层，算法4应用相应的投票和权重后的最终平均输出一曰：程序最终输出2：对于m中的每个i，doT（F（i，j）<$V（i，j）<$W（j）3：结束4：结束程序Ffinal=j=1不输出量：返回Ffinal72J.R. Pasillas-Díaz，S.Ratté/Electronic Notes in Theoretical Computer Science 329（2016）61calclustering和modifiedboxplot方法。我们使用LOF作为在我们的系统中具有预期最佳性能的技术，其余技术的性能预期不会优于或显著优于LOF提供的技术选择组成集合的算法是为了获得一个多样化的集合;多样化不仅指技术的类型（基于距离或密度），而且指结果的质量。通过这种方式，所得到的集合由具有不同性能的不同类型的算法组成。这个想法是模拟一个真实世界的场景，在这个场景中，不可能提前知道哪种技术更适合所研究的数据集在可能的情况下，我们使用每个算法的默认值，对于需要对其参数进行一些调整的聚类和LOF，我们不会尝试将配置值调整到特定的域或数据集。相反，我们对所有数据集使用相同的参数;显然，调整这些值会带来更好的整体性能，但我们正在模拟一个没有关于特定数据集的额外信息的场景我们实验的目标是模拟集成方法的性能的真实估计，而不是完美调谐的离群值检测算法的性能。与使用标签的特征装袋作者进行的实验不同，我们不假设标签的存在，因为我们的实验是基于完全不受监督的方法。尽管如此，我们承认，包含标签的内点将提高算法的性能，从而提高整体的性能我们的结果还比较了每个算法的分数的简单平均值这令人惊讶地给出了有趣的结果（见第IV. C小节）。为了选择LOF和k-means的配置值，我们遵循[13，4]中的建议。对于LOF，指示邻居数量的参数被设置为20;这一决定是通过对作者的建议进行平均而作出的，即在缺乏关于所研究的数据集的更多知识的情况下使用10至30之间的值。对于k-means聚类算法，我们将中心的数量设置为11（k=11）。其余两种算法，分层聚类和修改后的箱形图，使用其默认值。4.2数据集数据集的选择基于：（a）现实世界的问题，（b）不同比例的类，（c）不同数量的变量和（d）使用的先前和类似的研究离群值检测。表1给出了位于UCI机器学习存储库中的选定数据集的特征（见表1）[21]。对于乳腺癌和电离层数据集，我们没有执行任何修改;我们只是将最小的类作为离群值类，其余的作为正常（inlier）类。对于前一个数据集，最小的类代表恶性细胞核的分类，而较大的类代表良性情况。后一个数据集包括来自高频天线的测量结果J.R. Pasillas-Díaz，S.Ratté/Electronic Notes in Theoretical Computer Science 329（2016）6173探测电离层中的自由电子;多数类由代表电离层中某种结构的测量组成，少数类由没有证据表明电离层中形成结构的情况组成。对于satimage数据集，我们使用最小的类作为离群值，并合并其余的被认为是正常类。在这个数据集中，类别代表卫星图像中像素的多光谱值。当进行淋巴造影实验时，我们选择类1和类4（小于5%）作为异常类，并使用类2和类3作为正常类。为了增加可用数据集的数量，我们使用了类似研究中常用的程序[20，16]，其中包括与离群值检测问题不直接相关的数据集的适应。该过程包括将多变量问题转化为两类问题，分为两步：首先，我们识别最小类或最小类的子集，并将其视为离群类，然后，大多数-或其余类-被合并并用作正常类。按照这种方法，我们形成了7个额外的数据集的基础上ann甲状腺和穿梭数据集。因此，对于ann甲状腺数据集，它包含三个类，最小的两个与功能亢进和亚正常功能有关（小于数据集的10%），第三个不是甲状腺功能减退类（正常条件）;在这种情况下，我们通过依次使用每个少数类作为异常值类与正常条件来产生2个数据集。最后，对于包含6个类的航天飞机数据集，我们选择类1（80%的数据）作为正常类，其余5个类中的每一个依次作为离群类，获得5个额外的数据集。表1数据集特征（Cl=类，At=属性，O=离群值，I=内联值）数据集CL在O我O（%）现代化设施乳腺癌23221235737.262级v/s。1电离层23412622535.902级v/s。1淋巴造影41861424.05合并类别1&4伏/秒。休息萨蒂马吉73662658099.73小班v/s休息安甲状腺32173-17731782.24-5.28每个类V/S。3（平均）班车692-809114780.02-6.582、3、5、6级（平均）&7对174J.R. Pasillas-Díaz，S.Ratté/Electronic Notes in Theoretical Computer Science 329（2016）614.3结果我们对所得到的11个数据集的实验结果列于表中。2.简单平均、特征装袋（累积和和宽度优先）、EDCV和EDVV的ROC曲线见图1。对于适用于二元分类问题的ann甲状腺和shuttle数据集，使用人工生成的数据集的AUC平均值呈现结果;由于空间原因，未呈现其ROC曲线对于乳腺癌，电离层，淋巴造影和satimage数据集，我们提出了AUC和计算的ROC曲线。表2显示，EDCV和EDVV在几乎所有数据集中都优于简单平均值、FB累积和和FB广度优先，但ann甲状腺数据集除外，其中FB广度优先显示出更好的结果;这种行为的主要原因是广度优先依赖于算法输出的顺序。尽管如此，广度优先方法的作者没有考虑对这些输出进行排序的过程，因此，这种方法依赖于随机顺序，在ann甲状腺的情况下，所得的随机顺序有利于广度优先。尽管如此，EDCV和EDVV都表现出比FB累积总和和简单平均更好的性能正如预期的那样，所有算法的最差性能都是针对二进制类问题的数据集。这是可以理解的，因为不同类的联合产生了一个具有不同分布的单个类，这些分布很难通过集合的各个算法来检测。然而，即使在人工生成的数据集上，与其他方法相比，EDCV和EDVV的性能也有所提高。EDCV和EDVV的优点他们不假设算法在所有不同类型的数据集上都有异常和恒定的良好性能，而是根据算法在每个数据集上的性能为算法分配权重。令人惊讶的是，由离群值检测算法产生的分数的简单平均值给出了恒定的良好性能。表2简单平均的AUC（曲线下面积）、特征装袋（FB）累积和、特征装袋（FB）广度优先和我们提出的方法EDCV和EDVV。数据集简单平均FBcum.sumFB广度优先EDCVEDVV乳腺癌0.84390.64750.66950.84890.8609电离层0.87110.86540.88240.89160.8980淋巴造影0.98710.98710.97650.98940.9894萨蒂马吉0.64390.51490.50790.65170.6326安甲状腺（平均）0.73310.70810.83600.75010.7485班车（平均）0.99550.91330.90960.99720.9970J.R. Pasillas-Díaz，S.Ratté/Electronic Notes in Theoretical Computer Science 329（2016）6175a) 乳腺癌数据集b) 电离层0.0 0.2 0.4 0.6 0.8 1.0假阳性率0.0 0.2 0.4 0.6 0.8 1.0假阳性率c) d）Satimage数据集0.0 0.2 0.4 0.6 0.8 1.0假阳性率0.0 0.2 0.4 0.6 0.8 1.0假阳性率图1.一、分割、Satimage、波形和Gisette数据集中LOF、特征装袋和FBSO的ROC曲线在最初为二进制分类设计的数据集中发现EDCV和EDVV的持续改进（图1）。表2显示，两种方法（EDCV和EDVV）的AUC在乳腺癌、电离层、淋巴造影和Shuttle的数据集中更好。除甲状腺外，satimage是一个例外，其中仅EDCV的AUC高于其余集合。5结论本文提出了两种新的、完全无监督的集成方法，用于组合不同离群点检测算法的输出值：相关投票检测器集成（EDCV）和变异投票检测器集成（EDVV）。几个流行的现实生活中的数据集上的实验表明，这两种方法可以实现更好的性能比类似的方法。此外，值得考虑的是，我们的结果仅使用4次集合迭代获得，而对于特征装袋，我们将迭代次数设置为50。这些改进与以下事实有关：EDCV和EDVV不对算法的性能做出假设，直到它们能够简单平均FB累积和FB宽度优先EDCV方法EDVV方法简单平均FB累积和FB宽度优先EDCV方法EDVV方法简单平均FB累积和FB宽度优先EDCV方法EDVV方法简单平均FB累积和FB宽度优先EDCV方法EDVV方法真阳性率真阳性率0.00.20.40.60.81.00.00.20.60.40.81.0真阳性率0.20.40.60.8真阳性率0.20.40.60.81.00.01.00.076J.R. Pasillas-Díaz，S.Ratté/Electronic Notes in Theoretical Computer Science 329（2016）61比较它们的输出;因此，优点在于，两种方法都不期望在不同类型的数据集上的所有算法都具有异常和恒定的性能。此外，不期望算法的恒定性能允许包括不同类型的离群值检测算法。虽然类似的方法，如特征装袋累积和和特征装袋宽度优先通过搜索空间的变化引入多样性，EDCV和EDVV试图通过使用不同类型的算法来确保多样性，这导致更广泛适用的方法。尽管如此，我们认为，我们的结果可以通过使用特征装袋变化的搜索空间作为一种方式来处理噪声属性得到改善。在未来的工作中，我们将尝试解决这种可能性。引用[1] 阿加瓦尔角C.的方法，[2] 巴内特河和T.刘易斯，3，威利纽约，1994年。[3] Bradley，A. P.，在机器学习算法的评估中使用ROC曲线下的面积，模式识别30（1997），pp. 1145-1159.[4] Breunig，M. M.，H.-克里格尔河T. Ng和R. Sander，Lof：identifying density-based local outliers，SIGMOD Rec.29（2000），pp. 93-104.[5] 快来，G。O.，A. Zimek，J. 桑德河 J. 卡姆佩罗湾我知道了E. 斯丘伯特岛 Asse nt和M. E. Houle，关于无监督离群值检测的评估：措施，数据集和实证研究，数据挖掘和知识发现（2015），pp.1比37[6] Canuto，A. M.，M. C.阿布雷乌湖de Melo Oliveira，J. C. Xavier和A. D. M. Santos，调查合奏成员的选择在基于选择和基于融合的合奏方法的准确性和多样性方面的影响，模式识别信件28（2007），pp.472-486[7] 科洛拉，五，A. Banerjee和V.Kumar，Anomaly Detection：A Survey，ACM Comput。监视器41（2009），pp. 1-58[8] Craswell，N.，R-precision，in：Encyclopedia of Database Systems，Springer，2009 pp. 2453-2453[9] Edgeworth，F.，41.关于不一致的观察，伦敦，爱丁堡和都柏林哲学杂志和科学杂志23（1887年），页。364-375.[10] Eskin，E.，A. Arnold，M.普雷劳湖Portnoy和S. Stolfo，无监督异常检测的几何框架，在：数据挖掘在计算机安全中的应用，Springer，2002年，pp。77比101[11] Fawcett，T.，Roc graphs：Notes and practical considerations for researchers，Machine learning31（2004），pp.1-38[12] Grubbs，F. E、检测样本中异常观测值的程序，Technometrics11（1969），pp. 1-21[13] Hartigan，J. A.和M. A.

下载后可阅读完整内容，剩余1页未读，立即下载