没有合适的资源?快使用搜索试试~ 我知道了~
基于LiCS和投票的数据流离群点检测算法
沙特国王大学学报使用LiCS和投票Amine-Zahra Benzouna,Ahmed Oussousa,Amine Bennanib,Samir Belfkiha,Ayoub Ait Lahcena,a摩洛哥凯尼特拉伊本·托费尔大学国家应用科学学院LGSbCapgemini,1100,bd el Qods,Sidi Maarouf,CasaNearshore,Shore 8。ImmA.,20270,摩洛哥阿提奇莱因福奥文章历史记录:收到2019年2019年7月2日修订2019年8月2日接受在线预订2019年保留字:数据流离群点检测高维数据大数据挖掘入侵检测A B S T R A C T实时检测异常值对于许多现实世界的应用越来越重要,例如检测异常心脏活动、系统入侵、垃圾邮件或异常信用卡交易。然而,数据流的高维性、动态数据的离散性和不可预测的关系等问题给异常数据的检测带来了挑战。我们的模拟表明,一些先进的解决方案仍然存在缺陷。在本文中,首先,我们提高了能力,以检测离群值的微集群为基础的算法(MCOD)和基于距离的算法(抽象-C和精确风暴)的性能。这是通过添加一个名为LiCS的层,该层根据每个节点的进化状态在线分类每个节点的K最近邻(Knn)。该层聚合结果并使用计数阈值来更好地分类节点。在SpamBase数据集上的实验表明,该方法提高了算法的准确率和查准率,减少了未分类节点。其次,提出了一种基于迭代多数投票和LiCS的混合解决方案对实际数据的实验表明,该方法在检测离群点的准确性、精确性和灵敏度它还最大限度地减少了未分类实例的问题,并合并了算法的不同输出。©2019作者制作和主办:Elsevier B.V.代表沙特国王大学这是一CC BY-NC-ND许可下的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。1. 介绍如今,检测异常值变得越来越重要。事实上,数以百万计的分布式应用程序、互联设备和智能手机现在都配备了传感器,这些传感器每秒钟都会生成大量非结构化大数据。因此,各种现实世界的应用需要可靠的警报系统,该警报系统可以读取如此巨大的流并针对检测到的异常实时生成警报。例如,在电子健康中,检测异常心脏活动至关重要,在信息系统安全 中 , 检 测 入 侵 或 垃 圾 邮 件 至 关 重 要 ( Dolgikh 等 人 , 2014 年 ;Bennyoun等人,2017;Anusha和Sathiyamoorthy,2016)。 在金融领域,检测欺诈和异常信用卡交易非常重要。在*通讯作者。电子邮件地址:amine. capgemini.com(A.本纳尼),萨米尔.贝尔夫基@univ-ibntofail.ac.ma(S. Belfkih),ayoub. univ-ibntofail.ac.ma(A.Ait Lahcen)。沙特国王大学负责同行审查电子政务和公共服务,它是必不可少的监控用电。一般来说,离群点检测是在数据集中搜索与该数据集的其余部分不一 致 的 实 例 的 概 念 。 事 实 上 , 离 群 值 代 表 偏 离 正 常 值 或 模 式(Aggarwal,2015; Kontaki等人,2011年)。离群点可以分为三类:第一类是当数据点不同或远离一组点时。第二种情况是当数据点或对象显示已知的异常时。第三种情况是当数据点的行为与正常的已知行为不一致时(Sadik和Gruenwald,2014)。与静态数据不同,由于大数据的复杂性及其3V特性(速度、数量和多样性),挖掘大数据会引发许多问题(Oussous等人,2018年)。当检测无限序列的数据点或数据流中的异常时,会遇到额外的挑战(Nguyen等人,2015年Bennyoun等人,2017年)。事实上,研究人员必须解决两个主要问题:一方面,检测解决方案必须管理流的复杂性质,例如高多维性,动态数据分布,变化的模式,不可预测的数据关系,不确定性和瞬时性(Vijayarani和Jothi,2013; Sadik和Gruenwald,2014)。因此,算法必须通过检测异常来处理与概念漂移相关的问题https://doi.org/10.1016/j.jksuci.2019.08.0031319-1578/©2019作者。制作和主办:Elsevier B.V.代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。制作和主办:Elsevier可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页:www.sciencedirect.com1178F.- Z. Benzoun等人/沙特国王大学学报在变化的滑动窗口(基于时间或基于计数的窗口)(Nguyen等人,2015年)。另一方面,大多数实际应用需要实时和可靠的响应。为此,解决方案应该处理无限序列的演化实例,同时优化CPU,存储和时间消耗。所以,算法应该减少传递数据以实现快速查询。但是,当专家试图提高检测性能(检测到的异常值或异常的数量)时,算法往往会消耗更多的内存和计算时间。此外,当他们试图提取更多的离群值时,误报率通常会增加。另一个问题是维数增加了时间和内存消耗,并且可能影响检测性能。然而,用于探索静态数据的传统方法缺乏处理大数据流所需的可扩展性和性能(Xiang等人,2014年)。此外,最近的解决方案设计的流不能检测到所有的异常,仍然表现出令人满意的精度,一个相当大的误报率,让许多节点未分类。这种效率的缺乏可能会误导数据分析师和医生。事实上,不可检测的异常值可能导致错误诊断、健康问题、重大经济损失、安全问题和其他损害。因此,需要更强大有效的解决方案来以高准确度、高精度和减少的未分类节点的数量来以下是我们的主要贡献:提出了生命周期状态(LiCS)的概念,提高了检测离群值的高级算法的准确性和灵敏度,即MCOD,Abstract-C和Exact- Storm。通过整合LiCS来减少未分类的节点数量,LiCS增强了设置节点最终状态的算法。提供了一种混合投票解决方案,在准确性,精度和灵敏度方面优于所研究的算法。它还减少了未分类节点的数量。本文的结构如下:第二节比较了离群点检测的主要工作然后,论证了先进算法的局限性。第3节解释了所提出的方法与证明,然后它提出了现实世界的应用程序的例子。第4节给出了实验结果,并将改进后的算法和提出的解决方案与现有解决方案的性能进行了比较。最后,第5节总结了本文,并提出了未来的研究方向。2. 相关工作本节重点介绍集成了基于距离的算法或基于聚类的方法的解决方案,因为我们的贡献也是朝着这个方向发展的。2.1. 离群点检测方法根据回顾的工作,如(Sadik和Gruenwald,2014),我们注意到大多数时候,离群值检测方法分为以下几类:(1)基于统计的方法。(2)基于距离的方法(Angiulli和Fassetti,2007; Cao等人,2014和Kontaki等人,2011年)。(3)基于密度的方法(Vasudevan和Selvakumar,2016)。(4)基于分类的方法(Nguyen等人,2015年)。(5)基于聚类的方法(Aggarwal,2015)。为了处理多维流,Aggarwal(2015,)提出了另一种称为信息理论模型的类别。其他研究倾向于根据其环境对方法进行分类(例如,同心或分布式网络)或根据所应用的方法或如(Hamid等人,2016和Karami和Guerrero-Zapata,2015)。2.2. 混合方法在全球范围内,研究人员使用一种单一算法来检测离群值,通过应用两种连续但不同的方法来识别离群值的混合模型或聚合多个预测模型结果的集合模型(Nguyen et al., 2015; Zhang等人,2011年)。许多混合解决方案受到聚类方法的启发,例如(Kontaki等人,2011;Vijayarani和Jothi,2013;Karami和Guerrero-Zapata,2015; Singh和Aggarwal,2013;Kapse等人,2016; Shou等人,2017; Fa等人,2015年)。Wurzenberger等人提出了生物信息学聚类。(2016年)。为了解决高维数据和大规模问题,人们做了很多工作。例如,Shambharkar和Sahare(2016)证明了SVM分类器(支持向量机算法)与K最近邻(KNN)的性能比较。之后,Markad et al. (2017)证明了基于特征选择、反向最近邻和离群值的系统具有较高的准确性。相反,Doan(2017)表明,他们提出的增量集成模型能够使用不完整的训练数据集进行学习。 Shou等人(2017年)提出了异常检测框架,该框架可以处理大型环境传感系统中数据质量的缺乏。对于入侵检测系统(IDS),Rachidi et al.(2016)将数据驱动聚类与贝叶斯分类结合起来用于主机IDS。其他作品也使用了分类和各种攻击检测方法,如Gogoi等人(2013)和Gupta等人。(2016年)。其他人也使用了特征选择技术,例如Mazini等人(2018 a)提出了一种基于异常网络的IDS(A-NIDS),使用人工蜂群(ABC)进行特征选择 , 使 用 AdaBoost 算 法 进 行 特 征 分 类 。 Sonowal 和 Kuppusamy(2017)提出使用结合URL特征和Cantina方法的多层模型PhiDMA来检测钓鱼网站。2.3. 我们对DODDS算法及其局限性的评价本研究的第一个目的是评估效率和突出的缺点,一些著名的先进算法,即MCOD,Abstract-C和Exact-Storm,属于'基于距离的离群值检测数据流'(DODDS)类。许多作品证明了它们的性能(Tran等人,2016;Poonsirivong和Jittawiriyanukoon,2017),特别是在记忆和时间消耗方面,但不幸的是,他们忽视了评估其局限性。因此,我们填补了这一空白,并证明了上述算法的缺点。为了说明它们的局限性,我们在每个算法中添加了代码来跟踪离群值的身份,并计算了它们的准确度,灵敏度,精度以及混淆矩阵(TP,TN,FP,FN)和未分类节点。作 为 每 个算 法 的 输 入 , 我 们使 用 了 来 自 UCI 存 储 库 的模 拟 流( Dheeru 和 Karra Taniskidou , 2017 ) 。 因 此 , 提 取 的 名 为“SpamBase_02_v01”的数据文件表示包含2897封电子邮件(包括88封垃圾邮件)的电子邮件样本。它被下采样到02%。最初,每个电子邮件记录包含57个连续实数值[0,100]的特征(称为属性或特性)。垃圾邮件和合法电子邮件的类别分布分别为(3,038%)和(96,96%)。通过表1中的实验结果,我们注意到以下缺点:精确度和灵敏度不足:研究算法的检测准确度约为80%。然而,这三个●●●F.- Z. Benzoun等人/沙特国王大学学报1179表1我们的评价的原始版本的研究算法。算法ACCPRFTPTNFPFN未分类MCOD80.36%9.42%24.68%13.63%58.02270.0392.011.0166.0风暴80.95%12.04%31.78%17.46%75.02270.0391.04.0157.0AbstractC81.53%12.46%33.63%18.18%75.02287.0387.08.0140.0算法显示出高达12.46%的有限精度和不超过33.63%的不饱和灵敏度。相当高的误报率:在总共2897封电子邮件中,我们发现至少有387封电子邮件被宣布为垃圾邮件,而它们是正常的电子邮件(即FP的13%)。此外,有4至11封电子邮件(FN的0.28%至0.38%)实际上是垃圾邮件,但研究的算法将其视为正常。未分类的实例:表1中的结果证明,所研究的算法无法为许多实例设置明确的状态。事实上,未分类节点的数量是MCOD 166例(5.7%),Exact-Storm 157例(5.4%),Abstract-C 140例(4.8%)。不幸的是,这一重要的缺点在以前的任何研究中都没有提到算法之间缺乏共识:从实验结果来看,我们注意到所研究的算法输出不同的离群值列表。遗憾的是,以往的研究忽视了这一问题的讨论。例如,一些患者将被使用MCOD的医生诊断为生病,而这些患者将被使用Abstract-C或Exact-Storm的医生3. 我们的方法在本文中,我们决定研究和改进以下高级算法MCOD,Abstract-C和Exact-Storm,因为它们在检测离群值方面的性能众所周知,并且它们也被一些开源平台如MOA(Bifet et et al., 2010年)。事实上,MCOD在DODSS算法中具有最高的性能,并且它优于最新的算法Thresh-LEAP(Cao等人,2014年)。此外,Abstract-C和Exact-Storm是众所周知的高级算法之一,可以有效地检测异常值,如Tran等人(2016)和Poonsirivong和Jittawiriyanukoon(2017)所证实的那样。然而,据我们所知,没有研究已经进行了详细的调查,他们的混淆矩阵,精度和召回,目前严重的弱点,见第2.3和4.3节。因此,我们努力填补这一空白,并通过最大限度地减少其缺点来增强每一种算法。因此,我们做出了两项贡献:首先,通过在现有的高级算法(MCOD,Abstract-C和Exact-Storm)的内部机制中引入生命周期状态(LiCS)的概念,提高了其次,设计了一种混合方法来检测离群值,该方法在准确率,精确率和召回率方面优于先进的MCOD,Abstract-C和Exact-Storms请参见第4.3.3节(关于乳腺癌检测的WBC)和第4.3.4节(关于垃圾邮件检测的SpamBase)中的实验结果。为了验证我们的方法并将其与现有解决方案进行比较,我们使用了点离群值和异常检测的标准和众所周知的评估措施(Aggarwal,2013)。3.1. 基于生命周期状态概念的算法改进算法MCOD、Abstract-C和Exact-Storms在线读取每个节点j都有不同的属性。读取并处理节点j,根据其到达时间的后续订单。通常,为了确定节点j的状态,这些算法在半径R中执行范围查询,并计算流S中每个节点j的最近邻居的数量。因此,在定义的窗口Wi中,如果节点j在至多R的距离内具有少于K个最近邻居(knn是阈值),则节点j是离群值。否则nodej是inlier。但是,由于2.3节中讨论的所有缺点,在其生命周期中计算节点j的邻居是不够的。为了解决这些问题,我们通过各种实验注意到,我们不是只考虑计数Knn来对节点进行分类(如在所研究的算法中),而是向前迈进了一步,并通过它们的生命周期监控这些最近邻居的状态。我们在这里解释我们提出的技术称为生命周期状态(LiCS)。更详细地,我们计算节点j通过不同的滑动窗口(Wj到Wj)与离群点相邻的频率。Wi + t),从它的到达到它的离开。因此,如果nOutlier超过nInlier(nOutlier> nInlier),则nodej被分类为outlier。否则,它就是一个内点。但如果(nOutlier ==nInlier),则nodej未被原始算法分类。根据我们的LiCS,该算法应该检查节点j是否仅是离群值的邻居,或者节点j是否是关于阈值K_nno的离群值(num-NeigOut)比内点(numNeigIn)更多的邻居(它是针对定义的节点j的最小数量的邻居的计数阈值,该节点j应该是离群值,以便确认sider节点j作为离群值)。实际上,在4.3.1节和4.3.3节中对两个真实数据集的实验结果证明,这样的信息可以揭示节点j落入异常节点的范围(或微集群)中,特别是如果节点j具有多于K_nno的异常值。结果表明,LiCS通过提高其准确性和灵敏度(TPR)以及减少未分类节点的数量来此外,LiCS具有轻量化操作。因此,实时结果仍然可以算法1的以下伪代码旨在通过集成我们提出的LiCS来改进现有的DODDS算法(参见图1)。①的人。3.2. 建议的混合解决方案为了检测定义的流中的离群值,我们的混合方法结合了基于高级微聚类的算法(MCOD)和基于距离的算法(Abstract-C和Exact-Strom),属于DODDS类别的结果。 作为先前的研究(Kontaki等人,2011; Tran等人,2016 ),我们使用基于类型计数的窗口(W)。输入:解决方案在线读取发送连续数据记录的数据流(S)(称为nodej)。节点j由每个算法根据其到达时间以随后的顺序处理参数:用户应调整这些参数K、R、W(Bifet等人,2010)来控制每个节点j的邻域密度。输出:混合解决方案根据三种DODDS算法的多数表决在线设置流中节点的最终状态。该解决方案基于多层次战略,定义如下:1180F.- Z. Benzoun等人/沙特国王大学学报2Fig. 1.基于LiCS概念的数据流实时节点及其邻居的处理。1. 预处理:预处理确保数据质量。它还有助于提高检测精度并减少时间和存储消耗。为了准备数据集,我们使用WEKA平台提供的过滤器(WEKA,2011)。有关所用技术的详细信息,请参见第4.22. 异常值检测:通过并行执行所选算法(MCOD,Exact-Storm和Abstract-C)来检测异常值。因此,它们中的每一个都通过各种滑动窗口启动其范围查询过程。该阶段定义来自流S的每个到来节点j的状态。在这一步中,我们使用了基于我们的(LiCS)原则的每种算法的新增强版本,以受益于其性能优势。3. 动态投票:以动态方式进行多数表决。事实上,投票是与离群值检测阶段并行执行的。更详细地,在检测阶段期间,从流nodejS读取的 每 个 nodej 由 MCOD 的 三 个 升 级 版 本 ( Abstract-C 、 Exact-Storm)中的每一个同时处理。因此,它们中的每一个都将nodej的最终状态输出为inlier、outlier或unclassified。最后,投票立即执行。4. 迭代更干净的数据:为了获得更好的结果,用户可以根据其数据流的类型选择添加投票迭代在技术上,在预定义数量的计数窗口中进行第一次投票后,该解决方案删除检测到的离群点,将内点和未分类的节点保存在模拟流文件中(SF),并使用此文件(SF)在更干净的数据上使用混合投票。有时一次迭代就足够了,有些数据需要更多的迭代来去除更多的隐藏离群值。额外的迭代需要更多的时间来获得更高的准确性。值得一提的是,多数表决具有不增加内存或时间消耗负担的这可以通过选择并行编程来并行执行算法来保证。4. 实验结果及分析4.1. 评价环境和标准所有实验都在具有Intel(R)Core(TM)i5、CPU 2.53 GHz和4 GB RAM的工作站上进行新方法是在Java和Eclipse Jee Photon中开发为了模拟的目的,我们使用MOA平台,我们修改,包括升级和所需的变化。出于实验目的,我们使用了来自UCI机器学习存储库的两种不同类型的数据集(Dheeru和Taniskidou,2017)。事实上,我们提取了一个垃圾邮件检测案例,包括2897封电子邮件,如第2.3节所述。我们还在威斯康星州乳腺癌数据库上测试了我们的模型。我们测试了我们的升级版本的算法,以及新的混合检测方法在各种流设置和不同的离群值率。F.- Z. Benzoun等人/沙特国王大学学报1181--4.2. 数据预处理通常,数据流S包括多个节点j。每个节点j都有一组称为属性的特征。例如,在WBC数据集中(Dheeru和Taniskidou,2017),部分属性是团块厚度、细胞大小均匀性、温和的染色质、有丝分裂。它们的数值在(Dolgikh等人,2014和Xiang等人, 2014年)。在预处理步骤中,首先,我们将从SpamBase和WBC导入的数据转换为ARFF格式。然后,使用WEKA应用程序版本3.8(WEKA,2011)对原始数据集应用许多过滤器。首先,在给定的数据集上应用称为归一化的无监督技术(Patro和Sahu,2015)。最小-最大规格化用于缩放整个属性值(要素)集,使其在数值上落入小的指定区间[0,1],因此具有相同的重要性。归一化是大数据挖掘中常见的预处理步骤,广泛用于帮助提高分类准确性(Patro和Sahu,2015)。其次,由于SpamBase的数据集包含许多缺失的特征值,我们使用WEKA的预处理选项并应用WEKA“ReplaceMissingValues”过滤器。它用数据数值分布的模式和方法来代替特征的缺失值。第三,由于我们的解决方案处理高维数据,我们选择了特征选择技 术 。 我 们 使 用 WEKA 选 择 属 性 选 项 。 因 此 , 过 滤 器CfsSubsetEval被应用为具有最佳优先搜索方法的属性赋值器选择全训练特征选择(或降维)被广泛用于高维数据。它的目的是选择每个流的相关特征。经证明,这是减少计算时间的重要预处理步骤(George,2012; Papadimitriou等人, 2007)用于许多大规模信息处理,例如分类(Yan等人, 2006年)。因此,我们对从SpamBase中提取的数据集应用了所有前面的预处理步骤,用于垃圾邮件检测,命名为SpamBase 02 v01。因此,我们得到了一个ARFF格式的流,其中包含2897个实例,包括88个离群值(垃圾邮件)和2809个内点(电子邮件)。在特征选择之后,流包括13个属性(特征)而不是57个属性。从WBC中提取的乳腺癌数据集总共包含该数据集仅包含9个特征,因此无需应用特征缩减。因此,在这种情况下,首先最后,将预处理后的数据流作为.arff文件加载到MOA框架中,在该框架中,我们对此类模拟流应用检测算法。使用类标签来评估每个算法的检测性能。4.3. 仿真结果4.3.1. 使用LiCS进行乳腺癌检测时的改进使用从WBC数据集提取的模拟流作为每个所研究算法的输入,其中699个患者记录包括241个患有乳腺癌疾病的患者表2证明了在所研究的算法中集成LiCS概念以获得更好的结果并改善癌症检测的重要性事实上,表2强调了MCOD,Abstract-C和Exact-Storm(集成了我们的LiCS概念)的升级版本的准确性与旧版本相比分别提高了5.15%,4.72%和4.72%事实上,如表2所示,升级版MCOD的准确度为89.56%,而旧版MCOD的准确度为86.41%升级后的Abstract-C和Exact-Storm的准确率为91.27%,而不是旧版本的86.55%。当FN的成本很高时,召回率(也称为灵敏度或TPR)是一个有效的指标。事实上,如果有传染病患者,垃圾邮件或欺诈性交易(实际为阳性)将被预测为阴性。后果可能很糟糕。从表2中可以看出,当使用基于我们的概念LiCS的新版本的MCOD、Abstract-C和MCOD时,召回率增加了(2.07%,1.24%,1.24%)。召回率的增加意味着新版本在将实际阳性数据标记为阳性方面优于其原始版本。因此,当使用集成了我们的LiCS概念的升级算法时,错过了更少的癌症病例。因此,当使用我们的概念LiCS时,更多的实际患病患者被报告为阳性。此外,由于使用新算法进行乳腺癌检测的特异性也增加了(3.71%; 6.55%; 6.55%),这意味着更多的阴性患者记录被正确地分类为阴性。另一个重要因素是,使用升级版本时,MCOD的未分类患者记录数量减少了4,72%,Abstract-C和Exact-Storm减少了6,29%,总共减少了699个实例。这意味着医生可以从使用基于LiCS概念的新版本进行分类的额外患者记录中受益。4.3.2. 使用LiCS进行垃圾邮件检测在这一小节中,我们提出的结果,垃圾邮件检测使用增强的算法,集成了我们的LiCS概念。为此,我们使用从SpamBase数据库中提取的ARFF格式的模拟流作为输入,该数据库共有2897个电子邮件日志,包括88个异常值(垃圾邮件)。表3比较了每个算法的原始版本和集成了我们的原则(LiCS)的相应升级版本之间的所有检测指标。值得一提的是,虽然MCOD,Abstract-C和Exact-Storm的原始版本显示出96%以上的高准确性。我们的改进版本,集成了LiCS概念,成功地超越了这些先进的算法,我们获得了额外的增加准确度+0,42%的MCOD,+0,76%的精确,表2将改进的算法版本与其原始版本以及所提出的用于乳腺癌检测的混合模型的结果(WBC数据集。窗口大小10)进行比较。算法精度召回精度特异性F-measure未分类的患者记录老MCOD86.41%95.02%84.81%81.88%89.63%7.58%新MCOD89.56%97.10%81.82%85.59%88.80%2.86%老E·斯托姆86.55%95.44%84.87%81.88%89.84%7.44%新风暴91.27%96.68%82.92%88.43%89.27%1.14%旧摘要C86.55%95.44%84.87%81.88%89.84%7.44%新摘要C91.27%96.68%82.92%88.43%89.27%1.14%混合模型92.42%99.17%82.41%88.86%90.02%0.14%Diff Hybrid模型和旧MCOD DiffHybrid模型和旧Abstract-C+6,01%+5.87%+18,25%+17,90%+6,99%+6,99%-2.40%-2.46%+7,20%+6,99%-7.44%-7.30%1182F.- Z. Benzoun等人/沙特国王大学学报表3在SpamBase数据集中,比较每个算法的原始版本与我们基于LiCS和混合模型的增强版本之间的性能指标。(Windows大小10)。算法精度召回精度特异性F-measure非机密电子邮件老MCOD96.65%23.86%65.63%98.93%百分之三十五1.24%新MCOD97.07%32.95%百分之五十八99.07%42.03%0.48%老E·斯托姆96.69%百分之二十五66.67%98.93%36.36%1.21%新风暴97.45%35.23%65.96%99.39%45.93%0.10%旧摘要C96.69%百分之二十五66.67%98.93%36.36%1.21%新摘要C97.58%45.45%65.57%99.22%53.69%0.03%混合模型97.89%54.55%70.59%99.25%61.54%0.03%Diff混合模型与Abstract-C+1,20%+29,55%+3.92%+0.32%+25.18%0%的百分比Diff hybrid和MCOD+1,24%+30,68%+4.96%+0.32%+26.55%-1.21%Storm和+0,89%的Abstract-C与其相应的原始版本相比。我们的生命周期状态原则LiCS的另一个重要成就是,它提高了算法在检测异常值(特别是垃圾邮件)时的召回率或灵敏度从表3中可以看出,当使用基于LiCS概念的MCOD、Exact- Storm和Abstract-C的新版本时,垃圾邮件检测的召回率增加了(9.09%,10.23%,20.45%)。因为垃圾邮件数据集具有均匀的类分布。准确性度量由大量的TN(合法电子邮件)贡献,并且因此有用但不足以评估模型。在这种情况下,我们使用F-measure来检查精度和召回率之间是否存在平衡。由于使用我们的新版本MCOD、Abstract-C和MCOD时,F-测量值分别提高了(7.03%,9.57%,17.33%),因此f-测量值证实了LiCS对提高离群值检测和垃圾邮件有积极贡献一个限制是,与原始版本相比,新版本的精度略低(因为降低了0.71%至7.63%)。但是,它在很大程度上通过准确性,召回率,特异性和f-测量的改进来补偿。除了有利地减少未分类的电子邮件之外。根据实验模拟,新的MCOD,新的精确- Strom和新的抽象-C成功地正确分类的未分类的电子邮件分别为50%,这些结果证明LiCS是有效的,因为它使这些高级算法能够检测更多的离群值(作为真正的垃圾邮件)和更多的内点(作为合法的电子邮件)。4.3.3. 使用混合模型进行乳腺癌检测时的改进在接下来的部分中,我们比较了所提出的混合投票方法与旧版本的Abstract-C,MCOD和Exact-Storm的性能。作为算法的输入,我们使用了从WBC数据集中提取的相同模拟流,其中包含699条记录,包括241名患者。表2所示的结果证明,当使用基于三次迭代的混合投票策略时,检测乳腺癌的准确性提高了5.87%至6.01%。事实上,混合解决方案的准确率达到92.42%,而不是Abstract-C和Exact-Storm的86.55%和MCOD的86.42%。混合方法在检测垃圾邮件时的召回率为99,17%,而MCOD仅为80,92%,Abstract-C和Exact-Storm仅为82,27。与原始算法相比,召回率也增加了17,90%至18,25%。这种重要的增加,在召回证明了混合解决方案优于原来的算法,在检测更多的癌症病例。从仿真结果中,我们还注意到,我们的混合解决方案的基础上投票和新版本的算法,集成了LiCS的概念,表现出更好的特异性和更好的F-措施与原始算法MOCD、Abstract-C或Exact-Storm相比。事 实 上 , 如 表 2 所 示 , 特 异 性 增 加 了 6.99% ( 88.86% 而 不 是81.88%),这样的结果表明更多的健康患者被正确地分类为阴性。由于F-测量(F1评分或调和平均值)达到90.02%(而不是原始算法的83.03%)。这证实了在检测特定乳腺癌病例和一般离群值时,召回率和精确度之间的平衡得到了改善。使用混合模型的另一个重要优点是,未分类的患者记录的数量减少了7.44%。事实上,与原始版本和基于MCOD、E-Storm和Abstract-C的LiCS的这意味着医生可以从使用混合模型正确分类的额外患者记录中受益。4.3.4. 使用混合模型进行垃圾邮件检测在该小节中,表3呈现了基于图2所示的过程之后的三次迭代的混合搜索的结果,以检测电子邮件日志流中的垃圾邮件。它通过测量通常用于离群点检测的已知性能指标(准确性,召回率,精确度,特异性和F-测量),将混合解决方案与MCOD,Abstract-C和Exact-Strom的原始版本进行比较,所有这些都基于计算混淆矩阵(TP,TN,FP,FN)。我们还比较了混合模型的性能方面的总节点,仍然未分类。作为输入,我们使用从UCI提供的垃圾邮件库中提取的ARFF格式的模拟流。提取的文件包含2897个电子邮件日志,包括88个异常值(垃圾邮件)。表3中的结果表明,混合投票,整合我们的LiCS概念,甚至优于原始算法的性能,在检测垃圾邮件时具有96%以上的高准确性事实上 , 当 对 2897 个 电 子邮 件 日 志 的模 拟 流 进 行测 试 时 , 与 旧的Abstract-C和旧的Exact- Storm相比,混合解决方案带来了额外的准确性增加(+1,20%),与旧的MCOD相比,准确性增加(+1,24%)。事实上,混合解决方案实现了97.89%的准确度,而不是Abstract-C和Exact-Storm的96.69%和MCOD的96.65%。与原始算法相比,召回率也增加了29.55%至30.68%。这种重要的增加召回证明了混合解决方案优于原来的算法在检测更多的垃圾邮件。从模拟结果中,我们还注意到,我们的混合解决方案的基础上投票和新版本的算法,集成了LiCS的概念,表现出更好的特异性和更好的F-措施相比,原来的算法MOCD,抽象C或精确风暴。事 实 上 , 如 表 3 所 示 , 特 异 性 增 加 了 0.32% ( 99.25% 而 不 是98.93%),这样的结果表明,更多的合法电子邮件被正确地分类为负面(内点)。由于F-测量(F1评分或调和平均值)达到F.- Z. Benzoun等人/沙特国王大学学报1183图二. 基于分布式多算法检测和迭代多数表决的离群点检测混合模型。61,54%(而不是原始算法的35,00%)。这证实了在查全率和查准率之间有一个更好的平衡在检测垃圾邮件在特定和离群一般。事实上,原始版本的一个重要缺点是,MCOD显示36封未分类的电子邮件,而Abstract-C和Exact-Storm显示35封未分类的电子邮件。相反,我们的混合解决方案只有一个1未分类的电子邮件。这意味着混合解决方案在正确分类更多的电子邮件(通过将其状态设置为垃圾邮件或正常电子邮件)方面优于那些研究的算法。4.4. 我们的方法与现有解决方案的比较在这一部分中,我们将我们的方法与其他现有解决方案进行比较:我们称为LiCS的概念不是寻找新的有效方法来检测离群值,而是增强了广泛实现的高级算法的检测能力(例如,他们的事迹,都是以他们的这是通过在其内部机制中添加一层该层首先通过多个时间窗口在线分类每个节点的k近邻KNN的演化状态然后,它聚合结果以更好地定义节点的状态。因此,数据分析师可以使用我们的增强版MCOD、Abstract-C和Exact-Storm来检测离群值(例如,垃圾邮件,癌症,异常),具有更好的准确性和精度(见第4.3节中的模拟结果)。他们还可以受益于更少的未分类节点在测试阶段,当使用其他方法时,数据分析师依次尝试许多解决方案,以选择最适合其用例的解决方案。我们的方法能够调整参数和比较的结果,许多算法在一个试验,从而节省时间。数据分析师可以选择三种以上算法的变体,而不是使用一种单独的算法(即;KNN、基于距离的算法、基于微簇的算法)并执行它们。事实上,所提出的混合解决方案使用并行处理和算法的在线投票的能力,Rithms正如通过模拟所证明的那样,该投票提高了检测离群值的准确性、召回率和精确度(参见第4.3.4节的垃圾邮件检测)。一些现有的解决方案,例如(Markad等人,2017)使用离群值得分作为选择离群值的最后一步。相反,我们的方法使用一个计数阈值(Knno)作为离群节点的最近邻居。在输出中,我们的方法不是根据每个解决方案获得不同的离群值/内点列表,而是能够从多个解决方案中实时获得一个统一的结果关于扩展,我们的混合解决方案是通用的。它可以被扩展以集成其他基于距离的算法(LUE、DUE、COD和Thresh LEAP(Cao等人,2014))和其他类型(密度或机器学习算法)。我们的方法,如基于机器学习的方法(Doan,2017),使用训练阶段来准备数据并调整参数以获得最佳结果。下面的表4比较了一些现有的解决方案和我们基于几个标准的方法。4.5. 结果讨论通 过 我 们 对 从 UCI 存 储 库 ( Dheeru 和 Karra Taniskidou ,2017)中提取的两个数据集进行的各种实验,使用乳腺癌数据集检测癌症或SpamBase检测垃圾邮件,并通过第4.3节中提供的性能指标,我们注意到以下几点:首先,集成LiCS原则的MCOD、Exact-Storm和Abstract-C的增强版本中的每一个在准确性、召回率、特异性方面都优于相应的原始版本。例如,医生可以以更高的准确性(91.27%)、更高的灵敏度(96.68%)和更好的特异性(88.43%)检测癌症疾病这些改进也通过垃圾邮件检测实验得到了证实。总之,为了检测数据流中的点离群值或异常,建议使用基于LiCS的改进版本的算法而不是其原始版本。因为●●●●●●1184F.- Z. Benzoun等人/沙特国王大学学报表4不同方法和我们的方法的比较引用特征选择离群值得分使用的算法解决方案的目标和优势我们的方法基于LiCS技术和投票(Markad等人,2017年)(Shou等人,(2017年)XXX Sum of k-k-最近邻的XX前n点基于最近邻和微聚类的各种算法。它使用投票来聚合多个算法反向最近邻聚类和局部密度用于在具有不同数据类的高维流中进行离群点检测。它是可扩展的,以集成其他类型的算法。它优于MCOD、Abstract-C和E
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功