没有合适的资源?快使用搜索试试~ 我知道了~
软计算快报3(2021)100027基于粗糙熵加权密度的混合数据集离群点检测的模糊贴近T.吉塔·玛丽·桑吉塔*计算机科学与工程学院,Vellore技术学院,Vellore632014,TamilNa'du,印度A R T I C L EI N FO关键词:数据挖掘熵模糊近似混合数据粗糙集加权密度A B标准数据挖掘是一项新兴技术,研究人员在不同领域探索创新思想,特别是检测异常。在数据集中,通过它们的共同模式而显著偏离其他数据集的数据集被称为异常。在这个自然界中,存在着模糊不清、无法提供确定性数据的状态。粗糙集理论是一种有效的处理模糊性和不确定性数据的方法.到目前为止,已经完成的研究工作都集中在数值或分类类型上,当属性是混合类型时,这将失败。利用模糊贴近度和排序关系,将数值型数据转化为分类型数据。提出了一种混合数据中离群点检测的思想,即计算属性和对象的加权密度值。以招聘数据集为例,将该方法与现有的离群点检测方法进行了比较,并以哈佛数据集为基准,验证了该方法的有效性和性能。1. 介绍数据可以被定义为任何物质、数字或内容,可以被系统轻松处理。如今,公司拥有各种类型和方面的大量数据。它包括操作信息,如股票和金融,非操作信息,如天气预报和货币信息,以及Meta信息(关于信息本身的信息),如不同数据库的设计或字典中给定单词的定义[3]。数据建模或提供这些对象之间的链接将提供一些信息。销售点系统提供关于产品何时被销售的信息。这些信息可以根据以前的事实和未来的预测转化为知识。销售点系统可以通过了解客户的购买行为来改进。近年来,大量的数据采集聚集在超市,卫星产生的图像和网络系统中的数据[29]数据集可能包含未遵守正常行为或偏离其余对象被称为离群值[11]。数据集可以由数字、分类或混合类型的数据组成。它还暗指发现信息系统中不符合预期行为的设计。幻觉也被认为是异常的,不和谐的知觉,豁免、问题、放弃、扭曲、混乱或各种应用领域中的污染物。在早期,离群值被视为噪音或例外而被丢弃。异常可能表明信息错误。例如,信息可能被错误编码,或者分析可能没有准确运行[16]。如果偏离点是错误的,那么它可以被纠正或从数据集中删除。可能无法想象确定一个外围点是否具有无效信息。如果信息包含关键异常,我们可能需要考虑使用强大的可测量系统[6]。但如今,识别异常值将非常重要。因为有时它可能包含一些有价值的信息。识别主要领域的异常值至关重要,例如滥用手机和信用卡活动等犯罪活动,恶性肿瘤的模式识别,第三方存在的安全通信,飞机发动机故障和人工智能[2]区域内异常由基于密度的和区域间异常通过基于距离的方法确定[10]。此外,可以在例外情况下识别离群值并生成新模式。大多数聚类技术提供有效的离群点检测而不是分类方法。统计方法,概率模型,也将用于确定离群值[17]。离群值分为两类报告:* 相应的电子邮件:电子邮件地址:geethamary. gmail.com(G. 玛丽(A)。https://doi.org/10.1016/j.socl.2021.100027接收日期:2021年5月24日;接收日期:2021年10月10日;接受日期:2021年11月11日2021年11月18日网上发售2666-2221/©2021的作者。发表通过ElsevierB.V.这是一个开放接入文章下的CCby-NC-ND许 可 证(http://creativecommons.org/licenses/by-nc-nd/4.0/)中找到。可在ScienceDirect上获得目录列表软计算快报杂志首页:www.sciencedirect.com/journal/soft-computing-lettersT. Sangeetha和G.玛丽一个软计算快报3(2021)1000272=RT∈==Fig. 1. 离群值检测的不同方法。被视为正常对象,并且未被标记的其余对象被标识为离群值。通过固定阈值来确定离群值的程度,为每个模式分配离群值分数[18]。 如果存在大量的噪声,数据的相似性就不能得到相应的度量。但相似性测度和密度测度并不适用于高维数据[8]。目前,研究人员正致力于检测高维数据中的异常值。因为进行了大量工作来检测定性和定量数据的离群值[23]。所提出的方法可能适合混合数据具有高水平的显着性。离群值检测技术的不同方法如图所示。1.一、2. 离群点检测方法2.1. 监督方法该技术显示数据的一致性和异常性。专家将相似对象和不协调普通对象模型的对象标记为异常或离群值[1]。正常数据对象比异常数据对象出现得多。这种方法有两类(正常和异常值),这是不平衡的。用于训练的少量样本数据不适合用于离群值分布。但是,不应该允许将真实对象标记为离群值。它比异常值检测更重要。2.2. 无监督的方法在一些应用中,不将对象标记为“通常”或“例外”。因此,必须使用无监督学习技术。聚类可以在正常对象和离群对象之间进行[9]。偏离正常行为的对象形成一个集群,其余对象属于正常类别。无监督策略中的问题是,有时不属于任何组的数据可能被认为是噪音,但不是离群值[35]。此外,首先设计集群并发现异常通常是昂贵的。通常预期异常对象比被认为是正常的对象远2.3. 半监督方法它 可以 被 观看 作为 的 利用 的 半监督学习战略布局特别是,在访问标记对象时,可以使用它,或者通过为普通对象准备布局来与较近的未标记对象一起使用。普通对象在该点的布局可以用来识别离群值-不适合正常对象布局的项目是异常[4]。为了增强异常定位的性质,可以从无监督策略模型中获得帮助。3. 粗糙集理论与模糊近似空间在20世纪80年代,波兰数学家Zdzislaw Pawlak[27]开发了一种数学工具,称为具有上下近似概念的粗糙集,它具有清晰集。然而,它不需要关于相关数据的任何先验或额外信息模糊和不确定的数据之间存在粗糙集方法证明了这两个概念之间的明确联系。模糊性与集合有关,而不确定性与集合的粗糙集的数据分析使用具有结构化行和列的决策表[12]。表的列是分为两组的属性:条件属性和决策属性。每一行都指定一个对象,该对象会导致某个决定或结果。如果满足某些条件,则决策规则是确定的;否则,它是不确定的.这也暗示了相似性的思想。 让我们考虑一下-形成表IT(W,X,Y,Z)其中W是应该非空的论域,X是属性集,Y和Z是条件和决定性属性[13]。W的组成部分是对象、实体、项目或调查。属性也被表示为特征、方面或特性。假设S(V,RT),则子集Y<$V和等价关系IND(S). X的子集,例如下近似和上近似,定义如下:RTY=<${X∈V/RT:X<$Y}RTY{X∈V/RT:XY=}或x∈RTX当且仅当[x]RT<$Xx∈RTX当且仅当[x]RT<$X=scin0由此,边界(X)=RT X-RTX将被称为X的RT边界。边界集包含在上近似中,但不包含在下近似中。粗糙集是通过较低的T. Sangeetha和G.玛丽一个软计算快报3(2021)1000273∈∈图二. 设置评估和上部近似。此外,边界区域是空集(RT X闪烁= RTX)。3.1. 隶属关系与近似隶属关系是由近似空间导出的。成员资格和集合评价都只与知识有关[28]。表示如下所示:l∈TLthenl∈TLlT ∈Lthenl∈TL其中,T表示“对于T,l肯定属于L“,T表示”关于T,l可能属于L“,分别是下隶属关系和上图2描绘了集合近似。3.2. 模糊粗糙近似空间一般来说,模糊集用于处理模式的可理解性、不完整和噪声数据、多媒体信息以及在确定的时间内快速解决人与人之间的相互交流等问题[14]。Z中的模糊集B的最小和最大逼近为Z中的模糊集T↓B,T↑B(T↓B)(r)=infs∈S(R(s,r),A(s))(T↑B)(r)=sups∈ST(R(s,r),A(s))T ↓ B和T ↑ B也可以分别确定为B中包含了多少Tr以及Tr和B的重叠量[10],这与r∈T ↓ Aonly [r] T<$B和r∈T↑Bonly[r]T<$Bscin=0有关。4. 相关工作数据集根据不同的标记技术进行不同的聚类。要与这些形成的不属于任何聚类的聚类进行比较的数据项对于单类分类,使用支持向量数据描述(SVDD)方法。它确定了一个超球面,该超球面包括其空间内的所有正常数据。位于超球面之外的物体被称为离群点。在k-means聚类中,在特征向量下被发现相似的对象被形成聚类,并且任何不属于任何聚类的对象都是离群值。在局部离群因子方法(LOF)中,对象与其邻域点的相对距离是来计算。如果该值具有高偏差,则其为离群值[34]。多变量离群点检测(MOD)是一种传统的离群点检测策略它经常表明那些通常被认为远离所分发信息的焦点的看法。对于这种检测,执行一些距离测量[19]。马氏距离是一个突出的规则,它依赖于评估的参数的多元分布。粗糙隶属度函数也用于从真实世界数据集中检测离群值。最受欢迎的基于距离的方法之一是曼哈顿距离。当阈值增加时,该技术的性能优于统计方法和基于距离的方法。通过选择合适的阈值可以提高检测效率。聚类技术比基于距离的方法提供了更高的准确性[37,38]。可以通过使用围绕中心点的分区(PAM)来构建小集群,以检测数据集中的离群值。在神经网络中,数据将被训练和测试。它用于消除模式中的歧义,也是从大型数据库中检索知识的有效工具。结合神经网络的粗糙集方法被很好地一个反向传播算法已采用粗糙集,以避免数据之间的不一致。神经系统学习模型使用反向传播。神经生物学家和治疗师最初点燃了这个领域,以创建和测试神经元的计算模拟。神经系统被安排成使得输入/产出单元与与其相关的权重相关联[25]。反向传播通过迭代地准备元组的信息索引来学习,这将系统对单个元组的期望与已知目标进行对比。客观目标可能是准备元组(特征化问题)或一致实例(预测)已知的类名。每个准备元组都有改变的权重,以限制系统期望值和实际目标实例之间的均方值误差粗糙熵被用来度量数据的不确定性。使用加权密度值计算每个对象和属性以检测离群值。但数据的聚类尚未完成[21]。聚类方法可以通过使用带有初步质心选择方法的RKM(粗糙K均值)来改进[22]。 聚类有效性指标将通过改进的基于熵的粗糙K均值(ERKM)方法获得。在多粒度粗糙集中,决策由“与”逻辑变为“或”逻辑。当两个属性具有T. Sangeetha和G.玛丽一个软计算快报3(2021)1000274表1不同离群点检测方法S.离群点检测没有方法优势劣势1支持向量数据描述它可以在较小的样本量中很好地检测离群值,并对更复杂和稀疏的数据集产生有效的结果如果样本量变得更大,则异常值检测是困难的。2k均值聚类即使数据集很大,离群点检测也是可能的一般来说,离群点是要被丢弃的,但是在这种方法中,离群值形成单独的组。3局部离群值因子(LOF)距离最小的点被视为聚类的离群值,在一个更密集的层面上。但在一般的离群点检测方法中,距离最小的点不会被认为是离群点。将调整阈值以检测离群值。阈值的固定将基于问题和用户。4多变量异常值检测(MOD)它检测n维空间中的异常值(n个特征)。找到n维空间的分布是困难的,所以需要对数据集进行训练。5围绕中心点分区(PAM)与其他可用的划分算法相比,PAM方法选择k个medoids是随机的;它对相同的数据集给出了不同的结果6反向传播方法不需要对数据有更深入的理解对噪声数据特别敏感。7Rough k Means(RKM)加权密度方法使用高斯函数来检测vague数据集当分离对象是重叠的集群之间,该方法是敏感的。8熵粗糙k均值(ERKM)有效地去除离群值,这导致质量聚类的形成。基于粗糙k均值方法(RKM)的质心选择是随机的矛盾和不一致,使用了粗糙集框架的多粒度[40]。因此,它需要有效的计算。传统的离群点检测方法是统计方法,仅适用于一维数据集。该模型适合可感知的真实世界数据集,其中分类数据已转换为数值数据,用于统计方法的处理[5]。因此,它增加了处理复杂数据集的时间。简单的离群点检测方法不需要数据处理的先验信息,是基于近似的技术。但是,计算所有对象之间的距离会导致高指数增长。对象的数量n和它的维数m与它的时间复杂度成正比所以它不适合高维数据参数方法适用于较大的数据集,因为它具有内置的分布模型。如果任何模型都符合规定的数据集,那么结果将是准确的。数据模型随着范式的复杂性而增长,而不是随着数据的大小而增长。唯一的条件是预定义的模型应该适合可用的数据集。非参数方法需要先验信息进行处理。在某些情况下,先验知识不可用,或者计算成本很高[32]。许多数据集不仅使用确定的数据模型,而且还遵循随机分布模型。它可能适用于回归和主成分分析方法。在预处理阶段,要进行参数设置,然后再进行处理。一个外在的知觉,或者说异常现象,似乎与它发生的其他个体有着异乎寻常的差异。一个感知(或感知的子集)给人一种与其余数据相冲突的印象[24]。EXCEPTIONS被定义为焦点位于集群之外,但同时与噪声隔离[30]。具有定义明确的正常行为概念的模式(未得到确认)是离群值,并且网络结构的区域与正常行为下的预期不同[26]。社交网络异常检测专注于机器学习和统计领域开发的离群值检测技术[31]。通过系统调用提出了带有异常检测的入侵检测[33]。首先,评估决策者对每个选择的偏好,并引入预决策的概念,导致不完整的模糊决策系统[43]。然后,使用定义的相似关系,确定加权条件概率。接下来介绍相对效用函数的概念,然后介绍确定相对效用函数值的方法。然后,在不完全模糊决策系统中,我们建立了一个三路决策模型,并将其应用于不完全多属性决策问题的建模[44]。在IFVIS(直觉模糊值信息系统)中,替代分选决策程序 包括减去直觉模糊数、排序函数和亲密度系数[45]。我们为每个备选方案创建了优先级集,并提出了一个混合信息表,其中包括多属性决策矩阵和损失函数表。多属性决策(MADM)是现代决策科学的重要组成部分[46]。多尺度决策信息系统中包含了一种三方决策,为解决多尺度决策信息系统中的多属性决策问题提供了一种新的途径[47]。此外,还对数据挖掘方法在离群点检测中的应用进行表1显示了不同离群值检测方法的优缺点。5. 该模型离群点检测是一种重要的数据挖掘技术,在不同的研究小组和应用领域都有重要的考虑。已经创建了许多方法来识别异常值,但仅限于数值数据。这些方法不能直接应用于分类数据。因此,引入模糊近似关系将数值数据转换为分类数据[36]。然后计算每个对象和属性的密度和不确定性。对于稳定的数据集,阈值的固定性较高,而对于不稳定的数据集,阈值的固定性较低,从而极大地去除了离群点,提高了数据挖掘算法的执行效率。在图3中,在预处理阶段,通过在后处理中使用模糊邻近关系将混合数据转换为分类数据最后,提出了一种基于粗糙集熵的加权密度离群点检测方法。5.1. 基于Roughset熵的加权密度离群点检测算法数据集可能包括缺失数据和一些负值和空值,这些值是离群值。因此,数据集被定义为模糊和不完整的。为了处理这种情况下,粗糙集与加权密度为基础的离群点检测方法。在预处理阶段,利用模糊贴近度关系将数值型数据转化为分类型数据,然后对其进行排序。在后处理阶段,利用不可分辨关系识别属性的相似对象,并利用互补熵测度计算属性的不确定性值,通过识别不可分辨对象除以每个属性的对象总数计算加权密度值.最后,用户固定阈值。如果计算值小于阈值,则将它们视为离群值对象。当表格从混合类型转换为分类类型时,以下定义将用于检测离群值,T. Sangeetha和G.玛丽一个软计算快报3(2021)1000275==)的文件IND(RT)==|R||R|∑ .Cj).oi+oj)其讨论如下:图三. 提出了一种基于粗糙集的离群点检测模型。如下所示:定义1:A. 数据集DS由三元组DS定义 (Z,R,C,其中Z表示宇宙,R表示对象,C表示数据集中的属性。定义2.让DS(Z,R,C)和RT ∈ C。的不可分辨关系R中R或C中s的RT表示为{Z|IND(R T)}={[r]RT|rZ}定义3:让。DS=(Z,R,C),RT=C,Z={C1,C2,…C 相对于RT的互补熵(CPE)被定义为:加权密度(C)=Σ。平均密度y.Rj),Z(C))riR定义6.让我们考虑数据集DS(Z,R,C),并且θ是来自加权密度对象的固定阈值。如果加权密度(R)θ的值,则r被称为离群值。6. 招聘数据集的实证研究一个虚构的混合数据集“招聘”被设计为具有四个条件属性度,EX经验,法国和参考,用于有效的nCc建议的方法。属性经验具有数值,并且CPE(RT)=∑|C|||Jj=1的 其余属性 等 度, 法语和参考文献有其中Cc表示Cj的补集,Cc=R-C来检测异常值但是,我们提出的方法使用模糊接近关系,将数字数据转换为分类数据。FPR(oi,oj),定义4.设DS(Z,R,C),C的每个属性的权重定义为:1 -CPE(RT)利用该公式推导出数值型属性经验的二元关系,求出对象之间的几乎相似&性。FPR。oi,oj)=1-oi-oj定义5:每个属性的平均密度将被确定为基于计算值,对属性经验进行排序。所提出的算法已被应用到这个数据集,以检测离群值和图形也已绘制使用的标称值。提交人平均密度y.Rj)=[Rj]C|Z|通过比较现有的方法与所提出的租用数据集的方法进行了评估。包含10个对象和10个属性的hiring数据集如表2所示,表3显示了模糊由此,每个对象的加权密度将被确定为属性经验的近似关系分类值。有许多算法可用于数值数据重量(C)=nj=1T. Sangeetha和G.玛丽一个软计算快报3(2021)1000276≥1/----1010101010105010101010501表217 29招聘数据集-混合类型属性权重(程度)=54;属性权重(经验)=54属性权重(法语)=26;属性权重(参比品)=1754 54每个对象的权重应该通过属性权重与不可识别对象的乘积的总和来计算。W(E14173296263170的情况。六十七岁;)=10× 54+ 10× 54+ 10× 54+ 10× 54=设几乎不相容性为ω90%,从表2中可以看出,对象E1,E2,E5是ω-相同的。类似地,E3、E4、E6、E7、E8、E9、E10是ωU Rω={{E1,E2,E5},{E3,E4,E6,E7,E8,E9,E10}}基于ω的相似度值,将属性经验排序为两组。对象E1、E2、E5的属性经验的数值具有更大的值。因此,它被分类为高,其余对象E3,E4 , E6, E7 , E8 , E9 , E10 被分类为低。现在,numeric类型的experience属性被转换为categorical,如表4所示。获取每个属性的不可分辨关系。具有不可识别属性值的对象包括:U/IND(学位)={E1,E4,E7,E10},{E2,E3,E8},{E5,E6,E9}U/IND(经验)={E1,E2,E5},{E3,E4,E6,E7,E8,E9,E10}U/IND(法语)={E1,E2,E5,E6,E7,E10},{E3,E4,E8,E9}U/IND(参考)={E1,E7,E8},{E2,E4,E5,E9},{E3,E6,E10}利用所得到的不可分辨关系,计算出每种属性的互补熵函数CE(度)=4(1-4)+3(1-3)+3(1-3)=33W(E2)= 0. 67;W(E3)= 0. 75;W(E4)= 0. 82;W(E5)= 0. 六十七岁;W(E6)= 0. 85; W(E7)= 0。88; W(E8)= 0。75; W(E9)= 0. 七十八;W(E10)= 0。88.如果θ 0.7,则对象E1、E2和E5是异常值。<正常和异常对象如图所示。 四、7. 实验结果混合数据集中离群点检测算法的工作模型将通过在具有120个对象的雇用数据集上进行实验来理解,所述对象具有数值和类别值的四个条件属性。它已经实现了处理器英特尔笔,1GigaByte RAM,和Windows10操作系统。使用Rapid Miner 7.0分析了基于距离、基于密度、局部离群值因子和类离群值因子等EX检验方法。粗糙集的概念是用C语言实现的。它是一种灵活的语言,用于实现数学模型。该算法已运行在一个招聘数据集,是混合型。采用模糊近似关系法将数值转化为分类值,然后进行排序。基于粗糙集熵的加权密度离群点检测表4已转换表CE(经验)=3(1-3)+7(1-7)=21CE(法国)=24;CE(参考)=3350 50用互补熵函数将属性总数相加,计算出各属性的权重表3模糊贴近度关系-经验属性R1E1E2E3E4E5E6E7E8E9E10E11 .一、00000.90530.79070.64940.91230.7470.59460.76200.68360.6316E20.90531.00000.88320.73530.81910.83790.6770.85340.77150.7165E30.79070.88321.00000.84750.70840.95390.78580.96970.88530.8276E40.64940.73530.84751.00000.57480.89290.93620.87720.96160.9796E50.91230.81910.70840.57481.00000.66670.52390.68090.60680.5582E60.7470.83790.95390.89290.66671.00000.83020.98420.93110.8728E70.59460.6770.78580.93620.52390.83021.00000.81490.8980.9566E80.7620.85340.96970.87720.68090.98420.81491.00000.915308572E90.68360.77150.88530.96160.60680.93110.89800.91531.00000.9412E100.63160.71650.82760.97960.55820.87280.95660.85720.94121.0000对象程度经验法国参考E1MBA五、2是的优秀E2MSc4.3是的好E3MSc3.4没有中性E4MBA2.5没有好E5MCA6.2是的好E6MCA3.1是的中性E7MBA2.2是的优秀E8MSc3.2没有优秀E9MCA2.7没有好E10MBA2.4是的中性对象程度经验法国参考EMBA高是的优秀E2MSc高是的好E3MSc低没有中性E4MBA低没有好E5MCA高是的好E6MCA低是的中性E7MBA低是的优秀E8MSc低没有优秀E9MCA低没有好E10MBA低是的中性T. Sangeetha和G.玛丽一个软计算快报3(2021)1000277见图4。 显示正常和异常对象。图五、 E-x射线方法与建议方法的对比图方法已被应用于有效的离群检测。图5示出了用于离群值检测的现有方法和所提出的方法的比较图。在基于距离的离群点检测方法中,每个数据点已经基于到其第k个最近邻的距离进行了排序[39]因此,前n个数据点被声明为离群值。它检测到10个异常对象。在基于密度的离群值检测方法DensityBased(p,P)中,偏离p至少P距离的对象,所有数据对象的比例被认为是离群值。此方法不会检测任何离群对象。在局部离群因子方法中,每个对象都应该基于局部密度度量使用局部离群因子来计算。然后将它与它们的l个最近邻居进行比较[41]。当与它们的邻居相比时具有较低密度值的对象被称为离群值。它检测到七个异常值对象在类离群值因子方法中,样本中的每个数据点将根据ClassOutlierFactor=(S,N)进行排名,其中S表示顶级离群值,N表示最近邻的数量。该算法检测十个离群对象。此外,我们提出的方法粗糙集熵为基础的加权密度离群点检测方法检测离群点通过计算所有对象和属性的加权密度值。它检测到18个异常对象[42]。与现有方法相比,我们提出的算法的性能和效率都很高,因为它计算每个对象和属性的加权密度值,因此真正的对象永远不会被检测为离群值。各种异常值检测方法的比较图如图所示。 五、此外,已经从哈佛数据库中提取了基准数据集,如甲状腺数据集,乳腺癌数据集和字母数据集,以显示所提出的算法的效率,并将其与其他现有的离群值检测方法,如局部离群值因子(LOF),基于特征(FB),隔离森林(IF),K-T. Sangeetha和G.玛丽一个软计算快报3(2021)1000278====第1项=见图6。 提出的和EX S离群值检测方法与基准数据集的比较。最近邻(KNN),平均KNN和基于直方图的离群值(HBOS)。局部离群值因子通过其相邻对象的距离确定对象的密度。特征装袋选择的得分分类器的准确度被计算为被正确分类的对象的总数与可用对象的总数之比。计算精度的公式如下:子采样随机进行,并最终使用局部离群值因子来组合所有基本检测器的值。隔离森林通过构建树来观察数据[15]。孤立值分数被确定为out-精度TP+TNTP+FN+TN+FP这是非常适合于高维数据。基于直方图的离群值评分方法通过构造直方图检测离群值。它是一种无监督的学习方法,通过考虑独立的特征来生成分数。KNN识别对象的最近邻居。基于距离,它计算分数,并识别离群值。在平均KNN方法中,超级样本是为单个类构造的。测试数据作为输入,Average KNN搜索超级样本或更接近超级样本的样本。其他人被认为是离群值。所提出的方法与基准数据集的现有离群值检测算法的比较图如图所示。 六、其他方法如模糊双极软集和勾股模糊双极软集的比较,证明了该方法的有效性。基于模糊的双相软集被用来分析患者的隶属度的帮助下,并决定是否患者是轻躁狂,抑郁症,或双相。另一方面,勾股模糊双极软集多用于群决策场合。由于所有医生的意见都是一个共同的想法,因此避免了所获得的结果的个性化。而本文提出的方法是先识别不可分辨的值,计算熵,然后计算每个对象7.1. 绩效评价通过计算基准数据集的准确度、特异性、灵敏度、精密度和F1来衡量基准数据集的性能评估其中TP是真阳性,FP是假阳性,TN是真阴性,FN是假阴性。因此,灵敏度或召回率测量被正确识别的真阳性值比例,而特异性测量被正确检测的真阴性值比例。这些值由以下公式获得专属性TNTN+FP灵敏度TPTP+FN召回TPTP+FN精确度或正预测值是从检索到的对象中测量相关对象的值。计算精度的公式如下:精密TPTP+FPF1分数度量在类的分布不均匀时提供精确度和召回率之间的平衡。当它的值为0时,它变得更糟,当它为1时,它变得最好。计算F1分数的公式如下:F评分2分精确度和回忆率精确度+召回率=T. Sangeetha和G.玛丽一个软计算快报3(2021)1000279表5性能评价- Annthyroid数据集Sl.No措施LOF雷布多德1精度百分之九十八点一六百分之九十九点五七2特异性1.01.03灵敏度0.98130.99554精度1.01.05F1分数0.99060.9978表6性能评价-乳腺癌数据集Sl.No措施LOF雷布多德1精度百分之九十九点一八百分之九十九点四六2特异性1.01.03灵敏度0.990.994精度1.01.05F1分数0.99580.9972表7绩效评估-信函数据集Sl.No措施LOF雷布多德1精度百分之九十七点五六百分之九十八点六九2特异性1.01.03灵敏度0.970.984精度1.01.05F1分数0.98720.9930基准数据集(如甲状腺、乳腺癌和字母数据集)的性能评价见表5、表6和表7。7.2. 疗效分析已经进行了以下三种测试,以查看每个算法基于这些实验的结果,WDOD技术似乎特别适合于具有高维度的大数据集和具有大量离群值的数据集。WDOD算法的执行时间的增长率比局部离群值因子算法慢得多。因此,当数据量很大,属性更多时,建议的WDOD算法可以确保在检测异常值时的有效执行,如图7,图8和图9所示。9.第九条。8. 结论本文提出了一种混合数据集的离群点检测方法.在预处理阶段,采用顺序信息规则的模糊近似关系将数值型属性转换为分类型属性。在后处理阶段,提出了基于粗糙集的熵加权密度离群点检测方法。迄今为止进行的研究工作只检测数值或分类数据的离群值,其中不考虑混合数据。所提出的模型通过计算它们的加权密度值来检测具有混合数据的招聘数据集中的离群值,使得正常对象不会被检测为离群值。然而,所提出的算法与哈佛数据集,如甲状腺数据集,乳腺癌数据集,和字母数据集的基准与现有的局部离群因子离群值方法相比,以证明其效率和性能水平。随着对象和属性数量的增加,该方法保证了异常点检测的有效性,未来的工作将集中在动态输入和多粒度集的异常点检测上。这项工作有一定的局限性,例如阈值的固定有时会导致正常对象成为离群值,离群值成为正常对象。这项研究没有得到公共,商业或非营利部门资助机构的任何具体资助。9. 确认资金这项研究没有收到资金图7.第一次会议。 随着对 象数 量 的增长比较执行时间T. Sangeetha和G.玛丽一个软计算快报3(2021)10002710图8.第八条。 随着属性 数量的增加比较执行时间相互竞争的利益见图9。 将执行时间与增加的异常值作者贡献文章的撰写过程和内容并不构成提出利益冲突问题的数据和材料不适用代码可用性不适用本文的主要贡献包括对该论文的表述、分析和编辑。第二部分对分析结果的验证和稿件编辑提供指导。遵守道德标准这篇文章完全是作者的原创作品;它以前没有发表过,并且在期刊编辑委员会决定不接受它发表之前不会发送到其他出版物&T. Sangeetha和G.玛丽一个软计算快报3(2021)10002711==-===-算法1所提出的模型的算法如下所示输入:数据集DS(W,α,β)和θ是阈值。输出:集合S包含离群对象。步骤1:启动步骤2:输入混合类型的数据集.第三步:使用模糊近似关系和排序将数值型数据转换为分类型数据。步骤4:设S=步骤5:对于每个属性βi∈β步骤6:根据定义2计算不可抗力函数U/IND(αi);步骤7:根据定义3计算互补熵;步骤8:对于每个属性βi∈β,根据定义4计算加权密度;步骤9:对于每个对象αi∈W,根据定义5计算加权密度;第10步:如果(加权密度(αi)θ)步骤11:S=S{α i}。第12步:返回S。第十三步:停止。申报利益作者声明,他们没有已知的可能影响本文所报告工作引用[1] 阿赫尔特湖Kriegel,E Reichert,R. Schubert,Zimek Wojdanowski,异常值检测模型的视觉评估,在:Proc.国际数据库系统高级应用会议(DASFAA),筑波,日本,2010年。https:link.springer.com/chapter/10.1007/978-3-642-12098-5_34.[2] C.C. Aggarwal,P.S.余,高维数据的异常检测,在:ACM-SIGMOD,国际会议数据管理(SIGMOD'01),2001,pp. 37-46.加利福尼亚州圣巴巴拉市,https://dl.acm.org/doi/abs/10.1145/375663.375668。[3] A.阿宁河陈志荣,一种新的数据挖掘方法,第一届知识发现与数据挖掘国际会议论文集,北京,1996。或,https://www.aaai.org/Papers/KDD/1996/KDD96-027.pdf。[4] P. Ashok,&G.M.K. Nawaz,基于熵的粗糙K均值的UCI存储库数据集离群值检测方法,J. Defence Science 11(2016)113-121。[5] 诉巴内特,T.Lewis,Outliers in Statistical Data,John Wiley and Sons,1994。[6] S.D.贝,M。Schwabacher,Mining distance based outliers in near-linear timewith randomization and a simple pruning rule,in:Proc. Int. Conf. on KnowledgeDiscovery and Data Mining(KDD),Washington,DC.,2003.https://dl.acm.org/doi/abs/10.1145/956750.956758。[7] R.J. 贝克曼河Cook,Outliers Technometrics 25(2)(1983)119doi.org/10.1080/00401706.1983.10487840[8] M.M.作者声明:J. Sander,识别基于密度的局部离群值,在:Proc Acm Sigmod会议,2021年,pp. 93比104 https://dl.acm.org/doi/abs/10.1145/342009.335388.[9] V. Chandola,A. Banerjee,V. Kumar,Anomaly Detection A Survey,ACMComputingSurveys 41(1)(2011)58https://dl.acm.org/doi/abs/10.11[10] A.G.克里斯蒂,M。Gandhi,S. V. Subramaniyan,基于聚类的离群值检测聚类数据5(5)(2012)363-387。[11] D. Dasgupta , F.A. Nino , Comparison of negative and positive selectionalgorithms in novel pattern detection,in:Proceedings of the IEEE InternationalConferenceon Systems, Man, and Cybernetics. Nashville, TN 1, 2000, pp.125-130. https://ieeexplore.ieee.org/abstract/document/884976。[12] M. 埃斯特,H.P.Kriegel,J. Sander,X. 徐,一种基于密度的聚类算法在大型空间数据库中的噪声发现,在:Proc。国际会议知识发现和数据挖掘(KDD),波特兰,OR,1996。https://www.aaai.org/Papers/KDD/1996/KDD96-037.pdf?sourcepost_page.[13] F. Jiang,Y.苏伊角曹,基于粗糙隶属度函数的离群点检测,粗糙集和当前计算趋势4259(2006)388-397。https://link.springer.com/chapter/10.1007/11908029_41网站。[14] S.福雷斯特角沃伦德湾Pearlmutter,Detecting intrusions using system calls:Alternate data models,in:Proceedings of the IEEE Symposium on Security andPrivacy,IEEE Computer Society,Washington,DC,USA,1999,pp. 133-145.https:ieeexplore.ieee.org/abstract/document/766910.[15] A. Ghoting,S. Parthasarathy,M. Otey,Fast mining of distance-based outliers inhigh dimensional spaces,in:Proc SIAM Int Conf on Data Mining(SDM)dimensional spaces, Bethesda,ML,2006。https://link.springer.com/article/10.1007/s10618-008-0093-2.[16] F.E. Grubbs,Procedures for detecting outstanding observations in samples,Technometrics 11(1)(1969)19-21.https://www.tandfo
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 平尾装配工作平台运输支撑系统设计与应用
- MAX-MIN Ant System:用MATLAB解决旅行商问题
- Flutter状态管理新秀:sealed_flutter_bloc包整合seal_unions
- Pong²开源游戏:双人对战图形化的经典竞技体验
- jQuery spriteAnimator插件:创建精灵动画的利器
- 广播媒体对象传输方法与设备的技术分析
- MATLAB HDF5数据提取工具:深层结构化数据处理
- 适用于arm64的Valgrind交叉编译包发布
- 基于canvas和Java后端的小程序“飞翔的小鸟”完整示例
- 全面升级STM32F7 Discovery LCD BSP驱动程序
- React Router v4 入门教程与示例代码解析
- 下载OpenCV各版本安装包,全面覆盖2.4至4.5
- 手写笔画分割技术的新突破:智能分割方法与装置
- 基于Koplowitz & Bruckstein算法的MATLAB周长估计方法
- Modbus4j-3.0.3版本免费下载指南
- PoqetPresenter:Sharp Zaurus上的开源OpenOffice演示查看器
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功