没有合适的资源?快使用搜索试试~ 我知道了~
四分法原型选择的k-近邻分类器在高偏差点击数据集上的欺诈检测
工程科学与技术,国际期刊28(2022)101011完整文章基于四分法原型选择的k近邻分类器在高偏差点击数据集上的欺诈检测迪普·辛格·西索迪亚印度国家理工学院计算机科学工程系,Raipur,Chhattisgarh 492010,印度阿提奇莱因福奥文章历史记录:2020年10月31日收到2021年5月5日修订2021年5月23日接受在线预订2021年保留字:抽样不足k-NNQuad division ClassImbalance原型选择A B S T R A C T在网络广告中,基于用户点击数据集的欺诈发布者分类模型由于发布者类别分布的高偏斜性而表现出较差的性能。基于最近邻的分类技术被广泛用于减少类偏度对性能的影响。最近邻技术使用原型选择(PS)方法在分类之前选择有希望的样本,以减少训练数据的大小虽然最近邻技术使用简单,减少了潜在信息丢失的负面影响,但当应用于具有偏斜类分布的数据集时,它们会遭受更高的存储要求和更慢的分类速度。在本文中,我们提出了一个基于四分原型选择的k-最近邻分类器(QDPSKNN)通过引入四分方法来处理不均匀的类分布。四分法将数据分为四个四分位数(组),并执行控制下的抽样,以平衡类分布。它通过只选择最近邻形式的相关原型来QDPSKNN的性能进行了评估,在移动广告欺诈检测(FDMA)用户点击数据集和其他15个基准不平衡数据集,以测试其泛化行为。性能也比较了一个基线模型(k-NN)和其他四个原型选择方法,如NearMiss-1,NearMiss-2,NearMiss-3,和凝聚最近邻。结果表明,与现有的原型选择方法相比,QDPSKNN在精度,召回率,f-测量,g-均值,减少率和执行时间方面的分类性能得到了改善,在欺诈性出版商的分类以及其他基准不平衡数据集。进行Wilcoxon符号排序检验以证明QDPSKNN和最先进方法之间的显著差异。©2021 Karabuk University. Elsevier B.V.的出版服务。这是CCBY-NC-ND许可证(http://creativecommons.org/licenses/by-nc-nd/4.0/)。1. 介绍在线技术的进步和可访问性促使公司使用网络广告来推销他们的产品。此外,在线广告为广告网络、广告商和发布商提供了好处[1]。像Google这样的广告网络是广告商和广告商之间的中介或经纪人。和出版商提供一个平台,用于在出版商的网站上放置广告。广告为广告商带来收入,他们为在其他网站上显示广告付费,因为点击这些广告的用户是被定向的到他们的网站。发布者是一个网站,如博客或新闻网站,显示广告,并收取由广告网络根据所产生的点击广告的数量,而收入是*通讯作者。电子邮件地址:nitrr.ac.in(D. Sisodia)。由Karabuk大学负责进行同行审查。从广告商[2然而,发布者在每次生成的点击上获得的收入可能导致点击欺诈,这是指为了赚取更多收入并耗尽竞争对手的预算而生成的恶意点击用户每天产生数亿次点击,导致大量数据集,这阻碍了对点击欺诈的识别。此外,生成的点击总数中只有一小部分是欺诈性的,这导致数据集不平衡[9],即,一类数据集包括比另一类更高数量的样本[10]。在这种情况下,学习方法无法适当地表示数据特征[11]。混杂的数据包括在类别中高度不均匀的分布,这加剧了欺诈者识别的问题。检测点击欺诈通常依赖于机器学习模型[12],该模型在大型数据集上使用大量特征。因此,训练模型及其用于查找的使用往往是昂贵的。数据不平衡的问题可以通过利用广泛使用的数据采样策略来解决,例如过采样方法,https://doi.org/10.1016/j.jestch.2021.05.0152215-0986/©2021 Karabuk University.出版社:Elsevier B.V.这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。可在ScienceDirect上获得目录列表工程科学与技术国际期刊杂志主页:www.elsevier.com/locate/jestchD. Sisodia和Dilip Singh Sisodia工程科学与技术,国际期刊28(2022)1010112代表性不足的类或对代表性过强的类进行抽样的抽样方法。然而,对少数实例进行过采样可能会导致过拟合,并可能减慢学习过程。而使用抽样方法下的原型选择可以提高效率,这通过执行从数据集中选择指定样本的受控抽样来减少训练集的大小[13]。一些训练良好的基于近邻的机器学习模型可以用来有效地处理分类过程中的不平衡数据集。然而,像k-NN这样的近邻方法在分类过程中遇到两个主要问题:a)需要巨大的存储空间,以存储所有实例及其到邻近实例的距离以进行分类[14,15]。b)较低的分类速度,因为对所有样本进行搜索以分类测试实例,减慢了分类过程[16]。为了进一步提高分类的有效性,通常采用参考文献[17-23]中讨论的因此,利用原型选择,这是一种数据简化方法,有助于为k-NN建模,以节省存储资源并加快处理时间[14,18]。本研究提出了基于四分割原型选择的k-NN分类器(QDPSKNN),通过对大多数实例进行控制欠采样来减少数据的大小。控制下采样允许选择指定的原型(最近的邻居)从大多数数据。所设计的方法使用k-最近邻规则选择原型。QDPSKNN首先将大多数训练数据划分为四个四分位数(组)Q1至Q4,其中每个四分位数或组包括整个大多数实例的25%。k-NN然后单独应用于每个组以选择指定的原型,其中k-NN测量查询实例(测试样本)与每个组中的所有多数实例之间的距离。查询实例是通过取每组样本的中位数来选择的。然后,从每个组中选择k个实例作为有希望的原型,其数量相当于少数实例的数量,以使数据集平衡。与传统的欠采样方法通过删除大多数实例来平衡数据集不同,QDPSKNN 通 过 选 择 有 希 望 的 原 型 进 行 数 据 平 衡 来 执 行 欠 采 样QDPSKNN非常有效,因为它减少了重要信息丢失的负面影响,同时增加了欠采样过程中数据清理的积极影响。 它有效地提取信息的原型作为最近的邻居,提高了预测的设计方法。以下是这项工作的主要贡献:本 文 提 出 了 一 种 基 于 四 分 法 原 型 选 择 的 k- 最 近 邻 分 类 器(QDPSKNN),该分类器通过基于k-最近邻规则选择原型来实现受控欠采样,以平衡用户点击数据集中的倾斜类基于QDPS的k-NN策略的性能在移动广告中的欺诈检测(FDMA2012)上进行了评估,这是一个在线广告的原始用户点击数据,以便对欺诈发布者进行分类。为了评估QDPSKNN的有效性,通过在其他15个基准不平衡数据集上进行广泛的实验来进行公平的比较,QDPSKNN的有效性也比较了一个基线模型(k-NN)和其他四个原型选择方法,即NearMiss-1,NearMiss-2,NearMiss-3和凝聚最近邻(CNN)。它的效率表现在处理中遇到的具有挑战性的问题,在分类的欺诈出版商。进行Wilcoxon符号排序检验以证明QDPSKNN和最先进方法之间的显著差异。本文的其余部分按以下章节进行组织。第二节详细讨论了控制欠采样的原型选择方法的相关工作。 传统的k-NN模型在第3节中讨论。第4节阐述了拟议的方法,第5节提出了必要的评价措施。实验结果在第6节中详细讨论,而讨论在第7节中给出。本文件在第8节结束2. 相关作品数据简化方法[23]通过改进数据集来促进数据挖掘技术约简后的数据集数据约简方法可以分为两大类:原型生成和原型选择。PS方法从原始数据集中选取一组训练样本作为原型,以较少的内存有效地这种方法通过查找边界实例并丢弃噪声样本来使用来自实际训练集的数据[24]。使用k-NN的数据约简可以减轻内存的消耗,并加剧了分类过程。基于广义平均距离(GMD)的k-NN模型(GMDKNN)[25]利用多GMD和嵌套GMD,通过选择类指定的k-最近邻居来计算每个类中查询实例的多局部平均向量。使用获得的每类k-局部均值向量相应地计算k-GMD,然后进一步用于设计分类GMD。另一个基于局部均值表示的k-NN模型(LMRKNN)[26]首先选择查询实例的分类最近邻居来计算相应的分类k-局部均值向量(k-LMV)。然后使用分类k-LMV的线性组合来表示查询实例此后,选择查询实例和分类k-LMV之间的基于类别指定表示的距离基于两个k-NN规则的加权表示和加权局部均值表示[27]被设计,目的是提高k-NN的分类性能所设计的方法考虑了分类k-近邻的位置,并计算分类k-近邻的自适应权重和多个局部均值向量进行分类。将精细分类过程与k-NN(CFKNNC)[28]集成是一种最佳k-NN策略,它从实际训练实例中选择更接近测试实例的少量训练实例。然后,该方法通过计算基于表示的距离来确定与测试实例相似的k-训练实例,该距离比传统的k-NN进行更准确的分类。为了从实际数据集中选择相关子集,CNN技术是第一个突出的浓缩方法[29]。它创建了一个样本子集,可以正确地分类原始数据集,利用1-最近邻规则。它保留类边界实例并丢弃内部实例,因为未分类的实例被放置得更靠近决策边界。为了加快选举方法,引入了基于几何中值(GM)[30]的增强PS方法,这是一种利用GM作为类原型的k-NN数据简化方法该方法减少了到其余样本的距离的总和。设计了用于多标签数据的降维和原型选择的新算法,其中CNN已经被扩展,●●●●●D. Sisodia和Dilip Singh Sisodia工程科学与技术,国际期刊28(2022)1010113.ΣðÞ1/4吨.Σ¼我0其他;K多标签数据的类增强PCA(CA-PCA)[31]。NearMiss方法[32,33]通过在以下基础上丢弃来自过度代表类的样本来进行欠采样:argmaxc t¼z2z1;z2;. ;zpfiX2Mft;k阿托伐他汀彼此之间的距离。第一个实验是用“NearMiss-1”(NM-1)进行的,它选择了接近较少编号的类样本的编号较多的该方法选择大多数类实例,而它们的平均值是其中,ct表示针对查询实例的预测类(ft;z表示不同类的集合z1;z2;;zp,p表示类的总数。最接近f的 k-与 三 个 最 近 的 少 数 类实 例 的 距 离 是 最 小 的 。 第 二 个 实 验 使 用“NearMiss-2”(NM-2)执行到三个最远的不太形象的类实例的距离是t tE.如果ci¼ z,则为1ð2Þ最小的。下一种方法是实验结果表明NearMiss-2方法的优越性能。NM-1、NM-2、NM-3和NN欠采样方法讨论。而不是利用其中,E ci;z表示指示符函数,其对于真条件返回1,否则对于假条件返回0。等式-1也可以表示为ct¼argmax8XEci;z1;XEci;z2;···· ··;XEci;zp=9过度代表类的完整示例集,选择这样的实例的较小子集以产生较少不平衡的数据。NM-1选择那些代表性过强的实例,:f i2百万f t;kfi2Mf t;kfi2Mf t;k100;3到三个最近的代表不足类实例的距离<8XEc;zXEc;zKXE.c;z=是最小的,而NM-2选举代表性过强的实例他们与三个代表性最低的类实例是最次要的。NM-3与NM-1和NM-2的不同之处在于,为每个表示不足的类实例选择指定的最近的过度表示实例,以保证每个少编号样品是包围通过高度编号的cargmax:f i2百万f t;k并且已知我1个;Kfi2Mf t;k我2······· ;我pfi2Mf t;kð4Þ实例.最后,3-最近的较少编号的类样本。结果表明X.zjft;k1/4fi2XMft;kE.ci;zjð5ÞNM 2的优势,对应于其余的下-其中,x。zjft;k显示了第j类在抽样方法对倾斜的学习。NM方法通过最大化少数和多数样本之间的距离来清洁决策表面是非常有效的。在文献中讨论的k-NN方法和数据减少技术几种原型选择方法根据其最近邻居的得分来选择每个实例。在一个庞大的数据集上搜索最近的邻居的过程消耗了很多时间。我们所提出的方法克服了这个问题,加快了原型选择的过程中,只选择有前途的原型,从四个平等的群体的多数实例集使用四分法。3. 基于最近邻的原型选择方法3.1. 现有k-近邻模型在本节中,我们将讨论k-NN的建模[33]以及与不平衡分类相关的问题。图2(a)中所示的k-NN功能包括确定查询实例和其余的k-NN实例之间的距离。数据集,选举更接近查询点的特定k实例,并通过多数投票分配最频繁的标签为分类. 让的标记培训setfi;cii;其中i 1;···;p ci2z1;z2;······;z p . ci表示类别label whilez1;z2;z p表示不同类别的ci。 K-NN方法从数据中搜索一组k-原型,这些原型使用任何距离度量,如欧几里得距离,曼哈顿距离等,最接近查询实例ft,根据查询实例在邻域中的类别优势度计算查询实例的标签。使用多数投票[3536]的给定查询实例ft的k-NN的工作表示如下:ft的邻居:因此,等式(4)旋转,ct<$argmaxnxz1f t;k;xz2ft;k;· · ·::;xznft;ko6等式(6)示出了标准k-NN采用先验概率来计算查询实例类。鉴于传统k-NN的数学公式,我们现在将讨论k-NN在处理不平衡数据集方面的缺点。图2(a)示出了二进制偏斜类分布的示例场景,其中大多数实例(表示为绿色加号)属于类查询实例显示为红色加号。从图中可以看出,k为7;标准k-NN将查询实例分类为多数类A。但是,如果该方法考虑到查询实例(点方形区域)附近的类的偏斜分布,则查询实例将被分类为少数类B[37]。为了克服k-NN的上述问题,我们提出了QDPSKNN,在第4中简要讨论。3.2. 受控欠采样的其他基线原型选择方法对于数据集中不均匀的类分布,我们研究了其他四种原型选择方法,这些方法选择实例以3.2.1. NearMissNearMiss[33,38-当两个不同类别的样本彼此接近时,这些方法消除了大多数类别的样本,以增加两个类别之间的空间,这有助于分类过程的近邻KD. Sisodia和Dilip Singh Sisodia工程科学与技术,国际期刊28(2022)1010114×-444-12.Σ3基于NearMiss的方法首先在所有多数类和少数类样本中搜索距离。此后,选择与少数类中的实例具有最小距离的n个多数样本。对于k个少数类样本,这些基于近邻的方法导致k n个多数类样本。基于近邻的不同版本的NearMiss方法(NearMiss-1、NearMiss-2、NearMiss-3)的工作在图1中图示。 2(b-d),并讨论如下。NearMiss-1:选择数量超过类的实例,其到3个最近的较低频率类实例的平均距离最小。NearMiss-2:选择数量超过类的实例,其到3个最远的不太频繁的类实例的平均距离最小。NearMiss-3:为不太频繁的类的每个实例选择一个指定的外部编号类的最近实例3.2.2. 凝聚最近邻CNN被设计用于使用k-NN将数据样本减少到分类。它从训练样本中选择一组原型p,使得具有p的k-NN可以像k-NN对完整数据集那样对实例进行分类[29]。CNN的基本工作如图所示。第2段(e)分段。4. 该方法4.1. 基于K-NN的四分原型选择算法(QDPSKNN)本节介绍了基于四分法的k-近邻分类器QDPSKNN的原理,用于控制欠采样,基本工作如图所示。 2(f). 数据集通常分为四分位数、十分位数和三分位数[41]。‘Quartiles’ further segment thedata into 4 parts; ‘deciles’ segment the data部分[42]。 然而,将数据分割成许多部分Q1Q4,其中每个组包括整个实例的25%,如图1所示[43-45]。将大多数数据分组可以测量平均值上下的分布。此外,还可以更容易地分析数据集中的离群值[46]。所提出的方法是基于k-NN假设,即具有相似特征的观测往往具有相似的结果。变化的k-NN算法对选择有前途的原型。修改后的k-NN表示如下:完整的数据集D是一组多数类实例和少数类实例,并且可以表示为:D¼. f1;f2;···::;fpD¼d mndmj80其中,p是整个数据集D的实例总数,dmn是少数实例的集合,dmj是D的多数实例的集合,并且可以定义为:dmj<$ff1;f2;:;fngdmn<$f fn1;fn2;···;fpg10然后使用等式11-13将多数数据集dmj划分为四个四分位数或组Q1-Q4Q 1/4。1n1th值(11)Q 1/4。2n1th值(12)Q第1个值(13)查询实例或测试实例(ft)然后通过计算每个组Q1Q4中的实例的中值来选择。由于中值将实例的高半部分与低半部分分开,它是测量不均匀分布中的数据的高度可靠的工具。它对离群值也不太敏感。查询实例是通过从四分位数的实例计算中值来获得的:(nif n is even可能会增加分类复杂性;因此,大多数数据使用四分割过程进行分割该方法中位数¼2n=1如果n是奇数ð14Þ将多数数据分成四个相等的四分位数或组,其中n是四分位数或组中的实例数图1.一、将大部分数据划分为四分位数。●●●D. Sisodia和Dilip Singh Sisodia工程科学与技术,国际期刊28(2022)1010115t;齐t-齐Þ小于d的样本数ff作为图二、直观地解释现有的PS方法和建议的QDPSKNN用于控制欠采样。该方法然后基于查询实例ft和每个组fQi的实例之间的欧几里德距离度量从每个组中搜索一组有希望的相关k-原型,然后,所提出的方法从Q1-Q4中选择有希望的原型(最近邻居)pp,第12Q1页;第22Q2页;第32Q3页;第42Q4页i¼1; 2; 3为:Dist.FFΣvutX。ffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiΣffiffi2ffiffi1/1从Q1-Q4得到的有希望的原型pp是15聚合以创建dmj0 使得dm j0的样本数MJ图三. 提出的QDPSKNN方法的工作流程。¼ðD. Sisodia和Dilip Singh Sisodia工程科学与技术,国际期刊28(2022)1010116.4d0mj<$fpp1pp2pp3pp4g17● 所提出的方法优于标准k- NN的另一个优点是,对于少数数据集dmn的fp个样本,d0mj. <. dmj。;d0mj二维MJ定态法选择fp 每个组中的样本数,相当于平衡数据集的少数实例数。在其中,dmj是从每一个中选择的一组重要的原型,其中观测的数量由用户定义。然后,该方法聚集dmj0的有希望的最近邻居 与少数数据集tdm n,并生成大小减小的平衡聚合数据集A d,如下:Addmj0dmn18最后,对于分类,常规k-NN在新的聚合数据集Ad上建模为:F¼K邻居分类器Ad;k邻居19其中,k是最近邻的个数。建议方法的主要优点如下:与传统的k-NN不同,其中查询实例和所有数据集样本的其余部分之间的距离计算的成本较高,QDPSKNN是一种欠采样策略,通过仅计算每组查询实例和大多数实例之间的距离来克服这个问题,从而降低了计算成本。● 与传统的欠采样方法不同,通过比较,标准k-NN从整个数据集中选择fn个与查询实例的距离最小的实例下面是用于受控欠采样的QDPSKNN的伪代码。图3示出了所提出的方法的工作流程的视觉表示,而用于定义所提出的方法的缩写在表1中讨论。伪代码:基于k- NN的四分割原型选择(QDPSKNN)输入:D=数据集dmj=数据集D的多数实例集dmn=数据集D的少数实例集Qi=四分位数ft =查询实例f齐 =每个组pp=有前途的原型dmj0=从四分位数中获得的一组有希望的原型输出量:Ad=聚合数据集//通过聚合平衡数据集QDPSKNN从多数集中删除实例,使数据集平衡,从而导致信息丢失,QDPSKNN选择相关的有希望的原型,以平衡倾斜的类分布,从而增强分类过程。作为dmj的有希望近邻数据集dmn方法:0 与少数因此,它更有效和可扩展。1. 加载D,这是一组多数和少数类实例。dm n;dm jD←.f1;f2;· · ·::;fp表1. 拟定方法中使用的缩略语符号意义符号意义D数据集ft查询实例dmj数据集D的多数实例集f齐每个组dmn数据集D的少数实例集pp有前途的原型QI一个d四分聚合数据集dmj0ci从四分位数中类标签fi数据集D的实例Ct预测类z不同类的集合z1;z2;;zpMft;k最接近ft的k-表2总结了不平衡基准数据集的详细信息。数据集类型特征实例类MVIRFDMA2012 [D1]多类103252303没有17.1葡萄酒[D2]多类1317803没有1.5余额[D3]多类462503没有5.88新甲状腺[D4]多类521503没有4.84甲状腺[D5]多类2172003没有36.9页面块[D6]多类1054805没有164玻璃[D7]多类921407没有8.44大肠杆菌[D8]多类733608没有71.5大肠杆菌2 [D9]二进制733602没有5.46皮马[D10]二进制876802没有1.87大肠杆菌3 [D11]二进制733602没有8.6玻璃6 [D12]二进制921402没有6.38玻璃1 [D13]二进制921402没有1.82虹膜[D14]二进制415002没有2.0哈伯曼[D15]二进制330602没有2.78威斯康星州[D16]二进制968302没有1.86注:MV-缺失值,IR-不平衡比●D. Sisodia和Dilip Singh Sisodia工程科学与技术,国际期刊28(2022)1010117.Σ4. 如果n是even.Qit齐1/1. D. < . D. ,d 2d¼¼¼ ω¼-1/1ð Þ.Σ*(续)伪代码:基于k- NN的四分割原型选择(QDPSKNN)2. 从Ddmj<$f1;f2;···:;fngdmn<$fn<$1;fn<$2;···:;fp中分离多数和少数实例3. 将多数数据集dmj分成四个相等的四分位数。让日Q是第i个四分位数。Q i¼ in1值,i¼ 1; 2; 3G-mean-它表示模型在阈值处的性能,其中真阳性率和真阴性率相等。分别最大化真阳性率和真阴性率。通用汽车公司(GM)4. 通过计算中间值来获得查询实例ft,其中,TP = True Positive表示预测每个四分位数Qi Median¼的实例n2n=1如果n是奇数被认为是欺诈TN =真阴性表示由模型预测的正常发生率FP =假阳性5. 基于查询实例间的欧氏距离从Qi中搜索相关k-原型f和每个群的所有实例f dist f;fqPn。ffiffifffiffiffiffiffi-ffiffiffiffiffifffiffiffiffiffiΣffiffi2ffiffi6. 选择有希望的原型(最近邻)表示由模型预测为欺诈的真实点击。FN =假阴性表示模型预测的欺诈性点击为正常。除了上面讨论的指标,还有一个性能指标,在这项工作中使用的指标是比较性能基于K-NN的QDPS与其他原型选择方法。的从Qippi2Qi原型选择方法的目的是减少存储07. A. 格河退出pp创建一组dmj¼P4 p pi要求. 因此,我们评估了这项工作中的减少率0 0mj mj mj mj8. 通过聚合dmj0的有希望的最近邻者与少数数据集tdmnAddmj0dmn来生成平衡的聚合数据集Ad5. 评估措施精确度,召回率和f-测量通常用于适当地监控不同类别中的分类性能,以实现最佳分类(平衡)。在这项工作中,精度是信心的关键衡量标准,因为它专注于挑出非法点击,同时最大限度地减少预测合法点击为欺诈点击的机会[1]。精确度[47,48]:它被定义为所有预测为欺诈的点击中实际错误点击的百分比。精确识别欺诈者正确识别欺诈者正确识别被标记为欺诈者的合法人员Recall [49]:它被定义为模型从欺诈性点击中正确识别出的欺诈性点击的百分比。召回被正确识别的欺诈者F1 score [50]-它将精确度和召回率的加权平均值计算为一个指标。F12查准率ω查全率查全率Reduction Rate(减少率):减少的训练数据集的大小占整个训练数据集大小的百分比[30]。其定义为:减少率1件尺寸最新动态其中,大小Rs=样本减少培训设置和大小Tr=整个训练集的样本。减少率的值应在0到1之间约简率越高,训练集将被该方法更好地约简,并且存储和分类时间将更少。执行时间-这是花在设计一个完整的模型的总时间。6. 实验结果实验是在个人系统上进行的,该个人系统具有运行在2.70 GHz下的Intel(R)Core(TM)i5- 7200 U CPU,具有12 GB RAM,具有Windows-10操作系统。所提出的方法在Python 3.7版本中实现,其中包括来自Anaconda包[56]的numpy[51],scipy[52],sklearn[53],imblearn[54]和pandas[55]。QDPSKNN是为受控欠采样而设计的,以便在对在线广告用户点击数据进行建模以用于欺诈者分类时遇到的不均匀类分布进行很好的推广。所有数据集上所用方法的训练和测试通过10倍交叉验证来实现。6.1. 数据集在这项实证研究中,总共使用了16个数据集来评估所提出的QDPSKNN的有效性,其中用户点击数据集来自FDMA[57]和15个其他标准表3为基线方法k-NN和最先进的原型选择方法调整参数。方法参数NearMiss-1 random_state = 0,采样策略NearMiss-2 random_state = 0,采样策略NearMiss-3 random_state = 0,采样策略CNN random_state = 0,采样策略k-NN n_neighbors = 5,p = 2,random_state = 0●●●●●●不齐D. Sisodia和Dilip Singh Sisodia工程科学与技术,国际期刊28(2022)101011表88ffiffi基于平均查准率和查全率的QDPS,k-NN和其他PS方法的性能比较DS精度召回QDPSKNNk-NNNM1NM2Nm3CNNQDPSk-NNNM1NM2Nm3CNND175.130.948.663.946.328.670.128.145.359.441.724.6D290.270.972.969.245.137.384.765.370.164.241.532.7D374.457.829.470.147.246.770.455.923.466.239.241.2D472.397.788.896.290.474.666.391.085.794.488.870.3D588.530.572.280.535.734.982.427.169.876.130.829.4D686.456.778.679.652.951.680.350.175.274.248.948.1D789.684.270.382.464.160.484.180.565.378.460.157.4D876.180.165.490.672.377.171.375.162.585.468.473.5D982.979.180.976.364.977.078.973.276.474.261.372.2D1089.463.879.381.460.158.585.460.576.177.558.355.9D1193.590.864.258.845.258.390.486.761.855.240.355.6D1293.691.275.787.510068.790.887.573.883.398.466.1D1375.772.764.571.870.156.570.569.261.368.766.553.9D1483.569.883.077.270.248.279.463.880.473.665.145.6D1575.462.569.872.162.338.470.458.364.667.458.435.1D1691.549.560.378.244.544.286.344.575.355.141.340.6AV83.668.069.077.260.753.878.963.666.772.156.850.1SE0.020.050.040.020.040.030.020.050.040.030.050.03注:DS-数据集,AV-平均值和SE-标准误从KEEL数据库收集的不平衡基准数据集[58]。表2显示了包含较少阳性样本比例的高度不平衡数据集的汇总详情。这些数据集在数据大小、类别数、特征和不平衡率方面存在显著差异,包括数百到数千个样本。如表2所示,数据集不包含任何噪声或缺失值。数据集的性能评估利用指标,即精度,召回率,f-措施,g-均值,减少率和执行时间。6.2. 分类性能表3表示在实验中调整的参数列表。对所有测量值分别进行建模。所有采用的方法只执行一次,因为在分类过程中,由于参数固定,它们的性能没有变化。使用训练实例运行PS方法以创建简化的数据集。表4和表5分别显示了基于平均精度、召回率、f-测量和g-均值的k-NN、提出的QDPSKNN和最先进的PS方法的性能。通过计算平均值和标准误差来总结性能。计算平均值,表示一组不相等值的显著性将大量数据汇总为单个值。标准误差表示样本均值的标准差,并定义了可能与真实总体均值进行比较的总体样本均值的准确度。标准误差越小,样本在总体中的代表性越强。它被计算为,其中r=标准偏差,n=意见表4-5的结果表明,所提出的方法在总共16个数据集中的13个数据集上获得了最佳精度分数图4(a-b)以图形方式表示基于在16个数据集上计算的精确度、召回率、f-测量和g-均值的平均值和标准误差的所有方法的汇总性能,所述16个数据集是FDMA 2012、NewThyroid、Ecoli 2、Balance、Thyroid、Ecoli 3、Glass 6、Glass 1、Wine、Pima、Iris、Haberman、Wisconsin、Pageblocks、Glass和Ecoli。同样,结果表明,该方法与其他PS方法在处理类分布偏态QDPSKNN方法取得了较好的性能,与所有数据集上的其他方法相比,该方法具有最低的标准误差6.3. QDPS与其他PS方法原型选择方法主要用于减少存储需求和提高分类速度,因此,减少率和执行时间分别进行评估。 减少率表示训练数据集的减少的大小相对于整个训练数据集的大小的百分比。相比之下,执行时间评估的是构建模型所花费的时间。通常,PS方法获得更高的约简率对应于平均学习性能,我们还比较了QDPSKNN的约简率和执行时间与其余的原型选择方法。表6表示基于平均值和标准误差的减少率和执行时间。该方法从所有数据集中获得了77.1%的最高平均减少率,标准误差为0.04%,这代表了高度信息化的样本。使用四分割方法在FDMA数据集上实现了93.9%的减少率,该方法将数据集分成四个相等的组,并从每组中选择有希望的原型并适当地平衡数据集。NM 2获得了第二高的平均约简分数,它通过计算大多数实例和三个最远的少数样本之间的最小距离来平衡数据集。与所提出的方法和NM 2相比,NM 3具有第三低的约简分数,因为它保留了与三个最近和三个最远少数类实例的平均距离最小的多数类的样本。CNN获得了第四高的约简分数,仅保留那些更接近决策边界的实例NM 1在所有PS方法中获得了第五低的减少分数,因为它通过计算大多数实例和三个最近的少数样本之间的最小距离来平衡数据集对于16个不平衡数据集,所提出的具有基线模型的方法和现有PS方法的执行时间在表6中表示,其中发现QDPSKNN的平均执行时间在所有数据集中最小。 图图4(c-d)图示地示出了基于计算平均值的所有采用的方法的概括性能。D. Sisodia和Dilip Singh Sisodia工程科学与技术,国际期刊28(2022)101011表99基于F-measure和G-mean的QDPS,k-NN和其他PS方法的性能比较DSF-measureG均值QDPSKNNk-NNNM1NM2Nm3CNNQDPSk-NNNM1NM2Nm3CNND172.529.446.961.643.926.473.329.947.562.144.527.2D287.468.071.566.643.234.888.168.472.167.243.935.6D372.356.826.168.142.843.873.157.226.868.643.644.6D469.294.287.295.389.672.469.994.787.895.890.273.1D585.328.771.078.233.131.986.129.171.678.833.832.7D683.253.276.976.850.849.884.053.777.577.451.550.5D786.882.367.780.462.058.987.582.768.480.962.759.6D873.677.563.987.970.375.374.478.064.588.570.975.9D980.976.078.675.263.074.581.676.579.275.763.775.3D1087.462.177.779.459.257.288.162.578.379.959.857.9D1191.988.763.056.942.656.992.689.163.657.543.357.6D1292.289.374.785.399.267.492.989.775.385.999.868.1D1373.070.962.970.268.355.273.871.363.570.768.955.9D1481.466.781.775.467.646.982.167.182.375.968.247.6D1572.860.367.169.760.336.773.660.867.770.260.937.4D1688.846.967.064.642.842.389.647.368.066.143.543.1AV81.265.767.774.558.751.981.966.168.475.159.352.3SE0.020.050.040.030.050.030.020.050.040.030.040.03注:DS-数据集,AV-平均值和SE-标准误见图4。基于(a-b)精确度、召回率、f-测量和g-均值的平均误差和标准误差、(c-d)减少率和执行时间,总结了所有16个数据集上提出的和最先进的方法的性能。所有16个数据集上的年龄和减少率和执行时间的标准误差6.4. 使用Wilcoxon符号秩检验进行为了评价所提出的方法QDPSKNN和最先进方法之间的显著差异,本工作中采用了Wilcoxon符号秩检验[59]。首先,在方法之间进行然后计算每次比较的p值,这证明了导致拒绝的假设的最低水平显著性(h = 0.05)Wilcoxon符号秩检验的结果如表7所示,其根据表4所示的精密度值计算。表7中讨论的h(0.05)项表示5%显著性水平下的零假设,R+项表示数据集秩的正和,表明第1种算法优于第2种算法。术语R表示数据集秩的负和,表明第2种算法优于第1种算法。通过基于精度的Wilcoxon检验获得的结果表明,QDPSKNN在实验中采用的其他方法上具有良好的性能D. Sisodia和Dilip Singh Sisodia工程科学与技术,国际期刊28(2022)10101110表6QDPS与其他PS方法的减少率(%)和执行时间(秒)的比较DSQDPSKNNCNNNm3NM1NM2RRETRRETRRETRRETRRETD193.911.480.73090.530.781.921.191.921D291.91.378.61.360.71.258.11.258.11.3D388.92.770.82.674.42.269.12.380.32.4D474.3268.42.876.42.167.42.476.82.3D593.62.589.22.990.32.691.22.792.12.8D679.51.277.61.373.11.47
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM Java项目:StudentInfo 数据管理与可视化分析
- pyedgar:Python库简化EDGAR数据交互与文档下载
- Node.js环境下wfdb文件解码与实时数据处理
- phpcms v2.2企业级网站管理系统发布
- 美团饿了么优惠券推广工具-uniapp源码
- 基于红外传感器的会议室实时占用率测量系统
- DenseNet-201预训练模型:图像分类的深度学习工具箱
- Java实现和弦移调工具:Transposer-java
- phpMyFAQ 2.5.1 Beta多国语言版:技术项目源码共享平台
- Python自动化源码实现便捷自动下单功能
- Android天气预报应用:查看多城市详细天气信息
- PHPTML类:简化HTML页面创建的PHP开源工具
- Biovec在蛋白质分析中的应用:预测、结构和可视化
- EfficientNet-b0深度学习工具箱模型在MATLAB中的应用
- 2024年河北省技能大赛数字化设计开发样题解析
- 笔记本USB加湿器:便携式设计解决方案
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功