没有合适的资源?快使用搜索试试~ 我知道了~
沙特国王大学学报一种多选民多委托最近邻分类器qSuyanto Suyantoa,Prasti Eko Yunantoa,Tenia Wahyuningrumb,Siti Khomsahba印度尼西亚万隆Telkom大学计算机学院b印度尼西亚Telkom Purwokerto技术学院信息学院阿提奇莱因福奥文章历史记录:2021年5月26日收到2021年12月22日修订2022年1月29日接受2022年2月23日在线提供保留字:最近邻分类器c均值聚类机器学习多选举人A B S T R A C T已经提出了许多改进版本的k-最近邻(KNN),通过最小化每个类中的多个k最近邻(多投票者)的总距离来代替多数投票,例如基于局部均值的伪最近邻(LMPNN),它给出了更好的决策。在本文中,一个新的KNN变量称为多选民多委员会最近邻(MVMCNN),提出了检查它的好处,在增强LMPNN。顾名思义,MVMCNN使用一些佣金:每个使用LMPNN方案计算给定查询点(测试模式)和k个伪最近邻之间的总距离通过最小化这些总距离来定义决策类因此,MVMCNN中的决策比LMPNN更局部地获得基于10倍交叉验证的检验表明,所提出的多委托方案可以增强原始(单委托)LMPNN。与两个单选民模型:KNN和Bonferroni平均模糊k-最近邻(BM-FKNN)相比,所提出的MVMCNN还提供了更低的平均错误率以及更高的精度,召回率和F1得分,这表明多选民模型比单选民模型提供了更好的决策版权所有©2022作者。由爱思唯尔公司出版代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。1. 介绍在数据挖掘中,k-最近邻(KNN)是前10种算法之一(Wu等人,2008),其中由于其实现简单而被广泛用于各种应用中。它在大数据领域的研究和应用中得到了广泛的应用,因为它可以有效地进行分类,回归和聚类任务。在致命和敏感的应用中,如医学,军事,法律和运输,KNN是有利的,因为它的可解释性。最近,在Papernot和Mcdaniel(2018)中,KNN与深度神经网络(DNN)相结合,以创建一个自信,可解释和强大的深度学习。然 而, KNN 有 四个 在以 前 的文 献中 发现 的 问题 ( Zhang 和Member,2019)。首先,KNN通常对邻域大小k敏感。表演者-*通讯作者。电 子 邮 件 地 址 : suyanto@telkomuniversity.ac.id ( S.Suyanto ) ,telkomuniversity.ac.id(P.E.Yunanto),tenia@ittelkom-pwt.ac.id(T.Wahyuningrum),siti@ittelkom-pwt.ac.id(S. Khomsah)。q本研究由Telkom大学研究和社区服务局资助,资助编号:571/PNLT 3/PPM/2020。如果k更小或更大,则离群值会使KNN的效率更差(Gou等人,2019年)。为给定的训练集设置适当的k是相当具有挑战性的,因为训练样本(实例)通常具有不同的分布。这个问题可以通过将各种k值设置到不同的样本子空间来解决(Tan等人,2020)或不同的测试样品( Bulut 和 Amasyali , 2017 , Zhang 等 人 , 2017 , Zhong 等 人 ,2017,Zhang等人,2017年,Pan等人, 2017,Zhang等人,2018年,Tan等人,2020年)。然而,这两种解决方案都增加了KNN的复杂性。其次,KNN对用于选择k个最近邻的距离函数也很敏感对于所有训练样本,确定最合适的距离公式是一个挑战。这意味着最佳距离函数对于选择最有能力的k个最近邻居至关重要,这些最近邻居可以有效地在大多数训练样本中做出多数投票决定。第三,由于最近邻(NN)搜索,KNN具有高复杂度。这是具有挑战性的,因为KNN应该计算所有样本的距离,为每个给定的查询(测试数据)选择k个最近的邻居。最近的一种称为NearCount的方法可以用于基于最近邻居的引用计数来选择关键实例(Zhu等人,2020年)。优化的高阶乘积量化也可以用于搜索近似最近邻(Li和Hu,2020),从而实现高查询效率和召回率。此外,本文还提出了一种基于聚类和自适应k值的k近邻算法。https://doi.org/10.1016/j.jksuci.2022.01.0181319-1578/©2022作者。由爱思唯尔公司出版代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。制作和主办:Elsevier可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页:www.sciencedirect.comS. 作者:Suyanto,T.Wahyuningrum等人沙特国王大学学报6293X邻居(Gallego等人,2022),这显著降低了计算的复杂度。第四,KNN对不平衡类数据集的有效性较低。KNN中使用的多数表决规则通常适用于平衡类,但不适用于不平衡类(Zhang和Member,2019)。设计一个合适的分类规则来处理一般的平衡和不平衡数据集是具有挑战性的已经提出了许多KNN变体来解决k的敏感性和分类规则。k的灵敏度可 以 通 过 使 用 k 个 最 近 邻 的 局 部 均 值 向 量 ( 诸 如 k- 调 和 最 近 邻(KHNN))来减少离群值的影响来解决(Pan等人,2017; Gou等人 , 2019 ) 、 基 于 局 部 均 值 的 KNN ( LMKNN ) ( Mitani 和Hamamoto,2006)、基于局部均值的伪NN(LMPNN)(Gou等人, 2014)、基于多局部均值的NN(MLMNN)(Gou等人, 2017年)。k的灵敏度也会受到多数投票的分类规则的影响,因为每个邻居都有相同的权重,这使用了民主制度的原则:然而,在实际的数据集中,最近的邻居通常有不同的贡献,以分类一个给定的查询点。因此,已经提出了一些使用加权投票的KNN变体来解决这个问题,例如距离加权KNN(Dudani,1976)、伪最近邻(PNN)(Zeng等人, 2009 )、 基于 协作表示 的最近 邻( CRNN )( Li 等人 ,2015)、基于加权表示的KNN(WRKNN)(Gou等人, 2019),加权局部均值表示的KNN(WLMRKNN)(Gou et al.,2019)、加权判别合作竞争表示(WDCCR)(Gou et al.,2020),基于双重竞争约束的分类协作表示(DCCRC)(Gou et al., 2020年),模糊k-最近邻在每一个类(FkNNC)(Parande和Suyanto,2019年),和Bonferroni平均模糊k-最近邻(BM-FKNN)(MailagahaKumbure等人, 2020年)。然而,所有这些KNN变体都应用局部均值或加权投票方案,使他们仍然敏感的离群值。因此,本文提出了一种新的KNN变体,称为多选民多委员会最近邻(MVMCNN)。它的灵感来自议会和一些委员会的决策在某个特定问题上,比如医药问题,最好的决定应该由卫生委员会(作为最有能力的委员会)做出。在MVMCNN中,每个类中的数据对象首先被聚类到一些簇(佣金)中。接下来,将LMPNN应用于每个聚类而不是每个类。然而,该模型是MVMCNN的早期版本,以保持低复杂度。 改进的版本可以使用更高级的基本模型来开发,例如WRKNN、WLMRKNN、WDCCR 、 DCCRC 或 BM- FKNN 。 然 后 , 基 于 10 倍 交 叉 验 证(FCV),使用从加州大学欧文分校(UCI)机器学习存储库(Irvine,2021)获取的30个数据集对所提出的MVMCNN进行全面评估。最后,它的性能进行了分析,并与KNN,LMPNN,和BM-FKNN使用Friedman和Wilcoxon的统计检验比较,看看的准确性和灵敏度的显着性。接下来,本文的组织如下。第2节简要介绍了相关工作。在第3节中描述了所提出的MVMCNN的动机、概念和详细算法。接下来,第4节提供了对MVMCNN性能的全面最后,第5节给出了结论。2. 相关工作根据分类规则中使用的k个最近邻,基于最近邻的分类器可以分为两种方案:单k投票器和多k投票器。在单一选民方案中,从训练集中的所有数据对象中选择k个最近邻居(投票者),如KNN,WKNN和BM-FKNN中所使用的相比之下,在多投票者方案中,k个最近邻居是从每个类中选择的;因此,它们被命名为伪(而不是实际)最近邻居,如PNN、LMPNN、FkNNC、CRNN、WRKNN、WLMRKNN、WDCCR和DCCRC中所使用的。在这项研究中,MVMCNN被提出作为一种新的最近邻变体,通过引入多委托方案来改进基于多选民的方法。选择LMPNN作为MVMCNN的基础模型有两个原因。首先,它易于实现,并且被证明优于PNN(Gou等人,2014年)。第二,它可以作为一个早期的模型来评估所提出的多佣金计划的好处。一旦多委托方案显示出许多优点,MVMCNN可以在未来通过使用任何高级多投票者KNN变体来改进,例如CRNN,WRKNN,WLMRKNN,WDCCR和DCCRC。此外,使用来自UCI的30个数据集(Irvine,2021)对从LMPNN的基础模型构建的MVMCNN的初步版本进行评估并与原始LMPNN进行比较,以查看所提出的多委托方案的并与KNN和BM-FKNN两种单选举人方法进行了比较,以检验其性能的显著在这里,错误率和k的稳定性被选为性能指标,重点放在详细的实验。此外,Friedman和Wilcoxon的统计检验更详细的性能指标:精确度,召回率和F1分数,也用于验证结果,特别是对于几个数据-高死亡率、等级不平衡的机组2.1. k近邻KNN使用训练集中一定数量的最近数据对象(最近邻居或投票者)在本地做出决策(Zhanget al.,2018年)。在分类任务中,它使用基于来自所有类的k个最近邻的多数投票(单投票者方案)对给定查询或未标记的测试样本进行分类,所述k个最近邻使用取决于属性类型的距离或相异性的特定度量来选择。对于数值数据,相异度通常使用欧几里得距离计算,ndX;YXi-Yi2; 11/1其中X和Y是数据对象,而n是维度(Harrison,2018)。KNN有两个步骤在执行分类任务时效率不高。第一步是训练过程,将所有数据对象(训练集)存储在内存中,并找到最佳k,以提供最高的准确性并概括未来看不见的数据。它不像决策树、神经网络或支持向量机那样生成任何模型。第二步是分类过程。每次分类一个给定的查询,KNN应该检查所有的训练样本,以找到k个最近的。KNN易于通过设置最佳k来实现。该deci-可以容易地跟踪分类,从而可以快速地更新分类模型。此外,它在本地工作,只考虑适合本地分组的数据集的数据量,其中一个类中有几个单独的数据。然而,由于k的敏感性和太-多数表决的简单分类规则2.2. 伪最近邻PNN是KNN变体中的一种,已经证明对于许多数据集,其表现优于KNN(Zeng等人, 2009年)。PNN基于多投票者方案,通过计算总距离来工作S. 作者:Suyanto,T.Wahyuningrum等人沙特国王大学学报62942¼¼8¼J8¼JJJKJ我2ðþ1Þ¼. XpqþJJLJJL在每个类中的k个最近邻,然后选择具有最低总距离的类作为分类决策(输出)。这些k个邻居基于它们的基于距离的排名被逐渐加权。第j个邻居的权重被公式化为1除以j,使得第一等级(最接近的)邻居权重为1;第二等级权重为1,等等。相邻节点的权重最低邻域权重Wi第i类的第j个邻居xi的公式为:Wi¼1;102mm其中,x 1;x2;.. . N是具有至少一个xi- 0 i 1 ; 2 ;. 其中p和q是大于或等于0的两个参数。在这项研究中,它们分别被设置为p 1和q 2,正如许多数据集所推荐的那样(MailagahaKumbure等人, 2020年)。BM-FKNN的步骤与FKNN类似首先,它估计给定查询(或测试数据)和训练数据之间的接下来,定义k个最近邻,并基于其类别将其分组为子样本。此外,Bonferroni平均向量计算的子样本代表每个类。查询和这些局部向量之间的距离为jj然后计算得到的隶属度的基础上方程。四、通过最大化隶属度,最终对查询进行分类其中j1; 2;. ;k 是基于距离的排名秩序使用等式PNN给出了更好的工作,因为它使用每个类中的k个最近的实例来做出决策,这在概念上更好地处理离群值或异常。这个概念可以类比于现实生活,即最接近的人的声音应该比那些更远的人更值得信任。2.3. 局部平均伪最近邻LMPNN是组合LMKNN和PNN两者的KNN变体(Gou等人,2014年)。类似于PNN,LMPNN也使用多选民计划和邻域权重来开发。与PNN使用分类k最近邻选择每个类中的伪最近邻不同,LMPNN基于分类k局部均值向量找到它们在LMPNN中,查询点x的前j个最近邻居的局部均值向量<$xi,第i类定义为xi¼1Xxi;l¼1作为最高的会员等级。与KNN直接将给定查询与k个最近邻居进行比较不同,BM-FKNN使用每个类的代表向量。使用由k个最近邻表示的局部子样本在本地创建代表性向量,并且很好地定位以感知类别信息。局部方法可以解决不平衡类和类似类间样本的问题(Mailagaha Kumbure等人,2020年)。然而,与使用单投票者方案的KNN一样,BM-FKNN中的k值可能是敏感的。低k可能不足以捕获一个大的类代表子样本,从而无法创建准确的局部Bonferroni均值向量。相反,3. 建议的MVMCNN与LMPNN类似,提出的MVMCNN也是使用多选民方案和邻域权重开发的。怎么--MVMCNN是使用多任务场景开发的。首先,将每个类中的数据对象聚类到一些簇中其中16j6k.在39个数据集上的综合实验表明,LMPNN比LMKNN、PNN、CFKNN、WKNN和KNN分类器更有效和鲁棒。2.4. Bonferroni平均模糊k-近邻BM-FKNN是模糊KNN(FKNN)的改进版本,它将每个类的“真实度”合并在FKNN中,类成员是分配给一个样本向量。第j个样本在训练集第i类中的隶属度计算为查询y和第i类中的k个最近邻居之间的距离被公式化为(Keller等人,一九八五年)Xuij1=jjy-xjjj2=m-1(佣金)。通过最大化轮廓系数和聚类中的样本数来定义最佳聚类数。接下来,它通过最小化这些佣金的LMPNN距离来对查询点进行分类,其中每个佣金中的k个实例的总加权基于秩的距离被计算。使用Eq. (三)、因此,在MVMCNN中,来自第h个聚类器和第i个类的查询点x的前j个最近邻居的局部均值向量<$xh;i<$xh;i<$1Xxi;6l¼1其中16j6k; 16h6Nc,Nc是使用c-均值聚类创建的最佳聚类数。最后,在所有佣金中具有最小距离的最佳类别决策Cbest被确定为:联系我们K2004年,我Xj1/41=jjy-xjjj2=Cbest¼argmin<$xj;:107从概念上讲,MVMCNN和三种CNN之间的区别是其中m1;是定义邻居贡献的权重会员等级。正如Keller等人(1985)所建议的,在本研究中,m被设置为2,这是常用的。与FKNN不同,BM-FKNN(Mailagaha Kumbure等人, 2020)利用Bonferroni均值来计算局部均值向量。如Bonferroni(1950)中所描述的,Bonferroni平均值为公式:标记为:我们的方法KNN,PNN和LMPNN,在图中描绘。1.一、假设所有方法都使用k3将给定的查询点(紫色正方形)分为两类:类1(蓝色圆圈)和类2(红色三角形)。类1包含三个集群,可以在顶部,中间和底部看到,而类2由顶部和底部的两个集群组成。此外,橙色圆圈代表两个的平均值,分别具有1和1的权重的三个第一最近邻,2 31NB; B;C; Dxp.1Xp1qXQð5Þ第一节课和所有的委员会同时,绿色三角形是两个和三个第一近邻的平均值,nin-1j1的权重和1,分别在第2类和所有的1/1i;j¼1;j-i2 3佣金Jn!!S. 作者:Suyanto,T.Wahyuningrum等人沙特国王大学学报6295¼Fig. 1. KNN,PNN,LMPNN和MVMCNN当k为1/43时,KNN错误地将查询点分类为类别2算法1:MVMCNN(红色三角形)由于3个最近的邻居中有2个是红色三角形,gles。使用k3,PNN也无法对查询进行分类,因为查询与三个最近的红色三角形之间的总距离小于三个最近的蓝色圆圈之间的总距离这种失败的分类是由于最近的蓝色圆圈来自三个不同的聚类,这使得决策有偏差此外,最近的三个红色三角形也来自不同的集群(一个三角形来自第一个集群,其余的来自第二个集群)。这一问题类似于不称职的委员会的一些成员所作的决定,这种决定产生了偏见。接下来,尽管每个类中的前j个邻居的局部均值给出了更精确的总距离,但LMPNN错误地对查询点进行了分类。在这种情况下,查询点和三个最近的红色三角形之间的总距离略小于三个蓝色圆。这种错误的分类也是由来自不同聚类的最近邻居引起的,并且不幸的是,局部均值仍然给出偏差决策。相比之下,MVMCNN成功地将查询点分类到类1(蓝色圆圈),因为类1(C1; 1)中的委员会1给出了总距离小于所有级别的所有其他委员会。这种分类是成功的,因为所有最近的蓝色圆圈和红色三角形都来自最有能力做出决定的密集集群。在计算局部均值时,不存在来自不同聚类的最近邻做出有偏决策。这种成功的分类可以类似于由几个主管委员会的成员做出的正确决定,而不受其他不称职委员会的一些成员的干扰。MVMCNN的伪代码在算法1中描述它由五个步骤组成。首先,通过最大化轮廓系数和聚类成员,将每类中的数据对象聚类(使用c-均值聚类方法)成若干个最优在这里,每个类别的聚类数量被限制在一个区间[2,6],这是通过初步观察发现的:30个UCI数据集中的每个类别最大限度地聚类为6个具有高轮廓系数的聚类。结果:C最适合作为输出类通过最大化轮廓系数和聚类成员数,将每类数据聚类为Nc将代表第i个类和第m个委托的N个c聚类命名为Ci;m对于每一个佣金,使用等式计算距离。(7)求所有委托的最小距离Ci;m返回距离最小的第i个类作为输出C类接下来,将N个c聚类命名为表示第i个类和第m个委托的Ci;m对于每个委托,k个伪最近邻与给定查询之间的总距离使用等式(1)来确定(七)、接下来,最小化到所有佣金的总距离最后,返回具有最低总距离的第i个类作为输出类Cbest。在MVMCNN中,每个类可以使用任何聚类方法(如c-means,DBSCAN,模糊聚类或其他)划分为两个或更多个佣金。然而,由于MVMCNN被设计为通用于各种数据集,因此它利用了c均值聚类,该聚类很简单,只有一个易于调整的参数:聚类数c 。同时,DBSCAN需要两个应该仔细定义的参数:半径和最小点。聚类方法在MVMCNN中起着至关重要的作用。它应该产生尽可能高密度的集群。因此,在本发明中,它被设计为最大化轮廓系数和簇中的样本数量。由于最大k被设置为15,因此每个聚类中的样本数量应被限制为15。因此,如果聚类生成具有少于15个样本的小聚类,则该聚类将被合并到最接近的聚类中。但如果不能合并较小的群集,因为群集的数量S. 作者:Suyanto,T.Wahyuningrum等人沙特国王大学学报6296¼¼¼¼-≈仅为1(最小值),或者难以创建多个群集,则将其保留为一个群集。因此,对于这种情况,MVMCNN的性能将与LMPNN相同,因为它不会将它们分成一些集群。换句话说,它使用原始的(单佣金)LMPNN。因此,可以预期MVMCNN保证比LMPNN表现更好(或至少等于LMPNN)。此外,由于UCI数据集通常很小,因此使用c1至6应用c由于该方法对随机产生的初始点敏感,因此将其应用于每个类别进行一些试验,然后选择具有最大silhouette系数的聚类它增加了计算成本,但给出了获得最大密度聚类的更高概率4. 结果和讨论然 后 , 使 用 从 UCI 存 储 库 中 获 取 的 30 个 数 据 集 ( Irvine ,2021),基于10倍交叉验证对所提出的MVMCNN进行全面评估。然后,它的性能进行了分析,并与三个竞争对手使用的Friedman和Wilcoxon的统计检验比较,看看的准确性和灵敏度的k的显着性。此外,Friedman平均秩和Wil-coxon秩和检验都用于检查MVMCNN的优越性。实验使用Intel Core i5- 8300 H处理器和8 GB DDR4与GPU NVidia Geforce GTX 1050Ti进行。4.1. UCI数据集具有数值属性的30个数据集取自UCI存储库(Irvine,2021),通过利用欧几里得距离使实验变得简单。有15个二进制类和15个多类分类问题。所有的数据集都是原始版本,没有任何预处理,除了四个标有“*"的数据集:玻璃,大肠杆菌,葡萄酒在前三个数据集中包含一些样本的几个类被删除,以简化分类任务。相比之下,Letter数据集被二次采样以减少样本数量。数据集有各种样本:从146(玻璃)到10,992(PenDigits)。此外,它们也有不同的维度:从3(哈伯曼)到856(CNAE)。4.2. 最优聚类在MVMCNN中,聚类应用于每个数据集,以在每个类别中生成一 些 佣 金 运 行 它 以 最 大 化 轮 廓 系 数 和 聚 类 中 的 样 本 数 由 于MVMCNN是使用k为1至15的LMPNN实现的(Gou等人, 2014),MVMCNN中每个聚类中包含的样本数量限制为15。因此,如果聚类生成少于15个样本的小聚类,则该聚类将被合并到最接近的聚类中。但是,如果由于簇的数量仅为1(最小值)而无法合并小簇在这里,c均值聚类方法应用于每个数据集五次,c为1到6。这意味着每个类的聚类数量被限制在一个区间[1,6]内,因为UCI数据集通常很小。例如,Glass的数据集包含146个样本:= 1和76级= 2。样品在每个类别中,根据不同的类别,对10-FCV裂解结果的影响。另一个例子,大肠杆菌的数据集由307个样本组成,分为四类:cp = 143,im= 77,imU = 35,pp = 52。根据10-FCV的分裂结果,将每个类别中的样品聚类为两个或三个聚类,如表1所示。4.3. 分类性能使用30个UCI数据集对MVMCNN及其竞争者KNN、LMPNN和BM-FKNN的分类性能进行了评估使用10-FCV进行评估,以查看错误率。在每个数据集中,训练样本被随机分为十倍。接下来,进行十个实验以产生十种不同的分类错误率。每个实验使用15个邻域大小,从k1到15。性能通过在最佳k处平均十个最低错误率来确定。表2显示了KNN、LMPNN、BM-FKNN和MVMCNN的平均最低错误率,括号中是相应的标准偏差和邻域大小k最低错误率以粗体显示。可以看出,MVMCNN在30个数据集中的17个数据集的竞争对手中给出了最低的错误率:9个二进制类和8个多类问题。同时,KNN、LMPNN和BM-FKNN分别只在4、5和10个数据集上获胜。此外,MVMCNN还给出了低标准差,表明其稳定性。统计测试将MVMCNN置于第一位,弗里德曼平均秩为1.66,远小于KNN,LMPNN和BM-FKNN,分别为3.28,2.52和2.24。一般来说,MVMCNN在具有许多属性的数据集上优于所有竞争对手,例如CNAE,Musk1,HillValley和Musk2分别包含856,166,100和166个属性。之所以取得这些结果,是因为这些数据集包含许多样本,可以归入几个委员会。因此,MVMCNN中使用的多委托分类有效地减少了LMPNN中基于类的距离以及KNN和BM-FKNN中的多数投票所此外,在MVMCNN中给出最低错误率的最佳k值通常低于或等于LMPNN中的最佳k值,因为决策是在每个聚类而不是每个类中做出的这些结果表明,MVMCNN的决策是由每个聚类中最有能力的少数选民做出的,没有来自其他聚类的不称职选民的干扰。然而,上述分类错误率的比较在统计上并不一致。因此,使用称为Wilcoxon秩和检验的统计检验,置信度为95显示MVMCNN与KNN、LMPNN和BM-FKNN相比的显著性。Wilcoxon秩和检验是来自其中一个样本的观测值的秩和,通常使用测试两个样本是否可能来自同一个群体。换句话说,它检查两个种群是否具有相同的形状。在这里,Wilcoxon秩和检验被应用于由KNN、LMPNN、BM-FKNN和MVMCNN为每个数据集获得的十个错误率(来自十个实验)的成对。表3示出了针对30个UCI数据集的KNN、LMPNN和BM-FKNN与所提出的MVMCNN的Wilcoxon符号可以看出,MVMCNN在23个数据集上显著对于21个数据集和9个数据集,它也比LMPNN好得多。最后,它在16个数据集上的性能明显优于BM-KNN,在2个数据集上的性能相同:气候模型模拟崩溃和Wdbc,在12个数据集上的性能下降。4.4. K的稳定性最后,基于与竞争对手相比k的灵敏度,研究了MVMCNN的鲁棒性。经验-S. 作者:Suyanto,T.Wahyuningrum等人沙特国王大学学报表16297¼¼Ecoli数据集每个类中的聚类数倍类= CP类= im类= imU类= pp122222222233333423325222262222732338333292222102222表2KNN、LMPNN、BM-FKNN和MVMCNN产生的最低平均错误率(%)以及30个UCI数据集的相应标准差和括号中的k。玻璃 * 146 9 2 8.7 3.54(3)6.63 5.01(7)9.04 8.27(1)6.253.92(8)气候模式SC 540 18 2 8.52 0.96(15)10.19 2.79(15)9.45 1.05(15)9.631.7(15)麝香1 476 166 2 19.48 9.81(2)17.81 9.72(12)18.3 4.46(2)17.189.2(13)输血748 4 2 26.078.99(14)9.12(15)4.67(4)4.29(15)香港赛马会569 30 2 6.67 4.38(10)6.39 2.94(7)6.39 3.22(13)6.392.94(7)菲律宾180 12 2 29.1 2.17(8)36.78 8.49(15)30.7914.15(2)二十六点九九5.72(11)哈伯曼306 3 2 24.86 10.13(5)33.90 4.11(13)26.46 7.42(2)33.5516.98(13)HillValley 1,212 100 2 41.58 4.87(1)35.72 4.01(15)37.58 3.94(4)29.628.49(15)电离层351 34 2 11.67 5.58(2)11.67 7.02(13)10.19 4.14(2)11.106.64(15)WPBC 198 32 2 21.66 6.98(2)21.24 6.34(13)23.1711.23(2)20.245.54(13)声纳208 60 2 39.07 5.48(2)38 2.73(6)38.68 4.42(8)37.982.78(8)纸币1,372 4 2 0.000.00(2)0.070.23(1)0.000.00(3)0.070.23(1)QSAR生物降解1,05541220.295.92(3)19.266.82(15)19.462.76(5)19.166.75(15)麝香2 6,598 166 2 18.26 16.92(14)十七点六九15.31(15)22.83 1.19(8)16.01(15)葡萄酒178 13 3 25.2 10.05(1)24.35 7.69(13)24.02 7.41(7)23.9914.49(3)种子210 7 3 9.059.64(11)10.58(3)7.626.02(12)10.487.38(12)甲状腺7,200 21 3 1.80.75(6) 1.651.08(10)1.460.52(5)1.601.10(10)大肠杆菌 * 307 7 4 14.01 4.76(7)15.47 4.11(13)14.35 8.09(4)15.474.11(13)机器人导航5,456 4 4 2.660.87(1)2.520.75(3)2.660.63(1)2.520.75(3)葡萄酒红 * 1,571 11 4 51.91 3.71(13)51.53 4.48(14)44.27 4.42(8)50.834.56(14)页块5,473 10 5 4.061.03(3)0.80(9) 3.930.78(5)3.110.80(9)Landsat卫星2.2(1)9.291.69(15)7.411.03(11)9.251.78(15)CNAE 1,080 856 9 11.581.46(14)8.982.9(15)2.1(13)3.12(15)信件 * 7,648 16 10 4.35 0.48(3)2.94 0.44(15)3.00 0.28(15)2.08 3.18(15)妇科检查2,126 21 10 47.884.43(7)5.17(13)2.97(15)四十四点九六5.17(13)笔数10,992 16 10 0.69 0.22(1)0.25 0.14(13)0.45 0.25(11)0.250.14(13)OptDigits 5,620 64 10 1.550.76(3)0.960.43(9)0.820.43(13)0.940.4(8)元音528 10 11 36.26 5.78(1)36.06 8.02(15)36.26 1.73(2)35.355.41(8)天秤座运动360 90 15 16.39(1) 15.0013.04(5)13.896.14(13)十五点13.04(5)弗里德曼平均秩3.28 2.52 2.24 1.66排名4 3 2 1心理结果以每个数据集的平均错误率与变化的k(从1到15)的形式给出30个数据集被分成两个部分:二进制类和多类问题(每个问题有15个数据集),以进行清晰的比较。图2示出了由KNN、LMPNN、BM-FKNN和MVMCNN针对15个二进制类数据集获得的具有不同k(从1到15)它表明,KNN产生的k的稳定性最低,其中平均错误率波动,对于大多数(13/15)二进制类数据集。平均错误率通常对于奇数k较低,但对于偶数k较高,因为多数表决产生了关系决策,使得KNN随机工作。它只对两个数据集:玻璃和纸币给出了高稳定性的k。这些结果表明,多数投票方案是不稳健的,在二进制类数据集的分类决策与KNN一样,BM-FKNN对于15个二进制类数据集中的13个也是不稳定的一般来说,对于k,它获得高的平均错误率1,然后对小k稳定2到6岁,但不稳定,k值越高(7或更高)。这些结果受到BM-FKNN中使用的多数投票的单选民方案的影响。低k不足以捕获大的类代表子样本,从而无法产生准确的局部Bonferroni均值向量。实际上,接下来,LMPNN为15个二进制类数据集中的13个提供了高稳定的平均错误率。它只对两个数据集产生低稳定性:玻璃和声纳。这些结果表明,加权多选民方案(考虑加权局部平均值)数据集样本数量#属性#类KNNLMPNNBM-FKNNMVMCNN帕金森19522220.63 8.61(15)十二月三十五日(十四)15.17 7.6(8)18.08 11.19(10)S. 作者:Suyanto,T.Wahyuningrum等人沙特国王大学学报6298表3KNN、LMPNN和BM-FKNN与30个UCI数据集的拟议MVMCNN的Wilcoxon符号-或+分别表示在0.05显著性水平下,当前结果在Wilcoxon秩和检验方面显著差于或优于MVMCNN的结果,而符号表示类似(不显著)的玻璃 * 146 9 2-气候模型模拟坠毁540 18 2 +-输血748 4 2 +-+Wdbc 569 30 2- 电子邮件180 12 2-哈伯曼306 3 2 +-+HillValley 1,212 100 2-电离层351 34 2- -+Wpbc 198 32 2 +声纳208 60 2-纸币1,372 4 2纸币+生物降解定量构效关系1,055 41 2-麝香2 6,598 166 2-葡萄酒178 13 3-种子210 7 3 +-+甲状腺7,200 21 3- -+大肠杆菌 * 307 7 4++机器人导航5,456 4 4- -葡萄酒红 * 1,571 11 4- -+页块5,473 10 5- 页-Landsat卫星6,435 36 6- -+CNAE 1,080 8569信件 * 7,648 16 10-子宫内膜检查2,126 21 10-PenDigits 10,992 16 10- -OptDigits 5,620 64 10- -+元音528 10 11- -LibrasMovement 360 90 15-+23 21 16威尔科克森1 9 2威尔科克森6 0 12k-每个类中的最近邻)可以比KNN中使用的单选民决策(具有“一人一票”多数投票规则)做出更好的分类同时,所提出的MVMCNN是与KNN、LMPNN和BM-FKNN最鲁棒的比较,其中各种k(从1到15)给出了最稳定的平均错误率(14个15)二进制类数据集。MVMCNN仅对Glass数据集产生低鲁棒性,其中仅对于小k(1到3),平均错误率相当低,但k越大(4到15),错误率越高。此外,在四种情况下,MVMCNN给出的k的灵敏度与LMPNN产生的k的灵敏度相似:气候模型模拟崩溃,Musk 1,电离层和QSAR生物降解,但MVMCNN给出了更低的错误率。它与Wdbc和Banknote数据集的LMPNN相同这些结果证明了MVMCNN中所提出的多委托决策能够增强LMPNN中针对15个二进制数据集的决策规则。接下来,图3示出了由KNN、LMPNN、BM-FKNN和MVMCNN给出的15个多类数据集的不同k(从1到15)的平均错误率。可以看出,对于大多数(15个中的12个)多类数据集,KNN产生k的最低稳定性,其中平均错误率是波动的。它只是稳定的三个数据集:Ecoli,Page-Blocks和LandsatSatellite。这些结果也告诉我们,多数表决方案是不健全的为多类数据集做出分类决策同时,BM-FKNN比KNN具有更高的稳定性。它对大多数(15个中的9个)多类数据集都是稳定的。类似于在二进制类数据集的结果,它获得高的平均错误率为k1,然后稳定的小k2至6,但不稳定的k1/47个或多个.这些结果表明,BM-FKNN提供了一个改进的单选民方案与多数表决,因为它认为代表性向量为每个类,而不是直接最接近的样本。相比之下,LMPNN为所有多类数据集提供了高稳定的平均错误率这些结果表明,在LMPNN中使用的加权局部平均距离的多选民计划可以比在KNN中使用的单选民规则做出更好的决策最后,提出的MVMCNN为15个多类数据集中的13个提供了稳定的错误率它仅对Ecoli和LibrasMovement数据集提供了较低的鲁棒性,其中对于小k(1到3),错误率较低,但k越大(4到15),错误率越这些结果是由数据集的小尺寸引起的,307和360个样本属于4和15类。它指出,在MVMCNN中使用的建议的多委托决策可能无法增强用于小的多类数据集的LMPNN,因为只能生成少量的委托。4.5. 精确度、召回率和F1得分本研究中使用的大多数数据集都被认为是平衡类。与此同时,30个数据集中有10个(33.34%)被归类为不平衡类,阳性标记数据略少于阴性标记数据,其余(30个数据集中有6个或20%)数据集是不平衡类,阳性标记数据少得多,即气候模型模拟崩
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM动力电池数据管理系统源码及数据库详解
- R语言桑基图绘制与SCI图输入文件代码分析
- Linux下Sakagari Hurricane翻译工作:cpktools的使用教程
- prettybench: 让 Go 基准测试结果更易读
- Python官方文档查询库,提升开发效率与时间节约
- 基于Django的Python就业系统毕设源码
- 高并发下的SpringBoot与Nginx+Redis会话共享解决方案
- 构建问答游戏:Node.js与Express.js实战教程
- MATLAB在旅行商问题中的应用与优化方法研究
- OMAPL138 DSP平台UPP接口编程实践
- 杰克逊维尔非营利地基工程的VMS项目介绍
- 宠物猫企业网站模板PHP源码下载
- 52简易计算器源码解析与下载指南
- 探索Node.js v6.2.1 - 事件驱动的高性能Web服务器环境
- 找回WinSCP密码的神器:winscppasswd工具介绍
- xctools:解析Xcode命令行工具输出的Ruby库
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功