RN-SMOTE：基于DBSCAN的降噪SMOTE算法用于不平衡数据分类增强

44 浏览量更新于2024-01-27 收藏 1.46MB PDF 举报

DBSCAN

数据预处理

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

沙特国王大学学报RN-SMOTE：基于DBSCAN的降噪SMOTE，用于增强不平衡数据分类Ahmed ArafaAl-Ahmad，Nawal El-Fishawy，Mohammed Badawy，Marwa Radad电子工程学院，Menoufia大学，El-Gish街，Box No.32951，Menouf，Menoufia，埃及阿提奇莱因福奥文章历史记录：2022年1月22日收到2022年4月30日修订2022年6月10日接受2022年6月27日在线提供保留字：不平衡分类过采样RN-SMOTESMOTEDBSCAN降噪A B S T R A C T机器学习分类器在平衡数据集上表现良好。不幸的是，许多真实世界的数据集自然是不平衡的。因此，不平衡分类是机器学习中的一个严重问题不平衡的类分布会误导分类器正确地分类小类。本文介绍了一种用于不平衡数据预处理的降噪SMOTE算法。RN-SMOTE算法首先利用SMOTE算法对训练数据进行过采样，在少数类中引入带噪声的过采样合成实例。然后，应用DBSCAN检测和去除噪声。接下来，将干净的arti实例与原始数据组合最后，RN-SMOTE再次应用SMOTE来重新平衡数据集，然后将其引入底层分类器。RN-SMOTE使用9个不同的分类器和9个具有不同不平衡率的不平衡数据集进行评估，其中5个用于离群值检测。实验结果表明，基于RN-SMOTE的分类器性能得到了提高，并优于原始数据和基于分类器、数据集和评价指标的百分比SMOTE此外，RN-SMOTE的性能与当前最先进的性能进行了比较，并导致RN-SMOTE在召回率，F1，精确度和准确度方面提高了37.41%，23.28%，13.95%和©2022作者（S）。由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍不平衡数据集是指不同类别中的样本数量差异很大的数据集（López等人，2013年）。类分布的这种不平衡是一个具有挑战性的问题，对机器学习分类器的性能有不良影响。因此，许多机器学习分类器对类不平衡的敏感性已经在许多文献中得到处理，以提高这些分类器在不平衡数据集下的性能（ Batuwita 和 Palade ， 2013; Boonchuay 等人，2017;Cheng等人，2021; García等人，2008年）。实际上，在对不平衡数据进行分类时，类别不平衡并不是对分类器产生负面影响的唯一原因，还有其他一些原因，例如类别不平衡，*通讯作者。电子邮件地址： ahmed. el-eng.menofia.edu.eg （ A.Arafa ）， nawal.elfishawy@el-eng.menofia.edu.eg （ N. El-Fishawy ）， mohamed.badawi@el-eng.menofia.edu.eg（M. Badawy），marwa. el-eng.menofia.edu.eg（M. Radad）。沙特国王大学负责同行审查应该考虑重叠和样本量（Sun等人， 2009年）。在现实世界的数据集中有两种类型的不平衡，内在的和外在的。内在不平衡是给定数据空间的固有属性（HaiboHe和Garcia，2009）。相反，外部不平衡不是数据空间的本质但由于经济、时间或储存原因（Stefanowski，2016）。因此，收集新的示例并不总是解决不平衡问题的正确方法，特别是如果不平衡是数据的本质。例如，在医疗数据中，健康人的数量总是大大超过患者的数量，这意味着数据中存在内在的不平衡。此外，大多数真实世界的数据集都受到噪声的影响，这会影响给定数据集上分类器的性能（Garc'ia 等人，2013; Hasan和Chu，2022）。与主要样本相比，这种噪声对次要样本分类的影响更大（Weiss，2004）。因此，在对不平衡数据集进行分类时，降噪对分类器的性能有着显著的影响。当使用SMOTE平衡数据集时，这种影响尤其会增加，因为SMOTE会添加随机分量，并在得到的平衡数据中生成噪声。所有已提出的处理类不平衡问题的方法被分类为数据级、算法级和混合级https://doi.org/10.1016/j.jksuci.2022.06.0051319-1578/©2022作者。由爱思唯尔公司出版代表沙特国王大学这是一个在CC BY-NC-ND许可证下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。制作和主办：Elsevier可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页：www.sciencedirect.comA. Arafa，N. El-Fishawy，M. Badawy等人沙特国王大学学报5060方法（García和Herrera，2009年）。此外，这些方法被分类为涉及算法的内部方法和涉及数据预处理的外部方法（Cateni等人， 2014年）。在算法级方法中，修改所使用的分类器以正确分类少数类别样本并减弱对类别不平衡的敏感性（Liu，2021）。这包括一类分类器，其中分类器仅从单个类学习，并且提高了小类的性能（Bellinger等人，2012年）。例如，一类支持向量机（OCSVM）通过添加惩罚来修改分类器对次要样本的偏差该方法被称为成本敏感方法（Krawczyk，2016）。其他分类器使用阈值来确定每个样本是类别的一个成员的程度（Kotsiantis等人， 2006年）。数据级方法独立于所使用的分类器，其中仅对不平衡数据集进行修改或重新采样，从而产生新的平衡数据集，该新的平衡数据集允许所使用的分类器对其进行正确分类（López等人，2012年）。数据级方法包括通过向次要类添加更多样本（过采样）或通过从主要类中删除样本（采样不足）来重新采样数据许多众所周知的方法用于对不平衡数据集进行过采样，包括随机过采样（ROS）、合成少数过采样技术（SMOTE）及其克服ROS限制的不同变体。此外，不平衡的数据集可以通过使用众所周知的随机欠采样（RUS）或基于流行的信息方法之一来随机欠采样，例如但不限于删除Tomek此外，不平衡的数据集可以通过组合过采样和欠采样的方法来重新采样，例如Smote Tomek，其组合了SMOTE作为过采样技术和Tomek数据级方法还包括特征选择（Ali等人， 2013），其中仅使用所有特征的子集而不是使用所有给定特征。这对于具有灾难维度的数据集是必需的，其中其他技术（如重新采样和算法级技术）无法克服不平衡问题（Wasikowski和Chen，2010）。混合方法，结合了数据级和算法级，水平方法，以获得两种方法的优势。它包括集成方法，例如装袋和提升集成分类器（Tanha等人，2020年）。此外，这一类别包括从不同角度处理不平衡数据集的策略，例如降噪（Johnson和Khoshgoftaar，2019）。本文介绍了一种新的处理类不平衡问题的模型。所提出的减少噪声的SMOTE（RN-SMOTE）应用基于密度的空间聚类的应用程序与噪声（DBSCAN）检测SMOTE噪声，然后将其从训练数据集中删除。之后，使用SMOTE对数据集进行重新采样以平衡它。本文的主要贡献如下：介绍了一种新的非平衡数据预处理技术--RN-SMOTE，它在利用SMOTE进行过采样的基础上，利用DBSCAN进行去噪。使用不同的分类器和不同的噪声数据集，在不同的度量下，使用不同的不平衡率和维度来评估所提出的RN-SMOTE将结合RN-SMOTE的分类器的性能与它们在SMOTE和原始数据上的性能进行将RN-SMOTE的性能与当前技术水平的性能进行比较。本文的其余部分组织如下：第2回顾了相关的工作。第3首先介绍了SMOTE和DBSCAN，然后详细描述了RN- SMOTE，解释了所提出的模型第4展示了实验并讨论了所获得的结果。第五部分是结论和未来的工作。2. 相关工作不平衡数据集分类的有效解决方案之一是改变问题的范围，从异常或噪声检测的角度来分析数据。这是因为原始数据可能包含异常或噪声。此外，一些重新采样技术，如SMOTE可能会产生额外的噪声，使其更糟。训练数据集中的高噪声会对底层分类器的性能产生负面影响。这种观点不平衡的数据已处理在许多研究。最近，Asniar等人（2021）为此目的引入了SMOTE-LOF。在他们的建议中，首先使用SMOTE对不平衡数据进行过采样，然后使用局部离群值因子（LOF）来检测所得到的过采样数据中的小类中的噪声 SMOTE-LOF 已使用 PIMAkaggle.com/kum （ “https ：//www.example.com argh/ pimaindiansdiabetescsv. ，”n.d.），哈伯曼（“https：//www.haberman.com）kaggle.com/saguneshgrover/haberman，”n.d.）和Glasssci2s.ugr.es/keel/imbalanced.php#sub2A数据集使用朴素贝叶斯（NB ），支持向量机（SVM ）和C4.5 决策树分类器使用WEKA工具。使用的分类器的性能进行比较，与SMOTE-LOF，SMOTE和原始数据使用的指标，包括准确性，精度，召回，和F1分数。SMOTE-LOF仅使用三个真实世界数据集进行评估，最大属性数等于9，最小不平衡比率等于（81：225）。此外，只有三个分类器仅用于其评估。因此，它的性能是未知的其他类型的分类器和其他现实世界的数据集具有较低的不平衡率和较高的维度。 SMOTE-LOF利用LOF进行噪声检测。不幸的是，LOF的时间复杂度更高，估计为O（n2），而DBSCAN的时间复杂度估计为O（n log n）（BeheraandRani，2016）。Nnamoko和Korkontzelos（2020）介绍了一种两步预处理方法，处理模型，用于处理糖尿病预测中的类别不平衡。在他们的建议中，首先使用四分位距（IQR）算法在不平衡数据集中搜索离群值。然后，这些离群值通过替换随机过采样并添加到原始数据中。最后，他们应用SMOTE来获得平衡数据。此外，基于该步骤序列，A. Banerjee等人在Banerjee等人（2021）中通过解决离群值（FOFO）模型引入了融合过采样框架，其中离群值也使用IQR识别，然后使用SMOTE过采样并添加到原始数据中最后利用SMOTE对数据进行这两个建议是基于IQR的离群检测，不考虑样本的数量，底层数据集（Barbato等人，2011年）。此外，它们在其他具有较低不平衡比的数据集上的表现也无法解释。在（Revathi和Ramyachitra，2021）中，Revathi等人介绍了过采样和降噪技术之间的一种新组合，即具有降噪功能的修正边界SMOTE（NRBSID）。他们的建议首先确定所有样本的倾向得分。然后，基于阈值，噪声样本被从小类中去除。最后，使用Borderline SMOTE对清理后的数据进行过采样。该提案基于●●●●A. Arafa，N. El-Fishawy，M. Badawy等人沙特国王大学学报5061ðÞBorderline-SMOTE，其仅在忽略主要类别时改善次要类别的分类器性能（Bunkhumpornpat等人，2011年）。此外，所用数据集的最大特征数仅为13个属性。因此，它在更高维度上的性能尚未得到检验。在（Liang等人，2020），Liang等人介绍了LR-SMOTE，其中SVM和k-means用于识别和消除训练数据中的噪声。然后，基于SMOTE，通过生成基于最近邻滤波的新样本来对数据进行过采样。该方案仅使用SVM和RF两种分类器进行评估。因此，它的性能对其他类sifier与不同的操作理论是不承认的。此外，评估中使用的数据集的最小不平衡比率为（42：689），属性的最大数量仅为14。因此，它在具有较低不平衡比或具有较高维度的其他数据集上的性能未得到说明。基于离群值检测的过采样技术（ODBOT）（Ibrahim，2021）是多类不平衡数据集的另一种建议。在ODBOT中，首先使用WBBA-KM聚类对数据进行聚类，以发现少数类和多数类的点之间的相异性关系。ODBOT的下一步是通过分析少数类和多数类中聚类中心之间的差异关系来检测少数类中的离群值。最后一步是根据少数类的最佳聚类边界生成样本。该解决方案使用的数据集的最大属性数仅等于90。因此，它在高维数据集上的性能尚未得到检验。另一个提议是选择性过采样方法（SOA）（Gnip等人，2021年）。在SOA中，小类中的离群值首先使用一类支持向量机（OCSVM）识别，然后删除。在去除离群值之后，对数据进行过采样以引入底层分类器。Gnip等人使用SMOTE和自适应合成采样方法（ADASYN）来平衡训练数据。该提案仅使用了四个真实世界的数据集，最大属性数等于20，而其他合成数据集为40。此外，全球机制评分是唯一使用的评价指标。因此，它在具有更高维度或使用其他度量的真实世界数据集上的性能是未知的。此外，SMOTE-IPF（Sáez等人，2015）被提出作为过采样技术和噪声滤波器之间的组合。在SMOTE-IPF中，首先使用SMOTE对训练数据进行过采样，然后使用迭代分割滤波器（IPF）去除噪声和边界线样本。使用真实世界数据集对该提案进行了评估，最大属性数仅等于19，最小不平衡比率等于（35：301）。因此，其在具有较低不平衡率或具有较高维度的其他数据集上的性能未得到说明。此外，仅使用使用AUC度量的C4.5分类器对其进行评估，而其他分类器或度量的性能未进行评估在（Puri和Kumar Gupta，2021）中，提出了一种名为K-Means-SMOTE-ENN的混合模型，它结合了bagging，K-Means聚类，编辑最近邻（ENN）和Ad-Boost。它首先使用K-Means聚类对每个子样本中的训练数据进行聚类。在每个集群内部，使用SMOTE对数据进行过采样。然后，通过使用ENN去除噪声。该提案使用最大属性数仅等于9的真实世界数据集进行评估。因此，它在其他高维数据集上的性能无法解释。这是除了它的时间计算成本排名最后的所有其他十五种方法相比。此外，基于噪声的过采样（DNOS）是另一种建议（Dan和Yian，2020），其中基于K均值聚类从次要和主要样本中去除噪声。然后用ADASYN对训练数据进行过采样。该解决方案仅使用单个分类器进行评估，该分类器是使用最小不平衡比等于（51：477）的真实世界数据集。因此，它在具有较低不平衡率或其他分类器的数据集上的性能是未知的。此外，噪声自适应合成过采样算法（NASOTECH）（Vo等人，2021）是其中使用噪声自适应合成过采样（NASO）规则的另一提议。NASO利用小类中每个样本的K最近邻来找到从该样本到其所有K最近邻的总距离。根据计算出的总距离，他们计算了少数群体中每个样本的噪声比。接下来，使用噪声比来确定每个次要样品要合成的样品数量。该解决方案仅使用单个分类器进行评估，该分类器是使用最大特征数等于294的真实世界数据集的SVM。因此，它的性能对其他分类器与不同的操作理论不被承认。这些研究证明，将SMOTE与离群点清理方法相结合，通过为不同的机器学习分类器提供低噪声平衡训练数据集，将提高它们的性能。然而，他们中的一些人将他们的方法应用于有限数量的分类器，并且他们的性能在其他类型的分类器上是未知的。其他人，不检查一些重要的评估指标。所有以前的工作评估他们的方法在有限数量的属性数据集此外，它们都不考虑具有非常关键的不平衡比率的数据集。这些观察使我们提出了以下研究问题：RQ 1：RN-SMOTE可以增强不同类型的分类器的性能吗？RQ 2：RN-SMOTE是否能超越当前最先进的方法？RQ 3：RN-SMOTE能否提高分类器在不同维度的真实数据集上的性能RQ 4：RN-SMOTE可以提高分类器在具有临界不平衡率的真实数据集上的性能吗？3. 拟议方法（RN-SMOTE）所提出的模型RN-SMOTE是SMOTE和DBSCAN之间的组合，以产生高质量的过采样训练数据集。在本节中，我们将简要介绍SMOTE和DBSCAN。然后，详细描述RN-SMOTE3.1. 合成少数过采样技术（SMOTE）合成少数过采样技术或其被称为SMOTE是用于解决不平衡分类问题的流行且广泛使用的过采样技术（Chawla 等人，2002 年）。在SMOTE中，通过从少数类中的每个样本及其最近邻居生成新样本来对少数类进行过采样，其中每个合成样本Xsyn由下式给出：Xsyn <$$> Xi随机0;1 n ×jX i-X邻居j <$1n其中Xi是来自少数类的给定样本，X邻居是从样本Xi的K个最近邻居中随机选择的样本，并且rand 0; 1是0和1之间的随机数。图1示出了如何从少数类生成合成样本（Borovicka等人，2012年）。SMOTE沿着连接两个真实实例的直线随机添加一个合成实例。SMOTE的伪码在算法1中给出（Krawczyk等人，2017年）。使用SMOTE进行过采样而不是使用其他方法（如随机过采样（ROS））●●●●A. Arafa，N. El-Fishawy，M. Badawy等人沙特国王大学学报5062图1.一、使用SMOTE生成合成的多核苷酸（Borovicka等人， 2012年）。就是避免过度拟合。这可以通过从次要类别合成新样品而不是如ROS中发生的那样复制它们来实现（Jeatrakul等人， 2010年）。尽管SMOTE在不同的应用领域都很受欢迎，性能也很好，但不幸的是，没有什么是绝对完美的，因此SMOTE存在许多问题。第一个问题是所使用的数据集的高维问题，这限制了大多数分类器提高其性能，尽管对次要类进行了过采样（Blagus和Lusa，2013）。另一个问题是忽略了主要类别的邻居，导致产生次要样本，导致类别之间的重叠更多，特别是当次要类别稀疏时（ Maciebranski 和Stefanowski，2011）。SMOTE的最重要的限制，无论数据集的维数是噪声样本的产生，作为其固有的随机性的结果，这是显而易见的，在方程。（一）. 这与可能存在于原始数据集中的噪声无关，并且可能用于生成新样本，从而导致噪声的更多传播和增加。这些噪声样本充当离群值，其在使用SMOTE对数据集进行过采样时误导许多分类器提高其性能（Cheng等人，2019; Rivera，2017）。因此，当应用SMOTE时，使用其中一种噪声去除技术是一种很好的做法。这有助于减少由SMOTE生成的噪声或可能存在于原始数据集中的噪声的影响，从而提高用于对数据集进行分类的分类器的性能。图二、D B S C A N 聚类的基本概念（Schubert等人， 2017年）。3.2. 基于密度的噪声应用空间聚类（DBSCAN）DBSCAN是基于密度的聚类算法家族之一，其用于确定可能存在于给定数据集中的任何形状的聚类（ Ester 等人， 1996 年）。DBSCAN仅使用两个参数，即集群的半径（eps）和创建新集群所需的半径eps的圆内的最小点数（MinPts）（Hao等人， 2015年）。它还将所有点分为三类，即核心点、边界点和噪声点。图 2说明了DBSACN背后的基本概念（Schubert等人，2017年）。给定MinPts等于4，eps是所画圆的半径。然后，根据DBSCAN的基本概念，很明显，点N被归类为噪声点，因为它不能从任何其他点到达。另一方面，点A被归类为核心点，而B和C点都被归类为边界点，因为它们是密度连接的，并且它们可以从点A到达。DBSCAN的伪代码在算法2中给出（Patwary等人，2012年）。通过使用DBSCAN作为聚类技术获得的主要优点之一是它能够识别从任何其他点都无法到达的孤立样本，并将其标记为A. Arafa，N. El-Fishawy，M. Badawy等人沙特国王大学学报5063图三. RN- SMOTE模式概述，显示步骤以及每个步骤的次要和主要类别。噪声（Bushra和Yi，2021; Huang等人，2017年）。因此，根据Patel和Thakral（2016），DBSACN被认为是可用于数据挖掘任务以检测离群值的最佳聚类算法之一。DBSCAN的另一个优点是自动发现存在于给定数据集中的聚类，它不需要用户从外部确定簇的数量（Zhou等人， 2015年）。应用DBSCAN时的一个重要实践是确定其参数eps和MinPts。排序的K-距离图是第一个并且仍然广泛使用的用于DBSCAN参数估计的技术（Elbatta等人，2013; Starczewski等人，2020; Wang等人，2015年）。在这种技术中，找到每个点的第K个最近邻居，然后根据第K个最近邻居的距离以升序排序。然后，我们找到结果曲线的最大曲率点，从中我们找到eps的值。以便在应用学习算法之前获得低噪声训练数据。其基本思想是将SMOTE应用于不平衡的训练数据。SMOTE的结果是平衡的训练数据，其中包含可能误导将在数据上拟合的分类器的噪声。因此，在下一阶段，应用DBSACN并去除检测到的噪声，从而产生干净但不平衡的数据，该数据与训练数据相结合。为了平衡该数据以准备用于分类器，再次应用SMOTE，从而产生干净的平衡数据。图3示出了根据本发明的实施例的概览。这个过程。为了确定DBSCAN的eps值，使用K距离图技术。对于训练集中的每个样本，确定第K个然后绘制K距离图。确定最大曲率点，从该最大曲率点确定eps。图4绘制了本文中使用的数据集之一的示例的K-距离图，该数据集是心脏分娩。具有标记的最大曲率点和最佳EPS值。为了找到MinPts值，我们假设一个值K参数用于找到第K个最近的邻居，也用作开始新集群（MinPts）所需的最小点数。K的假设值被选择为与训练集中的样本数量我们已经尝试了许多K值，并通过许多度量来估计性能。最终选择的K值是训练集中样本数量的自然对数，由下式给出：K1/2Ln1/2 Ln1/2 Ln1/2 Ln1其中N是所使用的训练集中的样本数在算法3中的伪代码中给出了找到具有假设值K的eps3.3. RN- Smote在本节中，我们描述了所提出的降低噪声- SMOTE。RN-SMOTE结合了DBSCAN和SMOTE过采样见图4。具有标记的最佳eps值的分娩力描记术数据集的K-距离图。A. Arafa，N. El-Fishawy，M. Badawy等人沙特国王大学学报5064图图5示出了所提出的RN-SMOTE的细节。如图5中的步骤所示，整个过程从使用10倍交叉验证分割每个使用的数据集开始。一个折叠保留用于模型评估，而其他9 个折叠用于训练模型。将SMOTE应用于训练集，仅导致过采样平衡但有噪声的训练集。提取小类样本，由DBSCAN处理使用等式中的K值（2）确定第K个最近邻并计算K-距离，然后在算法3中使用伪代码计算eps值计算的eps和K值（MinPts）作为参数传递对DBSCAN进行聚类，生成噪声聚类。去除所得到的噪声聚类中的样本。然后将得到的干净子项与原始训练集组合。每个使用的分类器在此组合上训练，而先前保留的测试折叠现在用于评估每个训练的分类器。4. 实验和结果讨论在本节中，我们讨论RN-SMOTE的评估。本文讨论了9种不同的分类算法的性能评价。该评估已经使用具有不同不平衡率（范围从1.94%到50.92%）和不同维度（特征数量范围从5到1557）的九个不同的真实世界数据集进行，使用广泛用于机器学习和数据挖掘中的分类器性能评估的六种不同的评估度量。我们的实验是为了回答第2中介绍的研究问题而组织的。4.1. 数据集本节提供了本文所用的采集数据集的简要特征。在本文的实验中，使用了9个不同的不平衡数据集，这些数据集来自不同的应用领域，代表了二进制分类问题。这些数据集具有不同数量的特征和不同的不平衡比率。表1列出了9个数据集中的每一个，每个数据集都有其特征，图五. RN-SMOTE的流程图所有数据集根据它们的不平衡比率被分类。表中的前5个数据集都是标准化的，所以在我们的实验中，它们都不会被标准化。准备这些数据集以用于离群值检测研究（Campos等人，2016 ）并从（https：//www.dbs.ifi.lmu. de/research/outlier-evaluation/DAMI/，n.d. ）.之所以选择这些数据集，是因为它们已经用于离群值检测，而且它们是不平衡的，适合本文的目的。其他4个数据集没有归一化，所以在我们的实验中，它们使用标准缩放器进行归一化。它们被（Zhang et al.，2021）用于不平衡分类，同时从（https：chive.ics.uci.edu/ml/datasets/ILPD ， n.d.;卢卡斯等人， 2013;Mandarin等人，2013; Yeh等人， 2009年）。A. Arafa，N. El-Fishawy，M. Badawy等人沙特国王大学学报5065TPFFN公司简介�P于�表1数据集描述。数据集#特性样本数量未成年人人数#专业正常化？不平衡比邮票113156309是的1.94%互联网广告15571630321598是的百分之二产电描记术231681331648是的百分之二WBC1145410444是的2.25%淋巴造影201486142是的4.225%气候2154046494没有百分之九点三一血液5748178570没有31.22%ILPD11583167416没有40.14%QSAR421055356699没有50.92%4.2. 评估指标在机器学习分类任务中，混淆矩阵参数（真阳性（TP），真阴性（TN），假阳性（FP）和假阴性（FN））是计算其他性能指标（如精度，召回率和 F1 得分）的主要参数（ Martin Ward Powers ，2011）。马修凝聚力的Kappa是一个度量，它测量预测类和真实类之间的一致性（Grandini等人，2020年）。另一个重要的度量是几何平均值（GM）评分，其由灵敏度和特异性的乘积产生，并且其被认为是用于不平衡分类的最可靠的性能度量（Helal等人，2016年）。GM得分的一个重要优点是测量过拟合如何忽略次要类和主要类，因此它主要用于评估具有不平衡数据集的分类器（Wang etal.，2021年）。表2列出了用于评估本文中使用的分类器的所有度量，其表达式基于混淆矩阵参数计算4.3. 实验结果讨论呼吸技术对机器学习分类器的性能有显著的影响。基于所使用的数据集和所使用的分类器的性质，当使用诸如SMOTE、随机过采样（ROS）等的任何过采样技术对数据集进行过采样时，许多分类器的性能通常会增加在本文进行的实验中，使用了9个分类器。这些分类器是分类和回归树（CART），梯度提升（GB），朴素贝叶斯（NB），随机森林（RF），K-最近邻（KNN），极端梯度提升（XGBOOST），随机梯度下降逻辑回归（SGD-LR），支持向量机（SVM）和自适应提升（Ada-Boost）。这些分类器已被用于这是由于它们在具有不同应用领域的机器学习中的流行。所有这些分类器都是通过Python库中的默认设置使用的，并且它们的超参数都没有优化。为了评估所提出的RN-SMOTE模型，我们比较了前面提到的每个分类器的性能，表2不平衡分类度量表达式度量表达式三个案子。第一种情况是只使用原始数据而不进行任何采样来训练分类器。第二种情况是使用SMOTE过采样后的原始数据最后，第三种情况是使用RN-SMOTE过采样后的原始数据训练分类器性能已使用上一节中讨论的所有指标进行了测量，并在表2中列出。为了进行公平的评估，在10倍交叉验证的每个分割中，前面提到的三种情况下的所有分类器都在相同的训练折叠上训练，并使用相同的测试折叠进行评估，如图所示。六、此外，为了准确地测量三种情况下每个分类器的性能，我们重复了100次训练和评估实验在100次中的每一次中，使用10倍分层交叉验证来训练和评估每个分类器然后，这些平均度量被分组100次，然后计算它们的平均值以获得三种情况中的每一种情况的最终平均度量。4.4. 使用血液数据集的所有分类器的结果讨论在本节中，我们将讨论Blood数据集上所有分类器的结果血液数据集有748个样本，主类有570个样本，次类有178个样本，不平衡率为图7在使用血液数据集的GM分数方面，绘制了在先前提到的三个测试用例中所有使用的分类器的性能之间图 8在次要回忆分数方面进行了比较。对于CART 分类器，RN-SMOTE 模型基于GM 评分的性能与SMOTE相比提高了2.55%，与原始数据集相比提高了3.9%GMMCCqTP×TNpTP：TN-FP：FN精密TPTP精密 FP召回TPTPFFNKappaPo- PeF12ω精度ωRecall见图6。 RN-SMOTE中分类器的训练和评估。1- Pe精确度和召回率A. Arafa，N. El-Fishawy，M. Badawy等人沙特国王大学学报5066图7.第一次会议。血液数据集的所有分类器GM评分图8.第八条。血液数据集的所有分类器召回分数与SMOTE相比，基于次要召回分数的性能提高了4.65%，与原始数据集相比提高了8.73%。对于 GB 分类器，基于 GM 评分的性能 RN-SMOTE 模型与SMOTE相比提高了1%，与原始数据集相比提高了13.79%而基于次要召回分数的性能与SMOTE相比提高了3.67%，与原始数据集相比提高了27.22%。对于 NB 分类器，基于 GM 评分的性能 RN-SMOTE 模型与SMOTE相比提高了10.94%，与原始数据集相比提高了26.16%而基于次要召回分数的性能与SMOTE相比提高了35.17%，与原始数据集相比提高了56.88%。表4GB分类器的结果总结。分类器：Gradient Boost（GB）粗体值表示每个指标列中每3个值中的最佳（最大）值，每个数据集作为一行。对于RF分类器，基于GM评分的性能RN-SMOTE模型与SMOTE相比提高了1.47%，与原始数据集相比提高了5.66%。而使用次要召回分数的性能提高了3.04%，与SMOTE相比，该模型与原始数据集相比，提高了11.18%。对于KNN分类器，当与SMOTE模型比较时，基于GM评分的RN-SMOTE模型的性能提高了0.87%，与原始数据集相比提高了8.62%而基于次要召回分数的性能与SMOTE相比提高了8.67%，与原始数据集相比提高了27.39%对于XGBOOST分类器，RN-SMOTE模型基于GM评分的分类性能比SMOTE模型提高了2.8%，比原始数据集提高了5.83%而基于次要召回分数的性能与SMOTE相比提高了5.35%，与原始数据集相比提高了12.6%对于SGD-LR分类器，与SMOTE相比，RN-SMOTE模型基于GM评分的性能提高了1.09%，与原始数据集相比提高了22.78%而基于次要召回分数的性能与SMOTE相比提高了0.71%，与原始数据集相比提高了39.85%。表3CART分类器的结果总结分类和回归树（CART）数据集度量模型GMKappaMCCF1精度召回产电描记术原始0.63420.49820.51450.50570.59350.4863击杀0.77290.61580.63050.62270.65780.6476RN-SMOTE0.79170.64790.66320.65410.69820.6723血液原始0.49760.15670.15980.33350.37930.3051击杀0.51110.1240.12540.33450.3320.3459RN-SMOTE0.53660.13820.14030.35750.33480.3924粗体值表示每个指标列中每3个值中的最佳（最大）值，每个数据集作为一行。数据集度量模型GMKappaMCCF1精度召回邮票原始0.4410.22130.17490.17570.16010.211击杀0.60740.39690.29840.29610.27350.345RN-0.59640.39470.30270.30060.27810.349击杀血液原始0.50950.25090.27230.37310.54670.2922击杀0.63740.28850.29370.4730.43650.5277RN-0.64740.28380.29210.47830.42080.5644击杀ILPD原始0.4950.16020.16750.35210.4430.3013击杀0.61180.2350.23960.4730.43640.5261RN-0.62190.24270.24920.48450.43560.5555击杀QSAR原始0.83480.69280.69630.79140.83060.76击杀0.84870.70.70210.80140.80110.8059RN-0.84880.69710.69930.80030.7940.8111击杀A. Arafa，N. El-Fishawy，M. Badawy等人沙特国王大学学报表55067NB分类器的结果总结。分类器：朴素贝叶斯（NB）数据集度量模型GMKappaMCCF1精度召回邮票原始0.48220.24950.18080.18420.17650.2击杀0.50810.26030.18260.18460.17610.202RN-SMOTE0.4970.26550.19260.19430.1850.214产电描记术原始0.58480.24080.26590.26090.20730.4404击杀0.79340.22580.30540.25070.15780.7408RN-SMOTE0.79880.19350.28170.22020.1340.7618气候原始0.11540.01360.02220.16670.09820.9707击杀0.36710.04250.11510.18980.10850.9752RN-SMOTE0.4180.05450.13560.19930.11490.9749血液原始0.4070.14520.16610.26440.45260.193击杀0.55920.22080.22880.3980.41680.4101RN-SMOTE0.66860.26210.30610.49750.37240.7618ILPD原始0.61360.24720.34920.55340.39060.9532击杀0.62630.25820.35480.55760.39670.9429RN-SMOTE0.64890.28100.36910.56720.40930.929QSAR原始0.71920.41350.48690.67060.51820.9531击杀0.74040.44480.50820.6840.53770.9431RN-SMOTE0.75310.46450.52020.69220.55160.9325粗体值表示每个指标列中每3个值中的最佳（最大）值，每个数据集作为一行。表6RF分类器的结果总结。分类器：随机森林（RF）粗体值表示每个指标列中每3个值中的最佳（最大）值，每个数据集作为一行。对于支持向量机分类器，基于GM评分的RN-SMOTE模型的分类性能比SMOTE模型下降了0.11%，但比原始数据集提高了29.29%。而基于次要召回分数的性能与SMOTE相比提高了2.76%，与原始数据集相比提高了50.49%。在Ada-Boost分类器中，RN-SMOTE模型在与SMOTE模型进行比较时，基于GM评分的分类器性能下降了0.65%，而与原始数据集进行比较时，基于GM评分的分类器性能而基于次要召回分数的性能与SMOTE相比提高了0.32%，与原始数据集相比提高了31.48%本节是对RQ1的回答。很明显，所提出的RN-SMOTE模型通过向不同的机器学习分类器提供低噪声平衡训练数据集来

下载后可阅读完整内容，剩余1页未读，立即下载