非平衡数据分类中的SMOTE-LOF方法对噪声识别的改进及其预测准确性

91 浏览量更新于2024-01-27 收藏 1.16MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

沙特国王大学学报非平衡数据分类中噪声识别的SMOTE-LOF方法Asniara，c，Nur Ulfa Maulidevia，b，Kridanto Surendroaa电子工程和信息学院，万隆技术学院，Jl. Ganesha 10，万隆，印度尼西亚bPUI-PT AI-VLB（人工智能视觉、自然语言处理大数据分析），印度尼西亚c印度尼西亚万隆Terusan Buah Batu Telkom大学应用科学学院阿提奇莱因福奥文章历史记录：收到2020年2020年12月27日修订2021年1月20日接受在线预订2021年关键词：不平衡数据SMOTE噪声数据离群值预测准确性A B S T R A C T不平衡数据通常是指某个问题中的几个数据样本不均匀分布的情况，从而导致数据集中一个或多个类的代表性不足。这些代表性不足的阶层被称为少数，而代表性过高的阶层被称为多数。数据的不均匀分布导致机器无法在确定少数类别时进行预测准确性，从而造成分类错误的各种成本。目前，用于解决不平衡数据学习的不均匀分布的标准框架是合成少数过采样技术（SMOTE）。然而，SMOTE可以产生被认为是噪声的合成因此，本研究的目的是改进SMOTE识别噪声的合成少数数据处理不平衡的数据，通过添加本地离群因子（LOF）。该方法被称为SMOTE-LOF，并进行了结果表明，SMOTE-LOF比SMOTE具有更好的精度和f-测度在具有大量数据示例和较小不平衡比率的数据集中，SMOTE-LOF方法也产生了比SMOTE更好的AUC。然而，对于数据样本数量较少的数据集，SMOTE的AUC结果可以因此，未来的研究需要使用不同的数据集进行，其组合取决于数据样本的数量和不平衡比率。版权所有©2021作者。由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY许可下的文章（http://creativecommons.org/licenses/by/4.0/）。1. 介绍不平衡数据通常指的是其中在某个问题中的数据样本的数量不是均匀分布的情况（Fernánet al.，2018年a）。当代表一个类的数据样本的数量显著低于其他类的数据样本数量时，就会出现这种分布不均衡，从而导致数据集中一个或多个类的代表性不足（Chawla等人，2002年;Durán-rosal等人，2018年; Fernán等人，2018 a; Gutiérrez等人，2017年）。这些代表性不足的阶层被称为少数或积极阶层，而其他人则被称为少数或积极阶层。*通讯作者。电子邮件地址：asniar@telkomuniversity.ac.id（Asniar），ulfa@informatika.org （ N.U. ） Maulidevi ）， endro@informatika.org （ K.Surendro）。沙特国王大学负责同行审查制作和主办：Elsevier称为多数或否定类（Chen等人， 2019; Fahrudin 等人， 2019 年 ;Fernán等人，2018 a; Galar等人，2012; Mohamad等人，2019年）的报告。不平衡数据是一种有问题的数据，不同于大的、不确定的和不一致的数据集（Mohamad等人， 2019年）的报告。许多现实世界的应用程序利用高度不平衡的数据，目标变量位于少数类中（Branco等人，2016; Bunkhumpornpat等人，2009; Chawla等人，2004;Chen等人，2019年）的报告。目标变量的这种罕见或不常见值通常与最终用户的高度相关和重要事件有关（Branco等人，2016年; Chen等人，2019年）的报告。因此，尽管其稀缺性，少数类的数据样本在某些情况下具有更高的重要性，例如罕见疾病的诊断，欺诈检测，流失检测，识别学生的学业失败，股票市场的异常回报，灾难预测等（Branco et al.，2016; Fahrudin等人，2019年）的报告。在许多实际应用中，正确地对少数类别的样本进行分类通常比对多数类别的样本进行分类更重要（Sanz等人，2015年）。这是因为机器学习的预测准确性的结果在预测少数类时是不准确的，从而导致分类错误的各种成本（Chawla等人，二○ ○二年;https://doi.org/10.1016/j.jksuci.2021.01.0141319-1578/©2021作者。由Elsevier B.V.代表沙特国王大学出版。这是CC BY许可下的开放获取文章（http://creativecommons.org/licenses/by/4.0/）。可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页：www.sciencedirect.comAsniar，Nur Ulfa Maulidevi和K.苏伦德罗沙特国王大学学报3414¼Fernán等人，2018年a）。此外，这也是由于机器学习的分类器算法对大多数类的习惯性偏见。因此，根据频繁分类的数据样本，多数和少数类别的总体准确性非常高和低。理想情况下，两类的预期准确度都是100%（Chen等人，2019年; Fernán等人，2018年a）。根据（Baranovich等人，2003年;Fernán等人，2018年a），由于无法显示数字，整体准确性不再是sce-nario中不平衡数据的适当测量从不同类别中正确分类的数据样本。因此，需要适当地处理不平衡的数据，以提高机器学习在预测次要类别中的准确性，而不损害它们在预测主要类别中的准确性。欠采样和过采样方法是处理不平衡数据的标准方法，但两者都有各自的局限性。例如，欠采样导致数据样本的更多擦除，这最终导致数据短缺的问题，增加了丢失重要数据的可能性（Fernán等人，2018 b;Pak等人，2018年; Wasikowski和Chen，2010年），而过采样导致原始数据重复，从而导致少数类的过度拟合（ Chawla ， 2009 年 ;Fernánovel等人，2018年a）。过采样的问题已经用合成少数过采样技术（SMOTE）来控制，该技术是基于少数类的每个实例的最接近的kNN 来增加合成数据的技术（ Chawla 等人， 2002 年）。使用SMOTE，原始数据用于合成与原始数据不同的新的少数数据，从而减轻过拟合的影响（Fahrudin等人，2019; Pak等人，2018年）。根据（Fernánet al.，2018 b），SMOTE已经成为不平衡数据的学习框架中的标准，然而，已知该技术会产生噪声，从而冒着少数类别的合成数据样本被识别为多数类别的一部分的风险（ Barua 等人， 2014;Ramentol等人，二〇一二年;Sáez等人， 2015年）。已经进行了几项研究来改善错误与SMOTE相关的研究，例如将SMOTE方法与TomekLinks和Wilson编辑的最近邻规则数据净化方法相结合的研究（Batista等人，2004年）。另一项研究是FRIPS-SMOTE-FRBPS，其使用模糊作为原型选择方法，用于在SMOTE过程之前和之后清除数据噪声（Verbiest等人，2014年）。同时，将SMOTE方法与数据选择方法相结合，采用粗糙集理论（Rough Set Theory，简称RST）方法，对SMOTE产生的每个合成数据实例进行基于相似关系的重新选择，试图消除噪声（Ramentol例如，2012年）。此外，SMOTE-IPF尝试将基于SMOTE的过采样技术与称为IPF（迭代划分滤波器）的迭代滤波方法相结合，以消除视为噪声（Sáez等人， 2015年）。其他的研究是LN-SMOTE，TOR（LOF）方法识别合成少数数据中的噪声，提高处理不平衡数据的预测精度。所提出的方法由五个主要步骤组成（You等人，2020年）。首先，从SMOTE中确定每个少数类数据样本的k-最近邻（kNN）。第二步和第三步分别计算k-距离和可达距离。第四，计算局部可达密度和等效LOF值。最后，根据LOF值对噪声进行分析和识别。实验使用不平衡数据集进行，然后将准确度结果与SMOTE所实现的结果进行比较。本研究的组织如下。第2节介绍了不平衡数据分类的问题和噪声的影响。第3节讨论了所提出的方法，而第4节描述了实验框架。此外，第5节介绍了实验结果和评估的分析，而第6节包含的讨论所提出的方法的兼容性以及未来的研究可能性。最后，在第7中对研究进行了总结。2. 不平衡数据分类本节介绍了第2.1节中的不平衡数据问题，以及第2.2中描述的噪声影响。2.1. 数据不平衡问题根据（Krawczyk，2016），不平衡分类问题分为二进制和多类。在二进制不平衡分类中，类之间的关系是明确定义的，其中一个是多数，而另一个是少数（Krawczyk，2016）。当多数类中的实例超过少数类中的实例时，发生不平衡的类分布（Chen等人，2019; Galar等人，2012年）。图1表示两个比例为1：100的不平衡数据类的分类问题，这意味着对于每个阳性类（少数样本），有100个阴性类（多数样本）。阳性类别的样本由蓝色星号“X”表示，而阴性类别的样本由红点“X”表示。（Fernán等人，2018年a）。根据这一数字，可以看出，积极类别的代表性不足，难以确定将这两个类别分开的边界决定。数据集可以根据不平衡比（IR）被分类为不平衡数据，不平衡比（IR）被定义为多数类中的数据样本数量与少数类中的数据样本数量的比例（Fernández等人，2010年）。IR测量的方程使用以下公式表示（Sáez等人， 2015年）：关于所考虑的示例的局部邻域的更精确的信息（MacIebranski和Stefanowski ， 2011 ）和用于授权 SMOTE 的选择性过采样（NnamokoIRN-Nð1Þ和Korkontzelos，2020）。然而，这些研究仍然表现出一些缺点，如用户无法确定产生的类的分布，复杂的规则和重复使用擦除，这被认为是噪音。因此，本研究的目的是确定一种新的噪声识别方法，而不必犯重复擦除的数据样本被视为噪声。局部离群因子（LOF）（Breuniq等人，2000）最初用于检测样本的离群值，已经得到了很好的研究（涂例如，2018年）。因此，本研究的目的是发展SMOTE-LOF，以改善传统的SMOTE，增加局部离群因素，其中N-和N+是大多数样本的数量，少数民族班。因此，当IR > 1时，数据集是不平衡的（Sáez等人，2015年）。这种不平衡的数据分类带来的问题是，机器学习的分类器算法通常偏向于多数类。因此，总体准确度高，而多数和少数类别的准确度分别高和低（Chen等人，2019年; Fernán等人，2018年a）。因此，需要不平衡的数据处理来提高预测性能的准确性，而不损害预测少数类别的准确性。Asniar，Nur Ulfa Maulidevi和K.苏伦德罗沙特国王大学学报3415⁄⁄←⁄-←⁄-* ⁄图1.一、两个类别之间的数据不平衡，比例为1：100（Fernánet al.，2018年a）。2.2. 噪声对不平衡数据分类的影响噪声被定义为错误的标签（类别噪声）或属性值中的错误（属性噪声）（Salgado等人，2016年）。图2示出了包括噪声的数据样本，诸如边界样本和安全样本。其中n、b和s表示噪声、边界和安全样本（Sáez等人， 2015年）。根据（Napieraelena et al.，2010），即使数据已经与SMOTE平衡，噪声也会使重新定位方法的任务复杂化。少数民族综合数据的样本例如，2014; Chawla等人，2002; Ramentol等人，2012; Sáez等人， 2015年）。3. SMOTE与局部离群因子相结合克服非平衡数据本节讨论了所提出的方法，即SMOTE和局部离群因子（LOF）的组合，以克服处理不平衡数据时的噪声问题第3.1 节集中于SMOTE（Chawla等人， 2002）作为所提出方法的基础，而第3.2节着重于使用LOF来识别由SMOTE产生的噪声的建议。3.1. 合成少数过采样技术合成少数过采样技术（SMOTE）是使用附加合成数据实现的过采样过程（Chawla等人，2002年）。根据（Fahrudin等人，2019; Pak例如，2018），使用SMOTE获得的原始数据用于合成与原始数据不同的新的少数数据，从而减轻过拟合对少数类的影响。算法1SMOTE（T，N，k）输入：少数类样本数量T，SMOTE数量N%，最近邻数k输出：（N/100）*T 合成少数类样本1. （如果N小于100%，则随机化少数类样本，因为只有随机百分比的样本将被SMOTEd。）的方式2. 如果N小于1003.然后随机化T个少数类样本4.T =（N/100）/T5.N= 1006. endif7. N=（int）（N/100）（⁄ SMOTE的量假定为100的整数倍。（1）8. k=最近邻9. numattrs =属性10. Sample[ ][ ]：原始少数类样本11. newindex：保存生成的合成样本的数量，初始化为012. Synthetic[ ][ ]：合成样本（仅计算每个少数类样本的k个最近邻。）的方式13. 对于i1到T14.计算i的k个最近邻，并将索引保存在nnarray中15.Populate（N，i，nnarray）16. 结束Populate（N，i，nnarray）（<$Function生成合成样本。（1）17. 当N18.在1和k之间随机选择一个数，称之为nn。这一步选择i的k个最近邻居之一。19.对于attr1到numattrs20.计算：dif = Sample[nnarray[nn]][attr]Sample[i][attr]21.计算：gap =0和122.合成[newindex][attr] =样品[i][attr] +间隙dif23.结束24.Newindex++25.N = N 126. endwhile27. return（填充结束。伪代码结束SMOTE基于最近邻算法（kNN）的思想，并假设合成数据样本可以在原始数据和最近邻数据之一之间插值。SMOTE算法从少数类中计算出每个数据样本的近邻环境，随机选取其近邻，通过每个样本与所选近邻之间的数据插值得到合成数据当要产生的合成数据样本的数量小于原始数据集的大小时，随机选择该算法，并使用原始数据相反，当要进行的合成数据样本的数量大于所述大小时，Asniar，Nur Ulfa Maulidevi和K.苏伦德罗沙特国王大学学报3416ti¼1S¼N-我uPP该算法使用预定的过采样率迭代地创建合成数据样本（Chawla等人，2002年;Gutiérrez等人， 2017年）。算法SMOTE（Chawla等人，2002）需要以少数数据样本的数量（T）、过采样率（N）和最近邻（k）的形式的输入。主要过程是搜索和确定最近邻，然后通过每个少数实例和最近邻之间的数据插值进行合成生成（Chawla等人， 2002年）。3.2. 用于识别SMOTE产生的噪声的局部离群值因子根据Foreman（2014）的说法，离群值是数据集中的奇数点。它也被称为异常、不一致、偏差或异常，而噪声可以被定义为错误的标签（类噪声）或属性值中的错误（属性噪声）（Salgado例如，2016年）。通常情况下，大多数离群值都是噪声，但有时它们会纠正数据.因此，在本研究检测到的大量离群值中，被识别为噪声的离群值来自SMOTE生成的合成少数类样本本研究旨在使用局部离群值因子（LOF）识别SMOTE产生的噪声，该因子可用于以更有意义的方式识别离群值，每个对象都有一个度（Breuniq等人，2000年）。用于检测离群值的其他方法是LiCS，其使用每个节点的K最近邻（kNN）对样本进行分类（Benzoun等人，2019）和使用具有k距离计算的kNN图进行离群值检测（Asniar和Surendro，2014）。与LOF类似，此k距离计算为离群度得分，并提供有意义的数据图二、 Noisy Samples（Sáez等人， 2015年）。（二）、确定每个数据集属性的平均值和标准差值。因为计算考虑了每个物体邻近环境中的局部因素（Foreman，2014）。LOF算法是一种无监督的数据挖掘技术，它首先被提出用于基于密度和完全自由分布假设的离群值检测（Breuniq等人，2000年）。与将异常值视为二元属性的传统异常值检测方法不同，LOF将异常值的程度分配给所有数据记录（Tu等人， 2018年）。算法2SMOTE-LOF（x，o，k）输入：包含来自SMOTE的少数类数据样本的数据集o，数据集中少数类数据样本×的对象X-¼PXivn。ﬃﬃﬃXﬃﬃﬃﬃﬃﬃﬃﬃﬃﬃXﬃ-ﬃﬃﬃΣﬃﬃ2ﬃﬃn-1其中，X-：平均值（每个属性的平均分布值S：标准差（每个属性的分布标准差）ð2Þð3Þo，最近邻数k输出：局部离群值因子lof（x，o，k）1.平均值（x）2.stdev（x）3.normalize（x）4.dist（x，y）5.knn（k）6.k_dist（x）7.reach_distk（x，o）8.lrd（x）9.lof（x，o，k）= lof（x）10.return lof（x，o，k）伪代码结束Xi：从每个少数类数据样本中Xi：少数类数据样本编号：小类数据样本（三）、标准化从每个少数数据样本中测量的每个属性的值。用于标准化每个属性值的标准方法是减去属性的平均值，再除以属性的标准差Z¼X-1ð4Þ图3和SMOTE-LOF算法说明了使用LOF从SMOTE生成的小类数据样本中检测离群值的技术步骤，如下所示：（一）.为噪声识别处理的数据集属于少数类别。这是因为被识别为噪声的只是来自合成样本的数据，这些数据只由少数类处理。R其中，Z：Z评分或标准正常值X：每个属性的值l：各属性的分布均值r：各属性的分布偏差标准Asniar，Nur Ulfa Maulidevi和K.苏伦德罗沙特国王大学学报3417ðÞð ÞðÞKP-1;P-2; P-3K图三. 用局部离群因子（LOF）进行噪声识别。（四）、使用欧几里得距离计算确定少数数据样本之间的距离。欧几里德距离是两个节点（最小类数据样本）之间的距离，即两个节点（最小类数据样本）的每个列值的差的平方和的平方根。vutX到最近的邻居。对于k = 5，这意味着k-distance返回每个少数数据样本到第5个最近邻的距离。kdistxmaxfdistx;ojo2Nkxg7其中，k_dist（x）：对象x到数据集中另一个对象的k距离最接近的邻居（nearest neighbor）dist（x，o）：对象x与数据集o中另一个对象之间的欧氏距离（即最近邻）。（七）、使用可达性距离计算确定少数类数据示例之间的距离。到达最大距离;到达最大距离;到达最大距离其中，到达距离kx;o：之间的可达距离对象x和数据集o中的另一个（最近邻）。kdistan ce o：中另一个对象的k距离数据集O到数据集O中的另一个（最近邻）。ðÞ分布图其中，1/1 xi-yið5Þdistx; o：欧氏距离在x个少数民族样本和另一个在数据集O（最近邻）中。dist x;y：对象x和y之间的欧几里得距离（少数民族数据样本）。xi：一个少数类数据样本yi：另一个少数民族类数据样本编号：的属性(5). 根据先前计算的欧几里德距离在这个阶段，A（八）、根据可达距离计算LOF值。LOF值是每个少数样本的平均可达距离除以每个k-近邻的平均可达距离的平均比率K每个少数群体样本的距离排序从第0个排序开始，第0个排序与图表成对角线。lrdxreach dist xo 9o2NkxPo Nxlrdo然后确定x的k-最近邻（kNN）kNN返回大小为k的集合N（x）≠0，使得：lof其中，ð10Þ8o2Nkx;8y2O;yRNkx）distx;o≤distx;y6其中，o：包含来自SMOTE的x：一个少数类对象数据样本k：最近邻dist（x，y）：物体之间的欧氏距离x和y.(6). 计算k距离值该阶段首先基于所计算的距离评级来确定最接近具有k的邻居的其他次要样本的距离评级。K-距离是从少数样本的距离lof** ：数据集中对象x的局部离群值因子lrd数据集：数据集中对象的局部可达性密度lrdx：对象x的局部可达性密度（九）、基于LOF值的噪声分析和识别被识别为噪声的异常值仅来自SMOTE生成的合成少数类样本，而不是来自原始样本。被识别为噪声的数据被擦除，随后是少数和多数类样本的重组，用于使用如图1所示的机器学习分类器进行分类。四、Asniar，Nur Ulfa Maulidevi和K.苏伦德罗沙特国王大学学报3418见图4。实验框架。表1所用数据集的特征数据集#示例#属性少数类#少数民族#多数类IR皮马7688积极2685001.87哈伯曼3063死812252.78玻璃2149积极761381.824. 实验框架本节描述了使用SMOTE和LOF的组合来克服噪声问题的实验处理不平衡的数据。该实验使用了 3个不平衡数据集，即 Pima1 ，Haberman2和Glass3。Pima数据集用于确定Pima印第安人的医疗记录以及每个患者是否在五年内患有糖尿病字段描述包括妊娠次数、血糖浓度、2小时口服葡萄糖耐量试验、舒张压（ mm Hg ）、三头肌皮褶厚度（mm）、2小时血清胰岛素（mu U/ml）、体重指数（体重kg/（身高m）2）、糖尿病谱系函数、年龄（岁）和类别变量，其中1和0分别用于表示糖尿病检测阳性和阴性。哈伯曼数据集包含了1958年至1970年在芝加哥大学比林斯医院进行的一项研究中的病例，该研究是属性包括手术时患者年龄、手术年份、检测到的阳性腋窝淋巴结数量和生存状态（类别属性，1：患者生存5年或更长时间2：患者在5年内死亡）。Glass数据集是Glass鉴别数据集的不平衡版本，其中阳性和阴性样本分别属于1类和其余类。样品识别编号由9个输入变量组成，这些变量总结了玻璃数据集的属性，即RI（折射率）、Na（钠）、Mg（镁）、Al（铝）、Si（硅）、K（钾）、Ca（钙）、Ba（钡）和Fe（铁）。1https://www.kaggle.com/kumargh/pimaindiansdiabetescsv网站。2https://www.kaggle.com/saguneshgrover/haberman。3https://sci2s.ugr.es/keel/imbalanced.php#sub2A每个数据集的特征如表1所示。对于每个数据集，显示了数据样本的数量（#Examples）、属性（#Attributes）、少数类属性（MinorityClass）、少数类属性（#Minority Classes）、多数类属性（#MajorityClasses）以及多数类和少数类之间的不平衡比率（IR）。本研究使用WEKA工具（http://www.cs.waikato.ac.nz/ml/weka/）的默认参数设置该实验使用C4.5，朴素贝叶斯和SVM作为基础分类器进行，具有5倍交叉验证。此外，对于SMOTE处理，主要和次要数据的放大率最近邻参数k设置为5，这是不平衡数据情况下最常用的值为了识别由具有LOF的SMOTE生成的噪声，最近邻参数k被设置为3和5。对实验进行评价，以确定准确度、精密度、召回率、f-测量值和受试者工作特征曲线（AUC）下的面积，这是基于混淆矩阵值的最常用的二元分类测量值（Sokolova和Lapalme，2009）。实验步骤如图4所示。所采取的方法包括（i）没有红线指示的SMOTE预处理，(ii)一种通过应用SMOTE来处理不平衡数据的方法（Chawla等人，2002）所示的黑线，和（iii）提出的方法，通过应用SMOTE和LOF的组合来识别噪声处理不平衡的数据显示的灰色线。每种方法都是单独比较的。所有这三种方法都是从不平衡的数据集开始的，在没有使用机器学习分类器进行SMOTE预处理的情况下，建模的性能如红线所示。对于其他方法，不平衡的数据集需要首先使用SMOTE进行平衡，如黑线所示，而对于SMOTE方法，在使用机器学习分类器获得平衡数据后进行预测建模。而对于Asniar，Nur Ulfa Maulidevi和K.苏伦德罗沙特国王大学学报3419提出的方法，在SMOTE过程之后，使用局部离群因子（LOF）对平衡数据集进行噪声识别，如灰色线所示。此外，平衡数据集被分成多数和少数类，少数类被处理用于噪声识别。这是因为被识别为噪声的仅仅是来自合成数据的数据样本，而来自SMOTE过程的数据样本被少数类所拥有。SMOTE生成的所有少数类示例都在使用LOF进行噪声识别期间进行处理，详细步骤如图3所示。接着，擦除被识别为噪声的数据样本，而由SMOTE产生的噪声已被擦除的少数类数据与多数数据重组，以获得SMOTE产生的没有噪声的数据集。接下来是使用预测建模作为机器学习分类器，如图4所示。实验评估使用了C4.5、朴素贝叶斯和SVM建立的分类模型的准确度、精确度、召回率、f-测量和AUC，并进行了5倍交叉验证。5. 结果和评价本节讨论使用LOF从噪声识别过程中获得的结果，如图3所示。它还评估了实验框架的结果，如图所示。四、5.1. 基于LOF的噪声识别可视化方法在执行如图3所示的详细噪声识别步骤之后，噪声从具有如图3所示的SMOTE生成的样本的少数类数据中被识别。五、对于使用k = 3的Pima数据集的实验，获得的离群值识别结果为第6、63、244、274、307、451和483个少数样本。由于第1到第268个是原始的少数样本，因此它们之间的一些识别出的离群值未被识别为噪声。因此，不在LOF值为1.974的该区间之间的那些被识别为噪声。例如，第307、451和483个少数民族样本的LOF值分别为2.123、1.881和2.195。对于使用k = 5的Pima数据集的实验，获得的离群值识别结果为第6、63、207、244、307、330、371、451和483个少数样本。由于第1个到第268个是原始的少数样本，因此在它们之间的一些识别出的离群值没有被识别为噪声。因此，被识别为噪声的数据样本是在该间隔之外的那些，即第307、330、371、451和483个，LOF值为1.941、1.513、1.522、1.673和1.817。对于使用k = 3的Haberman数据集的实验，获得的离群值识别结果是第6、第93和第105个少数样本。由于第1到第81个是原始的少数样本，因此它们之间的离群值不被识别为噪声。因此，被识别为噪声的是该区间之外的样本，例如LOF值为5.933和29.245的第93和第105个样本。对于使用k = 5的Haberman数据集的实验，获得的离群值识别结果是第2、第3、第10、第81、第199和第224个少数样本。由于第1至第81个是原始少数样本，因此该区间之间的离群值未被识别为噪声。因此，被识别为噪声的数据样本是该区间以外的离群值，即LOF值为1.679和1.675的第199和224个对于使用k = 3的Glass数据集的实验，获得的离群值识别结果为第19、71、72、111和第117章小人物由于第1至第76个是原始少数样本，因此该区间以外的离群值未被识别为噪声。因此，被识别为噪声的数据示例是LOF值为1.781和1.876的111和对于使用k = 5的Glass数据集的实验，获得的离群值识别结果为第19、27、49、71、113、117和133个少数样本。由于第1至第76个是原始少数样本，因此该区间之间的离群值未被识别为噪声。因此，被识别为噪声的数据样本是该区间之外的数据样本，即LOF值为1.441、1.668和1.438的第113、117和133个样本。这之后是擦除被识别为噪声的所有数据样本，之后是使用机器学习分类器重新组合用于分类的主要类别数据示例的过程，如图4所示。此外，实验结果的预测精度进行了评估。5.2. 实验结果评价通过比较以下方法来评估每个数据集：（i）没有SMOTE预处理（无），（ii ）使用 SMOTE 处理不平衡数据（ Chawla 等人，2002），和（iii）提出的方法，通过结合SMOTE和LOF噪声识别处理不平衡的数据，称为SMOTE-LOF方法。评价使用了来自C4.5、朴素贝叶斯和SVM（均具有5倍交叉验证）构建的分类器建模的准确度、精密度、召回率、 f- 测量和受试者工作特征曲线下面积（AUC），见表2、3和4。表2给出了没有SMOTE处理的方法（无）、SMOTE方法和使用Pima数据集的SMOTE-LOF方法从该表中，结果表明，SMOTE和SMOTE-LOF具有比所有分类器的没有SMOTE处理的方法（无）更好的精确度（ 3- 通过 C4.5 获得， SMOTE 和 SMOTE-LOF 也比没有SMOTE处理的方法高5.6%的精度（无）。然而，通过朴素贝叶斯和SVM技术获得，没有SMOTE处理的方法（无）比SMOTE和SMOTE-LOF具有3-表3比较了使用Haberman数据集的三种方法。实验结果表明，SMOTE 和 SMOTE-LOF 的准确率（ 35-74% ）、召回率（ 68-2750% ）、 f-measure （ 29-1892% ）和 AUC （ 3-32% ）均优于无SMOTE处理的方法（None），除SVM方法外，无SMOTE处理的方法（None）的准确率（26-29%）均不使用SMOTE处理的方法（无）也比所有分类器的SMOTE和SMOTE-LOF的准确率高1-表4比较了使用Glass数据集的三种方法。实验结果表明，SMOTE和SMOTE-LOF的准确率（3-18%）、精确率（23-37%）、召回率（0.1-43%）、f-measure（21-34%）和AUC（2-22%）均优于无SMOTE处理的方法（None），除SVM外，无SMOTE处理的方法（None）的准确率比SMOTE和SMOTE-LOF高6-15%。实验结果表明，不经过SMOTE处理的方法（None）比SMOTE-LOF方法（k = 5）的召回率提高了0.1%。由C4.5得到的，没有SMOTE处理的方法（无）比SMOTE和SMOTE-LOF（k =5）的精度高1.22%。总的来说，所有三个数据集在三种方法中都成功分类，表5显示了它们的平均性能。结果表明，SMOTE和SMOTE-LOF算法与无SMOTE处理的方法相比，在所有数据集上都有更好的查准率、查全率、f-measure和AUC结果的Asniar，Nur Ulfa Maulidevi和K.苏伦德罗沙特国王大学学报3420图五、噪声识别的局部离群因子（LOF）可视化表2Pima数据集的结果（%）。分类器没有一击杀SMOTE-LOFk = 3K = 5C4.5精度71.0973.0375.1375.10精度58.3072.9070.4071.60召回60.1073.5086.3082.90F-measure59.2073.2077.6076.80AUC72.6276.5377.0379.26朴素贝叶斯精度76.0473.5372.4272.69精度67.4075.7075.3075.90召回60.8069.5066.4066.10F-measure63.9072.4070.6070.70AUC81.6981.8781.2381.36SVM精度77.2174.8374.2274.10精度73.4076.1075.8075.40召回54.5072.5071.0071.20F-measure62.5074.2073.3073.20AUC71.9474.8374.2474.08每个分类器的最佳情况以粗体突出显示。Asniar，Nur Ulfa Maulidevi和K.苏伦德罗沙特国王大学学报表33421Haberman数据集的结果（%）分类器没有一击杀SMOTE-LOFk = 3K = 5C4.5精度70.9268.8971.8870.54精度42.3069.8073.7072.60召回27.2066.7067.7065.50F-measure33.1068.2070.6068.90AUC56.4474.6173.2873.05朴素贝叶斯精度74.5162.2261.1662.05精度55.2076.7074.7077.30召回19.8035.1033.2033.60F-measure29.1048.2046.0046.90AUC63.9865.9765.6267.13SVM精度73.8662.6761.6160.04精度100.0079.4078.0077.50召回1.2034.2031.8027.80F-measure2.4047.8045.2040.90AUC50.6262.6761.4759.90每个分类器的最佳情况以粗体突出显示。表4玻璃数据集的结果（%）。分类器没有一击杀SMOTE-LOFk = 3K = 5C4.5精度68.2270.2971.5367.40精度55.6070.0069.9068.50召回52.6071.0075.0063.00F-measure54.1070.5072.3065.60AUC67.9374.0970.9569.34朴素贝叶斯精度50.9359.7862.0460.07精度41.5055.8057.0055.80召回93.4093.5095.6093.30F-measure57.5069.9071.4069.80AUC63.0565.9266.0764.41SVM精度64.4960.1460.9556.04精度0.0057.5058.8054.30召回0.0077.5071.3069.60F-measure0.0066.0064.5061.00AUC50.0060.1461.0256.19每个分类器的最佳情况以粗体突出显示。表5业绩的平均结果数据集没有一击杀SMOTE-LOFk = 3K = 5皮马精度74.7873.8073.9273.96精度66.3774.9073.8374.30召回58.4771.8374.5773.40F-measure61.8773.2773.8373.57AUC75.4277.7477.5078.23哈伯曼精度73.1064.5964.8864.21精度65.8375.3075.4775.80召回16.0745.3344.2342.30F-measure21.5354.7353.9352.23AUC57.0167.7566.7966.69玻璃精度61.2163.4064.8461.17精度32.3761.1061.9059.53召回48.6780.6780.6375.30F-measure37.2068.8069.4065.47AUC60.3366.7266.0163.31每个数据集的最佳情况以粗体突出显示。Asniar，Nur Ulfa Maulidevi和K.苏伦德罗沙特国王大学学报3422表6通过C4.5获得的准确度结果（%）的比较分析。数据集#示例IRSMOTE精度SMOTE-LOF精度k = 3K = 5皮马7681.8773.0375.1375.10哈伯曼3062.7868.8971.8870.54玻璃2181.8270.2971.5367.40每个数据集的最佳情况以粗体突出显示。表7通过C4.5获得的F测量结果（%）的比较分析。数据集#示例IRSMOTE F-MeasureSMOTE-LOF F-测度k = 3K = 5皮马7681.8773.2077.6076.80哈伯曼3062.7868.2070.6068.90玻璃2181.8270.5072.3065.60每个数据集的最佳情况以粗体突出显示。表8通过C4.5获得的AUC结果（%）的比较分析。数据集#示例IRSMOTE AUCSMOTE

下载后可阅读完整内容，剩余1页未读，立即下载