K最近邻超采样：解决不平衡数据集的新方法

166 浏览量更新于2024-01-25 收藏 452KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

软件影响12（2022）100272原始软件出版物K Nearest Neighbor OveRsampling方法：用于数据扩充AshhadulIslama，Asha， SamirBrahim Belhaouaria，AtiqUr Goumana，HalimaBensmailba卡塔尔哈马德·本·哈利法大学信息和计算技术系b卡塔尔计算研究所，卡塔尔A R T I C L E I N F O保留字：数据增强机器学习不平衡数据最近邻代码元数据A B标准数据是丰富的，但不平衡的数据集的问题一次又一次地出现，困扰分类器并降低准确性。本文介绍了K最近邻超采样（KNNOR）算法-一种新的数据增强技术，该技术考虑了数据的分布，并在生成人工数据点时考虑了k个最近邻。 KNNOR算法在将人工少数数据点注入不平衡数据集后，使分类器能够实现更高的准确性，从而优于最先进的增强算法。这种方法特别适用于健康数据集，其中不平衡是常见的，甚至可以应用于较低维度的图像当前代码版本v1用于此代码版本的代码/存储库的永久链接https://github.com/SoftwareImpacts/SIMPAC-2021-193Reproducible Capsule的永久链接https://codeocean.com/capsule/0210056/tree/v1法律代码许可证MIT使用git的代码版本控制系统使用Python的软件代码语言、工具和服务编译要求，操作环境依赖性Numpy，Scikit-Learn，KnNOR如果可用开发人员文档/手册链接https://bit.ly/knnorDoc问题支持电子邮件aislam@hbku.edu.qa1. 介绍近年来，机器学习和神经网络已经改变了从健康，软件到广告的各个行业[1在实施方面，所有这些行业都面临着一个共同的困境-数据不平衡。神经网络和模型在不同类别之间具有很大差异的数据上训练，导致模型偏向于大多数类别[4多年来，已经提出了许多数据驱动和基于算法的解决方案来解决不平衡问题[8]。本文介绍了K-Nearest Neighbor OveRsampling（KNNOR）方法[9]，该方法建立在SMOTE算法的基础上，并适合属于少数类的新数据点实现可以在Github上找到。一个教程视频已经在youtube上发布。2. 描述K最近邻超采样方法（KNNOR）基于以下参数工作。2.1. 相邻要素的数目人工少数点是以少数数据点为源点，通过一定数量的相邻点生成的。用户提供要使用的邻居的该计数（k）2.2. 用于创建人工数据点的少数点的比例并非所有少数点都用作源，因为一些少数点可能位于危险区域，与数据点非常接近本文中的代码（和数据）已由Code Ocean认证为可复制：（https://codeocean.com/）。更多关于生殖器的信息徽章倡议可在https://www.elsevier.com/physical-sciences-and-engineering/computer-science/journals上查阅。∗通讯作者。电子邮件地址：aislam@hbku.edu.qa（A. 伊斯兰教）。https://doi.org/10.1016/j.simpa.2022.100272接收日期：2021年12月21日;接收日期：2022年2月26日;接受日期：2022年3月17日2665-9638/©2022作者。由Elsevier B.V.出版。这是一篇开放获取的文章，使用CC BY许可证（http://creativecommons.org/licenses/by/4.0/）。可在ScienceDirect上获得目录列表软件影响杂志首页：www.journals.elsevier.com/software-impactsA. 伊斯兰，S.B.Belhaouari，A.U.Albertman等人软件影响12（2022）1002722Fig. 1. 人工CIFAR10飞机图像由KnNOR生成[10]。另一个班级。结果，所提出的技术找到存在于安全区中的少数数据点的安全比例，并且可以用作源点以生成合成数据点。该比例可以由自动驾驶模式下的算法计算，也可以由用户传递2.3. 要放置新点的距离当人工点被放置在数据空间中时，它是在属于少数数据集的两个点之间完成的。该算法试图找到从源点到属于同一类的另一点的安全距离，在该距离处可以放置新点。这样做是为了确保放置的新点不会走得太远到数据空间。基于最大类内距离和最小类间距离来计算距离。值的范围是0到1，也可以由用户提供2.4. 少数民族该值决定要生成的人工点的数量。例如，如果提到少数类的最终比例为0.5，并且少数数据点的数量为10，而多数数据点的数量为100，则将生成的新少数数据点的数量为40，从而少数/多数数据点的最终比例等于0.5。最终比例的默认值为1，也就是说，在执行结束时，少数数据点的数量将与多数数据点的数量相同。然而，该值也可以由用户提供3. 影响概述作者认为，KNNOR方法将对研究和应用领域产生积极影响。代码的编写考虑到了从业人员和研究人员。对表1不同过采样器之间的时间比较。操作时间（秒）NoSMOTE 0.002534电子邮件：info@marticle.com.cn[12] 2016年10月15日[13] 0.126795Polynom_fit_SMOTE [14] 0.167568SMOBD [15] 0.305156ProWSyn [16] 0.306006已组装_SMOTE [17] 0.548353LVQ_Smote [18] 0.627083KNNOR_SMOTE 0.756194SMOTE_IPF [19] 0.862102[20]第二十话G_SMOTE [21] 6.071107一方面，它可以开箱即用，而不需要考虑任何参数，另一方面，研究人员可以调整不同的参数，以适应他/她的数据集的古怪3.1. 与其他过采样器的实验结果表明，该算法比现有的基于SMOTE的增强算法更有效。在19个不平衡数据集[23]上与前10个过采样器[ 22 ]进行比较，结果显示KnNOR比其他任何数据集[9]都更多地出现在第一位。另一方面，前4个最先进的过采样器无法保持与KnNOR一样的一致性。这种严格的比较研究确保了这种方法不会改变数据的原始结构，从而产生扭曲，误导研究。每个过进样器所用的时间见表1。KnNOR不是最快的算法之一因为它在扩充之后具有附加的验证步骤，以确保新创建的数据点属于正确的类。这种额外A. 伊斯兰，S.B.Belhaouari，A.U.Albertman等人软件影响12（2022）1002723表2不同过采样器之间的平均秩比较Oversampler平均秩Knor 1polynom_fit_SMOTE [14] 2.5[16]第十六话已组装_SMOTE [17] 6.75[15]第十五话[13]第十三话[19]第十九话G_SMOTE [21] 7.75[11]第十一话[12]第十二届全国人大代表如表2所示，通过拟定方法实现的更高准确度证明了验证步骤的合理性。该表显示了KNNOR在不同数据集和分类器中为每种插补算法实现的3.2. 多类数据集和图像增强在存在多于两类数据的情况下，可以如下以迭代方式应用• 识别少数民族的标签。• 每一个少数民族的阶级。– 将其余数据隔离为一个类– 将算法应用于少数类，多数类数据• 将所有增强数据与原始这已经由作者在[10]中在CIFAR10 [24]数据集上实际实现，其中应用了KNNOR算法其余9类数据占多数。图1显示了如何应用KNNOR算法在多类设置中创建人工数据3.3. 工业实用性这种技术在健康数据集中特别有用，其中良性类的数据往往压倒属于不利类的数据，从而使模型和分类器偏向于过度预测良性类。它可以用于欺诈检测，其中属于欺诈类的数据样本比属于欺诈类的数据样本少得多。合法阶级。因此，该技术是工业和应用不可知的。它可以从硬件到电子商务全面使用竞合利益作者声明，他们没有已知的竞争性财务利益或个人关系，可能会影响本文报告的工作附录A. 补充数据与本文相关的补充材料可以在网上找到在https://doi.org/10.1016/j.simpa.2022.100272。引用[1]M. Eshtay，H. Faris，N. Obeid，通过竞争性群优化改进极端学习机及其在医疗诊断问题中的应用，专家系统应用。 104 （ 2018 ） 134http://dx.doi.org/10.1016/j.eswa.2018。03.024[2]S.V. Kovalchuk，E. Krotov，P.A. Smirnov，D.A. Nasonov，A.N. Yakovlev，心脏病救护车控制紧急决策的分布式数据驱动平台，Future Gener。Comput.系统79（2018）144-154，http：//dx。doi.org/10.1016/j.future.2016.09.017网站。[3]R. Nagarajan，M. Upreti，乳腺癌分类的集成预测建模框架，方法131（7月）（2017）128 http://dx.doi.org/10。1016/j.ymeth.2017.07.011。[4]D. Gan，J.Shen，B.一个，M。Xu，N. Liu，Integrating TANBN with cost sensitiveclassification algorithm for imbalanced data in medical diagnosis， Comput. Ind.Eng.140（2019年6月）（2020）106266，http://dx.doi.org/10.1016/j.cie.2019。106266，[5]B.克劳奇克，M。沃伊尼亚克湾Schaefer，用于有效不平衡分类的成本敏感决策树集成，应用软件计算。14（PartC）（2014）554http://dx.doi.org/10.1016/j.asoc.2013.08.014[6] N. Liu，J.Shen，M. Xu，L. Gan，E.S.齐湾，加-地Gao，用于乳腺癌诊断的改进的成本敏感支持向量机分类器， Math.Probl.Eng.2018 （ 2018 ）http://dx.doi.org/10.1155/2018/3875082。[7] Y. Liu，X. Yu，J.X. Huang，黄背天蛾A.一个，结合集成采样与SVM集成学习不平衡数据集，信息处理。管理。 47 （ 4 ）（ 2011 ）617http://dx.doi.org/10.1016/j.ipm.2010.11.007[8]G. Kovács ， Smote-variants ： 85 种少数民族过采样技术的 Python 实现，Neurocomputing366（2019）352http://dx.doi.org/10。1016/j.neucom.2019.06.100.[9]A.伊斯兰，S.B. Belhaouari，A.U. Rahman，H. Bensmail，KnNOR：不平衡数据集的过采样技术，应用。软计算（2021）108288，http：//dx.doi.org/10.1016/j.asoc.2021.108288网站。[10] A. 伊斯兰， S.B. Belhaouari ， Class aware auto encoders for better featureextraction，in：2021 International Conference on Electrical，Communication，andComputerEngineering，ICECCE，2021，pp.1http://dx.doi.org/10.1109/ICECCE52056。2021.9514202。[11] W.P. K Kevin W.作者：Lawrence O.霍尔，SMOTE：综合少数过采样技术，J。人工智能研究（2002）321https://arxiv.org/pdf/1106.1813.pdf[12] GEA Batista ， R.C. 普拉蒂， M.C. Monard ， A study of the behavior of severalmethodsforbalancingmachinelearningtrainingdata ， ACMSIGKDDExplor.Newsl. 6（1）（2004）20http://dx.doi.org/10.1145/1007730.1007735[13] M. Koziarski，M. Wozniak，CCR：一种用于不平衡数据分类的组合清洗和恢复算法，Int.J.Appl.Math.Comput.Sci.27（4）（2017）727http://dx.doi.org/10.1515/amcs-2017-0050[14] S. Gazzah， N.E.B. Amara， New oversampling approaches based on polynomialfitting for imbalanced data sets， in ： DAS 2008 - Proceedings of the 8th IAPRInternationalWorkshoponDocumentAnalysisSystems，ISBN：9780769533377，2008，pp. 677http://dx.doi.org/10.1109/DAS.2008.74[15] Q. Cao，S. Wang，Applying over sampling technique based on data density andcost-sensitive SVM to imbalanced learning ， in ： Proceedings - 2011 4thInternational Conference on Information Management，Innovation ManagementandIndustrialEngineering ， Vol.2 ， ICIII2011 ， IEEE ， ISBN ：9780769545233，2011，pp. 543http://dx.doi.org/10.1109/ICIII.2011.276[16] S. Barua，M.M.伊斯兰，K.村濑，ProWSyn：用于不平衡数据集学习的PRoximity加权合成过采样技术，见：计算机科学讲义（包括人工智能子系列讲义和生物信息学讲义），第 7819 卷 LNAI ，（第 2 部分） 2013 年，第 100 页。317http://dx.doi.org/10.1007/978-3-642-37456-2_27[17] B. Zhou C.，中国青冈C. Yang，H. Guo，J.Hu，A quasi-linear SVM combined withassembled SMOTE for imbalanced data classification ， in ： Proceedings of theInternationalJointConferenceonNeuralNetworks ， IEEE ， ISBN ：9781467361293，2013，http：//dx.doi.org/10.1109/IJCNN.2013.6707035网站。[18] M.中村湾，澳-地Kajiwara，A.大冢，H. Kimura，LVQ-SMOTE -基于学习矢量量化的生物医学数据合成少数过采样技术， BioData Min 6 （ 1 ）（ 2013 ）1http://dx.doi.org/10.1186/1756-0381-6-[19] J.A. Sáez，J.Luengo，J.Stefanowski，F. Herrera，SMOTE-IPF：通过带过滤的重新采样方法解决不平衡分类中的噪声和边界示例问题，Inform。Sci. 291（C）（2015）184//dx.doi.org/10.1016/j.ins.2014.08.051网站。[20] J. Lee，N.R. 金，J. H. 李，一个过采样技术与拒绝对于不平衡的班级学习，在： ACM IMCOM 2015 - Proceedings ， ISBN ： 9781450333771 ，2015，http://dx.doi.org/10.1145/2701126.2701181。[21] T. Sandhan，J.Y. Choi，Handling imbalanced datasets by partially guided hybridsampling for pattern recognition，in：Proceedings - International Conference onPattern Recognition，（August）2014，pp. 1449http://dx.doi.org/10.1109/[22] G. Kovács，少数过采样技术在大量不平衡数据集上的经验比较和评估，应用软件计算。 83（七月）（2019）http://dx.doi.org/10.1016/j.asoc.2019.105662。[23] UCI，UCIMachineLearningLaboratoryDatasets，URLhttps://archive.ics.uci.edu/ml/datasets.php.[24] A. Krizhevsky，从微小图像中学习多层特征，2009年。

下载后可阅读完整内容，剩余1页未读，立即下载