特征选择算法的合成数据集库

98 浏览量更新于2024-01-25 收藏 424KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

软件影响15（2023）100485原始软件出版物XyGen：用于特征选择的Firuz Kamalova，Mr.，Said Elnaffara，Hana Suliemanb，Aswani Kumar CherukuricaCanadian University Dubai，迪拜，阿拉伯联合酋长国b阿拉伯联合酋长国沙迦美国大学cVellore Institute of Technology，Vellore，印度A R T I C L E I N F O关键词：特征选择综合数据机器学习数据挖掘A B标准鉴于大量的特征选择算法，它已成为当务之急，有一个统一的程序来评估算法的性能。我们提出了一个专门设计用于测试特征选择算法有效性的合成数据集库。这些数据集受到电子领域应用的启发，具有一系列特性，可提供各种测试场景。该软件以Python库的形式提供，具有用于加载和生成数据集的标准接口。每个数据集被实现为允许控制数据的各种参数的函数代码元数据当前代码版本2.0用于此代码版本的代码/存储库的永久链接https://github.com/SoftwareImpacts/SIMPAC-2023-41可再生胶囊的永久链接https://codeocean.com/capsule/8977698/tree/v1法律代码许可证MIT许可证使用Git的代码版本控制系统使用Python、Pandas、Numpy的软件代码语言、工具和服务编译要求，操作环境依赖性c≥3.9，Numpy，Pandas如果可用，链接到开发人员文档/手册https://github.com/SaidElnaffar/Synthetic-Datasets-for-Features-Selection-算法/blob/5439 faad 6 bba 70 fc 0 e22910 ae 56 cd 0372 ea7 c 0 bc/README.mdfiruz@cud.ac.ae说，cud.ac.ae1. 用于特征选择的合成数据生成器特征选择一直是一个活跃的研究领域，每年都会提出数十种新的算法。在这个软件包中，我们提供了一个Python库，用于生成专门用于测试特征选择算法有效性的合成数据集。该库由允许加载和生成5个不同数据集的函数组成。每个数据集都由许多相关的、冗余的、相关的和不相关的变量组成。使用[1]中描述的相关特征，基于预定规则/公式计算目标变量。冗余变量是相关特征的线性变换，而相关特征是通过随机翻转30%的目标变量标签获得的。库函数允许指定数据集参数，作为不相关变量的数量、实例的数量和随机种子。由于相关变量是先验已知的，因此合成数据可以直接评估特征选择算法。为了模拟真实生活场景，数据集受到该领域应用的启发电子产品。特征选择已经成为许多数据科学和机器学习应用程序中的重要组成部分。因此，在文献[2然而，并不存在一个普遍的基准，来评估这些算法。为了填补这一空白，我们提出了一个名为XyGen的软件包，它允许生成明确定制的合成数据来评估特征选择算法。我们的目标是，拟议的软件包和相应的数据集将用于评估现有的和未来的特征选择算法，本文中的代码（和数据）已由Code Ocean认证为可复制：（https://codeocean.com/）。更多关于生殖器的信息徽章倡议可在https://www.elsevier.com/physical-sciences-and-engineering/computer-science/journals上查阅。*通讯作者。电子邮件地址：firuz@cud.ac.ae（F.Kamalov）说cud.ac.ae。Elnaffar），hsulieman@aus.edu（H.Sulieman），cherukuri@acm.org（A.K.Cherukuri）。https://doi.org/10.1016/j.simpa.2023.100485接收日期：2023年1月24日;接收日期：2023年2月20日;接受日期：2023年2月23日2665-9638/©2023作者。由Elsevier B.V.出版。这是一篇开放获取的文章，使用CC BY许可证（http://creativecommons.org/licenses/by/4.0/）。可在ScienceDirect上获得目录列表软件影响杂志首页：www.journals.elsevier.com/software-impactsF. Kamalov，S.埃尔纳法尔湾Sulieman等人软件影响15（2023）1004852表1图1.一、基于使用 Xy G e n 生成的 AD D E R 数据集的��2-单变量特征选择结果，样本量为20（上图）和50（下图）。以及相关功能，以提供丰富的设置来测试总结XyGen数据集。姓名相关冗余相关无关样品目标ORAND 3 3 2 92 50二进制ANDOR 4 4 2 90 50二进制ADDER 3 3 2 92 50 4级LED-16 16 16 2 66 180 36级中国5 5 2 88 500持续表2根据各种特征选择算法，ADDER数据集中前10个特征的排名。1 2 3 4 5 6 7 8 9 10博鲁塔[7，8] 1 1 1 1 1 1 1 61 63100 - 100 - 10费舍尔[11，12] 6 6 3 4 0 1 5 2 61 48[13，14] 6 0 1 2 7 51 3 4 5 8CIFE [15，16] 6 0 1 2 41 4 5 13 33 39[17，18] 61 34 63 44 35 66 35 35 25 59F-score [3] 7 6 0 1 3 4 2 5 61 48[19，20] 6 5 4 3 1 2 14 8 56 57[21] 1 1 0 0 1 1 1 0 0 0[22] 0 0 0 1 0 0 1 0 0提供一个标准的方法来衡量和分析有效性的算法。通过XyGen生成的数据集总结见表1。下表显示了数据集的默认参数值。数据集包括不同类型的目标变量，包括二元、多类和连续值。当相关、冗余和相关特征的数量固定时，可以通过相应的数据生成函数指定不相关特征的数量和样本大小。此外，可以指定随机种子以生成不同的无关特征，用于算法稳定性分析。XyGen库中使用的数据集的详细信息可参见[1]。2. 影响和使用案例用于评估特征选择算法的大多数现有合成数据集最初是为分类任务设计的[23另一方面，XyGen数据是专为功能选择而设计的。XyGen数据包括冗余算法与真实生活数据相比，使用合成数据有两个主要优点：（i）相关特征的知识，以及（ii）数据特征的控制。在使用真实数据的传统方法中，特征选择算法是基于在所选特征上训练的分类器的准确性来评估的。另一方面，合成数据中所有变量的性质是已知的，因此可以直接评估所选特征例如，使用了通过XyGen生成的ANDOR数据集比较了文献[1]中几种特征选择算法的性能。该研究表明，虽然大多数算法能够区分相关和不相关的变量，但它们无法将相关变量与冗余和相关变量分开。几个XyGen生成的数据集被用来评估一种新的特征选择算法，称为嵌套的Ensemble选择的性能。合成数据通过控制数据集的参数来实现对特征选择算法的深入分析。特别是，XyGen允许指定不相关特征的数量和数据集的大小。通过改变不相关变量的数量，可以观察和分析选择算法的相应性能[30]。类似地，算法对大小的敏感性可以通过改变实例的数量来研究数据集的在XyGen。为了说明XyGen的使用，考虑在ADDER数据集上应用XY2单变量特征选择算法的结果。�� 结果示于图 1、顶部和底部在哪里子图分别基于样本量20和50。它表明，样本量的增加增加了相关和不相关的功能之间的差异。另一方面，该算法无法区分相关变量和冗余变量。它还表明，该算法为（随机）相关变量分配高分。从而对算法的性能及其特点有了更好的了解。为了说明XyGen在比较研究中的应用，考虑使用十种流行算法在ADDER数据集上进行特征选择的结果。给出了前10个特征的排序在表2中，特征1-3是相关的，特征4-6是冗余的，特征7-8是相关的，而特征9-10是不相关的。注意，遗传算法仅提供特征支持。在表2中可以看出，遗传算法GA_1产生最鲁棒的结果，只有冗余特征5不正确地包括在所选子集中。另一方面，RFS算法完全F. Kamalov，S.埃尔纳法尔湾Sulieman等人软件影响15（2023）1004853表3根据各种特征选择算法对PRC数据集中的前15个特征进行排名123456789101112131415博鲁塔1 1 1 1 1 1 1 1 1 1 1 1R_回归40 46 37 51 35 3 4 3 5 3 3 2 76 71 75F_回归32 27 40 28 29 3 3 4 3 4 2 4 85 80 62mRMR 10 48 8 1 0 11 3 9 6 5 2 30 4 99 7RFS 78 65 43 60 62 52 79 64 59 68 50 73电话：+86-021 - 8888888传真：+86-021 - 8888888GA_2 0 0 0 0 1 0 0 0 0 1 1 0 0 1无法识别相关特征。另一个重要的观察是，大多数算法无法正确区分相关特征和冗余相关特征。通过了解ADDER数据集中的变量和不同类型的特征，可以进行上述分析。虽然XyGen生成合成数据集，但它来自电子产品中的实际应用，这增强了它们的可扩展性。XyGen软件包也可用于生成具有连续值目标变量的数据。特别是，PRC数据集中的目标变量基于并联电路中的累积电阻，该电阻取连续值[1]。在表3中，我们给出了在PRC数据集上应用几种特征选择算法的结果。可以看出，虽然F_regression、R_regression和mRMR将重要性分配给相关变量，但它们未能丢弃相关特征。RFS、RFE和遗传算法的性能较差。3. 结论和未来发展在本报告中，我们介绍了一个名为XyGen的Python包，它允许生成为特征选择而设计的合成数据。虽然XyGen旨在评估特征选择算法，但它也可用于分类和回归任务。例如，研究人员可以分析具有不同样本大小或不相关变量数量作为未来发展的一部分，我们的目标是扩大收集XyGen中的数据集。此外，我们希望建立一个论坛，研究人员可以分享基于XyGen数据集的特征选择算法的结果。竞合利益作者声明，他们没有已知的竞争性财务利益或个人关系，可能会影响本文报告的工作引用[1]F. Kamalov，H. Sulieman，A.K. Cherukuri，用于特征选择的合成数据，2022，arXiv预印本arXiv：2211.03035。[2]A. Alsahaf，N. Petkov，V. Shenoy，G. Azzopardi，通过提升进行特征选择的框架，专家系统应用187（2022）115895。[3]A. Bommert ， X. 孙湾 Bischl ， J. Rahnenführer ， M. Lang ， Benchmark forFilterMethods for Feature Selection in High-Dimensional Classification Data，Comput. 国家主义者。数据分析143（2020）106839.[4]F.陈文辉，基于特征选择的正交方差分解方法，北京大学学报，2001，182（2021）115191。[5]F. Kamalov，F. Thabtah，H.H. Leung，不平衡数据中的特征选择，Ann. 数据科学（2022）1-15.[6]B. Remeseiro，V. Bolon-Canedo，医学应用中的特征选择方法综述，Comput。生物医学112（2019）103375，芝加哥。[7]M.B. Kursa，W.R. Rudnicki，Boruta软件包的特征选择，J. Stat. 软件。36（2010）1[8] R.唐，X. Zhang，Cart决策树结合boruta特征选择用于医疗数据分类，在：2020年第5届IEEE大数据分析国际会议（ICBDA），IEEE，2020年，pp. 80比84[9]I. Kononenko，E.希梅茨湾Robnik-Šikonja，用RELIEFF克服归纳学习算法的近视，Appl. 内特尔7（1）（1997）39[10] L.孙，T.殷，W.丁氏Y. Qian，J. Xu，使用ML-relieff和邻域互信息进行多标签邻域决策系统的多标签特征选择，Inform。Sci. 537（2020）401[11] X. He，D. Cai，P. Niyogi，Laplacian score for feature selection，Adv. Neural Inf.过程18（2005）。[12] M. Li，H.王湖，加-地Yang，Y. Liang，Z.尚氏H.万，基于特征选择和分组特征提取的分类快速混合降维方法，专家系统应用150（2020）113277。[13] H. Peng，F.朗角，澳-地基于互信息准则的特征选择的最大依赖最大相关性，和最小冗余，IEEE Trans.模式分析。马赫内特尔27（8）（2005）1226-1238。[14] X.严，M.贾，基于改进多尺度弥散熵和mRMR特征选择的旋转机械智能故障诊断，Knowl. -基于系统163（2019）450-471.[15] D. Lin ， X. Tang ， Conditional infomax learning ： an integrated frameworkforfeature extraction and fusion ， in ： European Conference on ComputerVision，Springer，Berlin，Heidelberg，2006，pp. 68比82[16] G. Wei，J. Zhao，Y. Feng，中国山梅花A.何军，余，一种基于动态特征重要性的混合特征选择方法，应用。软计算93（2020）106337.[17] F. Nie，H. Huang，X.蔡角，澳-地Ding，通过联合的高效和鲁棒的特征选择l2，1-范数极小化，Adv.神经信息过程系统23（2010）。[18] Z. Zhang， Y.作者简介：徐建杨，X. Li，D.张，稀疏表示的调查：算法和应用，IEEE Access 3（2015）490-530。[19] I. G u y o n ，J. Weston，S. Barnhill，V.Vapnik，使用支持向量机进行癌症分类的基因选择，Mach。学习. 46（1）（2002）389-422。[20] M.李俊华李博士Kim，基于最佳步态特征的性别识别关于正常行走中的递归特征消除，专家系统应用189（2022）116040。[21] S.S. Shreem，H. Turabieh，S. Al Azwari，F. Baothman，增强的二进制遗传算法作为特征选择来预测学生成绩，Soft Comput。26（4）（2022）1811-1823。[22] F.A. Fortin，F.M. De Rainville，M.A.G.加德纳，M。帕里佐角Gagné，DEAP：Evolutionary Algorithms Made Easy，J. Mach.学习.第13（1）（2012）号决议第2171-2175段。[23] 洛杉矶贝朗什足球俱乐部González，Review and evaluation of feature selectionalgorithms in synthetic problems，2011，arXiv preprintarXiv：1101.2320.[24] V. Bolon-Canedo，N. Sánchez-Marono，A. Alonso-Betanzos，综合数据特征选择方法综述，Knowl。INF. 系统34（3）（2013）483[25] G.H. 约翰河科哈维湾 Pfleger ，不相关特征和子集选择问题， Mach 。学习 .Proc.1994（1994）121-129.[26] G.金，Y。Kim，H. Lim，H. Kim，基于MLP的特征子集选择用于HIV-1蛋白酶切割位点分析，Artif. 内特尔Med. 48（2[27] A. 马马拉基斯岛 Ebert-Uphoff ， E.A. Barnes ， Neural network attributionmethodsfor problems in geoscience ： A novel synthetic benchmark dataset ，Environ.数据科学1（2022）e8。[28] A. Torfi ， E.A. 福克斯， C.K. Reddy ， Differentially private synthetic medicaldatagenerationusing convolutional gans，Inform。Sci. 586（2022）485[29] X.王湖，加-地Xie C.董，Y. Shan，Real-esrgan：用纯合成数据训练真实世界的盲超分辨率，在：IEEE/CVF计算机视觉国际会议论文集，2021年，第102页。1905-1914年。[30] 毛勒海尔河Dhanalakshmi，特征选择算法的稳定性：综述，J. 沙特国王大学Comput. 告知。Sci. 34（4）（2022）1060

下载后可阅读完整内容，剩余1页未读，立即下载