没有合适的资源?快使用搜索试试~ 我知道了~
分类属性转换环境(CANE):一个强大的Python数据预处理软件包
软件影响13(2022)100359原始软件出版物分类属性转换环境(CANE):一个用于分类到数值数据预处理的Luís Miguel Matosa,a,João Azevedoc,Arthur Mattac,André Pilastric,Paulo Corteza,鲁伊·门德斯ba葡萄牙,吉马良斯,米尼奥大学,ITMI中心b葡萄牙布拉加米尼奥大学ITMI中心c葡萄牙吉马良斯CCG ZGDV研究所EPMQA R T I C L E I N F O保留字:数据预处理CANEPython编程语言机器学习A B标准分类属性转换环境(CANE)是一个简单但功能强大的数据分类预处理Python包。该软件包是有价值的,因为目前有大量的机器学习(ML)算法只能使用数值数据(例如,深度学习,支持向量机)和几个现实世界的ML应用程序与分类数据属性相关联。目前,CANE提供了三种分类到数字的转换方法,即:百分比分类修剪(PCP),逆文档频率(IDF)和一个更简单的One-Hot-Encoding方法。此外,CANE模块有几个代码示例,可以帮助非专家用户采用它代码元数据代码元数据描述信息当前代码版本2.2.1.2用于此代码版本的代码/存储库的永久链接https://github.com/SoftwareImpacts/SIMPAC-2022-122Reproducible Capsule的永久链接https://codeocean.com/capsule/9329576/tree/v1法律代码许可证MIT使用git的代码版本控制系统使用Python 3.6+的软件代码语言、工具和服务编译要求,操作环境依赖性CANE requires bounded-pool-executor; numpy; pandas; pqdm; python-dateutil; pytz;tqdm; typing-extensions; sklearn;和pyspark如果有开发人员文档/手册链接https://github.com/Metalkiler/Cane-Categorical-Attribute-traNsformation-环境问题支持电子邮件luis. dsi.uminho.pt1. 分类属性转换环境目前,由于大数据的可用性,机器学习(ML)正在影响世界经由数字传感器),处理这种数据的计算能力和复杂算法(例如,深度学习)[1]。几种流行且强大的ML算法(例如,深度学习,支持向量机(SVM)只能处理数值数据。由于现实世界的应用程序经常生成分类特征,因此当采用这种ML算法时,需要通过采用分类到数字的变换或编码来预处理数据属性。一些最先进的ML作品(例如,[2-本文中的代码(和数据)已由Code Ocean认证为可复制:(https://codeocean.com/)。更多关于生殖器的信息徽章倡议可在https://www.elsevier.com/physical-sciences-and-engineering/computer-science/journals上查阅。∗ 通讯作者。电子邮件地址:luis. dsi.uminho.pt(L.M. Matos)。https://doi.org/10.1016/j.simpa.2022.100359接收日期:2022年6月29日;接收日期:2022年7月5日;接受日期:2022年7月5日2665-9638/©2022作者。由Elsevier B.V.出版。这是一篇开放获取的文章,使用CC BY许可证(http://creativecommons.org/licenses/by/4.0/)。可在ScienceDirect上获得目录列表软件影响杂志 首页:www.journals.elsevier.com/software-impactsL.M. Matos,J.Azevedo,A.Matta等人软件影响13(2022)1003592在内存和处理工作方面产生计算问题,特别是当基数很高时[5]。创建分类属性转换环境(CANE)Python模块就是为了解决这个问题。CANE提供了三种简单但有效的方法来将分类数据转换为ML和深度学习项目的数值,即:• One-Hot编码(1H)-最流行的分类到数字转换。该方法将分类值编码为具有L个水平的二进制向量,其中L是不同属性水平的数量(基数)。例如,具有L = 3个级别的属性颜色{“blue”,“red”,“yellow”}将被转换为:“blue"→(1,0,0);”red“→(0,1,0);和”yellow"→(0,0,1)。由于这种转换几乎可以应用于任何领域,因此它是大多数ML工具所采用的默认编码1H方法的CANE实现的一个优点是,它允许通过在不同的核中编码每个数据属性来快速并行计算变换,从而利用多核机器。CANE的另一个优点是,它允许用户通过使用全名(例如,“Blue"、”Red")或后缀(例如 ,'' color_blue ''和''color_red ''用于后缀'' color '')。目前,1H转换适用于Pandas Dataframe格式。Fig. 1. 示例:使用PCP和P = 30%(垂直虚线)时获得的产品质量类型属性约简。表1使用合成数据集时的CANE计算执行值(以秒为单位)方法单核多核• 逆文档频率(IDF)-由[6]提出并在[7���������(���) =������()(1)������哪里表示实例(值)的总数,并且是训练数据中级别n������使用此转换时,数值越接近0,表示该级别在数据中出现的频率越高。 值越高,级别的频率越低,频率较低的级别被分组得更近。与1H方法类似,IDF CANE实现允许多核执行(每个数据属性一个核)。此 外 , IDF 允 许 使 用 两 种 流 行 的 Python 数 据 格 式 , PandasDataframe和Spark Dataframe。• 分类修剪百分比(PCP)-这种预处理在[ 5 ]中首次引入,它首先根据频率值对特征级别进行排序。最不频繁的级别(总计为的阈值百分比)被合并到表示为“其他”的单个类别中在这种预处理方法之后,通过使用减少的水平集合来应用独热(1H)编码,该减少的水平集合包括最频繁的水平和PCP变换的主要目标是在保持最相关水平的同时,大幅降低输入内存和处理在[5]中,通过考虑移动营销绩效任务的城市属性来举例说明PCP效应。采用小的修剪阈值(= 10%),允许二进制输入的数量减少94%(1H为10,690,PCP仅为尽管这种减少,基于PCP的预测模型(基于深度学习模型)与其1H版本相比实现了相同的预测另一个例子是(图)。1)对于来自纺织行业的产品质量类型。在此示例中,垂直虚线示出了使用= 30%的阈值的效果,允许从239(标准1H)减少到40(PCP)个二进制输入(8316.22 24.12五氯苯酚以色列国防军2. CANE影响和计算性能CANE在几项科学研究中被用作减少输入数量的手段(在分类到数字转换之后)来提供预测性的机器学习模型。解决了各种实际应用,包括移动性能营销[5,9],工业4.0异常检测[4,10]和质量预测[8,11]。作为采用CANE python包的结果,上述研究观察到在预处理分类数据时减少了计算工作量。此外,这些转换被应用于不同的ML算法,从而实现更高效的ML实现(需要更少的内存和计算训练工作),同时保持高预测性能。此外,CANE python包,1 共获得76,765次下载2 自2020年6月以来。 为了演示该工具所需的计算工作量,我们创建了一个包含129个属性和161,000条记录的合成数据集。每个属性包括5个不同频率的不同级别–3计算实验假设Pandas Dataframe格式,并使用2.3 GHz Intel Core i9机器执行,共有16个内核。表1给出了在假设修剪阈值= 5%和两种执行场景(单核和使用10个核时)时测量的计算工作量(根据所用时间)。当采用多核设置时,PCP和IDF都显示出计算性能的显着改善。至于1H执行,采用单核设置时效率更高。这种行为是由于最终的多核1H聚合操作,该操作将不同的二进制矩阵(每个核一个)加入到单个二进制数据帧中,并且这在计算上相当昂贵。尽管如此,我们预计多核1H Spark版本(将在未来的工作中解决)与单核版本相比将产生更快的减少编码的二进制电平)。目前,五氯苯酚反式-Formation使用Pandas Dataframe格式,还包括多核分发(每个核执行一个属性)。我们强调PCP的实现是CANE Python包独有的。1 可在www.example.com上公开获取https://pypi.org/project/cane。26月29���日 根据https://pepy.tech/project/cane2022年。3本示例的较小数据集代码演示见https://codeocean.com/capsule/9329576/tree/v1。L.M. Matos,J.Azevedo,A.Matta等人软件影响13(2022)1003593表2真实世界移动营销数据集的CANE结果(最佳值以粗体显示)。方法预处理时间训练时间#数值输入减少率(%)AUC1H 163.66 54.98 8,449 0.00.89五氯苯酚10.0410.6695489.7 0.88国防军27.708.90 1199.80.73另一个CANE值演示示例见表2,其对应于使用[5]中使用的数据样本时获得的结果。 在该示例中,数据集包含与移动性能营销域相关的10个输入分类特征(例如, 用户城市)。 目标是预测用户在看到移动广告后是否会购买产品(转化结果)(二进制分类任务)。预测分类器基于深度学习模型,即具有9个隐藏层的多层感知器 (as在[5]中描述)。使用不同的测试时间段,在同一台计算服务器(i9 Intel机器,单核执行)上执行了三次运行,深度学习模型与10,000个训练示例相匹配,并使用另外5000个实例进行测试。在表2中,所得结果以三次运行的平均值表示。1H编码导致非常高的输入数量(8449),这大大影响了预处理和ML训练时间。相比之下,IDF和PCP(=10%)CANE方法生成的输入数量明显更少,如列#数字输入和减少比率(与1H相比,以%为单位)所示。这种减少影响了计算工作量,这在预处理和训练任务方面要低得多。至于预测性能,根据受试者工作特征(ROC)曲线的曲线下面积(AUC)进行测量,获得了高质量的结果,特别是对于PCP方法(与基于1H的模型相比仅低一个3. 今后工作CANE是一个相对较新的Python模块,其生命周期跨越两年。创建该模块是为了解决将高基数分类数据转换为数值的问题,这在现实世界的应用中经常发生,例如移动性能营销[5]。主要重点是实现几种预处理方法(例如,PCP),它允许非专家ML用户更容易地预处理ML应用程序中使用的分类数据属性。CANE的初始版本只处理PCP和IDF转换[5,7]。从那时起,CANE特征的数量增加了(例如,更简单的1H编码,多核实现,使用Spark实现的IDF,转换散列表翻译)。在未来,我们希望通过为PCP和1H方法处理Spark Dataframe格式来为模块添加更多功能(目前只处理Pandas Dataframe)。我们还旨在优化代码,使其在处理大数据数据集(例如,数百万条记录,具有多种功能),这在现实世界的项目中很常见。竞合利益作者声明,他们没有已知的竞争性财务利益或个人关系,可能会影响本文报告的工作致谢作者感谢由葡萄牙北部区域业务方案支持的NORTE-01-0247-FEDER-017- 497项目(NORTE 2020),根据葡萄牙2020伙伴关系协议,通过欧洲区域发展基金(ERDF)。这项工作也得到了FCT Fundação para a Ciência eTecnologia的支持,葡萄牙在项目范围内:UID/CEC/00319/2019。作者也感谢所有帮助CANE更直观的贡献者。引用[1]Adnan Darwiche, 人类 水平的 智力 还是 动物般 的能 力?Commun. ACM 61(10)(2018)56http://dx.doi.org/10.1145/3271625[2]Manxing Du,Radu State,Mats Brorsson,Tigran Avanesov,移动广告行为分析,在:第三届IEEE/ACM大数据计算,应用和技术国际会议论文集,BDCAT2016 , 中 国 上 海 , 2016 年 12 月 6 日 至 9 日 , 2016 年 , pp. 302http://dx.doi.org/10。1145/3006299.3006339.[3]Weinan Zhang,Tianming Du,Jun Wang,Deep learning over multi-field data-icaldata,in:European Conference on Information Retrieval,Springer,2016,pp. 45比57[4]Diogo Ribeiro, Luís Miguel Matos,Guilherme Moreira, André Luiz Pilastri,Paulo Cortez,用于工业螺丝拧紧异常检测的隔离森林和深度自动编码器,Comput. 11(4)(2022)54,http://dx.doi.org/10。3390/计算机11040054。[5]Luís Miguel Matos,Paulo Cortez,Rui Mendes,Antoine Moreau,使用深度学习进行移动营销用户转化预测,在:神经网络国际联合会议,IJCNN 2019布达佩斯 , 匈 牙 利 , 2019 年 7 月 14 日 至 19 日 , IEEE , 2019 年 , pp.1http://dx.doi.org/10.1109/IJCNN.2019.8851888[6]吉列姆岛Campos,Arthur Zimek,Jörg Sander,Ricardo J.G.B. 放大图片作者:Barbora Micenková,Erich Schubert,Ira Assent,Michael E. Houle,关于无监督离群值检测的评估:措施,数据集和实证研究,Data Min.Knowl.Discov。30(4)(2016)891 http://dx.doi.org/10。1007/s10618-015-0444-8。[7]Luís Miguel Matos,Paulo Cortez,Rui Mendes,Antoine Moreau,移动营销用户转 化 预 测 的 数 据 驱 动 方 法 比 较 , in: Ricardo Jardim-Gonçalves, João PedroMendonça,Vladimir Jotsov,Maria Marques,João Martins,Robert E. Bierwolf(Eds.),第九届IEEE智能系统国际会议,IS 2018,葡萄牙马德拉丰沙尔,2018年9月25日至27日,IEEE,2018年,pp。140http://dx.doi.org/10.1109/IS.2018.8710472[8]Rui Ribeiro , André Pilastri , Carla Ragua , Filipe Rodrigues , Rita Rocha ,JoséMorgado,Paulo Cortez,通过自动机器学习和纺织品设计和整理预测机织物的物理性能特征,in:Ilias Maglogiannis,Lazaros Iliadis,Elias Pimenians( Eds. ) , Artificial IntelligenceApplications and Innovations , SpringerInternational Publishing,Cham,2020,pp. 244 -255。[9]Pedro José Pereira , Paulo Cortez , Rui Mendes , Multi-objective grammarevolution of decision trees for mobile marketing user conversion prediction ,ExpertSyst.Appl.168(2021)114287,http://dx.doi.org/10.1016/j.eswa.2020.114287,URLhttps://www.sciencedirect.com/science/article/pii/S0957417420309891.[10] Gonçalo Fontes , Luis Miguel Matos , Arthur Matta , André Pilastri , PauloCortez ,对 极 端 不 平 衡 数 据 集 的 异 常 检 测 算 法 的 实 证 研 究 , 见 : IliasMaglogiannis , Lazaros Iliadis , John Macintyre , Paulo Cortez ( 编 辑 ) ,ArtificialIntelligenceApplicationsandInnovations,SpringerInternationalPublishing,Cham,2022,pp. 85比95[11] Luís Miguel Matos , André Domingues , Guilherme Moreira , Paulo Cortez ,André Luiz Pilastri,A comparison of machine learning approaches for predictingin-car display production quality,in:Hujun Yin,David Camacho,Peter Tiño,Richard Allmendinger,AntonioJ. Tallón-Ballesteros,Ke Tang,Sung-Bae Cho,Paulo Novais,Susana Nascimento(Eds.),智能数据工程和自动化学习- IDEAL2021 -第22届国际会议,IDEAL 2021,曼彻斯特,英国,2021年11月25日至27日,会议记录,在:计算机科学讲义,卷。3-http://dx.doi.org/
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 4
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 收起
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
会员权益专享
最新资源
- RTL8188FU-Linux-v5.7.4.2-36687.20200602.tar(20765).gz
- c++校园超市商品信息管理系统课程设计说明书(含源代码) (2).pdf
- 建筑供配电系统相关课件.pptx
- 企业管理规章制度及管理模式.doc
- vb打开摄像头.doc
- 云计算-可信计算中认证协议改进方案.pdf
- [详细完整版]单片机编程4.ppt
- c语言常用算法.pdf
- c++经典程序代码大全.pdf
- 单片机数字时钟资料.doc
- 11项目管理前沿1.0.pptx
- 基于ssm的“魅力”繁峙宣传网站的设计与实现论文.doc
- 智慧交通综合解决方案.pptx
- 建筑防潮设计-PowerPointPresentati.pptx
- SPC统计过程控制程序.pptx
- SPC统计方法基础知识.pptx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功