软件影响13(2022)100359
原始软件出版物
分类属性转换环境(
CANE
):一个用于分类到数值数据预处理的
Luís Miguel Matos
a
,
a
,João Azevedo
c
,Arthur Matta
c
,André Pilastri
c
,Paulo Cortez
a
,
鲁伊·门德斯
b
a
葡萄牙,吉马良斯,米尼奥大学,
ITMI
中心
b
葡萄牙布拉加米尼奥大学
ITMI
中心
c
葡萄牙吉马良斯
CCG ZGDV
研究所
EPMQ
A R T I C L E I N F O
保留字:
数据预处理
CANE
Python
编程语言机器学习
A B
标准
分类属性转换环境(CANE)是一个简单但功能强大的数据分类预处理Python包。该软件包是有价值的,因为
目前有大量的机器学习(ML)算法只能使用数值数据(例如,深度学习,支持向量机)和几个现实世界的ML
应用 程序 与分 类数 据属 性相关联 。目 前 , CANE 提 供 了三 种 分 类到 数 字 的转 换 方 法, 即 : 百 分 比 分类 修 剪
(PCP),逆文档频率(IDF)和一个更简单的One-Hot-Encoding方法。此外,CANE模块有几个代码示例,可
以帮助非专家用户采用它
代码元数据
代码元数据描述信息
当前代码版本
2.2.1.2
用于此代码版本的代码
/
存储库的永久链接
https://github.com/SoftwareImpacts/SIMPAC-2022-122
Reproducible Capsule
的永久链接
https://codeocean.com/capsule/9329576/tree/v1
法律代码许可证
MIT
使用
git
的代码版本控制系统
使用
Python 3.6+
的软件代码语言、工具和服务
编译要求,操作环境依赖性
CANE requires bounded-pool-executor; numpy; pandas; pqdm; python-dateutil; pytz;
tqdm; typing-extensions; sklearn;
和
pyspark
如果有开发人员文档
/
手册链接
https://github.com/Metalkiler/Cane-Categorical-Attribute-traNsformation-
环境
问题支持电子邮件
luis. dsi.uminho.pt
1.
分类属性转换环境
目前,由于大数据的可用性,机器学习(ML)正在影响世界经由
数字传感器),处理这种数据的计算能力和复杂算法(例如,深度
学习)[1]。几种流行且强大的ML算法(例如,深度学习,
支持向量机(SVM)只能处理数值数据。由于现实世界的应用程序经常
生成分类特征,因此当采用这种ML算法时,需要通过采用分类到数字的
变换或编码来预处理数据属性。一些最先进的ML作品(例如,[2-
本文中的代码(和数据)已由Code Ocean认证为可复制:(https://codeocean.com/)。更多关于生殖器的信息 徽章倡议可在
https://www.elsevier.com/physical-sciences-and-engineering/computer-science/journals上查阅。
∗
通讯作者。
电子邮件地址:
luis. dsi.uminho.pt(L.M. Matos)。
https://doi.org/10.1016/j.simpa.2022.100359
接收日期:2022年6月29日;接收日期:2022年7月5日;接受日期:2022年7月5日
2665-9638/©2022作者。由Elsevier B.V.出版。这是一篇开放获取的文章,使用CC BY许可证
(http://creativecommons.org/licenses/by/4.0/)。
可在ScienceDirect上获得目录列表
软件影响
杂志 首页:www.journals.elsevier.com/software-impacts