python特征选择（一款非常棒的特征选择工具：feature-selector）_python特征选择 - CSDN文库

103 浏览量更新于2023-03-03 评论 2 收藏 744KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

资源详情

资源评论

资源推荐

python特征选择（一款非常棒的特征选择工具：特征选择（一款非常棒的特征选择工具：feature-selector））

文章目录文章目录前言1.数据集选择2.feature-selector用法3.具有高missing-values百分比的特征4.具有高相关性的特征5.对模型预测结果无贡献的特征6.对模型预测结

果只有很小贡献的特征7.具有单个值的特征8.从数据集去除选择的特征9.结论

前言前言

FeatureSelector是用于降低机器学习数据集的维数的工具。是用于降低机器学习数据集的维数的工具。

文章介绍地址文章介绍地址

项目地址项目地址

本篇主要介绍一个基础的特征选择工具feature-selector，feature-selector是由Feature Labs的一名数据科学家williamkoehrsen写的特征选择库。feature-

selector主要对以下类型的特征进行选择：

1.具有高具有高missing-values百分比的特征百分比的特征

2.具有高相关性的特征具有高相关性的特征

3.对模型预测结果无贡献的特征（即对模型预测结果无贡献的特征（即zero importance））

4.对模型预测结果只有很小贡献的特征（即对模型预测结果只有很小贡献的特征（即low importance））

5.具有单个值的特征（即数据集中该特征取值的集合只有一个元素）具有单个值的特征（即数据集中该特征取值的集合只有一个元素）

从上面可以看出feature-selector确实是非常基础的特征选择工具，正因为非常的基础，所以才非常的常用（这也是为什么williamkoehrsen要写这个特征

选择库的原因），在拿到一个数据集的时候，往往都需要将上述类型的特征从数据集中剔除掉。针对上面五种类型的特征，feature-selector分别提供以下五

个函数来对此处理：

1.identify_missing()

2.identify_collinear()

3.identify_zero_importance()

4.identify_low_importance()

5.identify_single_unique(*)

1.数据集选择数据集选择

在这里使用自己的训练数据集。文章末尾附上链接文章末尾附上链接。数据集采样代码如下：

import pandas as pd

import numpy as np

data = pd.read_csv('base_train_sum.csv')

data

2.feature-selector用法用法

导入数据并创建feaure-selector实例

注意：注意：

作者并没有把作者并没有把feature-selector发布到发布到pypi上，所以不能使用上，所以不能使用pip和和conda进行安装，只能手动从进行安装，只能手动从github下载下来，然后把下载下来，然后把feature_selector.py文件放到文件放到

当前工作目录，然后再进行当前工作目录，然后再进行import操作。操作。

# feature-selector用法

# 导入数据并创建feaure-selector实例

import pandas as pd

from feature_selector import FeatureSelector

# 数据集中TARGET字段为对应样本的label

train_labels = data.flag

# 获取all features

train_features = data.drop(columns='flag')

# 创建 feature-selector 实例，并传入features 和labels

# fs = FeatureSelector(data = train_features,lables = train_labels)

fs = FeatureSelector(data = train_features, labels = train_labels)

剩余11页未读，继续阅读

评论0

weixin_38551205

粉丝: 3
资源: 894

会员权益专享

图片转文字

全年可省5，000元立即开通

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈