写出特征工程的python代码
时间: 2024-05-20 14:09:38 浏览: 178
如何用Python做自动化特征工程
特征工程是机器学习中非常重要的一步,其目的是从原始数据中提取有用的特征以供模型使用。下面是一个简单的特征工程的Python代码示例:
```python
import pandas as pd
from sklearn.preprocessing import LabelEncoder
# 读取数据集
data = pd.read_csv('data.csv')
# 处理缺失值
data.fillna(data.mean(), inplace=True)
# 对非数值型特征进行编码
le = LabelEncoder()
data['sex'] = le.fit_transform(data['sex'])
# 特征选择
features = ['age', 'sex', 'education', 'income']
X = data[features]
y = data['target']
# 特征缩放
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)
# 特征降维
from sklearn.decomposition import PCA
pca = PCA(n_components=2)
X_pca = pca.fit_transform(X_scaled)
# 特征交叉
data['age_income'] = data['age'] * data['income']
```
上述代码演示了一些常用的特征工程技术,包括处理缺失值、编码非数值型特征、特征选择、特征缩放、特征降维和特征交叉等。当然,在实际应用中,需要根据具体的数据集和模型需求来选择合适的特征工程方法。
阅读全文