数据预处理和特征提取代码
时间: 2023-12-31 21:45:11 浏览: 84
数据预处理和特征提取是机器学习中非常重要的步骤,以下是一个简单的数据预处理和特征提取代码示例:
```python
import pandas as pd
from sklearn.preprocessing import StandardScaler
from sklearn.feature_extraction.text import CountVectorizer
# 读取数据
data = pd.read_csv("data.csv")
# 数据预处理
X = data.iloc[:, :-1].values
y = data.iloc[:, -1].values
# 特征提取
vectorizer = CountVectorizer()
X_text = vectorizer.fit_transform(data['text']).toarray()
scaler = StandardScaler()
X_numerical = scaler.fit_transform(X[:, :3])
# 合并特征
X = np.concatenate((X_numerical, X_text), axis=1)
```
以上代码中,我们首先使用 `pandas` 库读取数据。然后将数据分为特征和标签,即 `X` 和 `y`。接下来,我们使用 `CountVectorizer` 对文本特征进行提取,使用 `StandardScaler` 对数值型特征进行标准化。最后,我们使用 `numpy` 库将数值型特征和文本特征合并在一起。
需要注意的是,数据预处理和特征提取的方法因任务而异,此处仅仅是一个简单的示例。
阅读全文