任务1 wine数据集预处理 1. 通过sklearn库加载wine数据集; 2. 查阅wine数据集的特征数据和标签; 3. 将wine数据集中特征数据PCA降维(降维后维度为2),并查看信息占比; 4. 将wine数据集降维后特征数据进行标准化处理; 5. 将wine数据集标准化后的特征数据拆分为训练集和测试集(测试集占比0.2)。
时间: 2023-07-16 20:15:17 浏览: 88
机器学习数据预处理葡萄酒数据集wine_data
4星 · 用户满意度95%
好的,让我来逐步回答你的问题。
1. 通过sklearn库加载wine数据集:
```python
from sklearn.datasets import load_wine
wine = load_wine()
```
2. 查阅wine数据集的特征数据和标签:
```python
print(wine.feature_names)
print(wine.target_names)
```
输出结果:
```
['alcohol', 'malic_acid', 'ash', 'alcalinity_of_ash', 'magnesium', 'total_phenols', 'flavanoids', 'nonflavanoid_phenols', 'proanthocyanins', 'color_intensity', 'hue', 'od280/od315_of_diluted_wines', 'proline']
['class_0' 'class_1' 'class_2']
```
其中,`feature_names` 表示数据集中的特征名称,`target_names` 表示数据集中的标签类别名称。
3. 将wine数据集中特征数据PCA降维(降维后维度为2),并查看信息占比:
```python
from sklearn.decomposition import PCA
pca = PCA(n_components=2)
wine_pca = pca.fit_transform(wine.data)
print(pca.explained_variance_ratio_)
```
输出结果:
```
[0.99809123 0.00173592]
```
可以看出,降维后的数据保留了接近99.8%的信息量。
4. 将wine数据集降维后特征数据进行标准化处理:
```python
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
wine_pca_std = scaler.fit_transform(wine_pca)
```
5. 将wine数据集标准化后的特征数据拆分为训练集和测试集(测试集占比0.2):
```python
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(wine_pca_std, wine.target, test_size=0.2, random_state=42)
```
至此,wine数据集的预处理完成。
阅读全文