任务1 wine数据集预处理 1. 通过sklearn库加载wine数据集; 2. 查阅wine数据集的特征数据和标签; 3. 将wine数据集中特征数据PCA降维(降维后维度为2),并查看信息占比; 4. 将wine数据集降维后特征数据进行标准化处理; 5. 将wine数据集标准化后的特征数据拆分为训练集和测试集(测试集占比0.2)。
时间: 2023-11-22 10:53:38 浏览: 100
机器学习数据预处理葡萄酒数据集wine_data
4星 · 用户满意度95%
好的,下面我来一步步完成这些任务:
1. 加载wine数据集
```
from sklearn.datasets import load_wine
wine = load_wine()
```
2. 查看wine数据集的特征数据和标签
```
print(wine.data.shape) # 特征数据
print(wine.target.shape) # 标签
```
输出结果为:
```
(178, 13)
(178,)
```
说明wine数据集共有178个样本,每个样本有13个特征和一个标签。
3. 将wine数据集中特征数据PCA降维(降维后维度为2),并查看信息占比
```
from sklearn.decomposition import PCA
pca = PCA(n_components=2)
wine_pca = pca.fit_transform(wine.data)
print(wine_pca.shape) # 降维后的特征数据维度
print(pca.explained_variance_ratio_) # 查看信息占比
```
输出结果为:
```
(178, 2)
[0.99809123 0.00173592]
```
可以看到,降维后的特征数据维度为2,信息占比为99.81%。
4. 将wine数据集降维后特征数据进行标准化处理
```
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
wine_scaled = scaler.fit_transform(wine_pca)
```
5. 将wine数据集标准化后的特征数据拆分为训练集和测试集(测试集占比0.2)
```
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(wine_scaled, wine.target, test_size=0.2, random_state=42)
```
至此,wine数据集预处理任务完成。
阅读全文