任务1 wine数据集预处理 1. 通过sklearn库加载wine数据集; 2. 查阅wine数据集的特征数据和标签; 3. 将wine数据集中特征数据PCA降维(降维后维度为2),并查看信息占比; 4. 将wine数据集降维后特征数据进行标准化处理; 5. 将wine数据集标准化后的特征数据拆分为训练集和测试集(测试集占比0.2)。
时间: 2023-11-22 14:53:21 浏览: 31
好的,下面我来为您解答:
1. 通过sklearn库加载wine数据集
```python
from sklearn.datasets import load_wine
wine = load_wine()
```
2. 查阅wine数据集的特征数据和标签
```python
print(wine.feature_names) # 输出特征数据的名称
print(wine.data) # 输出特征数据
print(wine.target_names) # 输出标签的名称
print(wine.target) # 输出标签
```
3. 将wine数据集中特征数据PCA降维(降维后维度为2),并查看信息占比
```python
from sklearn.decomposition import PCA
pca = PCA(n_components=2)
wine_pca = pca.fit_transform(wine.data)
print(wine_pca) # 输出降维后的特征数据
print(pca.explained_variance_ratio_) # 输出每个主成分所占信息量的比例
```
4. 将wine数据集降维后特征数据进行标准化处理
```python
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
wine_scaled = scaler.fit_transform(wine_pca)
print(wine_scaled) # 输出标准化后的特征数据
```
5. 将wine数据集标准化后的特征数据拆分为训练集和测试集(测试集占比0.2)
```python
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(wine_scaled, wine.target, test_size=0.2)
print(X_train.shape, y_train.shape) # 输出训练集的特征数据和标签的形状
print(X_test.shape, y_test.shape) # 输出测试集的特征数据和标签的形状
```
希望可以帮助到您!