西瓜书的西瓜数据4.0python代码
时间: 2023-07-23 11:31:01 浏览: 131
好的,下面是一个简单的Python代码,用于加载和处理《机器学习》(西瓜书)中提供的西瓜数据4.0,并将其分为训练集和测试集:
```python
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
# 从CSV文件导入数据集
data = pd.read_csv('watermelon.csv')
X = data.iloc[:, [1, 2, 3, 4, 5, 6, 7, 8]].values
y = data.iloc[:, 9].values
# 将标签转化为数值型
y[y=='是'] = 1
y[y=='否'] = 0
y = y.astype('int')
# 将数据集分为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)
```
该代码首先使用`pd.read_csv`函数从CSV文件中导入数据集,并将其存储在`data`中。然后,使用`iloc`函数选取前8列作为特征,并将其存储在`X`中。同时,将标签列存储在`y`中,并将标签转化为数值型。最后,使用`train_test_split`函数将数据集随机分为训练集和测试集,其中测试集占数据集的20%。
运行代码前,请确保将`watermelon.csv`文件与代码放在同一目录下。而`watermelon.csv`文件应该包含8列特征和1列标签。
运行代码后,可以使用`X_train`、`X_test`、`y_train`和`y_test`这四个变量来访问训练集和测试集的特征和标签。
阅读全文