拆分数据集代码
时间: 2023-07-09 16:19:40 浏览: 46
拆分数据集通常是为了将数据集划分为训练集和测试集,以便进行模型训练和测试。在 Python 中,我们可以使用 `train_test_split` 函数来拆分数据集。它可以将数据集随机划分为训练集和测试集,并且可以设置划分比例和随机种子。
以下是一个简单的数据集拆分示例:
```python
from sklearn.model_selection import train_test_split
import numpy as np
# 加载数据集
data = np.loadtxt("data.csv", delimiter=",")
# 将数据集分为特征矩阵 X 和标签向量 y
X = data[:, :-1] # 取前 4 列作为特征矩阵 X
y = data[:, -1] # 取最后一列作为标签向量 y
# 将数据集分为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
```
在上面的示例中,我们首先使用 `numpy` 中的 `loadtxt` 函数加载数据集。然后,我们将数据集分为特征矩阵 `X` 和标签向量 `y`。接下来,我们使用 `train_test_split` 函数将数据集分为训练集和测试集。其中,`test_size=0.2` 表示将数据集分为 80% 的训练集和 20% 的测试集,`random_state=42` 表示设置随机种子,以便每次运行程序时得到相同的结果。最终,我们可以使用 `X_train`、`y_train` 进行模型训练,使用 `X_test`、`y_test` 进行模型测试。