python代码自定义划分测试集与训练集
时间: 2023-09-22 19:08:33 浏览: 85
python 划分数据集为训练集和测试集的方法
在 Python 中,我们可以使用 Scikit-Learn 库来进行数据集的划分,其中 train_test_split() 函数可以将数据集划分为训练集和测试集。
下面是一个示例代码,展示如何将数据集随机划分为训练集和测试集:
```python
from sklearn.model_selection import train_test_split
import numpy as np
# 生成数据集
X = np.random.rand(100, 10) # 特征矩阵,100个样本,每个样本有10个特征
y = np.random.randint(0, 2, size=100) # 标签,0或1
# 划分数据集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
# 输出训练集和测试集的大小
print("训练集大小:", len(X_train))
print("测试集大小:", len(X_test))
```
在上面的代码中,我们首先生成了一个包含100个样本、每个样本有10个特征的数据集和对应的标签。然后使用 train_test_split() 函数将数据集随机划分为训练集和测试集,其中 test_size=0.2 表示测试集占总数据集的20%,random_state=42 表示设置随机数种子,以保证每次划分的结果相同。最后输出训练集和测试集的大小。
阅读全文