python代码不使用 Scikit-Learn 库来进行数据集的划分,自定义划分测试集与训练集
时间: 2024-03-25 19:36:25 浏览: 49
python 划分数据集为训练集和测试集的方法
如果不使用 Scikit-Learn 库,我们也可以手动编写代码来自定义划分测试集和训练集。下面是一个示例代码:
```python
import numpy as np
# 生成数据集
X = np.random.rand(100, 10) # 特征矩阵,100个样本,每个样本有10个特征
y = np.random.randint(0, 2, size=100) # 标签,0或1
# 设置随机种子
np.random.seed(42)
# 随机打乱数据集
random_index = np.random.permutation(len(X))
X_shuffle = X[random_index]
y_shuffle = y[random_index]
# 划分数据集
test_ratio = 0.2 # 测试集比例
test_size = int(len(X) * test_ratio) # 测试集大小
X_train = X_shuffle[:-test_size]
y_train = y_shuffle[:-test_size]
X_test = X_shuffle[-test_size:]
y_test = y_shuffle[-test_size:]
# 输出训练集和测试集的大小
print("训练集大小:", len(X_train))
print("测试集大小:", len(X_test))
```
在上面的代码中,我们首先生成了一个包含100个样本、每个样本有10个特征的数据集和对应的标签。然后设置随机种子,以保证每次随机结果相同。接着使用 np.random.permutation() 函数随机打乱数据集的顺序,再根据比例划分成训练集和测试集。最后输出训练集和测试集的大小。
阅读全文