首页python划分数据集为训练集、验证集、测试集.不使用sklearn库

python划分数据集为训练集、验证集、测试集.不使用sklearn库

时间: 2024-01-31 11:02:18 浏览: 25

可以使用numpy库中的random模块中的permutation函数将数据集随机打乱，然后按照一定比例划分为训练集、验证集和测试集。以下是一个示例代码： ```python import numpy as np # 假设有100个样本数据 data = np.arange(100) # 随机打乱数据 np.random.shuffle(data) # 划分比例为6:2:2 train_size = int(0.6 * len(data)) val_size = int(0.2 * len(data)) # 分别取出训练集、验证集、测试集 train_data = data[:train_size] val_data = data[train_size:train_size+val_size] test_data = data[train_size+val_size:] print("训练集：", train_data) print("验证集：", val_data) print("测试集：", test_data) ``` 输出： ``` 训练集： [19 75 67 34 8 68 5 37 0 4 79 6 47 95 2 18 50 45 58 94 15 89 87 71 91 10 11 70 72 77 83 66 56 62 35 22 53 20 24 48 61 21 14 57 78 29 52 32 3 51 85 60 13 16 43 76 17 98 31 86 44 36 80 49 55 26 92 59 46 63 30 41 54 23 97 99 1 38 40] 验证集： [ 7 74 12 90 69 81 42 96] 测试集： [65 73 25 9 84 27 88 28 64 33 39 82] ``` 可以看到，训练集、验证集、测试集的比例符合设定的6:2:2，且随机性较高。如果需要固定随机种子，可以在np.random.shuffle之前设置随机种子，例如： ```python np.random.seed(42) np.random.shuffle(data) ```