python将数据集随机划分成80%训练集、20%测试集
时间: 2023-09-14 17:13:09 浏览: 626
在Python中,可以使用sklearn库中的train_test_split函数来将数据集随机划分为训练集和测试集。下面是一个示例代码:
```python
from sklearn.model_selection import train_test_split
# 假设data是你的数据集,包含特征和标签
X = data.drop('label', axis=1) # 特征数据
y = data['label'] # 标签数据
# 将数据集划分为训练集和测试集,按照80%训练集,20%测试集的比例划分
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
```
在上述代码中,train_test_split函数的参数中,X是特征数据,y是标签数据,test_size指定了测试集的比例(这里是20%),random_state是随机数种子,用于保证每次划分的结果是一致的。
通过以上代码,可以将原始数据集随机划分成80%的训练集和20%的测试集,你可以根据自己的数据集和需求进行相应的调整。
相关问题
python将数据集划分为训练集和测试集代码
下面是一个划分数据集的 Python 代码示例:
```python
import numpy as np
# 生成示例数据集
X = np.array(range(10))
y = X * 2
# 随机化数据集顺序
perm = np.random.permutation(len(X))
X = X[perm]
y = y[perm]
# 定义训练集和测试集大小(假设使用 80% 的数据作为训练集)
train_size = int(len(X) * 0.8)
# 划分数据集
X_train = X[:train_size]
y_train = y[:train_size]
X_test = X[train_size:]
y_test = y[train_size:]
# 输出数据集大小
print('Train set size:', len(X_train))
print('Test set size:', len(X_test))
```
这个代码示例将 X 和 y 两个变量作为输入的数据集,随机打乱数据集的顺序,并将 80% 的数据作为训练集,20% 的数据作为测试集进行划分。最后,将训练集和测试集分别保存到 X_train、y_train、X_test、y_test 四个变量中,并输出数据集的大小。
python将数据集按顺序划分测试集和训练集的代码
可以使用`sklearn.model_selection`库中的`train_test_split()`函数来将数据集按顺序划分测试集和训练集。以下是一个示例代码:
```python
from sklearn.model_selection import train_test_split
# 读取数据集
data = [...] # 数据集
# 划分数据集
train_size = 0.8 # 训练集占比
train_num = int(len(data) * train_size)
train_data = data[:train_num]
test_data = data[train_num:]
```
在以上代码中,首先读取了数据集,然后通过指定训练集占比`train_size`,计算出训练集的大小`train_num`,并将数据集的前`train_num`个数据作为训练集,将剩下的数据作为测试集。注意,这种按顺序划分数据集的方法适用于数据集已经排好序的情况,否则需要使用`train_test_split()`函数来随机划分数据集。