python将数据集划分为训练集和测试集代码
时间: 2023-06-06 10:04:48 浏览: 151
下面是一个划分数据集的 Python 代码示例:
```python
import numpy as np
# 生成示例数据集
X = np.array(range(10))
y = X * 2
# 随机化数据集顺序
perm = np.random.permutation(len(X))
X = X[perm]
y = y[perm]
# 定义训练集和测试集大小(假设使用 80% 的数据作为训练集)
train_size = int(len(X) * 0.8)
# 划分数据集
X_train = X[:train_size]
y_train = y[:train_size]
X_test = X[train_size:]
y_test = y[train_size:]
# 输出数据集大小
print('Train set size:', len(X_train))
print('Test set size:', len(X_test))
```
这个代码示例将 X 和 y 两个变量作为输入的数据集,随机打乱数据集的顺序,并将 80% 的数据作为训练集,20% 的数据作为测试集进行划分。最后,将训练集和测试集分别保存到 X_train、y_train、X_test、y_test 四个变量中,并输出数据集的大小。
相关问题
划分训练集和测试集python代码实现
在Python中,我们可以使用sklearn库中的train_test_split函数来划分训练集和测试集。具体的实现代码如下所示:
```python
from sklearn.model_selection import train_test_split
# X为特征数据,y为标签数据,test_size为测试集占比
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)
```
其中,X为特征数据,y为标签数据,test_size表示测试集占总数据集的比例,random_state为随机数种子,用于保证每次划分的结果一致。划分后,我们可以使用X_train和y_train来训练模型,使用X_test和y_test来测试模型性能。
按8:2的比例将数据划分为训练集和测试集
将数据按照8:2的比例划分为训练集和测试集的步骤如下:
1. 将数据集随机打乱,确保数据的随机性。
2. 将打乱后的数据集分为两部分,一部分为训练集,一部分为测试集。
3. 按照8:2的比例分配数据,即将80%的数据分配给训练集,20%的数据分配给测试集。
4. 确保训练集和测试集中的数据是互斥的,即测试集中的数据不在训练集中出现,训练集中的数据不在测试集中出现。
可以使用Python中的sklearn库中的train_test_split函数来实现数据集的划分。代码示例如下:
```python
from sklearn.model_selection import train_test_split
# X为特征矩阵,y为标签列
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)
```
其中,X为特征矩阵,y为标签列,test_size参数表示测试集所占比例,random_state参数为随机种子,确保每次划分的结果一致。
阅读全文