包含数据的train_test_split实例
时间: 2024-04-04 08:27:14 浏览: 23
train_test_split是常用的函数,用于将数据集分为训练集和测试集。下是一个包含数据的train_test_split的实例:
设我们有一个包含100个样本数据集,每个样本有4个特征和1个标签。我们想要将数据集划分为训练集和集,其中训练集占80%,测试集占20。
```python
from sklearn.model_selection import train_test_split
import numpy as np
# 生成示例数据
X = np.random.rand(100, 4) # 特征矩阵,100个样本,每个样本4个特征
y = np.random.randint(0, 2, 100) # 标签向量,100个样本,每个样本标签为0或1
# 划分数据集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
# 输出划分后的数据集大小
print("训练集大小:", X_train.shape)
print("测试集大小:", X_test.shape)
```
运行以上代码,将会得到如下输出:
```
训练集大小: (80, 4)
测试集大小: (20, 4)
```
这个例子中,我们使用了sklearn库中的train_test_split函数,将数据集X和标签y按照指定的比例划分为训练集和测试集。其中,test_size参数指定了测试集的比例,random_state参数用于设置随机种子,保证每次划分结果的一致性。