首页包含数据的train_test_split实例

包含数据的train_test_split实例

时间: 2024-04-04 08:27:14 浏览: 23

train_test_split是常用的函数，用于将数据集分为训练集和测试集。下是一个包含数据的train_test_split的实例：设我们有一个包含100个样本数据集，每个样本有4个特征和1个标签。我们想要将数据集划分为训练集和集，其中训练集占80%，测试集占20。 ```python from sklearn.model_selection import train_test_split import numpy as np # 生成示例数据 X = np.random.rand(100, 4) # 特征矩阵，100个样本，每个样本4个特征 y = np.random.randint(0, 2, 100) # 标签向量，100个样本，每个样本标签为0或1 # 划分数据集 X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42) # 输出划分后的数据集大小 print("训练集大小:", X_train.shape) print("测试集大小:", X_test.shape) ``` 运行以上代码，将会得到如下输出： ``` 训练集大小: (80, 4) 测试集大小: (20, 4) ``` 这个例子中，我们使用了sklearn库中的train_test_split函数，将数据集X和标签y按照指定的比例划分为训练集和测试集。其中，test_size参数指定了测试集的比例，random_state参数用于设置随机种子，保证每次划分结果的一致性。