首页python 随机划分数据集

python 随机划分数据集

时间: 2023-09-14 16:14:24 浏览: 99

在 Python 中，可以使用 Scikit-learn 库中的 train_test_split() 函数来随机划分数据集。这个函数可以将数据集划分为训练集和测试集，用于机器学习模型的训练和评估。下面是一个简单的例子，展示如何使用 train_test_split() 函数将数据集划分为训练集和测试集： ```python from sklearn.model_selection import train_test_split # 假设我们有一个包含特征和标签的数据集 X 和 y X = ... y = ... # 使用 train_test_split() 函数将数据集划分为训练集和测试集 X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42) ``` 这里的 train_test_split() 函数接受四个参数： - X：特征矩阵，包含所有的特征数据。 - y：标签向量，包含与特征数据对应的标签。 - test_size：测试集的大小，可以是一个小数，表示测试集占总数据集的比例，或者是一个整数，表示测试集的样本数量。 - random_state：随机数种子，用于产生随机划分。在这个例子中，我们将数据集划分为训练集和测试集，其中测试集占总数据集的 20%，随机数种子为 42，保证每次运行结果相同。最后，train_test_split() 函数返回四个对象：训练集的特征数据 X_train，训练集的标签数据 y_train，测试集的特征数据 X_test 和测试集的标签数据 y_test。

阅读全文