list_corpus = df["text"].tolist() list_labels = df["target"].tolist() X_train, X_test, y_train, y_test = train_test_split(list_corpus, list_labels, test_size=0.2, random_state=random_state_split)
时间: 2024-04-17 22:23:12 浏览: 83
digits_train.zip_corpus_speech corpus
这代码用于从DataFrame中提取文本数据和标签,并将它们分别存储在`list_corpus`和`list_labels`中。然后,使用`train_test_split`函数将数据集划分为训练集和测试集,其中训练集的比例为80%,测试集的比例为20%。`X_train`和`X_test`分别存储训练集和测试集的文本数据,`y_train`和`y_test`分别存储训练集和测试集的标签数据。参数`random_state`用于控制数据划分的随机性,确保每次运行代码时得到相同的划分结果。
阅读全文