df_1_final_test = df_1.loc[list(set(df_1.index.tolist()).difference(set(df_train_1.index.tolist())))] #df_9_final_test = df_9.copy() 使负样本验证集等于正样本的验证集 df_9_final_test = df_9.sample(round(len(df_1_final_test)), random_state=int(cfg_train_dict['random_state'])) df_9_final_test['label'] = 0 df_ft = df_1_final_test.append(df_9_final_test, sort=False) # 随机分训练集和测试集 from sklearn.model_selection import train_test_split x_train, x_test, y_train, y_test = train_test_split(df_train.drop(['号码', 'label'], axis=1), df_train['label'], test_size=0.2, random_state=int(cfg_train_dict['random_state']))
时间: 2024-04-21 11:24:51 浏览: 162
formant_loc.m.rar_formant_共振峰提取_提取 matlab
这段代码是将数据集划分为训练集和测试集的代码。
首先,代码根据 df_1 和 df_train_1 的索引的差异,获取了 df_1 中不在训练集中的样本,并将其赋值给 df_1_final_test。
接着,代码从 df_9 数据框中随机抽样数量为 round(len(df_1_final_test)) 的样本作为负例测试集,并给其添加一个名为 'label' 的列,所有行的值都设置为 0。
然后,代码将 df_1_final_test 和 df_9_final_test 两个数据框按行合并成一个新的数据框 df_ft。
接下来,代码使用 train_test_split 函数将 df_train 数据框划分为训练集和测试集。其中,参数 df_train.drop(['号码', 'label'], axis=1) 表示训练集的特征数据,df_train['label'] 表示训练集的标签数据。test_size 参数设置了测试集的比例,这里是 0.2,即 20% 的样本被划分为测试集。random_state 参数用于设置随机种子。
最后,代码将划分好的训练集和测试集分别赋值给 x_train、x_test、y_train、y_test 变量。
这段代码的作用是将数据集划分为训练集和测试集,用于模型的训练和评估。其中,df_train 包含了正例样本和负例样本,df_ft 包含了未在训练集中出现的正例样本和负例样本。x_train、x_test、y_train、y_test 则是划分好的训练集和测试集的特征数据和标签数据。
阅读全文