accuracy_lst_rfc = [] precision_lst_rfc = [] recall_lst_rfc = [] f1_lst_rfc = [] auc_lst_rfc = [] rfc_sm = RandomForestClassifier() #rfc_params = {} rfc_params = {'max_features' : ['auto', 'sqrt', 'log2'], 'random_state' : [42], 'class_weight' : ['balanced','balanced_subsample'], 'criterion' : ['gini', 'entropy'], 'bootstrap' : [True,False]} rand_rfc = RandomizedSearchCV(rfc_sm, rfc_params, n_iter=4) for train, val in sss.split(X_train_sm, y_train_sm): pipeline_rfc = imbalanced_make_pipeline(SMOTE(sampling_strategy='minority'), rand_rfc) # SMOTE happens during Cross Validation not before.. model_rfc = pipeline_rfc.fit(X_train_sm, y_train_sm) best_est_rfc = rand_rfc.best_estimator_ prediction_rfc = best_est_rfc.predict(X_train_sm[val]) accuracy_lst_rfc.append(pipeline_rfc.score(X_train_sm[val], y_train_sm[val])) precision_lst_rfc.append(precision_score(y_train_sm[val], prediction_rfc)) recall_lst_rfc.append(recall_score(y_train_sm[val], prediction_rfc)) f1_lst_rfc.append(f1_score(y_train_sm[val], prediction_rfc)) auc_lst_rfc.append(roc_auc_score(y_train_sm[val], prediction_rfc)) print('---' * 45) print('') print("accuracy: {}".format(np.mean(accuracy_lst_rfc))) print("precision: {}".format(np.mean(precision_lst_rfc))) print("recall: {}".format(np.mean(recall_lst_rfc))) print("f1: {}".format(np.mean(f1_lst_rfc))) print('---' * 45)
时间: 2024-02-16 10:01:40 浏览: 154
PLA_pocket.zip_PLA_Pocket_accuracy_pla_pocket pla
这段代码主要是利用随机搜索(RandomizedSearchCV)和交叉验证(Cross Validation)来对随机森林(RandomForestClassifier)的参数进行优化,并计算模型在训练集上的各项指标。
具体来说,代码首先定义了一些空列表,用于保存每次交叉验证后模型的指标。接着,定义了一个随机森林分类器(rfc_sm),并设置了一些可能需要调整的参数(rfc_params),这些参数将会在随机搜索中进行优化。然后,使用RandomizedSearchCV构造了一个带有随机森林分类器和随机搜索优化器的管道(pipeline_rfc),并将其作为模型进行训练。注意,在管道中,使用了SMOTE算法对训练集进行了过采样处理,以解决数据不平衡的问题。
接下来,使用交叉验证对训练集进行了划分,并对每个验证集进行了预测,同时记录了各项指标的值,并打印出了平均值。
最后,需要注意的是,代码中使用的各种指标函数(precision_score、recall_score、f1_score、roc_auc_score)都是来自于sklearn库,它们的参数含义与数学定义略有不同,需要注意。
阅读全文