import pandas as pd from sklearn import metrics from sklearn.model_selection import train_test_split import xgboost as xgb import matplotlib.pyplot as plt import openpyxl # 导入数据集 df = pd.read_csv("/Users/mengzihan/Desktop/正式有血糖聚类前.csv") data=df.iloc[:,:35] target=df.iloc[:,-1] # 切分训练集和测试集 train_x, test_x, train_y, test_y = train_test_split(data,target,test_size=0.2,random_state=7) # xgboost模型初始化设置 dtrain=xgb.DMatrix(train_x,label=train_y) dtest=xgb.DMatrix(test_x) watchlist = [(dtrain,'train')] # booster: params={'booster':'gbtree', 'objective': 'binary:logistic', 'eval_metric': 'auc', 'max_depth':12, 'lambda':10, 'subsample':0.75, 'colsample_bytree':0.75, 'min_child_weight':2, 'eta': 0.025, 'seed':0, 'nthread':8, 'gamma':0.15, 'learning_rate' : 0.01} # 建模与预测:50棵树 bst=xgb.train(params,dtrain,num_boost_round=50,evals=watchlist) ypred=bst.predict(dtest) # 设置阈值、评价指标 y_pred = (ypred >= 0.5)*1 print ('Precesion: %.4f' %metrics.precision_score(test_y,y_pred)) print ('Recall: %.4f' % metrics.recall_score(test_y,y_pred)) print ('F1-score: %.4f' %metrics.f1_score(test_y,y_pred)) print ('Accuracy: %.4f' % metrics.accuracy_score(test_y,y_pred)) print ('AUC: %.4f' % metrics.roc_auc_score(test_y,ypred)) ypred = bst.predict(dtest) print("测试集每个样本的得分\n",ypred) ypred_leaf = bst.predict(dtest, pred_leaf=True) print("测试集每棵树所属的节点数\n",ypred_leaf) ypred_contribs = bst.predict(dtest, pred_contribs=True) print("特征的重要性\n",ypred_contribs ) xgb.plot_importance(bst,height=0.8,title='影响糖尿病的重要特征', ylabel='特征') plt.rc('font', family='Arial Unicode MS', size=14) plt.show()这个代码问题出在哪
时间: 2024-01-21 16:04:01 浏览: 67
pandas.read_csv参数详解(小结)
这段代码是使用XGBoost进行二分类的分析和预测,但在运行过程中可能会出现一些问题。以下是可能存在的问题:
1. 文件路径问题:请确保你的数据文件 "/Users/mengzihan/Desktop/正式有血糖聚类前.csv" 存在,并且路径正确。
2. 数据准备问题:请确保你的数据集 df 包含了正确的数据,并且数据格式正确。确保 df 包含了35个特征和一个目标变量。
3. 数据切分问题:在 train_test_split() 函数中,你将数据切分为训练集和测试集,但没有对目标变量进行切分。请将代码修改为 `train_test_split(data, target, test_size=0.2, random_state=7)`。
4. 参数设置问题:XGBoost模型初始化的参数设置可以根据实际需求进行调整,但请确保所有参数的设置都是合理的。
5. 特征重要性可视化问题:在最后一行代码中,使用了 xgb.plot_importance() 函数来绘制特征重要性图,但需要确保 matplotlib 库已正确安装。
请检查以上问题并进行修正,然后再次运行代码。如果仍然出现问题,请提供错误信息以便进一步排查。
阅读全文