# 拆分训练集 验证集 from sklearn.model_selection import train_test_split x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.3) # 网格调优(预剪枝) 通过自动调优找到最优参数值 from sklearn.tree import DecisionTreeClassifier from sklearn.model_selection import GridSearchCV parameters2={'max_depth':[15,17,20],'min_samples_leaf':[3,4,5],'min_samples_split':[7,9,10]} model2=DecisionTreeClassifier(random_state=42) grid_search=GridSearchCV(model2,parameters2,cv=5) grid_search.fit(x_train,y_train) i=grid_search.best_params_ print(i) # 4.模型训练与拟合 model = DecisionTreeClassifier(max_depth=15,min_samples_leaf=3,min_samples_split=10) model.fit(x_train, y_train) y_pred = model.predict(x_test) # 查看acc分数 from sklearn.metrics import accuracy_score score = accuracy_score(y_pred,y_test) print('Accuracy分数为:'+str(score)) from sklearn.metrics import precision_recall_fscore_support # 计算precision, recall, F1-score, support pre, rec, f1, sup = precision_recall_fscore_support(y_pred, y_test) print("precision:", pre, "\nrecall:", rec, "\nf1-score:", f1, "\nsupport:", sup) features=x.columns importances=model.feature_importances_ df=pd.DataFrame() df['特征名称']=features df['特征重要性']=importances f=df.sort_values('特征重要性',ascending=False) print(f) import matplotlib.pyplot as plt plt.rcParams['font.sans-serif'] = ['SimHei'] plt.rcParams['axes.unicode_minus'] = False import numpy as np sj = np.linspace(0.5, len(df['特征重要性']), len(df['特征重要性'])) plt.figure(figsize=(11, 8)) plt.bar(x=sj, height=df['特征重要性'], width=0.5, color='r') plt.xticks(rotation=340) xb = df['特征名称'] plt.xticks(sj, xb) plt.title('特征重要性柱图') plt.show() # 混淆矩阵 from sklearn import metrics metrics.plot_confusion_matrix(model, x_test, y_test) plt.show()
时间: 2024-02-16 12:02:30 浏览: 86
这段代码是关于决策树分类器的模型训练和评估的,其中包括数据集的拆分、网格搜索调优、模型训练与拟合、模型评估和特征重要性分析等步骤。具体来说:
1. 根据数据集 x 和标签 y,使用 train_test_split 函数将数据集拆分为训练集和测试集,其中测试集占比为 0.3。
2. 通过网格搜索调优,使用 GridSearchCV 函数找到最优参数值,包括最大深度、最小叶子节点数和最小分裂节点数,使用决策树分类器 DecisionTreeClassifier,并设置随机种子为 42。
3. 使用最优参数值,创建决策树分类器模型,并使用训练集进行训练和拟合。之后使用测试集进行预测,计算 Accuracy 分数和 precision、recall、f1-score、support 等指标。
4. 分析特征重要性,使用 feature_importances_ 属性获取特征重要性,将特征名称和其重要性组成一个 Pandas DataFrame,并按照特征重要性降序排序。之后使用 Matplotlib 绘制特征重要性柱图。
5. 最后,使用混淆矩阵函数 metrics.plot_confusion_matrix 绘制混淆矩阵,评估模型的分类效果。
相关问题
import pandas as pd import numpy as np from sklearn.model_selection import train_test_split from sklearn.linear_model import LogisticRegression from sklearn import metrics import matplotlib.pyplot as plt
这段代码导入了 pandas、numpy、scikit-learn 和 matplotlib.pyplot 库中的一些常用模块和函数。
- `import pandas as pd` 导入了 pandas 库,并将其重命名为 pd,用于数据处理和分析。
- `import numpy as np` 导入了 numpy 库,并将其重命名为 np,用于数值计算和数组操作。
- `from sklearn.model_selection import train_test_split` 导入了 scikit-learn 库中的 train_test_split 函数,用于将数据集拆分为训练集和测试集。
- `from sklearn.linear_model import LogisticRegression` 导入了 scikit-learn 库中的逻辑回归模型(LogisticRegression),用于进行分类任务。
- `from sklearn import metrics` 导入了 scikit-learn 库中的 metrics 模块,用于评估模型性能。
- `import matplotlib.pyplot as plt` 导入了 matplotlib 库中的 pyplot 模块,并将其重命名为 plt,用于绘制数据可视化图形。
这段代码的目的是导入所需的库和模块,以便在后续的代码中使用它们进行数据处理、模型训练和评估以及结果可视化等操作。
import numpy as np import matplotlib.pyplot as plt import pandas as pd import seaborn as sns from sklearn.datasets import load_boston from sklearn.model_selection import train_test_split from sklearn.linear_model import LinearRegression from sklearn import metrics from sklearn import preprocessing
你给出的是 Python 的代码,我看到你正在使用一些流行的 Python 库,如 NumPy、matplotlib、pandas 和 seaborn,以及一些机器学习相关的库,如 scikit-learn。这些库都是非常有用的,能够帮助你进行数据分析、可视化和建模。在这段代码中,你还导入了波士顿房价数据集(load_boston),并使用 train_test_split 函数将数据集拆分为训练集和测试集。然后,你使用线性回归模型(LinearRegression)对数据进行拟合,并使用 metrics 库中的一些函数来评估模型的性能。最后,你使用 preprocessing 库对数据进行标准化处理。这些步骤都是非常常见的机器学习流程中的一部分,用于数据预处理、建模和评估。
阅读全文