import seaborn as sns mat = confusion_matrix(y_te, pre) mat = pd.DataFrame(mat, columns=['流失','非流失']) mat.index = mat.columns plt.figure(figsize=(12,4), dpi=100) sns.heatmap(mat, annot=True, fmt='.20g') plt.show()

这段代码使用了seaborn库中的heatmap函数，对于预测结果和真实标签之间的混淆矩阵进行可视化展示。具体来说，代码中首先使用sklearn库中的confusion_matrix函数计算出混淆矩阵，然后将其转换为DataFrame格式，并设置行列索引。接着，使用sns库中的heatmap函数将混淆矩阵以热力图的形式展示出来，其中annot参数用于显示每个方格的具体数值，fmt参数用于设置数值显示的格式。最后，使用plt库中的show函数显示热力图。

import pandas as pd import matplotlib.pyplot as plt import seaborn as sns from sklearn.model_selection import train_test_split from sklearn.preprocessing import StandardScaler from sklearn.ensemble import RandomForestClassifier from sklearn.metrics import confusion_matrix, classification_report, accuracy_score # 1. 数据准备 train_data = pd.read_csv('train.csv') test_data = pd.read_csv('test_noLabel.csv') # 填充缺失值 train_data.fillna(train_data.mean(), inplace=True) test_data.fillna(test_data.mean(), inplace=True) # 2. 特征工程 X_train = train_data.drop(['Label', 'ID'], axis=1) y_train = train_data['Label'] X_test = test_data.drop('ID', axis=1) scaler = StandardScaler() X_train = scaler.fit_transform(X_train) X_test = scaler.transform(X_test) # 3. 模型建立 model = RandomForestClassifier(n_estimators=100, random_state=42) # 4. 模型训练 model.fit(X_train, y_train) # 5. 进行预测 y_pred = model.predict(X_test) # 6. 保存预测结果 df_result = pd.DataFrame({'ID': test_data['ID'], 'Label': y_pred}) df_result.to_csv('forecast_result.csv', index=False) # 7. 模型评估 y_train_pred = model.predict(X_train) print('训练集准确率：', accuracy_score(y_train, y_train_pred)) print('测试集准确率：', accuracy_score(y_test, y_pred)) print(classification_report(y_test, y_pred)) # 8. 绘制柱形图 feature_importances = pd.Series(model.feature_importances_, index=X_train.columns) feature_importances = feature_importances.sort_values(ascending=False) plt.figure(figsize=(10, 6)) sns.barplot(x=feature_importances, y=feature_importances.index) plt.xlabel('Feature Importance Score') plt.ylabel('Features') plt.title('Visualizing Important Features') plt.show() # 9. 对比类分析 train_data['Label'].value_counts().plot(kind='bar', color=['blue', 'red']) plt.title('Class Distribution') plt.xlabel('Class') plt.ylabel('Frequency') plt.show()

这段代码是一个机器学习模型的完整流程，包括数据准备、特征工程、模型建立、模型训练、预测结果保存、模型评估和可视化分析等步骤。其中包括了绘制柱形图和对比类分析的代码。绘制柱形图的代码如下： ``` feature_importances = pd.Series(model.feature_importances_, index=X_train.columns) feature_importances = feature_importances.sort_values(ascending=False) plt.figure(figsize=(10, 6)) sns.barplot(x=feature_importances, y=feature_importances.index) plt.xlabel('Feature Importance Score') plt.ylabel('Features') plt.title('Visualizing Important Features') plt.show() ``` 这段代码会生成一个柱形图，横轴为特征重要性得分，纵轴为特征名称，用于展示机器学习模型中各个特征的重要性。对比类分析的代码如下： ``` train_data['Label'].value_counts().plot(kind='bar', color=['blue', 'red']) plt.title('Class Distribution') plt.xlabel('Class') plt.ylabel('Frequency') plt.show() ``` 这段代码会生成一个柱形图，展示训练数据中不同类别的样本数量分布情况。这个图可以用于判断数据集是否存在类别不平衡的情况，以及对模型的训练和评估结果进行解释。

解释代码 with open("result/ner_predict.utf8", "r", encoding="utf-8") as f: data = f.read() data = [i.split(" ") for i in data.split("\n") if i] print(data) y1 = [i for _, i, _ in data] y2 = [i for _, _, i in data] label = set(list(y1)) acc = accuracy_score(y1, y2) precision = precision_score(y1, y2, average='micro') recall = recall_score(y1, y2, average='micro') f1score = f1_score(y1, y2, average='micro') mcc = matthews_corrcoef(y1, y2) print('accuracy_score is :', acc) print('precision_score is : ', precision) print('recall_score is : ', recall) print('f1_score is : ', f1score) print('matthews_corrcoef is : ', mcc) label = list(set(y1)) matrixs = pd.DataFrame(confusion_matrix(y1, y2, labels=label), index=label, columns=label) del matrixs['O'] matrixs = matrixs[matrixs.index != 'O'] print(matrixs) sns.heatmap(matrixs, cmap="Wistia") # plt.show() plt.savefig("matrixs.png", dpi=300)

这段代码主要是对 NER（命名实体识别）的预测结果进行评估和可视化。下面是代码的具体解释： 1. `with open("result/ner_predict.utf8", "r", encoding="utf-8") as f:`：打开 NER 预测结果文件 ner_predict.utf8，并使用 utf-8 编码方式读取文件内容，使用 with 语句可以确保文件读取完毕后自动关闭文件。 2. `data = f.read()`：读取文件内容并赋值给变量 data。 3. `data = [i.split(" ") for i in data.split("\n") if i]`：根据换行符对 data 进行分割，得到多行文本，然后对每一行文本使用空格进行分割，得到一个二维列表。 4. `y1 = [i for _, i, _ in data]` 和 `y2 = [i for _, _, i in data]`：从二维列表中分别提取出第二列和第三列的值，分别赋值给 y1 和 y2。 5. `label = set(list(y1))`：将 y1 转换成集合类型，得到命名实体类型，赋值给变量 label。 6. `acc = accuracy_score(y1, y2)`、`precision = precision_score(y1, y2, average='micro')`、`recall = recall_score(y1, y2, average='micro')`、`f1score = f1_score(y1, y2, average='micro')` 和 `mcc = matthews_corrcoef(y1, y2)`：使用 sklearn 库中的函数计算各种评估指标，包括准确率、精确率、召回率、f1 分数和 Matthews 相关系数。 7. `print`：输出各种评估指标的值。 8. `label = list(set(y1))`：将 y1 转换成列表类型，得到命名实体类型，赋值给变量 label。 9. `matrixs = pd.DataFrame(confusion_matrix(y1, y2, labels=label), index=label, columns=label)`：使用 pandas 库中的 DataFrame 函数构建混淆矩阵，其中 confusion_matrix 函数可以计算出混淆矩阵，labels 参数用于指定行和列的标签。 10. `del matrixs['O']` 和 `matrixs = matrixs[matrixs.index != 'O']`：将矩阵中的 O 类别删除，并将矩阵中行标签为 O 的行删除，因为 O 类别通常表示无命名实体。 11. `print(matrixs)`：打印出处理后的混淆矩阵。 12. `sns.heatmap(matrixs, cmap="Wistia")`：使用 seaborn 库中的 heatmap 函数将混淆矩阵以热力图的形式进行可视化，cmap 参数指定使用的颜色映射。 13. `plt.savefig("matrixs.png", dpi=300)`：将热力图保存为图片文件。

阅读全文

import seaborn as sns mat = confusion_matrix(y_te, pre) mat = pd.DataFrame(mat, columns=['流失','非流失']) mat.index = mat.columns plt.figure(figsize=(12,4), dpi=100) sns.heatmap(mat, annot=True, fmt='.20g') plt.show()

相关推荐

sns.load_dataset(“iris”)报错原因探究+解决办法

【数据挖掘重要笔记day31】详细完解决iris = sns.load_dataset(‘iris’)出来EmptyDataError: No columns to parse from file报错

confusion_matrix:包含带有函数的 cf_matrix.py 文件，用于对混淆矩阵进行漂亮的可视化

Xgboost_Implementation

Logistic_Regression:虹膜数据集的Logistic回归

python机器学习实例代码 - 汽车特征评估质量和估算收入阶层.rar

Seaborn绘图小技巧：提高数据可视化的效率

【热力图的秘密武器】：Seaborn揭示数据相关性的技巧

seaborn绘制混沌矩阵

已知y_pred以及y_test,绘制出混淆矩阵图

利用scikit-learn库中datasets包中鸢尾花数据集（load_iris）load_iris数据集训练一个决策树分类器，并实现鸢尾花分类任务。 （1）数据准备； （2）模型构建与训练； （3）模型评估； （4）结果可视化。

国民经济行业分类与国际标准行业分类（ISIC+Rev.4）的对照和匹配（供参考）.docx

网络助手工具(亲测好用)

013基于混合整数规划的电池容量优化 不能运行.rar

HTML5实现的微信大转盘抽奖特效源码.zip

自动驾驶控制-基于MPC的速度控制仿真 matlab和simulink联合仿真，基于mpc算法的速度控制，跟踪阶跃形式的速度和正弦形式的速度

求解 2D 和 3D 分数矢量亥姆霍兹方程，用于非刚性图像配准Matlab代码.rar

大家在看

卷积神经网络在雷达自动目标识别中的研究进展.pdf

伺服环修正参数-Power PMAC

多變異圖的概念-minitab的PPT简易教程

ETL Automation 使用手册 2.6

创建天线模型-OPNET使用入门

最新推荐

国民经济行业分类与国际标准行业分类（ISIC+Rev.4）的对照和匹配（供参考）.docx

网络助手工具(亲测好用)

013基于混合整数规划的电池容量优化 不能运行.rar

macOS 10.9至10.13版高通RTL88xx USB驱动下载

PyCharm开发者必备：提升效率的Python环境管理秘籍

matlab中VBA指令集

在Windows Forms和WPF中实现FontAwesome-4.7.0图形

【Postman进阶秘籍】：解锁高级API测试与管理的10大技巧

ubuntu22.04怎么恢复出厂设置

2001年度广告运作规划：高效利用资源的策略

利用scikit-learn库中datasets包中鸢尾花数据集（load_iris）load_iris数据集训练一个决策树分类器，并实现鸢尾花分类任务。（1）数据准备；（2）模型构建与训练；（3）模型评估；（4）结果可视化。

013基于混合整数规划的电池容量优化不能运行.rar

013基于混合整数规划的电池容量优化不能运行.rar