titanic_model = pd.get_dummies(titanic_model, columns=['sex', 'who'])

这段代码是将 Titanic 数据集中的 'sex' 和 'who' 列进行独热编码。独热编码是一种将离散型特征转换成数值型特征的方法，它将每个可能的取值转换成一个新的二进制特征，该特征只有在该取值出现时才为1，否则为0。这种编码方式可以避免算法中的权重偏差问题，并且可以有效地提高算法的准确性。在这个例子中，独热编码将 'sex' 和 'who' 列中的不同取值转换为新的二进制特征，并将它们添加到数据集中。

titanic_model = pd.get_dummies(titanic_model, columns=['pclass'])

这行代码是用来对 Titanic 数据集中的 'pclass' 变量进行独热编码的。独热编码是将离散型变量转换为机器学习模型可以理解的数值型变量的一种方式。在这里，'pclass' 变量是船票等级，有三个等级，分别为1、2、3。使用独热编码可以将其转换为三个二元变量：'pclass_1'、'pclass_2' 和 'pclass_3'，取值为 0 或 1，表示某个乘客的船票等级是否为 1、2 或 3。这样，模型就可以将船票等级作为数值型变量来处理，并更好地利用该变量对预测结果进行建模。

# 导入相关库 import pandas as pd import matplotlib.pyplot as plt from sklearn.model_selection import train_test_split from sklearn.tree import DecisionTreeClassifier from sklearn.ensemble import RandomForestClassifier from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score,roc_auc_score,roc_curve # 读取数据 df = pd.read_csv('C:/Users/E15/Desktop/机器学习作业/第一次作业/第一次作业/三个数据集/Titanic泰坦尼克号.csv') # 数据预处理 df = df.drop(["Name", "Ticket", "Cabin"], axis=1) # 删除无用特征 df = pd.get_dummies(df, columns=["Sex", "Embarked"]) # 将分类特征转换成独热编码 df = df.fillna(df.mean()) # 使用平均值填充缺失值 # 划分数据集 X = df.drop(["Survived"], axis=1) y = df["Survived"] X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42) # 决策树 dtc = DecisionTreeClassifier(random_state=42) dtc.fit(X_train, y_train) y_pred_dtc = dtc.predict(X_test) # 剪枝决策树 pruned_dtc = DecisionTreeClassifier(random_state=42, ccp_alpha=0.015) pruned_dtc.fit(X_train, y_train) y_pred_pruned_dtc = pruned_dtc.predict(X_test) # 随机森林 rfc = RandomForestClassifier(n_estimators=100, random_state=42) rfc.fit(X_train, y_train) y_pred_rfc = rfc.predict(X_test) # 计算评价指标 metrics = {"Accuracy": accuracy_score, "Precision": precision_score, "Recall": recall_score, "F1-Score": f1_score, "AUC": roc_auc_score} results = {} for key in metrics.keys(): if key == "AUC": results[key] = {"Decision Tree": roc_auc_score(y_test, y_pred_dtc), "Pruned Decision Tree": roc_auc_score(y_test, y_pred_pruned_dtc), "Random Forest": roc_auc_score(y_test, y_pred_rfc)} else: results[key] = {"Decision Tree": metrics[key](y_test, y_pred_dtc), "Pruned Decision Tree": metrics[key](y_test, y_pred_pruned_dtc), "Random Forest": metrics[key](y_test, y_pred_rfc)} # 打印评价指标的表格 results_df = pd.DataFrame(results) print(results_df)怎么打印auv图

要打印AUC图，可以使用`roc_curve`函数获取ROC曲线的参数，然后使用`matplotlib`库绘制曲线。具体代码如下： ``` # 计算ROC曲线参数 fpr_dtc, tpr_dtc, thresholds_dtc = roc_curve(y_test, y_pred_dtc) fpr_pruned_dtc, tpr_pruned_dtc, thresholds_pruned_dtc = roc_curve(y_test, y_pred_pruned_dtc) fpr_rfc, tpr_rfc, thresholds_rfc = roc_curve(y_test, y_pred_rfc) # 绘制ROC曲线 plt.figure(figsize=(8, 6)) plt.plot(fpr_dtc, tpr_dtc, label='Decision Tree') plt.plot(fpr_pruned_dtc, tpr_pruned_dtc, label='Pruned Decision Tree') plt.plot(fpr_rfc, tpr_rfc, label='Random Forest') plt.plot([0, 1], [0, 1], linestyle='--', color='grey') plt.xlabel('False Positive Rate') plt.ylabel('True Positive Rate') plt.title('Receiver Operating Characteristic (ROC) Curve') plt.legend() plt.show() ``` 这段代码将会绘制一个ROC曲线，其中每个分类器都使用不同的颜色表示，同时包含一个虚线表示随机分类器的结果。注意，这段代码需要在之前的代码块中运行，以确保`fpr`，`tpr`和`y_pred`参数已经存在。

阅读全文

titanic_model = pd.get_dummies(titanic_model, columns=['sex', 'who'])

titanic_model = pd.get_dummies(titanic_model, columns=['pclass'])

相关推荐

Kaggle_Titanic_train.csv泰坦尼克数据集.zip

Titanic_Dataset-main.zip

titanic_泰坦尼克数据集.zip

使用决策树算法进行titanic生还预测，训练数据集为titanic_train.csv，测试数据集为titanic_test.csv。

titanic.zip_pandas库使用案例_titanic_泰坦尼克

titannic_data.rar

TitanicDataset_1:在TitanicDataset上进行预处理

用逻辑回归训练模型（max_iter=10000）对泰坦尼克号乘客生存预测，输出预测结果

使用逻辑回归训练模型（max_iter=10000）对泰坦尼克号乘客生存预测，输出预测结果

1.利用随机森林求出Titanic数据集的训练集及测试集预测准确率。 2.跑出影响因素的重要性排序图。 3.跑出随机森林收敛图。 4.将代码列出。

帮我对titanic数据集进行pandas预处理

python不调用库实现交叉验证法验证ID3决策树，以titanic数据集为例

修改泰坦尼克号代码，使其减少变量（列）的数目，减为原来的80%，60%，40%，20%,;减少样本（行)的数目，减为原来的80%，60%，40%,20%;修改现有titanic代码保留embarked变量，然后对Q,S，C换成1，2，3这样编码

vb定时显示报警系统设计(论文+源代码)(2024a7).7z

Java毕设项目：基于spring+mybatis+maven+mysql实现的会员积分管理系统【含源码+数据库+毕业论文】

Java Spring Boot 微服务 – Eureka 和 Spring Cloud Gateway 的集成

大家在看

西软S酒店管理软件V3.0说明书

用单片机实现声级计智能

2_JFM7VX690T型SRAM型现场可编程门阵列技术手册.pdf

鲁大师 v5.1021.1300 LITE.rar

OpenCL 代码优化

最新推荐

vb定时显示报警系统设计(论文+源代码)(2024a7).7z

Java毕设项目：基于spring+mybatis+maven+mysql实现的会员积分管理系统【含源码+数据库+毕业论文】

Java Spring Boot 微服务 – Eureka 和 Spring Cloud Gateway 的集成

ASP.NET基于CS结构的企业人事管理系统的设计与实现(源代码+论文)(2024qs).7z

毕设-PHP-[整站程序]雪缘动感在线系统_luckysnow38.zip

S7-PDIAG工具使用教程及技术资料下载指南

管理建模和仿真的文件

CC-LINK远程IO模块AJ65SBTB1现场应用指南：常见问题快速解决

python 画一个进度条

Nginx 1.19.0版本Windows服务器部署指南