train["Embarked"] = train["Embarked"].fillna(train["Embarked"].mode()[0]) #删除缺失值较多无法使用的属性 train.drop(['Cabin'],axis=1,inplace=True) print("对数据集空值处理后的情况：") train.info()

这段代码的作用是对 `train` 数据框中的缺失值进行处理。首先，`train["Embarked"].mode()[0]` 会返回 `Embarked` 列中出现次数最多的元素，即众数。`fillna` 方法会将 `Embarked` 列中的缺失值用众数进行填充。接着，使用 `drop` 方法删除 `Cabin` 列，因为该列缺失值较多，无法进行有效的处理。最后，使用 `info` 方法打印出经过处理后的 `train` 数据框中的基本信息，包括每列的名称、非空值的数量和数据类型。这可以帮助我们检查数据是否已经被正确地处理了，以及是否还存在其他的缺失值或异常值等问题。

import matplotlib.pyplot as plt import pandas as pd import seaborn as sns from sklearn.ensemble import RandomForestClassifier from sklearn.metrics import accuracy_score from sklearn.model_selection import train_test_split # 读取训练集和测试集数据 train_data = pd.read_csv(r'C:\ADULT\Titanic\train.csv') test_data = pd.read_csv(r'C:\ADULT\Titanic\test.csv') # 统计训练集和测试集缺失值数目 print(train_data.isnull().sum()) print(test_data.isnull().sum()) # 处理 Age, Fare 和 Embarked 缺失值 most_lists = ['Age', 'Fare', 'Embarked'] for col in most_lists: train_data[col] = train_data[col].fillna(train_data[col].mode()[0]) test_data[col] = test_data[col].fillna(test_data[col].mode()[0]) # 拆分 X, Y 数据并将分类变量 one-hot 编码 y_train_data = train_data['Survived'] features = ['Pclass', 'Age', 'SibSp', 'Parch', 'Fare', 'Sex', 'Embarked'] X_train_data = pd.get_dummies(train_data[features]) X_test_data = pd.get_dummies(test_data[features]) # 合并训练集 Y 和 X 数据，并创建乘客信息分类变量 train_data_selected = pd.concat([y_train_data, X_train_data], axis=1) print(train_data_selected) cate_features = ['Pclass', 'SibSp', 'Parch', 'Sex', 'Embarked', 'Age_category', 'Fare_category'] train_data['Age_category'] = pd.cut(train_data.Fare, bins=range(0, 100, 10)).astype(str) train_data['Fare_category'] = pd.cut(train_data.Fare, bins=list(range(-20, 110, 20)) + [800]).astype(str) print(train_data) # 统计各分类变量的分布并作出可视化呈现 plt.figure(figsize=(18, 16)) plt.subplots_adjust(hspace=0.3, wspace=0.3) for i, cate_feature in enumerate(cate_features): plt.subplot(7, 2, 2 * i + 1) sns.histplot(x=cate_feature, data=train_data, stat="density") plt.xlabel(cate_feature) plt.ylabel('Density') plt.subplot(7, 2, 2 * i + 2) sns.lineplot(x=cate_feature, y='Survived', data=train_data) plt.xlabel(cate_feature) plt.ylabel('Survived') plt.show() # 绘制点状的相关系数热图 plt.figure(figsize=(12, 8)) sns.heatmap(train_data_selected.corr(), vmin=-1, vmax=1, annot=True) plt.show() sourceRow = 891 output = pd.DataFrame({'PassengerId': test_data.PassengerId, 'Survived': predictions}) output.head() # 保存结果 output.to_csv('gender_submission.csv', index=False) print(output) train_X, test_X, train_y, test_y = train_test_split(X_train_data, y_train_data, train_size=0.8, random_state=42) print("随机森林分类结果") y_pred_train1 = train_data.predict(train_X) y_pred_test1 = train_data.predict(test_X) accuracy_train1 = accuracy_score(train_y, y_pred_train1) accuracy_test1 = accuracy_score(test_y, y_pred_test1) print("训练集——随机森林分类器准确率为：", accuracy_train1) print("测试集——随机森林分类器准确率为：", accuracy_train1)

在你的代码中，你正在尝试从 `train_data` 对象上调用一个名为 "predict" 的方法，而 `train_data` 实际上是一个 DataFrame 对象，该对象并没有 "predict" 方法。你应该使用你之前定义的随机森林分类器对象 `RandomForestClassifier` 来进行预测。请将以下代码： ``` y_pred_train1 = train_data.predict(train_X) y_pred_test1 = train_data.predict(test_X) ``` 更改为： ``` # 定义随机森林分类器对象 rfc = RandomForestClassifier(n_estimators=100, max_depth=5, random_state=42) # 在训练数据上拟合分类器 rfc.fit(train_X, train_y) # 在训练集和测试集上进行预测 y_pred_train1 = rfc.predict(train_X) y_pred_test1 = rfc.predict(test_X) ``` 这将使用你之前定义的随机森林分类器对象 `rfc` 来进行预测。同时，你需要使用 `rfc.fit(train_X, train_y)` 在训练数据上拟合分类器，然后使用 `rfc.predict(train_X)` 和 `rfc.predict(test_X)` 在训练集和测试集上进行预测。

# 导入相关库 import pandas as pd import matplotlib.pyplot as plt from sklearn.model_selection import train_test_split from sklearn.tree import DecisionTreeClassifier from sklearn.ensemble import RandomForestClassifier from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score,roc_auc_score,roc_curve # 读取数据 df = pd.read_csv('C:/Users/E15/Desktop/机器学习作业/第一次作业/第一次作业/三个数据集/Titanic泰坦尼克号.csv') # 数据预处理 df = df.drop(["Name", "Ticket", "Cabin"], axis=1) # 删除无用特征 df = pd.get_dummies(df, columns=["Sex", "Embarked"]) # 将分类特征转换成独热编码 df = df.fillna(df.mean()) # 使用平均值填充缺失值 # 划分数据集 X = df.drop(["Survived"], axis=1) y = df["Survived"] X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42) # 决策树 dtc = DecisionTreeClassifier(random_state=42) dtc.fit(X_train, y_train) y_pred_dtc = dtc.predict(X_test) # 剪枝决策树 pruned_dtc = DecisionTreeClassifier(random_state=42, ccp_alpha=0.015) pruned_dtc.fit(X_train, y_train) y_pred_pruned_dtc = pruned_dtc.predict(X_test) # 随机森林 rfc = RandomForestClassifier(n_estimators=100, random_state=42) rfc.fit(X_train, y_train) y_pred_rfc = rfc.predict(X_test) # 计算评价指标 metrics = {"Accuracy": accuracy_score, "Precision": precision_score, "Recall": recall_score, "F1-Score": f1_score, "AUC": roc_auc_score} results = {} for key in metrics.keys(): if key == "AUC": results[key] = {"Decision Tree": roc_auc_score(y_test, y_pred_dtc), "Pruned Decision Tree": roc_auc_score(y_test, y_pred_pruned_dtc), "Random Forest": roc_auc_score(y_test, y_pred_rfc)} else: results[key] = {"Decision Tree": metrics[key](y_test, y_pred_dtc), "Pruned Decision Tree": metrics[key](y_test, y_pred_pruned_dtc), "Random Forest": metrics[key](y_test, y_pred_rfc)} # 打印评价指标的表格 results_df = pd.DataFrame(results) print(results_df)怎么打印auv图

要打印AUC图，可以使用`roc_curve`函数获取ROC曲线的参数，然后使用`matplotlib`库绘制曲线。具体代码如下： ``` # 计算ROC曲线参数 fpr_dtc, tpr_dtc, thresholds_dtc = roc_curve(y_test, y_pred_dtc) fpr_pruned_dtc, tpr_pruned_dtc, thresholds_pruned_dtc = roc_curve(y_test, y_pred_pruned_dtc) fpr_rfc, tpr_rfc, thresholds_rfc = roc_curve(y_test, y_pred_rfc) # 绘制ROC曲线 plt.figure(figsize=(8, 6)) plt.plot(fpr_dtc, tpr_dtc, label='Decision Tree') plt.plot(fpr_pruned_dtc, tpr_pruned_dtc, label='Pruned Decision Tree') plt.plot(fpr_rfc, tpr_rfc, label='Random Forest') plt.plot([0, 1], [0, 1], linestyle='--', color='grey') plt.xlabel('False Positive Rate') plt.ylabel('True Positive Rate') plt.title('Receiver Operating Characteristic (ROC) Curve') plt.legend() plt.show() ``` 这段代码将会绘制一个ROC曲线，其中每个分类器都使用不同的颜色表示，同时包含一个虚线表示随机分类器的结果。注意，这段代码需要在之前的代码块中运行，以确保`fpr`，`tpr`和`y_pred`参数已经存在。

阅读全文

train["Embarked"] = train["Embarked"].fillna(train["Embarked"].mode()[0]) #删除缺失值较多无法使用的属性 train.drop(['Cabin'],axis=1,inplace=True) print("对数据集空值处理后的情况：") train.info()

相关推荐

泰坦尼克号乘客数据处理及特征填充方法

探索泰坦尼克号数据集：分析与机器学习应用

泰坦尼克幸存者预测：PyTorch与sklearn模型实战

这串代码怎么改进import pandas as pd # 读取数据 df = pd.read_excel('titanic.xls') # 计算两列之间的相关性系数 survived = df['survived'] embarked = df['embarked'] corr = survived.corr(embarked) # 打印相关性系数 print('Correlation coefficient:', corr)

哪个港口在数据集中的出现次数最多？用这个港口的名称来填充Embarked列中缺失的值，train.Embarked.isnull().sum()显示了该列目前有2缺失值。

#index_col=0 告诉它索引列是第0列首列data.head()#Embarked舱门data.info() #查看缺失情况

根据要求修改代码：删除缺失值较少的指定行¶df1[==df1.dropna(subset=[‘Embarked’])

使用titanic.csv数据集进行以下计算 1.缺失值处理，删除embarked列为空的行 2.对age列填充平均值 3.使用透视表查看不同性别的存活率

2. 缺失值处理 对Embarked直接用众数填充； 对Fare用均值填充； 对Age，建立模型预测；

将泰坦尼克号中embarked的文本转换成数值，然后对embarked字段进行缺失值填充

R语言代码：用众数填充 Embarked 中的缺失值

Error in mode(full$Embarked, na.rm = T): unused argument (na.rm = T) Traceback:报错

大家在看

MSATA源文件_rezip_rezip1.zip

Java17新特性详解含示例代码（值得珍藏）

UD18415B_海康威视信息发布终端_快速入门指南_V1.1_20200302.pdf

MAX 10 FPGA模数转换器用户指南

C#线上考试系统源码.zip

最新推荐

C2000，28335Matlab Simulink代码生成技术，处理器在环，里面有电力电子常用的GPIO，PWM，ADC，DMA，定时器中断等各种电力电子工程师常用的模块儿，只需要有想法剩下的全部自

Python调试器vardbg：动画可视化算法流程

管理建模和仿真的文件

【IT设备维保管理入门指南】：如何制定有效的维护计划，提升设备性能与寿命

python爬取网页链接，url = “https://koubei.16888.com/57233/0-0-0-0”

掌握Web开发：Udacity天气日记项目解析

"互动学习：行动中的多样性与论文攻读经历"

【文献整理高效法】：ENDNOTE软件实用功能及快捷操作揭秘

在使用SQL创建存储过程时，是否可以在定义输入参数时直接为其赋予初始值？

MySQL 5.5.28 64位数据库软件免费下载

2. 缺失值处理对Embarked直接用众数填充；对Fare用均值填充；对Age，建立模型预测；