train["CabinBool"] = (train["Cabin"].notnull().astype('int')) test["CabinBool"] = (test["Cabin"].notnull().astype('int'))

import numpy as np import pandas as pd import matplotlib.pyplot as plt from sklearn.linear_model import LogisticRegression '''导入数据并粗略查看情况''' train_data = pd.read_csv(r'C:\Users\86181\Desktop\titanic\train.csv') test_data = pd.read_csv(r'C:\Users\86181\Desktop\titanic\test.csv') print(train_data.head()) print(np.sum(pd.isnull(train_data)))#查看缺失的信息 '''SibSp为兄弟妹的个数，Parch为父母与小孩的个数，Embarked为登船港口''' '''数据清洗''' train_data = train_data.drop(['PassengerId', 'Name', 'Ticket','Cabin'], axis = 1)#删除无关项 test_data = test_data.drop(['PassengerId', 'Name', 'Ticket','Cabin'], axis = 1) print(train_data.head()) train_data = train_data.dropna(axis = 0) print(np.sum(pd.isnull(train_data)))#再次查看是否还有缺失的信息 '''查看数据的总体情况''' train_data['Age'].hist() plt.xlabel('Age') plt.ylabel('Numbers of passengers') plt.title('The age of all passengers') plt.show() train_data['Pclass'].hist() plt.xlabel("'Passengers' class") plt.ylabel('Numbers of passengers') plt.title('The class of all passengers') plt.show() train_data['Sex'].hist() plt.xlabel("Sex") plt.ylabel('Numbers of passengers') plt.title('The sex of all passengers') plt.show() train_data['SibSp'].hist() plt.xlabel("The number of SibSp") plt.ylabel('Numbers of passengers') plt.title('The SibSp of all passengers') plt.show() train_data['Parch'].hist() plt.xlabel("The number of Parch") plt.ylabel('Numbers of passengers') plt.title('The Parch of all passengers') plt.show() train_data['Fare'].hist() plt.xlabel("Fare") plt.ylabel('Numbers of passengers') plt.title('The fare of all passengers') plt.show() train_data['Embarked'].hist() plt.xlabel("Embarked") plt.ylabel('Embarked of passengers') plt.title('The Embarked of all passengers') plt.show() train_data['Survived'].hist() plt.xlabel("Survived") plt.ylabel('Numbers of passengers') plt.title('Survived passengers') plt.show() '''开始分析''' X_train = train_data[['Pclass', 'Sex', 'Age', 'SibSp', 'Parch', 'Fare', 'Embarked']] Y_train = train_data[['Survived']] X_train = pd.get_dummies(train_data, columns = ['Pclass']) X_train = pd.get_dummies(train_data, columns = ['Embarked']) X_train['Sex'].replace('female', 0, inplace = True) X_train['Sex'].replace('male', 1, inplace = True) print(X_train.head()) print(np.sum(pd.isnull(X_train)))

这段Python代码的作用是：导入一些常用的数据分析和可视化库（numpy、pandas、matplotlib、sklearn），然后使用pandas读取Titanic数据集中的训练集和测试集。而后打印出训练集的前五行数据，以及训练集中每列的缺失...

context.Cabins.Include(c => c.CommuServers).FirstOrDefault(c => c.Name == cabinName);中的c=>c.CommuServers可以使用委托优化吗？

context.Cabins.Include(nameof(Cabin.CommuServers)).FirstOrDefault(c => c.Name == cabinName); 这样可以避免使用lambda表达式，使用字符串表示属性名称，以简化代码并提高可读性。需要注意的是，使用字符串...

# 导入相关库 import pandas as pd import matplotlib.pyplot as plt from sklearn.model_selection import train_test_split from sklearn.tree import DecisionTreeClassifier from sklearn.ensemble import RandomForestClassifier from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score,roc_auc_score,roc_curve # 读取数据 df = pd.read_csv('C:/Users/E15/Desktop/机器学习作业/第一次作业/第一次作业/三个数据集/Titanic泰坦尼克号.csv') # 数据预处理 df = df.drop(["Name", "Ticket", "Cabin"], axis=1) # 删除无用特征 df = pd.get_dummies(df, columns=["Sex", "Embarked"]) # 将分类特征转换成独热编码 df = df.fillna(df.mean()) # 使用平均值填充缺失值 # 划分数据集 X = df.drop(["Survived"], axis=1) y = df["Survived"] X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42) # 决策树 dtc = DecisionTreeClassifier(random_state=42) dtc.fit(X_train, y_train) y_pred_dtc = dtc.predict(X_test) # 剪枝决策树 pruned_dtc = DecisionTreeClassifier(random_state=42, ccp_alpha=0.015) pruned_dtc.fit(X_train, y_train) y_pred_pruned_dtc = pruned_dtc.predict(X_test) # 随机森林 rfc = RandomForestClassifier(n_estimators=100, random_state=42) rfc.fit(X_train, y_train) y_pred_rfc = rfc.predict(X_test) # 计算评价指标 metrics = {"Accuracy": accuracy_score, "Precision": precision_score, "Recall": recall_score, "F1-Score": f1_score, "AUC": roc_auc_score} results = {} for key in metrics.keys(): if key == "AUC": results[key] = {"Decision Tree": roc_auc_score(y_test, y_pred_dtc), "Pruned Decision Tree": roc_auc_score(y_test, y_pred_pruned_dtc), "Random Forest": roc_auc_score(y_test, y_pred_rfc)} else: results[key] = {"Decision Tree": metrics[key](y_test, y_pred_dtc), "Pruned Decision Tree": metrics[key](y_test, y_pred_pruned_dtc), "Random Forest": metrics[key](y_test, y_pred_rfc)} # 打印评价指标的表格 results_df = pd.DataFrame(results) print(results_df)怎么打印auv图

fpr_pruned_dtc, tpr_pruned_dtc, thresholds_pruned_dtc = roc_curve(y_test, y_pred_pruned_dtc) fpr_rfc, tpr_rfc, thresholds_rfc = roc_curve(y_test, y_pred_rfc) # 绘制ROC曲线 plt.figure(figsize=(8, 6)) ...

train["Embarked"] = train["Embarked"].fillna(train["Embarked"].mode()[0]) #删除缺失值较多无法使用的属性 train.drop(['Cabin'],axis=1,inplace=True) print("对数据集空值处理后的情况：") train.info()

这段代码的作用是对 train 数据框中的缺失值进行处理。首先，train["Embarked"].mode()[0] 会返回 Embarked 列中出现次数最多的元素，即众数。fillna 方法会将 Embarked 列中的缺失值用众数进行填充。 ...

泰坦尼克号生存预测下载的数据包含test.csv和train.csv两个文件,分析时可以将两个

test.csv和train.csv两个文件包含相同的列，分别为“PassengerId”，“Survived”，“Pclass”，“Name”，“Sex”，“Age”，“SibSp”，“Parch”，“Ticket”，“Fare”，“Cabin”和“Embarked”。train.csv还...

代码如下： import breeze.numerics.round import org.apache.spark.sql.functions.col import org.apache.spark.sql.types.{DoubleType, IntegerType} import org.apache.spark.{SparkConf, SparkContext} import org.apache.log4j.{Level, Logger} import org.apache.spark.sql.DataFrame object Titanic_c { def main(args: Array[String]) = { Logger.getLogger("org").setLevel(Level.ERROR) val conf = new SparkConf().setAppName("Titanic_c").setMaster("local[2]") val sc = new SparkContext(conf) val spark = org.apache.spark.sql.SparkSession.builder .master("local") .appName("Titanic") .getOrCreate; val df = spark.read .format("csv") .option("header", "true") .option("mode", "DROPMALFORMED") .load("datasets/Titanic_s.csv") import spark.implicits._ df.withColumn("Pclass", df("Pclass").cast(IntegerType)) .withColumn("Survived", df("Survived").cast(IntegerType)) .withColumn("Age", df("Age").cast(DoubleType)) .withColumn("SibSp", df("SibSp").cast(IntegerType)) .withColumn("Parch", df("Parch").cast(IntegerType)) .withColumn("Fare", df("Fare").cast(DoubleType)) val df1 = df.drop("PassengerId").drop("Name").drop("Ticket").drop("Cabin") val columns = df1.columns val missing_cnt = columns.map(x => df1.select(col(x)).where(col(x).isNull).count) val result_cnt = sc.parallelize(missing_cnt.zip(columns)).toDF("missing_cnt", "column_name") result_cnt.show() import breeze.stats._ def meanAge(dataFrame: DataFrame): Double = { dataFrame .select("Age") .na.drop() .agg(round(mean("Age"), 0)) .first() .getDouble(0) } val df2 = df1 .na.fill(Map( "Age" -> meanAge(df1), "Embarked" -> "S")) val survived_count = df2.groupBy("Survived").count() survived_count.show() survived_count.coalesce(1).write.option("header", "true").csv("datasets/survived_count.csv") } }

我发现问题可能出在 meanAge 函数中的 round(mean("Age"), 0) 这句代码上。这个代码中的 mean 函数是 Spark SQL 中的函数，但是在 breeze.stats 包中也有一个名为 mean 的函数，这可能导致了混淆。...

import pandas as pd from sklearn.ensemble import RandomForestRegressor titanic = pd.read_csv("D:/新建文件夹/实训/train.csv") ### 使用 RandomForestClassifier 填补缺失的年龄属性 def set_missing_ages(df): # 把已有的数值型特征取出来丢进Random Forest Regressor中 age_df = df[['Age', 'Fare', 'Parch', 'SibSp', 'Pclass']] # 乘客分成已知年龄和未知年龄两部分 known_age = age_df[age_df.Age.notnull()].values() unknown_age = age_df[age_df.Age.isnull()].values() # y即目标年龄 y = known_age[:, 0] # X即特征属性值 X = known_age[:, 1:] # fit到RandomForestRegressor之中 rfr = RandomForestRegressor(random_state=0, n_estimators=2000, n_jobs=-1) rfr.fit(X, y) # 用得到的模型进行未知年龄结果预测 predictedAges = rfr.predict(unknown_age[:, 1::]) # 用得到的预测结果填补原缺失数据 df.loc[(df.Age.isnull()), 'Age'] = predictedAges return df titanic = set_missing_ages(titanic) #将Embarked,Sex,Pclass转换成为onehot编码 dummies_Embarked = pd.get_dummies(titanic['Embarked'], prefix= 'Embarked') dummies_Sex = pd.get_dummies(titanic['Sex'], prefix= 'Sex') dummies_Pclass = pd.get_dummies(titanic['Pclass'], prefix= 'Pclass') df = pd.concat([titanic, dummies_Embarked, dummies_Sex, dummies_Pclass], axis=1) df.drop(['Pclass', 'Name', 'Sex', 'Ticket', 'Cabin', 'Embarked'], axis=1, inplace=True) print(df)

known_age = age_df[age_df.Age.notnull()].values() 这里的 values() 应该改成 values。 values() 是一个 pandas DataFrame 的方法，用来返回数据帧的值的 Numpy 数组形式。但是在这里，我们已经使用了 ....

import numpy as np import pandas as pd from sklearn.model_selection import train_test_split df = pd.read_csv("data/train.csv", encoding='utf8') df_X = df[['PassengerId', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp', 'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked']] df_Y = df['Survived'] # train_X, test_X, train_Y, test_Y train_test_split(df_X.values, df_Y.values, test_size=0.2, random_state=1314) print("train_X.count:{}, test_X.count:{}, train_Y.count:{}, test_Y.count:{}").format(len(train_X), len(test_X), len(train_Y), len(test_X))怎么改

你需要把 train_test_split 函数的返回值赋值给四个变量，分别是训练集的特征、测试集的特征、训练集的标签、测试集的标签。同时，你需要使用 print 函数的格式化字符串功能，将括号中的内容改为 f-string 的...

以下代码为什么不能生成热力图：import pandas as pd import seaborn as sns import numpy as np titanic_df = pd.read_csv( "C:\\Users\\Lucky Week\\Documents\\WeChat Files\\wxid_jjvhmzk4khs412\\FileStorage\\File\\2023-05\\titanic\\train.csv") # 删除不必要的列 titanic_df.drop(['PassengerId', 'Name', 'Ticket', 'Cabin'], axis=1, inplace=True) # 删除缺失值 titanic_df.dropna(inplace=True) # 将性别变量转换为数值变量 titanic_df['Sex'] = titanic_df['Sex'].replace({'male': 0, 'female': 1}) # 将登船港口变量转换为数值变量 titanic_df['Embarked'] = titanic_df['Embarked'].replace({'C': 0, 'Q': 1, 'S': 2}) grouped = titanic_df.groupby('Pclass') # 求每个船票等级的平均年龄 grouped['Age'].mean() # 将数据集按照性别和船票等级进行透视 pivot_df = pd.pivot_table(titanic_df, values='Survived', index='Sex', columns='Pclass') print(pivot_df.head()) sns.heatmap(data=pivot_df.head())

titanic_df = pd.read_csv("C:\\Users\\Lucky Week\\Documents\\WeChat Files\\wxid_jjvhmzk4khs412\\FileStorage\\File\\2023-05\\titanic\\train.csv") # 删除不必要的列 titanic_df.drop(['PassengerId', 'Name'...

queryWrapper .select("op_airline as airline", "cabin_type as bigCabin"）

这是一个数据库查询语句，其中使用了 select 函数来选择 op_airline 和 cabin_type 两个字段，并将它们分别命名为 airline 和 bigCabin。具体的实现需要根据具体的数据库和编程语言来进行。

通过探索Titanic数据集，学习如何使用pandas工具包进行数据清洗，生成可供机器学习模型使用的训练集、验证集和测试集等，titanic_train.csv 为训练集原始数据；test.csv 为测试集原始数据，将titanic_train.csv和test.csv作为输入，编写用于处理Titanic数据集的数据清洗程序，返回可供机器学习模型（决策树算法）使用的数据集。

data_df['Title'] = data_df['Title'].map({'Mr': 1, 'Miss': 2, 'Mrs': 3, 'Master': 4, 'Misc': 5}).astype(int) # 分离训练集和测试集 train_df = data_df[:len(train_df)] test_df = data_df[len(train_df):] ...

用决策树模型预测泰坦尼克生还判断？（训练数据：train.csv、测试数据： test.csv），一个旅客是否能够逃生与他的 Pclass、Name、Sex、Age、SibSp、 Parch、Ticket、Fare、Cabin、Embarked 等均有一定联系，能否找到这些特征和他们能否逃生之间的规律，选择对分类结果有关键作用的特征。构建决策树模型，并对决策树进行可视化，用 graphviz 将决策树呈现出来。

X_train, X_val, y_train, y_val = train_test_split(train_df.drop(['Survived'], axis=1), train_df['Survived'], test_size=0.2, random_state=42) # 构建决策树模型 clf = DecisionTreeClassifier() clf.fit(X_...

在右侧编辑器补充代码，完成泰坦尼克号生还预测问题，需要将预测结果保存在./predict.csv文件中。文件保存格式如图所示：可以使用如下代码： # 其中result为模型的预测结果 pd.DataFrame({'Survived':result}).to_csv('./predict.csv', index=False) 需要用到的训练集保存在./train.csv文件中，测试集保存在./test.csv文件中（测试集中没有Survived这一列）。

data['Cabin'].fillna('None', inplace=True) data['Embarked'].fillna(data['Embarked'].mode()[0], inplace=True) data['Fare'].fillna(data['Fare'].median(), inplace=True) return data train_data = ...

pandas.loc 选取指定列进行操作的实例

今天发现用pandas里面的数据结构可以减少大量的编程工作，从现在开始逐渐积累，记录一下：使用标签选取数据： ...df.loc[ (df.Cabin.notnull()), 'Cabin' ] = Yes 上一行代码的意思是：选取Cabin列中不为

train["CabinBool"] = (train["Cabin"].notnull().astype('int')) test["CabinBool"] = (test["Cabin"].notnull().astype('int'))

相关推荐

ADB folder.zip_abd folder_cabin8u5

PyPI 官网下载 | logcabin-1.0.4.tar.gz

a-dis-cy.zip_cabin1we_huffman matlab_wireless networks

context.Cabins.Include(c => c.CommuServers).FirstOrDefault(c => c.Name == cabinName);中的c=>c.CommuServers可以使用委托优化吗？

train["Embarked"] = train["Embarked"].fillna(train["Embarked"].mode()[0]) #删除缺失值较多无法使用的属性 train.drop(['Cabin'],axis=1,inplace=True) print("对数据集空值处理后的情况：") train.info()

泰坦尼克号生存预测下载的数据包含test.csv和train.csv两个文件,分析时可以将两个

queryWrapper .select("op_airline as airline", "cabin_type as bigCabin"）

pandas.loc 选取指定列进行操作的实例

最新推荐

基于单片机的瓦斯监控系统硬件设计.doc

管理建模和仿真的文件

：Python环境变量配置从入门到精通：Win10系统下Python环境变量配置完全手册

electron桌面壁纸功能

基于单片机的流量检测系统的设计_机电一体化毕业设计.doc

"互动学习：行动中的多样性与论文攻读经历"

：Python环境变量配置实战：Win10系统下Python环境变量配置详解

ps -ef|grep smon

基于单片机的继电器设计.doc

关系数据表示学习