STEP1:泰坦尼克号生存数据特征处理本作业只需按照要求处理原始数据，将最终处理完成的数据保存到数据框中，然后提交就可；

首先，读入Titanic数据集： ```python import pandas as pd titanic = pd.read_csv('titanic.csv') ``` 查看数据集的前几行和数据类型： ```python print(titanic.head()) print(titanic.dtypes) ``` 得到以下结果： ``` PassengerId Survived Pclass ... Fare Cabin Embarked 0 1 0 3 ... 7.2500 NaN S 1 2 1 1 ... 71.2833 C85 C 2 3 1 3 ... 7.9250 NaN S 3 4 1 1 ... 53.1000 C123 S 4 5 0 3 ... 8.0500 NaN S [5 rows x 12 columns] PassengerId int64 Survived int64 Pclass int64 Name object Sex object Age float64 SibSp int64 Parch int64 Ticket object Fare float64 Cabin object Embarked object dtype: object ``` 可以看到，数据集中有12个特征，其中有数值型特征和字符串型特征。接下来，我们需要对这些特征进行处理。首先，我们将PassengerId这一特征删除，因为它对于预测乘客是否幸存没有任何帮助： ```python titanic.drop('PassengerId', axis=1, inplace=True) ``` 然后，我们将Name特征进行处理。Name特征中包含了乘客的称呼，例如Mr、Mrs、Miss等，这些称呼有可能与乘客的幸存与否有关系。因此，我们需要从Name特征中提取出这些称呼，并将它们进行分类。 ```python # 从Name特征中提取称呼 titanic['Title'] = titanic['Name'].apply(lambda x: x.split(',')[1].split('.')[0].strip()) # 将称呼进行分类 title_dict = {'Mr': 'Mr', 'Miss': 'Miss', 'Mrs': 'Mrs', 'Master': 'Master', 'Dr': 'Dr', 'Rev': 'Rev', 'Mlle': 'Miss', 'Col': 'Other', 'Major': 'Other', 'Ms': 'Miss', 'Lady': 'Other', 'Capt': 'Other', 'Sir': 'Other', 'Mme': 'Mrs', 'Countess': 'Other', 'Don': 'Other', 'Jonkheer': 'Other'} titanic['Title'] = titanic['Title'].map(title_dict) titanic.drop('Name', axis=1, inplace=True) ``` 接着，我们将Sex特征进行处理。将其转换为数值型特征，0表示女性，1表示男性。 ```python titanic['Sex'] = titanic['Sex'].map({'female': 0, 'male': 1}) ``` 然后，我们需要对缺失数据进行处理。在数据集中，Age、Cabin和Embarked这三个特征存在缺失值。对于Age特征，我们可以使用中位数或平均数来填充缺失值。在这里，我们选择使用中位数来填充。 ```python titanic['Age'].fillna(titanic['Age'].median(), inplace=True) ``` 对于Cabin特征，由于缺失值太多，我们可以将其删除。 ```python titanic.drop('Cabin', axis=1, inplace=True) ``` 对于Embarked特征，由于缺失值很少，我们可以将其填充为出现次数最多的值。 ```python titanic['Embarked'].fillna(titanic['Embarked'].mode()[0], inplace=True) ``` 最后，我们需要对Ticket特征进行处理。由于这个特征的取值种类很多，我们可以将其转换为数值型特征，用其出现次数来表示。 ```python ticket_counts = titanic['Ticket'].value_counts() titanic['Ticket'] = titanic['Ticket'].apply(lambda x: ticket_counts[x]) ``` 最终，我们得到了处理完成的数据： ```python print(titanic.head()) print(titanic.dtypes) ``` 得到以下结果： ``` Survived Pclass Sex Age SibSp Parch Ticket Fare Embarked Title 0 0 3 1 22.0 1 0 1 7.2500 S Mr 1 1 1 0 38.0 1 0 2 71.2833 C Mrs 2 1 3 0 26.0 0 0 1 7.9250 S Miss 3 1 1 0 35.0 1 0 2 53.1000 S Mrs 4 0 3 1 35.0 0 0 1 8.0500 S Mr Survived int64 Pclass int64 Sex int64 Age float64 SibSp int64 Parch int64 Ticket int64 Fare float64 Embarked object Title object dtype: object ```

阅读全文

STEP1:泰坦尼克号生存数据特征处理 本作业只需按照要求处理原始数据，将最终处理完成的数据保存到数据框中，然后提交就可；

相关推荐

泰坦尼克号数据集处理

Python 数据处理 泰坦尼克号生存预测

泰坦尼克数据集_用于数据分析练习

中通服java笔试题-assignment-solution-step1:分配-解决方案-step1

atakanyenel_Yenel_Atakan_Step1:事件 gui 已上传

机器学习项目实战:泰坦尼克号获救预测 训练数据和测试数据 完整版

node-webapp-step1:用于学习外语学习网络应用程序开发

欧元小额清算系统STEP1：高效安全的跨境支付解决方案

写RSA解密c语言程序 Step1:从文件data.txt中读取数据置于C[]中 Step2:分解n 到p,q和φ (n) Step3:根据e和Φ(n)计t算解密密钥d Step4:解密密文，得到明文置于M[]中 Step5:将明文数据转换成字符输出。并给出程序运行结果

step1 ：将输入的源字符串source_string首尾的空格删除；

七段数码管绘制step1：绘制单个数字对应的数码管

如何获取数组中高于平均值的元素下标 step1:求数组的累加和 step2:再求平均值 需要注意的是平均值数据类型一般设为double step3:再遍历数组,查找高于平均值的元素并记录其下标

用Python写一个代码。step1：根据给定的下限数lower, 上限数upper以及步长step,利用range函数生成一个列表； step2：计算该列表的长度； step3：求该列表中的最大元素与最小元素之差。

printlog("step1: preparing data...") dfdata,dftest = titanic() display(dfdata.head()) label_col = "Survived"

使用pipreqs，这个工具的好处是可以通过对项目目录的扫描，发现使用了哪些库，生成依赖清单。step1：安装pipreqs(默认没有安装)

大家在看

MSATA源文件_rezip_rezip1.zip

Java17新特性详解含示例代码（值得珍藏）

UD18415B_海康威视信息发布终端_快速入门指南_V1.1_20200302.pdf

MAX 10 FPGA模数转换器用户指南

C#线上考试系统源码.zip

最新推荐

idea: 不支持发行版本 5 11 12 13 compilation failed: internal java compiler error

Python调试器vardbg：动画可视化算法流程

管理建模和仿真的文件

【IT设备维保管理入门指南】：如何制定有效的维护计划，提升设备性能与寿命

python爬取网页链接，url = “https://koubei.16888.com/57233/0-0-0-0”

掌握Web开发：Udacity天气日记项目解析

"互动学习：行动中的多样性与论文攻读经历"

【文献整理高效法】：ENDNOTE软件实用功能及快捷操作揭秘

在使用SQL创建存储过程时，是否可以在定义输入参数时直接为其赋予初始值？

MySQL 5.5.28 64位数据库软件免费下载

STEP1:泰坦尼克号生存数据特征处理本作业只需按照要求处理原始数据，将最终处理完成的数据保存到数据框中，然后提交就可；

Python 数据处理泰坦尼克号生存预测

机器学习项目实战:泰坦尼克号获救预测训练数据和测试数据完整版

如何获取数组中高于平均值的元素下标 step1:求数组的累加和 step2:再求平均值需要注意的是平均值数据类型一般设为double step3:再遍历数组,查找高于平均值的元素并记录其下标