预测生死：Titanic数据集乘客生存分析

193 浏览量更新于2024-08-29 收藏 200KB PDF 举报

在本次分析中，我们将探讨的是Titanic数据集，这是一个经典的数据科学挑战，目标是通过乘客的个人信息预测他们在泰坦尼克号沉船事件中的生存概率。这个数据集包含了一系列结构化的特征，如乘客的基本信息、船票细节和登船港口等，用于构建预测模型。首先，数据的预处理至关重要。使用Pandas库的DataFrame来组织数据，原始数据包括以下字段： 1. **Survived**：0表示死亡，1表示生存，这是一个二元分类标签，即y标签，用于训练模型预测结果。 2. **Pclass**：乘客的船票等级，有三种可能值（1, 2, 3），这需要进行one-hot编码，将其转化为三个独立的二进制特征，分别表示乘客属于每一种等级。 3. **Name**：乘客姓名，通常情况下这一特征对于预测并不直接相关，因此可以舍弃。 4. **Sex**：乘客性别，通常用布尔值表示，男性为True，女性为False。 5. **Age**：乘客年龄，是一个数值特征，但存在缺失值。我们将其视为缺失值处理，并添加一个新的辅助特征“年龄是否缺失”。 6. **SibSp**：乘客的兄弟姐妹或配偶数量，一个整数值特征。 7. **Parch**：乘客的父母或孩子数量，也是一个整数值特征。 8. **Ticket**：票号，通常是字符串，对于预测无直接价值，可以舍弃。 9. **Fare**：乘客的船票价格，浮点数，范围从0到500，也是一个数值特征。 10. **Cabin**：乘客所在船舱编号，存在大量缺失值，同样需要处理，可以添加“船舱是否缺失”作为辅助特征。 11. **Embarked**：乘客的登船港口，有S（Southampton）、C（Cherbourg）和Q（Queenstown）三种选择，也可能有缺失值，需要进行one-hot编码，变成四个二进制特征。在数据预处理阶段，首先加载数据集并查看样本数据，然后分析关键变量的分布情况，例如生存率（Survived）的标签分布，以及年龄分布。年龄分布的可视化有助于了解数据的特性，如是否存在年龄对生存率有显著影响的模式。利用这些特征，我们将构建一个机器学习模型，如基于TensorFlow的神经网络模型，通过特征工程和技术如缺失值填充、特征编码（one-hot）、特征选择和调整，提高模型的预测性能。最终目标是训练出一个准确且可靠的模型，能够根据输入的乘客信息预测他们在泰坦尼克号沉船事故中的生存概率。这个过程不仅锻炼了数据分析和建模技能，也是数据驱动决策的实际应用。

titanic数据集的目标是根据乘客信息预测他们在数据集的目标是根据乘客信息预测他们在Titanic号撞击冰山沉没后能否生存号撞击冰山沉没后能否生存

一，准备数据一，准备数据

titanic数据集的目标是根据乘客信息预测他们在Titanic号撞击冰山沉没后能否生存。

结构化数据一般会使用Pandas中的DataFrame进行预处理。

字段说明：

Survived:0代表死亡，1代表存活【y标签】

Pclass:乘客所持票类，有三种值(1,2,3) 【转换成onehot编码】

Name:乘客姓名【舍去】

Sex:乘客性别【转换成bool特征】

Age:乘客年龄(有缺失) 【数值特征，添加“年龄是否缺失”作为辅助特征】

SibSp:乘客兄弟姐妹/配偶的个数(整数值) 【数值特征】

Parch:乘客父母/孩子的个数(整数值)【数值特征】

Ticket:票号(字符串)【舍去】

Fare:乘客所持票的价格(浮点数，0-500不等) 【数值特征】

Cabin:乘客所在船舱(有缺失) 【添加“所在船舱是否缺失”作为辅助特征】

Embarked:乘客登船港口:S、C、Q(有缺失)【转换成onehot编码，四维度 S,C,Q,nan】

import numpy as np

import pandas as pd

import matplotlib.pyplot as plt

import tensorflow as tf

from tensorflow.keras import models,layers

dftrain_raw = pd.read_csv('./data/titanic/train.csv')

dftest_raw = pd.read_csv('./data/titanic/test.csv')

dftrain_raw.head(10)

label分布情况

%matplotlib inline

%config InlineBackend.figure_format = 'png'

ax = dftrain_raw['Survived'].value_counts().plot(kind = 'bar',

figsize = (12,8),fontsize=15,rot = 0)

ax.set_ylabel('Counts',fontsize = 15)

ax.set_xlabel('Survived',fontsize = 15)

plt.show()

下载后可阅读完整内容，剩余4页未读，立即下载

weixin_38721398

粉丝: 5
资源: 937

预测生死：Titanic数据集乘客生存分析

泰坦尼克号数据集

titanic_泰坦尼克数据集.zip

Titanic-Survival-Prediction:基于乘客是否会幸存的泰坦尼克号数据集，会创建一个预测。 这是Kaggle上传奇性的Titanic ML竞赛

titanic.zip_titanic_titanic数据集_train_标签数据集_泰坦尼克

kaggle竞赛Titanic数据集

Titanic_Dataset：来自Kaggle的Titanic数据集

Titanic 生存预测（上）

Titanic-Data-Analysis:这是泰坦尼克号乘客的数据分析

titanic-dataset-project:我使用机器学习来创建一个模型，该模型可以预测哪些乘客在泰坦尼克号沉船中幸存了下来。1表示乘客幸存了0表示乘客死亡了

最新资源

Titanic-Survival-Prediction:基于乘客是否会幸存的泰坦尼克号数据集，会创建一个预测。这是Kaggle上传奇性的Titanic ML竞赛