泰坦尼克号乘客生存预测数据集解析

版权申诉

184 浏览量更新于2024-10-10 收藏 41KB ZIP 举报

资源摘要信息:"泰坦尼克号数据集是基于1912年泰坦尼克号沉船事件的历史数据，被广泛用于数据科学和机器学习领域的入门实践。它包含1K（1000条）记录，每条记录代表一名乘客的信息。数据集主要包含以下特征字段： 1. 乘客ID（PassengerId）：每条记录的唯一标识符，有助于数据集管理。 2. Pclass（乘客等级）：该字段表示乘客的票舱等级，通常与乘客的经济状况及乘坐区域的位置有关，分为一等舱、二等舱和三等舱。 3. 姓名（Name）：乘客的全名，可用来分析名人的生存率或识别家庭成员等。 4. 性别（Sex）：乘客的性别，作为预测生存率的重要因素之一。 5. 年龄（Age）：乘客的年龄，这是一个连续的数值属性，可能与生存率有强关联。 6. SibSp（兄弟姐妹/配偶人数）：乘客在船上的兄弟姐妹、配偶或子女的数量，可以反映家庭状况。 7. Parch（父母/子女人数）：乘客在船上的父母或子女的数量，与SibSp字段结合，可进一步分析家庭因素对生存的影响。 8. Ticket（票据号）：乘客的票据编号，可能包含有关票价和预订的信息。 9. 票价（Fare）：乘客为此次旅行支付的费用，票价的高低可能影响乘客所在位置和生存率。 10. 舱位（Cabin）：乘客的舱位号，可能与乘客的经济水平相关，也可以作为预测模型中用于判断生存的潜在因素。 11. 登船（Embarked）：乘客上船的港口，分别代表瑟堡（Cherbourg）、皇后镇（Queenstown）和南安普敦（Southampton）。这个信息可用来分析不同港口乘客的生存率差异。 12. 幸存（Survived）：这是一个二元分类变量，表示乘客是否在灾难中幸存，其中0表示未幸存，1表示幸存。该字段是模型的目标变量，用于预测生存。泰坦尼克号数据集是进行数据探索、特征工程、分类算法实践等多方面机器学习任务的宝贵资源。通过对这些特征的研究与分析，数据科学家可以构建预测模型来预测未知乘客的生存概率。这些特征涵盖了乘客的社会经济状况、个人属性、家庭关系等多个维度，为模型提供了足够的信息来挖掘数据中的模式和关联。"

收起资源包目录

泰坦尼克号数据集 Titanic（1K 记录）CSV （1个子文件）

Titanic.csv 79KB

共 1 条

神仙别闹

粉丝: 4134
资源: 7483

泰坦尼克号乘客生存预测数据集解析

泰坦尼克号数据集

泰坦尼克号数据集 CSV 800+记录（Titanic Data set）

titanic.csv泰坦尼克号人员数据集

泰坦尼克数据集（Titanic.csv）

泰坦尼克数据集（titanic.csv）

泰坦尼克号数据-titanic

泰坦尼克号数据集(titanic)

泰坦尼克号数据集.csv

泰坦尼克数据集Titanic

Titanic dataset 泰坦尼克号数据集-数据集

最新资源