“泰坦尼克号沉船事故”数据集获取
时间: 2023-10-30 10:07:18 浏览: 125
泰坦尼克号数据集可以从多个来源获取,其中一个常用的来源是Kaggle竞赛平台。你可以在https://www.kaggle.com/c/titanic/data 上下载数据集。这个数据集包括了泰坦尼克号上的乘客和船员的信息,包括他们的姓名、年龄、性别、船票等级、票价、登船口岸、是否生还等信息。你可以使用这个数据集来进行机器学习模型的训练和测试,预测一个人是否在泰坦尼克号事故中生还。需要注意的是,在使用这个数据集进行机器学习之前,需要对数据进行一定的清洗和特征工程处理。
相关问题
泰坦尼克号幸存者预测数据集
泰坦尼克号幸存者预测数据集是一个经典的机器学习数据集,包含了泰坦尼克号上的乘客信息以及他们是否在船沉没后幸存的标签。数据集中包含了乘客的个人信息,如性别、年龄、船票信息等,以及一些辅助特征,如年龄是否缺失、所在船舱是否缺失等。数据集的目标是根据这些特征预测乘客是否幸存。这个数据集可以用来进行二分类问题的机器学习实验,也是学习数据清洗和特征工程的好素材。
泰坦尼克号生存者数据集数据
泰坦尼克号生存者数据集包含了以下信息:
- PassengerId:乘客编号
- Survived:是否幸存(0表示未幸存,1表示幸存)
- Pclass:船票等级(1表示一等舱,2表示二等舱,3表示三等舱)
- Name:乘客姓名
- Sex:乘客性别
- Age:乘客年龄
- SibSp:船上兄弟姐妹/配偶的数量
- Parch:船上父母/子女的数量
- Ticket:船票号码
- Fare:船票价格
- Cabin:船舱号码
- Embarked:登船港口(C表示Cherbourg,Q表示Queenstown,S表示Southampton)
其中,PassengerId、Name、Ticket和Cabin是唯一标识符,不具有预测意义。Survived是目标变量,需要进行预测。其他变量可以作为预测变量,用于训练模型。