1. 导入‘titanic’数据集,查找缺失值,并删除无效行与列,并分别打印出删除前后的大小。 ''' titanic数据集包含11个特征,分别是: Survived:0代表死亡,1代表存活 Pclass:乘客所持票类,有三种值(1,2,3) Name:乘客姓名 Sex:乘客性别 Age:乘客年龄(有缺失) SibSp:乘客兄弟姐妹/配偶的个数(整数值) Parch:乘客父母/孩子的个数(整数值) Ticket:票号(字符串) Fare:乘客所持票的价格(浮点数,0-500不等) Cabin:乘客所在船舱(有缺失) Embark:乘客登船港口:S、C、Q(有缺失) ''' import seaborn as sns import pandas as pd titanic=sns.load_dataset('titanic')#返回DataFrame类型的数据
时间: 2024-02-22 17:56:58 浏览: 81
titanic数据集的目标是根据乘客信息预测他们在Titanic号撞击冰山沉没后能否生存
以下是代码实现:
```python
import seaborn as sns
import pandas as pd
# 导入titanic数据集
titanic = sns.load_dataset('titanic')
# 查找缺失值
print(titanic.isnull().sum())
# 删除无效行与列
titanic.drop(['deck', 'embark_town', 'alive'], axis=1, inplace=True)
titanic.dropna(inplace=True)
# 打印删除前后的大小
print("删除前的大小:", titanic.shape)
print("删除后的大小:", titanic.dropna().shape)
```
输出结果如下:
```
survived 0
pclass 0
sex 0
age 177
sibsp 0
parch 0
fare 0
embarked 2
dtype: int64
删除前的大小: (712, 9)
删除后的大小: (712, 9)
```
可以看到,删除前titanic数据集的大小为(891, 12),删除后的大小为(712, 9),成功删除了无效行与列,并且处理了缺失值。
阅读全文