1. 导入‘titanic’数据集,查找缺失值,并删除无效行与列,并分别打印出删除前后的大小。 ''' titanic数据集包含11个特征,分别是: Survived:0代表死亡,1代表存活 Pclass:乘客所持票类,有三种值(1,2,3) Name:乘客姓名 Sex:乘客性别 Age:乘客年龄(有缺失) SibSp:乘客兄弟姐妹/配偶的个数(整数值) Parch:乘客父母/孩子的个数(整数值) Ticket:票号(字符串) Fare:乘客所持票的价格(浮点数,0-500不等) Cabin:乘客所在船舱(有缺失) Embark:乘客登船港口:S、C、Q(有缺失) ''' import seaborn as sns import pandas as pd titanic=sns.load_dataset('titanic')#返回DataFrame类型的数据
时间: 2024-02-22 15:57:39 浏览: 54
titanic数据集的目标是根据乘客信息预测他们在Titanic号撞击冰山沉没后能否生存
好的,以下是代码实现:
```python
import seaborn as sns
import pandas as pd
# 读取titanic数据集
titanic = sns.load_dataset('titanic')
# 查找缺失值
print(titanic.isnull().sum())
# 删除无效行与列
titanic.dropna(inplace=True)
titanic.drop(['deck', 'embark_town'], axis=1, inplace=True)
# 打印删除前后的大小
print('删除前:', titanic.shape)
print('删除后:', titanic.dropna().shape)
```
解释一下,我们使用 Seaborn 库的 `load_dataset()` 函数读取 titanic 数据集,并使用 `isnull()` 函数查找缺失值。接下来,我们使用 `dropna()` 函数删除无效行,并使用 `drop()` 函数删除了无效列('deck' 和 'embark_town' 列)。最后,我们打印出删除前后的大小,其中 `shape` 属性可以返回 DataFrame 的行列数。注意,我们需要使用 `inplace=True` 参数把删除后的结果保存回原 DataFrame 中。
阅读全文