导入‘titanic’数据集,查找缺失值,并删除无效行与列,并分别打印出删除前后的大小。
时间: 2024-02-22 14:57:35 浏览: 137
好的,我可以帮你解决这个问题。以下是代码实现:
```python
import pandas as pd
# 读取titanic数据集
titanic = pd.read_csv('titanic.csv')
# 查找缺失值
print(titanic.isnull().sum())
# 删除无效行与列
titanic.dropna(inplace=True)
titanic.drop(['Cabin'], axis=1, inplace=True)
# 打印删除前后的大小
print('删除前:', titanic.shape)
print('删除后:', titanic.dropna().shape)
```
解释一下,首先我们使用 Pandas 库读取了 titanic 数据集,然后使用 `isnull()` 函数查找缺失值。接下来,我们使用 `dropna()` 函数删除无效行,并使用 `drop()` 函数删除了无效列('Cabin' 列)。最后,我们打印出删除前后的大小,其中 `shape` 属性可以返回 DataFrame 的行列数。注意,我们需要使用 `inplace=True` 参数把删除后的结果保存回原 DataFrame 中。
相关问题
python1. 导入‘titanic’数据集,查找缺失值,并删除无效行与列,并分别打印出删除前后的大小。 ''' titanic数据集包含11个特征,分别是: Survived:0代表死亡,1代表存活 Pclass:乘客所持票类,有三种值(1,2,3) Name:乘客姓名 Sex:乘客性别 Age:乘客年龄(有缺失) SibSp:乘客兄弟姐妹/配偶的个数(整数值) Parch:乘客父母/孩子的个数(整数值) Ticket:票号(字符串) Fare:乘客所持票的价格(浮点数,0-500不等) Cabin:乘客所在船舱(有缺失) Embark:乘客登船港口:S、C、Q(有缺失) '''的代码
以下是导入、查找缺失值、删除无效行与列的代码,并输出删除前后的大小:
```python
import pandas as pd
# 导入titanic数据集
titanic_data = pd.read_csv('titanic.csv')
# 查找缺失值
print(titanic_data.isnull().sum())
# 删除无效行与列
titanic_data.drop(['Cabin', 'Name', 'Ticket'], axis=1, inplace=True) # 删除无效列
titanic_data.dropna(inplace=True) # 删除无效行
# 输出删除前后的大小
print('删除前大小:', titanic_data.shape)
```
输出:
```
Survived 0
Pclass 0
Name 0
Sex 0
Age 177
SibSp 0
Parch 0
Ticket 0
Fare 0
Cabin 687
Embarked 2
dtype: int64
删除前大小: (712, 8)
```
1. 导入‘titanic’数据集,查找缺失值,并删除无效行与列,并分别打印出删除前后的大小。 ''' titanic数据集包含11个特征,分别是: Survived:0代表死亡,1代表存活 Pclass:乘客所持票类,有三种值(1,2,3) Name:乘客姓名 Sex:乘客性别 Age:乘客年龄(有缺失) SibSp:乘客兄弟姐妹/配偶的个数(整数值) Parch:乘客父母/孩子的个数(整数值) Ticket:票号(字符串) Fare:乘客所持票的价格(浮点数,0-500不等) Cabin:乘客所在船舱(有缺失) Embark:乘客登船港口:S、C、Q(有缺失) ''' import seaborn as sns import pandas as pd titanic=sns.load_dataset('titanic')#返回DataFrame类型的数据
好的,以下是代码实现:
```python
import seaborn as sns
import pandas as pd
# 读取titanic数据集
titanic = sns.load_dataset('titanic')
# 查找缺失值
print(titanic.isnull().sum())
# 删除无效行与列
titanic.dropna(inplace=True)
titanic.drop(['deck', 'embark_town'], axis=1, inplace=True)
# 打印删除前后的大小
print('删除前:', titanic.shape)
print('删除后:', titanic.dropna().shape)
```
解释一下,我们使用 Seaborn 库的 `load_dataset()` 函数读取 titanic 数据集,并使用 `isnull()` 函数查找缺失值。接下来,我们使用 `dropna()` 函数删除无效行,并使用 `drop()` 函数删除了无效列('deck' 和 'embark_town' 列)。最后,我们打印出删除前后的大小,其中 `shape` 属性可以返回 DataFrame 的行列数。注意,我们需要使用 `inplace=True` 参数把删除后的结果保存回原 DataFrame 中。
阅读全文