1)用pandas将酒类消费数据表中的数据读取为DataFrame,输出包含缺失值的行; (2)在使用read_csv函数读取酒类消费数据表时(除文件地址外不添加额外的参数),pandas将continent字段中的“NA”(代表北美洲,North American)自动识别为NaN。因此,需要将continent字段中的NaN全部替换为字符串NA。如果学有余力,可以自行在网络上调研如何在read_csv函数中添加参数使NA不被识别为NaN; (3)分别输出各个大洲的平均啤酒、烈酒和红酒的消费量; (4)分别输出啤酒、烈酒和红酒消费量最高的国家。
时间: 2023-11-27 20:54:43 浏览: 789
1)代码如下:
```python
import pandas as pd
# 读取数据
df = pd.read_csv('wine-consumption.csv')
# 输出包含缺失值的行
print(df[df.isnull().any(axis=1)])
```
2)代码如下:
```python
import pandas as pd
# 读取数据并将NaN替换为NA
df = pd.read_csv('wine-consumption.csv', na_values='', keep_default_na=False)
df['continent'].fillna('NA', inplace=True)
# 输出包含缺失值的行
print(df[df.isnull().any(axis=1)])
```
3)代码如下:
```python
import pandas as pd
# 读取数据并将NaN替换为NA
df = pd.read_csv('wine-consumption.csv', na_values='', keep_default_na=False)
df['continent'].fillna('NA', inplace=True)
# 分组计算各洲啤酒、烈酒和红酒的平均消费量
beer_mean = df.groupby('continent')['beer_servings'].mean()
spirit_mean = df.groupby('continent')['spirit_servings'].mean()
wine_mean = df.groupby('continent')['wine_servings'].mean()
# 输出结果
print('各洲啤酒的平均消费量:')
print(beer_mean)
print('各洲烈酒的平均消费量:')
print(spirit_mean)
print('各洲红酒的平均消费量:')
print(wine_mean)
```
4)代码如下:
```python
import pandas as pd
# 读取数据并将NaN替换为NA
df = pd.read_csv('wine-consumption.csv', na_values='', keep_default_na=False)
df['continent'].fillna('NA', inplace=True)
# 计算各种酒类消费量最高的国家
beer_max = df.loc[df['beer_servings'].idxmax(), 'country']
spirit_max = df.loc[df['spirit_servings'].idxmax(), 'country']
wine_max = df.loc[df['wine_servings'].idxmax(), 'country']
# 输出结果
print('啤酒消费量最高的国家:', beer_max)
print('烈酒消费量最高的国家:', spirit_max)
print('红酒消费量最高的国家:', wine_max)
```
阅读全文