4.利用pandas模块读取 penguins.csv 数据集,用head()查看数据集;筛选出体重大于等于6000g的条目,并计算他们的平均体重;统计所有企鹅的种类和数目,并绘制饼图。
时间: 2024-10-08 20:26:05 浏览: 33
数据集不是完整的,目的是熟练使用Pandas - 两个数据集 >`calendar.csv` >`listings.csv`
首先,你需要安装Python的数据分析库pandas和matplotlib,如果还没有安装,可以使用pip install pandas matplotlib命令来安装。接下来,按照以下步骤操作:
1. 导入必要的库:
```python
import pandas as pd
import matplotlib.pyplot as plt
```
2. 使用pandas的read_csv()函数读取数据集:
```python
data = pd.read_csv('penguins.csv')
```
这里假设文件名为`penguins.csv`,放在了与脚本相同的目录下,如果不是,需要提供完整的路径。
3. 使用head()方法查看数据集的前几行:
```python
print(data.head())
```
4. 筛选出体重大于等于6000克的记录:
```python
heavy_penguins = data[data['body_mass_g'] >= 6000]
```
5. 计算并打印平均体重:
```python
average_weight = heavy_penguins['body_mass_g'].mean()
print(f"平均体重:{average_weight:.2f} g")
```
这里的`.2f`表示保留两位小数。
6. 统计所有企鹅种类的数量并创建饼图:
```python
species_counts = data['species'].value_counts()
plt.pie(species_counts.values, labels=species_counts.index, autopct='%1.1f%%', startangle=90)
plt.title("企鹅种类分布")
plt.show()
```
这将显示每个物种在数据集中所占的比例。
阅读全文