数据集exercise2_employee中,有指标、就业人员(万人)、第一产业就业人员(万人)、第二产业就业人员(万人)、第三产业就业人员(万人)五个字段,请根据其数据的内容完成以下操作。 (1)使用pandas库读取数据集中三个产业就业人员数据; (2)绘制2000-2019年各产业就业人员散点图,并简要分析数据分布; (3)绘制2000-2019年各产业就业人员折线图,并简要分析变化趋势; (4)绘制2000-2019年各产业就业人员堆积柱形图,并简要分析; (5)绘制2019年各产业就业人员饼图; (6)绘制2000-2019年各产业就业人员总人数箱线图,并简要分析其特征;
时间: 2024-01-06 12:04:36 浏览: 165
1. 使用pandas库读取数据集中三个产业就业人员数据
```python
import pandas as pd
employee_df = pd.read_csv('exercise2_employee.csv', encoding='utf-8')
industry1 = employee_df['第一产业就业人员(万人)']
industry2 = employee_df['第二产业就业人员(万人)']
industry3 = employee_df['第三产业就业人员(万人)']
```
2. 绘制2000-2019年各产业就业人员散点图,并简要分析数据分布
```python
import matplotlib.pyplot as plt
years = employee_df['指标']
plt.scatter(years, industry1, c='red', label='第一产业')
plt.scatter(years, industry2, c='blue', label='第二产业')
plt.scatter(years, industry3, c='green', label='第三产业')
plt.xlabel('年份')
plt.ylabel('就业人员(万人)')
plt.legend()
plt.show()
```
散点图展示了三个产业的就业人员数目随时间的变化情况,可以看出第三产业的就业人员数量普遍高于第一产业和第二产业,而且增长速度较快。
3. 绘制2000-2019年各产业就业人员折线图,并简要分析变化趋势
```python
plt.plot(years, industry1, c='red', label='第一产业')
plt.plot(years, industry2, c='blue', label='第二产业')
plt.plot(years, industry3, c='green', label='第三产业')
plt.xlabel('年份')
plt.ylabel('就业人员(万人)')
plt.legend()
plt.show()
```
折线图展示了三个产业的就业人员数目随时间的变化趋势,可以看出三个产业的就业人员数量都呈现逐年增长的趋势,其中第三产业的增长速度更快。
4. 绘制2000-2019年各产业就业人员堆积柱形图,并简要分析
```python
import numpy as np
ind = np.arange(len(years))
width = 0.5
p1 = plt.bar(ind, industry1, width)
p2 = plt.bar(ind, industry2, width, bottom=industry1)
p3 = plt.bar(ind, industry3, width, bottom=industry2)
plt.xlabel('年份')
plt.ylabel('就业人员(万人)')
plt.xticks(ind, years)
plt.legend((p1[0], p2[0], p3[0]), ('第一产业', '第二产业', '第三产业'))
plt.show()
```
堆积柱形图展示了三个产业的就业人员数目随时间的变化情况,并且清晰地展现了各个产业之间的加总关系,可以看出第三产业的就业人员数量一直是三个产业中最高的。
5. 绘制2019年各产业就业人员饼图
```python
year_2019 = employee_df[employee_df['指标'] == 2019]
industry1_2019 = year_2019['第一产业就业人员(万人)'].values[0]
industry2_2019 = year_2019['第二产业就业人员(万人)'].values[0]
industry3_2019 = year_2019['第三产业就业人员(万人)'].values[0]
labels = ['第一产业', '第二产业', '第三产业']
sizes = [industry1_2019, industry2_2019, industry3_2019]
colors = ['red', 'blue', 'green']
plt.pie(sizes, labels=labels, colors=colors, autopct='%1.1f%%', startangle=90)
plt.axis('equal')
plt.show()
```
饼图展示了2019年各产业就业人员数目的占比情况,可以看出第三产业的就业人员数量占比最高。
6. 绘制2000-2019年各产业就业人员总人数箱线图,并简要分析其特征
```python
total_industry = [industry1 + industry2 + industry3 for industry1, industry2, industry3 in zip(industry1, industry2, industry3)]
plt.boxplot(total_industry, labels=years)
plt.xlabel('年份')
plt.ylabel('就业人员总人数(万人)')
plt.show()
```
箱线图展示了各个年份三个产业就业人员总人数的分布情况,可以看出就业人员总人数呈现逐年上升的趋势,其中2019年的就业人员总人数最多。同时,箱体上沿和箱体下沿之间的距离逐年增大,说明数据分布的离散程度在逐年增大。
阅读全文