写代码爬取这个网站http://www.stats.gov.cn/sj/pcsj/rkpc/6rp/html/A0101a.htm
时间: 2023-07-06 17:42:08 浏览: 156
好的,以下是使用Python爬取该网站并提取数据的代码示例:
```python
import requests
from bs4 import BeautifulSoup
import pandas as pd
url = 'http://www.stats.gov.cn/sj/pcsj/rkpc/6rp/html/A0101a.htm'
# 发送HTTP请求
response = requests.get(url)
# 解析HTML内容
soup = BeautifulSoup(response.content, 'html.parser')
# 提取数据
table = soup.find('table', {'class': 'MsoNormalTable'})
rows = table.find_all('tr')[1:-1] # 排除表头和表尾
data = []
for row in rows:
cols = row.find_all('td')
row_data = [col.text.strip() for col in cols]
data.append(row_data)
# 存储数据
df = pd.DataFrame(data, columns=['地区', '年末总人口(万人)', '男性人口(万人)', '女性人口(万人)', '城镇人口(万人)', '乡村人口(万人)'])
df.to_csv('population.csv', index=False)
print('数据已保存到population.csv')
```
该代码使用Requests库发送HTTP请求,然后使用BeautifulSoup库解析HTML内容,提取出表格数据,并使用pandas库将数据存储到本地CSV文件中。最后输出提示信息,告诉用户数据已经保存到文件中。
阅读全文