首页写代码爬取这个网站http://www.stats.gov.cn/sj/pcsj/rkpc/6rp/html/A0101a.htm

写代码爬取这个网站http://www.stats.gov.cn/sj/pcsj/rkpc/6rp/html/A0101a.htm

时间: 2023-07-06 17:42:08 浏览: 156

好的，以下是使用Python爬取该网站并提取数据的代码示例： ```python import requests from bs4 import BeautifulSoup import pandas as pd url = 'http://www.stats.gov.cn/sj/pcsj/rkpc/6rp/html/A0101a.htm' # 发送HTTP请求 response = requests.get(url) # 解析HTML内容 soup = BeautifulSoup(response.content, 'html.parser') # 提取数据 table = soup.find('table', {'class': 'MsoNormalTable'}) rows = table.find_all('tr')[1:-1] # 排除表头和表尾 data = [] for row in rows: cols = row.find_all('td') row_data = [col.text.strip() for col in cols] data.append(row_data) # 存储数据 df = pd.DataFrame(data, columns=['地区', '年末总人口(万人)', '男性人口(万人)', '女性人口(万人)', '城镇人口(万人)', '乡村人口(万人)']) df.to_csv('population.csv', index=False) print('数据已保存到population.csv') ``` 该代码使用Requests库发送HTTP请求，然后使用BeautifulSoup库解析HTML内容，提取出表格数据，并使用pandas库将数据存储到本地CSV文件中。最后输出提示信息，告诉用户数据已经保存到文件中。

阅读全文