爬取统计年鉴数据的代码
时间: 2024-10-14 20:03:53 浏览: 85
爬取统计年鉴数据通常涉及到网络爬虫技术,特别是使用Python编程语言配合一些库如BeautifulSoup、Requests或Scrapy等。以下是一个简化的示例,说明如何使用Python爬取CSV格式的统计年鉴数据:
```python
import requests
from bs4 import BeautifulSoup
import csv
# 定义目标URL
url = "http://statweb.data.gov.cn/tjsj_100007/index.html" # 以中国国家统计局网站为例
# 发送GET请求获取网页内容
response = requests.get(url)
# 使用BeautifulSoup解析HTML内容
soup = BeautifulSoup(response.text, 'lxml')
# 查找并提取包含数据的部分,这里假设数据在表格`table_id`
data_table = soup.find('table', {'id': 'table_id'})
# 将表格转换成列表,每一行数据是一个列表项
data_rows = data_table.find_all('tr')
rows_data = [row.find_all('td') for row in data_rows]
# 写入CSV文件
with open('stats_data.csv', mode='w', newline='', encoding='utf-8') as file:
writer = csv.writer(file)
writer.writerows(rows_data)
# 提醒注意网站的Robots.txt规则,以及可能的数据清洗工作
print("数据已保存至stats_data.csv,记得检查数据清洗是否需要进一步处理。")
阅读全文