首页爬取统计年鉴数据的代码

爬取统计年鉴数据的代码

时间: 2024-10-14 20:03:53 浏览: 85

爬取统计年鉴数据通常涉及到网络爬虫技术，特别是使用Python编程语言配合一些库如BeautifulSoup、Requests或Scrapy等。以下是一个简化的示例，说明如何使用Python爬取CSV格式的统计年鉴数据： ```python import requests from bs4 import BeautifulSoup import csv # 定义目标URL url = "http://statweb.data.gov.cn/tjsj_100007/index.html" # 以中国国家统计局网站为例 # 发送GET请求获取网页内容 response = requests.get(url) # 使用BeautifulSoup解析HTML内容 soup = BeautifulSoup(response.text, 'lxml') # 查找并提取包含数据的部分，这里假设数据在表格`table_id` data_table = soup.find('table', {'id': 'table_id'}) # 将表格转换成列表，每一行数据是一个列表项 data_rows = data_table.find_all('tr') rows_data = [row.find_all('td') for row in data_rows] # 写入CSV文件 with open('stats_data.csv', mode='w', newline='', encoding='utf-8') as file: writer = csv.writer(file) writer.writerows(rows_data) # 提醒注意网站的Robots.txt规则，以及可能的数据清洗工作 print("数据已保存至stats_data.csv，记得检查数据清洗是否需要进一步处理。")

阅读全文