python 国家统计局新闻爬虫
时间: 2023-12-12 16:04:02 浏览: 133
Python爬虫新闻
以下是使用Python进行国家统计局新闻爬虫的步骤:
1. 导入所需的库,包括requests、BeautifulSoup和pandas。
2. 使用requests库向国家统计局新闻网站发送请求,并获取响应。
3. 使用BeautifulSoup库解析响应的HTML内容,并提取所需的信息。
4. 将提取的信息存储到pandas的DataFrame中,并将其保存为CSV文件。
下面是一个简单的示例代码,可以爬取国家统计局新闻网站上的新闻标题和发布日期:
```python
import requests
from bs4 import BeautifulSoup
import pandas as pd
# 发送请求并获取响应
url = 'http://www.stats.gov.cn/tjsj/zxfb/index.html'
response = requests.get(url)
# 解析HTML内容
soup = BeautifulSoup(response.content, 'html.parser')
news_list = soup.find_all('li', class_='newslist')
# 提取信息并存储到DataFrame中
data = []
for news in news_list:
title = news.find('a').text.strip()
date = news.find('span').text.strip()
data.append([title, date])
df = pd.DataFrame(data, columns=['Title', 'Date'])
# 保存为CSV文件
df.to_csv('national_statistics_news.csv', index=False)
```
阅读全文