python爬新闻并保存csv_python爬虫数据数据存储csv
时间: 2024-02-21 09:49:55 浏览: 189
虚假新闻识别检测数据集news.csv
5星 · 资源好评率100%
好的,下面是一个简单的 Python 爬虫示例,可以爬取新浪新闻的头条新闻,并将标题、链接和时间保存到 csv 文件中。
```python
import requests
import csv
from bs4 import BeautifulSoup
# 请求头条新闻页面
url = 'http://news.sina.com.cn/china/'
res = requests.get(url)
# 解析 HTML 页面
soup = BeautifulSoup(res.text, 'html.parser')
headlines = soup.select('.news-item')
# 保存数据到 csv 文件
with open('news.csv', 'w', encoding='utf-8', newline='') as f:
writer = csv.writer(f)
writer.writerow(['标题', '链接', '时间'])
for headline in headlines:
title = headline.select_one('a').text.strip()
link = headline.select_one('a')['href']
time = headline.select_one('.time').text.strip()
writer.writerow([title, link, time])
```
该示例使用了 requests 库来请求新浪新闻的头条新闻页面,并使用 BeautifulSoup 库解析 HTML 页面中的数据。然后,将标题、链接和时间保存到一个名为 news.csv 的 csv 文件中。
注意:在运行该代码之前,需要先安装 requests、bs4 和 csv 库。可以使用以下命令来安装它们:
```bash
pip install requests
pip install bs4
```
希望对你有所帮助!
阅读全文