python爬取并生成csv文件
时间: 2023-08-09 20:09:57 浏览: 255
好的,以下是Python爬取并生成CSV文件的一般步骤:
1. 导入必要的库,如requests、BeautifulSoup、csv等。
2. 使用requests库发送HTTP请求,获取目标网页的HTML内容。
3. 使用BeautifulSoup库解析HTML内容,获取目标数据。
4. 将目标数据保存到CSV文件中。
下面是一段简单的示例代码,演示了如何爬取豆瓣电影Top250并将数据保存到CSV文件中:
```python
import requests
from bs4 import BeautifulSoup
import csv
# 发送HTTP请求,获取HTML内容
url = 'https://movie.douban.com/top250'
response = requests.get(url)
html = response.text
# 使用BeautifulSoup解析HTML内容,获取目标数据
soup = BeautifulSoup(html, 'html.parser')
movies = soup.find_all('div', class_='hd')
data = []
for movie in movies:
title = movie.a.span.text.strip()
link = movie.a['href']
data.append([title, link])
# 将目标数据保存到CSV文件中
with open('top250.csv', 'w', newline='', encoding='utf-8') as f:
writer = csv.writer(f)
writer.writerow(['电影名称', '链接'])
writer.writerows(data)
```
以上代码实现了以下功能:
1. 获取豆瓣电影Top250的HTML内容。
2. 使用BeautifulSoup解析HTML内容,获取每部电影的名称和链接。
3. 将电影名称和链接保存到CSV文件中,文件名为top250.csv。
希望这个示例可以帮助你完成你的任务,如果还有其他问题,请继续提问。
阅读全文