使用python爬取豆瓣网的全过程
时间: 2024-09-24 21:20:25 浏览: 31
使用Python爬取豆瓣网的全过程可以分为以下几个步骤:
1. 导入相关库:首先需要导入需要用到的库,如requests、BeautifulSoup等。
2. 发送请求:通过requests库向豆瓣网站发送请求,获取需要爬取的页面的HTML文档。
3. 解析HTML文档:使用BeautifulSoup库对获取到的HTML文档进行解析,提取出需要的数据。
4. 保存数据:将提取出的数据保存到本地或者数据库中。
下面是一个简单的Python代码示例,可以帮助你了解整个爬取过程:
```
import requests
from bs4 import BeautifulSoup
# 发送请求,获取HTML文档
url = 'https://movie.douban.com/top250'
response = requests.get(url)
html_doc = response.content.decode('utf-8')
# 解析HTML文档,提取数据
soup = BeautifulSoup(html_doc, 'html.parser')
movie_list = soup.find_all('div', class_='hd')
# 保存数据
with open('douban_top250.txt', 'w', encoding='utf-8') as f:
for movie in movie_list:
title = movie.a.span.text.strip()
f.write(title + '\n')
```
阅读全文