爬取豆瓣小组多级页面代码
时间: 2023-09-12 17:12:08 浏览: 130
爬取豆瓣小组多级页面的代码可以分为以下几个步骤:
1. 安装必要的库
```python
import requests
from bs4 import BeautifulSoup
```
2. 设置请求头部信息
```python
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
```
3. 定义一个函数用于获取每个页面的帖子信息
```python
def get_posts(url):
html = requests.get(url, headers=headers)
soup = BeautifulSoup(html.content, 'lxml')
posts = soup.find_all('td', class_='title')
for post in posts:
post_link = post.find('a').get('href')
# 处理帖子信息
pass
next_link = soup.find('link', rel='next')
if next_link:
# 获取下一页帖子信息
next_url = next_link.get('href')
get_posts(next_url)
```
4. 调用函数开始爬取帖子信息
```python
url = 'https://www.douban.com/group/xxxxxx/discussion?start=0'
get_posts(url)
```
在上述代码中,`xxxxxx` 表示小组的 ID,需要根据实际情况进行替换。另外,需要注意的是,豆瓣的反爬虫机制比较严格,如果频繁访问同一个页面,可能会被封 IP。因此,在编写代码时,需要合理设置访问频率和请求头部信息,以避免被封 IP。
阅读全文