Python爬取豆瓣网图书评论
时间: 2023-07-19 14:51:46 浏览: 237
豆瓣读书评论爬取.py
好的,这是一个比较常见的爬虫任务,我可以提供一些思路和代码示例。
首先,我们需要找到豆瓣图书评论的数据来源。通过分析豆瓣图书页面的源代码,可以发现每本图书的评论都是通过 AJAX 请求获取的,请求的 URL 格式为:
```
https://book.douban.com/subject/{book_id}/comments/hot?p={page_num}
```
其中,`{book_id}` 是豆瓣图书的 ID,`{page_num}` 是评论的页数。每页显示 20 条评论。
接下来,我们可以使用 Python 的 requests 库发送 HTTP 请求,获取评论数据。具体代码如下:
```python
import requests
import json
# 豆瓣图书 ID
book_id = '1084336'
# 评论页数
page_num = 1
# 构造请求 URL
url = f'https://book.douban.com/subject/{book_id}/comments/hot?p={page_num}'
# 发送请求,获取响应内容
response = requests.get(url)
content = response.content.decode('utf-8')
# 解析 JSON 数据
data = json.loads(content)
# 打印评论内容
for comment in data['comments']:
print(comment['content'])
```
上面的代码中,我们先构造了请求 URL,然后使用 requests 库发送 GET 请求,并将响应内容解析为 JSON 格式。最后,我们可以打印每条评论的内容。
需要注意的是,豆瓣网站有反爬虫机制,如果请求过于频繁,可能会被封 IP。因此,在实际爬取时需要加入一些延时和随机性,以避免被封。另外,豆瓣的评论数据也可能存在版权和隐私等问题,需要谨慎使用。
阅读全文