爬取豆瓣音乐250的评论人数和评论
时间: 2023-08-14 20:07:49 浏览: 115
好的,我可以帮你实现爬取豆瓣音乐 top250 的评论人数和评论的功能。
首先,我们需要从每个音乐的详情页面中获取评论人数和评论,可以使用正则表达式或者 xpath 来提取。这里我使用 xpath 来提取。
代码如下:
```python
import requests
from lxml import etree
url = 'https://music.douban.com/top250'
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
response = requests.get(url, headers=headers)
html = response.text
tree = etree.HTML(html)
music_urls = tree.xpath('//div[@class="pl2"]/a/@href') # 获取每个音乐详情页面的链接
for music_url in music_urls:
response = requests.get(music_url, headers=headers)
html = response.text
tree = etree.HTML(html)
comment_num = tree.xpath('//div[@id="comments-section"]/h2/span/a/text()')[0] # 获取评论人数
comments = tree.xpath('//div[@class="comment"]/p/span/text()') # 获取评论
print(f'评论人数:{comment_num}')
for comment in comments:
print(f'评论内容:{comment}')
```
这样,就可以爬取豆瓣音乐 top250 的评论人数和评论了。注意,豆瓣的反爬虫机制比较严格,建议加上适当的延时和随机 User-Agent 来避免被封禁。
阅读全文