xpath爬取豆瓣影评
时间: 2024-02-02 08:10:34 浏览: 122
XPath是一种用于在XML文档中定位元素的语言,它也可以用于HTML文档的解析。在爬取豆瓣影评时,可以使用XPath来定位和提取所需的数据。
以下是使用XPath爬取豆瓣影评的一般步骤:
1. 导入相关库:首先需要导入相关的库,如requests和lxml库。
2. 发送请求:使用requests库发送HTTP请求,获取豆瓣影评页面的HTML源代码。
3. 解析HTML:使用lxml库将HTML源代码解析为可操作的Element对象。
4. 使用XPath定位元素:使用XPath表达式定位到包含影评信息的元素。
5. 提取数据:通过XPath表达式提取所需的数据,如影评内容、评分等。
下面是一个示例代码,演示了如何使用XPath爬取豆瓣影评:
```python
import requests
from lxml import etree
# 发送请求
url = 'https://movie.douban.com/subject/1292052/comments?status=P'
response = requests.get(url)
html = response.text
# 解析HTML
tree = etree.HTML(html)
# 使用XPath定位元素
comments = tree.xpath('//div[@class="comment"]/p/span/text()')
ratings = tree.xpath('//span[@class="rating"]/@title')
# 提取数据
for comment, rating in zip(comments, ratings):
print('评论:', comment)
print('评分:', rating)
print('--')
```
这段代码会爬取豆瓣电影《肖申克的救赎》的影评内容和评分。
阅读全文