首页xpath爬取豆瓣影评

xpath爬取豆瓣影评

时间: 2024-02-02 08:10:34 浏览: 122

XPath是一种用于在XML文档中定位元素的语言，它也可以用于HTML文档的解析。在爬取豆瓣影评时，可以使用XPath来定位和提取所需的数据。以下是使用XPath爬取豆瓣影评的一般步骤： 1. 导入相关库：首先需要导入相关的库，如requests和lxml库。 2. 发送请求：使用requests库发送HTTP请求，获取豆瓣影评页面的HTML源代码。 3. 解析HTML：使用lxml库将HTML源代码解析为可操作的Element对象。 4. 使用XPath定位元素：使用XPath表达式定位到包含影评信息的元素。 5. 提取数据：通过XPath表达式提取所需的数据，如影评内容、评分等。下面是一个示例代码，演示了如何使用XPath爬取豆瓣影评： ```python import requests from lxml import etree # 发送请求 url = 'https://movie.douban.com/subject/1292052/comments?status=P' response = requests.get(url) html = response.text # 解析HTML tree = etree.HTML(html) # 使用XPath定位元素 comments = tree.xpath('//div[@class="comment"]/p/span/text()') ratings = tree.xpath('//span[@class="rating"]/@title') # 提取数据 for comment, rating in zip(comments, ratings): print('评论:', comment) print('评分:', rating) print('--') ``` 这段代码会爬取豆瓣电影《肖申克的救赎》的影评内容和评分。

阅读全文