用x-path爬取豆瓣电影top250的信息 - CSDN文库

你可以使用XPath来爬取豆瓣电影Top250的信息以下是一个示例代码，演示如何XPath和Python的requests和lxml库来实现： ```python import requests from lxml import etree url = 'https://movie.douban.com/top250' # 发送GET请求 response = requests.get(url) # 使用lxml解析HTML html = etree.HTML(response.text) # 使用XPath提取电影标题和评分信息 titles = html.xpath('//div[@class="hd"]/a/span[@class="title"]/text()') ratings = html.xpath('//span[@class="rating_num"]/text()') # 打印电影标题和评分信息 for title, rating in zip(titles, ratings): print(f"电影：{title}，评分：{rating}") ``` 这段代码首先发送GET请求获取豆瓣电影Top250页面的HTML内容。然后，使用lxml的etree模块将HTML内容解析为一个可供XPath使用的树形结构。接下来，使用XPath表达式提取电影标题和评分信息，并通过循环打印出来。请注意，这只是一个示例代码，你可能需要根据具体情况调整XPath表达式来匹配你想要提取的数据。另外，为了爬取完整的Top250电影信息，你可能需要处理分页或使用其他技术手段。

阅读全文

相关推荐

CSDN会员

开通CSDN年卡参与万元壕礼抽奖

海量 VIP免费资源千本正版电子书商城会员专享价千门课程&专栏

全年可省5,000元立即开通