首页使用xpath编写爬虫代码，将豆瓣电影TOP250第一页数中的所有电影名打印出来

使用xpath编写爬虫代码，将豆瓣电影TOP250第一页数中的所有电影名打印出来

时间: 2024-12-24 12:23:41 浏览: 3

XPath是一种用于XML文档的选择语言，但它同样适用于HTML文档，因为HTML可以看作是一个嵌套的树形结构。在Python中，我们可以使用像BeautifulSoup或lxml这样的库配合requests库来抓取网页内容，并通过XPath表达式提取出电影名称。下面是一个简单的示例，演示如何使用Python的BeautifulSoup库和XPath获取豆瓣电影TOP250第一页的电影名称： ```python import requests from bs4 import BeautifulSoup # 请求豆瓣电影首页 url = 'https://movie.douban.com/top250' response = requests.get(url) # 检查请求是否成功 if response.status_code == 200: # 解析HTML内容 soup = BeautifulSoup(response.text, 'html.parser') # 使用XPath选择所有的电影标题元素 movie_titles = soup.select('//div[@class="hd"]//a[@class="title"]') # 打印电影名称 for title in movie_titles: print(title.text.strip()) # .text获取文本，strip()去除首尾空白 else: print(f"请求失败，状态码：{response.status_code}")

阅读全文