使用xpath编写爬虫代码,将豆瓣电影TOP250第一页数中的所有电影名打印出来
时间: 2024-12-24 12:23:41 浏览: 3
XPath是一种用于XML文档的选择语言,但它同样适用于HTML文档,因为HTML可以看作是一个嵌套的树形结构。在Python中,我们可以使用像BeautifulSoup或lxml这样的库配合requests库来抓取网页内容,并通过XPath表达式提取出电影名称。
下面是一个简单的示例,演示如何使用Python的BeautifulSoup库和XPath获取豆瓣电影TOP250第一页的电影名称:
```python
import requests
from bs4 import BeautifulSoup
# 请求豆瓣电影首页
url = 'https://movie.douban.com/top250'
response = requests.get(url)
# 检查请求是否成功
if response.status_code == 200:
# 解析HTML内容
soup = BeautifulSoup(response.text, 'html.parser')
# 使用XPath选择所有的电影标题元素
movie_titles = soup.select('//div[@class="hd"]//a[@class="title"]')
# 打印电影名称
for title in movie_titles:
print(title.text.strip()) # .text获取文本,strip()去除首尾空白
else:
print(f"请求失败,状态码:{response.status_code}")
阅读全文