首页python爬虫豆瓣主页html

python爬虫豆瓣主页html

时间: 2024-10-14 12:00:41 浏览: 37

Python爬虫通常使用诸如requests和BeautifulSoup这样的库来抓取网页内容，包括HTML。以豆瓣主页为例，首先你需要安装这两个库： ```bash pip install requests pip install beautifulsoup4 ``` 接下来，你可以编写一个简单的Python脚本来获取首页的HTML： ```python import requests from bs4 import BeautifulSoup # 请求豆瓣首页URL url = "https://movie.douban.com/" # 使用requests.get发送HTTP请求 response = requests.get(url) # 检查请求是否成功，状态码200表示成功 if response.status_code == 200: # 解析响应的HTML内容 soup = BeautifulSoup(response.text, 'lxml') # 选择并打印出页面上感兴趣的部分，比如标题 title = soup.find('h1', class_='site-title') print("豆瓣电影首页标题:", title.get_text() if title else "未找到标题") else: print("请求失败，状态码:", response.status_code) ``` 这个脚本会抓取豆瓣电影首页的标题。实际操作中，根据需要你可以解析更多的HTML元素，提取所需的数据。

阅读全文