用re方法爬取豆瓣电影T250的代码
时间: 2024-09-29 14:08:11 浏览: 35
豆瓣电影top250.zip
在Python中,你可以使用requests和BeautifulSoup库结合来爬取豆瓣电影Top 250的数据。下面是一个简单的示例代码,用于抓取网页HTML并解析数据:
```python
import requests
from bs4 import BeautifulSoup
# 请求豆瓣电影Top 250页面的HTML内容
url = "https://movie.douban.com/top250"
response = requests.get(url)
# 检查请求是否成功,如果状态码不是200,表示请求失败
if response.status_code == 200:
# 使用BeautifulSoup解析HTML内容
soup = BeautifulSoup(response.text, 'lxml')
# 找到包含电影信息的部分,这里通常是在`div`标签下的`li`列表项
movie_list = soup.find_all('li', class_='hd') # 假设电影标题在class='hd'
for movie in movie_list:
# 提取电影名称
title = movie.find('span', class_='title').text.strip()
# 可能需要提取其他如导演、评分等信息,这取决于HTML结构
director = movie.find('span', class_='導演').text.strip() if '導演' in movie else ''
rating = movie.find('span', class_='rating_num').text.strip() if 'rating_num' in movie else ''
print(f"电影名: {title}\n导演: {director}\n评分: {rating}\n---\n")
else:
print("获取页面失败")
#
阅读全文