请你用Python编写一个功能强大的爬虫,爬取豆瓣网
时间: 2024-09-24 15:19:50 浏览: 44
在Python中编写一个功能强大的爬虫需要使用到一些关键库,如requests、BeautifulSoup或更高级的Scrapy框架。下面是一个简单的示例,展示如何使用requests和BeautifulSoup来抓取豆瓣电影Top250的电影标题和评分:
```python
import requests
from bs4 import BeautifulSoup
def fetch_douban_movies():
# 设置目标URL
url = "https://movie.douban.com/top250"
# 发送GET请求
response = requests.get(url)
# 检查请求是否成功
if response.status_code == 200:
# 解析HTML内容
soup = BeautifulSoup(response.text, 'lxml')
# 找到包含电影信息的div元素
movie_containers = soup.find_all('div', class_='hd')
for container in movie_containers:
title = container.find('span', class_='title').text
rating = container.find('span', class_='rating_num')['class'][0][7] # 提取评分数字(去掉'mv-')的部分
print(f"电影标题: {title}, 评分: {rating}")
else:
print("无法获取数据,检查网络连接或URL.")
fetch_douban_movies()
```
这个脚本会打印出豆瓣电影Top250中每部电影的标题及其评分。然而,这只是一个基础示例,实际的网页结构可能会有所不同,你可能需要根据豆瓣的具体HTML结构进行调整。
阅读全文