根据下列url爬取电影名和评分数据。 https://movie.douban.com/j/search_subjects?type=movie&tag=%E7%83%AD%E9%97%A8&page_li mit=50&page_start=0
时间: 2024-11-12 14:32:28 浏览: 4
要从给定的豆瓣电影搜索URL爬取电影名称和评分数据,你可以使用Python中的`requests`库来获取网页内容,然后解析HTML内容来提取所需的数据。由于豆瓣网站有反爬虫策略,实际爬取时可能需要设置User-Agent、处理cookies或使用Selenium等工具。这里我提供一个基本的示例,假设你能直接访问这个URL并且页面结构允许简单地用BeautifulSoup抓取:
```python
import requests
from bs4 import BeautifulSoup
# 注意:这里只是一个基本示例,实际操作时可能需要处理反爬虫限制
def get_movie_data(url):
# 获取网页源代码
response = requests.get(url, headers={"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3"})
# 解析HTML
soup = BeautifulSoup(response.text, 'lxml')
# 找到包含电影信息的部分(这里假设电影标题和评分在每个结果项的第一个div里)
movie_list = soup.find_all('div', class_='info')
data = []
for movie in movie_list:
title = movie.find('span', itemprop='name').text.strip() # 提取电影名称
rating = movie.find('span', class_='rating_num').text.strip() # 提取评分
if title and rating: # 检查数据是否完整
data.append((title, rating))
return data
# 使用函数并打印结果
movies_and_ratings = get_movie_data("https://movie.douban.com/j/search_subjects?type=movie&tag=%E7%83%AD%E9%97%A8&page_limit=50&page_start=0")
for title, rating in movies_and_ratings:
print(f"电影名: {title}, 评分: {rating}")
```
阅读全文