爬取豆瓣电影top250排行榜的:片名、发布年份、评分、评价人数等项目数据(数据采集与预处理)代码 爬取成功
时间: 2024-10-10 17:09:00 浏览: 34
在Python中爬取豆瓣电影Top250的排行榜数据通常会涉及到网络请求库如requests,解析HTML内容可能会用到BeautifulSoup或者lxml。以下是一个简化的示例代码片段,用于爬取并提取所需信息:
```python
import requests
from bs4 import BeautifulSoup
# 指定豆瓣电影Top250的URL
url = "https://movie.douban.com/top250"
def get_movie_data():
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
# 找到包含电影信息的div元素
movie_list = soup.find_all('div', class_='hd')
data = []
for movie in movie_list[:250]: # 通常只取前250部
title = movie.find('span', class_='title').text.strip()
year = movie.find('span', class_='year').text.strip()
rating = float(movie.find('span', class_='rating_num').text)
votes = movie.find('span', class_='pl').text.strip().replace(',', '')
data.append({
'片名': title,
'发布年份': year,
'评分': rating,
'评价人数': int(votes.replace('人评价', '').strip()) if votes else None
})
return data
data = get_movie_data()
# 数据预处理:这里可以保存到文件或数据库,具体取决于你的需求
# 例如,保存到CSV文件:
import csv
with open('douban_movies.csv', 'w', newline='', encoding='utf-8') as file:
writer = csv.DictWriter(file, fieldnames=data[0].keys())
writer.writeheader()
writer.writerows(data)
阅读全文