爬取豆瓣电影top250数据 代码
时间: 2024-10-11 11:03:56 浏览: 40
爬虫爬取豆瓣电影TOP250源代码
爬取豆瓣电影Top250的数据通常需要使用网络爬虫技术,Python语言中的`requests`库用于发送HTTP请求,`BeautifulSoup`或`lxml`库用于解析HTML内容。下面是一个简单的Python脚本示例,使用了`requests`和`beautifulsoup4`:
```python
import requests
from bs4 import BeautifulSoup
import pandas as pd
# 请求网页
url = "https://movie.douban.com/top250"
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
response = requests.get(url, headers=headers)
# 解析HTML
soup = BeautifulSoup(response.text, 'html.parser')
# 查找并提取所需信息
data_list = []
table = soup.find('ol', class_='grid_view')
for film in table.find_all('li'):
title = film.h3.a.text
rating_num = film.strong.text
rating_percent = film.find('span', class_='rating_num').get_text()
data_list.append([title, rating_num, rating_percent])
# 转换为pandas DataFrame
movies_df = pd.DataFrame(data_list, columns=['电影名称', '评分人数', '评分百分比'])
# 输出或保存数据
print(movies_df)
```
注意:实际运行此脚本前,确保你已经安装了`requests`, `beautifulsoup4` 和 `pandas` 这些库。另外,由于豆瓣网站可能会有反爬机制或频繁抓取导致IP被封禁,所以在爬取大量数据时,最好添加延迟或设置代理。
阅读全文