使用bs爬取豆瓣top250所有电影名称
时间: 2024-10-12 13:07:06 浏览: 47
Python爬⾍入⻔--实例代码 | 4 爬取⾖豆瓣TOP250图书信息
在Python中,你可以使用BeautifulSoup(BS4)库配合requests库来爬取豆瓣Top250电影列表的电影名称。以下是一个简单的示例步骤:
首先,你需要安装必要的库,如果还没有安装,可以使用pip安装:
```bash
pip install requests beautifulsoup4 pandas
```
然后,编写一个Python脚本,如下所示:
```python
import requests
from bs4 import BeautifulSoup
import pandas as pd
# 豆瓣Top250的URL
url = "https://movie.douban.com/top250"
def get_movie_names():
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
# 找到包含电影名称的div标签
movie_containers = soup.find_all('div', class_='hd')
movie_names = []
for container in movie_containers:
title = container.find('span', class_='title').text
movie_names.append(title)
# 将电影名放入pandas DataFrame
df = pd.DataFrame({'电影名称': movie_names})
return df
movies_df = get_movie_names()
print(movies_df.head()) # 输出前几行电影名称
# 保存数据到CSV文件
movies_df.to_csv('douban_top250_movies.csv', index=False)
阅读全文