生成爬虫代码 用python 网址https://movie.douban.com/top250?start=0&filter= 爬取电影图片保存到文件夹 爬取电影名、导演、演员、评分、评分人数保存到txt文件
时间: 2024-01-15 13:02:45 浏览: 73
以下是生成爬虫代码的步骤:
1. 安装 requests、beautifulsoup4 和 os 库,可以使用 pip 工具进行安装。
2. 创建一个 Python 文件,命名为 "douban_spider.py"。
3. 导入 requests、beautifulsoup4 和 os 库:
```python
import requests
from bs4 import BeautifulSoup
import os
```
4. 定义一个函数,用于爬取电影信息和图片,并保存到本地:
```python
def spider(start):
url = f'https://movie.douban.com/top250?start={start}&filter='
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
items = soup.find_all('div', class_='item')
for item in items:
# 获取电影信息
name = item.find('span', class_='title').text
director = item.find('div', class_='bd').find_all('p')[0].text.split(':')[1].split('\n')[0].strip()
actors = item.find('div', class_='bd').find_all('p')[0].text.split(':')[2].strip().split('\xa0\xa0\xa0')
rating = item.find('span', class_='rating_num').text
rating_num = item.find('div', class_='star').find_all('span')[3].text[:-3]
# 保存电影信息到文本文件
with open('movies.txt', 'a', encoding='utf-8') as f:
f.write(f'电影名:{name}\n导演:{director}\n演员:{actors}\n评分:{rating}\n评分人数:{rating_num}\n\n')
# 下载电影图片并保存到本地
img_url = item.find('img')['src']
img_response = requests.get(img_url)
with open(os.path.join('movies', f'{name}.jpg'), 'wb') as f:
f.write(img_response.content)
```
5. 创建一个名为 "movies" 的文件夹,用于保存电影图片。
```python
if not os.path.exists('movies'):
os.mkdir('movies')
```
6. 调用函数,爬取前 250 部电影的信息和图片,并保存到本地:
```python
for i in range(0, 250, 25):
spider(i)
```
以上就是生成爬虫代码的步骤,可以将上述代码保存到 "douban_spider.py" 文件中,并在命令行中运行该文件即可。
阅读全文