用Python 生成爬虫代码 网址https://movie.douban.com/ 爬取t250电影导演,演员保存到txt文件
时间: 2023-12-03 21:02:28 浏览: 224
好的,以下是使用 Python 爬取豆瓣电影 Top250 网站电影导演和演员并保存到本地 txt 文件的示例代码:
```python
import requests
from bs4 import BeautifulSoup
# 要爬取的网页地址
url = 'https://movie.douban.com/top250'
directors_actors = []
# 遍历每个页面
for i in range(10):
# 发起 GET 请求,获取网页内容
params = {'start': i * 25}
response = requests.get(url, params=params)
# 使用 BeautifulSoup 解析网页内容
soup = BeautifulSoup(response.text, 'html.parser')
# 找到网页中所有电影的链接
movie_links = soup.find_all('a', class_='title')
# 遍历每个电影的链接
for link in movie_links:
movie_url = link.get('href')
movie_response = requests.get(movie_url)
movie_soup = BeautifulSoup(movie_response.text, 'html.parser')
# 获取电影导演和演员信息
directors = movie_soup.find_all('a', rel='v:directedBy')
actors = movie_soup.find_all('a', rel='v:starring')
# 将导演和演员信息保存到列表中
for director in directors:
directors_actors.append(director.text)
for actor in actors:
directors_actors.append(actor.text)
# 将导演和演员信息保存到本地 txt 文件
with open('directors_actors.txt', 'w', encoding='utf-8') as f:
for name in directors_actors:
f.write(name + '\n')
```
这段代码使用 requests 库发起 GET 请求获取豆瓣电影 Top250 网站的前 250 部电影,然后使用 BeautifulSoup 库解析网页内容,找到所有电影的链接,遍历每个链接获取电影的导演和演员信息,并将这些信息保存到一个列表中。最后,将导演和演员信息写入到本地 txt 文件中。由于 Top250 网页是分页的,因此需要遍历每个页面,这里设置了遍历前 10 页。
阅读全文