用python访问豆瓣电影Top250(https://movie.douban.com/top250?start=0),获取每部电影的中文片名、排名、评分及其对应的链接,按照“排名-中文片名-评分-链接”的格式显示在屏幕上,将获取到的信息保存至本地文件中。
时间: 2024-10-01 07:08:22 浏览: 52
在Python中,你可以使用requests库来发送HTTP请求获取网页内容,然后使用BeautifulSoup库解析HTML结构,提取所需信息。这里是一个基本步骤的示例:
首先,你需要安装必要的库,如果还没有的话:
```bash
pip install requests beautifulsoup4
```
接下来,你可以编写如下的Python代码:
```python
import requests
from bs4 import BeautifulSoup
# 发送GET请求
url = "https://movie.douban.com/top250?start=0"
response = requests.get(url)
# 检查请求是否成功
if response.status_code == 200:
# 解析HTML
soup = BeautifulSoup(response.text, 'html.parser')
# 找到电影列表
movie_list = soup.select('.hd > a')
# 创建结果字典列表
results = []
for movie in movie_list:
rank = movie['data-order'] # 排名
title = movie.text.strip() # 中文片名
rating = movie.find('span', class_='rating_num').text # 评分
link = f"https://movie.douban.com{movie['href']}") # 链接
results.append(f"{rank}- {title} - {rating} - {link}")
# 打印并保存到本地文件
print("\n".join(results))
with open("douban_movies.txt", "w", encoding="utf-8") as file:
file.write("\n".join(results))
else:
print(f"请求失败,状态码:{response.status_code}")
```
这个脚本会打印出电影信息,并将其写入名为'douban_movies.txt'的文本文件中。注意实际运行时可能会遇到动态加载内容或者反爬虫策略的问题,这需要根据实际情况适当地处理。
阅读全文