我是一个python初学者,想学习爬虫内容,帮我用python写代码爬取这个网站的电影信息https://movie.douban.com/top250
时间: 2024-04-18 08:27:43 浏览: 74
当然可以帮你编写Python代码来爬取豆瓣电影Top250的信息。你可以使用`requests`库发送HTTP请求并使用`BeautifulSoup`库解析HTML页面。以下是一个示例代码:
```python
import requests
from bs4 import BeautifulSoup
def scrape_movies():
url = "https://movie.douban.com/top250"
headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36"
}
response = requests.get(url, headers=headers)
soup = BeautifulSoup(response.text, "html.parser")
movies = []
movie_list = soup.find_all("div", class_="item")
for movie in movie_list:
title = movie.find("span", class_="title").text
rating = movie.find("span", class_="rating_num").text
movies.append({"title": title, "rating": rating})
return movies
if __name__ == "__main__":
movies = scrape_movies()
for movie in movies:
print(f"电影:{movie['title']},评分:{movie['rating']}")
```
这段代码会发送HTTP请求到豆瓣电影Top250页面,并使用BeautifulSoup解析HTML页面。然后,它会提取每部电影的标题和评分,并将其存储在一个列表中。最后,它会打印出每部电影的标题和评分。
请注意,为了模拟正常的浏览器行为,我们添加了`User-Agent`头部信息。你可以根据需要修改该值。
阅读全文