利用 requests 库采集网站中前 2000 部电影的海报图片、电影的名字和评分。
时间: 2023-02-09 22:33:42 浏览: 122
首先需要安装 requests 库,可以使用 "pip install requests" 安装。
然后可以使用 requests.get() 方法来获取网页的 HTML 源代码,再使用 BeautifulSoup 库解析 HTML 源代码,提取出电影的海报图片、电影名字和评分。
举个例子:
```
import requests
from bs4 import BeautifulSoup
url = "http://example.com/movies"
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
# 提取电影海报图片
posters = soup.find_all('img', class_='poster')
for poster in posters:
print(poster['src'])
# 提取电影名字
names = soup.find_all('h2', class_='name')
for name in names:
print(name.text)
# 提取电影评分
ratings = soup.find_all('span', class_='rating')
for rating in ratings:
print(rating.text)
```
在这个例子中,我们假设网站上的电影海报图片都有一个 class 为 "poster" 的 `img` 标签,电影名字都有一个 class 为 "name" 的 `h2` 标签,电影评分都有一个 class 为 "rating" 的 `span` 标签。
最后,可以使用 requests.get() 方法下载图片, 并保存到本地。
注意: 如果网站有反爬虫机制,可能需要设置headers信息来伪装成浏览器访问.
阅读全文