p ython电影爬虫
时间: 2024-01-17 15:03:15 浏览: 76
以下是一个简单的 Python 电影爬虫的示例代码:
```python
import requests
from bs4 import BeautifulSoup
url = "https://movie.douban.com/top250"
headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3"}
response = requests.get(url, headers=headers)
soup = BeautifulSoup(response.text, "html.parser")
movie_list_soup = soup.find('ol', attrs={'class': 'grid_view'})
movie_name_list = []
for movie_li in movie_list_soup.find_all('li'):
detail = movie_li.find('div', attrs={'class': 'hd'})
movie_name = detail.find('span', attrs={'class': 'title'}).getText()
movie_name_list.append(movie_name)
for movie_name in movie_name_list:
print(movie_name)
```
这个示例代码使用了 requests 库和 BeautifulSoup 库。在代码中,我们定义了豆瓣电影Top250的URL和Headers。然后,我们使用 requests 库发送一个 GET 请求,并获取响应的 HTML 页面。接着,我们使用 BeautifulSoup 库解析 HTML 页面,并找到所有的电影名称。最后,我们将所有电影名称打印出来。
需要注意的是,这个示例只是一个简单的爬虫,如果要进行更复杂的爬取,可能需要考虑添加更多的代码来应对反爬虫机制。同时,爬取网站的数据也需要遵循相关的法律法规。
阅读全文