用python爬取B站电影
时间: 2024-01-12 14:03:58 浏览: 73
Python爬取豆瓣top250电影数据,并导入MySQL,写入excel
5星 · 资源好评率100%
首先,你需要安装 Python 的 requests 和 BeautifulSoup 模块来爬取和解析网页。你可以使用以下命令来安装这两个模块:
```
pip install requests
pip install beautifulsoup4
```
接着,你需要找到 B 站电影的网页,并从中提取出电影的信息。假设你要爬取 B 站的电影排行榜,那么可以使用以下代码:
```python
import requests
from bs4 import BeautifulSoup
url = 'https://www.bilibili.com/v/popular/rank/movie'
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
response = requests.get(url, headers=headers)
soup = BeautifulSoup(response.text, 'html.parser')
movies = soup.find_all('li', class_='rank-item')
for movie in movies:
title = movie.find('a', class_='title').text.strip()
play_count = movie.find('span', class_='data-box').text.strip()
print(title, play_count)
```
这段代码会请求 https://www.bilibili.com/v/popular/rank/movie 页面,并使用 BeautifulSoup 解析网页内容。然后,它会找到所有 class 为 rank-item 的 li 元素,遍历每一个元素,并提取出电影的标题和播放量信息。
请注意,爬取网页内容时,需要设置合适的 User-Agent,以避免被网站屏蔽。
阅读全文