用python代码爬取https://www.bilibili.com/v/popular/rank/all/的内容
时间: 2023-06-23 11:49:04 浏览: 147
可以使用Python中的requests库和BeautifulSoup库来爬取bilibili排行榜页面的内容。以下是示例代码:
```python
import requests
from bs4 import BeautifulSoup
url = 'https://www.bilibili.com/v/popular/rank/all/'
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
response = requests.get(url, headers=headers)
soup = BeautifulSoup(response.text, 'html.parser')
items = soup.find_all('li', class_='rank-item')
for item in items:
rank = item.find('div', class_='num').text
title = item.find('a', class_='title').text
author = item.find('span', class_='name').text
play = item.find('span', class_='data-box').text.strip().replace('\n', ' ')
print(rank, title, author, play)
```
运行以上代码,可以爬取bilibili排行榜页面的视频信息,包括排名、标题、作者和播放量等。需要注意的是,为了避免被网站认为是恶意爬取而被封禁IP地址,我们在请求时添加了User-Agent头部信息。此外,我们还使用了BeautifulSoup库来解析页面内容,提取出我们需要的信息。
阅读全文