【python爬虫代码分享】利用python爬虫爬取豆瓣音乐top250的数据!
时间: 2023-10-25 21:03:48 浏览: 199
python爬取豆瓣top250
5星 · 资源好评率100%
下面是一个示例代码,可以用Python爬虫爬取豆瓣音乐Top250的数据:
```python
import requests
from bs4 import BeautifulSoup
def get_music_top250():
url = 'https://music.douban.com/top250'
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.107 Safari/537.36'
}
response = requests.get(url, headers=headers)
response.encoding = 'utf-8'
bs = BeautifulSoup(response.text, 'html.parser')
items = bs.find_all('tr', class_='item')
music_top250 = []
for item in items:
rank = item.find('td', class_='ranking').get_text().strip()
title = item.find('a', class_='nbg').get('title').strip()
artist = item.find('p', class_='pl').get_text().strip()
rating_num = item.find('span', class_='rating_nums').get_text().strip()
music = {
'rank': rank,
'title': title,
'artist': artist,
'rating_num': rating_num
}
music_top250.append(music)
return music_top250
if __name__ == '__main__':
music_top250 = get_music_top250()
for music in music_top250:
print('排名:', music['rank'])
print('标题:', music['title'])
print('艺术家:', music['artist'])
print('评分:', music['rating_num'])
print('---')
```
上述代码使用requests库发送HTTP请求,然后使用BeautifulSoup库解析HTML页面。通过定位HTML元素,可以获取音乐的排名、标题、艺术家和评分等信息。最后,将获取到的音乐数据以字典的形式保存到列表中,并返回该列表。运行代码后,将打印出豆瓣音乐Top250的数据。
阅读全文