用 pandas numpy 爬虫对网易云新歌榜做数据分析正确代码
时间: 2024-06-09 22:06:21 浏览: 94
以下是一个简单的爬虫示例,可以用 pandas 和 numpy 对爬取的数据进行数据分析:
```python
import requests
import pandas as pd
import numpy as np
# 爬取网易云新歌榜数据
url = 'https://music.163.com/discover/toplist?id=3779629'
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
response = requests.get(url, headers=headers).text
# 使用 pandas 解析 HTML 表格
df_list = pd.read_html(response)
df = df_list[0]
# 数据清洗,删除不需要的列
df.drop(['歌手', '专辑'], axis=1, inplace=True)
# 对数据进行分析
print('新歌榜前十名歌曲的平均播放量为:', np.mean(df['播放量'][:10]))
print('新歌榜前十名歌曲的平均点赞数为:', np.mean(df['点赞数'][:10]))
```
该代码会爬取网易云新歌榜页面的数据,使用 pandas 解析 HTML 表格,然后对数据进行清洗和分析,输出新歌榜前十名歌曲的平均播放量和平均点赞数。请注意,网易云音乐网站可能会对爬虫进行限制,所以请谨慎使用。