爬取数据https://www.newrank.cn/public/info/list.html?period=week&type=data 数据内容:抖音号、新增作品数、分享数、评论数、点赞数、新增粉丝数、累计粉丝数、新榜指数
时间: 2024-01-11 21:02:49 浏览: 262
好的,以下是简单的步骤:
1. 分析网页结构
打开新榜数据榜页面,通过浏览器的开发者工具查看网页源代码,找到数据榜所在的标签和类名,以及每个自媒体的信息所在的标签和类名。
2. 安装必要的库
在终端中输入以下命令安装必要的库:
```
pip install requests
pip install beautifulsoup4
pip install pandas
```
3. 编写爬虫程序
使用requests库获取网页内容,使用beautifulsoup4库解析网页内容并提取需要的信息,将提取的信息存储到一个文件或数据库中。
以下是一个简单的爬虫示例代码:
```python
import requests
from bs4 import BeautifulSoup
import pandas as pd
url = 'https://www.newrank.cn/public/info/list.html?period=week&type=data'
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
response = requests.get(url, headers=headers)
soup = BeautifulSoup(response.text, 'html.parser')
media_list = soup.find_all('div', class_='data-list')[0].find_all('div', class_='data-row')
data = []
for media in media_list:
douyin_id = media.find_all('div')[1].get_text().strip()
new_works = media.find_all('div')[2].get_text().strip()
shares = media.find_all('div')[3].get_text().strip()
comments = media.find_all('div')[4].get_text().strip()
likes = media.find_all('div')[5].get_text().strip()
new_fans = media.find_all('div')[6].get_text().strip()
total_fans = media.find_all('div')[7].get_text().strip()
newrank_index = media.find_all('div')[8].get_text().strip()
data.append([douyin_id, new_works, shares, comments, likes, new_fans, total_fans, newrank_index])
df = pd.DataFrame(data, columns=['抖音号', '新增作品数', '分享数', '评论数', '点赞数', '新增粉丝数', '累计粉丝数', '新榜指数'])
print(df)
```
以上代码获取新榜数据榜页面,并解析出每个自媒体的抖音号、新增作品数、分享数、评论数、点赞数、新增粉丝数、累计粉丝数、新榜指数等信息,然后使用pandas库将这些信息存储到一个DataFrame对象中,最后输出到控制台。
阅读全文