Python爬取B站番剧排行并进行数据可视化

17 浏览量更新于2024-08-03 收藏 18KB DOCX 举报

在这个文档中，我们将深入探讨如何使用Python爬虫技术结合数据可视化来分析Bilibili（B站）的动漫排行榜信息。首先，作者强调了Python爬虫的基础框架，包括requests库用于网络请求，pandas用于数据处理，BeautifulSoup用于HTML解析，以及matplotlib用于数据可视化。 1. **Python爬虫库的准备**: - requests库是基础的HTTP库，用于发送HTTP请求并获取网页内容。Python的包管理工具pip被用来安装它，可以通过命令行输入`pip install requests`或在PyCharm中设置项目 Interpreter 进行安装。 2. **获取网页内容**: - `get_html`函数是爬虫的核心部分，通过requests库的`get`方法获取指定URL（例如B站番剧排行榜页面）的HTML内容。如果请求成功（HTTP状态码为200），则获取编码后的文本；否则抛出异常。 3. **爬虫实施与检查**: - `main`函数作为程序的入口点，调用`get_html`函数获取网页内容，并打印出来以确认是否成功抓取到预期数据。 4. **信息解析**: - 使用BeautifulSoup库解析HTML内容，构建一个BeautifulSoup对象，便于提取和解析网页中的数据结构。这一步通常是提取所需数据的关键步骤，如番剧名称、播放量等。 5. **数据处理与清洗**: - 获取到原始数据后，将HTML内容转换为结构化的数据，可能涉及到数据清洗，去除不必要的HTML标签，只保留有用的信息。 6. **数据可视化**: - 使用matplotlib库对爬取和处理后的数据进行可视化分析，如创建图表展示排行榜的Top N番剧，可能包括热度趋势、分类分布等信息，以更直观地理解数据。 7. **学习与交流**: - 作者作为Python爬虫初学者，邀请读者提出建议和指导，体现了协作学习的精神，并提供了一份GitHub项目链接（https://github.com/Lemon-Sheep/Py/tree/master），以便读者进一步学习和参考。这个文档适合对Python爬虫和数据分析感兴趣的读者，特别是对Bilibili数据有兴趣的开发者和研究者，通过实践可以掌握基本的爬虫技术和数据可视化的应用。

for tag in soup.find_all('div', class_='detail'):

# print(tag)

bf = tag.find('span', class_='data-box').get_text()

# 统一单位为‘万’

if '亿' in bf:

num = float(re.search(r'\d(.\d)?', bf).group()) * 10000

# print(num)

bf = num

else:

bf = re.search(r'\d*(\.)?\d', bf).group()

play.append(float(bf))

print(play)

# ******************************************** 评论数存储

for tag in soup.find_all('div', class_='detail'):

# pl = tag.span.next_sibling.next_sibling

pl = tag.find('span', class_='data-box').next_sibling.next_sibling.get_text()

# *********统一单位

if '万' not in pl:

pl = '%.1f' % (float(pl) / 10000)

# print(123, pl)

else:

pl = re.search(r'\d*(\.)?\d', pl).group()

review.append(float(pl))

print(review)

# ******************************************** 收藏数

for tag in soup.find_all('div', class_='detail'):

sc = tag.find('span',

class_='data-box').next_sibling.next_sibling.next_sibling.next_sibling.get_text()

sc = re.search(r'\d*(\.)?\d', sc).group()

favorite.append(float(sc))

print(favorite)

# ******************************************** 综合评分

for tag in soup.find_all('div', class_='pts'):

zh = tag.find('div').get_text()

TScore.append(int(zh))

print('综合评分', TScore)

其中有个.next_sibling 是用于提取同级别的相同标签信息，如若没有这个方法，当它找到第

一个’span’标签之后，就不会继续找下去了（根据具体情况来叠加使用此方法）;

还用到了正则表达式来提取信息（需要导入库‘re’）

最后我们将提取的信息，存进 excel 表格之中，并返回结果集

# 存储至 excel 表格中

info = {'动漫名': name, '播放量(万)': play, '评论数(万)': review,'收藏数(万)': favorite, '综合

剩余10页未读，继续阅读

不走小道

粉丝: 3382

Python爬取B站番剧排行并进行数据可视化

Python数据分析与可视化深度解析

Python爬虫技术分析ACG音乐发展可视化项目

Python数据可视化基础：matplotlib和pandas示例解析

python爬虫数据可视化.docx

python爬取天气数据并做可视化分析.docx

基于Python语言的招聘信息可视化分析.docx

基于大数据python爬虫的房产数据可视化分析系统 论文.docx

数据可视化12.27.docx

大学计算机课程报告-Python爬虫与可视化.docx

基于Anaconda环境下的Python数据分析及可视化.docx

最新资源

基于大数据python爬虫的房产数据可视化分析系统论文.docx