Python爬虫实战：B站动漫排行榜数据抓取与可视化分析

需积分: 0 109 浏览量更新于2024-08-03 收藏 18KB DOCX 举报

"Python爬虫用于Bilibili动漫排行榜数据的获取与分析，结合数据可视化进行深入理解。项目包括网页信息爬取、数据解析及利用matplotlib进行可视化展示。" 在这个项目中，Python爬虫被用来从Bilibili网站抓取动漫排行榜的数据。以下是关于这个过程的详细知识点： 1. **Python爬虫基础**： - Python爬虫是通过编程自动化地从互联网上获取信息的一种技术，常用库包括requests和BeautifulSoup。 - requests库负责发送HTTP请求，如GET，以获取网页内容。`requests.get(url)`函数用于获取指定URL的网页数据。 - requests库中的`.raise_for_status()`方法检查HTTP响应状态，若非200（表示请求成功），则抛出异常。 - `requests.encoding=r.apparent_encoding`设置正确的编码方式，确保正确处理非ASCII字符。 2. **网页内容解析**： - BeautifulSoup是一个Python库，用于解析HTML和XML文档。它提供了一种简单的方法来遍历和提取页面元素。 - 创建BeautifulSoup对象：`soup = BeautifulSoup(html, 'html.parser')`，这里使用Python内置的HTML解析器。 - 解析网页内容，可以使用BeautifulSoup提供的方法如`find_all()`，`find()`等来寻找特定的HTML标签及其属性，从而提取所需数据。 3. **数据处理**： - 通常，爬取到的数据需要进一步清洗和整理，以便于分析。可以使用pandas库创建DataFrame存储数据。 - pandas的`DataFrame`是一种二维表格型数据结构，可以方便地进行数据操作，如合并、筛选、排序等。 4. **数据可视化**： - matplotlib是Python最常用的数据可视化库之一，可用于绘制各种静态、动态、交互式的图表。 - 使用matplotlib可以将爬取到的数据以图表的形式展示出来，如条形图、折线图、饼图等，便于直观理解数据分布和趋势。 5. **环境配置**： - pip是Python的包管理器，用于安装和管理Python库。例如，`pip install requests`可以安装requests库。 - PyCharm是常用的Python集成开发环境，其中可以方便地通过Project Interpreter界面安装库。 6. **代码实践**： - `if __name__ == '__main__':`是Python程序的主入口，确保代码在直接运行脚本时执行，而不是被其他模块导入时执行。 - `main()`函数通常包含程序的主要逻辑，调用其他函数实现功能。通过这个项目，初学者可以学习到如何使用Python进行网络数据抓取、处理和可视化的基本步骤，这对于数据分析和研究来说是一项重要的技能。同时，项目提供了一个实际的应用场景，帮助巩固理论知识并提高动手能力。

for tag in soup.find_all('div', class_='detail'):

# print(tag)

bf = tag.find('span', class_='data-box').get_text()

# 统一单位为‘万’

if '亿' in bf:

num = float(re.search(r'\d(.\d)?', bf).group()) * 10000

# print(num)

bf = num

else:

bf = re.search(r'\d*(\.)?\d', bf).group()

play.append(float(bf))

print(play)

# ******************************************** 评论数存储

for tag in soup.find_all('div', class_='detail'):

# pl = tag.span.next_sibling.next_sibling

pl = tag.find('span', class_='data-box').next_sibling.next_sibling.get_text()

# *********统一单位

if '万' not in pl:

pl = '%.1f' % (float(pl) / 10000)

# print(123, pl)

else:

pl = re.search(r'\d*(\.)?\d', pl).group()

review.append(float(pl))

print(review)

# ******************************************** 收藏数

for tag in soup.find_all('div', class_='detail'):

sc = tag.find('span',

class_='data-box').next_sibling.next_sibling.next_sibling.next_sibling.get_text()

sc = re.search(r'\d*(\.)?\d', sc).group()

favorite.append(float(sc))

print(favorite)

# ******************************************** 综合评分

for tag in soup.find_all('div', class_='pts'):

zh = tag.find('div').get_text()

TScore.append(int(zh))

print('综合评分', TScore)

其中有个.next_sibling 是用于提取同级别的相同标签信息，如若没有这个方法，当它找到第

一个’span’标签之后，就不会继续找下去了（根据具体情况来叠加使用此方法）;

还用到了正则表达式来提取信息（需要导入库‘re’）

最后我们将提取的信息，存进 excel 表格之中，并返回结果集

# 存储至 excel 表格中

info = {'动漫名': name, '播放量(万)': play, '评论数(万)': review,'收藏数(万)': favorite, '综合

剩余10页未读，继续阅读

身份认证购VIP最低享 7 折!

30元优惠券

普通网友

粉丝: 1048

Python爬虫实战：B站动漫排行榜数据抓取与可视化分析

Python网络爬虫及数据可视化.doc

大学计算机课程报告-Python爬虫与可视化.docx

Python爬虫实战+数据分析+数据可视化.zip

python爬虫数据可视化.docx

python爬取天气数据并做可视化分析.docx

基于Python语言的招聘信息可视化分析.docx

基于大数据python爬虫的房产数据可视化分析系统 论文.docx

数据可视化12.27.docx

基于Anaconda环境下的Python数据分析及可视化.docx

如何用Python进行大数据挖掘和分析.docx

最新资源

基于大数据python爬虫的房产数据可视化分析系统论文.docx