B站动漫排行榜爬取与数据分析教程

需积分: 5 144 浏览量更新于2024-08-03 1 收藏 18KB DOCX 举报

"Python爬虫用于从Bilibili网站抓取动漫排行榜信息，之后结合数据分析和可视化库进行分析。本教程适合Python爬虫初学者，主要涉及requests、pandas、BeautifulSoup和matplotlib等库的使用。" 在Python爬虫实践中，Bilibili动漫排行榜的爬取与分析是一个很好的学习案例。首先，我们需要确保安装了必要的库，如requests用于发送HTTP请求，pandas用于数据处理，BeautifulSoup用于解析HTML文档，而matplotlib则用于数据可视化。 1. **安装库**： - 对于没有预装的第三方库，可以使用Python的包管理工具pip进行安装。例如，安装requests库的命令是`pip install requests`。若使用PyCharm，可以在设置中的Project Interpreter界面添加并安装所需的库。 2. **获取网页内容**： - 通过`requests.get()`函数获取网页HTML内容。`raise_for_status()`方法用来检查HTTP状态码，确保返回的状态码是200，表示请求成功。然后根据网页的编码方式（通常使用`apparent_encoding`）设置正确的编码，以正确解析非UTF-8的网页。 3. **数据解析**： - 使用BeautifulSoup解析HTML内容。例如，`BeautifulSoup(html, 'html.parser')`创建一个解析器实例，其中 `'html.parser'` 是解析器类型，也可以选择其他如lxml。接着，可以使用BeautifulSoup提供的方法（如find_all()，find()等）来提取所需数据。 4. **数据处理**： - 从解析后的HTML中提取到的数据通常是字符串形式，需要进一步处理成结构化的数据，如列表或字典。可以利用Python的字符串操作，正则表达式或者BeautifulSoup的属性和方法来实现。 5. **数据存储**： - 抓取的数据通常会被保存到文件，如CSV或JSON，以便后续分析。pandas的`DataFrame`对象可以方便地将数据写入这些格式，如`df.to_csv('bilibili_ranking.csv', index=False)`。 6. **数据分析**： - 利用pandas的强大功能进行数据清洗、统计分析，比如计算平均值、排名变化等。 7. **数据可视化**： - matplotlib库可以帮助我们将数据可视化，如制作条形图、折线图等，以直观展示动漫排行榜的变化趋势。例如，`plt.bar()`绘制条形图，`plt.plot()`绘制折线图，`plt.show()`显示图形。在实际操作中，要注意遵守网站的爬虫政策，避免频繁请求造成服务器负担，必要时可设置延时。同时，由于网页结构可能变动，爬虫代码可能需要定期更新以适应变化。本项目提供了一个基础的Python爬虫流程，适合初学者实践，也鼓励对代码进行优化和扩展，如使用Scrapy框架提高爬虫效率，或结合其他数据可视化库如seaborn、plotly等增强可视化效果。通过这个项目，不仅可以提升Python爬虫技能，还能锻炼数据分析和解决问题的能力。

bf = tag.find('span', class_='data-box').get_text()

# 统一单位为‘万’

if '亿' in bf:

num = float(re.search(r'\d(.\d)?', bf).group()) * 10000

# print(num)

bf = num

else:

bf = re.search(r'\d*(\.)?\d', bf).group()

play.append(float(bf))

print(play)

# ******************************************** 评论数存储

for tag in soup.find_all('div', class_='detail'):

# pl = tag.span.next_sibling.next_sibling

pl = tag.find('span', class_='data-box').next_sibling.next_sibling.get_text()

# *********统一单位

if '万' not in pl:

pl = '%.1f' % (float(pl) / 10000)

# print(123, pl)

else:

pl = re.search(r'\d*(\.)?\d', pl).group()

review.append(float(pl))

print(review)

# ******************************************** 收藏数

for tag in soup.find_all('div', class_='detail'):

sc = tag.find('span',

class_='data-box').next_sibling.next_sibling.next_sibling.next_sibling.get_text()

sc = re.search(r'\d*(\.)?\d', sc).group()

favorite.append(float(sc))

print(favorite)

# ******************************************** 综合评分

for tag in soup.find_all('div', class_='pts'):

zh = tag.find('div').get_text()

TScore.append(int(zh))

print('综合评分', TScore)

其中有个.next_sibling 是用于提取同级别的相同标签信息，如若没有这个方法，当它找到第

一个’span’标签之后，就不会继续找下去了（根据具体情况来叠加使用此方法）;

还用到了正则表达式来提取信息（需要导入库’re’）

最后我们将提取的信息，存进 excel 表格之中，并返回结果集

# 存储至 excel 表格中

info = {'动漫名': name, '播放量(万)': play, '评论数(万)': review,'收藏数(万)': favorite, '综合

评分': TScore}

dm_file = pandas.DataFrame(info)

剩余10页未读，继续阅读

IT狂飙

粉丝: 4840
资源: 2651

B站动漫排行榜爬取与数据分析教程

python爬取天气数据并做可视化分析.docx

python爬虫数据可视化.docx

基于Python语言的招聘信息可视化分析.docx

基于大数据python爬虫的房产数据可视化分析系统 论文.docx

数据可视化12.27.docx

大学计算机课程报告-Python爬虫与可视化.docx

基于Anaconda环境下的Python数据分析及可视化.docx

如何用Python进行大数据挖掘和分析.docx

基于python爬虫的菜价可视化系统源码数据库.docx

基于python的数据可视化.docx

最新资源

基于大数据python爬虫的房产数据可视化分析系统论文.docx